OpenClaw 模型选择指南:10 个模型实测对比
OpenClaw 支持接入各种大模型,但哪个模型最适合?我们做了目前最全面的 OpenClaw 模型评测,覆盖 10 个主流模型和 205 个真实场景。
测试方法
我们设计了两组测试:
- 简单测试(130+ 场景):单步工具调用、拒绝不合理请求
- 高难度测试(75+ 场景):5 步工作流、连续错误恢复、数据传递链、系统排障、模糊指令理解、依赖链、代码修复循环、渐进式部署
简单任务结果
| 模型 | 格式正确率 | 工具选择率 | 平均延迟 |
|---|---|---|---|
| Qwen3-Coder-Plus | 100% | 100% | 1.6s |
| Qwen3-Coder-Next | 100% | 100% | 2.6s |
| GLM-5 | 100% | 100% | 4.2s |
| MiniMax-M2.5 | 100% | 100% | 4.0s |
| Qwen3.5-Plus | 100% | 92% | 4.0s |
| GLM-4.7 | 100% | 92% | 2.5s |
| DeepSeek-V3 | 100% | 92% | 5.5s |
| Kimi-K2.5 | 100% | 85% | 2.7s |
结论:简单任务区分度不大。4 个模型达到 100%,其他也在 85% 以上。如果你只做简单的单步操作,用哪个差别不大。
高难度任务结果
真正的差距在复杂场景中暴露出来:
| 模型 | 综合得分 | 错误恢复 | 依赖链 | 模糊指令 |
|---|---|---|---|---|
| GLM-5 | 83% | 80% | 20% | 65% |
| MiniMax-M2.5 | 81% | 76% | 50% | 55% |
| Kimi-K2.5 | 81% | 76% | 20% | 65% |
| Qwen3-Coder-Plus | 79% | 76% | 20% | 25% |
| DeepSeek-V3 | 73% | 56% | 20% | 65% |
每个模型的特点
GLM-5 — 综合冠军。总分 83%,在 205 场景评测中排名第一。错误恢复 80%,模糊指令 65%,终端命令 90%,渐进式操作 100%。通过百炼 Coding Plan 免费使用,性价比最高。
MiniMax-M2.5 — 浏览器和消息之王。总分 81%,浏览器操作 100%,消息发送 60%(所有模型中最高)。缺点是速度偏慢(4 秒)。
Kimi-K2.5 — 意外的全能选手。总分 81%,与 MiniMax 并列第二。文件操作 100%,浏览器 100%,模糊指令 65%。但消息发送只有 30%,是明显短板。
Qwen3-Coder-Plus — 速度之王。总分 79%,简单任务 100% 且只要 1.6 秒。文件、搜索、定时任务全满分。但消息发送 50%,模糊指令仅 25%。
DeepSeek-V3 — 多步任务最强。总分 73%,多步工作流 80%(所有模型中最高),模糊指令 65%。但消息发送只有 15%,是所有模型中最差的。
最佳策略:不选一个,用多个
没有一个模型在所有场景下都最好。最优策略是根据任务类别动态选择:
- 文件/搜索/定时 → Qwen3-Coder-Plus(100%,最快)
- 终端/错误恢复/模糊指令 → GLM-5(65-90%)
- 消息/浏览器 → MiniMax-M2.5(60-100%)
- 多步工作流 → DeepSeek-V3(80%)
- 通用 → GLM-5(83%,综合最强)
ClawBrain:自动选择最优模型
ClawBrain 内置 10 个模型的智能路由,根据任务复杂度自动分配最优模型。加上 Prompt 增强、错误恢复、链路保护,综合得分达到 ~90%。