ClawBrain v0.9:输出验证、智能容错,让每个回答都靠谱
为什么需要输出验证?
单一大模型的输出不可控:可能编造数据、遗漏关键步骤、格式混乱。传统方案是人工检查,但在 Agent 场景下不现实——你的 AI 每天处理上百个任务,不可能每个都人工审核。
ClawBrain v0.9 的解决方案:用第二个模型自动校验第一个模型的输出。
输出验证器:四维评分
| 维度 | 检查内容 | 分值 |
|---|---|---|
| 准确性 | 信息是否正确,有无编造 | 0-25 |
| 完整性 | 是否完整回答了问题 | 0-25 |
| 逻辑性 | 推理是否连贯 | 0-25 |
| 格式性 | 格式是否规范 | 0-25 |
总分 70 分以上通过,不通过则注入反馈让不同模型重新生成。
不是每次都验证——只在复杂任务或质量分低于阈值时触发,日常简单问答零开销。
模型健康监控:看不见的守护者
| 机制 | 说明 |
|---|---|
| 滑动窗口 | 追踪最近 50 次请求的成功率和响应时间 |
| 熔断器 | 连续 5 次失败自动隔离,60 秒后探测恢复 |
| 能力画像 | 8 个模型在 14 个任务类别上的能力评分 |
| 动态路由 | 能力 60% + 健康度 40% 加权选择最优模型 |
你不需要关心哪个模型好用——ClawBrain 实时追踪,自动把任务分给当前最可靠的模型。
空回复自动重试
之前的问题:模型有时候"想了很久"但最后什么都没说,用户看到空白。
v0.9 的修复:检测到空回复后,自动用另一个模型重试。非流式和流式两条路径都覆盖。用户无感知,只会觉得"回答来了"。
压缩安全网
超长对话需要压缩上下文,但压缩本身可能出问题:
- 压缩摘要混入了模型内部标签(如
think标签) — v0.9 自动清洗 - 摘要太短丢失了关键信息 — v0.9 设置 200 字质量下限
- 压缩完全失败 — v0.9 硬截断兜底(保留最近对话,不发 128K 原文给后端)
使用最佳实践
| 场景 | 建议 |
|---|---|
| 数据分析 | 提供明确的数据来源,不要依赖 AI 凭空生成数据 |
| 连续图片 | 用文字补充关键信息,帮助 AI 区分不同图片 |
| 超长对话 | 关键信息主动重申,不要假设 AI 记得所有细节 |
| 复杂任务 | 如果 AI 兜圈子,直接说"换一种方案" |
| 格式要求 | 明确说明期望的输出格式(JSON/Markdown/表格等) |
升级说明
v0.9 已自动部署,所有用户无需操作即可享受以上改进。API 接口完全兼容,无需修改代码。
如果你在使用中遇到任何问题,欢迎在控制台反馈。