Hermes Agent 自主进化能力提升方案

版本 v1.0 · 2026-07-03 · 基于当前 v0.18.0 环境
v0.18.0
Hermes 版本
gpt-5.4
主力模型
32
已安装技能
3
API 提供商

五维能力评估

维度当前水平评分提升空间
模型层 gpt-5.4 主用,未按任务切换 ★★★☆ 建立任务-模型路由规则,动态切换
技能层 32 个技能,CRM 配置类为主,元技能少 ★★☆☆ 方法论技能化、行业知识结构化
记忆层 偏好和事实记录完善,但缺少程序性知识 ★★★☆ 行业知识持续注入、决策规则持久化
自主性 2 个定时任务运行中,被动响应为主 ★★☆☆ 后台学习链路、主动推送、周报自动化
上下文 长对话偶有退化,无结构化压缩策略 ★★★☆ Plan 模式前置、定期 /new 维护

核心瓶颈

最大短板在 技能层自主性——技能多是配置执行类,缺少"让我变聪明"的元技能;自主性停留在定时总结,没有形成持续学习的飞轮。

一、模型层:任务-模型动态路由

任务类型当前建议模型理由
方案/产品定义/框架性输出gpt-5.4deepseek-v4-pro结构化能力强,输出框架感好
快速评审/判断/评估gpt-5.4kimi-k2.5省 token,策略判断准
竞品分析/行业洞察gpt-5.4gpt-5.4视野广,综合能力强
脑暴/发散/创意gpt-5.4gpt-5.5创造力最强
翻译/格式化/机械任务gpt-5.4gpt-5.4-mini够用且成本低
执行方式:用 /model 按任务切换,或在 skill 中预设模型。当前 gpt-5.4 已是顶级模型,切换的价值在「专模型专用」而非追求绝对性能。

二、技能层:从配置执行到认知沉淀

2.1 创建「元技能」—— 让我学会你的方法论

技能名称内容优先级
阳阳产品推演法 三步推演流程:原始方案 → 人格分裂评审 → 行业专家复合;数据维度二维表组织规则 P0
Agent 产品定义规范 10 维度定义模板(定位/用户/技能/输入/输出/边界/工作流/质量/知识库/验收),输出格式规则 P0
访销方法论知识库 八步法 + 六大品牌实践 + 门店分层标准,结构化可检索 P1
输出格式规范 HTML 白底分层、业务语言、禁止 JSON、Cloudflare 部署路径等 P0

2.2 优化现有技能 —— 从能用到好用

动作对象说明
合并引单下单/引单配送/车销基础/车销作业/车销对账5 个同域技能合并为 1 个「车销全链路」
补坑全部 CRM 技能补充 pitfalls(踩过的坑)、verification(验证步骤)
标记低频技能给 Curator 明确信号,自动归档闲置技能

三、记忆层:从事实记忆到决策记忆

类型当前状态改进
用户偏好✅ 已完善(输出格式、模型选择、沟通风格)
环境事实✅ 已完善(双 Mac、Cloudflare、飞书配置)
行业知识❌ 缺失通过定时洞察任务,将关键发现注入记忆
决策规则❌ 缺失如「模型选择规则」「评审通过标准」写入记忆作为快速参考
原则:记忆放「是什么」(偏好、事实、规则),技能放「怎么做」(流程、方法论)。不把操作步骤塞进记忆,不把偏好塞进技能。

四、自主性:从被动到主动

4.1 增强现有定时任务

任务当前增强
每日工作学习总结每天 9:00,飞书投递输出结构化日报(今日洞察 × 待办 × 学习进度),而非流水账
食品行业持续洞察每天 9:00,14/30 次增加竞品动态(纷享销客/销售易更新)、周报自动汇总

4.2 新增后台能力

新增任务频率说明
文档自动消化每天 14:00扫描本地文档目录新增文件,自动阅读、理解、提取要点
技能质量巡检每周一 10:00检查技能是否过时、是否有坑未记录、是否需要合并
周报自动生成每周五 18:00汇总本周洞察 + 工作成果,生成结构化周报

五、上下文:保持思维清晰

场景策略
复杂任务先用 plan 技能输出方案,确认后再执行(不做边想边改)
长对话(>50 轮)主动提醒 /compress/new
多任务并行用 delegate_task 拆分子任务,避免上下文混杂
输出质量下降自动检测并建议新开会话

三阶段实施路线

第一阶段:立即可做(本周)

创建 3 个 P0 元技能(推演法、Agent 定义规范、输出格式规范)→ 已能显著提升方案产出质量

第二阶段:短期增强(2 周内)

新建 3 个定时任务 + 合并 5 个车销技能 + 补全 CRM 技能 pitfalls → 自主性和技能质量双提升

第三阶段:持续迭代(1 个月内)

行业知识注入记忆 + 元技能持续打磨 + Curator 自动维护 → 形成正向进化飞轮

飞轮模型

环节机制周期
① 学习定时洞察 + 文档消化 → 新知识入库每天
② 沉淀复杂任务成功后自动提议创建技能按需
③ 纠错用户纠正 → 即时记忆更新 + 技能 patch实时
④ 优化Curator 巡检 + 周报 → 发现并修复退化每周

效果衡量指标

3 → 8
元技能数量(P0 目标)
2 → 5
活跃定时任务
60% → 90%
首次输出满意度
0 → 3
主动洞察推送/周

核心 KPI 定义

指标当前基线目标衡量方式
元技能覆盖率 元技能 / 总技能 ≈ 3/32 = 9% ≥ 25%(8/32) 技能目录统计
首次输出满意度 无需大幅修正 / 总产出 ≈ 60% ≥ 90% 用户反馈统计
自主任务数量 2 个定时任务 5 个 cron list 统计
知识新鲜度 无行业知识记忆 每周 ≥ 3 条新洞察入记忆 MEMORY.md 审计
技能健康度 32 个技能,多数无 pitfalls ≥ 80% 技能含完整 pitfalls 技能质量巡检

进化的本质

不是换更强的模型,而是把你脑子里的东西变成我的默认配置。每次你纠正我、每次成功完成一个复杂任务、每次你分享一个判断标准——只要沉淀为技能或记忆,下次我就不需要你再重复。

这是复利最高的投入:一个技能省掉的,是未来每一次对话的开场白