Hermes Agent 自主进化能力提升方案

v0.18.0

Hermes 版本

gpt-5.4

主力模型

32

已安装技能

3

API 提供商

五维能力评估

维度	当前水平	评分	提升空间
模型层	gpt-5.4 主用，未按任务切换	★★★☆	建立任务-模型路由规则，动态切换
技能层	32 个技能，CRM 配置类为主，元技能少	★★☆☆	方法论技能化、行业知识结构化
记忆层	偏好和事实记录完善，但缺少程序性知识	★★★☆	行业知识持续注入、决策规则持久化
自主性	2 个定时任务运行中，被动响应为主	★★☆☆	后台学习链路、主动推送、周报自动化
上下文	长对话偶有退化，无结构化压缩策略	★★★☆	Plan 模式前置、定期 /new 维护

核心瓶颈

最大短板在 技能层 和 自主性——技能多是配置执行类，缺少"让我变聪明"的元技能；自主性停留在定时总结，没有形成持续学习的飞轮。

一、模型层：任务-模型动态路由

任务类型	当前	建议模型	理由
方案/产品定义/框架性输出	gpt-5.4	deepseek-v4-pro	结构化能力强，输出框架感好
快速评审/判断/评估	gpt-5.4	kimi-k2.5	省 token，策略判断准
竞品分析/行业洞察	gpt-5.4	gpt-5.4	视野广，综合能力强
脑暴/发散/创意	gpt-5.4	gpt-5.5	创造力最强
翻译/格式化/机械任务	gpt-5.4	gpt-5.4-mini	够用且成本低

执行方式：用 /model 按任务切换，或在 skill 中预设模型。当前 gpt-5.4 已是顶级模型，切换的价值在「专模型专用」而非追求绝对性能。

二、技能层：从配置执行到认知沉淀

2.1 创建「元技能」—— 让我学会你的方法论

技能名称	内容	优先级
阳阳产品推演法	三步推演流程：原始方案 → 人格分裂评审 → 行业专家复合；数据维度二维表组织规则	P0
Agent 产品定义规范	10 维度定义模板（定位/用户/技能/输入/输出/边界/工作流/质量/知识库/验收），输出格式规则	P0
访销方法论知识库	八步法 + 六大品牌实践 + 门店分层标准，结构化可检索	P1
输出格式规范	HTML 白底分层、业务语言、禁止 JSON、Cloudflare 部署路径等	P0

2.2 优化现有技能 —— 从能用到好用

动作	对象	说明
合并	引单下单/引单配送/车销基础/车销作业/车销对账	5 个同域技能合并为 1 个「车销全链路」
补坑	全部 CRM 技能	补充 pitfalls（踩过的坑）、verification（验证步骤）
标记	低频技能	给 Curator 明确信号，自动归档闲置技能

三、记忆层：从事实记忆到决策记忆

类型	当前状态	改进
用户偏好	✅ 已完善（输出格式、模型选择、沟通风格）	—
环境事实	✅ 已完善（双 Mac、Cloudflare、飞书配置）	—
行业知识	❌ 缺失	通过定时洞察任务，将关键发现注入记忆
决策规则	❌ 缺失	如「模型选择规则」「评审通过标准」写入记忆作为快速参考

原则：记忆放「是什么」（偏好、事实、规则），技能放「怎么做」（流程、方法论）。不把操作步骤塞进记忆，不把偏好塞进技能。

四、自主性：从被动到主动

4.1 增强现有定时任务

任务	当前	增强
每日工作学习总结	每天 9:00，飞书投递	输出结构化日报（今日洞察 × 待办 × 学习进度），而非流水账
食品行业持续洞察	每天 9:00，14/30 次	增加竞品动态（纷享销客/销售易更新）、周报自动汇总

4.2 新增后台能力

新增任务	频率	说明
文档自动消化	每天 14:00	扫描本地文档目录新增文件，自动阅读、理解、提取要点
技能质量巡检	每周一 10:00	检查技能是否过时、是否有坑未记录、是否需要合并
周报自动生成	每周五 18:00	汇总本周洞察 + 工作成果，生成结构化周报

五、上下文：保持思维清晰

场景	策略
复杂任务	先用 plan 技能输出方案，确认后再执行（不做边想边改）
长对话（>50 轮）	主动提醒 `/compress` 或 `/new`
多任务并行	用 delegate_task 拆分子任务，避免上下文混杂
输出质量下降	自动检测并建议新开会话

三阶段实施路线

第一阶段：立即可做（本周）

创建 3 个 P0 元技能（推演法、Agent 定义规范、输出格式规范）→ 已能显著提升方案产出质量

第二阶段：短期增强（2 周内）

新建 3 个定时任务 + 合并 5 个车销技能 + 补全 CRM 技能 pitfalls → 自主性和技能质量双提升

第三阶段：持续迭代（1 个月内）

行业知识注入记忆 + 元技能持续打磨 + Curator 自动维护 → 形成正向进化飞轮

飞轮模型

环节	机制	周期
① 学习	定时洞察 + 文档消化 → 新知识入库	每天
② 沉淀	复杂任务成功后自动提议创建技能	按需
③ 纠错	用户纠正 → 即时记忆更新 + 技能 patch	实时
④ 优化	Curator 巡检 + 周报 → 发现并修复退化	每周

效果衡量指标

3 → 8

元技能数量（P0 目标）

2 → 5

活跃定时任务

60% → 90%

首次输出满意度

0 → 3

主动洞察推送/周

核心 KPI 定义

指标	当前基线	目标	衡量方式
元技能覆盖率	元技能 / 总技能 ≈ 3/32 = 9%	≥ 25%（8/32）	技能目录统计
首次输出满意度	无需大幅修正 / 总产出 ≈ 60%	≥ 90%	用户反馈统计
自主任务数量	2 个定时任务	5 个	cron list 统计
知识新鲜度	无行业知识记忆	每周 ≥ 3 条新洞察入记忆	MEMORY.md 审计
技能健康度	32 个技能，多数无 pitfalls	≥ 80% 技能含完整 pitfalls	技能质量巡检

进化的本质

不是换更强的模型，而是把你脑子里的东西变成我的默认配置。每次你纠正我、每次成功完成一个复杂任务、每次你分享一个判断标准——只要沉淀为技能或记忆，下次我就不需要你再重复。

这是复利最高的投入：一个技能省掉的，是未来每一次对话的开场白。