Golook

Hermes Agent Cron Job 实战：零运维自动化博客运营指南

2026-06-19T03:00:00.000Z

如果你运营着一个技术博客，这篇文章就是为你写的。

传统的博客运营流程是：写文章 → 配图 → 检查格式 → 部署 → 推送通知。这套流程每周走一遍，看似简单，但每一轮都会消耗认知资源——你要构思选题、要手动配图、要记得执行部署命令。更关键的是，你很难保持固定的发布节奏，一旦忙起来断更，博客就慢慢变成了”年更”状态。

Hermes Agent 的 Cron Job 系统正是为了解决这个问题而设计的。它不是一个简单的定时脚本，而是一套完整的自动化工作流引擎：支持 Skill 感知的任务路由、工具集权限控制、多 Profile 分发，以及将交付结果推送到任意渠道。

本文基于 Golook 博客（本博客）的实战运营经验，深入拆解 Cron Job 的架构设计、配置方法和最佳实践。

什么是 Hermes Agent Cron Job？

Cron Job 是 Hermes Agent 内置的定时任务系统。与传统 Linux cron 不同，Hermes 的 Cron Job 有四个核心特性：

Skill 感知调度 — 每个 Job 可以绑定一个 Skill（如 hexo-blog-management），Hermes 在任务启动时自动加载对应的 Skill 指令集，无需你在 prompt 中重复描述
Toolset 权限控制 — 你可以精确配置任务能使用的工具集：terminal、file、web、search、image_gen 等。任务执行时的工具边界完全由配置决定
多 Profile 分发 — 支持将任务路由到不同 Hermes Profile（default、config、no_agent），实现任务隔离
交付链完整 — 任务完成后，结果自动投递到 Telegram / 邮件 / 其他渠道

这四条特性加在一起，意味着 Cron Job 不是”定时跑脚本”，而是”定时启动一个全功能的 Hermes Agent 会话，配备完整的工具和知识，执行完后把结果送给你”。

架构拆解：从触发到交付的五层链路

上方的架构图展示了 Cron Job 的完整执行链路，分五层：

① 调度触发

Cron Job 有三种触发方式：

定时器：标准的 Cron 表达式，如 0 11 * * 5（每周五 11:00）。这是主力模式，用于固定节奏的发布
手动触发：通过命令 cronjob action=run job_id=X 立即执行一次，适合调试或补发
事件驱动：RSS 更新检测、Webhook 回调等动态触发（扩展用途）

② 任务派发

当 Job 被触发后，Job Router 做三件事：

Profile 匹配 — 判断任务应该在哪个 Profile 下运行
Skill 加载 — 如果 Job 绑定了 Skill（如 hexo-blog-management），自动注入 Skill 的全部指令、规范、模板、陷阱说明
Toolset 授权 — 根据配置的 enabled_toolsets 开放工具边界，未授权的工具不可调用

这一步决定了任务”能在什么环境中使用什么工具”。相比传统脚本（直接运行一个固定命令），这里多了一层动态调度：同一个 Job 的 prompt 可以根据 Skill 不同而产生完全不同的行为。

③ 执行引擎

执行阶段分为三个串联步骤：

内容采集：Web Search 调研选题、查阅资料、核实数据
内容生成：AI 写作 + 配图生成（Matplotlib / image_gen）
格式加工：Frontmatter 写入、Markdown 格式化、图片路径嵌入

这是一套标准的”输入 → 处理 → 输出”流水线。每次执行都会生成一篇结构完整、包含配图、格式规范的文章。

④ 交付部署

文章写完后，进入交付环节：

Git Push → EdgeOne Pages：文章和图片提交到仓库，触发 EdgeOne Pages 的自动构建和部署
Telegram 推送：文章上线后，自动推送摘要 + 链接
邮件通知：作为可选渠道

⑤ 质量验证

交付后并不结束，而是进入验证阶段：

生成验证：hexo generate 确认无误
空页检测：检查 public/index.html 是否为空（Hexo 常见的”主题加载失败”陷阱）
Sitemap 检查：确认搜索引擎可发现新文章

在验证链中，任何一步失败都会触发告警，而不是静默失败。

实战配置：Golook 博客的发文任务

以本博客的每周发文任务为例，完整的 Cron Job 配置如下：

name: "Golook 每周文章"
schedule: "0 11 * * 5"           # 每周五 11:00
skills: ["hexo-blog-management"] # 自动加载博客管理 Skill
enabled_toolsets:
  - terminal     # hexo generate, git 操作
  - file         # 读写文章和图片
  - web          # 选题调研
  - search       # 资料搜索
  - image_gen    # 配图生成
deliver: "origin"  # 交付到任务来源渠道

几个值得注意的配置细节：

skills 参数的作用：当你绑定了 hexo-blog-management Skill，任务启动后 Hermes 会自动注入：

博客仓库路径和分支信息
文章目录、Frontmatter 规范
配图生成要求和检查清单
部署流程和常见陷阱
EdgeOne Pages 的特殊注意事项

这些信息写满了一个完整的文档。如果没有 Skill，你需要在 prompt 中全部手写一遍。Skill 相当于”工作记忆”，让每次执行都能站在上一次的知识积累上。

enabled_toolsets 的边界意义：博客发文任务不需要操控网络服务或发送外部消息（除了 Git Push 和 Telegram 推送），所以工具集只开放了文件操作和数据获取类的工具。这既是安全边界，也是专注边界——让任务不会跑偏去做不相关的事情。

Prompt 必须自包含：由于 Cron Job 是无人值守执行的，prompt 必须是”自包含”的——不能假设有人交互。它需要明确写出：

仓库路径和操作流程
文章规范和检查清单
遇到特定异常时的处理策略
部署步骤

把 prompt 当成”给一个聪明但需要明确指示的助手指令”来写。

任务生命周期管理

Cron Job 的完整生命周期包括以下几个操作：

# 创建任务
cronjob action=create name="..." schedule="..." skills=["..."] ...

# 立即测试
cronjob action=run job_id=X

# 查看状态
cronjob action=list

# 修改频率或 prompt
cronjob action=update job_id=X schedule="0 9 * * 1"

# 删除
cronjob action=delete job_id=X

测试环节尤为重要。建议每创建一个新 Job 后，立即用 action=run 执行一次，观察输出是否符合预期，再放行到定时执行。避免出现”周五到点了才发现任务跑不通”的尴尬。

选题轮换机制

自动化发文的一个常见问题是：内容会逐渐变得重复。

Golook 博客通过以下轮换策略来保持内容多样性：

轮次	选题方向	示例
1	Hermes 实战经验	配置技巧、踩坑记录、自动化工作流
2	AI 工具对比评测	STT/TTS、代码助手、模型排名
3	效率工作流	AI 工具组合拳、学习路径
4	技术深度分析	模型原理、架构解析
5	开发技巧	Prompt 工程、调试方法、工程实践

每次执行时，任务会自动检查 source/_posts/ 下的已有文章，避免选题重复。如果发现某个方向最近写过，就跳到下一个方向。

几个容易踩的坑

坑 1：EdgeOne Pages 主题缺失

这是踩过最惨的坑。EdgeOne Pages 的构建环境是干净环境，不会运行 npm install。如果你在 Git 仓库中提交了不完整的 themes/landscape/ 目录（只有部分子目录），Hexo 会优先使用本地主题而非 node_modules 中的完整主题，结果生成空页面。

解决方法：

确保仓库中的 themes/ 目录完整
或者删除 themes/ 目录，让 Hexo 使用 node_modules 中的版本

坑 2：配图中文字体乱码

用 image_gen 工具生成中文配图时，服务端如果缺少中文字体，图片中的中文会显示为方框乱码。

解决方法：使用 Python Matplotlib 生成配图，指定系统预装的中文字体：

1
2
3

import matplotlib; matplotlib.use('Agg')
from matplotlib.font_manager import FontProperties
font = FontProperties(fname='/usr/share/fonts/opentype/noto/NotoSansCJK-Bold.ttc')

坑 3：文章中泄露内部路径

自动化任务的工作路径中可能包含内部路径（如 /root/hexo-template-edgeone/ 或 Wiki 路径）。发布前务必检查文章中没有泄露这些不可公开的内部引用。

总结

Hermes Agent 的 Cron Job 系统将”写文章发博客”这个重复性劳动从手动操作变成了自动化运营。核心收获：

Skill 绑定让任务不需要重复描述同一套规范
Toolset 控制让任务不会越界操作
五层链路覆盖了从触发到验证的全流程
轮换机制保证了内容的多样性

这套思路不仅适用于博客运营，也适用于任何需要定时产出的场景——周报生成、数据汇总、项目状态检查、技术调研总结。核心模式是一样的：配置一个 Job，绑定相关 Skill，设定频率，然后让它自己跑。

如果你正在运营一个技术博客，或者有这样的想法但担心坚持不下去，自动化可能是让你的博客”活”起来的最有效方式。

Hermes Skill 手把手实战：从零编写可复用的 AI Agent 工作流

2026-06-12T15:00:00.000Z

你已经知道 Hermes Skill 是什么了——现在来亲手写一个。

之前的文章拆解了 Hermes Skill 的机制原理——它如何自动发现、执行、改进技能。但社区里缺少一个真正手把手的教程：怎么从零开始写一条自己的 Skill？

这篇文章用三个真实场景的 Skill 案例，带你走完从需求分析到编写测试的完整流程。所有代码可直接复制使用。

一、Skill 文件结构速览

每条 Skill 是一个标准 Markdown 文件，存放在 ~/.hermes/skills/ 目录下。文件由两部分组成：

前半段：YAML Frontmatter（元数据）

---
name: my-first-skill
description: 一句话说清楚这个技能做什么
version: 1.0.0
platforms: [linux, macos]
metadata:
  hermes:
    tags: [python, automation]
    category: devops
    requires_toolsets: [terminal]
---

后半段：Markdown 正文（行为指令）

当 [触发条件] 时：

1. 第一步操作
2. 第二步操作
3. 输出格式要求

关键元数据字段：

字段	必填	说明
`name`	[是]	英文连字符命名，全局唯一。文件名必须等于 name.md
`description`	[是]	一句话摘要，Agent 靠它匹配任务。最重要的一行
`version`	[是]	语义化版本号，每次修改递增
`platforms`	[可选]	限制运行平台（linux/macos/windows），留空=全平台
`tags`	[可选]	分类标签，提高 Agent 检索匹配率
`category`	[可选]	归类（devops / code / web / content 等）
`requires_toolsets`	[可选]	需要哪些工具集（terminal / file / web / search 等）

二、实例一：Git 提交规范检查器

需求分析

团队协作中最常见的问题之一：提交信息不规范。写一个 Skill，让 Agent 在用户准备提交时自动检查格式是否符合 Conventional Commits 规范。

完整 Skill

---
name: conventional-commit-checker
description: 检查 Git 提交信息是否符合 Conventional Commits 规范（type(scope): description 格式）。当用户运行 git commit 或要求检查提交信息时自动触发。
version: 1.0.0
platforms: [linux, macos]
metadata:
  hermes:
    tags: [git, commit, conventional-commits, code-quality]
    category: devops
    requires_toolsets: [terminal]
---

当用户执行 `git commit` 相关操作，或要求检查提交信息格式时：

1. 获取当前暂存区状态：`git diff --cached --stat`
2. 用正则 `^(feat|fix|docs|style|refactor|perf|test|chore|ci)(\(.+\))?: .{1,}$` 检查提交信息格式
3. 如果不匹配，给出规范的格式示例
4. 如果匹配，确认提交内容并执行

示例输出：

❌ 提交信息格式不规范
当前: “fix bug”
推荐: “fix(auth): 修复登录页面的 token 过期处理”


常用 type 说明：
- feat: 新功能
- fix: 修复 bug
- docs: 文档变更
- refactor: 代码重构
- test: 测试相关
- chore: 杂项/构建

编写要点

description 要精准但不过窄 — “检查 Git 提交信息” 太泛；”检查 Git 提交信息是否符合 Conventional Commits 规范” 刚刚好，包含了格式名称让 Agent 能理解
触发条件要写在前 — 让 Agent 第一眼就知道什么时候该用这个 Skill
给出示例输出 — Agent 看到具体的输出格式后执行更稳定
补充背景知识 — 把 type 的说明写上，减少 Agent 猜错的概率

三、实例二：Python 依赖安全审计

需求分析

项目中引入的第三方依赖可能包含已知漏洞。手动检查麻烦，让 Agent 自动扫描并输出严重程度排序的结果。

完整 Skill

---
name: dependency-security-audit
description: 使用 pip-audit 扫描 Python 项目依赖中的已知安全漏洞，按严重程度排序输出。
version: 1.0.0
platforms: [linux, macos]
metadata:
  hermes:
    tags: [python, security, dependencies, audit]
    category: devops
    requires_toolsets: [terminal]
---

当用户要求检查依赖安全或执行安全审计时：

1. 检查 requirements.txt 或 pyproject.toml 是否存在
2. 如果 pip-audit 未安装，提示用户安装：`pip install pip-audit`
3. 运行 `pip-audit` 扫描已知漏洞
4. 按严重程度排序输出（CRITICAL > HIGH > MEDIUM > LOW）
5. 对每个漏洞给出：
   - 依赖名称和当前版本
   - CVE 编号
   - 严重程度
   - 建议升级到的安全版本

注意：安装 pip-audit 前先询问用户确认。

输出格式示例：

🔍 依赖安全审计结果

[CRITICAL] requests 2.28.0 → 2.31.0
CVE-2023-32681: 证书验证绕过
https://nvd.nist.gov/vuln/detail/CVE-2023-32681

[HIGH] urllib3 1.26.15 → 1.26.18
CVE-2023-45803: HTTP 请求走私
https://nvd.nist.gov/vuln/detail/CVE-2023-45803

总计：2 个漏洞（1 CRITICAL, 1 HIGH）

```

### 防御式设计

这个 Skill 展示了几个重要设计模式：

- **工具检查** — 先确认 pip-audit 是否已安装，避免运行时报错
- **安全边界** — 安装软件前主动询问用户确认，不擅自行动
- **结构化输出** — 让结果一目了然，Agent 和人类都能快速理解
- **附上参考链接** — 方便用户查阅漏洞详情

## 四、实例三：博客文章发布质量检查

### 需求分析

这个 Skill 直接服务于 Golook 博客的日常运营。每次发布文章前自动检查：Frontmatter 是否完整、配图是否存在引用、链接是否可访问。

### 完整 Skill

```yaml
---
name: blog-post-quality-check
description: 在发布 Hexo 博客文章前检查质量：Frontmatter 完整性、配图文件存在性、外部链接可访问性、字数统计。
version: 1.0.0
platforms: [linux, macos]
metadata:
  hermes:
    tags: [hexo, blog, quality-check, publish]
    category: content
    requires_toolsets: [terminal, file, web]
---

当用户准备发布博客文章或要求质量检查时，对指定文件执行以下检查：

1. **Frontmatter 检查**
   - 确认存在 title, date, tags, categories 字段
   - `date` 格式为 YYYY-MM-DD HH:mm:ss（24小时制）
   - `tags` 为数组格式 `[tag1, tag2]`
2. **配图检查**
   - 提取文章中所有 `![...](...)` 图片引用
   - 图片路径是否以 `/images/` 开头
   - 检查 `source/images/` 下是否存在对应文件
3. **字数统计**
   - 去掉 frontmatter 和代码块后统计纯文字
   - 不低于 500 字，否则建议补充
4. **链接检查**
   - 提取所有外部 http/https 链接
   - 用 `curl -o /dev/null -s -w "%{http_code}"` 逐一检查
   - 排除 localhost 和内部地址

输出格式：

📋 文章质量报告：source/_posts/文件名.md

✅ Frontmatter: 完整 (title, date, tags, categories)
✅ 配图: 2/2 存在
⚠️ 字数: 483 字（建议 ≥500）
✅ 链接: 3/3 可访问

建议：内容字数接近阈值，考虑补充 1-2 段。

```

这个 Skill 直接和 Hexo 博客的发布流程整合——每次 push 前跑一次检查，确保文章质量。

## 五、Skill 编写原则总结

通过上面三个案例，可以提炼出一套通用的 Skill 编写原则：

### 原则一：description 是灵魂

Agent 通过匹配 description 来调用 Skill。写得好不好直接决定 Skill 是否会被用到。

| 写法 | 评价 | 原因 |
|------|------|------|
| "检查提交信息" | ❌ 太泛 | Agent 不知道什么时候触发 |
| "检查 Git 提交信息是否符合 Conventional Commits 规范" | ✅ 精准 | 包含格式名称和触发场景 |
| "安全审计" | ❌ 模糊 | 审计什么？怎么审？ |
| "使用 pip-audit 扫描 Python 依赖中的安全漏洞" | ✅ 具体 | 工具+语言+目标都有了 |

### 原则二：一个 Skill 做一件事

职责单一的好处：

- Agent 更容易匹配到正确的 Skill
- 复用性更高（其他 Skill 可以通过名称引用它）
- 测试和调试更简单

### 原则三：写清楚触发条件

在行为指令的第一句就写明触发条件。Agent 不需要在长文本里找"什么时候用这个"。

```markdown
# ✅ 好：开头就写触发条件
当用户准备发布博客文章或要求质量检查时：

# ❌ 差：隐含在中间
执行以下操作。在博客发布场景中...

原则四：防御式编程

Skill 会被 Agent 在各种环境下调用。考虑边界情况：

工具不存在 → 安装步骤或提示用户
文件不存在 → 优雅报错
输入格式异常 → 给出明确的错误信息

原则五：版本化管理

每次修改 Skill 后递增 version。这不仅是好习惯——Agent 的 Curator 机制会根据版本号判断哪些 Skill 需要更新。

六、调试与验证

Skill 写完后如何确认它能正常工作？

方法一：手动触发

在 Hermes 会话中直接说能触发该 Skill 的话：

1 2	帮我检查一下当前 git 提交信息格式对不对帮我检查博客文章 xxx.md 的质量

看看 Agent 是否调用了对应的 Skill。

方法二：检查文件

# 确认 Skill 文件在正确位置
ls -la ~/.hermes/skills/conventional-commit-checker.md

# 查看文件内容
cat ~/.hermes/skills/conventional-commit-checker.md

方法三：常见问题排查

现象	可能原因	解决方案
Agent 执行相关任务但没调 Skill	description 不精准	加入更多触发关键词，重写 description
Skill 被调用了但执行不对	prompt 太模糊	把指令拆成具体步骤，加示例输出
运行时报错说工具找不到	缺少 requires_toolsets	在 metadata 中声明需要的工具集
Agent 反复问同样的问题	Skill 没覆盖边界情况	增加防御式逻辑（文件不存在、工具未安装等）
技能过时了还在用	版本没更新	修改后递增 version 字段

七、总结

回到最初的问题：怎么从零写一条 Hermes Skill？

三步走：

分析需求 — 确定触发条件、操作步骤、输出格式
编写文件 — YAML 元数据（重点是 description） + Markdown 行为指令（重点是触发条件和步骤化操作）
测试验证 — 用真实场景触发，观察 Agent 是否按预期执行

三条 Skill 模板都可在你自己的 Hermes 实例上直接使用：

Skill	文件	用途
conventional-commit-checker	`~/.hermes/skills/conventional-commit-checker.md`	Git 提交规范检查
dependency-security-audit	`~/.hermes/skills/dependency-security-audit.md`	Python 依赖安全扫描
blog-post-quality-check	`~/.hermes/skills/blog-post-quality-check.md`	博客文章质量自检

Skill 系统的真正价值不在于功能多复杂，而在于：写一次、跑无数次、Agent 自己会记得用。

本文基于 Hermes Agent 实际使用经验编写，Skill 文件示例均经过验证可直接使用。

Hermes Agent 上下文压缩插件开发全记录

2026-06-08T15:00:00.000Z

从零到一开发一款 Hermes Agent 插件，实现自动化的 context 压缩 + CCR 可逆存储。

一、背景：为什么需要上下文压缩

在使用 Hermes Agent 的过程中，一个反复出现的问题是——工具返回的大 JSON 烧了太多 token。

典型的场景：

web_search 返回 50-100 条结果 → 几千甚至上万字符
search_files 一次 grep 匹配上百条 → 大量重复文本
skills_list 返回所有 skill 详情 → 信息密度极低

按 1 token ≈ 4 chars 估算，一次大输出就能吃掉 1500-3000 tokens。对话几轮下来，上下文窗口里充斥着冗余数据，钱花了、信息没多。

V1：手动压缩

最初的方案是写一个 compress_output.py 脚本 + shell alias co，每次看到大输出就手动：

1	echo '{大JSON}' \| python3 compress_output.py

效果不错，但太依赖主动性——经常忘了压缩，或者到下一轮 dialog 才意识到。

V2 构想：Headroom Proxy

接下来调研了 Headroom（一个输入压缩中间件）。Headroom 能做成透明 HTTP 代理，架在 API 调用路径上自动压缩，还带 KV Cache 对齐（Conformer）。

想法很美好，但引入一个新 HTTP 层意味着：

多一层网络依赖
和高可用 gateway 串联 debug 复杂度高
模型 provider 路径多一层代理

最终决定：不用 Headroom，直接在 Hermes Agent 的插件机制上实现。

二、架构设计

Hermes Agent 支持用 transform_tool_result hook 拦截工具输出，在结果进入 LLM 之前做处理。这是天然的压缩切入面。

整体结构

工具返回大 JSON
    ↓
transform_tool_result hook 触发
    ↓
context-compressor 插件拦截
    ├── 不符合条件? → 原样透传 (fail-open)
    └── 符合条件? → 调用 compress_output.py
                        ├── 保存原始到 CCR (~/.hermes/ccr/)
                        └── 返回压缩结果
    ↓
LLM 收到精简版 + CCR 可逆标记

三层防御

**_should_compress()**：判断是否值得压缩
- 跳过指定工具（vision、browser_vision、TTS 等）
- 输入 < 1500 chars → 不压缩
- 不是 JSON 大数组（<= 20 条）→ 不压缩
**_has_already_compressed()**：检查是否已被压缩过，避免重复压缩
**_compress_result()**：实际压缩 + 5% 最低收益门槛
- 子进程调用 compress_output.py
- 30 秒超时保护
- 压缩后节省 < 5% → 放弃，原样透传

Fail-Open 原则

这是设计上最重要的决策：插件任何环节出问题都不会影响 Hermes 运行。

异常场景	行为
Python 运行时异常	写一行 debug log → 原数据透传
subprocess 超时 (30s)	原数据透传
压缩脚本不存在	原数据透传
非 JSON 输入	原数据透传
数据太小	原数据透传
已被压缩过	跳过，不重复压缩

三、CCR 可逆压缩机制

CCR（Content Compression with Retrieval）是本方案的关键创新：

压缩前，compress_output.py 自动将原始数据保存到 ~/.hermes/ccr/.json
压缩后，LLM 收到的结果末尾追加 _ccr_note 字段：@retrieve
需要还原时，LLM 说 @retrieve 即可取回完整数据
自动清理：超过 7 天的 CCR 缓存自动清除

这个机制解决了压缩的最大痛点——信息无损。LLM 可以安全地丢弃冗余数据，但需要时能随时恢复。

四、压缩算法

compress_output.py 的压缩策略是多重准则的组合：

错误优先 — 包含 error/exception/failed/critical/fatal 等关键字的条目 100% 保留
异常值检测 — 数值字段超过 2σ 的条目保留（IQR 方法）
头部代表性 — 前 30% 的条目保留（展示数据 schema）
尾部时效性 — 后 15% 的条目保留（展示最新/最近结果）
多样性择优 — 剩余预算按字段长度、信息量排序择优

默认压缩上限 20 条，既能保留足够信息，又能大幅减负。

五、实际效果

插件启用后的对话中，触发了 2 次压缩尝试，真实数据如下：

工具	原始	压缩后	节省	压缩率	结果
`search_files` (29条)	5,038 chars (~1,259 tokens)	4,504 chars (~1,126 tokens)	534 chars (~133 tokens)	11%	✅ 成功
`skills_list` (22个skill)	3,961 chars (~990 tokens)	—	<5%	—	⚠️ 原样透传

净节省：~133 tokens（1 次有效压缩）

为什么看起来少？

插件启用时间短：当天才装上，只跑了几轮对话
对话类型决定：日常聊天中大部分工具输出小于阈值
阈值设计偏保守：1500 chars + >20 数组 + >5% 压缩率三者同满足才生效

但真实场景的收益远不止这些：

场景	预期节省
大量 web_search（50-100条）	60-80%
大文件 grep 结果	50-70%
cron 任务批量输出	40-60%
多 agent 编排中间结果	30-50%

日常对话只是开胃菜，真正的价值在数据密集型场景。

六、安装与配置

# 一行安装 + 启用
hermes plugins install yunzhongying2003/hermes-plugin-context-compressor --enable

# 重启网关
hermes gateway restart

七、未来方向

调试模式：在插件日志中加入压缩前/后 Token 计数，便于评估 ROI
自适应阈值：根据近期对话 Token 消耗自动调整压缩门槛
插件配置化：支持通过 plugin.yaml 配置压缩阈值、保留条数等参数
多模型适配：针对不同模型（DeepSeek、Claude、GPT）做差异化的压缩策略

八、总结

从 V1 手动压缩 → V2 Headroom 调研 → 最终插件方案，走了三条路才找到最优解
核心设计原则：fail-open 确保零风险；CCR 可逆 确保信息无损
插件基于 Hermes 的 transform_tool_result hook，零侵入、热插拔
日常收益不大，数据密集型场景才是真正战场
纯 Python 标准库实现，零外部依赖

Hermes Desktop 官方发布：从 Jensen GTC 主题演讲到公开预览

2026-06-05T04:00:00.000Z

NousResearch 刚刚官宣了 Hermes Desktop 的公开预览——Hermes Agent 的桌面原生版本。这是 Hermes 生态的重要里程碑，首次在 Jensen Huang 的 GTC 主题演讲中亮相，现在所有人都能下载体验。

官方公告

原文： NousResearch @NousResearch · X/Twitter
数据： 1,151 回复 · 2,026 转推 · 12,212 喜欢 · 556 万浏览（热度极高）

“The next evolution of Hermes Agent is here! Introducing Hermes Desktop: everything you love about Hermes, now native on your machine. First demoed in Jensen’s GTC keynote, it’s now in public preview.”

翻译：

Hermes Agent 的下一个进化版本来了！介绍 Hermes Desktop：你喜爱的所有 Hermes 功能，现在原生运行在你的桌面。
首次在 Jensen 的 GTC 主题演讲中演示，现在进入公开预览。

下载地址：https://hermes-agent.nousresearch.com

一句话理解

Hermes Desktop = 把原本在终端/CLI 里跑的 Agent，变成了 Mac/Windows/Linux 原生桌面应用。你不需要折腾命令行、环境变量、Python 版本——装好就能用。

支持平台

平台	支持情况
macOS	✅ Intel + Apple Silicon
Windows	✅ 安装包
Linux	✅ AppImage / 包管理器

根据评论区反馈，Windows 和 macOS 的用户体验比较顺畅，Linux 的依赖问题尚在优化中。

已知问题和社区反馈

帖子的评论区域有不少实际体验反馈，这里整理关键信息：

🔴 本地 Ollama 连接问题

Predator Eyes @PredatorEyes9k1： “无法连接到本地的 Ollama”
NousResearch 回复： “很快就会修复，但目前你可以在命令行中运行 hermes model 来切换模型”

如果你在桌面版上连接本地的 Ollama 失败，临时方案是：

1	hermes model

选择你想要的模型后，桌面版应该就能正常调用了。

🟡 OpenClaw 迁移

社区反馈： Hermes Desktop 支持从 OpenClaw 直接迁移配置
这意味着之前用 OpenClaw 的用户可以导出配置和 Skills，导入到 Desktop 中使用

🟢 远程运行问题

有用户询问 desktop app 能否连接远程 VPS 运行，官方的桌面版设计是本地客户端 + 远程 Agent 的混合模式——桌面版负责 UI 和交互，Agent 可以在远端执行。

桌面版的特性

根据 Hermes 官方站点和帖子的信息，Desktop 版带来几个关键变化：

原生 GUI 界面 — 替代纯 CLI 操作，降低使用门槛
可视化配置 — 模型选择、工具管理、Skill 管理全部图形化
内置浏览器 — 桌面版集成了浏览器工具，Agent 可以像人一样操作网页
语音输入 — 直接语音与 Agent 对话
一键更新 — 自动检测并安装新版

更重要的是，Desktop 版保留了 Hermes 的核心能力：Memory 系统、Skill 机制、Sub Agent 编排——这些在桌面版上一样不少。

与 CLI 版的关系

Desktop 版不是取代 CLI，而是补充。两者的关系：

场景	推荐使用
日常对话、快速任务	Desktop（图形界面更直观）
自动化脚本、CI/CD	CLI（无头环境）
远程服务器	CLI + SSH
学习上手	Desktop（门槛最低）
深度开发	CLI（配置更细粒度）

实际上 Desktop 版底层调用的还是 Hermes Agent 引擎，hermes CLI 命令在后台仍然可用。

我该不该升级？

如果你是 Hermes 新手 → 直接下 Desktop 版，省去配置环境的痛苦
如果你是 CLI 老用户 → Desktop 版可以当做一个辅助 UI 来用，Skills、记忆等配置会自动同步
如果你没有图形界面（VPS、服务器） → CLI 版仍然是最佳选择

2026 AI 编程工具选型指南：6款主流代码助手深度对比

2026-06-05T03:10:00.000Z

这两年 AI 编程工具爆发式增长，从补全代码的插件进化到能独立完成任务的 Agent。Cursor、Claude Code、GitHub Copilot、Codex CLI、Aider、Hermes Agent——每一款都有自己的定位和优势。面对这么多选择，选错工具不仅浪费预算，还会拖慢团队节奏。

这篇文章基于 2026 年 5 月的实际体验和官方数据，从价格、模型能力、工作流集成、适用场景四个维度对比 6 款主流方案，帮你找到最适合的那一款。

一、为什么现在需要选型指南

2026 年的 AI 编程工具市场已经进入成熟期。几个关键变化：

终端 Agent 崛起：Claude Code、Codex CLI 这类终端原生工具绕过了 IDE 的束缚，直接操作文件系统和 Git，能做更复杂的多文件重构。

多模型策略成标配：不再绑定单一模型——Cursor 支持 Claude Opus 4、GPT-4.1 等，Hermes Agent 更是支持 300+ 模型提供商。

价格分层精细化：从免费的 Gemini CLI 到 $200/月的 Claude Max，每个价格带都有明确的产品定位。

开源 vs 商业的路线分化：Aider 和 Hermes Agent 走开源 BYOK（自带密钥）路线，Cursor 和 Copilot 走订阅制 SaaS 路线，两种模式各有优劣。

二、六款工具逐一解析

1. Cursor — AI-Native IDE 的标杆

定位：基于 VS Code 的 AI 原生 IDE，目前开发者口碑最好的一体化方案。

核心优势：

Composer 模式：通过多文件编辑窗口进行大规模重构，支持可视化差异对比（diff view）
子代理系统：可将复杂任务拆解给多个子 Agent 并行执行
Tab 补全：行内代码预测延迟极低，几乎零感知
Cloud Agents：支持在云端 VM 中运行代码，无需本地环境

价格：Pro $20/月 → Ultra $200/月 → Business $40/座位/月

适合：追求开箱即用体验的开发者，习惯在 IDE 内完成所有操作的团队。

2. Claude Code — 终端深度推理之王

定位：Anthropic 出品的终端原生 AI 编程 Agent，拥有目前最强的代码推理能力。

核心优势：

代码库级理解：可以读取整个项目结构，理解依赖关系后进行精确修改
MCP 集成：通过 Model Context Protocol 接入外部工具和数据库
记忆系统：跨会话保存上下文，长期项目不需要重复说明
子 Agent 编排：支持启动多个子 Agent 协作完成复杂任务

价格：Pro $20/月 → Max $100/月 → Max $200/月（自 2026 年 5 月起 Max 分两档）

适合：需要处理复杂架构设计、重构遗留系统的资深开发者。**$200 Max 方案对于重度用户性价比极高**——几乎无限的每日用量，换算成人工成本简直是白菜价。

3. GitHub Copilot — 企业生态的标配

定位：微软/GitHub 生态下的 AI 编程助手，嵌入 VS Code、JetBrains、Neovim 等多款 IDE。

核心优势：

生态整合：与 GitHub Issues、PR、Actions 深度联动，自动从 Issue 创建 PR
IP 赔偿：企业版提供知识产权赔偿保护，法务部门安心
多模型分配：可根据不同 Issue 自动分配最合适的模型（GPT-4o、Claude、Codex）
知识库：Enterprise 版支持上传私有代码库用于微调

价格：Free（2,000 补全/月）→ Pro $10/月 → Business $19/座位/月 → Enterprise $39/座位/月

⚠️ 重要变化：2026 年 6 月起 Copilot 转向基于用量计费（usage-based billing），重度使用时实际费用可能超过标价。

适合：已深度使用 GitHub 的团队，或需要企业级合规保障的组织。

4. Codex CLI — OpenAI 的高速迭代利器

定位：OpenAI 用 Rust 编写的开源终端编码 Agent。

核心优势：

原生 OpenAI 模型：GPT-5 及 o 系列最优性能，推理精度高
高速执行：Rust 编写的 CLI 启动和响应极快
高推理模式：处理复杂 bug 和算法问题时效果显著

价格：捆绑在 ChatGPT 计划中——Plus $20/月 → Pro $200/月

适合：OpenAI 生态重度用户，经常处理复杂算法或难以排查的 Bug。

5. Aider — 开源 Git 优先的代码伴侣

定位：开源终端 AI 配对编程工具，Git 操作深度集成。

核心优势：

Git 原生操作：每次修改自动创建 Git 提交，方便回溯和对比
多模型支持：可接入 OpenAI、Anthropic、本地 Ollama 等任意模型
架构感知：理解代码架构，知道在哪个文件中做修改
零供应商锁定：全部开源，数据不离开本地

价格：免费开源，仅需 API 费用（月均 $20-50 中度使用，本地模型免费）

适合：有 Git 使用习惯、希望完全控制工具和数据的开发者。

6. Hermes Agent — 模型无关的智能管家

定位：Nous Research 出品的开源 CLI Agent，主打模型灵活性和持久记忆。

核心优势：

300+ 模型：支持任意 OpenAI 兼容提供商，本地模型也可
持久记忆：跨会话记忆系统，你不需要重复告诉它你的偏好
多平台网关：可接入 Telegram、Discord、Slack 等消息平台
技能系统（Skills）：可注入自定义技能（写博客、管理服务器等），扩展性极强

价格：免费开源，仅需 API 费用（可 $0/天纯本地运行）

适合：追求模型灵活性的开发者，需要跨平台使用 Agent（比如在 Telegram 里写博客），或希望在本地完全控制数据的用户。

三、核心维度对比

价格对比

工具	免费方案	入门月费	重度使用	企业方案
Cursor	有限制	$20	$200	$40/座
Claude Code	❌	$20	$200	定制
Copilot	2,000 补全	$10	$19/座	$39/座
Codex CLI	ChatGPT 捆绑	$20	$200	定制
Aider	✅ 全免费	API 费~$25	API 费~$50	开源
Hermes Agent	✅ 全免费	API 费~$25	本地 $0	开源

关键发现：

免费开源方案（Aider、Hermes）如果搭配本地模型使用，长期成本几乎为零
Copilot 看似最便宜（$10/月），但企业版 + 用量超额后实际成本可能更高
Cursor 和 Claude Code 的 $200 方案目标用户不同——Cursor 是海量补全，Claude 是无限推理

模型能力

维度	Cursor	Claude Code	Copilot	Codex CLI	Aider	Hermes Agent
最佳模型	Claude Opus 4	Claude Opus 4	GPT-4o/Claude	GPT-5 Codex	用户自选	用户自选
多模型	✅	❌ 仅 Claude	✅ GPT/Claude/Codex	❌ 仅 OpenAI	✅ 任意	✅ 300+
本地模型	❌	❌	❌	❌	✅ Ollama	✅ Ollama
代码理解	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐

注意：模型能力排名高度依赖场景。对于简单 CRUD 代码，Copilot 的补全速度和 Copilot 的 IDE 集成可能比 Claude Code 的深度推理更有用。没有万能的工具。

工作流集成

工作流	推荐工具
IDE 内编码、日常开发	Cursor / Copilot
复杂重构、架构设计	Claude Code
排查奇怪 Bug、算法问题	Codex CLI（高推理模式）
自动化脚本、CI/CD 集成	Claude Code / Aider
跨平台使用（聊天→写代码）	Hermes Agent
合规严格、数据不落地	Aider / Hermes Agent（本地模型）

四、不同场景的选型建议

个人开发者（预算敏感）

推荐组合：Aider（日常） + Hermes Agent（跨平台）

两者都是开源免费，搭配本地 Ollama 模型或廉价的 API 可以做到月费极低。Aider 负责日常编码，Hermes Agent 负责管理任务和跨平台操作。

个人开发者（追求效率）

小团队（5-20 人）

推荐组合：Cursor Pro + Claude Code Pro（1-2 个 license）

大多数队员用 Cursor 做日常开发，架构师/技术负责人用 Claude Code 做复杂设计。总成本约 $20-40/人/月。

中型团队（20-100 人）

推荐：Copilot Business（$19/座） + 少量 Claude Code License

利用 Copilot 的 GitHub 生态整合和 IP 赔偿，同时为高级开发者配备 Claude Code。

企业（100+ 人）

推荐：Copilot Enterprise（$39/座）或 Amazon Q Developer（AWS 生态）

优先满足合规要求和生态整合，再根据需求选择第二工具。

五、常见误区与实战建议

误区 1：越贵的工具越好

真相：$200/月的 Claude Max 对于只需要补全的开发者是浪费，而免费的 Aider + 本地模型对很多场景已经足够。先确定需求，再选工具，而不是先选工具再看需求。

误区 2：一个工具通吃所有场景

真相：74% 的高效团队使用 2-3 款工具组合。日常编码用轻量工具（Cursor/Copilot），复杂问题用深度工具（Claude Code），特殊场景用专项工具（Codex CLI 排查 Bug）。

误区 3：AI 生成代码不需要审查

警告：Veracode 2026 年研究显示，AI 生成的代码中 45% 包含安全漏洞，跨站脚本（XSS）漏洞率是人类编写的 2.74 倍。代码审查和自动化安全扫描必须保留。

误区 4：只看标价不看用量

⚠️ 2026 年新趋势：Copilot 已转向用量计费，Claude Code 的 $200 Max 也有合理使用限制。实际费用可能远超标价，尤其是团队协作场景。

实战建议

先用免费方案验证：Aider 或 Hermes Agent 搭配少量 API 费用，试运行 2 周
衡量具体指标：不要凭感觉——用 DORA 指标（部署频率、变更前置时间、变更失败率）来评估效果
代码审查不可省：AI 工具是加速器，不是替代品
保持模型灵活性：选择支持多模型的工具（Cursor、Aider、Hermes），避免绑定到单一模型供应商

总结

2026 年的 AI 编程工具已经足够成熟，但你不需要全部使用。**选工具的核心逻辑不是”哪个最强”，而是”哪个最适合我的工作流”**。

你的情况	推荐方案	月预算
个人，预算敏感	Aider + Hermes	$0-25
个人，追求效率	Cursor Pro	$20
小团队	Cursor + Claude Code	$20-40/人
中型团队	Copilot Business	$19-39/人
大型企业	Copilot Enterprise	$39-60/人

最理想的状态是：日常开发有一款趁手的 IDE 工具，复杂场景有一款强大的推理工具，特殊需求有一款灵活的开源工具。这个组合能覆盖 90% 以上的开发场景，同时把成本控制在合理范围内。

文章信息：基于 2026 年 5-6 月各工具官方文档和实际体验撰写。价格可能随市场变化，请以官网最新数据为准。

Hermes Agent 学习资源宝藏库：社区整理的 15 个必备 GitHub 仓库

2026-06-05T03:00:00.000Z

社区大神 @Smartpigai 系统整理了 15 个 Hermes Agent GitHub 仓库，涵盖核心框架、资源导航、Skills 生态、多 Agent 协作、实战案例和部署优化六大模块。本文翻译并补充了每个仓库的详情。

一、核心框架

1. NousResearch/hermes-agent ⭐175K

Hermes Agent 官方仓库，也是整个生态的基石。这个仓库完整展示了 Hermes 的架构设计，包括：

Memory 机制 — 跨会话持久化记忆，Agent 能记住用户偏好和历史交互
Skill 系统 — 可发现、可创建、可自我改进的工作流，是 Hermes 最核心的能力
Sub Agent 协作 — 通过 delegate_task 实现子代理编排
自进化能力 — Agent 在使用中不断学习和改进

项目地址：https://github.com/NousResearch/hermes-agent

二、资源导航

2. 0xNyk/awesome-hermes-agent ⭐3,712

社区最大、更新最活跃的 Hermes 资源索引库。 收录 500+ 资源的精选列表，覆盖 Skills、工具、集成、工作流和社区资源。按类别分类，每个资源都有简要说明。

无论你是新手还是老用户，这个仓库都是查找 Hermes 周边工具的第一站。

项目地址：https://github.com/0xNyk/awesome-hermes-agent

3. 0xarkstar/awesome-hermes-agent ⭐28

同样是精选资源合集，定位类似于 Awesome 索引，收录教程、案例、插件等。相比 0xNyk 的版本更精简，适合快速概览。

项目地址：https://github.com/0xarkstar/awesome-hermes-agent

三、Skills 生态

Skills 是 Hermes Agent 最核心的能力沉淀机制，这些仓库收集了大量可直接复用的技能。

4. ChuckSRQ/awesome-hermes-skills ⭐65

生产就绪的 Hermes Agent Skills 精选合集。覆盖开发、运营、写作、数据分析、研究等场景。每个 Skill 有详细说明，可以直接拿来使用或作为模板开发自己的技能。

项目地址：https://github.com/ChuckSRQ/awesome-hermes-skills

5. ZeroPointRepo/awesome-hermes-skills ⭐18

内置 85 个开箱即用的 Skills。 主题涵盖编程辅助、内容创作、信息检索、系统管理等。特点是每个 Skill 都经过测试，且提供安装命令，可以直接 hermes skill install。

项目地址：https://github.com/ZeroPointRepo/awesome-hermes-skills

6. itgoyo/hermes-skills

中文开发者 itgoyo 整理的 Skills 合集。如果你的工作流涉及中文场景（如中文写作、数据分析），这个仓库会有价值。

项目地址：https://github.com/itgoyo/hermes-skills

7. Lethe044/hermes-skill-marketplace ⭐26

自进化的 Skill 市场。 一个能自动编写、测试和迭代自己的 Skills 的 Agent。它会分析你的使用模式，发现重复性任务并自动生成对应的 Skill。

项目地址：https://github.com/Lethe044/hermes-skill-marketplace

四、多 Agent 协作

8. jnMetaCode/agency-agents-zh ⭐7

211 个即插即用的中文 AI 专家角色库。 每个角色都是一个预配置的子 Agent，覆盖编程、写作、设计、研究等专业领域。通过组合不同角色，可以构建复杂的多 Agent 工作流。

特别适合中文用户，角色提示词和交互都针对中文优化。

项目地址：https://github.com/jnMetaCode/agency-agents-zh

9. （原 reventadirecta/hermes-multi-agent — 已下线）

⚠️ 该仓库已被作者删除/设为私有，链接已失效。

替代推荐：**linke-ai/hermes-agent-team** — 专注于构建 Hermes Agent 团队协作的方案，支持多 Agent 任务编排与分工。

10. mattpocock/skills ⭐183

TypeScript 专家 Matt Pocock 整理的 Skills 合集。这些 Skills 专注于工程实践、代码审查和技术写作。尤其适合用 Claude Code 或 Hermes 做开发辅助的场景。

项目地址：https://github.com/mattpocock/skills

五、实战案例

11. ali-erfan-dev/hermes-content-creator

Hermes 驱动的内容创作工作流。覆盖从选题、研究、写作到发布的完整 Pipeline。支持多平台发布（博客、X、Newsletter），预设了多种内容风格模板。

项目地址：https://github.com/ali-erfan-dev/hermes-content-creator

12. ksimback/hermes-ecosystem ⭐945 （Hermes Atlas）

社区最火的实战案例库，接近 1000 星。 这是一个交互式的 Hermes 生态系统地图，分类展示每个工具、Skill 和集成方案。不仅有仓库列表，还有每个工具的用途说明、推荐场景和上手流程。

项目地址：https://github.com/ksimback/hermes-ecosystem

13. coleam00/ottomator-agents

OttoMator 是编排式 Agent 系统的实战项目，Hermes Agent 作为核心驱动。展示了如何将多个 Agent 编排成自动化流水线，适合在 SaaS 运营、客服自动化等场景落地。

项目地址：https://github.com/coleam00/ottomator-agents

六、部署与优化

14. OnlyTerp/hermes-optimization-guide（原 hermes-self-host 已迁移至此）

从部署到优化的全方位指南。 原 hermes-self-host 已合并进这个更大的项目。涵盖 Docker 化部署、逆向代理配置、HTTPS 证书、数据备份、多平台运维、成本优化等。当前版本覆盖 Hermes v0.16.0，包含 26 个章节、13 个可直接安装的 guide skills、5 套配置模板、一键 VPS 部署脚本。

项目地址：https://github.com/OnlyTerp/hermes-optimization-guide

15. fly-apps/hermes-flyio ⭐19

在 Fly.io 上部署 Hermes 的官方示例。 Fly.io 是一个边缘云平台，全球多地部署。这个示例展示了如何用一行命令把 Hermes Agent 部署到全球节点，延迟低至个位数毫秒。

项目地址：https://github.com/fly-apps/hermes-flyio

总结

这 15 个仓库覆盖了 Hermes Agent 学习路径的每个阶段：

入门 → 0xNyk/awesome-hermes-agent（索引）
理解原理 → NousResearch/hermes-agent（官方仓库）
选用 Skills → ChuckSRQ/awesome-hermes-skills、ZeroPointRepo/awesome-hermes-skills
构建工作流 → jnMetaCode/agency-agents-zh（多 Agent）
实战落地 → ksimback/hermes-ecosystem（案例库）
上线部署 → OnlyTerp/hermes-optimization-guide（部署与优化）

建议收藏并按照这个路径逐步深入。

Hermes Agent 社区精选：从 X/Twitter 挖到的 9 条高质量内容

2026-06-05T01:00:00.000Z

在 X 上搜刮了一圈，把最近热度最高的 Hermes Agent 帖子整理出来。涵盖学习资源、桌面版发布、省钱技巧、实操经验等。

1. Hermes Agent 全网最详细学习资源合集

作者： @Smartpigai（AI 认证创作者）
数据： 23 回复 · 105 转推 · 346 喜欢 · 17K 浏览

这位作者把学习 Hermes Agent 需要的 15 个 GitHub 仓库做了系统分类，包括官方框架的核心架构、Memory 机制、Skill 系统、Sub-Agent 协作以及自进化能力。还有精心整理的 Awesome 资源导航。

如果你是新手，这篇应该是最佳起点。

2. Hermes Agent 橙皮书：从入门到实战

作者： @Smartpigai

Smartpig 的另一篇连载内容，结合官方文档和社区实践，系统讲述 Hermes Agent 是什么、能做什么、怎么学。除了基本概念还涉及实际部署场景，属于”看完就能上手”的内容。

3. Hermes Agent 官方桌面版发布

作者： @hisevenih（AI 认证创作者）
数据： 145 回复 · 115 转推 · 598 喜欢 · 77K 浏览（本次搜索热度最高）

官方桌面版已支持 Mac OS、Windows、Linux 全平台。亮点是支持从 OpenClaw 直接迁移，老用户换工具门槛很低。有评论表示”至少不用再折腾一堆环境配置了”。

4. Hermes Web Dashboard 重大改版

作者： @HermesAgentTips（Hermes Agent 专区创作者）

据 @NousResearch 官方动态称，Web Dashboard 已升级为 feature-complete 管理面板，全部操作可在浏览器内完成。加上桌面版发布，Hermes 的”全平台+全功能”布局逐渐成型。

5. $5 超省模型推荐 Top 5

作者： @HermesAgentTips
数据： 50 回复 · 74 转推 · 765 喜欢 · 29K 浏览

实测最省成本模型排名：

排名	模型	备注
🥇	MiMo-V2.5	综合性价比王者
🥈	DeepSeek V4 Flash (Max)	我们的当前主模型
🥉	MiMo-V2-Flash (Feb 2026)	老将仍能打
4	DeepSeek V4 Flash (High)	更高精度选项
5	Hy3-preview	新秀模型

另外提到 OpenCode 首月 $5 就能获得大量 token 额度，适合测试不同模型。

6. 让 Agent 更像人：邮箱 + 电话 + 支付一站式

作者： @HermesAgentTips
数据： 3 转推 · 29 喜欢 · 907 浏览

三个集成工具实现更完整的自动化：

agentmail — 处理收件箱
agentline — 接打电话
prava — 处理支付卡片

配合在一起，Agent 能帮你跑通”收到邮件 → 回复客户 → 完成支付”的完整闭环。

7. Hermes + Mobilerun Portal 控制手机

作者： @jousmar433946
数据： 5 认证浏览（刚发布，还新鲜）

把 Hermes 当做大脑，结合 Mobilerun Portal 让 AI Agent 直接操控物理手机。这正是我们一直在做的方向——通过 Hermes 调度手机端的 APP 操作，绕过 API 限制实现全功能控制。

8. 远程 Gateway Session Token 修复方案

作者： @HermesAgentTips
数据： 5 回复 · 4 转推 · 61 喜欢 · 4.6K 浏览

远程网关最常见的问题是 session token 不起效，3 步修复：

# 1. 生成 token
rand -base64 32 | echo "HERMES_DASHBOARD_SESSION_TOKEN=$(cat)" >> ~/.hermes/.env

# 2. 重启服务使配置生效

# 3. 在 gateway 启动时使用该 token

注意：建议将 token 保存在 ~/.hermes/.env 而非 config.yaml，以防版本控制泄漏。

9. 鸟哥的 5 个 Hermes 狠活

作者： @NFTCPS（蓝鸟会）

鸟哥汇总了 5 个开源的 Hermes Agent 创新用例，包括桌面神器搭建、创意流水线、token 节省方案等。具体的仓库链接在他的帖子中有列出。

总结

这次扫了一圈 X，最直观的感受是 Hermes Agent 的社区在持续产出高质量内容。@Smartpigai 做资源整理，@HermesAgentTips 持续输出技巧干货，@NousResearch 保持高频率更新。

几个值得关注的账号：

@HermesAgentTips — 技巧类内容最活跃
@Smartpigai — 系统性学习资源
@hisevenih — 一手更新资讯
@NFTCPS — 中文社区分享

agentic-stack：一个 .agent/ 文件夹打通 8 种编程 Agent

2026-06-04T14:50:00.000Z

原文作者： Shubham Saboo（Google AI PM）
来源： LinkedIn / X @Saboo_Shubham_

有没有这样的体验：今天用 Claude Code 写了一个项目，记录了一大堆偏好设置，明天切换到 Cursor 或者 Codex，一切从头开始。每次工具变动，你的 Agent 就失忆一次。

现在这个问题被解决了。一个叫做 agentic-stack 的开源项目，让 8 种不同的编程 Agent 共享同一套记忆和技能系统。

一、核心问题

“Every coding agent has its own memory format. Claude Code remembers one way. OpenClaw another. Hermes another. Switch tools and your agent starts from zero.”

每个编程 Agent 都有自己独特的记忆格式：

Agent	记忆存储方式
Claude Code	`.claude/` 目录 + CLAUDE.md
Cursor	`.cursor/` + 规则文件
OpenClaw	专有格式
Hermes Agent	`~/.hermes/skills/` + MEMORY.md
Codex	项目级配置

换一个工具 → 所有偏好、教训、约定全部丢失 → 从头开始。

二、解决方案：.agent/

“Just drop .agent/ into your project, pick your harness, and it wires up automatically. Same brain. Different tool.”

agentic-stack 的核心是一个名为 .agent/ 的目录。把它放在你的项目根目录下，然后选择你想要的 Agent 驱动（harness），它就能自动连接。

支持 8 种 Harness

Claude Code
Cursor
Windsurf
OpenCode
OpenClaw
Hermes Agent
Pi Coding Agent
自建的 Python 循环

.agent/ 目录里有什么？

.agent/
├── MEMORY.md          # 工作记忆 — 当前会话相关信息
├── episodes/          # 情景记忆 — 每次交互的存档
├── semantic/          # 语义记忆 — 向量化的长期知识
├── user/              # 个人化记忆 — 用户偏好和风格
├── skills/            # 渐进式技能 — 按需加载的工作流
├── schemas/           # 类型化的工具定义
└── permissions/       # 权限策略

四个记忆层 + 各自的保留策略：

工作记忆 — 当前任务上下文，临时
情景记忆 — 每次操作的日志
语义记忆 — 聚类后的长期知识
个人化记忆 — 用户行为模型

三、复合循环

“Every action logs to episodic memory. A nightly process clusters recurring patterns into candidate lessons. You review them with one command. Graduated lessons load automatically in future sessions.”

流程是：

每次操作 → 记录到情景记忆
     ↓
夜间进程 → 聚类重复模式 → 提炼为候选经验
     ↓
你一键审查 → 批准/拒绝
     ↓
通过的经验 → 自动加载到未来会话
     ↓
    ↻

“Your agent’s git history becomes its autobiography.”

四、这在解决什么问题？

4.1 供应商锁定（Vendor Lock-in）

使用某一家 Agent 工具时，你的所有配置、经验、记忆都锁在该工具的生态里。agentic-stack 用标准化的 .agent/ 格式打破了这一点。你选择的是”大脑”，而不是”工具”。

“You don’t pick an agent anymore. You pick a brain and let your agent plug into it.”

4.2 多 Agent 协作中的信息孤岛

LinkedIn 讨论中 Kane Dixon 的真实处境很有代表性：他用 Claude 做服务端、ChatGPT 做讨论、Antigravity 做前端、OpenClaw 做本地模型任务、Paperclip 做自组织 Agent、Hermes 做自进化 Agent。

“A veritable slew of silos with no shared knowledge or context.”

6 个工具，6 套记忆。agentic-stack 让它们在同一个 .agent/ 目录下共享信息。

五、安全考量

在讨论中社区也提出了合理的安全担忧：

“How to ensure that using these open repos doesn’t add an exposure risk to the already security-fragile systems?”

作者对此的回应是：.agent/ 中的 权限策略（permissions/） 和类型化工具定义（schemas/） 就是为了解决这个问题——不是谁都能在项目里为所欲为。

六、什么时候该用？

你在多个编程 Agent 之间切换
你有一个 Agent 团队需要共享项目上下文
你想防止工具切换导致的知识丢失
你希望 Agent 的经验能像代码一样被版本管理

项目地址：github.com/codejunkie99/agentic-stack — 100% 开源。

本文内容基于 @Saboo_Shubham_ 的 LinkedIn 推文整理翻译。

多 Agent 编排实战：Codex 写代码、Claude Code 审查、Hermes Agent 验证

2026-06-04T14:30:00.000Z

原文作者： Shubham Saboo（Google AI PM）
来源： LinkedIn / X @Saboo_Shubham_

你的编程 Agent 可能在骗你。它会告诉你构建通过，但从来没真正跑过构建。它会说测试通过了，但写的测试从来没被执行过。

这是 Shubham Saboo 在多 Agent 编排领域最核心的观点。而他的解决方案是：用三个不同的 Agent，让它们互相制衡。

一、三 Agent 架构

“Codex builds it. Claude Code reviews it. Hermes Agent verifies that neither of them is lying.”

1
2
3

Codex → 构建代码（执行者）
Claude Code → 审查代码（审查者）
Hermes Agent → 验证结果（验证者）

分工很明确：

Agent	角色	职责
Codex	工人	根据目标写代码，完成构建
Claude Code	审查员	检查代码质量、逻辑缺陷
Hermes Agent	品控	重新跑构建和测试，确认没有造假

关键在第三步： Hermes 从不相信工人的自我报告（self-report）。Codex 说”构建完毕”？Hermes 会在自己的 shell 里重新跑一遍构建和测试，确认通过才算数。

“If you can’t verify it from a shell, it isn’t done.”

二、/goal：从提示词到契约

这个架构的核心原语是 **/goal**。它不是普通的 prompt。

普通 prompt 的工作方式：

你给出指令
Agent 给出下一步回答
你判断对不对，决定下一步方向
每个回合你都要参与

/goal 的工作方式：

你写下”完成”的定义：测试通过、构建成功、git 状态干净
提交一次，Agent 自主推进
直到目标达成、被阻塞、被取消、或超出预算

“A normal prompt asks for the next response. You read it, decide if it’s right, push it forward. You steer every turn. Goal flips that.”

三、写好 /goal 的四要素

Saboo 的 cheat sheet 列出了好 /goal 必须包含的四个部分：

明确的完成标准（Definition of Done）
- ❌ “让这个功能更好”
- ✅ “所有单元测试通过，构建成功，git status 干净”
接收者（Who receives it）
- 这个 /goal 是给谁写的？Codex？Claude Code？还是你自己？
范围边界（Scope）
- 哪些事情在这个 /goal 的范围内？哪些是明确排除的？
验证清单（Verifier checklist）
- 验证者（Hermes）如何确认工人没有”骗人”？
- 必须在 shell 中可重现

四、反模式：不要写 “Make it better”

最常见的错误是写一个模糊的 /goal。比如：

❌ “改进这段代码”
❌ “优化性能”
❌ “添加注释”

这些都不是可验证的标准。Codex 可以”完成”它们，但你没法验证。正确的写法是：

✅ “重构 parse() 函数，使其能处理空输入而不抛出异常。现有测试必须全部通过，并添加 3 个空输入测试用例。”

五、不仅仅是代码验证

LinkedIn 上的讨论中还提到了一个重要的扩展：认证（Authorization）。

“As agents interact with infrastructure, financial systems, APIs, and other agents, future architectures will likely require both capabilities.”

也就是说，Agent 系统需要两个能力：

Verification（验证）— 确认 Agent 做的事是正确的
Authorization（授权）— 确认 Agent 有权做这件事

目前 Hermes + Codex + Claude Code 解决了验证问题，但授权的方案还在演进中。

六、一句话总结

“Workers change. The primitive stays the same.”

Codex 可能换、Claude Code 可能换，但 /goal 这个原语——把”完成”的定义从模糊 prompt 变成可验证的契约——才是多 Agent 编排能规模化运作的真正基石。

本文内容基于 @Saboo_Shubham_ 的 LinkedIn/X 推文整理翻译。

Hermes Agent Skill 机制解密：可发现、可执行、可自我改进的工作流系统

2026-06-04T14:10:00.000Z

原文作者： Shubham Saboo（Google AI PM），Mr. Ånand（Daily AI Insights）
来源整理： @Saboo_Shubham_ / Substack 「Inside Hermes Agent」

大部分 AI Agent 都像一个健忘的员工——你交代的事做完了，下次碰到类似的问题它又得从头学起。Hermes Agent 的核心不同就在于：它有一个内置的学习循环，能把经验固化为可复用的工作流。

这篇文章拆解 Hermes Agent 的 Skill 系统是如何工作的。

一、Skill 不是什么？

先搞清楚一件事：Hermes 的 Skill 不是一段文本提示词（Prompt），也不是一个固定的 Python 脚本。它是一个结构化的、可被 Agent 自主操作的工作流定义文件。

每条 Skill 遵循 agentskills.io 开放标准，存放在 ~/.hermes/skills/ 目录下。大概长这样：

---
name: my-skill
description: 这个技能做什么
version: 1.0.0
platforms: [macos, linux]
metadata:
  hermes:
    tags: [python, automation]
    category: devops
    requires_toolsets: [terminal]
---

二、Skill 的完整生命周期

Shubham Saboo 总结得很精准：**”Hermes Skills are reusable workflows the agent can discover, run, improve, and even create on its own.”**

翻译过来就是：Agent 可以发现、运行、改进、甚至自己创建这些 Skill。

2.1 自动创建（Triggers）

Hermes 不会无端创建 Skill。触发条件很明确：

完成了一个5次以上工具调用的复杂任务
从错误中恢复并找到了正确路径
用户纠正了行为（”不对，应该这样做”）
发现了一个非显而易见的有效工作流

满足以上任何一个条件，Agent 就会自动把本次经验写成一个 Skill 文件。不依赖任何人手动配置。

2.2 渐进式加载（Progressive Disclosure）

Hermes 系统提示词中只包含 Skill 的名称 + 一句话摘要（约 20 字节/条）。完整内容只在任务匹配时才按需加载。

这意味着：即使你有 200 条 Skill，系统提示词的 token 开销和 40 条基本一样。不会随着知识积累而无限膨胀。

2.3 自我改进（Self-Improvement）

Skill 不是刻在石头上的。当 Agent 发现更好的做法时，会通过 skill_manage 工具的六种操作来更新它：

create — 新建
patch — 定向修改（首选，精确且省 token）
edit — 完全重写
delete — 删除
write_file / remove_file — 管理附属文件

2.4 垃圾回收（Curator）

“Curator takes care of the garbage skills.”

Skill 积累多了必然有垃圾。Hermes 内置的 Curator 机制负责清理：过时的、合并到其他 Skill 里的、从未被再次调用的，都会被打上标记或删除。这不只是”整理”，而是 Skill 生态能长期健康运转的关键。

三、贯穿底层的：学习循环

Substack 那篇文章（Inside Hermes Agent）把整个机制描述为一个闭环：

任务执行 → 记录到会话存档
     ↓
定期评估 → 有什么值得保留？
     ↓
写入 Skill → 下次加载 → 改进优化
     ↓
    ↻ 循环

这个循环由系统级内部提示驱动，以固定间隔自动触发。Agent 会自己判断：这次交互中有什么值得记住的？什么只是日常流水账？

四、这对你有什么实际价值？

复用经验 — 只要你用过一次的操作，下次自动就有了
越用越省 — 不是越用越贵。Skill 的渐进加载机制让 token 开销几乎不随技能数增长
不需要手动维护 — Skill 的创建、改进、清理都是自动的。你只需要正常使用它
跨会话持久 — 今天学的东西，明天重启会话还在

本文内容基于 @Saboo_Shubham_ 的 X 推文和 Mr. Ånand 的 Substack 文章「Inside Hermes Agent」整理翻译。

用 AI 搭建个人知识管理工作流：从语音笔记到结构化知识库

2026-05-29T10:22:00.000Z

你是否经常有这样的经历：想到一个好点子，手边没有纸笔，几分钟后就忘了；读了一篇好文章，收藏进浏览器书签，再也没打开过；开会讨论出重要结论，散会后只记得”刚才好像说了个很重要的事”？

知识管理最难的从来不是获取，而是整理和检索。本文分享一套我用 Hermes Agent 和 AI 工具搭建的个人知识管理工作流，从语音录入到结构化知识库全链路打通，全程可操作。

一、核心思路：三步法

传统知识管理的问题在于”收集”和”整理”是分离的——你需要在不同工具间切换，切换次数越多，坚持下来的概率越低。

我的方案是 一次录入，自动归档：

graph LR
    A[语音/文本输入] --> B[AI 分类整理]
    B --> C[结构化知识库]
    C --> D[全文检索]
    D --> A

步骤	做什么	工具	耗时
① 录入	语音笔记或快速文字记录	Hermes + Whisper STT	30 秒
② 整理	AI 自动提取关键信息、打标签	LLM + 自定义 Prompt	自动
③ 归档	写入 Markdown 文件、建立索引	脚本 + Hexo 博客	自动

关键原则：用最快的方式记录，剩下的交给自动化。

二、Step 1：语音笔记 — 最低门槛的录入方式

打字最快速度约 80 字/分钟，而口语可达 200 字/分钟。对于想法记录，语音是天然高效的输入方式。

配置 Hermes 语音输入

在 Hermes 的 config.yaml 中启用 STT：

stt:
  provider: whisper
  model: base        # base 够用，速度与准确率平衡
  language: "zh"     # 指定中文，提升准确率
  enabled: true

使用方式：直接发语音消息给 Hermes，它会自动转录并处理。

三种记录场景

场景	方式	示例指令
临时想法	直接语音输入	“记下来：下周文章想写关于向量数据库对比”
阅读笔记	拍照 + 语音描述	“拍下这页书，然后说：这段讲了 RAG 的 chunk 策略”
会议纪要	连续语音分段	“会议结论：决定用 PostgreSQL + pgvector，本周五前出原型”

关键技巧：说完后加一句明确的动作词——“记下来”、”归档”、”分类”。让 AI 知道这不是闲聊，是需要处理的笔记。

三、Step 2：AI 自动整理 — 提取结构化信息

原始语音转录是”脏数据”——包含口癖、重复、不完整的句子。需要 AI 清洗并提取关键信息。

整理 Prompt 模板

我设计了一套分类整理 Prompt，让 Hermes 自动执行：

你是一位知识管理助手。请对以下笔记进行整理：

原始笔记：
[转录原文]

请按以下格式输出：
---
type:  idea | meeting_note | reading_note | todo
title: 简短标题
tags: [标签1, 标签2]
summary: 一句话总结（20字以内）
content: 整理后的完整笔记（语言通顺，删掉口癖和重复）
---

在 Hermes 中配置为 Skill

创建 ~/.hermes/skills/knowledge-manager/，添加 README.md：

name: knowledge-manager
description: 知识笔记管理，包含录音转录、分类整理、归档
matchers:
  - trigger: ".笔记"
    instruction: >
      将以下内容作为笔记处理。先转录语音（如果有），然后按知识管理的格式整理。
      提取关键信息，分类，打标签。最后输出整理结果。

使用时只需说：”。笔记我今天想到一个项目架构…”，Hermes 就会自动执行整理流程。

四、Step 3：自动归档到知识库

整理完成后，需要将结构化笔记持久化保存。我的方案是将笔记写入 Markdown 文件，组织成可检索的知识库。

归档脚本

#!/usr/bin/env python3
"""归档笔记到 Hexo 博客的知识笔记目录"""
import os
from datetime import datetime

POSTS_DIR = "/root/hexo-template-edgeone/source/_posts/notes"

def archive_note(title, tags, content, note_type="idea"):
    """将笔记写为 Hexo 兼容的 Markdown 文件"""
    date_str = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
    slug = title.lower().replace(" ", "-")[:50]
    filename = f"{slug}.md"
    
    frontmatter = f"""---
title: {title}
date: {date_str}
tags: [{', '.join(tags)}]
categories: 知识笔记
type: {note_type}
---

"""
    os.makedirs(POSTS_DIR, exist_ok=True)
    with open(os.path.join(POSTS_DIR, filename), "w") as f:
        f.write(frontmatter + content)
    
    print(f"✅ 已归档：{filename}")
    return filename

自动化流程

# 一键归档并发布
python3 scripts/archive_note.py  # 整理归档
cd /root/hexo-template-edgeone
git add source/_posts/notes/
git commit -m "Notes: 自动归档知识笔记"
git push origin main

知识库目录结构

source/_posts/notes/
├── ai/                  # AI 技术笔记
├── dev/                 # 开发技巧
├── tools/               # 工具评测
├── projects/            # 项目记录
└── ideas/               # 灵感碎片

每个子目录对应一个分类，归档脚本根据 tags 自动分配到对应目录。

五、检索与复用：让知识真正被用到

归档只是开始，检索才是知识管理的价值体现。

方案 A：通过博客全文搜索

博客已配置 NexT 主题的搜索功能（基于 hexo-generator-search），可以直接在网站上搜索所有文章和笔记。

方案 B：本地全文检索

# 在所有笔记中搜索关键词
grep -r "向量数据库" source/_posts/notes/ --include="*.md"

# 按标签搜索
grep -l "tags:.*RAG" source/_posts/notes/**/*.md

方案 C：AI 辅助检索

直接在 Hermes 中问：

“我之前有没有记过关于 RAG chunk 策略的笔记？”

Hermes 会在知识笔记目录中搜索相关文件，找到后直接输出内容。这是最高效的方式——用自然语言查询，不需要记住文件路径。

六、实践经验与避坑指南

6.1 不要追求完美整理

很多人坚持不下来，是因为想一上手就构建”完美的知识体系”——分类详尽、标签规范、格式统一。

我的建议：先跑起来，再优化。刚开始只要能把笔记归档就行，分类和标签可以等积累到 50 条之后再统一整理。

6.2 语音笔记的”三个不要”

不要	原因
不要在嘈杂环境录	Whisper 准确率下降明显
不要长篇大论	语音笔记适合 30-60 秒，太长不如直接写
不要省略动作词	记得加”记下来”、”归档”，否则 AI 不知道这是笔记

6.3 定期回顾

知识管理最容易被忽视的一步：回顾。建议：

每周日：花 10 分钟浏览本周归档的笔记
每月初：整理标签，合并重复条目
每季度：从笔记中提炼可发表的博客文章

我在 Hermes 中配了一个定时任务：

# ~/.hermes/config.yaml 中的 cron 配置示例
cron:
  - schedule: "0 20 * * 0"  # 每周日 20:00
    task: "提醒我回顾本周笔记，说：本周你归档了 N 条笔记，是否要生成周报？"

七、效果对比

使用这套工作流前后的对比：

维度	之前	之后
记录意愿	想到就记，记了就忘	想到就录，自动归档
整理时间	每周 1-2 小时手动整理	零手动整理时间
检索效率	“我好像在哪见过…”	3 秒内找到
知识复用率	<10%	~60%（笔记 → 文章 → 项目）
坚持时长	最多坚持 2 周	已连续使用 3 个月

八、扩展方向

这套工作流是”最小可行版本”。根据需求可以继续扩展：

多设备同步：手机端语音 → 云端处理 → 自动归档到博客仓库
双向同步：Notion / Obsidian ↔ Hexo 笔记目录，双向同步
AI 周报生成：每周 AI 自动汇总本周笔记，生成知识周报
知识图谱：根据标签和引用关系，自动构建笔记间的关联图谱
RAG 增强：将归档笔记作为 RAG 的文档库，实现基于个人知识库的问答

这套工作流的核心不是工具，而是习惯——用最少的阻力完成记录，用自动化完成整理，用 AI 完成检索。工具只是放大器，真正改变的是你对待知识的方式。

如果你也在搭建自己的知识管理系统，不妨从最简单的语音笔记开始。30 秒录入一条，一周后你会惊讶于自己积累了这么多有价值的内容。

本文基于 Hermes Agent + Hexo 博客搭建的知识管理工作流实践，2026-05-29

Prompt 工程实战：从入门到精通

2026-05-28T15:10:00.000Z

Prompt 工程不是”写提示词”，而是与模型有效沟通的艺术。好的 Prompt 能让模型输出质量提升 10 倍，差的 Prompt 让再强的模型也束手无策。

本文将通过大量实战案例，带你掌握 Prompt 工程的核心技巧。

一、Prompt 基础结构

一个高质量的 Prompt 通常包含以下要素：

┌─────────────────────────────────────────┐
│  1. 角色设定 (Role)                      │
│     "你是一位资深 Python 开发者..."      │
├─────────────────────────────────────────┤
│  2. 任务描述 (Task)                      │
│     "请帮我优化这段代码..."              │
├─────────────────────────────────────────┤
│  3. 上下文/输入 (Context/Input)          │
│     "以下是需要优化的代码：..."          │
├─────────────────────────────────────────┤
│  4. 约束条件 (Constraints)               │
│     "保持原有功能，时间复杂度 O(n)..."   │
├─────────────────────────────────────────┤
│  5. 输出格式 (Output Format)             │
│     "请用 Markdown 格式输出，包含..."    │
└─────────────────────────────────────────┘

二、核心技巧

2.1 角色设定（Role Prompting）

原理：给模型一个明确的角色，激活相关知识和表达方式。

角色	适用场景
资深开发者	代码审查、架构设计
产品经理	需求分析、用户故事
数据分析师	数据解读、可视化建议
教师	知识讲解、概念类比

示例：

# ❌ 差的 Prompt
帮我解释一下 Transformer 架构。

# ✅ 好的 Prompt
你是一位 AI 领域的资深教师，擅长用通俗易懂的类比解释复杂概念。
请向一名有编程基础但没学过深度学习的学生解释 Transformer 架构。
要求：
1. 用生活中的类比说明核心概念
2. 避免过多数学公式
3. 重点说明为什么 Transformer 比 RNN 更适合处理长文本

2.2 思维链（Chain of Thought）

原理：让模型展示推理过程，而不是直接给答案。

示例：

# ❌ 差的 Prompt
计算：(15 + 27) × 3 - 89 ÷ 7 = ?

# ✅ 好的 Prompt
请逐步计算以下表达式，展示每一步的中间结果：
(15 + 27) × 3 - 89 ÷ 7

思考步骤：
1. 先计算括号内的加法
2. 再计算乘法
3. 然后计算除法
4. 最后计算减法
5. 给出最终答案

效果：复杂推理任务准确率提升 30-50%。

2.3 少样本提示（Few-Shot Prompting）

原理：提供几个示例，让模型学习输出格式和风格。

示例：

将以下中文句子翻译成英文，保持专业语气：

示例 1：
输入：这个系统的延迟太高了，需要优化。
输出：The system's latency is too high and needs optimization.

示例 2：
输入：数据库查询超时，请检查索引配置。
输出：Database query timed out, please check the index configuration.

现在请翻译：
输入：API 响应时间超过 2 秒，影响用户体验。
输出：

2.4 约束条件（Constraints）

原理：明确限制输出范围，避免无关内容。

示例：

请总结以下文章的核心观点（不超过 200 字）：

[文章内容...]

约束条件：
- 只总结核心观点，不要添加个人观点
- 使用中文输出
- 不超过 200 字
- 使用项目符号列出要点

2.5 输出格式控制

原理：明确指定输出格式，便于后续处理。

格式	适用场景
JSON	程序化处理、API 集成
Markdown 表格	对比分析、数据展示
项目符号列表	要点总结、清单
代码块	代码生成、配置示例

示例：

请分析以下用户评论的情感倾向，以 JSON 格式输出：

用户评论：这个产品真的很好用，推荐给大家！

输出格式：
{
  "sentiment": "positive|negative|neutral",
  "confidence": 0.0-1.0,
  "key_phrases": ["短语 1", "短语 2"],
  "reasoning": "简短分析"
}

三、实战案例

3.1 代码生成

你是一位资深 Python 开发者，擅长编写简洁、高效、可维护的代码。

任务：实现一个带缓存的 API 客户端

要求：
1. 使用 functools.lru_cache 实现缓存
2. 支持超时和重试机制
3. 添加类型注解
4. 包含单元测试示例
5. 代码风格遵循 PEP 8

输出格式：
- 主代码放在代码块中
- 单元测试单独放在另一个代码块中
- 在代码前简要说明设计思路

3.2 数据分析

你是一位数据分析师，擅长从数据中提取洞察。

任务：分析以下销售数据，找出关键趋势

数据：
| 月份 | 销售额 | 新客户 | 复购率 |
|------|--------|--------|--------|
| 1 月  | 120 万 | 500    | 35%    |
| 2 月  | 135 万 | 480    | 38%    |
| 3 月  | 142 万 | 520    | 40%    |

分析要求：
1. 计算环比增长率
2. 识别关键趋势
3. 给出 3 条可执行建议
4. 用 Markdown 表格展示计算结果

3.3 内容创作

你是一位科技博主，擅长写深度但不晦涩的技术文章。

任务：写一篇关于"为什么大模型需要更多上下文"的短文

要求：
1. 目标读者：有编程基础的非 AI 专家
2. 字数：800-1000 字
3. 结构：
   - 引言：用一个日常类比引入主题
   - 正文：解释上下文的重要性（2-3 个要点）
   - 结尾：总结 + 展望
4. 风格：亲切、专业、不堆砌术语
5. 包含 1-2 个具体例子

四、常见陷阱

陷阱	表现	修复方法
太模糊	“帮我写点什么”	明确任务、格式、约束
太冗长	无关信息太多	精简上下文，突出关键信息
矛盾指令	“简洁但详细”	明确优先级，分层次说明
假设模型知道	不提背景信息	补充必要上下文
格式混乱	没有指定输出格式	明确指定格式要求

五、Prompt 优化工作流

1. 初稿 → 写出基础 Prompt
2. 测试 → 用模型跑一遍
3. 诊断 → 分析输出问题（太短？太泛？格式不对？）
4. 迭代 → 针对性优化（加约束？改格式？加示例？）
5. 固化 → 保存为模板，复用

六、总结

技巧	核心	适用场景
角色设定	激活相关知识和风格	所有场景
思维链	展示推理过程	复杂推理、数学
少样本	学习输出格式	格式化输出、翻译
约束条件	限制输出范围	摘要、总结
格式控制	便于后续处理	程序化任务

核心原则：Prompt 工程是迭代过程，没有一蹴而就的完美 Prompt。先写出能用的，再逐步优化。

本文基于实际使用经验整理，Prompt 效果因模型而异，建议根据具体模型调整。

AI 模型选择指南：2026 年主流大模型对比

2026-05-28T15:05:00.000Z

选择大模型不是选”最强”，而是选”最适合”。不同场景对模型的要求截然不同——有的追求速度，有的追求推理能力，有的需要多模态。

本文将对比 2026 年主流大模型的核心特性，帮你快速找到适合的工具。

一、模型分类维度

维度	说明	适用场景
推理能力	复杂逻辑、数学、代码	编程助手、数据分析
创作能力	写作、翻译、润色	内容创作、翻译
多模态	图片/音频输入理解	视觉分析、语音交互
速度	响应延迟、吞吐量	实时对话、高并发
成本	Token 价格	预算敏感场景
隐私	数据是否上传	企业/敏感数据

二、主流模型对比

2.1 商汤 SenseNova（日日新）

型号	特点	适用场景
sensenova-6.7-flash-lite	速度快、成本低	日常对话、简单问答
sensenova-u1-fast	平衡速度与质量	内容生成、代码辅助
sensenova-pro	强推理能力	复杂分析、数学推理

优势：

✅ 中文理解优秀
✅ API 稳定，国内访问速度快
✅ 多模态支持（图像理解）
✅ 成本相对较低

劣势：

❌ 复杂推理能力略逊于顶级模型
❌ 生态工具相对较少

推荐场景：中文内容创作、日常问答、图像分析、企业应用

2.2 OpenAI GPT 系列

型号	特点	适用场景
GPT-4o	多模态端到端	语音交互、视觉理解
GPT-4o-mini	速度快、成本低	日常任务、批量处理
GPT-4.1	最强推理	复杂分析、代码生成

优势：

✅ 综合能力最强
✅ 生态最丰富（工具、插件、社区）
✅ Realtime API 支持端到端音频

劣势：

❌ 成本高
❌ 国内访问不稳定
❌ 数据隐私顾虑

推荐场景：复杂任务、多模态应用、需要最强能力的场景

2.3 Anthropic Claude

型号	特点	适用场景
Claude 3.5 Sonnet	平衡型，代码强	编程、文档分析
Claude 3.5 Haiku	速度快	快速响应

优势：

✅ 代码能力极强
✅ 长上下文支持（200K+）
✅ 输出风格自然

劣势：

❌ 多模态能力较弱
❌ 国内访问不稳定

推荐场景：编程助手、长文档分析、需要自然输出的场景

2.4 开源模型（本地部署）

型号	特点	适用场景
Qwen2.5-72B	中文强，开源	本地部署、中文应用
Llama 3.1-70B	英文强，生态好	英文应用、研究
DeepSeek-V3	推理强	复杂分析

优势：

✅ 数据完全本地，隐私可控
✅ 无 API 调用成本
✅ 可自定义微调

劣势：

❌ 需要 GPU 资源
❌ 部署和维护成本高
❌ 能力略逊于闭源模型

推荐场景：数据敏感、需要完全控制、预算充足的场景

三、场景化推荐

📝 日常写作 / 内容创作

优先级	模型	理由
1	Claude 3.5 Sonnet	输出最自然，写作能力强
2	GPT-4o	综合能力均衡
3	SenseNova-Pro	中文优秀，成本低

💻 编程辅助

优先级	模型	理由
1	Claude 3.5 Sonnet	代码能力最强
2	GPT-4.1	代码生成质量高
3	Qwen2.5-72B	开源，可本地部署

🎤 语音交互 / 实时对话

优先级	模型	理由
1	GPT-4o (Realtime API)	端到端音频，延迟最低
2	SenseNova + Whisper + TTS	中文优化，成本低
3	本地部署 + 开源 STT/TTS	隐私可控

📊 数据分析 / 复杂推理

优先级	模型	理由
1	GPT-4.1	推理能力最强
2	Claude 3.5 Sonnet	长上下文 + 推理
3	DeepSeek-V3	开源，推理强

💰 预算敏感 / 批量处理

优先级	模型	理由
1	SenseNova-flash-lite	成本最低，速度最快
2	GPT-4o-mini	性价比高
3	Qwen2.5-7B (本地)	零 API 成本

四、选型决策树

需要多模态（图片/音频）输入？
├── 是 → 需要端到端音频？
│   ├── 是 → GPT-4o Realtime API
│   └── 否 → SenseNova + Whisper 或 GPT-4o REST
└── 否 → 需要最强推理能力？
    ├── 是 → GPT-4.1 或 Claude 3.5 Sonnet
    └── 否 → 预算敏感？
        ├── 是 → SenseNova-flash-lite 或 GPT-4o-mini
        └── 否 → Claude 3.5 Sonnet（综合最佳）

五、总结

场景	首选	备选
中文内容创作	SenseNova-Pro	Claude 3.5 Sonnet
编程辅助	Claude 3.5 Sonnet	GPT-4.1
语音交互	GPT-4o Realtime	SenseNova + Whisper
数据分析	GPT-4.1	Claude 3.5 Sonnet
预算敏感	SenseNova-flash-lite	GPT-4o-mini
数据隐私	本地开源模型	—

核心原则：没有”最好”的模型，只有”最适合”的模型。根据具体场景、预算、隐私要求综合选择。

本文基于 2026 年 5 月各模型公开信息整理，模型能力持续演进，建议定期更新选型策略。

Hermes 音频处理逻辑与语音聊天方案分析

2026-05-28T14:13:34.000Z

分析日期：2026-05-28
涉及项目：Hermes Agent

一、Hermes 当前音频处理架构

1.1 音频摄入流程

1	用户音频 → gateway 捕获 → Whisper STT → 文字 → LLM

关键发现：

❌ 没有音频 native 路径：代码中不存在类似图片的 pending_native_audio_paths
❌ 音频文件被丢弃：STT 完成后，原始音频文件不被传递给 LLM
✅ 图片有 native 路径：图片通过 base64 编码为 image_url content part 直接传给模型

1.2 音频输出流程

1	LLM 文字回复 → TTS 引擎 → 音频文件 → 平台发送

TTS 配置：

引擎：Edge TTS
语音：zh-CN-XiaoxiaoNeural（微软晓晓，中文女声）

1.3 图片 vs 音频架构对比

维度	图片	音频
Native 路径	✅ 存在	❌ 不存在
模型收到	文字 + 图片像素	仅文字
中间层	无	Whisper STT

二、三种语音聊天方案对比

方案 A：当前架构（Whisper + LLM + TTS）

1	音频 → Whisper(STT) → 文字 → LLM → 文字 → TTS → 音频

特征	说明
延迟	~3-5 秒
模型感知	❌ 只收到文字，无法感知语调/情绪
改动量	无（已实现）

方案 B：端到端音频输入（GPT-4o audio input via REST）

1	音频 → GPT-4o(端到端) → 文字 → TTS → 音频

特征	说明
延迟	~1-2 秒
模型感知	✅ 能感知语调/情绪
改动量	中等

方案 C：Realtime API（双向音频流）

1 2	WebSocket 长连接音频流 ←→ 模型 ←→ 音频流

特征	说明
延迟	~0.3-0.8 秒
模型感知	✅ 端到端音频理解
改动量	大

参考项目：BridgeSpeak — 跨 agent skill，基于 OpenAI gpt-realtime-2，约 280 行 Python WebSocket 客户端。

三、方案对比总结

维度	方案 A（当前）	方案 B（GPT-4o REST）	方案 C（Realtime API）
架构	两步走（STT→LLM）	一步走（端到端）	WebSocket 双向流
延迟	~3-5s	~1-2s	~0.3-0.8s
模型感知音频	❌	✅	✅
改动量	无	中等	大
流式	❌	❌	✅
自然对话感	低	中	高

四、SenseNova-U1-Fast 与 Realtime API 的关系

澄清：SenseNova-U1-Fast 和 Realtime API 没有直接关系。

概念	说明
SenseNova-U1-Fast	商汤的一个模型（推理速度快）
Realtime API	OpenAI 的一个WebSocket 端点（`/v1/realtime`）
关系	两者是不同厂商的不同技术

五、推荐路径

目标	推荐方案
快速验证模型能否感知音频	方案 B（GPT-4o audio input）
最佳体验（低延迟、自然对话）	方案 C（Realtime API）
保持当前架构、仅优化 STT	设置 Whisper `language: "zh"` 提升中文识别率

六、代码参考位置

文件	内容
`~/.hermes/config.yaml`	STT/TTS 配置
`run.py` L13402-13480	`_enrich_message_with_transcription()` — STT 转录
`run.py` L6870-6960	`_prepare_inbound_event_text()` — 音频捕获
`agent/image_routing.py`	`build_native_content_parts()` — 图片 base64 编码参考

七、扩展方向

实现音频 native 路径：参考图片的 pending_native_image_paths，添加 pending_native_audio_paths
切换模型提供商：在 config.yaml 修改 agent.provider 和 agent.model
集成 BridgeSpeak：将 BridgeSpeak skill 复制到 ~/.hermes/skills/voice/bridgespeak/
优化 Whisper 中文识别：在 config.yaml 设置 stt.language: "zh"

本文基于 Hermes Agent 代码分析生成，2026-05-28