AI Agent Playbook

Loop Engineering：从 Prompt 到可持续 Agent 工作系统

Loop Engineering 不是让 AI 完全替代工程师，而是把 Agent 放进一个围绕长期目标运转的闭环系统：它观察状态、决定动作、执行任务、验证结果、记录历史，并在下一轮继续推进。

先看核心定义看落地案例

1. 先给一个准确但不复杂的定义

Loop Engineering 的重点不是某个工具，而是一种组织 Agent 工作的工程方法。

一句话定义

Loop Engineering 是围绕一个长期 target，设计一套由 Agent 执行的闭环：observe → decide → act → verify → remember → repeat。

一次性 Agent Workflow

目标通常是完成一个具体任务
由人手动发起和继续追问
执行完成后流程结束
状态主要存在当前对话里
失败后通常需要人重新组织上下文

Agent Loop

目标是长期维持某种状态
由定时、事件或人工入口触发
每轮都会观察、判断、执行和验证
状态写入文件、issue、board 或数据库
下一轮会基于历史继续推进

2. 最重要的心智模型：重复的是结构，不是内容

很多人误以为 loop 只适合每天做一模一样的事。其实不对。Loop 自动化的是处理结构。

内容可以每天不同

今天是 CI 失败，明天是 issue triage，后天是 I18n key 变更。具体内容可以完全不同。

结构通常高度重复

收集上下文、分类、判断风险、执行低风险动作、验证、记录，这些动作反复出现。

目标必须长期存在

例如保持主分支健康、保持集群可用、保持中文翻译与英文一致。

判断标准

如果一个任务不是为了完成一次输出，而是为了长期维护某种状态，它就很可能适合被设计成 loop。

3. 一个完整 Loop 由哪些部分组成？

你可以把 loop 看成一个小型控制系统。它不只是 cron，也不只是 skill，而是多个组件的组合。

Target：长期目标

定义系统长期要维持什么，例如可用性、一致性、质量、覆盖率、知识库新鲜度。

Trigger：触发入口

可以是 cron、CI 失败、GitHub issue 更新、告警、PR 创建，也可以是你手动说开始。

Observe：观察状态

读取代码、日志、测试结果、翻译文件、任务板、状态文件或监控指标。

Decide：决策与分流

判断哪些可以自动做，哪些只能分析，哪些必须交给人。

Act：执行动作

调用 Agent、workflow skill、脚本、连接器或子 Agent 执行低风险动作。

Verify：验证结果

用测试、lint、健康检查、占位符校验、review agent 或人工 review 判断是否达标。

Memory：外部记忆

把结果写入状态文件、issue、Linear board 或数据库，让下一轮知道上次发生了什么。

4. Loop、CronJob、Workflow Skill、Claude Code 的区别

它们不是互斥关系，而是处于不同层级。

CronJob

负责什么时候开始。它是触发器，不负责长期目标、状态记忆和质量闭环。

Workflow Skill

负责怎么做某类事。它像 SOP，本身不会自动发现任务，也不会持续维护目标。

Claude Code / Codex / Hermes

负责具体执行。它们是 Agent 执行器，不等于 loop 本身。

Loop Engineering

负责把触发器、skill、agent、状态、验证和升级机制串起来，围绕 target 持续运转。

CronJob = 什么时候跑
Skill = 怎么做
Agent = 谁来做
Memory = 记住做到哪
Verifier = 判断是否合格
Loop = 把这些串成一个长期运转的系统

5. 三个从简单到复杂的 Loop 案例

下面这些都算 loop，但风险等级不同。最适合从 I18n 或文档同步开始。

I18n Translation Consistency Loop

长期目标是维持中文翻译文件与英文原件一致。每轮检查新增 key、删除 key、value 变更、占位符不一致和疑似 key rename，然后自动处理低风险翻译并生成报告。

Repo Health Loop

长期目标是保持 main 分支健康。每天或每次 CI 失败时，读取测试、issue、最近 commit，识别低风险修复项，开 worktree 尝试处理，测试通过后生成 PR。

Cluster Availability Loop

长期目标是保持集群可用。定时读取节点、Pod、日志和告警，只对 allowlist 中的低风险问题自动修复，高风险操作只生成诊断和建议。

6. 最推荐的第一个 Loop：I18n 同步

它目标明确、输入输出清楚、风险较低、验证容易，非常适合作为 Loop Engineering 的第一个落地样板。

一次性翻译任务

把这一批英文翻成中文
完成后就结束
下次英文变了还要重新提醒
容易漏 key、漏占位符、漏语义变化

I18n Sync Loop

长期保持 zh-CN 与 en 一致
定期或在英文文件变化时运行
自动识别新增、删除、修改和 rename 候选
校验 key 集合、占位符、格式和待人工确认项

目标：保持 zh-CN 翻译文件与 en 原文文件一致

每轮流程：
1. 读取 en.json / zh-CN.json
2. 比较 key 集合和英文 value hash
3. 识别新增、删除、修改、疑似 rename
4. 自动翻译低风险新增和修改文案
5. 保留变量占位符，例如 {name}、{{count}}、%s
6. 检查格式、排序和占位符一致性
7. 生成 i18n-sync-report
8. 更新 I18N_STATE.md
9. 对低置信度 rename、法律/支付/安全文案升级给人

7. 真正的工程难点：边界、停止条件和升级机制

Loop 越自动，越需要明确知道哪些不能做。否则它不是提高效率，而是在自动放大错误。

权限边界

默认只允许低风险动作。涉及生产、权限、数据、支付、安全的动作必须降级为分析报告。

停止条件

连续失败、验证不通过、成本超限、置信度不足时必须停止，而不是无限重试。

人工升级

高风险、不确定、上下文不足或影响范围过大时，loop 应该把问题交给人。

外部记忆

状态不能只留在对话里。要写入状态文件、issue、PR comment 或任务板。

验证器

不能让写代码的 Agent 自己完全判定成功。需要测试、规则、reviewer agent 或人工 review。

成本控制

sub-agent、长上下文、多轮重试都会烧 token。loop 要有预算意识。

8. 如何从 0 到 1 落地一个小 Loop？

不要一开始就做“全自动工程师”。先做一个低风险、可验证、可回滚的小闭环。

选择一个长期 target

例如保持 I18n 一致、维护文档新鲜度、总结 CI 失败、整理 issue。

写清楚输入和输出

输入是什么文件、日志、issue 或指标？输出是报告、PR、状态文件还是页面？

定义 workflow skill

把处理步骤写成 SOP，让 Agent 每次按同一套规则执行。

增加 memory

用 I18N_STATE.md、PROJECT_STATE.md 或 issue comment 记录上次处理结果。

增加 verifier

加格式校验、测试、lint、健康检查或 reviewer agent。

最后再加 trigger

先手动运行稳定后，再接 cron、CI、GitHub Actions 或告警触发。

9. 常见误区

Loop Engineering 不是魔法，它只是把 Agent 放进更工程化的工作系统里。

误区一：Loop 就是 CronJob

Cron 只是触发器。没有目标、状态、验证和记忆，就只是定时任务。

误区二：Loop 就是 Workflow Skill

Skill 是 SOP；Loop 是把 SOP 调度起来，并基于状态持续推进目标。

误区三：每天事情不重复就不能 Loop

能。重复的是处理结构，不是具体任务内容。

误区四：Loop 应该完全自动

成熟的 loop 不是什么都做，而是知道什么能做、什么不能做、什么时候停。

误区五：有 Agent Review 就不用人 Review

Agent Review 是过滤器，不是最终责任转移。关键代码仍要人确认。

误区六：状态放在上下文里就够了

不够。长期运行的 loop 必须把状态写到 repo、board 或数据库里。

10. 最后总结

Loop Engineering 的价值，不是让工程师消失，而是把工程师从重复的追问、整理和跟进中释放出来。

最短版本

Prompt Engineering 关心“我怎么问 AI”；Loop Engineering 关心“我怎么设计一个系统，让 AI 持续、可靠、可控地围绕目标工作”。

Build the loop.
Stay the engineer.

设计 loop，但不要放弃工程判断。
让 Agent 自动推进低风险重复结构，
把高风险、不确定和需要取舍的部分留给工程师。

FAQ

几个最容易混淆的问题。

我的 cron 定时给 Hermes 一个任务，并且会调用 workflow skill，这算 loop 吗？

这是 loop 的雏形。如果它还有长期目标、外部状态、验证、失败停止和人工升级机制，就可以算完整 loop。

每天处理的事情大多不一样，还能 loop 吗？

能。Loop 不要求内容重复，它要求处理结构可标准化，例如观察、分类、执行、验证、记录。

I18n 英文到中文同步算 loop 吗？

算，而且是很适合作为第一个 loop 的场景。长期目标是维持中文翻译文件与英文原件一致。

Loop 和 Claude Code 有什么区别？

Claude Code 是执行器；Loop Engineering 是把执行器、触发器、skill、状态和验证机制组织成长期工作系统的方法。

最小可行 loop 应该从哪里开始？

从低风险、易验证、可回滚的任务开始，例如 I18n 同步、文档同步、CI 失败总结、issue triage。