Agent Harness Engineering · Survey Notes

Agent 真正难的,不只是模型,而是 Harness

这篇调查把 “Agent Execution Harness” 单独拎出来,定义为包裹大模型、工具、上下文、运行环境、验证和治理的基础设施层,并提出 ETCLOVG 七层分类。

ETCLOVG 七层 170+ 开源项目映射 Prompt → Context → Harness Agent Infra
Prompt, context and harness engineering comparison

1. 这篇文章到底在讲什么

论文的核心判断是:当大模型本身已经足够强时,Agent 的成败越来越取决于模型外面的那层系统工程,也就是 harness。

模型是发动机,Harness 是车架、刹车、仪表盘、导航、保险和驾驶规则。没有 Harness,强模型也可能跑偏、失控、遗忘、重复、误操作。
1Harness 是独立系统层
Agent 可靠性不只由模型决定,还由执行环境、工具协议、上下文、生命周期、监控、评测和安全治理决定。
2ETCLOVG 拆清生产问题
论文把 Agent Harness 拆成七层:Execution、Tooling、Context、Lifecycle、Observability、Verification、Governance。
3生态地图暴露空白
作者把大量开源项目映射到七层,发现运行、工具、生命周期、评测更密集;可观测性和治理相对薄弱。
我认为这篇文章的价值,是给 “Agent Infra 到底包括什么” 提供了一套清晰词汇。以前大家混着说 prompt、memory、tools、workflow、eval、安全;这篇把它们放回同一个系统架构里。

2. 从 Prompt Engineering 到 Harness Engineering

文章把 2022–2026 的 Agent 工程演化分成三个阶段。它们不是互相替代,而是工程重心逐渐外移。

Prompt
怎么写输入
Context
让模型看什么
Harness
让系统怎么跑
Platform
多人多任务运维
Governed Agent
可审计可控
阶段核心问题典型工程动作局限
2022–2024 Prompt Engineering如何写好一次模型调用的输入指令、few-shot、CoT、角色设定单次调用有效,长任务容易崩
2025 Context Engineering每一步该给模型看什么检索、压缩、排序、上下文窗口管理能缓解遗忘,但还不能解决执行失控
2026– Harness EngineeringAgent 在真实环境里如何可靠完成任务沙盒、工具协议、状态机、监控、验证、安全治理系统复杂度上升,需要平台化能力
Timeline of agent harness systems
论文整理的 Agent Harness 系统时间线:从 ReAct/AutoGPT 到 MCP、A2A、Agent 平台与 Harness 优化。

3. ETCLOVG 七层分类

ETCLOVG 是这篇文章最重要的框架。前四层是 Harness 的结构核心,后三层是围绕它的控制平面。

ETCLOVG taxonomy
ETCLOVG:Execution、Tooling、Context、Lifecycle、Observability、Verification、Governance。
结构核心
E/T/C/L 决定 Agent 在哪里跑、怎么调工具、看什么信息、按什么流程推进。
控制平面
O/V/G 决定系统如何被监控、如何被验证、如何被约束和审计。
关键改进
论文把 Observability 和 Governance 单独列为一等公民,而不是把它们塞进生命周期或安全小节。

4. 七层逐层解释

E

Execution Environment

决定 Agent 代码在哪里执行、权限边界是什么。包括容器、microVM、浏览器沙盒、桌面环境、代码运行环境、OS 权限模型。它回答的问题是:Agent 能碰什么,不能碰什么。

T

Tool Interface & Protocol

定义外部能力如何被描述、发现、调用和管理。MCP、A2A、工具 schema、工具选择、工具会话管理都属于这一层。

C

Context & Memory

决定模型在每一步能看到什么,包括短期上下文、会话状态、长期记忆、检索、压缩、上下文漂移治理。

L

Lifecycle & Orchestration

组织 Agent 控制流,从单 Agent loop 到多 Agent 编排,再到 issue-to-PR 的完整流水线。它决定任务如何开始、暂停、恢复、分叉、结束。

O

Observability & Operations

收集 traces、成本、失败、延迟、工具调用、可靠性指标。没有这一层,Agent 失败后很难知道到底错在模型、工具、上下文还是权限。

V

Verification & Evaluation

把任务和执行轨迹变成可评测、可归因、可回归的反馈。包括 benchmark grounding、执行前验证、trace capture、多层判断和持续回归。

G

Governance & Security

约束 Agent 行为,包括权限模型、身份管理、生命周期 hook、组件加固、声明式宪法、审计基础设施。

Detailed taxonomy tree
更细的 taxonomy tree:每层继续拆成子类,适合做 Agent Infra 产品或开源项目盘点。

5. 他们如何映射开源项目

论文不只是提出框架,还把开源 Agent Harness 项目按七层做了标注。网页展示的当前快照里,各层 primary projects 数量如下:

范围Primary Projects我的理解
E执行环境与沙盒20Agent 要真实操作系统、浏览器、代码,必须先解决运行边界。
T工具接口与协议12MCP/A2A 这类协议正在把工具调用标准化。
C上下文与记忆9独立项目较少,很多能力嵌在大框架内部。
L生命周期与编排47最密集的一层,说明 workflow、multi-agent、task pipeline 是当前主战场。
O可观测性与运维15开源薄一些,商业平台和内部系统更多。
V验证与评估21Agent benchmark、trace eval、regression 已经快速成熟。
G治理与安全14越来越重要,但还没有像工具协议那样标准化。
Corpus construction protocol
项目语料构建流程:从 GitHub、论文、curated lists、包注册表和工程博客收集,再去重、筛选、编码。
注意:网页摘要写的是 broad corpus,PDF 摘要提到 170+,正文贡献处又出现 148+ 这样的数量表述。我的理解是:这是一个仍在维护的 living catalog,不同版本/口径下项目数会变化。

6. 三个跨层系统问题

成本-质量-速度三角

更强沙盒、更深评测、更丰富上下文会提高质量和安全,但也会增加 token、延迟和基础设施成本。生产系统必须决定哪些检查同步做,哪些放到异步或回归套件里。

能力-控制权衡

工具越多、记忆越持久、沙盒越宽松,Agent 能做的事越多,但爆炸半径也越大。工具 schema、权限、身份、审计、人类审批必须一起设计。

Harness 耦合问题

局部优化可能破坏全局。一个 prompt、工具、sandbox、verifier 单独看有效,组合进完整 loop 后可能变慢、变贵或引入新失败模式。

这部分是我最认同的:Agent Infra 不能用“加一个工具”“加一个记忆库”“加一个评测”这种局部思路解决,必须把 Harness 当成整体系统调参。

7. 五个开放问题

开放问题通俗解释为什么难
执行环境加固与规模化Agent 到底该跑在容器、microVM、浏览器、桌面 VM 还是托管沙盒里?安全、成本、延迟、兼容性互相冲突。
长任务可靠状态Agent 跑几十上百轮后,如何不忘、不乱、不被旧信息误导?压缩、检索、遗忘都会丢信息,还要处理过期和矛盾。
Trace-native 失败诊断把 trace 当成评测和归因的核心对象,而不是事后日志。要从复杂轨迹里判断模型、工具、上下文、权限哪一层出了错。
Agent/工具/人类之间的标准交接handoff 不只是发一段摘要,还要交接意图、权限、预算、风险、证据和未决问题。协议太简单不安全,太复杂又没人用。
模型变强后 Harness 如何简化今天必要的脚手架,明天可能变成成本和延迟。需要持续 ablation,判断哪些控制仍然 load-bearing。

8. 我反复读完后的重点笔记

1. Harness 是 Agent 的操作系统雏形。
它管理执行环境、工具、记忆、生命周期、监控、验证、安全,已经超过普通 SDK 范畴。
2. Context Engineering 只是中间阶段。
只解决“模型看什么”,还没解决“系统如何安全执行”。
3. Observability 必须独立成层。
没有 trace、成本、失败归因,Agent 无法进入生产。
4. Governance 不是最后补丁。
权限、身份、审计、审批要从架构开始设计。
5. Agent 项目会从 Framework 走向 Platform。
真正生产可用的 Agent 需要 durable workspace、identity、eval、governance、handoff。
6. 未来的竞争点是 Harness 优化。
同一个模型,换工具格式、上下文注入、自验证 hook,都可能带来大幅 benchmark 提升。

如果用一句话总结

Agent 的下一轮红利,不在“再写一个聊天框”,而在把模型外面那层执行系统工程化、平台化、可观测化、可治理化。

9. 适合谁读

角色应该重点看什么
AI Infra / Agent Runtime 工程师ETCLOVG 七层、跨层权衡、开放问题。
产品/创业者从 Agent Framework 到 Agent Platform 的趋势。
安全/合规团队Governance、Execution sandbox、audit、permission model。
LLMOps / Eval 团队Observability、Verification、trace-native failure diagnosis。
研究者项目语料构建、分类方法、未来研究问题。