前言:为何构建 Agent 的三层框架
从控制边界(会话/回合/步骤)理解 Agent 架构的动机和认知框架
Agent 基础设施工程师
模型是 Agent 的大脑,但我们不是神经外科医生——我们是接口工程师。
我们的工作不是控制大脑如何思考,而是控制大脑与世界的接口: 何时可以行动、何时必须停止、如何被观测。
Agent Runtime · 可观测性 · 运营工业化
AI Agent 事件驱动 Hooks 开放规范
定义 14 个生命周期事件(pre/post 钩子 + 质量门),标准化 Agent 与外部治理系统的接口。已实现在 kimi-cli fork 中。
Markdown 的渐进式形式化工具
为 Markdown 添加语义层:Pydantic Model → YAML Entity → 内容寻址引用 → 三层验证。VS Code 扩展 2,500+ 下载。
AI 编辑 Word 文档的保真往返方案
Passthrough 架构:拆包保留全部 OOXML 部件,仅提取文本节点到 YAML。Agent 编辑 YAML,组装时做最小 XML 手术。100% 像素级保真。
2024 年的挑战是"让 Agent 能跑起来",2026 年的挑战是"让 Agent 能放心地跑在生产环境"。
Hooks 是强制执行的约束,其他一切只是善意的建议。但 Hooks 只回答"什么不安全" —— Agent 工程的下一个问题是"什么是对的", 以及谁来决定。
用验收条件替代执行步骤,用令牌模型替代流程模型。
策略从检测向下迁移为预防——让错误不可能发生,而非更快发现。
四类资产中唯一不可被"优化"的。只能被采集,或被忽略。
运营工业化的声明式框架,构建 Agent 运行时的控制切面。
最终交付物的视觉形态。Word、PPT、看板、邮件——内容和样式独立演化,互不污染。
剥离视觉表现后的"干货"。模板捕获可重复模式,数据驱动实例填充。
Pydantic schema + DB + API。数字、事实、事件——未经加工但经过严格类型约束。
人做决策。信息不完备、后果不可逆时,保留人的最终判断权。
最慢 · 最贵 · 不可规模化
人/Agent 按明确规则判定。判定标准可文本化,允许解释空间。
可审计 · 可复现
pytest / CI 中执行。可访问数据库、API、文件系统——表达跨系统约束。
有 setup 成本 · 失败阻断流水线
Pydantic field_validator,数据入库时自动触发。确定性、无副作用、零延迟。
最稳固 · 最廉价 · 预防而非检测
自动化方向:HITL → Eval → Assert → Validate
从控制边界(会话/回合/步骤)理解 Agent 架构的动机和认知框架
将 Agent 分解为其原子构件:LLM 作为概率引擎,提示词作为运行时配置,Bash 作为通用接口
分析最简单的 Agent 形式——对话机器人——控制权如何在用户和助手之间交替
助手回合如何通过思考-行动-观察循环(ReAct)扩展为多次工具调用
跨对话的任务分解、批处理与流水线模式,以及无需明确边界的无限游戏
Agent 控制工程与蒸汽机离心调速器的类比——上下文填充率、步执行速率等关键控制切面