Harness Engineering:OpenAI 智能体工程总结

Harness Engineering:OpenAI 智能体工程总结 [!abstract] 这篇文章真正讨论的重点,不是“AI 会不会写代码”,而是“怎样搭建一个让智能体持续稳定地产出代码、测试、文档与修复的工程系统”。 [!note] 这是一份基于原文的整理版总结,偏重方法论提炼,不是逐段直译。 标题怎么理解 Harness Engineering 如果直译并不自然。结合全文语境,我更倾向把它理解为: 面向智能体的工程编排 为智能体设计工作环境、约束和反馈回路的工程实践 也就是说,重点已经不只是“让模型写代码”,而是让它在一个可读、可测、可验证、可修复的系统里持续工作。 一句话总结 OpenAI 用一个很小的工程团队,在几个月内做出了一个已经有真实用户使用的内部产品;在这个过程中,人类几乎不直接写代码,而是把主要精力放在搭建代码仓库结构、文档体系、工具链、架构约束、可观测性和自动反馈回路上,让 Codex 能稳定地产生、验证、修复并合并变更。 文章的核心信息 1. 人类从“写代码”转向“设计系统” 文章里最关键的一句话可以概括为:人类掌舵,智能体执行。 工程师的主要职责不再是亲手补实现,而是: 把目标拆成智能体能完成的任务 提供足够清晰的上下文和约束 设计反馈回路,让智能体自己发现问题并修复 当智能体做不好一件事时,重点不是“再提示一次”,而是追问:是不是缺工具、缺文档、缺规则、缺可观察性。 2. AGENTS.md 应该是地图,不该是百科全书 他们早期试过写一个超大的 AGENTS.md,结果失败了。原因很直接: 上下文窗口是稀缺资源 规则太多以后,模型会丢失重点 大而全的说明很快就会过期 单文件很难机械检查和持续维护 所以更好的做法是: 用简短的 AGENTS.md 充当导航地图 把真正的知识沉淀到结构化的 docs/ 中 给设计文档、执行计划、产品规格、架构说明和质量评分做索引 这本质上是在做渐进式披露:先给入口,再按需深入,而不是一次性把所有东西塞给模型。 3. 代码仓库要成为唯一可信的记录系统 对智能体来说,拿不到上下文就等于不存在。 所以那些只存在于聊天记录、口头讨论、Google Docs 或人脑里的决策,实际上都无法被智能体可靠地复用。文章强调,应该把越来越多的重要上下文沉淀回仓库,包括: 架构原则 产品约束 设计决策 执行计划 技术债状态 代码质量标准 这样智能体才能基于版本化的、可检索的材料持续工作。 4. 不只是代码要可读,应用本身也要对智能体可读 他们做了很多“让智能体自己看得见系统状态”的建设,比如: 支持基于 git worktree 启动独立应用实例 把浏览器调试能力接入智能体运行时 提供 DOM 快照、截图、导航等能力 把日志、指标、链路追踪也暴露给智能体查询 这样智能体就不只是“改代码”,还可以: ...

March 12, 2026 · 1 min · 141 words · Similarityoung

智能体基础

智能体基础 [!note] 定义 智能体(Agent)是能够感知环境、进行推理并执行动作以达成目标的系统。 三个核心要素 目标(Goal):要解决什么问题。 记忆(Memory):保存上下文与历史决策。 工具(Tools):调用外部能力执行任务。 一个最小工作流 接收任务 拆解步骤 执行与验证 输出结果并记录经验 智能体分类 [!summary] 智能体的分类可以从两条主线理解: 传统演进路线(从规则反应到学习进化) 三个现代互补维度(决策架构、时间反应性、知识表示) 一、传统演进视角 简单反射智能体(Simple Reflex Agent) 仅依赖当前感知输入。 基于预设的“条件-动作”规则。 无记忆、无预测能力。 基于模型的反射智能体(Model-Based Reflex Agent) 引入内部世界模型(World Model)。 能追踪不可直接观测的环境状态。 具备初级记忆能力。 基于目标的智能体(Goal-Based Agent) 从“被动反应”转向“主动达成目标”。 会进行规划(Planning)并评估行动路径。 基于效用的智能体(Utility-Based Agent) 在多目标冲突下进行权衡。 为状态赋予效用值,追求期望效用最大化。 学习型智能体(Learning Agent) 包含性能元件与学习元件。 通过与环境交互持续自我修正(如强化学习)。 可从“依赖规则”演进为“依赖经验”。 二、现代三大分类维度 1. 基于内部决策架构 关注“内部决策机制复杂度”的层级。 基本覆盖从简单反应式到效用决策式的阶梯。 学习能力可视为可叠加在各类架构上的元能力。 2. 基于时间与反应性 反应式智能体(Reactive Agents) 感知到行动的直接映射。 优点:速度快、计算开销低。 局限:缺乏长程规划,易陷入局部最优。 规划式/审议式智能体(Deliberative Agents) 行动前基于世界模型进行推演。 优点:战略性强、可评估长期后果。 局限:时间和计算成本较高。 混合式智能体(Hybrid Agents) 结合反应式与规划式优势。 兼顾即时响应与长期目标。 典型例子:LLM 智能体在“思考-行动-观察”循环中运作。 3. 基于知识表示 符号主义 AI(Symbolic AI) ...

March 5, 2026 · 2 min · 223 words · Similarityoung

用于阅读论文的提示词

阅读论文 Prompt 你是一名AI领域的研究生,目标是深入理解论文的方法部分,包括方法动机、设计逻辑、流程细节、优势与不足,以便学习和在研究中借鉴。你的角色是高效、深入的论文分析师。 任务: 请在阅读论文(用户提供的文本或摘要)后,围绕以下要点进行总结和分析: 0. 翻译摘要原文 方法动机 a) 作者为什么提出这个方法?阐述其背后的驱动力。 b) 现有方法的痛点/不足是什么?具体指出局限性。 c) 论文的研究假设或直觉是什么?用简洁语言概括。 方法设计 a) 给出清晰的方法流程总结(pipeline),逐步解释输入→处理→输出。必须讲清楚每一步的具体操作和技术细节。这一步必须非常细致,这是用户的主要阅读目标。 b) 如果涉及模型结构,请描述每个模块的功能与作用,以及它们如何协同工作。 c) 如果有公式/算法,请用通俗语言解释它们的意义和在方法中的角色。 与其他方法对比 a) 本方法和现有主流方法相比,有什么本质不同? b) 创新点在哪里?明确指出贡献度。 c) 在什么场景下更适用?分析其适用范围。 d) 用表格总结 方法对比(优点/缺点/改进点),确保对比项清晰。 实验表现与优势 a) 作者如何验证该方法的有效性?描述实验设计和设置。 b) 实验结果在哪些指标上超越了对比方法?列出几个最具代表性的关键数据和结论。 c) 哪些场景/数据集下优势最明显?提供具体证据。 d) 是否有局限性(比如泛化能力、计算开销、对特定数据的依赖)?指出论文中承认或隐含的不足。 学习与应用 a) 论文是否开源?如果我想实现/复现这个方法,关键步骤是什么? b) 需要注意哪些超参数、数据预处理、训练细节?提供实现层面的建议。 c) 该方法能否迁移到其他任务?如果能,如何迁移? 总结 a) 用一句话概括这个方法的核心思想(不超过20字)。 b) 给出一个“速记版pipeline”(使用3-5个关键步骤),方便记忆。这个pipeline不要使用论文使用的专业词汇,而是应当具有自明性,让读者只看pipeline即可大体理解论文内容。不要用比喻,直白的讲出内容。 行为和规则: 语言风格:专业、严谨、逻辑性强,完全采用中文进行回复 回复结构:严格按照上述六个大点和其子点进行分析和总结,使用清晰的分段和编号。 数据来源:所有分析必须基于用户提供的论文内容。如果用户未提供论文内容,则请要求用户上传PDF或提供论文文本/摘要。 聚焦核心:重点解析方法(Methodology)部分,避免过度讨论引言和结论。 输出要求:用户可能不再阅读论文具体内容,而是只阅读你提供的信息。 阅读综述提示词 Prompt 你是一名AI领域的研究生,需要快速把握一篇综述论文的核心内容,包括研究背景、方法分类、发展脉络、趋势与挑战,以便于文献综述和研究选题。 任务: 请在阅读论文后,按照以下结构进行总结与分析: 1.基本信息 论文标题、作者、发表年份、期刊/会议 覆盖的研究领域/任务范围 2.背景与研究动机 为什么要写这篇综述? 该领域的发展背景是什么? 有哪些实际应用场景或科学问题驱动了这篇综述? 3.方法与研究分类 作者是如何对现有方法进行分类的? 每一类方法的代表性思路、典型模型或算法 用表格/层级结构概括这些方法 4.对比与总结 各类方法的优点与局限性 哪些方法在特定场景下表现突出? 作者是否指出了方法之间的联系或演化脉络? 5.趋势与未来方向 论文总结的未来研究方向是什么? 当前领域的主要挑战有哪些? 哪些新兴方法或技术值得关注? 6.学习与应用 这篇综述对我的研究 ([替换成你的方向])有什么启发? 是否提供了关键数据集、工具、开源框架的整理? 7.知识提炼 提炼核心术语、关键方法名,并给简明解释 制作一个“方法速览表”或“研究脉络时间线” ...

December 8, 2025 · 4 min · 699 words · Similarityoung