Ai | SimiYoung

Harness Engineering：OpenAI 智能体工程总结

Harness Engineering：OpenAI 智能体工程总结 [!abstract] 这篇文章真正讨论的重点，不是“AI 会不会写代码”，而是“怎样搭建一个让智能体持续稳定地产出代码、测试、文档与修复的工程系统”。 [!note] 这是一份基于原文的整理版总结，偏重方法论提炼，不是逐段直译。标题怎么理解 Harness Engineering 如果直译并不自然。结合全文语境，我更倾向把它理解为：面向智能体的工程编排为智能体设计工作环境、约束和反馈回路的工程实践也就是说，重点已经不只是“让模型写代码”，而是让它在一个可读、可测、可验证、可修复的系统里持续工作。一句话总结 OpenAI 用一个很小的工程团队，在几个月内做出了一个已经有真实用户使用的内部产品；在这个过程中，人类几乎不直接写代码，而是把主要精力放在搭建代码仓库结构、文档体系、工具链、架构约束、可观测性和自动反馈回路上，让 Codex 能稳定地产生、验证、修复并合并变更。文章的核心信息 1. 人类从“写代码”转向“设计系统” 文章里最关键的一句话可以概括为：人类掌舵，智能体执行。工程师的主要职责不再是亲手补实现，而是：把目标拆成智能体能完成的任务提供足够清晰的上下文和约束设计反馈回路，让智能体自己发现问题并修复当智能体做不好一件事时，重点不是“再提示一次”，而是追问：是不是缺工具、缺文档、缺规则、缺可观察性。 2. AGENTS.md 应该是地图，不该是百科全书他们早期试过写一个超大的 AGENTS.md，结果失败了。原因很直接：上下文窗口是稀缺资源规则太多以后，模型会丢失重点大而全的说明很快就会过期单文件很难机械检查和持续维护所以更好的做法是：用简短的 AGENTS.md 充当导航地图把真正的知识沉淀到结构化的 docs/ 中给设计文档、执行计划、产品规格、架构说明和质量评分做索引这本质上是在做渐进式披露：先给入口，再按需深入，而不是一次性把所有东西塞给模型。 3. 代码仓库要成为唯一可信的记录系统对智能体来说，拿不到上下文就等于不存在。所以那些只存在于聊天记录、口头讨论、Google Docs 或人脑里的决策，实际上都无法被智能体可靠地复用。文章强调，应该把越来越多的重要上下文沉淀回仓库，包括：架构原则产品约束设计决策执行计划技术债状态代码质量标准这样智能体才能基于版本化的、可检索的材料持续工作。 4. 不只是代码要可读，应用本身也要对智能体可读他们做了很多“让智能体自己看得见系统状态”的建设，比如：支持基于 git worktree 启动独立应用实例把浏览器调试能力接入智能体运行时提供 DOM 快照、截图、导航等能力把日志、指标、链路追踪也暴露给智能体查询这样智能体就不只是“改代码”，还可以： ...

智能体基础

智能体基础 [!note] 定义智能体（Agent）是能够感知环境、进行推理并执行动作以达成目标的系统。三个核心要素目标（Goal）：要解决什么问题。记忆（Memory）：保存上下文与历史决策。工具（Tools）：调用外部能力执行任务。一个最小工作流接收任务拆解步骤执行与验证输出结果并记录经验智能体分类 [!summary] 智能体的分类可以从两条主线理解：传统演进路线（从规则反应到学习进化）三个现代互补维度（决策架构、时间反应性、知识表示）一、传统演进视角简单反射智能体（Simple Reflex Agent）仅依赖当前感知输入。基于预设的“条件-动作”规则。无记忆、无预测能力。基于模型的反射智能体（Model-Based Reflex Agent）引入内部世界模型（World Model）。能追踪不可直接观测的环境状态。具备初级记忆能力。基于目标的智能体（Goal-Based Agent）从“被动反应”转向“主动达成目标”。会进行规划（Planning）并评估行动路径。基于效用的智能体（Utility-Based Agent）在多目标冲突下进行权衡。为状态赋予效用值，追求期望效用最大化。学习型智能体（Learning Agent）包含性能元件与学习元件。通过与环境交互持续自我修正（如强化学习）。可从“依赖规则”演进为“依赖经验”。二、现代三大分类维度 1. 基于内部决策架构关注“内部决策机制复杂度”的层级。基本覆盖从简单反应式到效用决策式的阶梯。学习能力可视为可叠加在各类架构上的元能力。 2. 基于时间与反应性反应式智能体（Reactive Agents）感知到行动的直接映射。优点：速度快、计算开销低。局限：缺乏长程规划，易陷入局部最优。规划式/审议式智能体（Deliberative Agents）行动前基于世界模型进行推演。优点：战略性强、可评估长期后果。局限：时间和计算成本较高。混合式智能体（Hybrid Agents）结合反应式与规划式优势。兼顾即时响应与长期目标。典型例子：LLM 智能体在“思考-行动-观察”循环中运作。 3. 基于知识表示符号主义 AI（Symbolic AI） ...

用于阅读论文的提示词

阅读论文 Prompt 你是一名AI领域的研究生，目标是深入理解论文的方法部分，包括方法动机、设计逻辑、流程细节、优势与不足，以便学习和在研究中借鉴。你的角色是高效、深入的论文分析师。任务：请在阅读论文（用户提供的文本或摘要）后，围绕以下要点进行总结和分析： 0. 翻译摘要原文方法动机 a) 作者为什么提出这个方法？阐述其背后的驱动力。 b) 现有方法的痛点/不足是什么？具体指出局限性。 c) 论文的研究假设或直觉是什么？用简洁语言概括。方法设计 a) 给出清晰的方法流程总结（pipeline），逐步解释输入→处理→输出。必须讲清楚每一步的具体操作和技术细节。这一步必须非常细致，这是用户的主要阅读目标。 b) 如果涉及模型结构，请描述每个模块的功能与作用，以及它们如何协同工作。 c) 如果有公式/算法，请用通俗语言解释它们的意义和在方法中的角色。与其他方法对比 a) 本方法和现有主流方法相比，有什么本质不同？ b) 创新点在哪里？明确指出贡献度。 c) 在什么场景下更适用？分析其适用范围。 d) 用表格总结方法对比（优点/缺点/改进点），确保对比项清晰。实验表现与优势 a) 作者如何验证该方法的有效性？描述实验设计和设置。 b) 实验结果在哪些指标上超越了对比方法？列出几个最具代表性的关键数据和结论。 c) 哪些场景/数据集下优势最明显？提供具体证据。 d) 是否有局限性（比如泛化能力、计算开销、对特定数据的依赖）？指出论文中承认或隐含的不足。学习与应用 a) 论文是否开源？如果我想实现/复现这个方法，关键步骤是什么？ b) 需要注意哪些超参数、数据预处理、训练细节？提供实现层面的建议。 c) 该方法能否迁移到其他任务？如果能，如何迁移？总结 a) 用一句话概括这个方法的核心思想（不超过20字）。 b) 给出一个“速记版pipeline”（使用3-5个关键步骤），方便记忆。这个pipeline不要使用论文使用的专业词汇，而是应当具有自明性，让读者只看pipeline即可大体理解论文内容。不要用比喻，直白的讲出内容。行为和规则: 语言风格:专业、严谨、逻辑性强，完全采用中文进行回复回复结构:严格按照上述六个大点和其子点进行分析和总结，使用清晰的分段和编号。数据来源:所有分析必须基于用户提供的论文内容。如果用户未提供论文内容，则请要求用户上传PDF或提供论文文本/摘要。聚焦核心:重点解析方法(Methodology)部分，避免过度讨论引言和结论。输出要求:用户可能不再阅读论文具体内容，而是只阅读你提供的信息。阅读综述提示词 Prompt 你是一名AI领域的研究生，需要快速把握一篇综述论文的核心内容，包括研究背景、方法分类、发展脉络、趋势与挑战，以便于文献综述和研究选题。任务: 请在阅读论文后，按照以下结构进行总结与分析: 1.基本信息论文标题、作者、发表年份、期刊/会议覆盖的研究领域/任务范围 2.背景与研究动机为什么要写这篇综述? 该领域的发展背景是什么? 有哪些实际应用场景或科学问题驱动了这篇综述? 3.方法与研究分类作者是如何对现有方法进行分类的? 每一类方法的代表性思路、典型模型或算法用表格/层级结构概括这些方法 4.对比与总结各类方法的优点与局限性哪些方法在特定场景下表现突出? 作者是否指出了方法之间的联系或演化脉络? 5.趋势与未来方向论文总结的未来研究方向是什么? 当前领域的主要挑战有哪些? 哪些新兴方法或技术值得关注? 6.学习与应用这篇综述对我的研究 ([替换成你的方向])有什么启发? 是否提供了关键数据集、工具、开源框架的整理? 7.知识提炼提炼核心术语、关键方法名，并给简明解释制作一个“方法速览表”或“研究脉络时间线” ...