智能体基础

[!note] 定义 智能体(Agent)是能够感知环境、进行推理并执行动作以达成目标的系统。

三个核心要素

  1. 目标(Goal):要解决什么问题。
  2. 记忆(Memory):保存上下文与历史决策。
  3. 工具(Tools):调用外部能力执行任务。

一个最小工作流

  1. 接收任务
  2. 拆解步骤
  3. 执行与验证
  4. 输出结果并记录经验

智能体分类

[!summary] 智能体的分类可以从两条主线理解:

  1. 传统演进路线(从规则反应到学习进化)
  2. 三个现代互补维度(决策架构、时间反应性、知识表示)

一、传统演进视角

  1. 简单反射智能体(Simple Reflex Agent)

    • 仅依赖当前感知输入。
    • 基于预设的“条件-动作”规则。
    • 无记忆、无预测能力。
  2. 基于模型的反射智能体(Model-Based Reflex Agent)

    • 引入内部世界模型(World Model)。
    • 能追踪不可直接观测的环境状态。
    • 具备初级记忆能力。
  3. 基于目标的智能体(Goal-Based Agent)

    • 从“被动反应”转向“主动达成目标”。
    • 会进行规划(Planning)并评估行动路径。
  4. 基于效用的智能体(Utility-Based Agent)

    • 在多目标冲突下进行权衡。
    • 为状态赋予效用值,追求期望效用最大化。
  5. 学习型智能体(Learning Agent)

    • 包含性能元件与学习元件。
    • 通过与环境交互持续自我修正(如强化学习)。
    • 可从“依赖规则”演进为“依赖经验”。

二、现代三大分类维度

1. 基于内部决策架构

  • 关注“内部决策机制复杂度”的层级。
  • 基本覆盖从简单反应式到效用决策式的阶梯。
  • 学习能力可视为可叠加在各类架构上的元能力。

2. 基于时间与反应性

  1. 反应式智能体(Reactive Agents)

    • 感知到行动的直接映射。
    • 优点:速度快、计算开销低。
    • 局限:缺乏长程规划,易陷入局部最优。
  2. 规划式/审议式智能体(Deliberative Agents)

    • 行动前基于世界模型进行推演。
    • 优点:战略性强、可评估长期后果。
    • 局限:时间和计算成本较高。
  3. 混合式智能体(Hybrid Agents)

    • 结合反应式与规划式优势。
    • 兼顾即时响应与长期目标。
    • 典型例子:LLM 智能体在“思考-行动-观察”循环中运作。

3. 基于知识表示

  1. 符号主义 AI(Symbolic AI)

    • 知识以规则与逻辑结构显式表示。
    • 优点:可解释性强。
    • 局限:对模糊、开放环境适应性弱。
  2. 亚符号主义 AI(Sub-symbolic AI)

    • 知识隐式分布于神经网络参数中。
    • 优点:擅长模式识别。
    • 局限:可解释性弱、逻辑推理可控性不足。
  3. 神经符号主义 AI(Neuro-Symbolic AI)

    • 融合神经网络的感知能力与符号推理能力。
    • 目标:兼顾直觉学习与可控推理。
    • LLM 智能体可视为典型代表:神经底座 + 结构化中间步骤(计划/API 调用)。

三、速查对照

维度分类焦点典型类型
传统演进能力如何一步步增强反射式 -> 模型式 -> 目标式 -> 效用式 -> 学习式
时间与反应性速度与规划的权衡反应式 / 审议式 / 混合式
知识表示知识如何存储与推理符号 / 亚符号 / 神经符号

大语言模型基础(智能体的大脑)

[!summary] 本节回答“现代智能体的大脑如何工作”:从语言模型架构演进,到提示与部署实践,再到能力边界与可靠性问题。

一、语言模型的演进与底层架构

  1. 早期统计模型:N-gram

    • 基于马尔可夫假设,通过局部上下文预测下一个词。
    • 主要问题:数据稀疏、泛化能力弱。
  2. 神经网络阶段:前馈网络 + 词嵌入

    • 引入 Word Embedding,缓解离散词表示的局限。
    • 仍受上下文窗口和序列建模能力限制。
  3. 序列建模阶段:RNN / LSTM

    • 通过隐藏状态保留历史信息,提升长依赖建模能力。
    • 主要瓶颈:并行能力差、梯度消失/爆炸风险。
  4. Transformer 的突破(2017)

    • 抛弃循环结构,采用 Self-Attention。
    • 可并行处理整段序列,并对不同词元分配不同注意力权重。
  5. 主流范式:Decoder-Only + 自回归

    • 以 GPT 为代表,仅保留解码器(Decoder-Only)。
    • 统一任务形式:通过自回归(Autoregressive)持续“预测下一个词”。
    • 这是当前通用智能体底座模型的核心机制。

二、与大语言模型的交互与工程实践

  1. 提示工程(Prompt Engineering)

    • 提示是人与智能体的交互接口。
    • 采样参数调优:
      • Temperature:控制随机性与创造性。
      • Top-k / Top-p:控制候选词分布与采样范围。
    • 常见增强手段:
      • Few-shot 示例提示。
      • 角色设定(Role Prompt)。
      • 思维链(Chain-of-Thought, CoT)提示。
  2. 文本分词(Tokenization)

    • 模型处理单位是 Token,不是“自然词”本身。
    • 常用算法:BPE(Byte Pair Encoding)。
    • 工程影响:分词方式直接影响上下文窗口利用率与推理成本。
  3. 模型部署与选型

    • 可通过 Hugging Face 等工具部署开源模型(如 Qwen1.5-0.5B)。
    • 选型要综合权衡:
      • 性能与推理质量
      • 成本与延迟
      • 上下文窗口
      • 部署方式与可控性
      • 安全与伦理约束
    • 闭源与开源取舍:
      • 闭源模型(GPT / Gemini / Claude):能力强、即开即用。
      • 开源模型(Llama / Mistral):可定制、自主可控。

三、大模型的发展规律与内在局限

  1. 缩放法则(Scaling Laws)

    • 模型性能与参数量、数据量、算力常呈幂律关系。
    • 达到一定规模会出现“涌现能力”(复杂推理、指令遵循等)。
    • Chinchilla 定律强调:给定算力下存在“参数量-数据量”最优配比。
  2. 模型幻觉(Hallucination)

    • 表现:生成内容与事实或输入不一致,但语气高度自信。
    • 常见成因:
      • 训练数据偏差
      • 知识时效性不足
      • 自回归生成误差累积
    • 常见缓解方案:
      • RAG(检索增强生成)
      • 多步推理与一致性校验
      • 调用外部工具(搜索、数据库、计算器等)

四、本节结论

  • 大语言模型是现代智能体的推理核心与能力底座。
  • 真正可用的智能体系统,依赖“模型能力 + 提示工程 + 工程化约束”的组合。
  • 要获得高可靠性,必须显式设计事实校验链路,而不能只依赖模型单次生成。