从聊天机器人到 AI Agent — 什么是真正的自主智能体

你可能每天在用 ChatGPT、Claude、DeepSeek 聊天。你问一句,它答一句。这是聊天机器人(Chatbot)

但如果它不只是回答,而是——自己去搜索资料、写代码、读文件、分步骤执行一个复杂任务、做错了还能自己纠正——那它就不再是聊天机器人了。它是AI Agent(AI 智能体)

本文是 AI Agent 系列的起点。没有任何技术背景也能看懂。我们会从最基础的概念讲起,逐步深入。

聊天机器人 vs AI Agent:一个例子

假设你问:「帮我查一下最近三家发布 AI 芯片的公司的股价走势。」

聊天机器人会怎么做?

它从训练数据里回忆——可能过时、可能不全。然后编一个看起来合理的回答。没有实时数据,没有验证。

AI Agent 会怎么做?

  1. 搜索「最近发布 AI 芯片的公司」→ 得到 NVDA、AMD、Intel
  2. 分别搜索三家公司的股价 → 拿到实时行情
  3. 把数据整理成比较表格 → 生成可读的报告
  4. 如果某步出错,换关键词重试 → 自我纠错

区别在哪?Agent 能主动行动,不只是被动回答。

AI Agent 的四个核心组件

1. 大脑:大语言模型(LLM)

LLM 是 Agent 的推理引擎。它理解任务、制定计划、决定接下来做什么。和聊天机器人一样用的是大模型,但用法不同——不是一问一答,而是持续循环地思考和决策。

关键能力要求:函数调用(Function Calling)——模型要能理解工具,并输出结构化的调用指令。

2. 手脚:工具集(Tools)

工具是 Agent 与外部世界交互的方式。没有工具,Agent 只是个聊天机器人。常见的工具:

3. 记忆系统(Memory)

短期记忆:当前的对话历史,Agent 知道自己说过什么、做过什么。

长期记忆:跨会话的持久化存储。比如记住用户的偏好、上次任务的结果。

这也是一个后续文章会深入的话题。

4. 规划器(Planner)

复杂任务需要拆解。规划器负责把一个「帮我做市场分析」拆成「搜数据→清洗→建模型→画图→写报告」。好的规划器是 Agent 能不能处理复杂任务的关键。

核心循环:ReAct 模式

ReAct = Reasoning + Acting(推理 + 行动)。这是目前最主流的 Agent 运作模式。

观察(Observe)思考(Think)行动(Act)观察(Observe) → …

每一步,Agent 都重复这个循环:

  1. 观察:收到了什么信息?任务是什么?上次行动的结果是什么?
  2. 思考:现在该做什么?需要调哪个工具?传什么参数?
  3. 行动:执行工具调用,得到结果。
  4. 回到第 1 步,直到任务完成。

用伪代码表示就是:

messages = [{"role": "system", "content": "你是一个有用的助手,可以使用工具"}]
messages.append({"role": "user", "content": user_input})

while not task_complete:
    response = llm.chat(messages, tools)       # 思考:模型决定行动
    if response.is_final_answer:
        return response.content                # 任务完成
    tool_result = execute(response.tool_call)  # 行动:执行工具
    messages.append({"role": "tool", "content": tool_result})
    # 回到循环开头:观察结果,继续思考

这个循环看起来简单,但它是一切复杂 Agent 行为的基础。后续文章中的所有高级特性——多 Agent 协作、记忆系统、错误恢复——都是在这个循环上叠加的。

从聊天到 Agent:本质变了什么

维度 聊天机器人 AI Agent
交互模式 一问一答 多轮自主循环
信息获取 仅靠训练数据 主动搜索、调用 API
任务范围 单步文本生成 多步执行 + 代码运行
容错能力 无,输出即答案 自我纠错、重试
记忆 单次会话 短期 + 长期持久化

下一步

理解了这些概念之后,下一篇文章我们会动手写第一个有工具调用能力的 AI Agent。不到 50 行 Python 代码,就能让模型自己搜索网页、执行计算、完成任务。

📖 下一篇:手写第一个 AI Agent — 50 行代码实战