从聊天机器人到 AI Agent — 什么是真正的自主智能体

2026年5月14日 · 入门

你可能每天在用 ChatGPT、Claude、DeepSeek 聊天。你问一句，它答一句。这是聊天机器人（Chatbot）。

但如果它不只是回答，而是——自己去搜索资料、写代码、读文件、分步骤执行一个复杂任务、做错了还能自己纠正——那它就不再是聊天机器人了。它是AI Agent（AI 智能体）。

本文是 AI Agent 系列的起点。没有任何技术背景也能看懂。我们会从最基础的概念讲起，逐步深入。

聊天机器人 vs AI Agent：一个例子

假设你问：「帮我查一下最近三家发布 AI 芯片的公司的股价走势。」

聊天机器人会怎么做？

它从训练数据里回忆——可能过时、可能不全。然后编一个看起来合理的回答。没有实时数据，没有验证。

AI Agent 会怎么做？

搜索「最近发布 AI 芯片的公司」→ 得到 NVDA、AMD、Intel
分别搜索三家公司的股价 → 拿到实时行情
把数据整理成比较表格 → 生成可读的报告
如果某步出错，换关键词重试 → 自我纠错

区别在哪？Agent 能主动行动，不只是被动回答。

AI Agent 的四个核心组件

1. 大脑：大语言模型（LLM）

LLM 是 Agent 的推理引擎。它理解任务、制定计划、决定接下来做什么。和聊天机器人一样用的是大模型，但用法不同——不是一问一答，而是持续循环地思考和决策。

关键能力要求：函数调用（Function Calling）——模型要能理解工具，并输出结构化的调用指令。

2. 手脚：工具集（Tools）

工具是 Agent 与外部世界交互的方式。没有工具，Agent 只是个聊天机器人。常见的工具：

搜索工具——访问实时信息
代码执行——运行计算、数据处理
文件操作——读写本地文件
API 调用——访问任何外部服务

3. 记忆系统（Memory）

短期记忆：当前的对话历史，Agent 知道自己说过什么、做过什么。

长期记忆：跨会话的持久化存储。比如记住用户的偏好、上次任务的结果。

这也是一个后续文章会深入的话题。

4. 规划器（Planner）

复杂任务需要拆解。规划器负责把一个「帮我做市场分析」拆成「搜数据→清洗→建模型→画图→写报告」。好的规划器是 Agent 能不能处理复杂任务的关键。

核心循环：ReAct 模式

ReAct = Reasoning + Acting（推理 + 行动）。这是目前最主流的 Agent 运作模式。

观察（Observe） → 思考（Think） → 行动（Act） → 观察（Observe） → …

每一步，Agent 都重复这个循环：

观察：收到了什么信息？任务是什么？上次行动的结果是什么？
思考：现在该做什么？需要调哪个工具？传什么参数？
行动：执行工具调用，得到结果。
回到第 1 步，直到任务完成。

用伪代码表示就是：

messages = [{"role": "system", "content": "你是一个有用的助手，可以使用工具"}]
messages.append({"role": "user", "content": user_input})

while not task_complete:
    response = llm.chat(messages, tools)       # 思考：模型决定行动
    if response.is_final_answer:
        return response.content                # 任务完成
    tool_result = execute(response.tool_call)  # 行动：执行工具
    messages.append({"role": "tool", "content": tool_result})
    # 回到循环开头：观察结果，继续思考

这个循环看起来简单，但它是一切复杂 Agent 行为的基础。后续文章中的所有高级特性——多 Agent 协作、记忆系统、错误恢复——都是在这个循环上叠加的。

从聊天到 Agent：本质变了什么

维度	聊天机器人	AI Agent
交互模式	一问一答	多轮自主循环
信息获取	仅靠训练数据	主动搜索、调用 API
任务范围	单步文本生成	多步执行 + 代码运行
容错能力	无，输出即答案	自我纠错、重试
记忆	单次会话	短期 + 长期持久化

下一步

理解了这些概念之后，下一篇文章我们会动手写第一个有工具调用能力的 AI Agent。不到 50 行 Python 代码，就能让模型自己搜索网页、执行计算、完成任务。

📖 下一篇：手写第一个 AI Agent — 50 行代码实战