你可能每天在用 ChatGPT、Claude、DeepSeek 聊天。你问一句,它答一句。这是聊天机器人(Chatbot)。
但如果它不只是回答,而是——自己去搜索资料、写代码、读文件、分步骤执行一个复杂任务、做错了还能自己纠正——那它就不再是聊天机器人了。它是AI Agent(AI 智能体)。
本文是 AI Agent 系列的起点。没有任何技术背景也能看懂。我们会从最基础的概念讲起,逐步深入。
假设你问:「帮我查一下最近三家发布 AI 芯片的公司的股价走势。」
聊天机器人会怎么做?
它从训练数据里回忆——可能过时、可能不全。然后编一个看起来合理的回答。没有实时数据,没有验证。
AI Agent 会怎么做?
区别在哪?Agent 能主动行动,不只是被动回答。
LLM 是 Agent 的推理引擎。它理解任务、制定计划、决定接下来做什么。和聊天机器人一样用的是大模型,但用法不同——不是一问一答,而是持续循环地思考和决策。
关键能力要求:函数调用(Function Calling)——模型要能理解工具,并输出结构化的调用指令。
工具是 Agent 与外部世界交互的方式。没有工具,Agent 只是个聊天机器人。常见的工具:
短期记忆:当前的对话历史,Agent 知道自己说过什么、做过什么。
长期记忆:跨会话的持久化存储。比如记住用户的偏好、上次任务的结果。
这也是一个后续文章会深入的话题。
复杂任务需要拆解。规划器负责把一个「帮我做市场分析」拆成「搜数据→清洗→建模型→画图→写报告」。好的规划器是 Agent 能不能处理复杂任务的关键。
ReAct = Reasoning + Acting(推理 + 行动)。这是目前最主流的 Agent 运作模式。
观察(Observe) → 思考(Think) → 行动(Act) → 观察(Observe) → …
每一步,Agent 都重复这个循环:
用伪代码表示就是:
messages = [{"role": "system", "content": "你是一个有用的助手,可以使用工具"}]
messages.append({"role": "user", "content": user_input})
while not task_complete:
response = llm.chat(messages, tools) # 思考:模型决定行动
if response.is_final_answer:
return response.content # 任务完成
tool_result = execute(response.tool_call) # 行动:执行工具
messages.append({"role": "tool", "content": tool_result})
# 回到循环开头:观察结果,继续思考
这个循环看起来简单,但它是一切复杂 Agent 行为的基础。后续文章中的所有高级特性——多 Agent 协作、记忆系统、错误恢复——都是在这个循环上叠加的。
| 维度 | 聊天机器人 | AI Agent |
|---|---|---|
| 交互模式 | 一问一答 | 多轮自主循环 |
| 信息获取 | 仅靠训练数据 | 主动搜索、调用 API |
| 任务范围 | 单步文本生成 | 多步执行 + 代码运行 |
| 容错能力 | 无,输出即答案 | 自我纠错、重试 |
| 记忆 | 单次会话 | 短期 + 长期持久化 |
理解了这些概念之后,下一篇文章我们会动手写第一个有工具调用能力的 AI Agent。不到 50 行 Python 代码,就能让模型自己搜索网页、执行计算、完成任务。