Home › 大模型/AI › 摘录 › 关于AI-AGENT

关于AI-AGENT ¶

时间线上看到居然有人把豆包、Qwen、Claude 叫做 Agent（智能体）。

Agent 是什么，早先我曾在帖子里面提到过：LLM（大脑）+ Memory（长期/短期记忆）+ Planner（规划）+ Tool Use（工具调用） = AI Agent。

如果一个东西满足了以上定义，它就是 Agent。

推上最常见 Code Agent 是： Claude Code 和最近热门的 OpenCode。

推上最热门的国人 Agent 产品是：Mauns 和 Youmind。

我们可以来拆解一下，这个定义的组成部分。

1️⃣ LLM

LLM 就是大模型，它的一切的核心，我们常说的 Claude、Gemini、ChatGPT、Qwen 都是模型，有了模型才有了智能化能力，有模型才能给你输出代码、输出文档。

但是记住，它只是输出，它任何事情都做不了，所以大模型的最初形态是 ChatBot，一个聊天机器人，只能回答问题。

2️⃣ Memory

最基础的 Memory 就是上下文，每个大模型都会自带，目前大部分模型都是 200K 上下文，只有 Gemini 干到了 1000K 上下文。

上下文属于短期记忆，会话一关就没了，但是有很多方法可以去实现长期记忆，大家最常见的就是 Claude.md，依托文件的形式记忆上下文信息。

还有其他类型的，比如向量数据库、还有一些图数据库，包括推上也有很多开源项目在做这块。

总之，它是为了让大模型能够记住你和他对话的过往信息。

3️⃣ Planner

规划也是一个完全取决于模型能力的东西，并且它也很依赖提示词，每个模型都具有一定的规划能力，说白了就是模型开始推理了，比较强大的模型都会进行逐步推理，每一步完成之后它会审视一下，再继续往下推理。

规划的重要性在于，它会分解任务，将大人物分解为小任务逐步处理，比如你要做一个网页，它可以分解成两个任务：初始化 React/ Vue 框架，再填充对应的 HTML+CSS。

4️⃣ Tool Use

工具调用能力，是大模型变成 Agent 的重要能力，前面说过了，大模型只会输出文本，所以让你给它一些工具的时候，它可以驱动工具进行一些操作。

这里举个 Claude Code 的例子，它作为一个推出时被用来写代码的 Agent，它的内置工具列表在图一。

去年 Claude Code 刚发布的时候内置工具都是 Shell，主要工具就是文件的读写和文本搜索。

只通过调用这几个工具，就让 Claude Code 成为了当时最会探索代码库的 Agent，代价就是爆炸的 Token。

当你让 Claude Code 帮你处理任务的时候，你可以看到它在大量的调用工具，尤其是读写工具，一个文件 1000 行，它每次只读 200 行，然后循环去读。

当你让它去给你 debug 一个问题的时候，它最先调用的就是搜索工具，这些都是 Shell 工具。

5️⃣ ReAct

那么既然大家都知道为什么？有这么多的 AI IDE：Claude Code、Cursor、Trae、Google Antigravity它们都可以使用 Claude 模型，但是它们的效果居然有很大不同，比如 Trae 其实大家都觉得没有直接用 Claude Code 效果好。

原因就在于 Agent 它需要灵活的去调度上面的四个东西，Agent 需要利用 LLM 去评估代码生成的效果、评估任务的拆解是不是有问题、调用工具报错了怎么办，一系列问题。

这里面也就催生了 Agent 的设计模式，其中最基础的就是 ReAct，它的核心是一个不断重复的循环（图二），通常包含以下步骤：

Thought (思考)：模型分析当前的任务，决定下一步该做什么。
Action (行动)：模型决定调用哪个工具（比如谷歌搜索、Read、Write），以及传入什么参数。
Observation (观察)：这里模型会暂停，等待外部环境（代码/API）执行工具，并将执行结果作为文本反馈给模型。
Repeat (重复)：模型根据 Observation 的结果，开始新一轮的 Thought。

如果这一套 Loop 没做好，模型显现的能力就会出现天差地别的情况，这也是为什么 OpenCode 最近这么火的原因，它增强了原先的 Agent，把多个模型擅长的能力组合在一起给 Agent 调度。

6️⃣ Agent 产品

最后，再来讲讲 Agent 产品，首先目前所有的 Code IDE 都是 Agent 产品，因为它们都具备以上能力，并且专门为代码编写设计了提示词和上下文工程，我记得 Cursor 刚出来那会，很多人去逆向它的提示词，因为它的效果好。

把你把 Agent 进行侧重性调整，它就变成了产品，比如 Manus。

Manus 擅长搜索整合，它可以去通过内部筛选接口搜索很多数据，最后汇聚给你一篇总结，你要小红书的数据，它去新榜上面搜，你要一些时事的数据，它去新闻网站上去搜，它还可以连续不停的运行很长时间完成你的任务（上面提到过 Loop）。

这些都是创始人根据自己产品的定位，重新构建了 Agent 的侧重点，这里面除了 Agent 的设计，还有提示词的优化。

比如 Youmind 就做了提示词的优化工程，所以很多推友说，同样的提示词生图在 Youmind 上面效果更好，所有的模型都是 Banana。

还里面还有工具的差别，同样的一个调研问题，你去问豆包，它无法进行 Google 搜索，所以总结的东西大部分都是废话。

但是你用 Gemini，它能调用 Google 进行全网搜索，这种内部高质量的信息源，也是 Agent 护城河。

最后，让我们回到一开始的问题，模型是模型，Agent 是 Agent，两者不可混为一谈。

https://x.com/RookieRicardoR

附件

正在加载附件...

暂无评论。成为第一个评论者！

创建新文档

移动/重命名文档

删除文档

Message

Confirm Action

附件

文档文件

文档历史

以前的版本

预览

Wiki 设置

用户管理

添加新用户

活动规则

导入结果

可用备份

添加/编辑访问规则

添加列

添加链接

关于AI-AGENT ¶

附件

评论

登录

创建新文档

移动/重命名文档

删除文档

Message

Confirm Action

附件

文档文件

文档历史

以前的版本

预览

Wiki 设置

用户管理

添加新用户

活动规则

导入结果

可用备份

添加/编辑访问规则

添加列

添加链接

关于AI-AGENT ¶

附件

评论