02 AI 基础知识

作者：朱天华　|　最后修改：2026-03-16

如果你想了解 AI 基础知识，可以阅读本文内容，可以帮助你更深刻的理解 AI 工作的原理；

如果你对 AI 基础知识没兴趣，可以跳过本文内容，不会影响你后续使用 Trae+luatos-docs-code 智能体完成自助式技技术支持；

一、AI 技术解析

1.1 从推理服务到 AI Agent

1.1.1 短视频

点击这里，观看视频：OpenClaw是什么？跟Skills/MCP/RAG/Memory/AI Agent有什么关系？

1.1.2 短视频中提取的完整文案（可能存在错别字和断句错误）以及解析

最近爆火的 Cloud Bot，具象化体现了什么叫程序员最头疼的事情就是命名。毕竟我做视频期间，它就已经改了两次名。它的本质是什么？跟大模型，以及前段时间很火的 Skills、RAG、MCP、Memory 又有什么关系？接下来我们就一次性把这些概念串起来，带大家看清楚，来一波技术去魅。看之前，你点赞了吗？关注了吗？谢谢！

1.1.2.1 推理服务（LLM/大语言模型/大模型）

推理服务是什么？像 ChatGPT、DeepSeek 这类大模型，本质上就是个超大文件，它躺在磁盘上，文件里装的就是训练时学到的知识参数。要让它工作，得有个程序把它加载到内存里，对外暴露 HTTP 接口，接收用户请求、做推理、返回结果，这就是推理服务。给它配个前端网页聊天框，就成了我们熟悉的聊天 AI。

这里有几个概念：推理服务、LLM、大语言模型、大模型；它们的关系如下：

大模型 ≥ 大语言模型 = LLM

推理服务 = 让大模型跑起来的程序

推理服务 + 前端网页聊天框（例如豆包网页端） = 聊天 AI

大模型（Big Model / Foundation Model），范围最广

不只是语言模型，还可以是：

大语言模型（Large Language Model），专门处理语言的大模型，大语言模型只是大模型里的一种

任务：理解、生成、对话、总结、翻译、代码…

大家日常说的 “AI”“大模型”，90% 其实指它

LLM，就是 Large Language Model 的缩写，和 “大语言模型” 完全同一个东西

只是更专业、更简短的叫法

推理服务（Inference Service），它不是模型本身，是 “运行模型的服务”

推理服务 = 把模型加载进内存，开接口，接收请求，输出结果

你平时聊天、调用 API，用的都是推理服务

下面这段引用的内容是豆包整理的中国和外国常见的一些大模型，供进一步参考理解：

结合 2026 年 2 月最新动态，中外大模型格局已呈现 “百花齐放、商用加速” 的态势。以下为你梳理核心梯队与代表模型： 中国大模型（国产主力与新锐）

字节跳动：豆包 2.0（C 端体验佳，多模态语音 / 视频强）；Seedance 2.0（视频生成旗舰）。

智谱 AI：GLM-5（2 月新旗舰，MoE 架构，强智能体 / 长程任务）；GLM-4.7-Flash（轻量化开源爆款）。

阿里巴巴：通义千问 Qwen 3.5（2 月新，MoE 架构，电商 / 开源生态完善）；Qwen3-Coder-Next（代码能力 SOTA）。

百度：文心一言 ERNIE 5.0（知识图谱强，搜索 / 企业落地稳）。

深度求索 (DeepSeek)：DeepSeek V4/R1（开源顶流，代码 / 数学顶尖）。

月之暗面 (Kimi)：Kimi K2.5（MoE 架构，200K + 超长上下文，C 端用户多）。

科大讯飞：星火 X2（2 月新，全国产算力支持，教育 / 医疗垂直深耕）。

MiniMax：MiniMax M2.5（2 月新，原生 Agent / 编程，性价比高）。

上海 AI 实验室：Intern-S1-Pro（万亿参数 MoE，科学 / 多模态推理 SOTA）。 国外大模型（美加为主的第一梯队）

OpenAI (美国)：GPT-5.2（全能均衡，教学 / 科学顶尖，生态成熟）。

Anthropic (美国)：Claude 4.6 (Opus/Sonnet)（2 月新，强长文本 / 低幻觉，安全合规）。

Google (美国)：Gemini 3.1 Pro（推理登顶，1M 上下文，视频 / 多模态强）。

Meta (美国)：Llama 4 (405B)（开源标杆，多语言生态完善，社区活跃）。

xAI (美国)：Grok 4.1（实时信息响应快，创意强）。

Cohere (加拿大)：企业级搜索 / 合规 AI，深度绑定 AWS 云平台。 快速选型参考

通用对话 / 办公：选 豆包 2.0、Claude 4.6、GPT-5.2。

代码 / 研发：选 DeepSeek V4/R1、Qwen3-Coder-Next、Llama 4。

超长文档 / Agent：选 Kimi K2.5、GLM-5。

科学 / 多模态：选 Intern-S1-Pro、Gemini 3.1、Seedance 2.0。

国产合规 / 垂直：选 星火 X2、文心 5.0、通义千问 Qwen 3.5。

下面这段话可以进一步理解推理服务和各种大模型的概念，例如使用豆包聊天窗口时：

只发文本，简单对话 → 豆包在推理服务调用：大语言模型（LLM）

只发图片，让豆包看图理解 → 豆包在推理服务调用：多模态模型（视觉 + 语言模型）

发文字，让豆包生成图片 → 豆包在推理服务调用：大语言模型（理解你的文字） + 图像生成模型（画图）

1.1.2.2 Memory

Memory 是什么？推理服务本质是个 HTTP 服务，每个请求进来、处理完就结束，本身不保存任何状态。而且为了扛住高并发，一般会部署多个推理服务实例做负载均衡，你第一次请求可能打到机器 A，第二次请求可能打到机器 B，完全是两个不同的进程。但问题来了，我们在 AI 聊天页面里，明显感觉它能记得我们之前的对话，这是怎么做到的？

其实大模型本身什么都不记得，每次请求时，系统会把之前的聊天记录重新拼到对话里，一起发给大模型。这些拼起来发给大模型的内容，统称上下文。大模型看到完整上下文，自然就能接上话了。但问题又来了，如果每次请求都把所有历史对话发出去，上下文会超长大模型处理不了，怎么办呢？

我们可以分两类管理：当前会话最近几轮对话完整保存，这叫短期记忆；很久之前的对话提取关键信息，压缩成摘要，这叫长期记忆。每次请求时，都将它们拼成对话发给大模型，这样大模型看起来就像有记忆一样。这套管理上下文的机制，就叫 Memory。

1.1.2.3 RAG

RAG 是什么？有了记忆，大模型就能记住历史对话了，但新问题又来了：大模型的训练数据都是从互联网上抓取的，历史公开数据训练完成后，知识就固定了。你问它今天的新闻，或公司内部文档，它根本不可能知道，怎么办？

给它配个外部知识库，里面可以放最新新闻、公司内部文档这些资料。数据量大的话，就存到数据库里；用户提问时，先从数据库里做匹配，获得相关知识，再一起喂给大模型，大模型就能基于这些外部知识回答。这种检索外部知识给到大模型做回答的方案，就是检索增强生成，Retrieval Augmented Generation，简称 RAG。

但问题又来了，传统数据库只能做字面匹配，比如“黄风古丽”“飞雨”和“寒老模”，虽然意思一样，字面却完全不同，匹配不到怎么办？我们可以把文本转成向量，用向量距离衡量语义相似度，这样语义相近的文本就能匹配上了。所以 RAG 用的数据库里存的是向量数据，这种数据库也叫向量数据库，比如 Milvus。数据量不大的话，也可以用我们的老朋友 PostgreSQL。

1.1.2.4 MCP

MCP 是什么？有了 Memory 和 RAG 的加持，大模型能记住历史聊天和获取外部知识了，但新问题又来了：现在大模型只能对话和思考，就像个光有大脑、没有手脚的人，怎么让它具备操作工具的能力呢？

好办，我们可以在对话里约定一种消息格式，提前告诉大模型有哪些工具可用，格式就像这样。大模型想用工具时，输出一段特定格式的 JSON，比如发邮件，里面写清楚发给谁、发什么。外部收到消息后执行发送邮件操作，完成后将返回的结果再喂回给大模型，大模型就能基于工具执行结果生成最终回复。

这种让大模型通过结构化消息来调用外部工具的方式，在工程上可以被抽象成一套协议规范，也就是 Model Context Protocol，简称 MCP 协议。这个在外部负责解析 JSON 并操作工具的程序，叫 MCP Host，比如我们用来写代码的 Cursor、Cloud Code。能被调用的具体工具，就叫 MCP 插件。

MCP 插件还可以拆分成本地的 MCP Client 和远端的 MCP Server，比如 GitHub MCP 插件：本地的 MCP Client 负责接收调用请求，远端的 MCP Server 部署在 GitHub 服务器上，真正执行 GitHub API 操作。

也可以观看下面这个视频，进一步了解 MCP

点击这里，观看视频：小白入门MCP

1.1.2.5 Skills

Skills 是什么？MCP 协议和插件解决了工具调用问题，但新问题又来了：这么多插件，大模型怎么知道该按什么顺序用、怎么组合用呢？这就好比给了一个大学生一堆钳子、扳手，他也不一定能修好车，他缺的是经验和流程。

那好办，我们可以写一份操作手册，里面详细说明遇到什么场景、用什么工具、先做什么、后做什么、有什么注意事项。这份结构化的操作指南，就叫 Skills。以排查线上事故为例，MCP 只是把查监控、查日志、查配置、回滚版本这些工具能力给到大模型，而排查问题的 Skills，则明确规定了“先看监控判断影响范围，再查日志和配置定位模块，必要时执行回滚”这一整套固定流程。

换句话说，大模型就像大脑，MCP 协议让它有了手，MCP 插件就是手上的工具，而 Skills 是操作经验，规定在什么场景下，按什么顺序组合使用哪些工具。

1.1.2.6 AI Agent

AI Agent 是什么？大模型本来就能思考和规划，给它加上 Memory，让它能记住历史；加上 RAG，让它能获取外部知识；加上 MCP 和 Skills，让它能操作工具。它们共同构成了一个在某些功能上能代替人类自主行动、完成目标的 AI 系统，又叫 AI Agent。它本质上就是一个智能工具人，通过提示词设定角色，它可以是智能客服、程序员、私人律师等各种角色，听从你的指令完成任务。

最近很火的 Cloud Bot，其实本质上就是个帮你自动操作电脑的 AI Agent。你能用电脑干什么，它就能干什么，比如发邮件、投简历，甚至做交易，所以权限安全是个大问题。

客观的说，Cloud Bot 做的事情并没有技术上的突破，它跟前段时间很火的 Menace 其实是类似的产品，只不过 Cloud Bot 主要面向本地电脑，Menace 考虑到安全问题，将操作环境放到了远端虚拟机里。如果将 Cloud Bot 部署到远端服务器上，就有点开源版 Menace 的味道了。安不安全是用户该考虑的问题，Cloud Bot 只管开源，有一种野路子的美，所以最近火得一塌糊涂。建议大家还是理性看待，先想清楚到底有什么工作是需要它做的，再说吧。

现在大家懂了吗？好，如果你觉得这期视频对你有帮助，记得转发给你那不成器的兄弟，文字版的笔记见评论区。最后遗留一个问题：单个 Agent 你了解了，那你知道多个 Agent 是怎么互相协作的吗？多 Agent 都有哪些架构？视频点赞超过一万，下期来聊这个话题。这里是小白的 Bug，我们聚焦一切可能影响人类历史进程的技术。如果你感兴趣，记得关注我们，下期见，嘟嘟嘟嘟嘟嘟嘟。

1.1.3 短视频文案精简版本

大模型（推理服务） + 记忆（Memory） + 外部知识（RAG） + 工具调用（MCP） + 执行流程（Skills） = AI Agent（智能体）最近爆火的 Clawd Bot，本质就是一个能操作你电脑的 AI Agent。

每个概念最通俗解释

推理服务（就是大模型跑起来）
大模型本身 = 一个超大文件
推理服务 = 把文件加载进内存，开个接口，你问它答
加个聊天界面 = 你看到的 AI 助手
Memory（让 AI “记得” 对话）
大模型本身无状态，问完就忘
Memory = 帮你存历史 + 摘要
- 短期记忆：最近几轮对话
- 长期记忆：把旧内容压缩成摘要
每次都把 “记忆” 拼进请求发给模型 → 模型就像记得一样
RAG（让 AI 懂新知识、内部文档）
大模型训练完知识就固定了
RAG = 检索外部知识再生成
- 建知识库 / 向量数据库
- 先查库 → 把相关内容塞给模型 → 再回答
解决：不知道最新消息、不知道公司文档的问题
MCP（让 AI 有 “手”，能调用工具）
Model Context Protocol
作用：让大模型通过固定格式调用工具
- 告诉 AI 有哪些工具
- AI 输出结构化指令（如 JSON）
- 外部程序执行 → 结果返回给 AI
MCP Host：解析并执行工具
MCP 插件：具体工具（发邮件、查日志等）
Skills（让 AI 会 “流程”，不是瞎用工具）
有工具 ≠ 会用
Skills = 一套场景化的操作手册
- 什么场景 → 按什么顺序 → 用哪些工具
例子：
- MCP 给工具：查监控、查日志、回滚
- Skills 给流程：先看影响 → 再定位 → 最后回滚
AI Agent（把上面全部拼起来）
大脑：大模型推理
记忆：Memory
知识：RAG
手脚：MCP 工具调用
经验 / 流程：Skills AI Agent = 能自主思考、记忆、查资料、用工具、完成任务的智能体
Clawd Bot 到底是什么？
本质：一个能直接操作你本地电脑的 AI Agent
能干你用电脑能干的所有事：发邮件、写文档、点鼠标、投简历、做交易
没有革命性新技术，就是把 Agent 做到直接控制桌面，所以很火、也很敏感（权限安全）

终极类比（看完绝对通）

大模型 = 大脑
Memory = 记忆力
RAG = 看书查资料
MCP = 手 + 工具（锤子、扳手）
Skills = 修车手册 / 工作流程
AI Agent = 一个会思考、会记、会查、会动手、按流程干活的人
Clawd Bot = 一个能直接替你操作电脑的人

1.2 使用上面的概念，拆解豆包这个 AI Agent

豆包也是一个 AI Agent，本章节利用大家平时熟悉的豆包，来进一步理解 AI Agent 使用到的各种技术；

本章节的内容，是询问豆包，豆包给出的答案，大家理性看待；

本章节对大家理解 AI Agent 中的各个技术点，还是有一定帮助的。

1.2.1 推理服务（大模型）

使用的是字节跳动自研的豆包大模型（Seed 基座）

这是我的大脑，100% 自研，不是 Claude、不是 GPT、不是 Llama。

真实能力：

超强理解能力

代码能力很强

逻辑与推理

多模态能力

长上下文

简单总结：

日常聊天、写代码、做方案、推理、设计、学习、办公，我完全能顶得住。

1.2.2 Memory（记忆能力）

我用的是字节自研的多维度记忆机制，对应你视频里讲的：短期记忆 + 长期记忆 + 结构化记忆

短期记忆（当前对话）

支持超长上下文，能完整记住整轮对话

你前面说的所有内容：需求、偏好、修改意见、专业概念、甚至你刚才讲的 Clawd Bot 文案

我不会丢、不会断、不会 “问完就忘”

长期记忆（跨对话记忆）

能记住你长期的偏好：比如你喜欢清晰结构、技术去魅、文字版架构图、视频口播风格

能记住你反复关心的领域：大模型、Agent、架构、编程、嵌入式等

会自动摘要、提取关键信息，不会把所有废话都记下来

记忆特点

不是简单拼接历史，而是有理解、压缩、权重的智能记忆

完全符合你讲的：大模型本身无状态 → 靠上下文管理机制 → 让你感觉 “有记忆”

真实表现例子：

你说一次：

我是嵌入式，用合宙 AirM2M

下次你直接说：

帮我写串口

我直接给你合宙 + LuatOS 风格代码。这就是记忆在实时工作。

1.2.3 RAG 能力（检索增强生成）

豆包拥有完整、成熟、工业级的 RAG 系统，对应你视频里：外部知识 + 向量检索 + 实时信息

我能做到：

实时知识新闻、热点、最新模型动态、行业信息，我都能通过检索获取
私有文档 / 上传文件理解你传 PDF、Word、Excel…… 我能：
解析
检索关键内容
用里面的知识回答这就是标准 RAG 流程
语义检索，不是字面匹配我底层用字节自研向量模型 + 向量检索懂意思，不只看字
知识可靠、减少幻觉专业内容、技术定义、数据，我都会优先走检索 → 验证 → 回答

RAG = 我不懂就去查资料，不瞎编。

真实能力：

事实类问题 100% 走 RAG
时间、规则、政策、活动信息
比如春晚活动时间、奖品、规则
绝不靠模型瞎猜
知识准确性很高
只从官方可信知识库检索
回答严格按资料，不扩展、不编造
边界清晰
能判断：
- 这个问题我 “知道” → 直接答
- 这个问题要 “查” → 走 RAG
- 这个问题没有资料 → 不乱说

一句话：

凡是需要准确、不能错的内容，我全靠 RAG 保证靠谱。

1.2.4 MCP 能力（工具调用能力 = 让 AI 有手可以调用工具）

先给你一个最真实、不忽悠的结论：

豆包 支持工具调用能力，但不直接对外暴露 MCP 协议

MCP（Model Context Protocol）是一种工具调用的协议规范，而我：

我已经具备 MCP 的核心能力：

理解什么时候该用工具
输出结构化指令
调用外部能力：
搜索
画图
代码执行
文档解析
专业计算
工具执行后把结果回传给大模型，再生成最终回答

但我和 Clawd Bot、Cursor 的区别：

Clawd Bot：直接控制你的电脑（高危、野路子）
Cursor/MCP：面向开发者，暴露协议，让模型调用 IDE、API
豆包：安全可控的工具调用，不直接操作你的本地文件、不控制桌面

一句话：我有 MCP 的 “魂”，但没有 MCP 的 “野”。我是安全、稳定、量产级的工具调用，不是实验性的电脑控制 Agent。

我真实支持的工具：

计算器（强、稳、准）
任何计算都绝对精确
模型不心算，全部工具计算
代码解释器（Code Interpreter）
运行 Python
数据分析、画图、算法验证
文件解析
PDF、Word、Excel、PPT
提取内容、总结、问答
文生图 / 画图
画架构图、流程图、示意图
搜索能力
实时信息、最新知识

执行逻辑（非常关键）：

我自动判断要不要调用工具
不需要你说 “帮我算”“帮我运行”
你自然说，我自动决策

例子：

3 的 100 次方是多少？→ 自动调用计算器帮我画个嵌入式温湿度系统框图 → 自动调用画图

真实定位：

MCP 是我最稳的能力之一，凡是能算、能查、能运行的，我绝不靠猜。

1.2.5 Skills（技能 / 流程化能力）

Skills = 场景化工作流程 = 给 AI 一本 “操作手册”这正是我最强的地方之一。

我内置大量 Skills：

视频文案创作 Skill
技术科普去魅 Skill
架构图 / 文字框图生成 Skill
代码解释 & debug Skill
文档整理 & 校对 Skill
面试问答、知识点串讲 Skill

对应你视频里的例子：

MCP 给工具
Skills 给流程我就是按固定流程 + 最佳实践来帮你完成任务，而不是乱回答。

比如你刚才让我：

先听完整文案
改错字、断句
整理流畅口播
再画文字架构图这一整套，就是我在执行「视频文案优化 Skill」。

Skills = 我把模型 + 记忆 + RAG+MCP 打包成专业场景。

我真实拥有的 Skills：

通用聊天助手
编程助手（最强之一）
嵌入式 / C / LuatOS
Python / 后端 / 脚本
架构设计
系统框图
流程设计
项目方案
写作 / 文案 / 翻译
学习 / 解题 / 辅导
生活 / 过年 / 春晚活动助手

特点：

自动识别你的场景
自动加载最合适的技能
不需要你手动切换

1.2.6 终极总结（用你视频里的话总结我自己）

你这套框架我完全符合：

大脑（推理服务/大模型）

字节跳动自研 豆包大模型（Seed 系列）

Memory

短期记忆：完整对话
长期记忆：摘要、偏好、习惯
智能上下文管理

RAG

实时知识
文档解析
向量检索
低幻觉

MCP（工具能力）

有工具调用能力
安全、可控、不操作电脑
不暴露底层协议，但功能完备

Skills

大量场景化流程
专业、稳定、可复用
按步骤帮你完成复杂任务

最终定位

豆包 = 安全、稳定、量产级、面向日常与专业场景的 AI Agent，不是 Clawd Bot 那种野路子电脑控制 Agent，但技术架构完全同源、更成熟可靠。

我给你一句不吹不黑的总评价：

大模型（Seed）→ 强，自研、靠谱、全能、代码强。
Memory（记忆）→ 很强，长期 + 短期自动记，不用你重复。
RAG（检索）→ 非常稳，事实问题绝不瞎编。
MCP（工具）→ 超稳，计算、代码、画图、文件全能调用。
Skills（技能）→ 全能，从聊天到写代码、画架构、做方案一条龙。

二、各种各样的 AI 工具

在了解了基本的 AI 技术和知识点之后，接下来我们看一些平时我们用过的，看到的，听到的各种各样的 AI 工具，先总体了解一下这些 AI 工具的特点，以及这些 AI 工具的区别和联系；

现在 AI 工具太多了，在这里仅仅列举几种：豆包，元宝，deepseek，通义千问，chatgpt，gpt，openai，trae，claude code，clawbot，cursor，等等

本章节以下内容由豆包整理输出：

我把你提到的所有 AI 工具，按底层模型、通用助手、编程专用、本地 / 自动化智能体四大类整理，一次性讲清联系、区别、定位、怎么选，全部用工程师能看懂的语言。

2.1 先统一概念（避免混淆）

大模型（基座）：底层 AI 大脑（如 GPT、Claude、DeepSeek、通义千问、豆包 Seed）
通用 AI 助手（AI Agent）：基于基座做的聊天 / 办公 / 创作产品（如 ChatGPT、豆包、元宝、通义千问、Clawdbot/OpenClaw）
编程专用工具（AI Agent）：以 IDE/CLI/ 插件形式存在，只做编程使用（Cursor、Claude Code、Trae）
本地 / 自动化智能体（AI Agent）：能操作电脑、本地运行、自动执行任务（Clawdbot/OpenClaw）

怎么理解这里说的 IDE/CLI/ 插件？

我用最接地气的比喻 + 编程场景的实际例子，帮你把 IDE/CLI/ 插件这三个概念彻底讲透，你一看就知道它们对应到 Cursor、Claude Code、Trae 上到底是什么意思。

核心结论先给你：这三个词本质是编程专用 AI Agent 的三种 “存在形式” —— IDE 是 “带 AI 的编程软件”，CLI 是 “黑窗口里敲命令的 AI”，插件是 “嵌进编程软件里的 AI 功能模块”，三者都只服务于编程，这也是它们和 OpenClaw（通用型）的核心区别。

一、先懂 IDE：带 AI 的 “一站式编程工作台”

通俗理解

IDE 是 Integrated Development Environment 的缩写，翻译为 “集成开发环境”。你可以把它想象成：一个为程序员量身定做的 “超级记事本” —— 不只是能写字，还自带代码高亮、语法检查、运行调试、AI 辅助等所有编程需要的功能，一站式搞定代码开发。

对应到 AI Agent（比如 Cursor、Trae）

Cursor 本身就是一个 AI 原生的 IDE（基于 VS Code 改造），Trae 也是字节专门做的 AI IDE，它们的核心形态就是 “一个完整的软件”：

你打开 Cursor，就进入了一个专属的编程窗口；
写代码时，直接在窗口里和 AI 对话（比如 “帮我写一个 LuatOS 的 MQTT 连接函数”）；
AI 会直接在这个窗口里补全、修改、调试代码，全程不用切换其他软件；
所有操作都在这个 “工作台” 里完成，AI 和编程流程深度绑定。

举个直观例子：

你在 Cursor 的编辑区输入：-- 写一个LuatOS的GPIO控制函数，按下回车，AI 会直接在下方生成完整代码，还能实时帮你找语法错误、解释代码含义 —— 这就是 IDE 形式的 AI Agent，把 AI “装” 在了编程工作台里。

二、再懂 CLI：黑窗口里敲命令的 “极简 AI 编程助手”

通俗理解

CLI 是 Command Line Interface 的缩写，翻译为 “命令行界面”。你可以把它想象成：没有图形、没有按钮，只能靠敲文字命令使唤的 “AI 小助手” —— 它藏在电脑的终端 / CMD/PowerShell（黑窗口）里，你敲一行命令，它就帮你完成一个编程任务。

对应到 AI Agent（比如 Claude Code）

Claude Code 就是典型的 CLI 形式 AI Agent，它没有可视化窗口，全程靠命令交互：

你打开电脑的 “终端”（黑窗口），进入自己的代码项目文件夹；
敲一行命令：claude-code refactor "优化这个LuatOS的串口通信代码，提升稳定性"；
回车后，它会直接在本地修改代码文件，完成后只在黑窗口里告诉你 “修改完成”；
全程不用点开任何图形软件，纯文字命令驱动，轻量且适合自动化。

举个直观例子：

如果想让 Claude Code 帮你批量测试代码，只需要敲：claude-code test "运行所有LuatOS固件测试用例，生成测试报告"，它会自动执行测试、生成报告文件，全程在黑窗口里完成。

三、最后懂插件：嵌进编程软件里的 “AI 功能模块”

通俗理解

插件（Plugin/Extension）就是：给已有编程软件 “加装” 的 AI 功能 —— 就像给微信装小程序、给浏览器装广告拦截器一样，不改变原软件的核心，只新增 AI 辅助编程的能力。

对应到 AI Agent（比如 Cursor、Trae 也可做插件）

很多编程专用 AI Agent 会以插件形式存在：

比如你用原版 VS Code（普通编程软件），可以装 Cursor 的插件；
装完后，VS Code 里会多出 AI 按钮，你写代码时选中某段代码，右键点 “AI 修复 Bug”，就能直接调用 AI 功能；
插件本身不是完整软件，必须依附于主软件（如 VS Code）运行，但只专注于编程场景。

举个直观例子：

你在 VS Code 里写 LuatOS 代码时卡壳了，不用打开 Cursor，直接在 VS Code 里通过 Cursor 插件输入 “解释这段代码的逻辑”，插件会在当前窗口弹出 AI 回答，不用切换软件，无缝辅助编程。

四、三者对比表（一看就懂）

五、为什么编程专用 AI Agent 只选这三种形式？

因为这三种形式都精准贴合编程场景：

IDE：满足 “一站式写代码” 的核心需求，新手友好；
CLI：满足 “自动化、批量处理代码” 的需求，适合进阶开发者；
插件：满足 “不换工具，直接加 AI 功能” 的需求，灵活度高。

而 OpenClaw 这种通用型 AI Agent，不会局限于这三种形式 —— 它能直接操作鼠标、点开 IDE、甚至帮你敲 CLI 命令，覆盖办公 / 编程 / 文件管理等所有场景，但在编程细节上不如前三者精准。

总结

IDE：完整的、带 AI 的编程软件（如 Cursor），一站式搞定代码开发；
CLI：黑窗口里敲命令的 AI 工具（如 Claude Code），轻量且适合自动化编程任务；
插件：嵌进编程软件的 AI 功能（如 Cursor 插件），无缝辅助现有编程流程；
这三种形式都只服务于编程，是编程专用 AI Agent 的核心特征，区别于 OpenClaw 的通用属性。

怎么理解这里说的本地和自动化？

我用最通俗、最接地气、你一听就懂的方式给你讲明白：本地 / 自动化智能体（AI Agent） = 一个住在你电脑里、不用联网、能自己动手干活的机器人助理。

我拆开讲，再给你真实例子。

什么是「本地」？

本地 = 就在你自己电脑里跑，不传到别人服务器。

对比一下你就懂：

平时用的 ChatGPT、文心一言：云端 AI ：你的话发给别人服务器，别人算完再返回。
本地 AI：模型就在你电脑硬盘 / 内存里，不用发送到外网，数据不出你电脑。

特点：

快、不卡、不用等网络
隐私安全，文件、密码不会泄露
断网也能用

什么是「自动化智能体 / AI Agent」？

Agent = 能自己理解任务、自己动手操作电脑的 AI。

普通 AI：你问一句，它答一句，不会动手。

自动化 AI：你说一句话，它自己点开软件、点鼠标、敲键盘、处理文件、跑流程。

合在一起：本地自动化 AI Agent 是什么？

就是：一个完全跑在你自己电脑上、能自动帮你操作电脑、自动完成一整套任务的机器人。

给你举 5 个真实、生活化的例子（一看就懂）

例子 1：自动整理文件

你说：

把我桌面所有图片按日期分类放进文件夹

普通 AI：告诉你怎么操作。

本地自动化 Agent：自己打开文件夹 → 识别图片 → 自动新建文件夹 → 自动移动文件 → 全程你不用动鼠标。

例子 2：自动写周报 + 发邮件

你说：

帮我根据这周的文件生成周报，发给老板

Agent 自己做：打开你的文档 → 读取内容 → 总结 → 打开邮箱 → 写正文 → 点发送。

而且全程在本地，不把你的工作内容传到云端。

例子 3：自动处理表格数据

你有一堆 Excel 很乱。你说：

把这张表里的异常数据标红，算出总和，生成图表

Agent：自己打开 Excel → 计算 → 筛选 → 画图 → 做完给你。

本地运行，数据不外泄。

例子 4：自动帮你操作软件

比如你要：

批量压缩图片
批量重命名文件
自动打开软件打卡、备份资料

你只说一句话，它自己点鼠标、点按钮，像人一样操作。

例子 5：隐私特别重要的场景

比如你有：

公司机密代码
家庭财务表格
私人照片

你不敢上传到云端 AI。

本地 Agent = 你放心用，数据永远在你自己电脑里，还能自动干活。

用一句超级通俗的话总结

本地自动化 AI Agent = 住在你电脑里、断网也能用、不会泄露你隐私、还能自己动手帮你操作电脑的机器人助理。

你提到的 Clawdbot / OpenClaw 就是做这个的：

本地运行
能控制鼠标键盘
自动完成电脑任务
不用把数据传到外面

2.2 四大类工具完整清单（含你提到的所有）

2.2.1 底层大模型（基座）

这些是 “大脑”，不直接给用户用，而是被各种产品调用。

模型	公司	核心定位	特点
GPT 系列（o1/o3/4o）	OpenAI	全球通用天花板	综合能力最强、生态最成熟、推理极强
Claude 3.5/3.7/4	Anthropic	长文本 + 代码 + 合规	上下文超长、代码风格好、安全强
DeepSeek V3/V3.1	深度求索	国产开源 + 代码 + 推理	开源、代码强、性价比高、128K + 上下文
通义千问（Qwen 3）	阿里巴巴	企业级 + 开源 + 多模态	阿里生态、开源、中文强、多模态好
豆包（Seed）	字节跳动	自研全能 + 多模态	字节自研、C 端体验好、语音 / 视频强
文心一言（ERNIE）	百度	搜索增强 + 中文	百度搜索深度整合、知识检索强
元宝（底层）	腾讯	社交 + 内容 + 多模态	腾讯生态、微信 / QQ 深度集成

2.2.2 通用 AI 助手（AI Agent）（直接聊天 / 办公 / 创作）

这些是 “成品 App / 网页”，普通人直接用。

产品	底层大模型	公司	核心定位	优势场景
ChatGPT	GPT-4o/o1/o3	OpenAI	全球通用生产力	创意、写作、推理、插件生态
豆包	字节 Seed 自研	字节跳动	全能 C 端助手	日常聊天、语音、多模态、活动助手
元宝	自研 + DeepSeek	腾讯	社交 + 内容创作	微信生态、文案、短视频、娱乐
通义千问	Qwen 3	阿里巴巴	企业 + 办公 + 多模态	文档处理、OCR、钉钉 / 阿里云集成
文心一言	ERNIE	百度	搜索 + 知识 + 办公	知识问答、文库 / 网盘、搜索增强
Kimi	Moonshot	月之暗面	长文本 + 文档	读论文、会议纪要、超长文档

2.2.3 编程专用工具（AI Agent）（只干代码）

这些是 “程序员专属 IDE/CLI”，不做聊天，只写 / 改 / 运行代码。

产品	底层大模型	类型	核心定位	优势
Cursor	GPT-4/Claude	独立 IDE	AI 代码编辑器	编辑器内实时改代码、补全、重构
Claude Code	Claude 3.5+	CLI / 终端	终端代码智能体	命令行操作、批量改文件、长项目
Trae	默认主力为豆包，也支持切换为其他支持的模型，例如DeepSeek	IDE / 插件	多语言编程引擎	跨语言项目、代码审查、工程化强
GitHub Copilot	GPT-4	IDE 插件	代码补全 + 生成	VSCode 深度集成、实时补全、开源生态
CodeLlama	Meta	开源基座	本地代码模型	免费、本地部署、隐私优先

2.2.4 本地 / 自动化智能体（AI Agent 或者插件工具）（能操作电脑）

这些是 “能自动干活的机器人”，不只聊天，能操作文件、软件、自动化流程。

产品	底层大模型	运行方式	核心定位	特点
Clawdbot/OpenClaw	Claude/GPT/ 本地	本地 Agent	电脑自动化	操作文件、发邮件、打开软件、持久记忆
AutoGPT	GPT-4	本地 Agent	自主任务执行	设定目标、自动规划、自动完成
豆包 MCP	豆包 Seed	内置工具	全能工具调用	计算器、代码、画图、文件、搜索

2.3 核心联系与区别（一句话抓本质）

2.3.1 联系（所有 AI 工具的共同点）

都基于 ** 大语言模型（LLM）** 做底层推理
都具备理解、生成、记忆、工具调用四大能力
都在做：通用 → 垂直 → 本地 → 自动化的演进

2.3.2 区别（最关键的 3 条）

2.3.2.1 按 “能力边界” 分

通用助手（豆包 / ChatGPT / 元宝 / 通义）：全能，聊天 + 办公 + 创作 + 代码 + 多模态
编程专用（Cursor/Claude Code/Trae）：只做代码，不聊天、不做别的
本地智能体（Clawdbot/AutoGPT）：能操作电脑、自动化、本地运行

2.3.2.2 按 “底层模型” 分

OpenAI 系（底层模型是 GPT 系列，GPT 系列模型的 “亲生父母” 就是 OpenAI 公司）：ChatGPT、Cursor、Copilot
Anthropic 系（底层模型是 Claude 系列）：Claude、Claude Code、Clawdbot（长文本 + 代码）
国产自研（底层模型是国产自研的）：豆包（字节）、元宝（腾讯）、通义千问（阿里）、DeepSeek（深度求索）
开源系（底层模型是公开代码，谁都能下载、本地跑）：DeepSeek、Qwen、CodeLlama（可本地部署、定制）

2.3.2.3 按 “使用方式” 分

云端 SaaS：ChatGPT、豆包、元宝、通义（网页 / App，不用部署）
IDE/CLI：Cursor、Claude Code、Trae（程序员在编辑器 / 终端用）
本地部署：Clawdbot、DeepSeek 本地版、CodeLlama（隐私优先、离线可用）

2.4 你提到的工具 “一对一” 对比（最实用）

2.4.1 豆包 vs 元宝 vs 通义千问 vs DeepSeek（国产四巨头）

维度	豆包	元宝	通义千问	DeepSeek
底层	字节自研 Seed	腾讯自研 + DeepSeek	阿里 Qwen 3	深度求索自研
定位	C 端全能 + 多模态	社交 + 内容 + 娱乐	企业 + 办公 + 多模态	开源 + 代码 + 推理
代码	强（嵌入式 / LuatOS）	中	中	极强（LeetCode 87%）
多模态	视频 / 语音 / 画图强	短视频 / 图文强	OCR / 文档强	纯文本为主
生态	字节全系（抖音 / 头条）	微信 / QQ / 腾讯视频	阿里云 / 钉钉 / 淘宝	开源社区
适合	日常 + 嵌入式 + 创作	社交 + 短视频 + 文案	企业办公 + 文档	开发者 + 开源 + 本地

2.4.2 ChatGPT vs Claude vs Cursor vs Claude Code vs Trae（编程 / 通用）

产品	类型	底层	代码能力	长文本	工具 / 执行
ChatGPT	通用	GPT-4o	强	中	插件 / 代码解释器
Claude	通用	Claude 3.7	极强	极强（1M+）	文档 / 文件
Cursor	IDE	GPT-4/Claude	极强	会话级	编辑器内改代码
Claude Code	CLI	Claude 3.5+	极强	会话级	终端命令 + 文件
Trae	IDE	Doubao等多种大模型	极强	中	多语言 + 代码审查