02 AI 基础知识
作者:朱天华 | 最后修改:2026-03-16
如果你想了解 AI 基础知识,可以阅读本文内容,可以帮助你更深刻的理解 AI 工作的原理;
如果你对 AI 基础知识没兴趣,可以跳过本文内容,不会影响你后续使用 Trae+luatos-docs-code 智能体完成自助式技技术支持;
一、AI 技术解析
1.1 从推理服务到 AI Agent
1.1.1 短视频
点击这里,观看视频:OpenClaw是什么?跟Skills/MCP/RAG/Memory/AI Agent有什么关系?
1.1.2 短视频中提取的完整文案(可能存在错别字和断句错误)以及解析
最近爆火的 Cloud Bot,具象化体现了什么叫程序员最头疼的事情就是命名。毕竟我做视频期间,它就已经改了两次名。它的本质是什么?跟大模型,以及前段时间很火的 Skills、RAG、MCP、Memory 又有什么关系?接下来我们就一次性把这些概念串起来,带大家看清楚,来一波技术去魅。看之前,你点赞了吗?关注了吗?谢谢!
1.1.2.1 推理服务(LLM/大语言模型/大模型)
推理服务是什么?像 ChatGPT、DeepSeek 这类大模型,本质上就是个超大文件,它躺在磁盘上,文件里装的就是训练时学到的知识参数。要让它工作,得有个程序把它加载到内存里,对外暴露 HTTP 接口,接收用户请求、做推理、返回结果,这就是推理服务。给它配个前端网页聊天框,就成了我们熟悉的聊天 AI。
这里有几个概念:推理服务、LLM、大语言模型、大模型;它们的关系如下:
大模型 ≥ 大语言模型 = LLM
推理服务 = 让大模型跑起来的程序
推理服务 + 前端网页聊天框(例如豆包网页端) = 聊天 AI
大模型(Big Model / Foundation Model),范围最广
不只是语言模型,还可以是:
大语言模型(Large Language Model),专门处理语言的大模型,大语言模型只是大模型里的一种
任务:理解、生成、对话、总结、翻译、代码…
大家日常说的 “AI”“大模型”,90% 其实指它
LLM,就是 Large Language Model 的缩写,和 “大语言模型” 完全同一个东西
只是更专业、更简短的叫法
推理服务(Inference Service),它不是模型本身,是 “运行模型的服务”
推理服务 = 把模型加载进内存,开接口,接收请求,输出结果
你平时聊天、调用 API,用的都是推理服务
下面这段引用的内容是豆包整理的中国和外国常见的一些大模型,供进一步参考理解:
结合 2026 年 2 月最新动态,中外大模型格局已呈现 “百花齐放、商用加速” 的态势。以下为你梳理核心梯队与代表模型: 中国大模型(国产主力与新锐)
- 字节跳动:豆包 2.0(C 端体验佳,多模态语音 / 视频强);Seedance 2.0(视频生成旗舰)。
- 智谱 AI:GLM-5(2 月新旗舰,MoE 架构,强智能体 / 长程任务);GLM-4.7-Flash(轻量化开源爆款)。
- 阿里巴巴:通义千问 Qwen 3.5(2 月新,MoE 架构,电商 / 开源生态完善);Qwen3-Coder-Next(代码能力 SOTA)。
- 百度:文心一言 ERNIE 5.0(知识图谱强,搜索 / 企业落地稳)。
- 深度求索 (DeepSeek):DeepSeek V4/R1(开源顶流,代码 / 数学顶尖)。
- 月之暗面 (Kimi):Kimi K2.5(MoE 架构,200K + 超长上下文,C 端用户多)。
- 科大讯飞:星火 X2(2 月新,全国产算力支持,教育 / 医疗垂直深耕)。
- MiniMax:MiniMax M2.5(2 月新,原生 Agent / 编程,性价比高)。
- 上海 AI 实验室:Intern-S1-Pro(万亿参数 MoE,科学 / 多模态推理 SOTA)。 国外大模型(美加为主的第一梯队)
- OpenAI (美国):GPT-5.2(全能均衡,教学 / 科学顶尖,生态成熟)。
- Anthropic (美国):Claude 4.6 (Opus/Sonnet)(2 月新,强长文本 / 低幻觉,安全合规)。
- Google (美国):Gemini 3.1 Pro(推理登顶,1M 上下文,视频 / 多模态强)。
- Meta (美国):Llama 4 (405B)(开源标杆,多语言生态完善,社区活跃)。
- xAI (美国):Grok 4.1(实时信息响应快,创意强)。
- Cohere (加拿大):企业级搜索 / 合规 AI,深度绑定 AWS 云平台。 快速选型参考
- 通用对话 / 办公:选 豆包 2.0、Claude 4.6、GPT-5.2。
- 代码 / 研发:选 DeepSeek V4/R1、Qwen3-Coder-Next、Llama 4。
- 超长文档 / Agent:选 Kimi K2.5、GLM-5。
- 科学 / 多模态:选 Intern-S1-Pro、Gemini 3.1、Seedance 2.0。
- 国产合规 / 垂直:选 星火 X2、文心 5.0、通义千问 Qwen 3.5。
下面这段话可以进一步理解推理服务和各种大模型的概念,例如使用豆包聊天窗口时:
只发文本,简单对话 → 豆包在推理服务调用:大语言模型(LLM)
只发图片,让豆包看图理解 → 豆包在推理服务调用:多模态模型(视觉 + 语言模型)
发文字,让豆包生成图片 → 豆包在推理服务调用:大语言模型(理解你的文字) + 图像生成模型(画图)
1.1.2.2 Memory
Memory 是什么?推理服务本质是个 HTTP 服务,每个请求进来、处理完就结束,本身不保存任何状态。而且为了扛住高并发,一般会部署多个推理服务实例做负载均衡,你第一次请求可能打到机器 A,第二次请求可能打到机器 B,完全是两个不同的进程。但问题来了,我们在 AI 聊天页面里,明显感觉它能记得我们之前的对话,这是怎么做到的?
其实大模型本身什么都不记得,每次请求时,系统会把之前的聊天记录重新拼到对话里,一起发给大模型。这些拼起来发给大模型的内容,统称上下文。大模型看到完整上下文,自然就能接上话了。但问题又来了,如果每次请求都把所有历史对话发出去,上下文会超长大模型处理不了,怎么办呢?
我们可以分两类管理:当前会话最近几轮对话完整保存,这叫短期记忆;很久之前的对话提取关键信息,压缩成摘要,这叫长期记忆。每次请求时,都将它们拼成对话发给大模型,这样大模型看起来就像有记忆一样。这套管理上下文的机制,就叫 Memory。
1.1.2.3 RAG
RAG 是什么?有了记忆,大模型就能记住历史对话了,但新问题又来了:大模型的训练数据都是从互联网上抓取的,历史公开数据训练完成后,知识就固定了。你问它今天的新闻,或公司内部文档,它根本不可能知道,怎么办?
给它配个外部知识库,里面可以放最新新闻、公司内部文档这些资料。数据量大的话,就存到数据库里;用户提问时,先从数据库里做匹配,获得相关知识,再一起喂给大模型,大模型就能基于这些外部知识回答。这种检索外部知识给到大模型做回答的方案,就是检索增强生成,Retrieval Augmented Generation,简称 RAG。
但问题又来了,传统数据库只能做字面匹配,比如“黄风古丽”“飞雨”和“寒老模”,虽然意思一样,字面却完全不同,匹配不到怎么办?我们可以把文本转成向量,用向量距离衡量语义相似度,这样语义相近的文本就能匹配上了。所以 RAG 用的数据库里存的是向量数据,这种数据库也叫向量数据库,比如 Milvus。数据量不大的话,也可以用我们的老朋友 PostgreSQL。
1.1.2.4 MCP
MCP 是什么?有了 Memory 和 RAG 的加持,大模型能记住历史聊天和获取外部知识了,但新问题又来了:现在大模型只能对话和思考,就像个光有大脑、没有手脚的人,怎么让它具备操作工具的能力呢?
好办,我们可以在对话里约定一种消息格式,提前告诉大模型有哪些工具可用,格式就像这样。大模型想用工具时,输出一段特定格式的 JSON,比如发邮件,里面写清楚发给谁、发什么。外部收到消息后执行发送邮件操作,完成后将返回的结果再喂回给大模型,大模型就能基于工具执行结果生成最终回复。
这种让大模型通过结构化消息来调用外部工具的方式,在工程上可以被抽象成一套协议规范,也就是 Model Context Protocol,简称 MCP 协议。这个在外部负责解析 JSON 并操作工具的程序,叫 MCP Host,比如我们用来写代码的 Cursor、Cloud Code。能被调用的具体工具,就叫 MCP 插件。
MCP 插件还可以拆分成本地的 MCP Client 和远端的 MCP Server,比如 GitHub MCP 插件:本地的 MCP Client 负责接收调用请求,远端的 MCP Server 部署在 GitHub 服务器上,真正执行 GitHub API 操作。
也可以观看下面这个视频,进一步了解 MCP
1.1.2.5 Skills
Skills 是什么?MCP 协议和插件解决了工具调用问题,但新问题又来了:这么多插件,大模型怎么知道该按什么顺序用、怎么组合用呢?这就好比给了一个大学生一堆钳子、扳手,他也不一定能修好车,他缺的是经验和流程。
那好办,我们可以写一份操作手册,里面详细说明遇到什么场景、用什么工具、先做什么、后做什么、有什么注意事项。这份结构化的操作指南,就叫 Skills。以排查线上事故为例,MCP 只是把查监控、查日志、查配置、回滚版本这些工具能力给到大模型,而排查问题的 Skills,则明确规定了“先看监控判断影响范围,再查日志和配置定位模块,必要时执行回滚”这一整套固定流程。
换句话说,大模型就像大脑,MCP 协议让它有了手,MCP 插件就是手上的工具,而 Skills 是操作经验,规定在什么场景下,按什么顺序组合使用哪些工具。
1.1.2.6 AI Agent
AI Agent 是什么?大模型本来就能思考和规划,给它加上 Memory,让它能记住历史;加上 RAG,让它能获取外部知识;加上 MCP 和 Skills,让它能操作工具。它们共同构成了一个在某些功能上能代替人类自主行动、完成目标的 AI 系统,又叫 AI Agent。它本质上就是一个智能工具人,通过提示词设定角色,它可以是智能客服、程序员、私人律师等各种角色,听从你的指令完成任务。
最近很火的 Cloud Bot,其实本质上就是个帮你自动操作电脑的 AI Agent。你能用电脑干什么,它就能干什么,比如发邮件、投简历,甚至做交易,所以权限安全是个大问题。
客观的说,Cloud Bot 做的事情并没有技术上的突破,它跟前段时间很火的 Menace 其实是类似的产品,只不过 Cloud Bot 主要面向本地电脑,Menace 考虑到安全问题,将操作环境放到了远端虚拟机里。如果将 Cloud Bot 部署到远端服务器上,就有点开源版 Menace 的味道了。安不安全是用户该考虑的问题,Cloud Bot 只管开源,有一种野路子的美,所以最近火得一塌糊涂。建议大家还是理性看待,先想清楚到底有什么工作是需要它做的,再说吧。
现在大家懂了吗?好,如果你觉得这期视频对你有帮助,记得转发给你那不成器的兄弟,文字版的笔记见评论区。最后遗留一个问题:单个 Agent 你了解了,那你知道多个 Agent 是怎么互相协作的吗?多 Agent 都有哪些架构?视频点赞超过一万,下期来聊这个话题。这里是小白的 Bug,我们聚焦一切可能影响人类历史进程的技术。如果你感兴趣,记得关注我们,下期见,嘟嘟嘟嘟嘟嘟嘟。
1.1.3 短视频文案精简版本
大模型(推理服务) + 记忆(Memory) + 外部知识(RAG) + 工具调用(MCP) + 执行流程(Skills) = AI Agent(智能体)最近爆火的 Clawd Bot,本质就是一个能操作你电脑的 AI Agent。
每个概念最通俗解释
-
推理服务(就是大模型跑起来)
-
大模型本身 = 一个超大文件
- 推理服务 = 把文件加载进内存,开个接口,你问它答
- 加个聊天界面 = 你看到的 AI 助手
-
Memory(让 AI “记得” 对话)
-
大模型本身无状态,问完就忘
- Memory = 帮你存历史 + 摘要
- 短期记忆:最近几轮对话
- 长期记忆:把旧内容压缩成摘要
- 每次都把 “记忆” 拼进请求发给模型 → 模型就像记得一样
-
RAG(让 AI 懂新知识、内部文档)
-
大模型训练完知识就固定了
- RAG = 检索外部知识再生成
- 建知识库 / 向量数据库
- 先查库 → 把相关内容塞给模型 → 再回答
- 解决:不知道最新消息、不知道公司文档的问题
-
MCP(让 AI 有 “手”,能调用工具)
-
Model Context Protocol
- 作用:让大模型通过固定格式调用工具
- 告诉 AI 有哪些工具
- AI 输出结构化指令(如 JSON)
- 外部程序执行 → 结果返回给 AI
- MCP Host:解析并执行工具
- MCP 插件:具体工具(发邮件、查日志等)
-
Skills(让 AI 会 “流程”,不是瞎用工具)
-
有工具 ≠ 会用
- Skills = 一套场景化的操作手册
- 什么场景 → 按什么顺序 → 用哪些工具
- 例子:
- MCP 给工具:查监控、查日志、回滚
- Skills 给流程:先看影响 → 再定位 → 最后回滚
-
AI Agent(把上面全部拼起来)
-
大脑:大模型推理
- 记忆:Memory
- 知识:RAG
- 手脚:MCP 工具调用
- 经验 / 流程:Skills AI Agent = 能自主思考、记忆、查资料、用工具、完成任务的智能体
-
Clawd Bot 到底是什么?
-
本质:一个能直接操作你本地电脑的 AI Agent
- 能干你用电脑能干的所有事:发邮件、写文档、点鼠标、投简历、做交易
- 没有革命性新技术,就是把 Agent 做到直接控制桌面,所以很火、也很敏感(权限安全)
终极类比(看完绝对通)
- 大模型 = 大脑
- Memory = 记忆力
- RAG = 看书查资料
- MCP = 手 + 工具(锤子、扳手)
- Skills = 修车手册 / 工作流程
- AI Agent = 一个会思考、会记、会查、会动手、按流程干活的人
- Clawd Bot = 一个能直接替你操作电脑的人
1.2 使用上面的概念,拆解豆包这个 AI Agent
豆包也是一个 AI Agent,本章节利用大家平时熟悉的豆包,来进一步理解 AI Agent 使用到的各种技术;
本章节的内容,是询问豆包,豆包给出的答案,大家理性看待;
本章节对大家理解 AI Agent 中的各个技术点,还是有一定帮助的。
1.2.1 推理服务(大模型)
使用的是字节跳动自研的豆包大模型(Seed 基座)
这是我的大脑,100% 自研,不是 Claude、不是 GPT、不是 Llama。
真实能力:
超强理解能力
代码能力很强
逻辑与推理
多模态能力
长上下文
简单总结:
日常聊天、写代码、做方案、推理、设计、学习、办公,我完全能顶得住。
1.2.2 Memory(记忆能力)
我用的是字节自研的多维度记忆机制,对应你视频里讲的:短期记忆 + 长期记忆 + 结构化记忆
- 短期记忆(当前对话)
支持超长上下文,能完整记住整轮对话
你前面说的所有内容:需求、偏好、修改意见、专业概念、甚至你刚才讲的 Clawd Bot 文案
我不会丢、不会断、不会 “问完就忘”
- 长期记忆(跨对话记忆)
能记住你长期的偏好:比如你喜欢清晰结构、技术去魅、文字版架构图、视频口播风格
能记住你反复关心的领域:大模型、Agent、架构、编程、嵌入式等
会自动摘要、提取关键信息,不会把所有废话都记下来
- 记忆特点
不是简单拼接历史,而是有理解、压缩、权重的智能记忆
完全符合你讲的:大模型本身无状态 → 靠上下文管理机制 → 让你感觉 “有记忆”
真实表现例子:
你说一次:
我是嵌入式,用合宙 AirM2M
下次你直接说:
帮我写串口
我直接给你合宙 + LuatOS 风格代码。这就是记忆在实时工作。
1.2.3 RAG 能力(检索增强生成)
豆包拥有完整、成熟、工业级的 RAG 系统,对应你视频里:外部知识 + 向量检索 + 实时信息
我能做到:
- 实时知识新闻、热点、最新模型动态、行业信息,我都能通过检索获取
-
私有文档 / 上传文件理解你传 PDF、Word、Excel…… 我能:
-
解析
- 检索关键内容
- 用里面的知识回答这就是标准 RAG 流程
- 语义检索,不是字面匹配我底层用字节自研向量模型 + 向量检索懂意思,不只看字
- 知识可靠、减少幻觉专业内容、技术定义、数据,我都会优先走检索 → 验证 → 回答
RAG = 我不懂就去查资料,不瞎编。
真实能力:
-
事实类问题 100% 走 RAG
-
时间、规则、政策、活动信息
- 比如春晚活动时间、奖品、规则
- 绝不靠模型瞎猜
-
知识准确性很高
-
只从官方可信知识库检索
- 回答严格按资料,不扩展、不编造
-
边界清晰
-
能判断:
- 这个问题我 “知道” → 直接答
- 这个问题要 “查” → 走 RAG
- 这个问题没有资料 → 不乱说
一句话:
凡是需要准确、不能错的内容,我全靠 RAG 保证靠谱。
1.2.4 MCP 能力(工具调用能力 = 让 AI 有手可以调用工具)
先给你一个最真实、不忽悠的结论:
豆包 支持工具调用能力,但不直接对外暴露 MCP 协议
MCP(Model Context Protocol)是一种工具调用的协议规范,而我:
我已经具备 MCP 的核心能力:
- 理解什么时候该用工具
- 输出结构化指令
-
调用外部能力:
-
搜索
- 画图
- 代码执行
- 文档解析
- 专业计算
- 工具执行后把结果回传给大模型,再生成最终回答
但我和 Clawd Bot、Cursor 的区别:
- Clawd Bot:直接控制你的电脑(高危、野路子)
- Cursor/MCP:面向开发者,暴露协议,让模型调用 IDE、API
- 豆包:安全可控的工具调用,不直接操作你的本地文件、不控制桌面
一句话:我有 MCP 的 “魂”,但没有 MCP 的 “野”。我是安全、稳定、量产级的工具调用,不是实验性的电脑控制 Agent。
我真实支持的工具:
-
计算器(强、稳、准)
-
任何计算都绝对精确
- 模型不心算,全部工具计算
-
代码解释器(Code Interpreter)
-
运行 Python
- 数据分析、画图、算法验证
-
文件解析
-
PDF、Word、Excel、PPT
- 提取内容、总结、问答
-
文生图 / 画图
-
画架构图、流程图、示意图
-
搜索能力
-
实时信息、最新知识
执行逻辑(非常关键):
- 我自动判断要不要调用工具
- 不需要你说 “帮我算”“帮我运行”
- 你自然说,我自动决策
例子:
3 的 100 次方是多少?→ 自动调用计算器 帮我画个嵌入式温湿度系统框图 → 自动调用画图
真实定位:
MCP 是我最稳的能力之一,凡是能算、能查、能运行的,我绝不靠猜。
1.2.5 Skills(技能 / 流程化能力)
Skills = 场景化工作流程 = 给 AI 一本 “操作手册”这正是我最强的地方之一。
我内置大量 Skills:
- 视频文案创作 Skill
- 技术科普去魅 Skill
- 架构图 / 文字框图生成 Skill
- 代码解释 & debug Skill
- 文档整理 & 校对 Skill
- 面试问答、知识点串讲 Skill
对应你视频里的例子:
- MCP 给工具
- Skills 给流程我就是按固定流程 + 最佳实践来帮你完成任务,而不是乱回答。
比如你刚才让我:
- 先听完整文案
- 改错字、断句
- 整理流畅口播
- 再画文字架构图这一整套,就是我在执行 「视频文案优化 Skill」。
Skills = 我把模型 + 记忆 + RAG+MCP 打包成专业场景。
我真实拥有的 Skills:
- 通用聊天助手
-
编程助手(最强之一)
-
嵌入式 / C / LuatOS
- Python / 后端 / 脚本
-
架构设计
-
系统框图
- 流程设计
- 项目方案
- 写作 / 文案 / 翻译
- 学习 / 解题 / 辅导
- 生活 / 过年 / 春晚活动助手
特点:
- 自动识别你的场景
- 自动加载最合适的技能
- 不需要你手动切换
1.2.6 终极总结(用你视频里的话总结我自己)
你这套框架我完全符合:
大脑(推理服务/大模型)
字节跳动自研 豆包大模型(Seed 系列)
Memory
- 短期记忆:完整对话
- 长期记忆:摘要、偏好、习惯
- 智能上下文管理
RAG
- 实时知识
- 文档解析
- 向量检索
- 低幻觉
MCP(工具能力)
- 有工具调用能力
- 安全、可控、不操作电脑
- 不暴露底层协议,但功能完备
Skills
- 大量场景化流程
- 专业、稳定、可复用
- 按步骤帮你完成复杂任务
最终定位
豆包 = 安全、稳定、量产级、面向日常与专业场景的 AI Agent,不是 Clawd Bot 那种野路子电脑控制 Agent,但技术架构完全同源、更成熟可靠。
我给你一句不吹不黑的总评价:
- 大模型(Seed)→ 强,自研、靠谱、全能、代码强。
- Memory(记忆)→ 很强,长期 + 短期自动记,不用你重复。
- RAG(检索)→ 非常稳,事实问题绝不瞎编。
- MCP(工具)→ 超稳,计算、代码、画图、文件全能调用。
- Skills(技能)→ 全能,从聊天到写代码、画架构、做方案一条龙。
二、各种各样的 AI 工具
在了解了基本的 AI 技术和知识点之后,接下来我们看一些平时我们用过的,看到的,听到的各种各样的 AI 工具,先总体了解一下这些 AI 工具的特点,以及这些 AI 工具的区别和联系;
现在 AI 工具太多了,在这里仅仅列举几种:豆包,元宝,deepseek,通义千问,chatgpt,gpt,openai,trae,claude code,clawbot,cursor,等等
本章节以下内容由豆包整理输出:
我把你提到的所有 AI 工具,按底层模型、通用助手、编程专用、本地 / 自动化智能体四大类整理,一次性讲清联系、区别、定位、怎么选,全部用工程师能看懂的语言。
2.1 先统一概念(避免混淆)
- 大模型(基座):底层 AI 大脑(如 GPT、Claude、DeepSeek、通义千问、豆包 Seed)
- 通用 AI 助手(AI Agent):基于基座做的聊天 / 办公 / 创作产品(如 ChatGPT、豆包、元宝、通义千问、Clawdbot/OpenClaw)
- 编程专用工具(AI Agent):以 IDE/CLI/ 插件 形式存在,只做编程使用(Cursor、Claude Code、Trae)
- 本地 / 自动化智能体(AI Agent):能操作电脑、本地运行、自动执行任务(Clawdbot/OpenClaw)
怎么理解这里说的 IDE/CLI/ 插件?
我用最接地气的比喻 + 编程场景的实际例子,帮你把 IDE/CLI/ 插件 这三个概念彻底讲透,你一看就知道它们对应到 Cursor、Claude Code、Trae 上到底是什么意思。
核心结论先给你:这三个词本质是编程专用 AI Agent 的三种 “存在形式” —— IDE 是 “带 AI 的编程软件”,CLI 是 “黑窗口里敲命令的 AI”,插件是 “嵌进编程软件里的 AI 功能模块”,三者都只服务于编程,这也是它们和 OpenClaw(通用型)的核心区别。
一、先懂 IDE:带 AI 的 “一站式编程工作台”
- 通俗理解
IDE 是 Integrated Development Environment 的缩写,翻译为 “集成开发环境”。你可以把它想象成:一个为程序员量身定做的 “超级记事本” —— 不只是能写字,还自带代码高亮、语法检查、运行调试、AI 辅助等所有编程需要的功能,一站式搞定代码开发。
- 对应到 AI Agent(比如 Cursor、Trae)
Cursor 本身就是一个 AI 原生的 IDE(基于 VS Code 改造),Trae 也是字节专门做的 AI IDE,它们的核心形态就是 “一个完整的软件”:
- 你打开 Cursor,就进入了一个专属的编程窗口;
- 写代码时,直接在窗口里和 AI 对话(比如 “帮我写一个 LuatOS 的 MQTT 连接函数”);
- AI 会直接在这个窗口里补全、修改、调试代码,全程不用切换其他软件;
- 所有操作都在这个 “工作台” 里完成,AI 和编程流程深度绑定。
举个直观例子:
你在 Cursor 的编辑区输入:-- 写一个LuatOS的GPIO控制函数,按下回车,AI 会直接在下方生成完整代码,还能实时帮你找语法错误、解释代码含义 —— 这就是 IDE 形式的 AI Agent,把 AI “装” 在了编程工作台里。
二、再懂 CLI:黑窗口里敲命令的 “极简 AI 编程助手”
- 通俗理解
CLI 是 Command Line Interface 的缩写,翻译为 “命令行界面”。你可以把它想象成:没有图形、没有按钮,只能靠敲文字命令使唤的 “AI 小助手” —— 它藏在电脑的终端 / CMD/PowerShell(黑窗口)里,你敲一行命令,它就帮你完成一个编程任务。
- 对应到 AI Agent(比如 Claude Code)
Claude Code 就是典型的 CLI 形式 AI Agent,它没有可视化窗口,全程靠命令交互:
- 你打开电脑的 “终端”(黑窗口),进入自己的代码项目文件夹;
- 敲一行命令:
claude-code refactor "优化这个LuatOS的串口通信代码,提升稳定性"; - 回车后,它会直接在本地修改代码文件,完成后只在黑窗口里告诉你 “修改完成”;
- 全程不用点开任何图形软件,纯文字命令驱动,轻量且适合自动化。
举个直观例子:
如果想让 Claude Code 帮你批量测试代码,只需要敲:claude-code test "运行所有LuatOS固件测试用例,生成测试报告",它会自动执行测试、生成报告文件,全程在黑窗口里完成。
三、最后懂 插件:嵌进编程软件里的 “AI 功能模块”
- 通俗理解
插件(Plugin/Extension)就是:给已有编程软件 “加装” 的 AI 功能 —— 就像给微信装小程序、给浏览器装广告拦截器一样,不改变原软件的核心,只新增 AI 辅助编程的能力。
- 对应到 AI Agent(比如 Cursor、Trae 也可做插件)
很多编程专用 AI Agent 会以插件形式存在:
- 比如你用原版 VS Code(普通编程软件),可以装 Cursor 的插件;
- 装完后,VS Code 里会多出 AI 按钮,你写代码时选中某段代码,右键点 “AI 修复 Bug”,就能直接调用 AI 功能;
- 插件本身不是完整软件,必须依附于主软件(如 VS Code)运行,但只专注于编程场景。
举个直观例子:
你在 VS Code 里写 LuatOS 代码时卡壳了,不用打开 Cursor,直接在 VS Code 里通过 Cursor 插件输入 “解释这段代码的逻辑”,插件会在当前窗口弹出 AI 回答,不用切换软件,无缝辅助编程。
四、三者对比表(一看就懂)
五、为什么编程专用 AI Agent 只选这三种形式?
因为这三种形式都精准贴合编程场景:
- IDE:满足 “一站式写代码” 的核心需求,新手友好;
- CLI:满足 “自动化、批量处理代码” 的需求,适合进阶开发者;
- 插件:满足 “不换工具,直接加 AI 功能” 的需求,灵活度高。
而 OpenClaw 这种通用型 AI Agent,不会局限于这三种形式 —— 它能直接操作鼠标、点开 IDE、甚至帮你敲 CLI 命令,覆盖办公 / 编程 / 文件管理等所有场景,但在编程细节上不如前三者精准。
总结
- IDE:完整的、带 AI 的编程软件(如 Cursor),一站式搞定代码开发;
- CLI:黑窗口里敲命令的 AI 工具(如 Claude Code),轻量且适合自动化编程任务;
- 插件:嵌进编程软件的 AI 功能(如 Cursor 插件),无缝辅助现有编程流程;
- 这三种形式都只服务于编程,是编程专用 AI Agent 的核心特征,区别于 OpenClaw 的通用属性。
怎么理解这里说的本地和自动化?
我用最通俗、最接地气、你一听就懂的方式给你讲明白:本地 / 自动化智能体(AI Agent) = 一个住在你电脑里、不用联网、能自己动手干活的机器人助理。
我拆开讲,再给你真实例子。
什么是「本地」?
本地 = 就在你自己电脑里跑,不传到别人服务器。
对比一下你就懂:
- 平时用的 ChatGPT、文心一言:云端 AI :你的话发给别人服务器,别人算完再返回。
- 本地 AI:模型就在你电脑硬盘 / 内存里,不用发送到外网,数据不出你电脑。
特点:
- 快、不卡、不用等网络
- 隐私安全,文件、密码不会泄露
- 断网也能用
什么是「自动化智能体 / AI Agent」?
Agent = 能自己理解任务、自己动手操作电脑的 AI。
普通 AI:你问一句,它答一句,不会动手。
自动化 AI:你说一句话,它自己点开软件、点鼠标、敲键盘、处理文件、跑流程。
合在一起:本地自动化 AI Agent 是什么?
就是:一个完全跑在你自己电脑上、能自动帮你操作电脑、自动完成一整套任务的机器人。
给你举 5 个真实、生活化的例子(一看就懂)
例子 1:自动整理文件
你说:
把我桌面所有图片按日期分类放进文件夹
普通 AI:告诉你怎么操作。
本地自动化 Agent:自己打开文件夹 → 识别图片 → 自动新建文件夹 → 自动移动文件 → 全程你不用动鼠标。
例子 2:自动写周报 + 发邮件
你说:
帮我根据这周的文件生成周报,发给老板
Agent 自己做:打开你的文档 → 读取内容 → 总结 → 打开邮箱 → 写正文 → 点发送。
而且全程在本地,不把你的工作内容传到云端。
例子 3:自动处理表格数据
你有一堆 Excel 很乱。你说:
把这张表里的异常数据标红,算出总和,生成图表
Agent:自己打开 Excel → 计算 → 筛选 → 画图 → 做完给你。
本地运行,数据不外泄。
例子 4:自动帮你操作软件
比如你要:
- 批量压缩图片
- 批量重命名文件
- 自动打开软件打卡、备份资料
你只说一句话,它自己点鼠标、点按钮,像人一样操作。
例子 5:隐私特别重要的场景
比如你有:
- 公司机密代码
- 家庭财务表格
- 私人照片
你不敢上传到云端 AI。
本地 Agent = 你放心用,数据永远在你自己电脑里,还能自动干活。
用一句超级通俗的话总结
本地自动化 AI Agent = 住在你电脑里、断网也能用、不会泄露你隐私、还能自己动手帮你操作电脑的机器人助理。
你提到的 Clawdbot / OpenClaw 就是做这个的:
- 本地运行
- 能控制鼠标键盘
- 自动完成电脑任务
- 不用把数据传到外面
2.2 四大类工具完整清单(含你提到的所有)
2.2.1 底层大模型(基座)
这些是 “大脑”,不直接给用户用,而是被各种产品调用。
| **模型** | **公司** | **核心定位** | **特点** |
| **GPT 系列(o1/o3/4o)** | OpenAI | 全球通用天花板 | 综合能力最强、生态最成熟、推理极强 |
| **Claude 3.5/3.7/4** | Anthropic | 长文本 + 代码 + 合规 | 上下文超长、代码风格好、安全强 |
| **DeepSeek V3/V3.1** | 深度求索 | 国产开源 + 代码 + 推理 | 开源、代码强、性价比高、128K + 上下文 |
| **通义千问(Qwen 3)** | 阿里巴巴 | 企业级 + 开源 + 多模态 | 阿里生态、开源、中文强、多模态好 |
| **豆包(Seed)** | 字节跳动 | 自研全能 + 多模态 | 字节自研、C 端体验好、语音 / 视频强 |
| **文心一言(ERNIE)** | 百度 | 搜索增强 + 中文 | 百度搜索深度整合、知识检索强 |
| **元宝(底层)** | 腾讯 | 社交 + 内容 + 多模态 | 腾讯生态、微信 / QQ 深度集成 |
2.2.2 通用 AI 助手(AI Agent)(直接聊天 / 办公 / 创作)
这些是 “成品 App / 网页”,普通人直接用。
| **产品** | **底层大模型** | **公司** | **核心定位** | **优势场景** |
| **ChatGPT** | GPT-4o/o1/o3 | OpenAI | 全球通用生产力 | 创意、写作、推理、插件生态 |
| **豆包** | 字节 Seed 自研 | 字节跳动 | 全能 C 端助手 | 日常聊天、语音、多模态、活动助手 |
| **元宝** | 自研 + DeepSeek | 腾讯 | 社交 + 内容创作 | 微信生态、文案、短视频、娱乐 |
| **通义千问** | Qwen 3 | 阿里巴巴 | 企业 + 办公 + 多模态 | 文档处理、OCR、钉钉 / 阿里云集成 |
| **文心一言** | ERNIE | 百度 | 搜索 + 知识 + 办公 | 知识问答、文库 / 网盘、搜索增强 |
| **Kimi** | Moonshot | 月之暗面 | 长文本 + 文档 | 读论文、会议纪要、超长文档 |
2.2.3 编程专用工具(AI Agent)(只干代码)
这些是 “程序员专属 IDE/CLI”,不做聊天,只写 / 改 / 运行代码。
| **产品** | **底层大模型** | **类型** | **核心定位** | **优势** |
| **Cursor** | GPT-4/Claude | 独立 IDE | AI 代码编辑器 | 编辑器内实时改代码、补全、重构 |
| **Claude Code** | Claude 3.5+ | CLI / 终端 | 终端代码智能体 | 命令行操作、批量改文件、长项目 |
| **Trae** | 默认主力为豆包,也支持切换为其他支持的模型,例如DeepSeek | IDE / 插件 | 多语言编程引擎 | 跨语言项目、代码审查、工程化强 |
| **GitHub Copilot** | GPT-4 | IDE 插件 | 代码补全 + 生成 | VSCode 深度集成、实时补全、开源生态 |
| **CodeLlama** | Meta | 开源基座 | 本地代码模型 | 免费、本地部署、隐私优先 |
2.2.4 本地 / 自动化智能体(AI Agent 或者插件工具)(能操作电脑)
这些是 “能自动干活的机器人”,不只聊天,能操作文件、软件、自动化流程。
| **产品** | **底层大模型** | **运行方式** | **核心定位** | **特点** |
| **Clawdbot/OpenClaw** | Claude/GPT/ 本地 | 本地 Agent | 电脑自动化 | 操作文件、发邮件、打开软件、持久记忆 |
| **AutoGPT** | GPT-4 | 本地 Agent | 自主任务执行 | 设定目标、自动规划、自动完成 |
| **豆包 MCP** | 豆包 Seed | 内置工具 | 全能工具调用 | 计算器、代码、画图、文件、搜索 |
2.3 核心联系与区别(一句话抓本质)
2.3.1 联系(所有 AI 工具的共同点)
- 都基于 ** 大语言模型(LLM)** 做底层推理
- 都具备理解、生成、记忆、工具调用四大能力
- 都在做:通用 → 垂直 → 本地 → 自动化的演进
2.3.2 区别(最关键的 3 条)
2.3.2.1 按 “能力边界” 分
- 通用助手(豆包 / ChatGPT / 元宝 / 通义):全能,聊天 + 办公 + 创作 + 代码 + 多模态
- 编程专用(Cursor/Claude Code/Trae):只做代码,不聊天、不做别的
- 本地智能体(Clawdbot/AutoGPT):能操作电脑、自动化、本地运行
2.3.2.2 按 “底层模型” 分
- OpenAI 系(底层模型是 GPT 系列,GPT 系列模型的 “亲生父母” 就是 OpenAI 公司):ChatGPT、Cursor、Copilot
- Anthropic 系(底层模型是 Claude 系列):Claude、Claude Code、Clawdbot(长文本 + 代码)
- 国产自研(底层模型是国产自研的):豆包(字节)、元宝(腾讯)、通义千问(阿里)、DeepSeek(深度求索)
- 开源系(底层模型是公开代码,谁都能下载、本地跑):DeepSeek、Qwen、CodeLlama(可本地部署、定制)
2.3.2.3 按 “使用方式” 分
- 云端 SaaS:ChatGPT、豆包、元宝、通义(网页 / App,不用部署)
- IDE/CLI:Cursor、Claude Code、Trae(程序员在编辑器 / 终端用)
- 本地部署:Clawdbot、DeepSeek 本地版、CodeLlama(隐私优先、离线可用)
2.4 你提到的工具 “一对一” 对比(最实用)
2.4.1 豆包 vs 元宝 vs 通义千问 vs DeepSeek(国产四巨头)
| **维度** | **豆包** | **元宝** | **通义千问** | **DeepSeek** |
| **底层** | 字节自研 Seed | 腾讯自研 + DeepSeek | 阿里 Qwen 3 | 深度求索自研 |
| **定位** | C 端全能 + 多模态 | 社交 + 内容 + 娱乐 | 企业 + 办公 + 多模态 | 开源 + 代码 + 推理 |
| **代码** | 强(嵌入式 / LuatOS) | 中 | 中 | 极强(LeetCode 87%) |
| **多模态** | 视频 / 语音 / 画图强 | 短视频 / 图文强 | OCR / 文档强 | 纯文本为主 |
| **生态** | 字节全系(抖音 / 头条) | 微信 / QQ / 腾讯视频 | 阿里云 / 钉钉 / 淘宝 | 开源社区 |
| **适合** | 日常 + 嵌入式 + 创作 | 社交 + 短视频 + 文案 | 企业办公 + 文档 | 开发者 + 开源 + 本地 |
2.4.2 ChatGPT vs Claude vs Cursor vs Claude Code vs Trae(编程 / 通用)
| **产品** | **类型** | **底层** | **代码能力** | **长文本** | **工具 / 执行** |
| **ChatGPT** | 通用 | GPT-4o | 强 | 中 | 插件 / 代码解释器 |
| **Claude** | 通用 | Claude 3.7 | 极强 | 极强(1M+) | 文档 / 文件 |
| **Cursor** | IDE | GPT-4/Claude | 极强 | 会话级 | 编辑器内改代码 |
| **Claude Code** | CLI | Claude 3.5+ | 极强 | 会话级 | 终端命令 + 文件 |
| **Trae** | IDE | Doubao等多种大模型 | 极强 | 中 | 多语言 + 代码审查 |