跳转至

02 AI 基础知识

作者:朱天华 | 最后修改:2026-03-16

如果你想了解 AI 基础知识,可以阅读本文内容,可以帮助你更深刻的理解 AI 工作的原理;

如果你对 AI 基础知识没兴趣,可以跳过本文内容,不会影响你后续使用 Trae+luatos-docs-code 智能体完成自助式技技术支持;

一、AI 技术解析

1.1 从推理服务到 AI Agent

1.1.1 短视频

点击这里,观看视频:OpenClaw是什么?跟Skills/MCP/RAG/Memory/AI Agent有什么关系?

1.1.2 短视频中提取的完整文案(可能存在错别字和断句错误)以及解析

最近爆火的 Cloud Bot,具象化体现了什么叫程序员最头疼的事情就是命名。毕竟我做视频期间,它就已经改了两次名。它的本质是什么?跟大模型,以及前段时间很火的 Skills、RAG、MCP、Memory 又有什么关系?接下来我们就一次性把这些概念串起来,带大家看清楚,来一波技术去魅。看之前,你点赞了吗?关注了吗?谢谢!

1.1.2.1 推理服务(LLM/大语言模型/大模型)

推理服务是什么?像 ChatGPT、DeepSeek 这类大模型,本质上就是个超大文件,它躺在磁盘上,文件里装的就是训练时学到的知识参数。要让它工作,得有个程序把它加载到内存里,对外暴露 HTTP 接口,接收用户请求、做推理、返回结果,这就是推理服务。给它配个前端网页聊天框,就成了我们熟悉的聊天 AI。

这里有几个概念:推理服务、LLM、大语言模型、大模型;它们的关系如下:

大模型 ≥ 大语言模型 = LLM

推理服务 = 让大模型跑起来的程序

推理服务 + 前端网页聊天框(例如豆包网页端) = 聊天 AI

大模型(Big Model / Foundation Model),范围最广

不只是语言模型,还可以是:

大语言模型(Large Language Model),专门处理语言的大模型,大语言模型只是大模型里的一种

任务:理解、生成、对话、总结、翻译、代码…

大家日常说的 “AI”“大模型”,90% 其实指它

LLM,就是 Large Language Model 的缩写,和 “大语言模型” 完全同一个东西

只是更专业、更简短的叫法

推理服务(Inference Service),它不是模型本身,是 “运行模型的服务”

推理服务 = 把模型加载进内存,开接口,接收请求,输出结果

你平时聊天、调用 API,用的都是推理服务

下面这段引用的内容是豆包整理的中国和外国常见的一些大模型,供进一步参考理解:

结合 2026 年 2 月最新动态,中外大模型格局已呈现 “百花齐放、商用加速” 的态势。以下为你梳理核心梯队与代表模型: 中国大模型(国产主力与新锐)

  • 字节跳动豆包 2.0(C 端体验佳,多模态语音 / 视频强);Seedance 2.0(视频生成旗舰)。
  • 智谱 AIGLM-5(2 月新旗舰,MoE 架构,强智能体 / 长程任务);GLM-4.7-Flash(轻量化开源爆款)。
  • 阿里巴巴通义千问 Qwen 3.5(2 月新,MoE 架构,电商 / 开源生态完善);Qwen3-Coder-Next(代码能力 SOTA)。
  • 百度文心一言 ERNIE 5.0(知识图谱强,搜索 / 企业落地稳)。
  • 深度求索 (DeepSeek)DeepSeek V4/R1(开源顶流,代码 / 数学顶尖)。
  • 月之暗面 (Kimi)Kimi K2.5(MoE 架构,200K + 超长上下文,C 端用户多)。
  • 科大讯飞星火 X2(2 月新,全国产算力支持,教育 / 医疗垂直深耕)。
  • MiniMaxMiniMax M2.5(2 月新,原生 Agent / 编程,性价比高)。
  • 上海 AI 实验室Intern-S1-Pro(万亿参数 MoE,科学 / 多模态推理 SOTA)。 国外大模型(美加为主的第一梯队)
  • OpenAI (美国)GPT-5.2(全能均衡,教学 / 科学顶尖,生态成熟)。
  • Anthropic (美国)Claude 4.6 (Opus/Sonnet)(2 月新,强长文本 / 低幻觉,安全合规)。
  • Google (美国)Gemini 3.1 Pro(推理登顶,1M 上下文,视频 / 多模态强)。
  • Meta (美国)Llama 4 (405B)(开源标杆,多语言生态完善,社区活跃)。
  • xAI (美国)Grok 4.1(实时信息响应快,创意强)。
  • Cohere (加拿大):企业级搜索 / 合规 AI,深度绑定 AWS 云平台。 快速选型参考
  • 通用对话 / 办公:选 豆包 2.0Claude 4.6GPT-5.2
  • 代码 / 研发:选 DeepSeek V4/R1Qwen3-Coder-NextLlama 4
  • 超长文档 / Agent:选 Kimi K2.5GLM-5
  • 科学 / 多模态:选 Intern-S1-ProGemini 3.1Seedance 2.0
  • 国产合规 / 垂直:选 星火 X2文心 5.0通义千问 Qwen 3.5

下面这段话可以进一步理解推理服务和各种大模型的概念,例如使用豆包聊天窗口时:

只发文本,简单对话 → 豆包在推理服务调用:大语言模型(LLM)

只发图片,让豆包看图理解 → 豆包在推理服务调用:多模态模型(视觉 + 语言模型)

发文字,让豆包生成图片 → 豆包在推理服务调用:大语言模型(理解你的文字) + 图像生成模型(画图)

1.1.2.2 Memory

Memory 是什么?推理服务本质是个 HTTP 服务,每个请求进来、处理完就结束,本身不保存任何状态。而且为了扛住高并发,一般会部署多个推理服务实例做负载均衡,你第一次请求可能打到机器 A,第二次请求可能打到机器 B,完全是两个不同的进程。但问题来了,我们在 AI 聊天页面里,明显感觉它能记得我们之前的对话,这是怎么做到的?

其实大模型本身什么都不记得,每次请求时,系统会把之前的聊天记录重新拼到对话里,一起发给大模型。这些拼起来发给大模型的内容,统称上下文。大模型看到完整上下文,自然就能接上话了。但问题又来了,如果每次请求都把所有历史对话发出去,上下文会超长大模型处理不了,怎么办呢?

我们可以分两类管理:当前会话最近几轮对话完整保存,这叫短期记忆;很久之前的对话提取关键信息,压缩成摘要,这叫长期记忆。每次请求时,都将它们拼成对话发给大模型,这样大模型看起来就像有记忆一样。这套管理上下文的机制,就叫 Memory。

1.1.2.3 RAG

RAG 是什么?有了记忆,大模型就能记住历史对话了,但新问题又来了:大模型的训练数据都是从互联网上抓取的,历史公开数据训练完成后,知识就固定了。你问它今天的新闻,或公司内部文档,它根本不可能知道,怎么办?

给它配个外部知识库,里面可以放最新新闻、公司内部文档这些资料。数据量大的话,就存到数据库里;用户提问时,先从数据库里做匹配,获得相关知识,再一起喂给大模型,大模型就能基于这些外部知识回答。这种检索外部知识给到大模型做回答的方案,就是检索增强生成,Retrieval Augmented Generation,简称 RAG。

但问题又来了,传统数据库只能做字面匹配,比如“黄风古丽”“飞雨”和“寒老模”,虽然意思一样,字面却完全不同,匹配不到怎么办?我们可以把文本转成向量,用向量距离衡量语义相似度,这样语义相近的文本就能匹配上了。所以 RAG 用的数据库里存的是向量数据,这种数据库也叫向量数据库,比如 Milvus。数据量不大的话,也可以用我们的老朋友 PostgreSQL。

1.1.2.4 MCP

MCP 是什么?有了 Memory 和 RAG 的加持,大模型能记住历史聊天和获取外部知识了,但新问题又来了:现在大模型只能对话和思考,就像个光有大脑、没有手脚的人,怎么让它具备操作工具的能力呢?

好办,我们可以在对话里约定一种消息格式,提前告诉大模型有哪些工具可用,格式就像这样。大模型想用工具时,输出一段特定格式的 JSON,比如发邮件,里面写清楚发给谁、发什么。外部收到消息后执行发送邮件操作,完成后将返回的结果再喂回给大模型,大模型就能基于工具执行结果生成最终回复。

这种让大模型通过结构化消息来调用外部工具的方式,在工程上可以被抽象成一套协议规范,也就是 Model Context Protocol,简称 MCP 协议。这个在外部负责解析 JSON 并操作工具的程序,叫 MCP Host,比如我们用来写代码的 Cursor、Cloud Code。能被调用的具体工具,就叫 MCP 插件。

MCP 插件还可以拆分成本地的 MCP Client 和远端的 MCP Server,比如 GitHub MCP 插件:本地的 MCP Client 负责接收调用请求,远端的 MCP Server 部署在 GitHub 服务器上,真正执行 GitHub API 操作。

也可以观看下面这个视频,进一步了解 MCP

点击这里,观看视频:小白入门MCP

1.1.2.5 Skills

Skills 是什么?MCP 协议和插件解决了工具调用问题,但新问题又来了:这么多插件,大模型怎么知道该按什么顺序用、怎么组合用呢?这就好比给了一个大学生一堆钳子、扳手,他也不一定能修好车,他缺的是经验和流程。

那好办,我们可以写一份操作手册,里面详细说明遇到什么场景、用什么工具、先做什么、后做什么、有什么注意事项。这份结构化的操作指南,就叫 Skills。以排查线上事故为例,MCP 只是把查监控、查日志、查配置、回滚版本这些工具能力给到大模型,而排查问题的 Skills,则明确规定了“先看监控判断影响范围,再查日志和配置定位模块,必要时执行回滚”这一整套固定流程。

换句话说,大模型就像大脑,MCP 协议让它有了手,MCP 插件就是手上的工具,而 Skills 是操作经验,规定在什么场景下,按什么顺序组合使用哪些工具。

1.1.2.6 AI Agent

AI Agent 是什么?大模型本来就能思考和规划,给它加上 Memory,让它能记住历史;加上 RAG,让它能获取外部知识;加上 MCP 和 Skills,让它能操作工具。它们共同构成了一个在某些功能上能代替人类自主行动、完成目标的 AI 系统,又叫 AI Agent。它本质上就是一个智能工具人,通过提示词设定角色,它可以是智能客服、程序员、私人律师等各种角色,听从你的指令完成任务。

最近很火的 Cloud Bot,其实本质上就是个帮你自动操作电脑的 AI Agent。你能用电脑干什么,它就能干什么,比如发邮件、投简历,甚至做交易,所以权限安全是个大问题。

客观的说,Cloud Bot 做的事情并没有技术上的突破,它跟前段时间很火的 Menace 其实是类似的产品,只不过 Cloud Bot 主要面向本地电脑,Menace 考虑到安全问题,将操作环境放到了远端虚拟机里。如果将 Cloud Bot 部署到远端服务器上,就有点开源版 Menace 的味道了。安不安全是用户该考虑的问题,Cloud Bot 只管开源,有一种野路子的美,所以最近火得一塌糊涂。建议大家还是理性看待,先想清楚到底有什么工作是需要它做的,再说吧。

现在大家懂了吗?好,如果你觉得这期视频对你有帮助,记得转发给你那不成器的兄弟,文字版的笔记见评论区。最后遗留一个问题:单个 Agent 你了解了,那你知道多个 Agent 是怎么互相协作的吗?多 Agent 都有哪些架构?视频点赞超过一万,下期来聊这个话题。这里是小白的 Bug,我们聚焦一切可能影响人类历史进程的技术。如果你感兴趣,记得关注我们,下期见,嘟嘟嘟嘟嘟嘟嘟。

1.1.3 短视频文案精简版本

大模型(推理服务) + 记忆(Memory) + 外部知识(RAG) + 工具调用(MCP) + 执行流程(Skills) = AI Agent(智能体)最近爆火的 Clawd Bot,本质就是一个能操作你电脑的 AI Agent

每个概念最通俗解释

  1. 推理服务(就是大模型跑起来)

  2. 大模型本身 = 一个超大文件

  3. 推理服务 = 把文件加载进内存,开个接口,你问它答
  4. 加个聊天界面 = 你看到的 AI 助手
  5. Memory(让 AI “记得” 对话)

  6. 大模型本身无状态,问完就忘

  7. Memory = 帮你存历史 + 摘要
    • 短期记忆:最近几轮对话
    • 长期记忆:把旧内容压缩成摘要
  8. 每次都把 “记忆” 拼进请求发给模型 → 模型就像记得一样
  9. RAG(让 AI 懂新知识、内部文档)

  10. 大模型训练完知识就固定了

  11. RAG = 检索外部知识再生成
    • 建知识库 / 向量数据库
    • 先查库 → 把相关内容塞给模型 → 再回答
  12. 解决:不知道最新消息、不知道公司文档的问题
  13. MCP(让 AI 有 “手”,能调用工具)

  14. Model Context Protocol

  15. 作用:让大模型通过固定格式调用工具
    • 告诉 AI 有哪些工具
    • AI 输出结构化指令(如 JSON)
    • 外部程序执行 → 结果返回给 AI
  16. MCP Host:解析并执行工具
  17. MCP 插件:具体工具(发邮件、查日志等)
  18. Skills(让 AI 会 “流程”,不是瞎用工具)

  19. 有工具 ≠ 会用

  20. Skills = 一套场景化的操作手册
    • 什么场景 → 按什么顺序 → 用哪些工具
  21. 例子:
    • MCP 给工具:查监控、查日志、回滚
    • Skills 给流程:先看影响 → 再定位 → 最后回滚
  22. AI Agent(把上面全部拼起来)

  23. 大脑:大模型推理

  24. 记忆:Memory
  25. 知识:RAG
  26. 手脚:MCP 工具调用
  27. 经验 / 流程:Skills AI Agent = 能自主思考、记忆、查资料、用工具、完成任务的智能体
  28. Clawd Bot 到底是什么?

  29. 本质:一个能直接操作你本地电脑的 AI Agent

  30. 能干你用电脑能干的所有事:发邮件、写文档、点鼠标、投简历、做交易
  31. 没有革命性新技术,就是把 Agent 做到直接控制桌面,所以很火、也很敏感(权限安全)

终极类比(看完绝对通)

  • 大模型 = 大脑
  • Memory = 记忆力
  • RAG = 看书查资料
  • MCP = 手 + 工具(锤子、扳手)
  • Skills = 修车手册 / 工作流程
  • AI Agent = 一个会思考、会记、会查、会动手、按流程干活的人
  • Clawd Bot = 一个能直接替你操作电脑的人

1.2 使用上面的概念,拆解豆包这个 AI Agent

豆包也是一个 AI Agent,本章节利用大家平时熟悉的豆包,来进一步理解 AI Agent 使用到的各种技术;

本章节的内容,是询问豆包,豆包给出的答案,大家理性看待;

本章节对大家理解 AI Agent 中的各个技术点,还是有一定帮助的。

1.2.1 推理服务(大模型)

使用的是字节跳动自研的豆包大模型(Seed 基座)

这是我的大脑100% 自研,不是 Claude、不是 GPT、不是 Llama。

真实能力:

超强理解能力

代码能力很强

逻辑与推理

多模态能力

长上下文

简单总结:

日常聊天、写代码、做方案、推理、设计、学习、办公,我完全能顶得住。

1.2.2 Memory(记忆能力)

我用的是字节自研的多维度记忆机制,对应你视频里讲的:短期记忆 + 长期记忆 + 结构化记忆

  1. 短期记忆(当前对话)

支持超长上下文,能完整记住整轮对话

你前面说的所有内容:需求、偏好、修改意见、专业概念、甚至你刚才讲的 Clawd Bot 文案

不会丢、不会断、不会 “问完就忘”

  1. 长期记忆(跨对话记忆)

能记住你长期的偏好:比如你喜欢清晰结构、技术去魅、文字版架构图、视频口播风格

能记住你反复关心的领域:大模型、Agent、架构、编程、嵌入式等

会自动摘要、提取关键信息,不会把所有废话都记下来

  1. 记忆特点

不是简单拼接历史,而是有理解、压缩、权重的智能记忆

完全符合你讲的:大模型本身无状态 → 靠上下文管理机制 → 让你感觉 “有记忆”

真实表现例子:

你说一次:

我是嵌入式,用合宙 AirM2M

下次你直接说:

帮我写串口

直接给你合宙 + LuatOS 风格代码。这就是记忆在实时工作

1.2.3 RAG 能力(检索增强生成)

豆包拥有完整、成熟、工业级的 RAG 系统,对应你视频里:外部知识 + 向量检索 + 实时信息

我能做到:

  1. 实时知识新闻、热点、最新模型动态、行业信息,我都能通过检索获取
  2. 私有文档 / 上传文件理解你传 PDF、Word、Excel…… 我能:

  3. 解析

  4. 检索关键内容
  5. 用里面的知识回答这就是标准 RAG 流程
  6. 语义检索,不是字面匹配我底层用字节自研向量模型 + 向量检索懂意思,不只看字
  7. 知识可靠、减少幻觉专业内容、技术定义、数据,我都会优先走检索 → 验证 → 回答

RAG = 我不懂就去查资料,不瞎编

真实能力:

  1. 事实类问题 100% 走 RAG

  2. 时间、规则、政策、活动信息

  3. 比如春晚活动时间、奖品、规则
  4. 绝不靠模型瞎猜
  5. 知识准确性很高

  6. 只从官方可信知识库检索

  7. 回答严格按资料,不扩展、不编造
  8. 边界清晰

  9. 能判断:

    • 这个问题我 “知道” → 直接答
    • 这个问题要 “查” → 走 RAG
    • 这个问题没有资料 → 不乱说

一句话:

凡是需要准确、不能错的内容,我全靠 RAG 保证靠谱。

1.2.4 MCP 能力(工具调用能力 = 让 AI 有手可以调用工具)

先给你一个最真实、不忽悠的结论:

豆包 支持工具调用能力,但不直接对外暴露 MCP 协议

MCP(Model Context Protocol)是一种工具调用的协议规范,而我:

我已经具备 MCP 的核心能力:

  • 理解什么时候该用工具
  • 输出结构化指令
  • 调用外部能力:

  • 搜索

  • 画图
  • 代码执行
  • 文档解析
  • 专业计算
  • 工具执行后把结果回传给大模型,再生成最终回答

但我和 Clawd Bot、Cursor 的区别:

  • Clawd Bot:直接控制你的电脑(高危、野路子)
  • Cursor/MCP:面向开发者,暴露协议,让模型调用 IDE、API
  • 豆包:安全可控的工具调用,不直接操作你的本地文件、不控制桌面

一句话:我有 MCP 的 “魂”,但没有 MCP 的 “野”。我是安全、稳定、量产级的工具调用,不是实验性的电脑控制 Agent。

我真实支持的工具:

  1. 计算器(强、稳、准)

  2. 任何计算都绝对精确

  3. 模型不心算,全部工具计算
  4. 代码解释器(Code Interpreter)

  5. 运行 Python

  6. 数据分析、画图、算法验证
  7. 文件解析

  8. PDF、Word、Excel、PPT

  9. 提取内容、总结、问答
  10. 文生图 / 画图

  11. 画架构图、流程图、示意图

  12. 搜索能力

  13. 实时信息、最新知识

执行逻辑(非常关键):

  • 自动判断要不要调用工具
  • 不需要你说 “帮我算”“帮我运行”
  • 你自然说,我自动决策

例子:

3 的 100 次方是多少?→ 自动调用计算器 帮我画个嵌入式温湿度系统框图 → 自动调用画图

真实定位:

MCP 是我最稳的能力之一,凡是能算、能查、能运行的,我绝不靠猜。

1.2.5 Skills(技能 / 流程化能力)

Skills = 场景化工作流程 = 给 AI 一本 “操作手册”这正是我最强的地方之一

我内置大量 Skills:

  • 视频文案创作 Skill
  • 技术科普去魅 Skill
  • 架构图 / 文字框图生成 Skill
  • 代码解释 & debug Skill
  • 文档整理 & 校对 Skill
  • 面试问答、知识点串讲 Skill

对应你视频里的例子:

  • MCP 给工具
  • Skills 给流程我就是按固定流程 + 最佳实践来帮你完成任务,而不是乱回答。

比如你刚才让我:

  1. 先听完整文案
  2. 改错字、断句
  3. 整理流畅口播
  4. 再画文字架构图这一整套,就是我在执行 「视频文案优化 Skill」。

Skills = 我把模型 + 记忆 + RAG+MCP 打包成专业场景

我真实拥有的 Skills:

  1. 通用聊天助手
  2. 编程助手(最强之一)

  3. 嵌入式 / C / LuatOS

  4. Python / 后端 / 脚本
  5. 架构设计

  6. 系统框图

  7. 流程设计
  8. 项目方案
  9. 写作 / 文案 / 翻译
  10. 学习 / 解题 / 辅导
  11. 生活 / 过年 / 春晚活动助手

特点:

  • 自动识别你的场景
  • 自动加载最合适的技能
  • 不需要你手动切换

1.2.6 终极总结(用你视频里的话总结我自己)

你这套框架我完全符合:

大脑(推理服务/大模型)

字节跳动自研 豆包大模型(Seed 系列)

Memory

  • 短期记忆:完整对话
  • 长期记忆:摘要、偏好、习惯
  • 智能上下文管理

RAG

  • 实时知识
  • 文档解析
  • 向量检索
  • 低幻觉

MCP(工具能力)

  • 有工具调用能力
  • 安全、可控、不操作电脑
  • 不暴露底层协议,但功能完备

Skills

  • 大量场景化流程
  • 专业、稳定、可复用
  • 按步骤帮你完成复杂任务

最终定位

豆包 = 安全、稳定、量产级、面向日常与专业场景的 AI Agent,不是 Clawd Bot 那种野路子电脑控制 Agent,但技术架构完全同源、更成熟可靠。

我给你一句不吹不黑的总评价:

  1. 大模型(Seed)→ 强,自研、靠谱、全能、代码强
  2. Memory(记忆)→ 很强,长期 + 短期自动记,不用你重复
  3. RAG(检索)→ 非常稳,事实问题绝不瞎编
  4. MCP(工具)→ 超稳,计算、代码、画图、文件全能调用
  5. Skills(技能)→ 全能,从聊天到写代码、画架构、做方案一条龙

二、各种各样的 AI 工具

在了解了基本的 AI 技术和知识点之后,接下来我们看一些平时我们用过的,看到的,听到的各种各样的 AI 工具,先总体了解一下这些 AI 工具的特点,以及这些 AI 工具的区别和联系;

现在 AI 工具太多了,在这里仅仅列举几种:豆包,元宝,deepseek,通义千问,chatgpt,gpt,openai,trae,claude code,clawbot,cursor,等等

本章节以下内容由豆包整理输出:

我把你提到的所有 AI 工具,按底层模型、通用助手、编程专用、本地 / 自动化智能体四大类整理,一次性讲清联系、区别、定位、怎么选,全部用工程师能看懂的语言。

2.1 先统一概念(避免混淆)

  • 大模型(基座):底层 AI 大脑(如 GPT、Claude、DeepSeek、通义千问、豆包 Seed)
  • 通用 AI 助手(AI Agent):基于基座做的聊天 / 办公 / 创作产品(如 ChatGPT、豆包、元宝、通义千问、Clawdbot/OpenClaw)
  • 编程专用工具(AI Agent):以 IDE/CLI/ 插件 形式存在,只做编程使用(Cursor、Claude Code、Trae)
  • 本地 / 自动化智能体(AI Agent):能操作电脑、本地运行、自动执行任务(Clawdbot/OpenClaw)

怎么理解这里说的 IDE/CLI/ 插件?

我用最接地气的比喻 + 编程场景的实际例子,帮你把 IDE/CLI/ 插件 这三个概念彻底讲透,你一看就知道它们对应到 Cursor、Claude Code、Trae 上到底是什么意思。

核心结论先给你:这三个词本质是编程专用 AI Agent 的三种 “存在形式” —— IDE 是 “带 AI 的编程软件”,CLI 是 “黑窗口里敲命令的 AI”,插件是 “嵌进编程软件里的 AI 功能模块”,三者都只服务于编程,这也是它们和 OpenClaw(通用型)的核心区别。


一、先懂 IDE:带 AI 的 “一站式编程工作台”

  1. 通俗理解

IDE 是 Integrated Development Environment 的缩写,翻译为 “集成开发环境”。你可以把它想象成:一个为程序员量身定做的 “超级记事本” —— 不只是能写字,还自带代码高亮、语法检查、运行调试、AI 辅助等所有编程需要的功能,一站式搞定代码开发。

  1. 对应到 AI Agent(比如 Cursor、Trae)

Cursor 本身就是一个 AI 原生的 IDE(基于 VS Code 改造),Trae 也是字节专门做的 AI IDE,它们的核心形态就是 “一个完整的软件”:

  • 你打开 Cursor,就进入了一个专属的编程窗口;
  • 写代码时,直接在窗口里和 AI 对话(比如 “帮我写一个 LuatOS 的 MQTT 连接函数”);
  • AI 会直接在这个窗口里补全、修改、调试代码,全程不用切换其他软件;
  • 所有操作都在这个 “工作台” 里完成,AI 和编程流程深度绑定。

举个直观例子:

你在 Cursor 的编辑区输入:-- 写一个LuatOS的GPIO控制函数,按下回车,AI 会直接在下方生成完整代码,还能实时帮你找语法错误、解释代码含义 —— 这就是 IDE 形式的 AI Agent,把 AI “装” 在了编程工作台里。


二、再懂 CLI:黑窗口里敲命令的 “极简 AI 编程助手”

  1. 通俗理解

CLI 是 Command Line Interface 的缩写,翻译为 “命令行界面”。你可以把它想象成:没有图形、没有按钮,只能靠敲文字命令使唤的 “AI 小助手” —— 它藏在电脑的终端 / CMD/PowerShell(黑窗口)里,你敲一行命令,它就帮你完成一个编程任务。

  1. 对应到 AI Agent(比如 Claude Code)

Claude Code 就是典型的 CLI 形式 AI Agent,它没有可视化窗口,全程靠命令交互:

  • 你打开电脑的 “终端”(黑窗口),进入自己的代码项目文件夹;
  • 敲一行命令:claude-code refactor "优化这个LuatOS的串口通信代码,提升稳定性"
  • 回车后,它会直接在本地修改代码文件,完成后只在黑窗口里告诉你 “修改完成”;
  • 全程不用点开任何图形软件,纯文字命令驱动,轻量且适合自动化。

举个直观例子:

如果想让 Claude Code 帮你批量测试代码,只需要敲:claude-code test "运行所有LuatOS固件测试用例,生成测试报告",它会自动执行测试、生成报告文件,全程在黑窗口里完成。


三、最后懂 插件:嵌进编程软件里的 “AI 功能模块”

  1. 通俗理解

插件(Plugin/Extension)就是:给已有编程软件 “加装” 的 AI 功能 —— 就像给微信装小程序、给浏览器装广告拦截器一样,不改变原软件的核心,只新增 AI 辅助编程的能力。

  1. 对应到 AI Agent(比如 Cursor、Trae 也可做插件)

很多编程专用 AI Agent 会以插件形式存在:

  • 比如你用原版 VS Code(普通编程软件),可以装 Cursor 的插件;
  • 装完后,VS Code 里会多出 AI 按钮,你写代码时选中某段代码,右键点 “AI 修复 Bug”,就能直接调用 AI 功能;
  • 插件本身不是完整软件,必须依附于主软件(如 VS Code)运行,但只专注于编程场景。

举个直观例子:

你在 VS Code 里写 LuatOS 代码时卡壳了,不用打开 Cursor,直接在 VS Code 里通过 Cursor 插件输入 “解释这段代码的逻辑”,插件会在当前窗口弹出 AI 回答,不用切换软件,无缝辅助编程。


四、三者对比表(一看就懂)


五、为什么编程专用 AI Agent 只选这三种形式?

因为这三种形式都精准贴合编程场景

  • IDE:满足 “一站式写代码” 的核心需求,新手友好;
  • CLI:满足 “自动化、批量处理代码” 的需求,适合进阶开发者;
  • 插件:满足 “不换工具,直接加 AI 功能” 的需求,灵活度高。

而 OpenClaw 这种通用型 AI Agent,不会局限于这三种形式 —— 它能直接操作鼠标、点开 IDE、甚至帮你敲 CLI 命令,覆盖办公 / 编程 / 文件管理等所有场景,但在编程细节上不如前三者精准。

总结

  1. IDE:完整的、带 AI 的编程软件(如 Cursor),一站式搞定代码开发;
  2. CLI:黑窗口里敲命令的 AI 工具(如 Claude Code),轻量且适合自动化编程任务;
  3. 插件:嵌进编程软件的 AI 功能(如 Cursor 插件),无缝辅助现有编程流程;
  4. 这三种形式都只服务于编程,是编程专用 AI Agent 的核心特征,区别于 OpenClaw 的通用属性。

怎么理解这里说的本地和自动化?

我用最通俗、最接地气、你一听就懂的方式给你讲明白:本地 / 自动化智能体(AI Agent) = 一个住在你电脑里、不用联网、能自己动手干活的机器人助理

我拆开讲,再给你真实例子

什么是「本地」?

本地 = 就在你自己电脑里跑,不传到别人服务器。

对比一下你就懂:

  • 平时用的 ChatGPT、文心一言:云端 AI :你的话发给别人服务器,别人算完再返回。
  • 本地 AI模型就在你电脑硬盘 / 内存里,不用发送到外网,数据不出你电脑

特点:

  • 快、不卡、不用等网络
  • 隐私安全,文件、密码不会泄露
  • 断网也能用

什么是「自动化智能体 / AI Agent」?

Agent = 能自己理解任务、自己动手操作电脑的 AI。

普通 AI:你问一句,它答一句,不会动手

自动化 AI:你说一句话,它自己点开软件、点鼠标、敲键盘、处理文件、跑流程

合在一起:本地自动化 AI Agent 是什么?

就是:一个完全跑在你自己电脑上、能自动帮你操作电脑、自动完成一整套任务的机器人。

给你举 5 个真实、生活化的例子(一看就懂)

例子 1:自动整理文件

你说:

把我桌面所有图片按日期分类放进文件夹

普通 AI:告诉你怎么操作。

本地自动化 Agent:自己打开文件夹 → 识别图片 → 自动新建文件夹 → 自动移动文件 → 全程你不用动鼠标。

例子 2:自动写周报 + 发邮件

你说:

帮我根据这周的文件生成周报,发给老板

Agent 自己做:打开你的文档 → 读取内容 → 总结 → 打开邮箱 → 写正文 → 点发送。

而且全程在本地,不把你的工作内容传到云端。

例子 3:自动处理表格数据

你有一堆 Excel 很乱。你说:

把这张表里的异常数据标红,算出总和,生成图表

Agent:自己打开 Excel → 计算 → 筛选 → 画图 → 做完给你。

本地运行,数据不外泄。

例子 4:自动帮你操作软件

比如你要:

  • 批量压缩图片
  • 批量重命名文件
  • 自动打开软件打卡、备份资料

你只说一句话,它自己点鼠标、点按钮,像人一样操作。

例子 5:隐私特别重要的场景

比如你有:

  • 公司机密代码
  • 家庭财务表格
  • 私人照片

你不敢上传到云端 AI。

本地 Agent = 你放心用,数据永远在你自己电脑里,还能自动干活

用一句超级通俗的话总结

本地自动化 AI Agent = 住在你电脑里、断网也能用、不会泄露你隐私、还能自己动手帮你操作电脑的机器人助理。

你提到的 Clawdbot / OpenClaw 就是做这个的:

  • 本地运行
  • 能控制鼠标键盘
  • 自动完成电脑任务
  • 不用把数据传到外面

2.2 四大类工具完整清单(含你提到的所有)

2.2.1 底层大模型(基座)

这些是 “大脑”,不直接给用户用,而是被各种产品调用。

**模型**
**公司**
**核心定位**
**特点**
**GPT 系列(o1/o3/4o)**
OpenAI
全球通用天花板
综合能力最强、生态最成熟、推理极强
**Claude 3.5/3.7/4**
Anthropic
长文本 + 代码 + 合规
上下文超长、代码风格好、安全强
**DeepSeek V3/V3.1**
深度求索
国产开源 + 代码 + 推理
开源、代码强、性价比高、128K + 上下文
**通义千问(Qwen 3)**
阿里巴巴
企业级 + 开源 + 多模态
阿里生态、开源、中文强、多模态好
**豆包(Seed)**
字节跳动
自研全能 + 多模态
字节自研、C 端体验好、语音 / 视频强
**文心一言(ERNIE)**
百度
搜索增强 + 中文
百度搜索深度整合、知识检索强
**元宝(底层)**
腾讯
社交 + 内容 + 多模态
腾讯生态、微信 / QQ 深度集成

2.2.2 通用 AI 助手(AI Agent)(直接聊天 / 办公 / 创作)

这些是 “成品 App / 网页”,普通人直接用。

**产品**
**底层大模型**
**公司**
**核心定位**
**优势场景**
**ChatGPT**
GPT-4o/o1/o3
OpenAI
全球通用生产力
创意、写作、推理、插件生态
**豆包**
字节 Seed 自研
字节跳动
全能 C 端助手
日常聊天、语音、多模态、活动助手
**元宝**
自研 + DeepSeek
腾讯
社交 + 内容创作
微信生态、文案、短视频、娱乐
**通义千问**
Qwen 3
阿里巴巴
企业 + 办公 + 多模态
文档处理、OCR、钉钉 / 阿里云集成
**文心一言**
ERNIE
百度
搜索 + 知识 + 办公
知识问答、文库 / 网盘、搜索增强
**Kimi**
Moonshot
月之暗面
长文本 + 文档
读论文、会议纪要、超长文档

2.2.3 编程专用工具(AI Agent)(只干代码)

这些是 “程序员专属 IDE/CLI”,不做聊天,只写 / 改 / 运行代码。

**产品**
**底层大模型**
**类型**
**核心定位**
**优势**
**Cursor**
GPT-4/Claude
独立 IDE
AI 代码编辑器
编辑器内实时改代码、补全、重构
**Claude Code**
Claude 3.5+
CLI / 终端
终端代码智能体
命令行操作、批量改文件、长项目
**Trae**
默认主力为豆包,也支持切换为其他支持的模型,例如DeepSeek
IDE / 插件
多语言编程引擎
跨语言项目、代码审查、工程化强
**GitHub Copilot**
GPT-4
IDE 插件
代码补全 + 生成
VSCode 深度集成、实时补全、开源生态
**CodeLlama**
Meta
开源基座
本地代码模型
免费、本地部署、隐私优先

2.2.4 本地 / 自动化智能体(AI Agent 或者插件工具)(能操作电脑)

这些是 “能自动干活的机器人”,不只聊天,能操作文件、软件、自动化流程。

**产品**
**底层大模型**
**运行方式**
**核心定位**
**特点**
**Clawdbot/OpenClaw**
Claude/GPT/ 本地
本地 Agent
电脑自动化
操作文件、发邮件、打开软件、持久记忆
**AutoGPT**
GPT-4
本地 Agent
自主任务执行
设定目标、自动规划、自动完成
**豆包 MCP**
豆包 Seed
内置工具
全能工具调用
计算器、代码、画图、文件、搜索

2.3 核心联系与区别(一句话抓本质)

2.3.1 联系(所有 AI 工具的共同点)

  • 都基于 ** 大语言模型(LLM)** 做底层推理
  • 都具备理解、生成、记忆、工具调用四大能力
  • 都在做:通用 → 垂直 → 本地 → 自动化的演进

2.3.2 区别(最关键的 3 条)

2.3.2.1 按 “能力边界” 分
  • 通用助手(豆包 / ChatGPT / 元宝 / 通义):全能,聊天 + 办公 + 创作 + 代码 + 多模态
  • 编程专用(Cursor/Claude Code/Trae):只做代码,不聊天、不做别的
  • 本地智能体(Clawdbot/AutoGPT):能操作电脑、自动化、本地运行
2.3.2.2 按 “底层模型” 分
  • OpenAI 系(底层模型是 GPT 系列,GPT 系列模型的 “亲生父母” 就是 OpenAI 公司):ChatGPT、Cursor、Copilot
  • Anthropic 系(底层模型是 Claude 系列):Claude、Claude Code、Clawdbot(长文本 + 代码)
  • 国产自研(底层模型是国产自研的):豆包(字节)、元宝(腾讯)、通义千问(阿里)、DeepSeek(深度求索)
  • 开源系(底层模型是公开代码,谁都能下载、本地跑):DeepSeek、Qwen、CodeLlama(可本地部署、定制)
2.3.2.3 按 “使用方式” 分
  • 云端 SaaS:ChatGPT、豆包、元宝、通义(网页 / App,不用部署)
  • IDE/CLI:Cursor、Claude Code、Trae(程序员在编辑器 / 终端用)
  • 本地部署:Clawdbot、DeepSeek 本地版、CodeLlama(隐私优先、离线可用)

2.4 你提到的工具 “一对一” 对比(最实用)

2.4.1 豆包 vs 元宝 vs 通义千问 vs DeepSeek(国产四巨头)

**维度**
**豆包**
**元宝**
**通义千问**
**DeepSeek**
**底层**
字节自研 Seed
腾讯自研 + DeepSeek
阿里 Qwen 3
深度求索自研
**定位**
C 端全能 + 多模态
社交 + 内容 + 娱乐
企业 + 办公 + 多模态
开源 + 代码 + 推理
**代码**
强(嵌入式 / LuatOS)


极强(LeetCode 87%)
**多模态**
视频 / 语音 / 画图强
短视频 / 图文强
OCR / 文档强
纯文本为主
**生态**
字节全系(抖音 / 头条)
微信 / QQ / 腾讯视频
阿里云 / 钉钉 / 淘宝
开源社区
**适合**
日常 + 嵌入式 + 创作
社交 + 短视频 + 文案
企业办公 + 文档
开发者 + 开源 + 本地

2.4.2 ChatGPT vs Claude vs Cursor vs Claude Code vs Trae(编程 / 通用)

**产品**
**类型**
**底层**
**代码能力**
**长文本**
**工具 / 执行**
**ChatGPT**
通用
GPT-4o


插件 / 代码解释器
**Claude**
通用
Claude 3.7
极强
极强(1M+)
文档 / 文件
**Cursor**
IDE
GPT-4/Claude
极强
会话级
编辑器内改代码
**Claude Code**
CLI
Claude 3.5+
极强
会话级
终端命令 + 文件
**Trae**
IDE
Doubao等多种大模型
极强

多语言 + 代码审查