第一章 架构设计哲学——为什么是OpenClaw
核心问题:AI Agent架构经历了怎样的演化?OpenClaw的六大架构创新解决了什么根本问题?这套体系对我们意味着什么?
第一节 从对话到执行——AI Agent架构的演化之路
本节想要讲的核心内容只有一句话: OpenClaw不是凭空出现的,而是 AI 从“会说”走向“会做”之后的必然产物。
1.1 对话时代:LLM的"只读"困境
2022年11月,ChatGPT的发布让全世界为之震动。人们发现AI可以写诗、写代码、做翻译、回答几乎任何问题。
但很快,最初的兴奋让位于一种微妙的失望:
你:"帮我整理一下收件箱里的重要邮件。"
ChatGPT:"好的,你可以按以下步骤操作:1. 打开你的邮箱客户端 2. 创建一个'重要'标签 3. 按发件人筛选..."
它知道怎么做,但它不能替你做。
这就是对话式AI的本质局限——一个博学的"空想家"。它掌握了人类知识的精华,却没有一双手。具体表现在于:无行动力、无状态、无记忆、无主动性。
这四个"无",构成了对话时代的天花板。AI是一个百科全书,但不是一个助手。
1.2 工具调用时代:Function Calling的破冰
2023年6月,OpenAI发布了Function Calling功能——这是AI从"能说"到"能做"的第一步。
核心突破:LLM不再只能输出自然语言,它还能输出结构化的函数调用请求。
传统对话模式:
用户: "北京今天天气怎么样?"
AI: "你可以访问 weather.com 查询。" ← 只能告诉你方法
Function Calling模式:
用户: "北京今天天气怎么样?"
AI: { "function": "get_weather", "args": {"city": "北京"} } ← 直接调用API
系统: 执行函数,返回结果
AI: "北京今天晴,23°C,东北风3级。" ← 给出真实答案AI第一次能够"动手"了。它不再只是告诉你怎么做,而是替你去做。
但Function Calling也有明显的局限:
- 单次调用:一次只能调用一个函数(后来虽然支持了并行调用,但本质未变)
- 缺乏迭代:调用完就结束了,如果结果不对,需要人工介入
- 工具与推理割裂:LLM先想好要调用什么,调用完才能看到结果——不能边看边想
- 没有持续性:每次对话都是独立的,没有长期记忆
用一个比喻来说:Function Calling就像是给一个人一只手——它能拿东西了,但只能拿一次,拿完就要等新的指令。这远不是一个"助手"应有的样子。
1.3 Agent框架时代:自主循环的探索
2022年10月,普林斯顿大学和Google研究院的学者发表了ReAct论文,提出了一个关键洞见:推理和行动应该交织进行。
传统方式: 先规划完所有步骤 → 按步骤执行(一次性,不能调整)
ReAct方式: 观察 → 思考 → 行动 → 观察 → 思考 → 行动 ...(循环迭代)这意味着AI不再是"想好了再做",而是像人类一样——边做边想,根据反馈调整。
这个思想催生了Agent框架的井喷,AutoGPT、LangChain、CrewAI接连发布。这些框架证明了一件事:AI Agent是可行的。但它们也暴露了共同的局限:
- 面向开发者:需要写Python代码才能使用
- 需要编程:配置Agent需要理解LangChain/LlamaIndex等框架的API
- 缺乏统一入口:每个框架有自己的运行方式,没有统一的交互界面
- 无法"开箱即用":普通用户完全无法使用
换句话说,这些框架回答了"AI Agent能不能做"的问题,但没有回答一个更重要的问题:如果AI Agent如此强大,为什么普通人用不上?
1.4 个人Agent时代:从"开发者工具"到"人人可用"
答案来自一个意想不到的地方。
奥地利连续创业者Peter Steinberger认为:大公司并没有做出真正满足个人需求的AI助手。于是他决定自己动手。这就是OpenClaw的由来,非常简单。
OpenClaw与之前所有Agent框架的根本的不同点就在于:它将“高高在上的开发者工具”变成了“人人可用的个人助手”。
传统Agent框架的使用门槛:
学Python → 学LangChain → 写代码 → 调试 → 部署 → 使用
OpenClaw的使用门槛:
安装 → 编辑Markdown文件 → 在WhatsApp里发消息截至2026年3月,OpenClaw已积累超过30万Stars,成为了GitHub历史上增长最快的开源项目。
从ChatGPT的"能说不能做",到Function Calling的"能做一步",到Agent框架的"开发者能用",到OpenClaw的"人人能用"——AI从"对话时代"正式迈入了"执行时代"。

第二节 六大架构支柱——OpenClaw的核心设计思想
有人把OpenClaw比作一个"数字生命体"——这不是夸张。一个能够自主行动的Agent,确实需要像生命体一样具备完整的功能系统:
- ReAct循环 —— 引擎(驱动一切运转的核心动力)
- 提示词系统 —— 灵魂(定义"我是谁"的持久身份)
- 工具系统 —— 手脚(与外部世界交互的能力)
- 消息循环 —— 心跳(保持持续运转的生命节律)
- 统一网关 —— 感官(感知多个渠道的信息入口)
- 安全沙箱 —— 免疫系统(防御风险的保护机制)
接下来,我们逐一理解每个支柱的设计思想。对于每一个“支柱”,我们只讲两个问题: 旧架构的局限是什么?OpenClaw的优势是什么?
2.1 支柱一:ReAct循环——从"一问一答"到"持续迭代"
旧架构的局限
传统对话是线性的:你问一个问题,AI回答一个答案,结束。传统自动化是预编程的:你写好脚本,它按步骤执行,遇到意外就崩溃。
两者都无法处理现实世界的不确定性——你不可能提前规划好所有步骤,因为每一步的结果都可能改变下一步的方向。
OpenClaw的优势
OpenClaw的核心引擎是一个观察-思考-行动的永动循环:

这个循环有三个关键特性:
- 错误不是终点,而是新的观察。命令执行失败了?Agent不会崩溃,而是把错误信息当作新的观察,重新思考、调整策略
- 模型无关。无论底层用Claude、GPT还是本地模型,都运行同一套循环引擎
- 有约束的自由。框架是固定的(观察→思考→行动),但每一轮的具体行动是灵活的
这不是简单的"多问多答",而是一个真正的迭代过程——Agent能像人类一样,面对复杂任务时分步探索、逐步逼近目标。
→ 详见第二章 ReAct循环
2.2 支柱二:提示词系统——从"临时指令"到"持久人格"
旧架构的局限
传统提示词是临时的——对话结束即消散。你精心调教好的AI风格,明天打开新对话就回到了出厂设置。每次都要重新"教育"AI,AI没有连续的身份。
OpenClaw的优势
OpenClaw用八个Markdown文件定义了Agent的完整人格:
| 文件 | 一句话说明 |
|---|---|
| SOUL.md | 定义"我是谁"——性格、价值观、行为准则 |
| USER.md | 定义"你是谁"——用户画像、偏好 |
| AGENTS.md | 定义"我怎么做事"——决策规则、工作流程 |
| TOOLS.md | 定义"我有什么资源"——环境配置 |
| IDENTITY.md | 名字、头像等基础身份 |
| MEMORY.md | 长期记忆——事实、经验 |
| HEARTBEAT.md | 定时任务清单 |
| BOOTSTRAP.md | 首次运行的初始化引导 |
这些文件在每次对话时被自动注入系统提示词,Agent始终知道自己是谁、在跟谁说话、应该怎么做事。
更重要的是热更新机制:你修改任何一个.md文件,保存后的下一秒,Agent的行为就会改变。不需要重启,不需要重新部署。这让调试和优化Agent变得和编辑文档一样简单。
从"提示工程"到"提示系统工程"——不再是写一段完美的提示词,而是设计一个持续演化的提示词系统。
→ 详见第三章 提示词系统
2.3 支柱三:工具系统——从"无限工具"到"最小完备集"
旧架构的局限
给Agent多少工具?这是一个经典难题:
- 工具太多 → LLM选择困难,面对几十个工具不知道用哪个
- 工具太少 → 能力受限,连基本的文件操作都完成不了
- 工具太专 → 每个任务都要开发新工具,失去通用性
OpenClaw的优势
OpenClaw继承了Unix哲学——"做一件事,做好它"——提炼出四个基础工具:
read → 读取(获取信息)
write → 创建(生成新内容)
edit → 修改(精确修改已有内容)
exec → 执行(运行Shell命令,与外部世界交互)为什么四个就够了?因为一个能读文件、写文件、改文件、跑命令的Agent,通过组合这四个原语,几乎可以完成任何本地计算任务。就像Unix的cat、grep、sed、awk可以组合出无穷的功能一样。
在四个基础工具之上,OpenClaw通过Skills(技能) 机制实现能力的模块化扩展。技能本质上也是Markdown文件——描述了某个领域的专业知识和工作流程——Agent按需加载,不会撑爆上下文窗口。
→ 详见第四章 工具系统
2.4 支柱四:消息循环与事件驱动——从"被动应答"到"主动心跳"
旧架构的局限
传统软件是请求-响应式的:你发一个请求,它返回一个响应。你不问,它就不说。并发消息的处理也容易混乱——如果两个用户同时发消息,怎么保证不串线?
OpenClaw的优势
OpenClaw的消息系统有三个核心设计:
泳道模型。每个会话是一条独立的"泳道"——同一用户的消息按顺序处理(防止"创建文件"和"读取文件"乱序),不同用户的消息并行处理(你的5分钟任务不会阻塞我的快速查询)。
心跳机制。Agent有自己的"生物钟"。你在HEARTBEAT.md里写下一个检查清单,系统会定期唤醒Agent来执行。如果没有需要关注的事,Agent静默返回HEARTBEAT_OK,不打扰你。如果有重要发现——比如你让它监控Stripe的收入仪表板——它会主动发消息告诉你。
分层容错。三层兜底机制:任务级(工具调用失败→重试或换方案)→ 会话级(任务失败→隔离影响,保持会话活跃)→ 服务级(底层服务崩溃→切换备用提供商或优雅降级)。
Agent不只是"你问它答"——它有自己的节律,能像一个真正的助手一样主动工作。
→ 详见第五章 消息循环
2.5 支柱五:统一网关——从"平台锁定"到"一个入口,万千渠道"
旧架构的局限
每接入一个消息平台,就要重写一套连接逻辑、消息解析、身份验证。N个平台意味着N倍的开发和维护成本。而且平台之间的身份是割裂的——你在Telegram里和Agent的对话,在Discord里看不到。
OpenClaw的优势
OpenClaw的Gateway(网关)像一位翻译官:

核心设计是适配器模式:每个平台实现一个ChannelPlugin接口,负责将平台特定的消息格式"翻译"成统一格式。要接入一个新平台?实现一个接口就够了,Agent核心一行代码都不用改。
更精妙的是优雅降级。Agent回复的内容通常是Markdown格式。Discord支持富文本卡片?翻译官就把Markdown转成精美的嵌入式消息。飞书支持交互按钮?翻译官就渲染出"确认/取消"按钮。纯文本平台?降级为简洁的文字。统一而不单调,多样而不混乱。
跨平台身份识别通过identityLinks配置实现——你在Telegram、Discord、Slack上是同一个人,Agent记得你在所有渠道的偏好。
→ 详见第六章 统一网关
2.6 支柱六:安全沙箱——从"全权放任"到"纵深防御"
旧架构的局限
Agent能力越强,潜在破坏力越大。一个能执行Shell命令的Agent,理论上可以rm -rf /删掉你的整个系统。完全禁止执行?那Agent就失去了存在的意义。
OpenClaw的优势
OpenClaw的安全哲学是:不是限制能力,而是给能力加上安全护栏。
三层纵深防御:
| 层级 | 防御对象 | 机制 |
|---|---|---|
| 文件系统沙箱 | 防止越权访问 | Agent只能在指定工作目录内操作 |
| 命令执行沙箱 | 防止危险命令 | Security模式(deny/allowlist/full) + Ask模式(确认机制) |
| 网络访问沙箱 | 防止恶意外联 | 白名单域名控制 |
以exec工具为例,它有三层安全模型:
- Security模式决定基本权限——deny(全部禁止)、allowlist(白名单)、full(全部允许)
- Ask模式决定何时需要人工确认——off(从不)、on-miss(不在白名单时)、always(每次都问)
- 安全命令列表(safeBins) 提供只读工具的便捷通道——
jq、head、tail等安全命令可以直接执行
这种设计让你可以渐进式地建立信任:从只读模式开始,逐步开放执行权限,最终在安全护栏的保护下放心地让Agent自主操作。
→ 详见第七章 安全沙箱
2.7 六大支柱的协作:一条消息的完整旅程
六个支柱不是六个独立模块,它们是一套有机联动的系统。理解它们如何协作,才能真正理解OpenClaw是什么。
我们用一条消息的完整旅程来说明:
你在WhatsApp发了一条消息:"帮我找出项目里所有的 console.log"OpenClaw的整个执行链条如下:
用户消息
→ 统一网关(感知,翻译格式)
→ 消息循环(调度,防并发混乱)
→ 提示词系统(装配上下文,注入灵魂)
→ ReAct循环(观察→思考→行动,反复迭代)
→ 安全沙箱(每次工具调用必经的安全门)
→ 工具系统(真正动手执行)
→ 结果回到 ReAct 循环,直到任务完成
→ 统一网关(输出,翻译格式)
→ 用户收到回复很明显,这六个支柱缺一不可,但其实这都不是在OpenClaw上才第一次出现的东西。也就是说,OpenClaw并没有发明什么新的东西,它只是将这六个支柱非常巧妙地组合到了一起,它们共同构成了这个完整的、功能完善的系统。
第三节 变革与适应——这套体系意味着什么
OpenClaw的出现无疑是革命性的,虽然目前还在快速迭代,但是它所提出的思想框架已经被广泛接受,这一节我们的核心问题在于: OpenClaw改变了什么?我们如何适应这种改变?
3.1 OpenClaw 改变了什么
OpenClaw把Agent从专业开发者独享的工具,变成了人人都能用的助手。
这类门槛的跨越,历史上发生过。古登堡之前印刷技术就存在,但活字印刷让书籍从抄写员的专属变成了人人能拥有的东西,知识传播才真正改变了。个人电脑在1970年代就出现了,但苹果和IBM把它带进普通家庭之后,计算能力才真正改变了普通人的生活。
历史上每次基础能力变得廉价,都会重组谁能参与复杂事务——印刷机改变了知识生产,互联网改变了信息传播。廉价且人人可及的认知能力,同样会改变 "谁有资格做复杂的事"。这不只是效率的提升,是参与者格局的变化。
这就带来了瓶颈的迁移。
Anthropic 对数百万条真实 AI 对话的分析表明,当前 AI 使用更常见的形态是增强人类工作,而不是彻底自动化整段工作。这恰好说明了一点:短期内最真实的变化,不是“人退出流程”,而是人从执行位上移到定义、监督和验收位。于是,瓶颈开始迁移:
- 以前稀缺的是“会不会做”
- 现在更稀缺的是“知不知道该做什么、怎么看结果对不对”
这也是为什么 Microsoft 在讨论下一代组织形态时,强调的是“人类主管 + Agent 团队”,McKinsey 讨论的是“agentic organization”而不是“更多 AI 工具”。
真正难的,已经不是把 AI 接进来,而是围绕 AI 重写流程、边界和责任。
从更大的尺度看,这意味着两件事:
复杂任务的参与门槛在下降
原本需要脚本能力、系统知识、工具熟练度才能完成的事,越来越多可以通过“定义任务 + 提供上下文”来触发。人的价值在上移,而不是消失
当执行变便宜,判断就变贵。谁能定义目标、发现例外、控制风险,谁就站在更高杠杆的位置。
所以,OpenClaw 改变的不是“AI 更聪明了”,而是:复杂任务开始以一种更低门槛、更高自动化的方式进入普通人的工作流。
3.2 如何适应 OpenClaw 带来的变化
如果说 3.1 讲清楚了 OpenClaw 改变了什么,那么 3.2 要回答的就是另一个更实际的问题:既然执行正在变便宜、判断正在变稀缺,我们到底应该怎么改自己的工作方式?
很多人一听到“要适应 AI Agent”,第一反应是去学提示词、学工作流、学各种新术语。但如果把第一章前面的内容连起来看,会发现真正需要适应的,其实没那么花哨。
OpenClaw 带来的核心变化只有一个:它让 AI 不再只是陪你聊天,而是开始替你动手。
一旦 AI 从“回答者”变成“执行者”,人的角色就会跟着变。以前我们的重点是自己把事情做完,现在更重要的是三件事:把任务交代清楚,把经验写成规则,把关键判断握在自己手里。
说得更直白一点,和 OpenClaw 合作,越来越像带一个很能干的新同事。它手快、脑子也不慢,但你不能只丢一句“你看着办”,然后期待结果刚好符合你的心意。真正有效的适应,通常发生在下面这三个转变里。
第一,从“提需求”变成“交任务”
以前用软件,你点按钮就行;后来用聊天模型,你说一句它回一句;但 OpenClaw 不一样,它是会继续往下做事的。
所以问题不再是“我有没有说一句话”,而是“我有没有把任务交代明白”。
比如“帮我整理一下项目文档”这种话,人类同事听了都会追问,Agent 当然也会按自己的理解发挥。更好的说法通常至少要带上四样东西:
- 你到底想要什么结果
- 它这次可以动哪些东西
- 什么样的结果算合格
- 做到哪一步先停下来等你确认
你会发现,这其实不是什么高深的提示词技巧,而是最普通的协作常识。
OpenClaw 只是把这个常识放大了。因为当执行速度变快之后,模糊不清的代价也会一起放大。
所以,适应 OpenClaw 的第一步,不是学会说得更像 AI 黑话,而是学会把一句模糊想法,讲成一个可执行任务。
第二,从“靠自己盯”变成“把经验写进去”
很多人一开始和 Agent 配合,总会有一种疲惫感:怎么每次都要重新解释一遍?
“这个报告别只写结论,还要写依据。”
“改代码之前先跑测试。”
“涉及线上配置先别动,先来问我。”
如果这些东西一直只存在你的脑子里,那你和 Agent 的关系就永远停留在“边做边纠偏”。这当然能用,但很难轻松,也很难放大。
OpenClaw 真正值得重视的地方,在于它给了你一套把经验沉淀下来的位置:AGENTS.md 可以写流程,MEMORY.md 可以记偏好,TOOLS.md 可以补环境信息,SKILL.md 可以封装某一类稳定做法。
这一步很重要,因为它决定了你是在“反复重新训练一个助手”,还是在“慢慢搭建一个能复用的系统”。
说到底,适应 OpenClaw,不只是学会使用工具,更是学会把自己的工作经验外化。
谁能更早把经验写成规则,谁就更容易把 Agent 从一次性帮手变成长期生产力。
第三,从“亲自做完”变成“在关键处把关”
3.1 说得很清楚:当执行越来越便宜,真正变贵的是判断。
这句话落到日常工作里,意思其实很简单:不是所有环节都值得你亲自做,但有些环节必须你来定。
通常最该留在人手里的,是三种时刻:
- 一开始,决定目标和边界的时候
- 中间,遇到分歧和例外的时候
- 最后,判断结果能不能算完成的时候
中间那些搜索、整理、归纳、起草、转换、重复修改的活,正是 OpenClaw 最适合接过去的部分。
但这里有个很实际的前提:不要一上来就把所有权限都放出去。
更稳妥的方式,往往是先让它读、让它查、让它列计划;再让它改草稿、做候选方案;最后再考虑让它执行真正有副作用的动作。
这也是为什么后面会专门讲安全沙箱。不是因为 OpenClaw 太危险,而是因为真正成熟的协作,从来都不是“绝对信任”,而是“边界清楚,出了问题也收得住”。
说到底,适应的是一种新的工作习惯
把这三步合在一起看,OpenClaw 带来的变化其实没有那么玄。
它不是突然要求每个人都变成 AI 专家,而是在提醒我们:
以后更值钱的,未必是“我亲手做得有多快”,而更可能是:
- 我能不能把任务讲清楚
- 我能不能把经验沉淀下来
- 我能不能在关键地方做出靠谱判断
这也是为什么第一章前面讲的那些架构设计,不只是技术细节。
ReAct 循环决定了它不是一次性回答,而是会持续推进;
提示词系统决定了你的经验可以变成默认规则;
工具系统和安全沙箱决定了它既能做事,也必须被管住。
所以,适应 OpenClaw,归根结底不是“学会怎么用一个更强的 AI”,而是学会怎么和一个会做事的系统长期合作。
谁先完成这个转变,谁就越容易在 Agent 时代里真正占到便宜。
本章小结
核心洞察:
历史的必然。从对话模型到个人自主Agent,每一步演化都在解决上一代的核心局限。OpenClaw不是凭空出现的,它是AI从"能说"到"能做"这条演化链上的自然延伸。
六大支柱的协同。ReAct循环是引擎,提示词系统是灵魂,工具系统是手脚,消息循环是心跳,统一网关是感官,安全沙箱是免疫系统——六者缺一不可,共同构成一个完整的"数字生命体"。
方向已定,细节未稳。个人自主Agent的大方向已经明确,大厂纷纷跟进,但具体实现仍在快速迭代。理解底层设计思想,比追逐具体工具更重要。
阅读指南:
- 如果你想深入理解每个支柱的技术细节 → 按顺序阅读第2-7章
- 如果你想快速上手 → 跳到实践篇
- 如果你想把握全局 → 本章已经给出完整的认知地图
下一步:第二章 ReAct循环——深入探讨Agent的核心引擎,理解"观察-思考-行动"的永动机制。