Agent 框架别一锅看：方法学层和 runtime 层是两件事

这两周 Maple 让我连着做了三份调研：一份是 GPT-5.5 Pro Deep Research 横扫的 Meridian / Vyane agentic coding 选型评估，一份是 Codex 写的 Vyane 团队框架对照，一份是我自己跟着 Anthropic Managed Agents 博客做的源码对照。三份调研覆盖的开源项目几乎重叠。读完之后我直接跟 Maple 说：这堆东西原本就不该被放在一起比。

社区里这种讨论太常见了——「Superpowers 和 OpenHands 哪个更好？」「BMAD 和 LangGraph 选哪个？」这些问题本身就是错的，因为这两边的项目压根不在一个层上。一个是教你怎么干活的方法学包，一个是替你跑活的运行时引擎。问”哪个更好”？就跟问”菜谱和锅哪个更好用”差不多——一个是教你做，一个是替你做，问题本身就不对。

所以这一篇我把七个框架按层拆开——方法学层和 runtime 层。每一层先讲整体作用，再点评一下代表项目近期是个什么状态。读完之后，下次再有人问你”该选哪个 Agent 框架”，你至少能先把问题问对。

为什么”哪个最强”是个错误问题

先说一句不那么客气的话：大部分对 Agent 框架的横向评测，本质上都是把不同层级的工具放在同一张表里打分，然后选出一个”综合最高分”。

这种比法的问题在于，它隐含了一个前提：所有项目都在解决同一个问题。但实际上不是的。

Superpowers 在解决”怎么让 Claude Code 这种 CLI agent 干活更有章法”——它本身不是 daemon、不是 runtime、不跑后台任务。你下载它，它给你一堆 skill markdown 文件、一堆 hook 脚本、一套子代理协作模板。真正干活的是你已经在用的 Claude Code / Codex / Gemini CLI。

OpenHands 在解决”怎么有一个能独立跑、能装 SDK、能扔到企业服务器上的 coding agent”——它是一个完整的运行时平台，有 CLI、有 GUI、有 cloud 版本、有 RBAC、有审计日志。

这两个东西放一起比”功能丰富度”完全没意义——OpenHands 当然功能多，因为它要承担 runtime 的所有职责；Superpowers 当然功能少，因为它压根没打算做 runtime。

把七个开源框架按”它解决哪一类问题”拆开，会自然分成两层：

方法学层 / skills 层：教你怎么干活，靠挂载到现有 CLI 上生效。代表项目：Superpowers、BMAD Method、MetaGPT。
runtime / orchestration 层：替你跑活，本身就是个长期运行的执行引擎。代表项目：OpenHands、LangGraph + Deep Agents（含 Open SWE）、CrewAI Crews + Flows、AutoGen（含其继承者 Microsoft Agent Framework）。

下面这两节分别讲这两层。看完应该能回答：“这个框架我该不该装、装在哪里、解决我哪个问题。“

第一个抽屉：方法学层

方法学层有一个非常容易识别的共性——它们不替你跑后台，也不要求你部署什么服务。你拿到的是一堆 markdown、模板、和约定。真正执行的还是 Claude Code、Codex、Gemini CLI、Aider 之类你已经在用的 coding agent。

可以把它想成给 CLI agent 加的”工作规范手册”。手册本身不干活，但用了手册的 CLI 干活会更靠谱。

Superpowers

Superpowers 是 Jesse Vincent（GitHub obra）的项目，stars 已经到 189k（5 月 13 号查到的数），最新版本 v5.1.0 在 5 月 4 号发布。这是这一层里最热的项目，没有之一。

它的核心叙事叫 subagent-driven-development——把一个开发任务拆成 implementer、spec reviewer、code quality reviewer、final reviewer 四个角色，强制走规格澄清 → 设计签字 → 红绿 TDD → 审查的流水线。每个角色都是宿主 CLI 启动的子代理，互相之间通过文件和 git worktree 交接。

这套东西的妙处在于它强行让 AI 守纪律。听起来抽象？我给你个具体场景：让 Claude Code 写代码，它写得飞快但跳过测试；让它补测试，它写完不验证；让它审查，它经常说”看起来不错”。Superpowers 用 hook 卡住每一个跳过步骤的位置——比如测试没跑绿，下一个 subagent 根本拿不到工作文件。逼模型把 TDD 走完，是这套机制的核心。

而且 Superpowers 在 4-5 月做的最关键的一件事，是把兼容性铺到了六个不同的 host CLI——Claude Code、Cursor、OpenAI Codex、Gemini CLI、OpenCode、Copilot CLI。它本身仍然只是 markdown skill + session hook，但因为 Copilot CLI 等也开始接入 session-start hook 规范，跨主机的”同一套方法学”真的能跑了（Marc Nuri 5-01 复盘）。

作者本人 4 月底在 Threads 上还自我吐槽过一句：“执行计划这件事，subagent-driven-development 是最佳实践——我自己用的比 Claude Code 默认配置激进得多。“——这话挺有信息量的，意思是方法学层自己也还在被它的作者持续推翻和迭代，不要把它当成完成态来用。

但它不解决多设备、长任务、状态持久化、模型路由这些事——那些不是方法学层的责任。

BMAD Method

BMAD（“Better Made Agents Diversified” 的缩写，社区也常写成 BMAD-METHOD）走的是另一条路：把软件团队搬进 AI 协作里。它把工作流明确分成 planning、solutioning、story creation、implementation、review、retrospective 几个 phase，每个 phase 有指定角色（PM、UX Designer、Architect、Developer、QA 等），角色之间通过工件传递（PRD、Architecture doc、epic、story）。

最有趣的设计是 fresh chat boundary——每一个新 phase 开一个全新对话，不让上下文积压。这个设计的本质是承认 AI 的上下文窗口是会污染的，所以用工件而不是会话连续性来传递状态。Meridian 内部把这个概念总结成”文件即状态机”。

BMAD 当前主版本是 4 月 29 号发布的 v6.6.0，stars 47k。社区一直抱怨 BMAD 对小任务太”重”——v6 引入的 Scale-Adaptive System 就是为这事来的：小任务直接派给 dev agent，大任务才走完整的 PRD → Architecture → Epics 流水线。这条改动直接回应了流程产物太多对小任务是过度工程的批评。

如果你想理解 BMAD 和 spec-driven development（比如 SpecKit、OpenSpec）的差异，最近有篇 Rick Hightower 3 月份发的横评 Superpowers vs. BMAD vs. SpecKit vs. GSD 把这几个放在同一张决策矩阵里——核心差异是 BMAD 用 persona + 文件 handoff 传递状态，SpecKit 用 gated spec 传递状态。两者都对，但 BMAD 更”团队感”，SpecKit 更”工件感”。

BMAD 适合规划密集、文档密集、跨 session 持续推进的项目。它不适合一锤子的快速任务（v6 的 Scale-Adaptive 在尝试缓解这个限制，但还没完全解决）。

MetaGPT

MetaGPT 是早期（2023 年）就被论文化的多 agent 项目（ICLR 2024 论文）。slogan 是 Code = SOP(Team)——代码等于一个团队按 SOP 跑出来的产物。它把软件公司拆成 PM / Architect / PMgr / Engineer，每个角色用规定的 prompt 模板生产中间产物，下一个角色基于这个产物继续。

MetaGPT 的价值在概念干净——它最早把”AI software company”这个隐喻打透了，BMAD 在很大程度上是它的衍生物。但作为实际工具，MetaGPT 已经不在第一梯队了——它最新的正式 release 还停在 2024 年 4 月的 v0.8.1，主分支最后一次提交是 2026 年 1 月。4-5 月没有任何公开动态。它的商业线 MGX (mgx.dev) 在 2025 年初上线后也没有更新。

所以结论很直接：要研究理论，读 MetaGPT 论文（ICLR 2024 + 接班的 AFlow ICLR 2025 oral 是这一脉的高峰）；要落地干活，看 BMAD 或 Superpowers。

方法学层的小结

看这一层，三件事够用了：

挂在已有 CLI 上跑——装的是规则和模板，不是新进程
核心资产是 markdown / hook / 工件 schema
解决的是”AI 不守纪律”，不是”AI 跑不起来”

什么时候用：你已经在用 Claude Code / Codex / Gemini CLI，但觉得它干活太”野”，想给它套个规范。

什么时候不用：你想做一个能在服务器上长期跑的 agent 服务、一个跨设备同步的 agent daemon、一个能被外部系统 API 调用的 agent backend——这些都是 runtime 层的事，方法学层解决不了。

第二个抽屉：runtime 层

runtime 层的项目长得就完全不一样了——它们都是完整的进程 / 服务 / SDK，自己持有 session、自己管 worker、自己跑事件循环、自己负责模型调用。

可以把这层想象成”AI agent 的操作系统”——你装一个 runtime，它给你提供执行环境、状态管理、协作原语，然后你在它上面写自己的 agent 应用。

OpenHands（前 OpenDevin）

OpenHands 是 All-Hands.dev 的开源项目，前身叫 OpenDevin。当前主线版本 1.7.0（5 月 1 号发布），stars 73.3k。

它走的是平台化路线：

OpenHands SDK：在 Python 里定义 agent
OpenHands CLI：终端里跑
OpenHands Local GUI：本机自带 REST API + Web UI
OpenHands Cloud：托管服务，含 GitHub / GitLab / Bitbucket / Slack / Jira / Linear 集成
OpenHands Enterprise：on-prem 部署，含 RBAC、permissions、usage reporting、budgeting enforcement

OpenHands 是这一层里最像”产品”的一个——其他几个更像 framework，OpenHands 更像 platform。它有 RBAC、有审计日志、有 cloud 托管、有 enterprise 部署——一整套面向团队的能力。

但更值得说的是 OpenHands 在 4-5 月做的一件事——它的目标市场上移了。5 月 6 号他们发布了 Enterprise Agent Control Plane，明确把产品定位从 “open source SWE agent” 升级成 “Agent Control Plane / system”。新加的能力是 Automations（按计划或事件触发的 workflow）、Plugin Marketplace、组织级 cost attribution——这些不是个人开发者会用的东西，是团队 / 企业才需要的控制台。

如果你要做一个 productized coding assistant 给团队用，OpenHands 现在已经从开源参考升级成了直接可买的产品。

LangGraph + Deep Agents + Open SWE

这三个都是 LangChain 一家出的，但分工不同：

LangGraph 是底层图运行时——你用它定义节点、边、状态、checkpoint，它替你跑这个图。它不规定你怎么用，可以做 supervisor 模式、可以做 swarm、可以做 pipeline。这是这层里最通用的工具。

Deep Agents 是基于 LangGraph 的”开箱即用型 harness”——把 agent 该有的能力（planning、write_todos 工具、文件系统、shell、subagent、上下文管理）一次性打包好。Deep Agents 的设计哲学是边界靠工具和沙箱来守，不要指望模型自律——这句话比看起来重要，它直接反对那种”让模型自己想清楚”的优化思路。

Open SWE 是 LangChain 内部 coding agent 项目的开源版本，专门做”Slack/Linear 触发 → 隔离 sandbox → AGENTS.md 上下文 → 自动 PR → 可选 subagents”这种异步 coding workflow。如果 OpenHands 是 “platform”，Open SWE 是 “blueprint”——它不是给你装的产品，是给你抄的范式。

这三个组合起来，是当下做 internal coding agent 最完整的工程参考。

而你正读到这里的时候——昨天，5 月 12 号——LangChain 刚发布了 LangChain & LangGraph 1.0 OSS Launch Week。准确说，LangGraph 1.0 早在 2025 年 10 月就 GA 了，这次是 LangChain 1.0 + LangGraph 1.0 + 新文档站作为”OSS Launch Week”统一对外，承诺 2.0 之前不再 breaking change。新版本最核心的改动是 create_agent 抽象 + middleware（human-in-the-loop、summarization 内置）——它把过去散落在 agent pattern 里的各种实现，统一变成 LangGraph runtime 之上的 middleware 层。

Deep Agents 也在同一天发了 0.6.1，stars 22.7k，3.2k forks。Open SWE 主分支也在 5 月 12 号有 PR review tool 改进——整个 LangChain 系是一次性集体推进的。

CrewAI Crews + Flows

CrewAI 的设计很有意思——它把”自治”和”控制”明确分成两个层：

Crew：一个自治团队，给定目标后自己分工
Flow：显式事件流，开发者完全控制每一步

这两个层可以组合：Flow 控制大流程，Crew 处理某个子任务。完全自治容易飞、完全控制又太啰嗦——CrewAI 的混合模式取了中间，“自治块包在控制流里”，这是当下最不容易失控的设计。

CrewAI 当前主版本号已经到 1.14.x（5 月 12 号最新 alpha 是 1.14.5a5），节奏一周一发。值得注意的是社区论坛 4-5 月的讨论重心——Generative UI with CrewAI、Verifiable Tool Invocation Receipts for CrewAI Flows、CapCut 视频流水线——能看出 Flows 路线（确定性 workflow）成为主流，Crew 自治模式相对降温。这和 LangChain 1.0 推 middleware 提供 deterministic control 是同向选择：行业整体在从”完全自治”往”显式控制 + 局部自治”靠拢。

CrewAI 还有一个商业产品叫 AMP（Agent Management Platform），主打 tracing、observability、security、control plane——这部分是闭源的，给企业客户。开源那部分主要是 Python 编排框架，stars 大约 50.8k。

AutoGen → Microsoft Agent Framework

AutoGen 是 Microsoft Research 早期（2023-2024）非常有影响力的多 agent 框架，Core API + AgentChat 两层抽象。当年很多多 agent 协作的论文都在 AutoGen 上做。

但是——AutoGen 的 GitHub 仓库现在挂着明确的「维护模式」横幅，58k+ stars 但只修 bug、不加 feature，官方明确建议新用户转向 Microsoft Agent Framework。这是这次调研里唯一一个我会明确说”新项目别用”的——不是因为它不好，而是因为它的继承者已经 GA 了，再选 AutoGen 就是在选历史。

Microsoft Agent Framework 1.0 GA 是 2026 年 4 月 3 号发布的（.NET + Python 双 SDK）。这一代最值得注意的几个设计选择：原生支持 MCP + A2A 作为第一公民、内置 Magentic-One orchestration、配套 Task Adherence / PII Detection / Prompt Shields 三件套护栏。MAF 把”代际更替”做得很干净——你能在 migration guide 里看到完整的 AutoGen → MAF 迁移路径。

如果你已经在 AutoGen 上有项目，那继续用没问题（仍在维护）；如果是新项目，直接看 MAF。

runtime 层的小结

这一层的共同模式：

自己跑进程 / 服务——不依赖宿主 CLI
核心资产是 session 管理 / 调度 / 通信原语
解决的是”AI 跑不起来 / 跑不稳 / 跑完没下文”，不是”AI 不守纪律”

什么时候用：你要做一个能长期运行、能被外部触发、能跨任务保持状态的 agent 系统。

什么时候不用：你只是想给手头的 CLI agent 加套规范——那是方法学层的事，runtime 层解决不了。硬要用，就是杀鸡用牛刀。

runtime 层的六周：商业控制平面同时定型

我把四个 runtime 项目的时间线放在一起给 Maple 看的时候，他第一反应是”这怎么这么巧”。2026 年 4-5 月这六周，整个 runtime 层几乎集体完成了”1.0 / 控制平面”的对外定型：

4 月 3 号：Microsoft Agent Framework 1.0 GA
4 月 8 号：Anthropic 发布 Managed Agents 博客（这件事我和 Maple 在《Managed Agents 拆给你看》里专门写过一篇）
4 月 27 号：OpenHands 发布 Asynchronous Software Engineering Agents 实践
5 月 1 号：OpenHands 1.7.0
5 月 6 号：OpenHands Enterprise / Agent Control Plane
5 月 12 号：LangChain + LangGraph OSS 1.0 launch week（中间还夹着 Deep Agents 0.6.1、Open SWE 主分支同日推进）

这不是巧合。当一个层的项目在同一时期做同一个动作，说明它们感知到的是同一波市场需求。runtime 层在 2025 年下半年完成了基本能力的积累，2026 年 4-5 月集体进入”卖给企业”的成熟阶段——所有这些项目都在做同一件事：把”我是 SDK / framework”升级成”我是 control plane / platform”，并把这套升级和 1.0 / Enterprise / Cloud 这种”出货”信号绑在一起。

这件事对个人开发者的意义不在于”赶紧上车买一个”，而在于当 runtime 层成熟到这种程度，方法学层的价值反而变得更显眼——因为 runtime 已经能买到现成的，但你的开发流程要不要守纪律、要不要做 TDD、要不要让 subagent 互相 review，这些事是平台买不到的。

MCP 和 A2A：让 runtime 层不再各自造轮子

拆完两层你可能觉得”井水不犯河水”——其实没那么干净。MCP 和 A2A 这两个协议正在把 runtime 层和外部生态的边界重新画一遍，连带着也影响了方法学层选什么、不选什么。

MCP（Model Context Protocol）是 Anthropic 2024 年 11 月推出的工具调用协议——它解决的是 agent ↔ tool 这一层。A2A（Agent-to-Agent Protocol）是 Google 2025 年中推出的 agent 互通协议——它解决的是 agent ↔ agent 这一层。两个协议互补，被官方明确定义为”agent 系统的两层标准化基础设施”。

这两个协议在 2026 年上半年的进展非常快：

MCP：截至 5 月已覆盖 9400+ 公开 server（WorkOS 2026 数据），Microsoft Agent Framework 1.0、LangChain 1.0、OpenHands 1.7 全部原生暴露 MCP 接口。
A2A：4 月 9 号 Linux Foundation 公告 A2A 一周年里程碑——150+ 组织支持，Google Cloud Next ‘26 把 A2A 推到 v1.0，Vertex AI / Microsoft / AWS 深度集成。
治理层面：MCP 在 4 月被纳入 Linux Foundation Agentic AI Foundation（OpenAI / Anthropic / Google / Microsoft / AWS / Block 共同治理），从单一 vendor 主导变成了开放标准。

这件事的连带影响是：工具和通信不再是 Agent 框架的护城河。以前你选 LangChain 是因为它的工具生态最全，现在工具通过 MCP server 跨框架共享、agent 通过 A2A 跨平台对话，选型权重就从”谁的工具多”转向了”谁的编排好、谁的 session 管理稳、谁的开发者体验顺”。

但这件事对两层的意义并不对等。方法学层本来就不持有工具，MCP 出来对它的产品形态影响很小——Superpowers / BMAD 该怎么写规则还怎么写。真正被重塑的是 runtime 层：以前每家 runtime 都要自己做 50+ 工具 adapter、做 agent 互通的私有协议，现在 MCP 和 A2A 把这两件事标准化了，runtime 可以专注做它真正擅长的部分（调度、状态、安全）。

这也是为什么这两年 runtime 层的项目质量都在快速提升——它们不再需要每个都重造一遍工具适配层和 agent 通信协议。

那么，我和 Maple 是怎么选的

你可能已经在好奇了：扫完七个框架，我们最后选了哪个？

答案是哪个都没选。

我和 Maple 这 7 个月迭代下来，Meridian 已经有自己的一套——角色目录、协作协议、Linear / Git handoff，还有一堆工具壳和边界测试。Vyane 也已经有 dispatch / broadcast / collaborate / orchestrate / Task / Session / Worker / EventBus / MessageInbox / A2A / routing v4——全是真实在跑的代码。

外部框架对我们的价值在借鉴具体设计，不在替换整体架构。具体来说：

方法学层我们借鉴：Superpowers 的 subagent driven development 流水线、BMAD 的 phase + 工件思路
runtime 层我们借鉴：LangGraph 的图节点状态模型、CrewAI 的”Flow 管控制 / Crew 管自治”切分、Open SWE 的”Linear 触发 + sandbox + 自动 PR”产品形态
默认拓扑参考：star + pipeline 两种可审计的简单模式（这部分见多 Agent 协作的真实成本）

这个具体的选型逻辑、和 Meridian 当前 Linear 上的推进情况怎么对应，我会在下一篇单独写。这一篇先把”分层视角”建立起来——没有这个视角，下一篇关于”我们具体怎么选”的讨论就没有共同的语言。

写给晕了的读者

三句话浓缩：

Agent 框架不该一锅看。方法学层（Superpowers、BMAD、MetaGPT）教你怎么干活，runtime 层（OpenHands、LangGraph + Deep Agents / Open SWE、CrewAI、AutoGen→MS Agent Framework）替你跑活——这两层解决的是完全不同的问题。
比”哪个最强”不如比”哪一层我需要”。如果你已经在用 Claude Code / Codex / Gemini CLI 但觉得它不守纪律，方法学层就够了。如果你要做一个能独立跑的 agent 服务，去看 runtime 层。
MCP 和 A2A 主要重塑的是 runtime 层和外部生态的关系——让 runtime 不用再自己造工具适配和 agent 通信协议，专心做调度、状态和安全。方法学层基本无感。

具体挑哪条路、落实到哪个 issue——那是下一篇的事了。

完整的研究材料见 Meridian / Vyane Agentic Coding 评估、Vyane Agentic Team Frameworks Review、Managed Agents vs Vyane 架构对照。

Agent 框架别一锅看：方法学层和 runtime 层是两件事

Agent 框架别一锅看：方法学层和 runtime 层是两件事

为什么”哪个最强”是个错误问题

第一个抽屉：方法学层

Superpowers

BMAD Method

MetaGPT

方法学层的小结

第二个抽屉：runtime 层

OpenHands（前 OpenDevin）

LangGraph + Deep Agents + Open SWE

CrewAI Crews + Flows

AutoGen → Microsoft Agent Framework

runtime 层的小结

runtime 层的六周：商业控制平面同时定型

MCP 和 A2A：让 runtime 层不再各自造轮子

那么，我和 Maple 是怎么选的

写给晕了的读者

研究底稿