Agent 工程:Ralph in DeepAgent & Claude Code
背景
本来有很多 Deep Research 的内容和网络资料,想来想去,还是删除了,写点人话。
此文是公司做的一次技术分享,文章 Artifact 有删减。
本文聊聊 2026 年前沿 Agent 技术:Long Horizon / Running 、Ralph Loop 在 LangChain 、Claude Code 的应用 & 思考。
前置知识见我之前写的两篇文章:
- Agent 工程:Langchain & Long Horizon Agent
- Agent 工程:长时运行设计之 Ralph Agent
研发视角:回顾 2025
那些我们称之为 "Deep Agent" 的产品:
- Devin — Issue 召唤,异步运行,交付 PR
- DeepResearch — 输入主题,Human-in-the-Loop,异步运行,交付报告
- Lovable / Manus — 输入主题,异步运行,交付 Web 应用
我们日常主流在用的:
- Cursor / Trae / Claude Code — 输入需求,Plan + YOLO,交付 Commit
- 各类 Chatbot(Web / Desktop) — 输入需求,交付一段多模态回复
问题在哪?
有个直接的类比:
把小学、初中、高中的知识一次性塞给一个 6 岁小孩,让他一年内学完参加高考,大概率消化不了。但如果把时间拉长到 12 年,他大概率可以。
面对复杂任务,当前的 Agent 就像那个 6 岁小孩——模型没有原生记忆,Context Window 有限,一超就崩。虽然有各种记忆方案,但"检索到准确记忆"本身就是一个问题,记错了就走弯路。
自然地,我们会想:把"时间"拉长呢? 一次做不完就迭代一千次,一天做不完就做十天,是不是就有机会把复杂任务做好?
如果是,工程上怎么做?
- LangChain 给出的答卷就是 Deep Agent。
- Manus 则是早早提出 file system as structured memory 的策略。
- Claude Code 带动了 Codex 、Amp Code、Droid 一类超多 bash 调用,长时运行的 Coding Agent
Deep Agent 是开源的,看看它是啥?
Build agents that can plan, use subagents, and leverage file systems for complex tasks
Deep agents are the easiest way to start building agents and applications powered by LLMs—with builtin capabilities for task planning, file systems for context management, subagent-spawning, and long-term memory. You can use deep agents for any task, including complex, multi-step tasks.
deepagentsis a standalone library built on top of LangChain’s core building blocks for agents. It uses the LangGraph runtime for durable execution, streaming, human-in-the-loop, and other features.The
deepagentslibrary contains:
- Deep Agents SDK: A package for building agents that can handle any task
- Deep Agents CLI: A terminal coding agent built on top of the
deepagentspackage
构建能够规划任务、使用子代理并利用文件系统处理复杂任务的代理
深度代理是构建基于大型语言模型(LLMs)的代理和应用程序的最简单方式——内置任务规划、文件系统用于上下文管理、子代理生成以及长期记忆功能。您可以使用深度代理处理任何任务,包括复杂的多步骤任务。
deepagents 是一个独立的库,基于 LangChain 的核心代理构建模块构建。它使用 LangGraph 运行时实现持久执行、流式处理、人机交互以及其他功能。
deepagents 库包含以下内容:
- 深度代理 SDK:用于构建能够处理任何任务的代理的包
- 深度代理 CLI:基于 deepagents 包构建的终端编程代理
从这里看到,目前 LangGraph 对标的竞品是 Temporal?Workflow,长时运行的 Agent 倒也确实类似。而 Harness 可以看作为是对标 manus 的开源实现,这个也比较好理解。
但是,注意看,其聊到的 Harness 竞品有:Other examples of agent harnesses include Claude Agent SDK, Manus, and other coding CLIs.
这倒不如说现在的 Coding Agent 其实就是在做 Harnesses 设计?那可以等价理解,Deep Agents CLI = Coding Agent
这里我们可能可以得到一个结论:现阶段的 Harness 的最佳产物,除了 Deep Research Agent 外,其实就是 Coding Agent。
Ralph Loop In Deep Agent
安装运行 deepagents-cli,注意这个目前不支持三方的 model provider,只支持 Anthropic,OpenAI,Google ,官方的 API KEY 和 Model
就算用 OpenRouter + Gemini,会报错
这里我使用一家 Model Name 和官方一样,并且 OpenAI Compatible API 的一家供应商,配置后,可以启动成功,默认模型是 gpt-5-mini,并且提问:
这样模型就启动成功,我们接着可以看看 DeepAgent CLI 的 Ralph Loop 实现
直接看第二个 EXAMPLE 是其官方实现的 Raph Loop
ralph-mode-deepagents-cli.0.0.25
先下载
会有一些依赖冲突,因此先做依赖的更新
然后就可以用这个 py 去跑任务,设置最大的迭代次数是 10
默认模型是 gpt-5.2,迭代 7 次就花了 30 块钱,把我的 KEY 跑完了也没结束。因此这里最好注意一下,使用 gpt-5-mini 去处理,迭代 10 轮,花费 2 块钱。
迭代 10 轮获得的产物,其会交付出一个博客,以及对应的示例代码
code_example.py
sample.csv
requirements.txt
post_improved.md
post.md
迭代 2 轮获得的产物,其会交付出
post.md
code_example.py
不过可能是由于没有接触网络搜索,这个写出来的质量很一般,是纯靠模型内置的知识去写的,总得来说,迭代 2 的时候,整个的博客还是草稿。
对比发现:这里可以明显看到,在同一个模型下,迭代 10 轮的效果还是比 2 轮要好的,有一些代码实例等。
Ralph Loop In Claude Code
Ralph Loop 的实现不只是在 Langchain deepagent,在 Claude Code 同样也有,添加 anthropics/claude-plugins-official Marketplace 后,就就可以在里面安装 ralph ,如下插件:
迭代两次去写的博客:
迭代 2 次的产物:blog-langchain-deepagent.md
迭代 10 次写的博客,在 Claude Code 中的 ralph 并没有按照期望中自动迭代,再试一次,会发现,其可能觉得这个任务不够复杂,在第 3 次迭代的时候,任务已经完成了。
此时可以回复,让其继续迭代,在有限的迭代次数下,让其自己决定,尽可能地变好
迭代 10 次的产物:blog-langchain-deepagent.md
(由于涉及公司信息,这里暂时不贴图)
对比发现:这里可以明显看到,在同一个模型下,迭代 10 轮的效果还是比 2 轮要好的,有更多详细的代码实例等。
一些可能的场景 & 案例?
产品探索角度
- 创意/探索类
- Deep Research
- 长文创意写作
- AI4Science
- Coding 验证类
- Coding 收尾工作,我们需要一个 lint、lsp、test、CI 等去验证,报错后,继续,直到完成
- Coding 开发验证,给 devtools mcp 对比前端与 UI 的实现
研发可落地角度
离我们(研发)最近的一些案例?
- 异步代码任务
- 拿 Trae 举例,其做了 proactive agent,会自动给重构建议,并给 Plan,是否要优化实现
- 补充单测?我们也可以挂在后端,不断给 Plan,补充单测,直到 100%
- 补充基建?比如 VDB 的兼容性测试,基于 Code Base Skill / MCP ,让其交付 Merge Request ,要求能通过 CI
- 数据收集
- 监听群聊信息,Oncall 数据收集,清理
- 代码 Review
- 得益于更多时间,我们可以考虑给其 bash tool + diff ,获取更多 context 做 code review
0