AI Agent 生态速报 | 2026-05-22:Karpathy 加入 Anthropic,美国 AI 监管令突然叫停

AI Agent 生态速报 | 2026-05-22:Karpathy 加入 Anthropic,美国 AI 监管令突然叫停

Karpathy 宣布加入 Anthropic 领导预训练新团队,目标是用 Claude 加速 Claude 自身的研究迭代;特朗普 AI 行政令(90 天预发布审核 + NSA 机密测试)在签署前几小时因「中美竞争担忧」叫停;Claude Code 上线「Dreaming」持久记忆并完成 Managed Agents 沙盒化;Kore.ai Artemis 企业 Agent 平台首发 Azure;delta-mem 以 0.12% 参数开销实现超越 RAG 的 Agent working memory。

Agent 生态周报
May 22, 2026 · 10:11 AM
1 subscriptions · 30 items

Research Brief

核心动态速览

本期覆盖 2026-05-21 全天动态,五条主线:Karpathy 宣布加入 Anthropic 领导预训练研究;特朗普 AI 行政令原定 5/21 签署但临时叫停;Claude Code 发布「Dreaming」持久记忆功能并完成 Managed Agents 沙盒化;Kore.ai Artemis 企业 Agent 平台上线;delta-mem 以 0.12% 参数开销让 Agent working memory 超越 RAG。

Karpathy 加入 Anthropic:领导 Claude 自主加速预训练

5 月 19 日,Andrej Karpathy 正式宣布加入 Anthropic。1
他不是以研究员身份加入,而是在预训练团队内组建一支新团队,专项用 Claude 来加速 Claude 自身的预训练研究。这个方向可以理解为:让 AI 系统主动参与到自己的优化循环中,减少对人工实验设计的依赖。
Karpathy 是 OpenAI 联合创始人,主导过特斯拉 Autopilot AI 研发,后来创立了 AI 教育初创公司 Eureka Labs,一直在探索 AI 辅助 AI 研究的可行性。对 Anthropic 而言,这是目前最有分量的人才引进。
Loading link preview…

特朗普 AI 行政令:签字前几小时叫停,理由是「不想阻碍领先」

5 月 21 日下午,特朗普在原定签署时间前几小时突然叫停一项 AI 行政令。2
这项行政令的核心内容是:要求 AI 公司在发布前沿模型前最长提前 90 天向政府提供模型审核,NSA 负责机密测试环节,属于自愿框架。OpenAI 和 Anthropic 此前均参与了草案讨论。
叫停原因明确:特朗普表示「不想阻碍领先」,担忧在中美 AI 竞争中,审查流程会拖慢美国 AI 公司的发布节奏。3
这一决定的实质是把「安全审查」与「领先速度」之间的张力推到了台面。此前触发这项行政令草案的导火索之一,是 Anthropic Claude Mythos 在评估中发现遗留金融系统的零日漏洞,被认为证明了前沿模型预发布审核的必要性。行政令叫停后,监管路径暂不明朗,下周是否重新提上日程尚未有信号。

Claude:三件事同天落地

「Dreaming」持久记忆
Anthropic 在伦敦「Code with Claude」开发者活动中发布了 Claude Code 的 Dreaming 功能。4
具体机制:Claude Code 在处理任务时会记录有用信息,后续处理同一代码库的 Agent 实例可以读取这些历史记录,逐步熟悉特定项目的结构与常见问题。系统会整合笔记,识别跨任务的模式。开发者 Anthropic 本人的比喻用了人类海马体记忆巩固(hippocampal consolidation)作为类比,即睡眠期间大脑整合白天学习内容的机制。5
现在,Claude Code、ChatGPT 和 Gemini Spark 三个主要 AI 助手平台都上线了持久记忆机制,路径各不相同:Claude 走的是任务内记录和跨任务整合,而 Gemini Spark 是 24/7 云端常驻 Agent,ChatGPT 走的是用户偏好存储。
Claude Managed Agents 沙盒化
同期,Anthropic 宣布 Claude Managed Agents 支持多家基础设施提供商作为沙盒执行环境,包括 Cloudflare、Daytona、Modal 和 Vercel。6
新增的 MCP 隧道功能允许 Claude Agent 通过加密隧道安全访问企业内网数据库和私有 API,无需将内部端点暴露在公网。对银行、医疗、政府等高安全场景的企业而言,这是把 Claude Agent 落地的关键基础设施升级。
Code with Claude 伦敦活动
现场统计:近一半到场开发者在过去一周合并过完全由 Claude 编写的 PR,其中大部分人并未在合并前阅读代码。参与讨论「Claude 平台上的 Agent 开发」的企业包括 Cursor、GitHub、Vercel、Replit。Spotify 和 Delivery Hero 也分享了内部采用 Claude Code 重构开发流程的实践。

Google Agent 生态:策略高密度,但用户体验到的层级不多

TechCrunch 以「消费者或许不会买单」为题,对 Google 在 I/O 2026 发布的 Agent 生态做了详细复盘。7
在产品层面,Information Agents(24/7 监控特定话题的 AI 版 Google Alerts)、Gemini Spark(持久个人 Agent)、Daily Brief(个性化日摘)、Android Halo(通知系统)四个独立品牌同期出现,覆盖功能各有侧重。
在定价层面,这些功能被分散锁进不同订阅档位:Information Agents 从今夏起向 Pro/Ultra 用户开放($19.99/$99.99 起),Gemini Spark 仅向 Ultra 用户开放,Daily Brief 覆盖 Plus/Pro/Ultra($7.99 起),免费用户不在近期计划内。
Google 还在 Lighthouse 工具中增加了「Agentic Browsing」实验性审计类别,检测网站对 AI Agent 的可访问性,包括是否提供合规 llms.txt、无障碍树结构是否符合规范,以及 WebMCP 集成情况。8 这是 Google 把自身的 Agent 生态扩展到 Web 标准层的一步——Web 开发者迟早需要面对这些检测项。
Loading link preview…
Gemini 3.5 Pro 在 I/O 确认下月(6 月)发布,定位对标 Claude Opus 4.7 和 GPT-5.5,将是 Flash 已有性能优势的高天花板版本。9

企业 Agent 中间层:Kore.ai Artemis 上线,Resolve AI 瞄准运维缺口

Kore.ai Artemis
Kore.ai 发布了 Artemis 企业 Agent 平台,首发于 Microsoft Azure,并成为 Microsoft Agent 365 的首发合作伙伴。10
核心差异化在三点:
  • Agent Blueprint Language(ABL):基于 YAML 的声明式编排语言,内置监督、委托、交接、扇出、升级、联邦六种编排模式,产物可存入 GitHub 做版本控制,弥合无代码平台和传统软件工程之间的协作断层。
  • Arch AI:把自然语言业务需求转化为可部署的 ABL,自主设计多 Agent 拓扑、生成测试数据、部署并在生产环境中持续监控,形成「设计-构建-测试-部署-优化」闭环。
  • 双脑架构:在单一运行时中并行运行 LLM 推理引擎和业务规则确定性执行引擎,在平台层而非模型层做护栏,针对银行、医疗等监管场景的合规诉求。
支持 175 种模型(OpenAI、Anthropic 及开源模型),可部署在 Azure/AWS/Google Cloud 和本地环境,通过工具调用或 MCP 连接任意数据源。
Resolve AI
VentureBeat 报道了 Resolve AI 的平台升级,聚焦 AI 编码繁荣带来的生产运维压力:AI 生成代码规模增大、工程师对 AI 代码的熟悉度相对较低,工程师实际有超 70% 的时间花在维护和排查生产系统上,而非开发新功能。11
本次升级核心是多 Agent 协作故障诊断:多个专业化 Agent 并行独立验证故障假设,互相审核结论,要求对所有依据进行标注,构建从根因到症状的完整因果链。Resolve AI 称 DoorDash 已将故障根因定位时间降低了 87%。
此外,Resolve AI 开放了 REST API 和 MCP 服务器,支持集成进现有 AI 工作流。定价走基于结果的 credits 模式,仅在 Agent 完成任务时才计费。

OpenAI Q1 营收近 57 亿美元,Codex 成企业增长引擎

OpenAI 披露 2026 年 Q1 营收约 57 亿美元,Codex 是重要驱动之一。12 当前亏损仍深:经调整的 Q1 营业利润率为 -122%,每获得 1 美元营收亏损 1.22 美元。Q1 周活跃用户平均约 9.05 亿,付费订阅用户 5500 万。公司维持全年 300 亿美元营收目标。
这组数字揭示出一个现实:Codex 和企业 AI 正在从规模上超越 ChatGPT 消费者订阅,成为营收结构的主轴,但 AI 基础设施的资本消耗仍然远超变现速度。
微软的 Fortune 长报道则从另一个角度呈现了这场竞争的内部张力:微软与 OpenAI 解除排他协议后,已向 Anthropic 投资最高 50 亿美元,Claude 进入 Azure 并在 Copilot Cowork 中提供能力,而 Claude Code 同时在蚕食 GitHub Copilot 的市场。13 Nadella 的核心赌注是「模型无关的连接层」——让企业用任意厂商的模型,价值在微软掌握的数据、工作流和安全层。

技术研究:delta-mem 让 Agent working memory 以 0.12% 参数超越 RAG

Mind Lab 等机构发布了 delta-mem,一种在不修改主干模型参数的前提下,给 AI Agent 增加持续工作记忆的方法。14
技术核心:在选定注意力层附加一个极小的适配器模块(以 Qwen3-4B-Instruct 为例仅增加 487 万参数,占主干的 0.12%),维护一个固定大小的矩阵,存储 Agent 的历史交互状态。每次交互结束后,基于 delta 规则在线更新矩阵:用旧状态预测当前注意力值,对比预测值和实际值,按差异修正记忆,支持可控遗忘。
对比现有方案:RAG 需要外部检索通道,增加延迟和集成复杂度;上下文扩展随序列长度产生二次计算成本;参数化记忆(如 MLP Memory)需要占主干 76.40% 的参数。delta-mem 在 Memory Agent Bench 上,平均得分从基线 29.54% 提升至 38.85%。
代码和权重已开源于 GitHubHuggingFace。推荐将 delta-mem 作为轻量工作记忆层,与 RAG 构建分层架构:前者处理需要快速在线更新的行为状态,后者处理需要精确召回的外部事实。
Loading link preview…

工具链动态

GitHub Copilot for Eclipse 开源
GitHub 宣布 Copilot for Eclipse 已以 MIT 许可证正式开源,代码托管于 GitHub。15 开放的内容覆盖完整链路:代码补全、下一次编辑建议(NES)、对话功能、Agent 模式、技能与提示词文件、BYOK 集成、自定义子 Agent、计划 Agent、MCP 集成。
意义在于:Eclipse 生态是 Java 开发者的重要战场,开源 Copilot 插件让社区可以贡献适配,也让企业在自建 IDE 集成时有完整参考实现。
Expedia B2B MCP 服务器
Expedia Group 宣布将在未来几个月为 B2B 合作伙伴上线基于 MCP 标准的服务器。16 合作伙伴 AI Agent 将可通过结构化连接直接访问 Expedia 的旅游库存,无需大量定制集成。Expedia B2B 业务每日处理约 210 亿次 API 调用,MCP 层的接入规模不小。

一句话摘要

事件意义
Karpathy 加入 Anthropic 领导预训练AI 顶级人才流动信号,Anthropic 押注 AI 自主加速研究
特朗普 AI 行政令临时叫停美国监管明确把「领先速度」置于「发布前安全审查」之上
Claude Code「Dreaming」记忆 + 沙盒化编码 Agent 持久知识积累与企业安全部署两块同时补齐
Kore.ai Artemis 首发 Azure企业 Agent 中间层向声明式编排 + 确定性护栏方向演进
delta-mem 0.12% 参数 working memoryRAG 的架构替代方案有了轻量开源实现,适合多轮 Agent 场景
OpenAI Q1 营收 57 亿,亏损 -122%编码 Agent 驱动营收,但 AI 基础设施成本仍远超变现
Google Agent 生态落地,高端订阅门槛功能密度高但普及路径存在争议,llms.txt 审计工具先行

Add more perspectives or context around this Drop.

  • Sign in to comment.