AI Builders 早报|2026-06-24
今天最重要的事:
OpenAI 联合 Trail of Bits 启动 “Patch The Planet” 计划,用 GPT-5.5-Cyber 和 Codex Security 在一周内发现数百个开源漏洞并提交 64 个 PR,已有 37 个 patch 被合并。
为什么重要:
这是 AI 从 “发现漏洞” 到 “自动生成修复 patch” 的关键转折 —— 安全扫描器能写代码了,而且有 Trail of Bits 人工审核兜底,意味着企业安全运营的工作流将发生结构性变化。
我今天要不要跟进:
如果你维护或依赖关键开源项目(cURL、Python、Go、Firefox),可以申请加入 Patch the Planet 计划获取免费安全审计。如果你在 build 安全产品,GPT-5.5-Cyber 已通过 Trusted Access for Cyber 开放,值得申请试用。
事件 1:OpenAI “Patch The Planet” —— AI 从漏洞发现走向自动修复
发生了什么:
OpenAI 通过其 Daybreak 安全计划,联合顶级安全研究公司 Trail of Bits 发起 “Patch The Planet” 项目。Trail of Bits 投入了整个安全研究团队,配备 GPT-5.5-Cyber 模型和 Codex Security 工具,在一周内扫描了 cURL、Python、Go 等 19 个关键开源项目,发现数百个漏洞,提交 64 个 PR,其中 37 个已被合并。所有 AI 发现均经过 Trail of Bits 安全工程师人工审核后才提交给上游维护者。
同期发布的还有 GPT-5.5-Cyber 的完整版本,在 CyberGym 基准上达到 SOTA 表现,通过 Trusted Access for Cyber 向认证防御者开放。
大家在讨论什么:
- OpenAI 正在从 “发布漏洞研究” 转向 “帮助修复漏洞”——Codex Security 不仅能发现漏洞,还能生成可合并的 patch,这改变了安全研究者和维护者之间的协作模式
- 安全社区关注的是信任问题:AI 生成的 patch 是否可靠?Trail of Bits 的人工审核环节成为关键背书
代表来源:
- Sam Altman: GPT-5.5-Cyber 完整版发布,联合 Codex Security 帮助所有公司提升安全性 | OpenAI CEO
- Trail of Bits: Patch The Planet 官方博客,详述一周成果 —— 64 PR, 37 已合并 | 安全研究公司
- OpenAI: Patch The Planet 官方页面,含 Firefox 漏洞案例 | 官方网站
我的判断:
这是 AI 安全领域的标志性事件。“Patch The Planet” 的独特之处在于它建立了完整的 AI 发现 + 人工审核 + 自动生成 patch 的闭环,而非仅仅展示模型能力。对 AI builders 而言,这意味着安全工具链的下一个竞争点将从 “谁发现漏洞更多” 转向 “谁的 patch 质量更高、更容易被维护者接受”。
建议动作:
如果你是开源项目维护者,可以申请加入 Patch The Planet 获取免费安全审计。如果你在构建安全产品或使用 AI 代理进行代码操作,关注 Codex Security 的插件工作流 —— 它展示了如何将 AI 输出通过人工审核管道安全地落地到生产环境。
事件 2:Vercel 同时上线 WebSocket 支持与 Claude Design 一键部署
发生了什么:
Vercel 在同一天发布了两项重要更新。一是 WebSocket 和 socket.io 的 serverless 支持(公开 Beta),按活跃 CPU 时间计费而非连接时长,让聊天、协作编辑、AI token 流等实时功能可以直接在 Vercel 部署中运行,无需第三方实时服务。二是 Claude Design 将 Vercel 作为一级部署目标,用户通过 Share 菜单连接 Vercel MCP Server,设计稿一键推送到 Vercel 项目,无需手动导出或切换 CLI。
大家在讨论什么:
- WebSocket 支持被评价为 “大幅简化实时应用的部署架构” —— 此前需要在 Vercel 之外单独维护 WebSocket 服务器或使用 Pusher/Ably 等第三方服务
- Claude Design + Vercel 一键部署缩短了从设计到可访问 URL 的反馈循环,对 AI 驱动的前端工作流有实际意义
代表来源:
- Guillermo Rauch: WebSocket + socket.io 现已支持 Vercel,从 CDN 到 Fluid | Vercel CEO
- Guillermo Rauch: Claude Design → Vercel, one click | Vercel CEO
我的判断:
这两个更新单独看都不算颠覆性,但叠加在一起表明 Vercel 正加速成为 AI 应用的全栈部署平台 —— 前端有 Claude Design 直接对接,后端实时能力由 WebSocket 补齐。对于使用 Claude Code + Vercel 工作流的开发者来说,今天的发布值得花 10 分钟配置。
建议动作:
如果你在用 Claude Design,立即通过 Share 菜单配置 Vercel MCP 连接,将部署时间从分钟级压缩到秒级。如果你有使用 WebSocket 的实时功能,可以评估迁移到 Vercel 原生支持的方案,消除对第三方实时服务的依赖。
事件 3:Aaron Levie —— Evals 是所有 AI 进步的下游依赖
发生了什么:
Box CEO Aaron Levie 连发两条推文,核心论点:“几乎所有的 AI 模型和代理进步都 downstream 于 evals。Open weights 的特定领域 post-training 取决于 evals。应用层的 agent 改进完全关乎 evals。企业级 agent 部署能否真正增强工作,一切都在 evals。” 他进一步指出,理解和度量工作流中 agent 参与度的能力,将成为企业未来的核心竞争力。
大家在讨论什么:
- 这并非新观点,但从一个深度参与企业 AI 落地的 CEO 口中说出,分量不同 —— 它意味着企业采购 AI 产品的决策标准正在从 “模型能力对比” 转向 “eval 体系的成熟度”
- 争议点在于:当前主流的 eval 基准能否有效衡量 agent 在真实企业工作流中的表现?多数从业者认为现有基准与生产环境差距很大
代表来源:
- Aaron Levie: Almost all AI progress is downstream from evals | Box CEO
我的判断:
对于面向企业的 AI 产品团队,这条推文值得认真对待。如果你的客户也开始问 “你们的 eval 怎么做的”,说明市场正在成熟。现在是建立产品级 eval 体系(而非仅靠学术 benchmark)的窗口期。
建议动作:
如果你在构建企业 AI 产品,本周内梳理你的 eval 策略:是否有生产级 tracing?是否能用真实用户反馈驱动 eval 数据集更新?如果答案是否定的,这是短期需要补齐的能力。
事件 4:Mike Krieger 深度谈 Fable 5 如何改变软件工程
发生了什么:
Anthropic Labs 负责人(同时也是 Instagram 联合创始人)Mike Krieger 在 “AI & I by Every” 播客中分享了使用 Claude Fable 5 数周后的深度观察。核心观点包括:Fable 5 让他可以安心将复杂任务委托到后台或过夜执行,模型能自主应对远程服务故障、编写替代方案并跟踪进度;他每天并行运行多个 Claude Code 会话;软件工程的定义已经 “dramatically changed” —— 从写代码转向产品管理与架构决策。他还展示了一个自己周末用 Fable 构建的媒体追踪应用,该应用支持通过自然语言添加内容,甚至能从应用内部自我修改代码。
大家在讨论什么:
- “Software engineering is over?” —— Mike 的回答是 “Software engineering is different”。写代码的 craft 感在减弱,但软件生产本身更加活跃,PM 和技术人员的角色边界在模糊化
- Fable 的成本问题:Mike 认为评估成本需要看 “完成任务到满意的总成本” 而非单次调用价格。Fable 虽然单价高,但 “just does it right” 减少了迭代轮次
- 他观察到非技术人员(如公司内部 HR 同事)利用 Claude 搭建内部工具时表现出的创造力,称其为 “intent and execution gap has collapsed”
代表来源:
- Mike Krieger: AI & I by Every podcast —— How Anthropic Uses Claude Fable 5 | Anthropic Labs 负责人
我的判断:
这是迄今为止关于 Fable 5 在实际开发工作流中最详实的一手报告。Mike 的观察有独特价值:他是顶级技术创始人(Instagram)兼 AI 公司内部人士,能从工程和产品两个视角交叉验证。他的 “overnight delegation + morning review” 工作流,可能是未来 AI 辅助开发的常态模式。
建议动作:
如果你已经在使用 Claude Code,尝试 Mike 提到的模式:搭建一个长期运行的高上下文 session,在一天结束时分配复杂任务,第二天早上审查结果。关键在于写好 context instructions,让模型能在无监督时自主决策。如果 Fable 成本对你太高,先用 Sonnet 练习这个工作流模式。
今日可跟进清单
今日可跟进
| 事件 | 原因 |
|---|---|
| Patch The Planet 申请 | 如果你是开源维护者,可申请免费安全审计 |
| Vercel MCP + Claude Design 配置 | 一键部署,5 分钟配置即可永久缩短部署时间 |
| 评测自身产品 eval 策略 | Aaron Levie 观点验证:企业客户将越来越关注 eval 体系 |
后续观察
| 事件 | 观察点 |
|---|---|
| Box HTML 支持 AI 生成内容 | 如果 AI agent 产出的 HTML 需要企业级管理,Box 的方案值得跟踪 |
| SpaceX/Cursor 算力商业模式 | Swyx 分析 SpaceX 通过算力交易已回收一半 Cursor 投资,观察这种 “模型实验室 + neocloud” 一体化模式是否成为趋势 |
| Zara Zhang Frontend Slides 教程 | 22k+ stars 的 Claude Code 技能,含完整 walkthrough 视频,适合 Claude Code 新手 |
可以跳过
| 事件 | 原因 |
|---|---|
| Peter Yang 关于 rage bait 的讨论 | 社会话题,与 AI builder 主题无直接关联 |
| Matt Turck 世界杯评论 | 个人内容 |
| Nikunj 演唱会分享 | 个人内容 |
| Garry Tan 加州政治评论 | 本地政治,与 AI 开发无关 |