Anthropic 发布 AI 安全协议 ART,为行业标准竞争埋下伏笔
Anthropic 发布了名为 ART(Adaptable Resilience Testing)的 AI 安全评估协议,旨在为 AI 模型的安全测试提供一个统一、可量化的行业标准。ART 包含一套开放的基准测试集,覆盖了 12 个安全维度,包括有害内容生成、偏见放大、隐私泄露、指令注入等常见风险场景。
这不是 Anthropic 第一次做安全标准。在此之前,这家公司主导了多次 AI 安全红队演练,也发布了著名的「负责任 AI 扩展政策」(Responsible Scaling Policy)。但 ART 的不同之处在于它是一个开放协议,任何 AI 开发者都可以使用它来评估自己的模型,而不需要依赖 Anthropic 的专有工具。
Anthropic 的策略很清楚:与其自己制定标准然后强加给行业,不如先发一个开放协议,让尽可能多的开发者习惯使用。如果 ART 成为行业默认标准,那么 Anthropic 就在 AI 安全领域拥有了类似 Linux 基金会在操作系统领域的地位。
Google DeepMind 和 OpenAI 对此的回应很微妙。两家公司都表示「支持安全标准化的努力」,但都没有承诺采用 ART。这背后是标准制定权的竞争。谁的标准被广泛采用,谁就在 AI 安全的定义权上占了上风。
ART 的技术设计有几个值得注意的点。首先,它是动态更新的,安全基准会随着新出现的威胁不断迭代。其次,它引入了「红队即服务」的概念,允许第三方安全团队直接对模型进行对抗性测试。第三,它提供了量化的安全评分,而不仅仅是「通过/失败」二元结论。
行业对 AI 安全标准的渴求是真实的。欧盟的 AI 法案要求高风险 AI 系统满足特定的安全和透明度要求,但具体的测试方法论还没有完全敲定。美国政府也在推动 AI 安全的自愿性标准。在这种监管压力下,一个现成的开放协议对很多公司来说是有吸引力的。
但 ART 面临的挑战也不小。AI 安全的定义本身就是主观的,什么算「有害内容」、什么程度的「偏见」是不可接受的,这些问题没有客观答案。Anthropic 的安全理念只是众多学派中的一个,未必能代表整个行业的共识。
更重要的是,标准化往往意味着固化。AI 技术的演进速度极快,一套标准从制定到广泛采用可能需要一到两年,届时技术格局可能已经改变。ART 能否跟上 AI 能力的增长步伐,是一个长期的考验。