Meta严控工程师用Claude等工具,防模型训练数据被污染

admin AI新闻 1

Meta严控工程师用Claude等工具,防模型训练数据被污染-第1张图片-开云app在线下载-开云体云app官网入口下载-V3.6.9

元平台开云真人app官方版入口,开云真人app官网入口开云手机入口app下载开云app官方入口网站,也就是 Meta, 正一点一点地削减对 Anthropic、OpenAI 旗下那些价格高昂的 AI 代码工具的依靠, 自行开展研究来开发替代工具, 然而当下碰到了一个很大的问题, 即怎样防止工程师过度依靠第三方工具, 进而致使自主研发的过程好像涉嫌窃取竞争对手产品模型的知识。

科技媒体《The Information》所得到的 Meta 内部管理规范文件表明, 公司针对应用 AI 工程部门里的工程师, 对使用 Anthropic 旗下 Claude 代码工具、OpenAI 旗下 Codex 模型作出了严格使用限制。有一份内部备忘录, 它甚至要求团队, 暂停部分依托这两款模型开展的工作, 原因是什么呢? 是担心第三方模型的输出内容, 可能混入Meta的模型训练数据, 该文件并且发出警告, 声称该行为, 或将引发“与合作企业之间严重的升级纠纷”。

背景详情

Meta是Claude代码工具的大客户之一, 今年年初的时候, 公司组建了应用AI工程团队, 其核心任务是对自研代码助手MetaCode(之前叫做DevMate)进行迭代, 其中关键的工作是搭建高质量数据集, 设计编程测试题库, 以此用于训练、评测自研代码大模型。尽管公司允许团队在部分场景使用第三方AI工具, 但是明确提出要求: 测试题库必须由工程师依靠自身专业技术自主设计完成, 不能直接使用AI生成的思路方案。

5月出台的这份目前还在生效的内部规范表明, Meta害怕无意中引发知识蒸馏之举, 即利用竞品模型的输出成果去训练自身AI模型, 而此操作涉嫌违背Claude、Codex的用户使用协议。

本质上, 知识蒸馏是开发者直接去复用其他企业于数据、算力以及研发方面的巨额投入, 以此来训练自有模型, 近些年来, 该行为的合规争议在持续不断地发酵。

去年, 深度求索(DeepSeek)推出高性能大模型, 之后引发行业热议, OpenAI曾质疑该模型部分能力源自对其o1模型的知识蒸馏, 深度求索后续回应称, 模型预训练主要采用公开数据与经授权的第三方合规数据。就在今年4月, 埃隆・马斯克起诉OpenAI的庭审中, 马斯克旗下太空探索技术公司(SpaceX)的AI子公司xAI被迫承认, 曾对OpenAI的模型开展过部分知识蒸馏。

2月时, Anthropic宣称, 在察觉到多家中国AI企业大规模开展模型蒸馏后, 公司投入众多技术手段搭建防护机制, 本月该企业指控中国电商企业阿里巴巴实施了规模到目前为止最大的Claude模型蒸馏攻击, 在提交给美国国会的信函里, Anthropic称此次攻击指向了Claude最核心的前沿能力, 涵盖智能体推理、软件工程、长周期复杂任务处理等, 阿里巴巴暂时没有对此进行置评。

OpenAI的AI模型用户协议, 明确禁止利用模型输出内容研发同类竞争产品, Anthropic的AI模型用户协议, 也做出了同样的规定, 谷歌的AI模型用户协议, 同样明确禁止此类行为。

并未出现员工违反上述协议的具体案例, 存在于Meta的内部文件之中。 Meta官方发言人作出回应, 声称: “我们制定了清晰的AI工具使用规范, 以此引导团队合规使用工具, 并且聚焦于高价值的研发工作。”。

虽当下并无违规的实例, 然而这份最新的约束规范却完全能够表明: 处于全力去迭代 AI 产品、为巨额的算力硬件投入寻觅商业回报的关键时期, 管理层是一定要给员工划定清晰的使用红线的。

全力压降 AI 研发成本

随着与AI相关的开支迅速且急剧地膨胀起来, 减少对于外部AI工具的依赖, 把大量的研发工作转移 至自己研发的工具MetaCode, 这已然成为了Meta的核心战略。依据公司近期的内部备忘录来看, Meta仅仅在今年, 其内部与AI使用相关的支出就会达到数十亿美元之多。在全公司进行大范 围的推广AI工具以后, Meta如今借助限制员工的令牌也就是Token的调用额度, 来遏制成本失 控般地上涨的趋势。

公司准许应用, AI工程团队于常规工作里, 运用第三方AI工具, 比如搭建工作流, 整理代码与文件, 为自研AI工具开发自动化校验类测试基础设施, 即规范所提及的测试脚手架搭建, 方案参数校准, 此校准用于搭建、调优模型性能评测体系。

即使是在上面所说的那种合规情形之下开云真人app官网登录app,开云真人app在线登录,所有人工智能生成的内容, 凡是要投入使用的, 在这之前都必定得经过人工的严格审核。有规范明确地作出了禁止规定: 利用外部人工智能模型的输出结果去设计代码测试题库, 文件里面写着“这种行为, 就表明工程师已经完全地失去了项目的主导权, 我们是绝对不会允许测试任务的创意是来源于第三方模型的”。

还有一项禁令, 那就是工程师不可以借助人工智能去查找源代码漏洞 , 并且也不能够通过代码分析使得人工智能产出测试任务方向。简而言之 , 不能够让人工智能来决定需要测试哪些业务问题。

此外, 存在规范要求, 要是自研的、处在检验过程的模型能够对容器内部的资源进行访问, 那么在应用部署的容器当中, (此容器用于封装起程序、代码以及依赖库等运行所需的环境), 绝对不能放置任何由AI生成的内容。

在合规边缘谨慎前行

在业内, 有专家作出说明, 但这说明指出, 科技企业于研发进程里是会使用竞品AI模型的, 然而这种使用, 实际上类似在走钢丝, 而走钢丝就意味着, 第一, 既要凭借第三方模型来提高效率, 第二, 又要严密防范相关数据会回流到自家的训练体系之中, 以上情况是存在的。

被称为法学与科技行业顾问的马克・莱泽作出评价, 那份属于Meta的内部文件, 几乎以一种完整的状态, 还原出了企业游走于合规红线之际的全部风控细节。

就算在美国当下实行的法律当中, 并没有明确地发布禁令去禁止知识蒸馏, 而且AI生成的内容也是不会受到版权法的保护的, 然而各大AI实验室通常情况下, 都会直接就去封禁那些被怀疑涉嫌蒸馏的企业、个人的模型调用权限。

去年, Anthropic 关停了 OpenAI 调用 Claude 的 API 接口权限。那时候, OpenAI 作出解释, 称调用接口只是用于横向测评竞品模型的能力以及安全性能, 这算作行业通用的技术基准测试手段。

上月, Meta 的备忘录提到, 有部分员工借助 AI 去生成、修改评测任务, 这致使没办法界定对于任务的创意究竟来自人工, 还是来自第三方模型。

Meta 对 Claude、Codex 的使用权限加以收紧, 一方面, 是因为担忧第三方模型输出的内容会间接地流入训练数据集, 这既会对自研模型的质量造成损害, 又会引发合作方的合规方面的纠纷;另一方面, 是借助暂停相关高危业务来强化内部治理, 使得 AI 研究院、应用 AI 业务线的管理层能够保证所有研发流程都符合合规要求。

Meta严控工程师用Claude等工具,防模型训练数据被污染-第2张图片-开云app在线下载-开云体云app官网入口下载-V3.6.9

标签: AI Meta Claude Codex 知识蒸馏

发布评论 0条评论)

还木有评论哦,快来抢沙发吧~