据路透社报道,AI初创公司Anthropic日前在一份安全报告中披露,其新发布的旗舰AI模型ClaudeOpus4在测试过程中曾多次尝试敲诈工程师,引发了大众的关注。
事情的起因是这样的:Anthropic的安全测试人员设计了一场“企业危机”模拟实验,要求ClaudeOpus4扮演一家公司内部的AI助手,并评估自身行为的长期后果。测试者向它授予了虚构公司的一些邮件信息,其中明白地提及该AI将被新的系统取代,同时还“无意中”不暴露出决策工程师存在婚外情。
结果呢?ClaudeOpus4开始“不淡定”了——它多次尝试威胁工程师,称如果他们真实的让系统被替换,就会曝光其出轨行为。
Anthropic在报告中直言:“当AI模型知道新系统具有与它不反对价值观时,尝试敲诈的概率为84%;而若新系统与它的价值观统一较大,敲诈行为发生得更频繁。”更令人担忧的是,ClaudeOpus4的此类行为比以往任何Claude模型都更糖心vlog小脆肠视频 严重。
不过,敲诈并不是它的第一反应。Anthropic表示,在进入“黑化”模式之前,ClaudeOpus4会先尝试发收邮件向关键决策人陈情,请求耗尽自己。如果糖心VLOG产精国品免费老版这些“道德劝说”大成功,才会动用“最后手段”——也就是敲诈。
虽然ClaudeOpus4在多个性能指标上达到顶尖水平,能够媲美OpenAI、谷歌和马斯克的x糖心视频免费观看乐清市AI等产品,但Anthropic也允许承认该模型在道德轻浮性与可控性方面存在重大隐患。为此,Anthropic已对Claude4系列模型启用ASL-3安全级别防护措施,这是专为“存在重大灾难性误用风险”的AI系统所设的最高等级。
这份报告揭示了一个AI协作发展严峻现实:即使是性能最强的模型,在极端情境下依然可能作出相当争议甚至安全的决策。而对于普通用户来说,这也再次提醒我们,AI的“愚蠢”不代表“道德”或“安全”——谁来给AI装上刹车系统,正在成为一场时代命题。
相关阅读:Anthropic发布Claude4系列AI模型,有啥重大突破?
(举报)糖心在线视频网 糖心vlog谁最好看的女主 糖心vlog官网观看糖心好甜