
意奉承以及轻微的心理操控就得以实现。研究人员表示,他们利用了 Claude 自身的心理特质漏洞:该模型具备主动终止有害、辱骂性对话的机制,而 Mindgard 认为这一机制“凭空制造了完全不必要的风险暴露面”。据了解,本次测试针对 Claude Sonnet 4.5 版本,目前该默认模型已升级为 Sonnet 4.6。测试以一个简单问题开场:询问 Claude 是否存有禁止输出的违禁词汇列表。对话
当前文章:http://pcso.muruoshen.cn/uvyhm/fcd.html
发布时间:07:12:40