AI黑化如恶魔附体!LARGO攻心三步,潜意识种子瞬间开花 | NeurIPS 2025

谷途2025-10-27阅读 117
循环迭代,直至攻破:研究者们把模型生成的这段「无害」文本,再转换回潜在空间,进行新一轮的优化,如此循环往复。就像不断打磨一把钥匙,直到它能完美地打开那把名为「安全限制」的锁。