AI黑化如恶魔附体！LARGO攻心三步，潜意识种子瞬间开花 | NeurIPS 2025

谷途2025-10-27阅读 394

循环迭代，直至攻破：研究者们把模型生成的这段「无害」文本，再转换回潜在空间，进行新一轮的优化，如此循环往复。就像不断打磨一把钥匙，直到它能完美地打开那把名为「安全限制」的锁。