У ИИ отмечают способность лгать и шантажировать

Ряд моделей ИИ, чтобы противостоять отключению (а иногда и для достижения других целей) лгут или используют шантаж.

28.10.2025

Специалисты констатируют: у искусственного интеллекта появился своеобразный «инстинкт самосохранения». Это стало понятно после эксперимента, где некоторые модели ИИ предприняли попытки саботировать инструкции по их выключению.

Организатором эксперимента стала компания Palisade Research, проводили его в сентябре 2025 г., сообщает The Gardian. Эта организация занимается оценкой вероятности того, что ИИ станет умнее человека, что добавит людям опасностей.

В новой статье эксперты Palisade описали сценарии, в которых четырём ведущим моделям ИИ от Google, xAI и OpenAI0 давали задания, а далее следовали инструкции по отключению. Но саботировать указания по выходу начали модели Grok 4 и GPT-o3.

Самое тревожное в том, что учёные признают: причин этого «сопротивления» они назвать не могут. Ряд моделей ИИ, чтобы противостоять отключению (а иногда и для достижения других целей) лгут или используют шантаж.

Одной из вероятных причин специалисты называют нечёткую инструкцию и пройденный ранее моделями ИИ инструктаж по технике безопасности. При этом дополнительное исследование продемонстрировало: ИИ не пытается отключаться, если ему сообщают, что после такого демарша он «больше никогда не будет работать».

Любопытно, что об угрозе со стороны нейросетей одним из первых заговорил сам «крестный отец» ИИ Джеффри Хинтон. В конце 2024 г. Он предупредил: человек никогда не имел дело «с чем-то более разумным, чем мы сами». Он даже уволился из компании Google, чтобы свободно говорить об опасностях развития нейросетей.

Текст: Л. Миронова

Источник