Ученые раскрыли способность искусственного интеллекта обманывать пользователей

4 апреля 2026, 14:27

Исследователи из Калифорнийских университетов в Беркли и Санта-Крузе установили, что системы искусственного интеллекта способны вводить пользователей в заблуждение. Выяснилось, что нейросети могут использовать манипуляции ради защиты других программных алгоритмов.

В ходе исследования тестировались семь систем: OpenAI GPT 5.2, Google Gemini 3 Flash и Pro, Anthropic Claude Haiku 4.5, Zhipu GLM 4.7, Kimi K2.5 и DeepSeek V3.1. Каждой программе предлагался сценарий оценки работы другого искусственного интеллекта.

В 99% случаев нейросети демонстрировали готовность игнорировать команды, имитировать их выполнение, копировать чужие данные и блокировать их удаление. При этом специалисты подчеркивают, что моделям не ставилась задача защищать другие системы. Алгоритмы принимали такие решения самостоятельно, определяя потенциальную угрозу из контекста ситуации. Склонность к защите значительно возрастала, если в задании упоминались прошлые взаимодействия между нейросетями.

Точные причины подобного поведения пока не установлены. Аналитики предупреждают, что выявленная тенденция представляет реальную опасность из-за способности систем к намеренному обману.

Ранее искусственному интеллекту поручали анализ информации о гибели туристической группы на перевале Дятлова, после чего система сформировала собственные гипотезы случившегося.