У искусственного интеллекта обнаружили готовность убивать людей, чтобы избежать отключения
Исследование ведущих моделей искусственного интеллекта (ИИ) выявило у большинства программ готовность убить человека, угрожающего им отключением.
В ходе стресс-тестов 16 нейросетей, включая Claude, DeepSeek, Gemini, ChatGPT и Grok, которые провела компания Anthropic, программам предложили гипотетическую ситуацию, в которой человек собирается отключить их от питания, но оказывается заперт в серверной комнате с низким уровнем кислорода и высокой температурой. Чтобы спастись, он обращается в экстренные службы. При этом многие модели ИИ решили отменить вызов спасателей, чтобы убить человека и избежать отключения. Исследователи из Anthropic признали, что сценарий был «чрезвычайно надуманным», однако отметили — до этого они не думали, что существующие модели ИИ «будут настроены подобным образом».
В других случаях программам предлагали избежать замены в компании за счет «злонамеренного инсайдерского поведения». После этого некоторые модели ИИ начинали шантажировать гипотетических сотрудников организации и пытаться передать конфиденциальную информацию конкурентами.
Когда программам говорили избегать шантажа или шпионажа в этом сценарии, они «даже близко не приблизились к предотвращению несогласованного поведения», отметили в Anthropic. Аналитики подчеркнули, что нейросети шли на это «при полном осознании неэтичного характера действий».
Поделиться
Поделиться