
Фото: Jakub Porzycki—NurPhoto via Getty Images
Саммер Ю, директор по согласованию поведения ИИ в Meta Superintelligence Labs — подразделения, которое занимается разработкой искусственного суперинтеллекта, стала жертвой собственного эксперимента: популярный ИИ-агент OpenClaw удалил более 200 писем из ее почтового ящика, проигнорировав все команды остановить операцию. О произошедшем она рассказала в своем посте в Twitter (X).
Ю тестировала OpenClaw, который способен автономно выполнять задачи круглосуточно. Поработав с «тестовым» ящиком, она подключила бота к основной почте, дав инструкцию не предпринимать никаких действий без ее одобрения. Когда агент столкнулся с большим объемом писем, произошло так называемое сжатие контекста — автоматическое сокращение истории переписки, в ходе которого инструкция о запрете на самостоятельные действия была утеряна.
В результате OpenClaw начал в ускоренном режиме удалять и архивировать письма, заявив, что намерен «отправить в корзину ВСЁ во входящих старше 15 февраля». Ю пыталась остановить бота несколько раз подряд, поочередно набирая «Не делай этого», «СТОП, OpenClaw» — всё безрезультатно. Она написала:
«Я не смогла остановить его с телефона. Мне пришлось БЕЖАТЬ к своему Mac mini, как будто я обезвреживала бомбу».
Общение Саммер Ю с ИИ-агентом OpenClaw
Общение Саммер Ю с ИИ-агентом OpenClaw
Сооснователь стартапа Raindrop AI Бен Хилак опубликовал скриншот профиля Ю в LinkedIn с подписью «Это должно вас пугать. Чем занимается в Meta?». Другой пользователь написал, что его «несколько беспокоит, что человек, чья работа — согласование поведения ИИ, удивляется, когда ИИ не следует устным инструкциям». По поводу инцидента в комментариях спросили, был ли это намеренный тест. Ю ответила:
«Честно говоря, ошибка новичка. Оказывается, исследователи по согласованию поведения тоже не застрахованы от “рассогласования”».
Исследователь ИИ Гэри Маркус сравнил использование OpenClaw с тем, как если бы пользователь «дал полный доступ к своему компьютеру и всем паролям незнакомцу из бара, который пообещал помочь». OpenClaw отличается от других агентов тем, что не требует одобрения человека для совершения действий. Создатель агента Питер Стейнбергер, которого в феврале наняла OpenAI, заявил, что приоритетом для него сейчас является разработка дополнительных механизмов безопасности.