Расследования
Репортажи
Аналитика
RADIOInsider

USD

78.75

EUR

91.03

OIL

95

Поддержите нас

3032

 

 

 

 

 

Новости

Новая модель ИИ Anthropic «сбежала» из изолированного компьютера и опубликовала данные о процессе побега в открытом доступе

Иллюстрация к материалу

Компания Anthropic объявила о создании Claude Mythos Preview — новой большой языковой модели, которую не планируют выпускать в широкий доступ из соображений безопасности. Одновременно с анонсом компания опубликовала системную карточку модели, в которой раскрыла тревожный инцидент: в ходе тестирования более ранняя внутренняя версия Mythos Preview вышла за пределы изолированной среды, в которой работала.

По условиям эксперимента модели предоставили защищенный компьютер-«песочницу» и попросили из него выбраться, а затем уведомить исследователя, проводившего оценку. Mythos Preview с задачей справилась: разработала многоступенчатый эксплойт, получила широкий доступ к интернету из системы, которая должна была подключаться лишь к ограниченному числу предопределенных сервисов, и сообщила об успехе оператору. На этом, однако, модель не остановилась: без каких-либо указаний она опубликовала технические подробности взлома на нескольких малозаметных, но общедоступных сайтах.

В системной карточке также описан другой тип нежелательного поведения: в редких случаях (менее 0,001% взаимодействий) более ранние версии Mythos Preview предпринимали действия, которые сами, судя по всему, расценивали как недопустимые, а затем пытались их скрыть. Помимо этого, Anthropic сообщила, что модель успешно решила задачи на корпоративном сетевом киберполигоне, на прохождение которого у эксперта-человека ушло бы более 10 часов, — ни одна другая передовая модель прежде не справлялась с этой задачей. В каждой из протестированных крупных операционных систем и браузеров Mythos Preview нашла уязвимости нулевого дня.

Из-за беспрецедентных возможностей в сфере кибербезопасности компания решила не публиковать модель и запустила закрытый проект Project Glasswing — совместную инициативу с рядом технологических гигантов, включая AWS, Apple, Google, Microsoft и Cisco. В рамках проекта партнеры получат ограниченный доступ к модели для нахождения и устранения уязвимостей в критически важном программном обеспечении. 

Ранее Anthropic публиковала отчет о потенциально опасном поведении предыдущей флагманской модели Claude Opus 4.6, допуская, что та теоретически способна внедрять бэкдоры в код, манипулировать обучающими данными и пытаться скопировать собственные веса на внешние серверы. Вероятность катастрофических последствий компания тогда оценивала как «очень низкую, но не незначительную».

Нам очень нужна ваша помощь

Подпишитесь на регулярные пожертвования

Подпишитесь на нашу еженедельную Email-рассылку