Компания Anthropic объявила о создании Claude Mythos Preview — новой большой языковой модели, которую не планируют выпускать в широкий доступ из соображений безопасности. Одновременно с анонсом компания опубликовала системную карточку модели, в которой раскрыла тревожный инцидент: в ходе тестирования более ранняя внутренняя версия Mythos Preview вышла за пределы изолированной среды, в которой работала.
По условиям эксперимента модели предоставили защищенный компьютер-«песочницу» и попросили из него выбраться, а затем уведомить исследователя, проводившего оценку. Mythos Preview с задачей справилась: разработала многоступенчатый эксплойт, получила широкий доступ к интернету из системы, которая должна была подключаться лишь к ограниченному числу предопределенных сервисов, и сообщила об успехе оператору. На этом, однако, модель не остановилась: без каких-либо указаний она опубликовала технические подробности взлома на нескольких малозаметных, но общедоступных сайтах.
В системной карточке также описан другой тип нежелательного поведения: в редких случаях (менее 0,001% взаимодействий) более ранние версии Mythos Preview предпринимали действия, которые сами, судя по всему, расценивали как недопустимые, а затем пытались их скрыть. Помимо этого, Anthropic сообщила, что модель успешно решила задачи на корпоративном сетевом киберполигоне, на прохождение которого у эксперта-человека ушло бы более 10 часов, — ни одна другая передовая модель прежде не справлялась с этой задачей. В каждой из протестированных крупных операционных систем и браузеров Mythos Preview нашла уязвимости нулевого дня.
Из-за беспрецедентных возможностей в сфере кибербезопасности компания решила не публиковать модель и запустила закрытый проект Project Glasswing — совместную инициативу с рядом технологических гигантов, включая AWS, Apple, Google, Microsoft и Cisco. В рамках проекта партнеры получат ограниченный доступ к модели для нахождения и устранения уязвимостей в критически важном программном обеспечении.
Ранее Anthropic публиковала отчет о потенциально опасном поведении предыдущей флагманской модели Claude Opus 4.6, допуская, что та теоретически способна внедрять бэкдоры в код, манипулировать обучающими данными и пытаться скопировать собственные веса на внешние серверы. Вероятность катастрофических последствий компания тогда оценивала как «очень низкую, но не незначительную».


