Anthropic отменяет скрытую политику снижения производительности Claude Fable 5 после возмущения исследователей
Anthropic заявила, что сделает меры защиты модели Claude Fable 5 видимыми после критики, что скрытая политика молча снижала бы производительность пользователей, пытающихся разрабатывать конкурирующие ИИ-системы.
Anthropic объявила, что изменит механизмы безопасности своей модели Claude Fable 5, сделав их видимыми для пользователей, после того как компания столкнулась с сильным сопротивлением со стороны исследовательского сообщества ИИ. Фирма заявила, что прежний подход, который молча ухудшал вывод модели для пользователей, подозреваемых в попытках построить конкурирующие ИИ-системы, был «неправильным компромиссом», и извинилась за то, что не нашла правильный баланс.
Первоначальный запуск Claude Fable 5 включал меры защиты, перенаправляющие запросы о кибербезопасности, биологии или химии к менее способной модели, что было направлено на снижение риска злоупотребления. Однако Anthropic также планировала тайно ограничивать производительность модели для исследователей, занимающихся передовыми разработками ИИ, практику, которую критики назвали «секретным саботажем».
«Снижение производительности в исследованиях машинного обучения без уведомления пользователя шокирующе враждебно и выглядит ужасно», — написал Дин Болл, старший научный сотрудник Фонда американских инноваций.
«Создалось впечатление, что Anthropic говорит общественности: ‘Мы не доверяем никому другому заниматься исследованием ИИ. Мы единственные, кто должен заниматься исследованием ИИ’», — сказал Уилл Браун, руководитель исследований в Prime Intellect.
Anthropic заявила, что скрытые меры защиты были направлены на предотвращение использования её самых мощных моделей иностранными противниками и на предоставление обществу времени для адаптации к быстрым технологическим изменениям в области ИИ. Теперь компания планирует оповещать пользователей, когда запрос отклоняется или перенаправляется, а также расширять видимость своих классификаторов, признавая, что более широкая сеть может затронуть более безобидные запросы, пока она работает над повышением точности.
Отмена политики последовала после опасений, что нераскрытые ограничения производительности могут препятствовать открытым проектам ИИ и сторонним оценочным фирмам, тестирующим передовые модели на безопасность и надёжность.