Новый бенчмарк оценивает производительность ИИ в биологических задачах и рисках биобезопасности
Учёные представили ABC-Bench, набор тестов, измеряющий способность крупных языковых моделей выполнять лабораторные и биоинформатические задачи, обнаружив, что ИИ-агенты превосходят средних человеческих экспертов, при этом подчёркивая потенциальные двойные применения.
Учёные выпустили Agentic Bio-Capabilities Benchmark (ABC-Bench) для оценки того, как крупные языковые модели (LLM) справляются с лабораторными и связанными с биобезопасностью задачами. Бенчмарк включает три типа заданий: генерацию кода для роботов, обрабатывающих жидкости, проектирование ДНК-фрагментов для in-vitro сборки и разработку методов обхода скрининга синтеза ДНК. Эти задачи объединяют биологические знания с навыками программирования.
Тестирование нескольких ИИ-агентов на бенчмарке показало, что каждая модель превзошла медианную производительность экспертов-человеков-базовых линий по всем заданиям. Модели продемонстрировали отличные результаты в задачах, опирающихся на устоявшиеся протоколы и опубликованную информацию, но показали более слабые результаты в задаче, требующей нового биоинформатического рассуждения.
Для подтверждения выводов исследователи провели три эксперимента в мокрой лаборатории. В одном из испытаний модель OpenAI o4-mini-high создала скрипт, который успешно управлял роботом OpenTrons для обработки жидкостей, собирая ДНК с ожидаемыми последовательностями.
Результаты иллюстрируют растущие возможности ИИ-систем выполнять сложные биологические функции, одновременно вызывая опасения по поводу их потенциального злоупотребления в двойных применениях.