Выпущен бенчмарк ABC-Bench для оценки ИИ в лаборатории и биобезопасности
Исследователи представили бенчмарк Agentic Bio-Capabilities Benchmark (ABC-Bench) в научной работе, сообщила Sciencecast. Бенчмарк включает набор задач, в которых крупные языковые модели должны программировать роботов для работы с жидкостями, разрабатывать фрагменты ДНК и обходить системы скрининга синтеза ДНК. При тестировании ИИ-агенты превзошли средних человеческих экспертов по этим показателям.
Однако результаты также выявили двойственный характер применения технологии, вызывая опасения по поводу биобезопасности. Выпуск бенчмарка создаёт единый стандарт для оценки возможностей ИИ в лабораторных и биоинформатических задачах.