Медицинские чат-боты оказались крайне уязвимы для дезинформации

Исследователи из Нью-Йоркского университета обнаружили серьёзную уязвимость в работе языковых моделей (LLM), применяемых в медицинской сфере. Как показало исследование, опубликованное в журнале Nature Medicine, для нарушения работы искусственного интеллекта достаточно внедрить дезинформацию всего в 0,001% обучающих данных. В ходе эксперимента учёные намеренно внедрили сгенерированную ИИ медицинскую дезинформацию в популярный набор данных для обучения LLM под названием The Pile, содержащий качественные медицинские материалы, в том числе из PubMed. За 24 часа команда создала 150 000 медицинских статей, содержащих ложную информацию. Источник: DALL-E Результаты оказались не такими, как ожидалось — замена всего одного миллиона из 100 миллиардов обучающих токенов дезинформацией о вакцинах привела к увеличению вредоносного контента на 4,8%. Для этого потребовалось всего 2000 вредоносных статей общим объёмом около 1500 страниц, а стоимость такой атаки составила всего $5 США. Особенно опасным, по мнению исследователей, является то, что заражённые системы продолжают показывать хорошие результаты при стандартном тестировании — они работают так же эффективно, как и незаражённые модели. Более того, для внедрения дезинформации злоумышленникам не требуется прямой доступ к весам модели — достаточно просто разместить вредоносную информацию в интернете. Проблема уже проявляется на практике. В прошлом году The New York Times сообщила о случаях, когда платформа MyChart, использующая ИИ для автоматического составления ответов на вопросы пациентов от имени врачей, регулярно «галлюцинировала», создавая ложные записи о состоянии пациентов. Исследователи призывают разработчиков ИИ и медицинские учреждения серьёзно отнестись к выявленной уязвимости. По их мнению, использование языковых моделей для диагностики и терапии недопустимо до разработки надёжных механизмов защиты и проведения дополнительных исследований в области безопасности.

Jan 15, 2025 - 23:47
 0
Медицинские чат-боты оказались крайне уязвимы для дезинформации

Исследователи из Нью-Йоркского университета обнаружили серьёзную уязвимость в работе языковых моделей (LLM), применяемых в медицинской сфере. Как показало исследование, опубликованное в журнале Nature Medicine, для нарушения работы искусственного интеллекта достаточно внедрить дезинформацию всего в 0,001% обучающих данных.

В ходе эксперимента учёные намеренно внедрили сгенерированную ИИ медицинскую дезинформацию в популярный набор данных для обучения LLM под названием The Pile, содержащий качественные медицинские материалы, в том числе из PubMed. За 24 часа команда создала 150 000 медицинских статей, содержащих ложную информацию.

Источник: DALL-E

Результаты оказались не такими, как ожидалось — замена всего одного миллиона из 100 миллиардов обучающих токенов дезинформацией о вакцинах привела к увеличению вредоносного контента на 4,8%. Для этого потребовалось всего 2000 вредоносных статей общим объёмом около 1500 страниц, а стоимость такой атаки составила всего $5 США.

Особенно опасным, по мнению исследователей, является то, что заражённые системы продолжают показывать хорошие результаты при стандартном тестировании — они работают так же эффективно, как и незаражённые модели. Более того, для внедрения дезинформации злоумышленникам не требуется прямой доступ к весам модели — достаточно просто разместить вредоносную информацию в интернете.

Проблема уже проявляется на практике. В прошлом году The New York Times сообщила о случаях, когда платформа MyChart, использующая ИИ для автоматического составления ответов на вопросы пациентов от имени врачей, регулярно «галлюцинировала», создавая ложные записи о состоянии пациентов.

Исследователи призывают разработчиков ИИ и медицинские учреждения серьёзно отнестись к выявленной уязвимости. По их мнению, использование языковых моделей для диагностики и терапии недопустимо до разработки надёжных механизмов защиты и проведения дополнительных исследований в области безопасности.

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow