Новая система безопасности Microsoft «улавливает» галлюцинации в ИИ-программах клиентов Azure

Специалисты подразделения Microsoft, занимающейся искусственным интеллектом, создали ряд дополнительных функций безопасности для пользователей Azure AI Studio.

Руководитель подразделения Сара Берд отметила, что эти инструменты, построенные на базе обширной языковой модели, могут выявлять потенциальные уязвимости в системах, отслеживать «правдоподобные» галлюцинации ИИ и блокировать злонамеренные подсказки в режиме реального времени — когда клиенты Azure AI работают с любой моделью, размещенной на платформе.

«Мы знаем, что не все клиенты имеют опыт в мгновенных атаках, поэтому система оценки генерирует подсказки, необходимые для имитации таких типов атак. Это позволяет клиентам получить оценку и ознакомиться с результатами», — отметила она.

Система имеет потенциал уменьшить споры относительно генеративного искусственного интеллекта, вызванные нежелательными или непреднамеренными результатами. Например, недавние случаи открытых фейков о знаменитостях в генераторе изображений Microsoft Designer, исторически недостоверные данные от Google Gemini или тревожные изображения анимационных героев, которые управляют самолетом в башнях-близнецах, сгенерированные Bing.

Сейчас в предварительной версии на Azure AI доступны три функции:

Prompt Shields, которая блокирует быстрые запросы или злонамеренные подсказки, что заставляют модели забывать свои учебные данные;
Groundedness Detection, которая находит и блокирует галлюцинации;
Функция оценки безопасности, которая взвешивает уязвимости модели.

Скоро будут представлены еще две функции: одна для направления моделей на безопасные результаты, а другая для отслеживания подсказок, помогающих выявить потенциально проблемных пользователей.

Независимо от того, вводит подсказку пользователь или модель обрабатывает данные третьей стороны, система мониторинга оценит ее, чтобы увидеть, запускает ли она какие-то запрещенные слова, имеет ли скрытые подсказки, прежде чем решит отправить ее модели для ответа. После этого система просматривает ответ и проверяет, не галлюцинировала ли модель (то есть выдавала ложные данные).

В перспективе клиенты Azure также смогут получать отчёты о пользователях, которые пытаются инициировать рискованные действия. Берд отмечает, что это позволит системным администраторам отличать красные флаги от пользователей с злонамеренными намерениями.

Отмечается, что функции безопасности сразу «подключаются» к GPT-4 и другим популярным моделям, таким как Llama 2. Однако, поскольку коллекция моделей Azure содержит много систем искусственного интеллекта — пользователям менее популярных систем с открытым исходным кодом возможно придется добавить их вручную.

Источник: The Verge

В случае возникновения дополнительных вопросов, пожалуйста, обращайтесь по электронному адресу sales@softico.ua или по телефону +380 (44) 383 4410.