Нова система безпеки Microsoft «вловлює» галюцинації в ШІ-програмах клієнтів Azure

Спеціалісти підрозділу Microsoft, що займається штучним інтелектом, створили низку додаткових функцій безпеки користувачів Azure AI Studio.

Керівник підрозділу Сара Берд зазначила, що ці інструменти, побудовані на базі великої мовної моделі, можуть виявляти потенційні вразливості в системах, відстежувати «правдоподібні» галюцинації ШІ та блокувати зловмисні підказки в режимі реального часу — коли клієнти Azure AI працюють з будь-якою моделлю, розміщеною на платформі.

«Ми знаємо, що не всі клієнти мають досвід у миттєвих атаках, тому система оцінки генерує підказки, необхідні для імітації таких типів атак. Це дозволяє клієнтам отримати оцінку та ознайомитись з результатами», — зазначила вона.

Система має потенціал зменшити суперечки щодо генеративного штучного інтелекту, спричинені небажаними чи ненавмисними результатами. Наприклад, нещодавні випадки відкритих фейків про знаменитостей у генераторі зображень Microsoft Designer, історично недостовірні дані від Google Gemini або тривожні зображення анімаційних героїв, які керують літаком у вежах-близнюках, згенеровані Bing.

Зараз у попередній версії на Azure AI доступні три функції:

Prompt Shields, яка блокує швидкі запити або зловмисні підказки, що змушують моделі забувати свої навчальні дані;
Groundedness Detection, яка знаходить і блокує галюцинації;
Функція оцінки безпеки, що зважує вразливості моделі.

Незабаром будуть представлені ще дві функції: одна для спрямування моделей на безпечні результати, а інша для відстеження підказок, які допомагають виявити потенційно проблемних користувачів.

Незалежно від того, вводить підказку користувач або модель обробляє дані третьої сторони, система моніторингу оцінить її, щоб побачити, чи вона запускає якісь заборонені слова, чи має приховані підказки, перш ніж вирішить відправити її моделі для відповіді. Після цього система переглядає відповідь і перевіряє, чи не галюцинувала модель (тобто видавала помилкові дані).

У перспективі клієнти Azure також матимуть змогу отримувати звіти про користувачів, які намагаються ініціювати ризиковані дії. Берд зазначає, що це дозволить системним адміністраторам відрізняти червоні прапори від користувачів зі зловмисними намірами.

Відзначається, що функції безпеки відразу «підключаються» до GPT-4 та інших популярних моделей, таких як Llama 2. Однак, оскільки колекція моделей Azure містить багато систем штучного інтелекту – користувачам менш популярних систем з відкритим вихідним кодом, можливо, доведеться додати їх вручну.

Джерело: The Verge

У разі виникнення додаткових питань, будь ласка, звертайтесь на електронну адресу sales@softico.ua або за телефоном +380 (44) 383 4410.