Дослідники Лабораторії комп’ютерних наук і штучного інтелекту Массачусетського технологічного інституту представили нову структуру, яка спрощує багатоетапні процеси традиційних дифузійних моделей ШІ до одного кроку, усуваючи попередні обмеження. Це дало змогу прискорити наявні моделі дифузії, як-от Stable Diffusion і DALLE-3, у 30 разів, при цьому якість візуального контенту залишилася на високому рівні.
Підхід учених під назвою Distribution matching distillation (DMD) об’єднує принципи генеративно-змагальних мереж із принципами дифузійних моделей. Генеративно-змагальні мережі складаються з генератора, який створює нові дані, і дискримінатора, який намагається визначити, чи є ці дані реальними або згенерованими. Дифузійні моделі працюють шляхом додавання шуму до доступних навчальних даних, а потім обертають процес для відновлення даних.
DMD складається з двох компонентів. Перший упорядковує зображення, роблячи їхні властивості та характеристики більш передбачуваними. У результаті навчання стає стабільнішим. Другий гарантує, що ймовірність генерації певного зображення моделлю-“учнем” відповідає тому, як часто таке зображення зустрічається в реальному світі. Для цього використовуються спеціальні моделі дифузії, які допомагають системі відрізнити справжні зображення від згенерованих.
Система досягає більш швидкої генерації, оскільки мережа-“учень” навчається мінімізувати розбіжності між згенерованими нею зображеннями та зображеннями з навчального набору даних, що використовується традиційними моделями дифузії.
Вчені скопіювали і налаштували параметри вихідних моделей, що дало їм змогу швидко навчити нову модель-“учня”. Так, як “вчителя” використовували Stable Diffusion v1.5. Дослідники ніби стиснули знання складнішої моделі-“вчителя” в простішу і швидшу модель, обходячи проблеми, властиві генеративно-змагальним мережам. Використовуючи ту саму архітектуру, ця модель могла генерувати високоякісні зображення. Комбінуючи різні методи оптимізації на основі оригінальної архітектури, можна було прискорити генерацію.
Новий метод дозволив генерувати візуальний контент за один крок. За словами авторів дослідження, зменшення кількості ітерацій було “Святим Граалем” дифузійних моделей з моменту їхнього створення. Порівнюючи зі звичайними методами з використанням безлічі тестів DMD показав стабільну продуктивність. Це перший метод одноетапної генерації, який створює зображення практично на одному рівні із зображеннями вихідних, складніших моделей. Крім того, DMD справляється з перетворенням тексту в зображення в промисловому масштабі. Однак у складніших завданнях перетворення тексту в картинки все ще існує невелика різниця в якості.
Ще одна проблема полягає в тому, що якість зображень, створених за допомогою DMD, переймає недоліки моделі-“вчителя”, використовуваної в процесі навчання. У поточній формі, де в якості “вчителя” виступала Stable Diffusion v1.5, модель-“учень” успадковує обмеження в детальній візуалізації тексту та облич. Тому зображення, згенеровані DMD, можна додатково поліпшити за допомогою більш просунутих моделей-“вчителів”.
Джерело: Cikavosti