Нова ШІ-модель OpenAI генерує реалістичні 60-секундні відео

OpenAI представила нову модель генерації відео під назвою Sora, яка дозволяє користувачам створювати фотореалістичні відео тривалістю до хвилини на основі текстових підказок. Sora здатна генерувати складні сцени з кількома персонажами, точними деталями та емоціями, а також заповнювати кадри існуючого відео. Хоча подекуди видно спотворення, наприклад, «плаваюча» підлога, результати все одно вражаючі. Доступ до Sora поки що обмежений.

У своєму блозі OpenAI повідомляє, що Sora здатна створювати складні сцени з кількома персонажами, складними рухами камери та точними деталями об’єкта та фону. Модель розуміє, як об’єкти «існують у фізичному світі», а також точно інтерпретує реквізит та створює переконливих персонажів із яскравими емоціями.

Модель може генерувати відео на основі нерухомого зображення, а також заповнювати недостатні кадри наявного відео або розширювати його. Наприклад, Sora згенерувала історичні кадри Каліфорнії під час золотої лихоманки, відео зсередини токійського поїзда, кролика мультяшного і багато іншого. Щоправда, деякі приклади видають ШІ. Так, на відео з музею підлога рухається. OpenAI визнає, що модель може помилятися у моделюванні фізики складної сцени та неправильно інтерпретувати причину та слідство. Але результати загалом досить дивовижні.

Моделі перетворення тексту на відео почали вдосконалюватися дивовижними темпами. Такі компанії, як Runway та Pika, продемонстрували власні ШІ-моделі, а також Google Lumiere вважається одним з основних конкурентів OpenAI у цій галузі. Подібно до Sora, Lumiere надає користувачам інструменти для перетворення тексту у відео, а також дозволяє створювати відео з нерухомого зображення. Приклади відеороликів Sora виділяються чіткістю роздільної здатності, плавністю рухів, точністю анатомії та фізичного світу та, найголовніше, тривалістю — 60 секунд. Для порівняння: Runway та Pika пропонують лише чотири секунди генерації за раз з можливістю розширення.

Поки що Sora доступна лише «червоним командам», які оцінюють модель на предмет потенційної шкоди та ризиків. OpenAI також пропонує доступ деяким художникам, дизайнерам та кінематографістам для отримання зворотного зв’язку.

Як і іншим компаніям у сфері штучного інтелекту, OpenAI доведеться боротися з дипфейками та несумлінним використанням реалістичних відеороликів, які помилково прийняті за справжні.

Джерело: Cikavosti

Нова ШІ-модель OpenAI генерує реалістичні 60-секундні відео

КОНТАКТИ