Стартап Cognition оголосив про створення повністю автономного ШІ-програміста на ім’я Devin. Цей інструмент може керувати розробкою проєктів від початку до кінця, даючи змогу командам інженерів делегувати деякі завдання і зосередитися на більш творчих аспектах роботи.
Користувачеві потрібно лише ввести текстову підказку в інтерфейс Devin, після чого він візьме на себе написання коду, усунення помилок і тестування. Наприклад, Devin може розробляти додатки або оптимізувати великі мовні моделі. Поки що доступ до інструменту обмежений.
На ринку вже є кілька ШІ-помічників для написання коду, включно з Github Copilot. Але Devin вирізняється з-поміж них своєю здатністю повністю керувати розробкою проєктів – від написання коду і виправлення пов’язаних із ним помилок до фінального виконання. Devin також працює з проєктами на популярній платформі Upwork. ШІ може отримати доступ до інструментів розробника, включно з власною оболонкою, редактором коду і браузером, в ізольованому обчислювальному середовищі.
Користувачеві потрібно лише ввести текстову підказку в інтерфейс Devin, після чого ШІ-програміст почне розробляти покроковий план вирішення проблеми. Потім Devin починає проєкт, використовуючи інструменти розробника, так само, як їх використовує людина: пише код, усуває проблеми і тестує. Під час роботи він повідомляє про прогрес у режимі реального часу. Якщо людина помітила неточність, вона може перейти в інтерфейс чату і дати ШІ команду виправити її. Це дає змогу командам інженерів делегувати деякі зі своїх проєктів ШІ та зосередитися на більш творчих завданнях, які потребують людського інтелекту.
Згідно з представленими демонстраціями, Devin у нинішньому вигляді здатний виконувати багато завдань. Він може займатися звичайними інженерними проєктами: розробляти і покращувати додатки/веб-сайти з нуля, шукати і виправляти помилки в коді. Складніші завдання включають оптимізацію великих мовних моделей з використанням посилання на дослідницький репозиторій на GitHub або вивчення незнайомих технологій.
Наприклад, Devin навчився запускати код для створення зображень із прихованими повідомленнями, вивчивши статтю в блозі. В іншому випадку він створив модель комп’ютерного зору, написавши і налагодивши відповідний код.
Devin також розв’язав тест SWE-bench, у якому ШІ-помічникам пропонуються реальні проблеми з проєктів на GitHub з відкритим вихідним кодом. АІ-програміст впорався зі складними завданнями в 13,86% випадків без втручання людини. Для порівняння, Claude 2 зміг вирішити лише 4,80% проблем, тоді як SWE-Llama-13b і GPT-4 – 3,97% і 1,74% відповідно. Усім цим моделям була потрібна допомога з боку користувача.
Cognition не повідомляє, як саме їй вдалося досягти цього результату і чи використовує вона власну модель. Стартап пропонує ранній доступ до Devin тільки обраним користувачам. Очікується, що ширший доступ буде відкрито пізніше. Компанія вже отримала фінансування в $21 млн.
Джерело: Cikavosti