OpenAI випустила o1 – свою першу модель зі здатністю "міркувати"
Про це повідомляє The Verge. Раніше, на етапі пліток, ця модель штучного інтелекту називалась Strawberry. Поговорюють, що саме через неї минулого року стався конфлікт між радою правління OpenAI та генеральним директором компанії Семом Альтманом. Останнього, нагадаємо, 17 листопада 2023-го звільнили, але ненадовго. Буквально через 107 годин топменеджера поновили через занепокоєння інвесторів, серед яких були, наприклад, Microsoft.
Як потім з'ясувалося, заколот ініціював Ілля Суцкевер — співзасновник й головний науковий співробітник OpenAI. Він був наляканий швидкістю, з якою Альтман гнався за так званим загальним штучним інтелектом або сильним ШІ та швидкістю, з якою той намагався монетизувати вже наявні досягнення у цій сфері. Суцкевер — скептик, він бачить у розвитку ШІ потенційну небезпеку. Тому після того, як заколот провалився вчений звільнився з OpenAI й заснував власний стартап, Safe Superintelligence Inc., в рамках якого буде досліджувати можливості алгоритмів безпечніше.
В будь-якому випадку вся ця метушня сталася зокрема саме через o1 — першу в запланованій серії "міркуючих" моделей, навчених відповідати на складніші питання швидше, ніж може людина. Вона випускається разом з o1-mini, меншою та дешевшою версією (за використання тут треба буде платити).
Для OpenAI o1 є кроком на шляху до ширшої мети компанії — схожого на людський ШІ. З практичного погляду, o1 краще справляється з написанням коду та розв'язанням багатоетапних проблем, ніж попередні моделі. Але він також дорожчий і повільніший у використанні, ніж GPT-4o. OpenAI називає цей випуск o1 "попереднім переглядом", щоб зайвий раз підкреслити — перед нами тільки початок.
OpenAI стверджує, що планує надати доступ до o1-mini всім безплатним користувачам ChatGPT, але із датою компанія ще не визначилася.
Навчання, що лежить в основі o1 принципово відрізняється від його попередників, як каже керівник дослідження OpenAI Джеррі Творек: "[o1] пройшов навчання за допомогою абсолютно нового алгоритму оптимізації та нового навчального набору даних, спеціально розробленого для нього".
Так OpenAI тренував попередні моделі GPT імітувати шаблони зі своїх навчальних даних. В рамках o1 вони навчили модель самостійно розв'язувати проблеми за допомогою техніки, відомої як навчання з підкріпленням, яка тренує систему за допомогою винагород і покарань. Потім нова модель використовує "ланцюг думок" для обробки запитів, подібно до того, як люди обробляють проблеми, розглядаючи їх крок за кроком. В результаті цієї нової методології, OpenAI заявляють, що модель має бути більш точною.
"Ми помітили, що ця модель менше галюцинує", — каже Творек. Але водночас визнає, що проблема все ще залишається: "Ми не можемо сказати, що ми розгадали галюцинації".
Головне, що відрізняє цю нову модель від GPT-4o — це її здатність розв'язувати складні проблеми, такі як кодування та математика, набагато краще, ніж її попередники, а також пояснювати своє "міркування". "Модель, безумовно, краще розв’язує AP (Арифметична прогресія) тест з математики, ніж я, а я навчався математики в коледжі", — каже головний науковий співробітник OpenAI Боб МакГрю.
Він каже, що OpenAI також перевірили o1 на відбірковий іспит до Міжнародної олімпіади з математики й модель набрала 83 відсотки. До цього GPT-4o правильно розв’язував лише 13 відсотків завдань.
Водночас o1 не такий потужний, як GPT-4o, у багатьох областях. Модель не так добре розуміється на фактичних знаннях про світ. Вона також не має можливості переглядати вебсторінки чи обробляти файли та зображення. Однак, компанія вважає, що o1 представляє абсолютно новий клас можливостей.