Нова високошвидкісна модель штучного інтелекту, про яку вперше згадали ще на презентації I/O 2023, торкнеться майже кожної частини бізнесу пошукового гіганта. Минулого року компанія відставала від OpenAI, свого головного конкурента на цьому ринку, але тепер спробує довести, що її ШІ є найкращим у своєму класі й може повністю змінити наш спосіб використання ШІ.

10 найважливіших речей, які ми дізналися про Gemini від Google
Перше й найголовніше, що потрібно знати: Gemini отримає цілих три версії, які охоплюватимуть від центрів обробки даних до телефонів. Gemini Ultra — найбільша та найпотужніша модель для надскладних завдань. Наразі версія Ultra доступна лише до відібраних тестувальників, експертів з безпеки та основних бізнес-партнерів. Решта з нас не побачить Gemini до початку наступного року. Gemini Pro — універсальна модель для широкого кола завдань. Gemini Nano — модель для виконання завдань прямо на пристрої, без з’єднання з серверами, що забезпечить користувачам конфіденційність їхніх даних.
Gemini Pro буде інтегровано в Google Bard. Це повинно вивести чат-бот на новий рівень і, можливо, зробити його навіть кращим, ніж ChatGPT. Сьогодні Bard показує дещо гірші результати роботи, ніж технологія OpenAI, хоча й впроваджує деякі функції раніше, ніж Google. Поки що Gemini в складі Bard працює лише з англійською мовою, але надалі компанія розширить підтримку до інших мов. Нинішня версія чат-бота підтримує й інші мови. Смартфони Pixel отримають вбудовану підтримку Gemini Nano. Якщо точніше, то Pixel 8 Pro вже працює з цим ШІ, але поки що можливості його обмежені. Gemini Nano тепер керує функцією Summarize у додатку Android Recorder на Pixel 8 Pro. Google заявляє, що штучний інтелект також буде використовувати функцію Android Smart Reply, але тільки якщо ви використовуєте клавіатуру Google, і тільки у WhatsApp. Наступного року Gemini з’явиться в більшій кількості додатків для обміну повідомленнями та в інших частинах операційної системи. Власні тести Google показують, що Gemini кращий за все, що є в арсеналі OpenAI. Компанія показала дві таблиці, в яких порівняла свою технологію з мовною моделлю GPT-4, і в переважній більшості випадків кращі результати демонструє саме Gemini. Зокрема, у тестах MMLU він показав 90% коректних відповідей, тоді як ChatCPT – 86,4 відсотка. MMLU або Massive Multitask Language Understanding – це стандартний галузевий тест, який вимірює можливості ШІ за допомогою різноманітних завдань, які поєднують 57 предметів, таких як математика, фізика, історія, право, медицина та етика. Цікаво, що в MMLU Gemini від Google обігнав навіть людину.

https://s3.eu-central-1.amazonaws.com/media.my.ua/feed/52/5605fcfd5e0249d18bf3fca4ab964930.jpg

Тестування Gemini від Google показує його перевагу над найближчим конкурентом, GPT-4 / Фото Google

Ми також бачимо перемогу в двох із трьох тестів на осмислення й здатність робити висновки, в обох тестах з математики та обох тестах з написання програмного коду.

Google запускає платну версію Bard. Gemini Pro зараз уже працює в Bard, але якщо ви хочете спілкуватися з найкращою версією штучного інтелекту Gemini Ultra, вам доведеться заплатити. Цей підхід нагадує OpenAI, яка пропонує ChatGPT 3.5 безплатно всім охочим, а за ChatGPT 4 просить 20 доларів. Платна версія отримає назву Bard Advanced, але її ціна поки що невідома.

Bard отримає голос. Наразі єдиний чат-бот, який може говорити з вами, – це ChatGPT. Але скоро це зміниться. Google заявляє, що додасть Bard до Google Assistant десь наступного року. Поки що незрозуміло, як саме це виглядатиме і яка саме з трьох версій Gemini ляже в основу нового Асистента. Але поки ми на це чекатимемо, у нас уже буде можливість говорити зі штучним інтелектом за допомогою голосу, як це було показано у відеоролику. Така функція виводить технологію на абсолютно новий рівень, адже тепер ми матимемо не лише обмежені й заздалегідь підготовлені відповіді, які ми отримуємо сьогодні, а щоразу унікальні розмови з чат-ботом. Gemini обробляє зображення, відео та аудіо так само добре, як і текст. Google багато говорить про «мультимодальні» можливості Gemini та «мультимодальну продуктивність», що означає, що він може сприймати й видавати різні види інформації, такі як текст, зображення, відео й аудіо. За словами компанії, Gemini вчився працювати з різними носіями інформації з самого початку, а не освоював нові можливості вже постфактум. Google поділився відео, де Бард на базі Gemini допомагає студенту з домашнім завданням з фізики, починаючи з фотографії завдання з питаннями, написаними від руки. Потім ШІ плавно переходить до письмових порад з рівняннями і покроковими відповідями.

На опублікованому порівнянні видно, що Gemini перемагає GPT-4 в абсолютно всіх тестах у зображеннях, відео та аудіо.

https://s3.eu-central-1.amazonaws.com/media.my.ua/feed/52/418a0302b584b726263594d7d2c36254.jpg

Порівняння можливостей мультимодальності Gemini та GPT-4 / Фото Google

Gemini забезпечує роботу нового надпотужного інструменту кодування. В складі ШІ працює оновлений інструмент AlphaCode 2. За словами компанії, він «чудово вирішує конкурентні завдання з програмування, які виходять за рамки кодування і включають складну математику та теоретичну інформатику». Gemini – у кожній частині Google. Gemini не просто збирається покращити Bard і вбудувати ШІ в телефони. Google заявила, що нова модель буде використовуватися у всіх найважливіших продуктах компанії, включаючи Chrome, пошук, рекламу та інші. Реальних термінів немає. Google лише повідомила, що ці продукти отримають потужність Gemini «в найближчі місяці».
Gemini освіжить хмарний бізнес Google, який приносить компанії одні з найбільших прибутків. Звичайний користувач ніколи не замислюється про цей бік інтернету, але Google Cloud пропонує різноманітні послуги для бізнесу, включаючи зберігання даних, аналітику даних та машинне навчання, а також набір інструментів для управління. Величезна частина технологічного боку світу бізнесу працює на Google Cloud, і Gemini відкриє наступну еру цієї платформи.

Gemini – багатообіцяюча технологія, яка повинна сподобатися нам усім. На одному з опублікованих відео, можна бачити кілька прикладів його роботи. Наприклад, він добре визначає, на що дивиться його камера. Людина спочатку малює лінії, просто звичайну схему, а ШІ розуміє, що мається на увазі, розпізнаючи в цьому качку. Коли людина підносить до камери іграшкове каченя й питає, з чого воно зроблене, ШІ припускає, що це щось тверде, наприклад, метал. Але коли людина стискає її, алгоритм відразу ж виправляється і каже, що з огляду на нові дані, це може бути гума. Він також добре розпізнає математичні рівняння, письмо від руки та багато іншого. І все це він здатен озвучувати голосом, ведучи з вами бесіду.

Google також стверджує, що Gemini є однією з найбезпечніших моделей ШІ на сьогодні, тому користувачам, які стурбовані цим питанням, не варто хвилюватися.

от myua