Нова генеративна модель Meta могла б зробити голосових асистентів розумнішими та ефективнішими, однак компанія поки не ділиться програмою чи її вихідним кодом.
Voicebox AI працює за схожою до ChatGPT і Dall-E моделлю, однак генерує не текст чи зображення, а мовлення. Система навчена на 50 000 годинах нефільтрованого аудіо – це стенограми загальнодоступних аудіокниг, записаних англійською, французькою, іспанською, німецькою, польською та португальською мовами.
За словами дослідників, такий різноманітний набір даних дозволяє системі генерувати «більш розмовне мовлення», незалежно від мов, якими розмовляє кожна зі сторін.
«Наші результати показують, що моделі розпізнавання мовлення, навчені на синтетичному мовленні, згенерованому Voicebox, працюють майже так само добре, як і моделі, навчені на реальному мовленні», – кажуть в Meta.
Компанія стверджує, що Voicebox перевершує VALL-E від Microsoft щодо перетворення тексту в мову як з точки зору розбірливості (5,9% проти 1,9% частоти помилок в слові), так і схожості аудіо (0,580% проти 0,681%), будучи при цьому аж у 20 разів швидшою.
Серед інших корисних функцій Voicebox – можливість редагувати аудіо, усувати шуми та навіть змінювати неправильно сказані слова.
«Людина може визначити, який необроблений сегмент мови спотворений шумом (наприклад, гавкіт собаки), обрізати його та дати команду моделі оновити цей сегмент», — кажуть дослідники.
Meta каже, що використовує новий метод навчання синтезу мовлення «з нуля» під назвою Flow Matching. Поки для загалу доступні лише дослідницька стаття та аудіоприклади – ані програма Voicebox, ані її вихідний код наразі не оприлюднені, що Meta пояснює «потенційними ризиками неправильного використання».
Дослідники сподіваються, що у майбутньому ця технологія може бути використана для протезування пацієнтів із пошкодженням голосових зв’язок, ігрових NPC та цифрових помічників.
Нагадаємо, що в січні Meta випустила свою мовну модель ШІ LLaMA — як пакет з відкритим вихідним кодом, доступ до якого можуть отримати члени ШІ-спільноти. Однак за тиждень після того, як компанія почала приймати запити, торент для завантаження мовної моделі з’явився на сайті 4chan, а згодом поширився в інших спільнотах.
Також Meta створила SAM — ШІ-модель сегментації зображень, яка може реагувати на підказки користувача (текстові або вказані курсором), щоб ідентифікувати певні об’єкти на зображенні чи відео; а також пропонує розробникам відкритий код та набір даних із 180 000 зображень до ШІ-проєкту Animated Drawings, який допоможе анімувати звичайні малюнки