Нова модель синтезу мовлення від Amazon має неймовірно людські можливості

Дослідники з Amazon розробили найбільшу на сьогодні модель синтезу мовлення під назвою Big Adaptive Streamable TTS with Emergent abilities або BASE TTS.

Ця модель із 980 мільйонами параметрів демонструє нові якості, які покращують її здатність натуралістично формулювати складні речення.

На відміну від звичайних моделей, коли моделі синтезу мовлення з тексту перевищують певний поріг розміру, вони демонструють значно покращену продуктивність у різних розмовних завданнях ШІ.

Модель BASE TTS, навчена на основі 100 000 годин публічного мовлення, переважно англійською, демонструє надзвичайну універсальність для різних мов, включаючи німецьку, голландську та іспанську.

BASE TTS демонструє вміння працювати зі складними лінгвістичними елементами, такими як складні іменники, емоції, іноземні слова, паралінгвістика, пунктуація, запитання та синтаксичні складності, перевершуючи своїх попередників, таких як Tortoise та VALL-E.

Незважаючи на експериментальний характер, архітектура BASE TTS і обширні навчальні дані дозволяють йому вміло вирішувати лінгвістичні складності.

Примітно, що модель є потоковою, що дозволяє генерувати мовлення в режимі реального часу та включає такі метадані, як емоційність і тональність.

У міру прогресу дослідження розуміння точки перегину нових здібностей і оптимізації розгортання моделі будуть мати вирішальне значення.

Ця точка перегину може стати першим кроком до «загального ШІ», який є представленням узагальнених когнітивних здібностей людини в програмному забезпеченні.

Теоретично загальний ШІ міг виконувати ширший спектр завдань, ніж слабкий штучний інтелект, і виконувати творчі дії, які раніше могли лише люди.

Однак скептики сумніваються, що загальний штучний інтелект настільки близький, наскільки нас можуть переконати технологічні компанії.

Еллісон Еттінгер, доцент Чиказького університету, каже: «Ви можете мати моделі, які дуже вправно вимовляють вільну мову на основі того, що ви бачили масу мови».

Далі вона каже, що вільне мовлення моделі легко пояснити розумінням, хоча насправді вона просто краще прогнозує, які слова використовувати на основі трильйонів подібних знань.

vetal12v

Recent Posts

Чому мій TikTok не отримує переглядів (15 причин, виправлення)

Раптове зниження кількості переглядів може засмучувати, особливо якщо ви як творець маєте значну кількість переглядів.…

12 години ago

Скільки порушень призведе до блокування користувача в TikTok (оновлено 2023)

Кожна платформа соціальних медіа прагне запровадити Умови обслуговування (TOS), щоб зробити Інтернет чистим і дружнім…

21 годину ago

Rite Aid заборонено використовувати технологію розпізнавання обличчя

Федеральна торгова комісія (FTC) заборонила аптечній мережі Rite Aid використовувати технологію розпізнавання облич протягом п'яти…

1 день ago

Що станеться, якщо ваше джерело живлення надто слабке (7 речей)

Загальноприйнятою порадою щодо блоків живлення є те, що потрібно вашій системі. Багато експертів рекомендують купувати…

2 дні ago

Чи прискорює дефрагментація ваш комп’ютер (пояснення)

Комп'ютерний світ сповнений міфів, у яких є частка правди. Однак багато з цих істин уже…

3 дні ago

Як ШІ рятує слонів від браконьєрів

Іноді засоби масової інформації зосереджуються на всьому негативному, що представляє штучний інтелект, і легко забути,…

4 дні ago