Inworld AI a lansat un nou model de voce AI, acesta fiind conceput pentru a transforma conversațiile verbale cu sistemele AI să pară mai umane, mai naturale, prin înțelegerea nu doar a ceea ce spun utilizatorii, ci și a manierei în care aceștia i se adresează.
Realtime TTS-2 este cel mai recent model al companiei startup din Mountain View, capabil să analizează indicii vocali precum tonul, ritmul și înălțimea vocii, pentru a deduce în timp real starea emoțională a persoanei cu care discută. Apoi își ajustează dinamic propria voce și modul de pronunție pentru a crea interacțiuni mai naturale și mai sensibile emoțional.
Pe măsură ce modelele AI de voce se apropie din ce în ce mai mult de iluzia de a discuta cu o altă persoană umană, utilizarea și nivelul de implicare ar putea crește. Deși modelele bazate pe text, programarea asistată de AI și generarea de imagini au avut succes până acum, conversația vocală cu modele și chatboți este potențial un mod mai natural de a folosi această tehnologie. Kylan Gibbs, CEO-ul Inworld, consideră că și componenta emoțională este esențială pentru scalarea acestei tehnologii.
„Conversația în timp real, așa cum avem acum, este modul natural în care interacționează oamenii”, a declarat acesta într-un interviu. „Cu cât te apropii mai mult de asta, cu atât vezi mai multă implicare”.
Lansarea lui Realtime TTS-2 marchează o schimbare de direcție pentru companie, care a strâns peste 100 de milioane de dolari de la investitori precum Founders Fund, Intel și Microsoft. Modelul anterior al Inworld deja ocupa poziții de top în benchmark-urile industriei pentru calitatea vocii, depășind rivali precum Google și ElevenLabs. Însă Gibbs a spus că aceste criterii nu erau suficiente.
Accentul este pus pe interpretarea modului în care interlocutorul se adresează noului AI
Până acum, majoritatea modelelor AI de voce de top au fost concepute pentru redarea de audiobook-uri, comentarii peste materiale video (voiceover-uri) și alt conținut similar, potrivit lui Gibbs, fost product manager la DeepMind.
„Dacă auzi o voce AI astăzi, sună ca un om, dar sună ca un om care citește un scenariu, și există ceva care nu se leagă”, a spus el. „Poate suna bine, dar se simte greșit. E ca și cum ai asculta un audiobook într-o conversație”.
Astfel, eliminarea acestui decalaj dintre realism și interacțiunea naturală a devenit următoarea țintă a Inworld. Pentru a rezolva problema, modelul Realtime TTS-2 combină mai multe capabilități care, în mod normal, nu se regăsesc împreună în sistemele AI voce alternative. De exemplu, înțelege istoricul complet și contextul unei conversații, astfel încât aceeași frază spusă după o glumă are un impact diferit față de o frază similară care apare după o veste proastă.
De asemenea, noul model poate detecta, în timp real, semnalele emoționale din vorbirea umană și actualizează în mod continuu ceea ce Inworld numește „starea utilizatorului” și „starea agentului”, pentru a determina modul în care răspunde AI-ul.
Într-o demonstrație exclusivă la sediul Inworld din Silicon Valley, Gibbs a arătat cum funcționează TTS-2. În câteva secunde, modelul AI de voce a trecut prin mai multe stări diferite, în funcție de modul în care Gibbs i se adresa și de subiectele abordate.
Într-un moment, vocea AI a devenit „empatică, apologetică și directă”, atunci când răspundea la o întârziere în serviciul de suport. A evoluat apoi spre „răbdătoare, caldă și clarificatoare”, transformându-se în „empatică, utilă, cu ritm alert”, în funcție de context și ton.
Mai târziu, în cadrul aceleași demonstrații, un personaj AI numit „Jason” a arătat cât de nuanțate pot fi reacțiile. După ce Gibbs a făcut o glumă nepotrivită în mod intenționat, AI-ul nu a ignorat situația și nici nu a răspuns rigid.
În schimb, reacția a fost una echilibrată: „Ei bine, a fost cu siguranță eficient. Cu siguranță mi-a atras atenția. Nu aș spune că a fost amuzant, dar a fost impresionant într-un fel”. Tonul acestuia trăda un ușor amuzament, combinat cu o ușoară dezaprobare politicoasă, unul dintre exemplele de tip de nuanță pe care Inworld încearcă să îl reproducă cu ajutorul lui Realtime TTS-2.
Gibbs a spus că acest tip de conștientizare emoțională a lipsit până acum din vocile utilizate de sistemele AI existente, deoarece acestea tratează vorbirea drept niște simple intrări de text izolate. În schimb, TTS-2 este conceput să interpreteze și să înțeleagă un spectru mai larg de semnale, inclusiv stilul de adresare și prosodia, adică modul i te adresezi și nu doar enunțul în sine.
Gibbs a adăugat că această tehnologie ar putea avea nenumărate aplicații practice, de la servicii pentru clienți și sănătate până la educație și companioni AI.
Compania producătoare preferă modelul business to business
Inworld poziționează acest model ca infrastructură pentru dezvoltatori, nu ca produs de consum, oferindu-l printr-un API care se conectează la sisteme AI existente. API-urile (interfețe de programare a aplicațiilor) sunt o metodă standard prin care aplicațiile fac schimb de date.
În timp ce rivalul ElevenLabs activează la nivel de aplicații pentru clienți, Inworld oferă acces la modelele de bază, permițând dezvoltatorilor să creeze propriile aplicații care să implementeze aceste tehnologii.
Această abordare vine și din dorința lui Kylan Gibbs de a nu concura direct cu clienții proprii ai companiei sale. În plus, avansul luat de instrumentele de codare cu AI, precum Claude Code de la Anthropic și Codex de la OpenAI, face dezvoltarea de aplicații mult mai simplă, devalorizând oarecum acest nivel al tehnologiei. Gibbs a concluzionat, în privința activității firmei pe care o conduce: „Acum producem doar modele și API-uri”.
Sursa: Mediafax

