Alexa migliora la sua voce con l'intelligenza artificiale

Sep 24, 2023

Il 20 settembre 2023, nel quartier generale Amazon in Virginia, i vice presidenti senior Dave Limp e Rohit Prasad hanno presentato una serie di novità legate al mondo dell'intelligenza artificiale. Tra queste anche la release del nuovo Large Language Model (LLM), ottimizzato per le applicazioni vocali di Alexa.

L'obiettivo è quello di rendere la conversazione più umana, migliorare l'interazione con il dispositivo e fare in modo che il tuo Alexa sia in grado di capire cosa stai dicendo sfruttando una serie di segnali che prima erano solo dell'essere umano. Come, ad esempio, la comprensione del tono di voce ma anche la capacità di capire quando l'utente si rivolge ad Alexa senza bisogno di pronunciare la parola-sveglia.

Come hanno migliorato Alexa

Per approfondire i passaggi fondamentali possiamo dare uno sguardo al comunicato ufficiale pubblicato sul blog www.amazon.science. Tra le novità abbiamo il modello di sintesi vocale di Alexa:

"An LLM-based model that produces output speech directly from input speech. With the speech-to-speech model, Alexa will exhibit humanlike conversational attributes, such as laughter, and it will be able to adapt its prosody not only to the content of its own utterances but to the speaker’s prosody as well".

Il modello speech-to-speech introdotto con questo aggiornamento permette ad Alexa di seguire una conversazione simile a quella umana. Ad esempio può ridere seguendo il filo della discussione o rispondere con esuberanza nel momento in cui riconosce un tratto vocale tipico dell'eccitazione.

In questo video puoi trovare degli esempi di come cambia la risposta di Alexa alle domande del pubblico. Ed è ben chiaro che adesso c'è un passo avanti importante che viene mosso a favore di un'interazione umana. Ecco qualche dettaglio in più per approfondire l'update che è appena stato presentato.

Conversazioni più coinvolgenti

Oggi Alexa ha un punto di vista all'interno dell'interazione, rendendo le interrogazioni più animate. I tecnici hanno lavorato anche per ridurre la latenza. Così gli scambi di battute scorrono, sono sempre più naturali. Basta a stop tecnici e risposte che sembrano solo la lettura ad alta voce di paragrafi testuali.

Focus su aspetti espressivi

Il documento di aboutamazon.com ci ricorda che un grande lavoro è stato svolto non solo per rendere Alexa più precisa ed efficace, ma anche simile all'uomo nel suo approccio alla conversazione. 

"As humans, we often pause during conversation to gather our thoughts, or emphasize a point, and identifying those cues is incredibly hard for an AI. This new CSR engine is capable of adjusting to those common natural pauses and hesitation—enabling more flowing, natural conversation".

C'è una voce meno robotica che ti aspetta nell'interazione e, soprattutto, capace di riprodurre elementi fondamentali della comunicazione paraverbale come le pause, il ritmo, il volume della risposta.

Integrazione con la fotocamera

Lo abbiamo anticipato e lo ricordiamo: si può chiamare in causa l'AI guardando lo schermo di un dispositivo abilitato, bypassando la necessità di pronunciare la parola "Alexa" ogni svolta. Ovviamente c'è la combinazione con gli input acustici per avere maggiori informazioni sulle intenzioni del pubblico.

Qual è il risultato finale?

Siamo abituati a lanciare i comandi di Alexa come dei prompt per ChatGPT. Con questo aggiornamento tutto cambia e possiamo dialogare con Alexa, e aspettarci risposte che tengono presente delle diverse sfumature del linguaggio umano. Magari utilizzando degli intercalari e dei fonosimbolismi che permettono al pubblico di continuare a parlare senza dover richiamare la parola-sveglia di continuo.

Amazon non ha abbandonato Alexa ma conferma e rilancia grazie ai risultati ottenuti attraverso lo sviluppo dell'intelligenza artificiale. ora la domanda: come risponderà Google a questa evoluzione? 

Canale Telegram dedicato:

entra nel canale Telegram di Mario e ricevi notizie e audio utili ogni giorno

Entra nel canale e rimani aggiornato
Close

50% Complete

Two Step

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.