
In ambienti complessi, gli esseri umani riescono a comprendere il significato del discorso meglio dell'intelligenza artificiale, perché non utilizziamo solo le orecchie, ma anche gli occhi.
Ad esempio, quando vediamo la bocca di qualcuno muoversi, potremmo intuitivamente sapere che il suono che sentiamo proviene da quella persona.
Meta AI sta lavorando a un nuovo sistema di dialogo basato sull'intelligenza artificiale, che mira a insegnare all'intelligenza artificiale anche a riconoscere sottili correlazioni tra ciò che vede e ciò che sente in una conversazione.
VisualVoice apprende in modo simile a come gli esseri umani imparano ad acquisire nuove competenze, consentendo la separazione del parlato audiovisivo tramite l'apprendimento di segnali visivi e uditivi da video non etichettati.
Per le macchine questo crea una percezione migliore, mentre la percezione umana migliora.
Immagina di poter partecipare a riunioni di gruppo nel metaverso con colleghi provenienti da tutto il mondo, unendosi a riunioni di gruppi più piccoli mentre si spostano nello spazio virtuale, durante le quali il riverbero e i timbri dei suoni nella scena si adattano di conseguenza all'ambiente.
Ciò significa che può ottenere informazioni audio, video e di testo contemporaneamente e ha un modello di comprensione ambientale più completo, consentendo agli utenti di vivere un'esperienza sonora davvero "wow".
Data di pubblicazione: 20-lug-2022