
In ambienti complessi, gli esseri umani possono comprendere il significato del discorso meglio dell'IA, perché usiamo non solo le nostre orecchie ma anche i nostri occhi.
Ad esempio, vediamo la bocca di qualcuno muoversi e possiamo intuitivamente sapere che il suono che sentiamo deve provenire da quella persona.
Meta AI sta lavorando a un nuovo sistema di dialogo AI, che è quello di insegnare all'IA a imparare anche a riconoscere sottili correlazioni tra ciò che vede e ascolta in una conversazione.
Visualvoice impara in modo simile a come gli umani imparano a padroneggiare nuove abilità, consentendo la separazione del linguaggio audiovisiva imparando segnali visivi e uditivi da video senza etichetta.
Per le macchine, questo crea una percezione migliore, mentre la percezione umana migliora.
Immagina di essere in grado di partecipare alle riunioni di gruppo nel Metaverse con i colleghi di tutto il mondo, unendosi a riunioni di gruppo più piccole mentre si muovono attraverso lo spazio virtuale, durante il quale il suono si rivernisce e i timbri nella scena si adattano a un ambiente si adattano di conseguenza.
Cioè, può ottenere informazioni audio, video e di testo contemporaneamente e ha un modello di comprensione ambientale più ricco, consentendo agli utenti di avere un'esperienza sonora "molto wow".
Tempo post: lug-20-2022