Dopo le immagini e il testo c'è la voce. In realtà non siamo di fronte a una successione logica
Dopo le immagini e il testo c’è la voce. In realtà non siamo di fronte a una successione logica. Tutto quello che può essere digitalizzato e misurato diventa oggetto dell’intelligenza artificiale generativa. Avevamo già parlato di Vall-E ora ci occupiamo di alcune novità. Nei giorni scorsi Zuckerberg ha presentatoche, oltre a generare clip audio da un semplice testo, può svolgere diverse funzioni relative all’editing e al campionamento.
A differenza dei sistemi generativi per immagini e testo, Voicebox crea file in una vasta varietà di stili, e può creare clip audio da zero così come modificare un campione che gli viene dato. La qualità è alta. Il modello può sintetizzare il discorso in sei lingue, così come svolgere operazioni di rimozione del rumore, modifica del contenuto, conversione dello stile e generazione di campioni diversi.
Voicebox è stato addestrato con oltre 50.000 ore di discorsi registrati e trascrizioni da audiolibri di dominio pubblico in inglese, francese, spagnolo, tedesco, polacco e portoghese. Voicebox è addestrato a prevedere un segmento di discorso quando gli viene fornito il discorso circostante e la trascrizione del segmento.
Voicebox è basato su un metodo chiamato “Flow Matching” e come si legge dai loro test ha mostrato miglioramenti rispetto ai modelli di diffusione. Rispetto a VALL-E, Voicebox supera le prestazioni in termini di intelligibilità e somiglianza audio, ed è fino a 20 volte più veloce. Per il trasferimento di stile cross-linguistico, Voicebox supera YourTTS riducendo il tasso medio di errori di parola e migliorando la somiglianza audio.
Italia Ultime Notizie, Italia Notizie
Similar News:Puoi anche leggere notizie simili a questa che abbiamo raccolto da altre fonti di notizie.
Blog | Da Harry Potter mafioso agli ultimi videogiochi ripensati a 8 bit #datavizandtools - Info DataA fine marzo, fece il giro dei social una foto di Papa Francesco con il piumino biancoEcco alcuni dei progetti più sorprendenti realizzati con software, come Midjourney o Stable diffusion
Leggi di più »
Blog | Scopri la classe energetica degli edifici lombardi. Ecco il dataset di Cened - Info DataSecondo i dati diffusi da Aria, sono 103mila gli edifici residenziali lombardi che si trovano in classe energetica A
Leggi di più »
Blog | A proposito di Nikola Jokić ecco le statistiche dei playoff Nba. In un grafico - Parte 3 - Info DataNei grafici che seguono sono stati rappresentati i giocatori NBA che hanno partecipato ai playoff riportando le loro performance per punti, rimbalzi ed assist.
Leggi di più »
Blog | Come leggono oggi i bambini di quarta elementare? - Info Data🔸 Come leggono oggi i bambini di quarta elementare? ➡️ Secondo un'indagine divulgata da InfoData pare lo facciano meglio dei coetanei europei, ma peggio dei loro fratelli maggiori.
Leggi di più »
Blog | Viva l'arte della leggerezza contro la rincorsa della perfezione - Alley OopIn 'Sembrava una felicità' Jenny Offill smonta la rincorsa della perfezione e celebra l'arte della leggerezza.
Leggi di più »