Amazons “Automated Dub” använder AI för att dubba videor till främmande språk

Med populariteten för så många streamingplattformar blir innehållet ganska mångsidigt och annorlunda. Fler och fler människor tittar på främmande språk som "Money Heist" och "Dark" eftersom de är bra program och finns tillgängliga över hela världen. Men vissa av oss vill titta på våra program på ett språk som vi förstår. Ibland räcker det inte med undertexter. Med detta sagt kan dubbning av utländska shower till ett annat språk bli tidskrävande och dyrt för produktionsföretag. Detta är den främsta anledningen till att många shower inte dubblas på främmande språk. Amazon-forskare kan ha en lösning på detta problem.

I en uppsats publicerad på förtrycksservern Arxiv.org teoretiserade Amazon-forskare och testade en ny "tal-till-tal" -teknik. Det använder AI för att konvertera originaltal till ett översatt tal och förfina det översatta talet så att det låter mer mänskligt. Detta är bara ett första steg mot att utveckla ett enklare och mycket billigare sätt att kopiera program och filmer.

Hur det fungerar

Denna "tal-till-tal" -teknik är mycket mer komplicerad än den låter. Att översätta ett originaltal till ett främmande tal med hjälp av datorer är en hektisk uppgift. Det är inte att översätta ett språk till ett annat bara från ljudresursen, men det finns flera steg inblandade.
Den automatiserade dubbningsprocessen innehåller i huvudsak tre steg. Först måste originaltalen konverteras i textformat. Det andra steget innebär att översätta texten till önskat språk. Slutligen genererar den översatta texten det nya talet.

Nu finns det komplikationer med att utveckla det nya talet från den översatta texten till talet. Det översatta talet ska matcha hastigheten och känslorna i det ursprungliga talet. Det bör också bära bakgrundsljud och eliminera efterklang.

För att få den här komplicerade processen att fungera bekräftade Amazon-forskare det deras tal-till-tal-teknik har utbildats på mer än 150 miljoner engelska-italienska par av fras för att bestämma hastigheten för ett talsegment av det översatta talet för att matcha det ursprungliga talets hastighet. Detta steg säkerställer pauserna och pauserna i det översatta talet för att matcha det ursprungliga talet.

En modell i text-till-tal-fasen har tränat i 47 timmars talinspelningar. Den här modellen genererar en kontextsekvens från texten som matas in i en förutbildad vocoder, som täcker sekvensen till en talvågform.

Denna teknik kan också extrahera bakgrundsljud från originalljudet och placera det i det översatta ljudet för att göra det mer likt originalljudet. Slutligen tillämpas ett separat steg som kallas efterklangssteg för att lägga till efterklang av det ursprungliga ljudet till det översatta.

Kommer det att vara användbart?

Processen är säkert en komplicerad, men forskare skrev att deras framtida arbete kommer att ägnas åt förbättringar av den automatiska dubbningen. Det kan eliminera behovet av röstaktörer att kopiera en show eller en film till ett annat språk. Det blir mindre tidskrävande och mycket billigare att dubba innehåll till önskat språk. Och ja, det kommer att gynna produktionshusen att leverera fler shower och filmer till tittarna genom att göra listan mycket mer varierad.