Tover een voice-over - kun je AI een stem laten inspreken?

Het inspreken van een voice-over is niet voor iedereen weggelegd. Je moet flink investeren in apparatuur en een geluiddichte ruimte. En belangrijker, je hebt een vaste, duidelijke stem nodig. Die heeft niet iedereen. Een goede stemartiest inhuren kost dan ook aardig wat geld.

Dankzij de voortschrijdende techniek krijgt je vaste stemacteur concurrentie van kunstmatige intelligentie (AI). Via software als Murf.ai genereer je binnen enkele minuten een voice-over voor jouw bedrijfsfilm.

Is de AI een waardige vervanger van een professionele stemacteur of is de menselijke touch onmisbaar? In dit artikel geef ik voorbeelden uit de praktijk en laat ik zien waar de AI toe in staat is en waar deze (nog) tekortschiet.

Nooit gedacht dat ik dit ooit zou schrijven: voor een optimale ervaring raad ik je aan dit artikel te lezen met een koptelefoon.

Voice over met AI - wat kan er al?

Het 'opnemen' van een voice-over met AI is in principe kinderspel. Je schrijft een tekst (of laat deze schrijven door een andere AI) en je zet deze in de software van Murf.ai. Je selecteert een stem en de software genereert een geluidsfragment.

Is je video in het Nederlands, dan heb je de keuze uit drie stemmen. Er zijn twee dames, een jongere en een wat oudere. Wil je een mannenstem, dan krijg je een wat jongere man.

In het Engels heb je tientallen stemmen en kun je kiezen of je bijvoorbeeld een Brits of een Amerikaans accent wilt.

Hieronder beluister je een voice-over van deze alinea. Je kunt zeggen wat je wilt, maar het klinkt niet slecht. De stem is duidelijk en heeft een neutrale toon.

Al moet ik zeggen, je hoort soms wel een vleugje Wall-E of Eve.

Als je een voice-over in het Engels doet, zijn de stemmen aanmerkelijk beter. Ik laat later in het artikel wat Engelstalige voorbeelden zien en hierbij merk je nauwelijks merk dat de stem uit een computer komt.

Je hoeft de voice-over niet te accepteren zoals deze is. Je kunt aan de uitspraak sleutelen om deze beter passend te maken.

De voice-over aanpassen

Ik moet zeggen dat ik best verbluft ben door de kwaliteiten van de voice-over. De meeste zinnen worden foutloos uitgesproken en je hoeft er maar zelden een foutje uit te halen. Om de voice-over wat meer natuurlijk te laten klinken, moet je soms wel wat aanpassingen doen.

Aanpassen van de klemtoon

Murf.ai gaat vrij goed om met de klemtoon in normale teksten. Hieronder hoor je twee keer dezelfde zin, een keer met vraagteken aan het eind en een keer zonder.

Je hoort duidelijk dat de tweede opname met vraagteken is.

Je past de klemtoon ook makkelijk aan als je ergens de nadruk op wilt leggen. 'Wij zijn dé specialist.' Dit werkt prima.

Helaas gaan de normale regels voor de klemtoon gaan niet altijd op bij namen van plaatsen of personen. Bij de grote steden gaat dit nog wel goed, maar bij plaatsnamen als Buitenpost, Veenendaal of Roelofarendsveen hoor je de klemtoon wel verkeerd liggen.

Hoe goed je ook je best doet om het aan te passen, je blijft merken dat de klemtoon niet goed ligt.

Uitspraak van woorden

Eerder gaf ik al aan dat Murf.ai zelden een miskleun heeft qua uitspraak. Maar zodra er wat buitenlandse namen in het spel zijn, wordt het wel lastig. Zolang namen in het Duits, Engels of Spaans zijn, gaat het prima. Murf.ai weet namen als Virgil van Dijk en Kenneth Taylor perfect uit te spreken. Zelfs namen van kleinere plaatsen in het Duits of Frans gaan nog best aardig.

Er zijn ook namen waar Murf.ai echt niet uit komt. Die van Orkun Kökçü bijvoorbeeld. In eerste instantie maakt Murf.ai er 'Ka Ka' van, omdat deze de ö, de ç en de ü niet kent. Als ik dan zelf aangeef hoe de uitspraak moet, dan krijg ik het niet beter dan Kuksjoe of Kuktsjoe. In beide gevallen ben ik niet echt tevreden over de uitspraak, omdat de ç qua uitspraak precies tussen 'sj' en een harde 'tsj' zit.

Er zijn meer situaties waarin je er gewoon net niet helemaal uit komt. De AI spreekt de naam Thomas in alle gevallen op dezelfde, Nederlandse, manier uit. Prima als het over Thomas Acda gaat, maar niet als je Thomas Edison bedoelt. Het is ook heel lastig om hier wel een correcte uitspraak van te maken, omdat wij in Nederland de 'th' klank niet zo kennen als in het Engels.

Het zou mooi zijn als je een fonetisch alfabet kon gebruiken om de uitspraak aan te geven.

Snelheid

Als laatste wil je misschien met de snelheid spelen van je voice-over. Ook dit kan. Je kunt de uitspraak tot drie keer versnellen en zelfs tienmaal langzamer maken. Dat laatste zou ik niet doen voor de gehele voice-over, want dan wordt een heel slaapverwekkend verhaal.

Bij het verhogen of verlagen van de snelheid, merk je heel duidelijk dat je met software te maken hebt. De stemopname wordt gewoon versneld of vertraagd afgespeeld. Als je zelf een zin heel snel uitspreekt, merk je dat je dit zelf heel anders doet. Sommige klanken kun je heel erg inkorten, terwijl je op andere momenten een beetje moet inhouden omdat het anders onverstaanbaar wordt.

Het versnellen gaat aardig, tot een factor 1.2-1.4. Daarna klinkt het niet meer 'natuurlijk'. Het vertragen van een opname klinkt goed, maar ik gebruik liever een korte pauze als dat moet.

Kunstmatige emotionele intelligentie

De voice-overs die je maakt met software als Murf.ai zijn behoorlijk neutraal qua emotie. Dit is prima voor een informerende video. Is het je doel om de kijker te enthousiasmeren, dan gaat dit niet lukken met AI. Je kunt zelfs niet een basisemotie aangeven; alles komt er neutraal uit. Van onderstaande 'reclame' word ik persoonlijk niet heet of koud.

Ook een gesprek tussen twee AI-stemmen is nog ver weg. Zelfs als twee mensen spreken over iets droogs als de jaarcijfers, er komt altijd wel wat emotie kijken. Iemand lacht even en er zijn talloze manieren waarop iemand 'uhm…' kan zeggen. Voor zover ik dat in kan schatten, gaat het ook nog heel lang duren voordat dit op een goede manier mogelijk is.

Hoe goed is de AI nu echt?

Alles bij elkaar, is de kwaliteit van de voice-overs van de AI uiteindelijk net onder de maat. Des te langer de tekst is, des te groter de kans dat er foutjes in komen die onoverkomelijk zijn.

Een ander nadeel is daarnaast het beperkte aantal stemmen dat je hebt. In het Nederlands zijn er maar drie. Heb je het liefst een voice-over van een oudere man, dan kan dit op moment nog niet.

Met een kunstmatige voice-over ga je (voorlopig) nooit die herkenbaarheid krijgen. En juist deze herkenbaarheid is soms heel belangrijk. Denk maar aan Frank Lammers, de voice-over van de reclames van reisorganisatie TUI. Zelfs als je de reclame alleen maar hoort, weet je dat er een reclame voor TUI wordt afgespeeld.

Het belangrijkste nadeel is nog wel dat de stemmen uiteindelijk toch iets te monotoon zijn. Een korte voice-over gaat nog wel, maar ik moet er niet aan denken dat ik een door AI ingesproken luisterboek moet luisteren. Dan val ik waarschijnlijk na een kwartier in slaap.

Wanneer schakel je de AI in?

Hoewel de AI voice-overs dus nog verre van perfect zijn, kun je ze zeker gebruiken. We hebben het inmiddels een paar keer gebruikt in de praktijk.

Een hele korte voice-over

Het onderstaande filmpje is eenmalig getoond als openingsvideo tijdens een event. Er was een voice-over nodig van twee zinnen. Als je dit laat inspreken door een professionele stemartiest, dan betaal je hier flink voor. De meeste voice-overs rekenen een starttarief van €250 of meer.

Voor deze film hebben we ervoor gekozen om een AI-stem te gebruiken. De tekst is eenvoudig en daarom goed door een van de stemmen van Murf.ai uit te spreken. Op de achtergrond hoor je muziek en de visuele effecten op een groot scherm waren best overweldigend. Hierdoor heeft niemand gemerkt dat de voice-over niet van een 'echte' stem was.

Een mock-up

Het is vaak wat lastig om een script precies passend te krijgen bij de beelden. Je hebt een voice-overtekst geschreven en wat beelden geschoten, maar je weet niet precies hoe het geheel bij elkaar past. Ondertussen wil je wel een goed beeld krijgen van hoe het eindproduct eruit komt te zien. Een mock-up van de voice-over is dan perfect.

Hieronder zie je een video die wij hebben gemaakt in opdracht van het Permanent Hof van Arbitrage. Zij hadden een tekst geschreven, maar die was nog niet definitief. Ondertussen hadden wij al wat filmmateriaal geschoten en we hebben hier een voice-over van Murf.ai onder gemonteerd.

Op deze manier weten we dat het bestaande script qua lengte in ieder geval goed is. Het is voor de stemartiest ook makkelijker om de video op te nemen als deze een beter beeld heeft van het eindproduct.

Nasynchronisatie

Bij nasynchronisatie denk je als eerste aan een Duitse stemacteur die een mooie quote uit een Amerikaanse film om zeep helpt. 'Houston, wir haben ein Problem gehabt.' 'Ich mache ihm ein Angebot, das er nicht ablehnen kann.' Het is het gewoon niet helemaal.

Hoewel we in Nederland (gelukkig) vaak kiezen voor ondertiteling, is nasynchronisatie soms handig voor je publiek. Bij sommige videoformats heeft beeld wel meerwaarde, maar is het niet onmisbaar. Een interview is prima alleen te luisteren.

Als je in zo'n video een kort fragment laat zien met een spreker in een andere taal, is nasynchronisatie een prima oplossing. De luisteraars hoeven dan niet ineens naar hun scherm te kijken om de ondertiteling te lezen. Ze missen dan wel alle emoties. De kijkers zien op hun scherm een sporter die uitzinnig is van vreugde, maar ze horen heel droogjes iemand zeggen dat zeggen dat ze de prestatie van hun leven hebben geleverd.

Magie of een illusie?

Het lijkt natuurlijk pure tovenarij, dat een stuk software stukken tekst kan voorlezen en dit ook best goed doet. Ik heb in deze blog wat uitzonderingssituaties belicht, maar in het grootste gedeelte van de gevallen redt de AI-stem zich vrij aardig.

Het grootste nadeel is dat je sommige fouten niet kunt voorkomen. Als een menselijke voice-over niet over weg kan met de naam van je bedrijf, kan je deze eindeloos instrueren hoe het wel moet. Bij de AI heb je een paar aanpassingsmogelijkheden. Kom je er niet uit? Jammer dan. Hoe meer video's je gaat maken, des te groter het risico dat het een keer op hinderlijke wijze misgaat.

De AI-stem is op dit moment vooral geschikt voor korte, eenmalige producties. Je hebt een kleinere kans op fouten en het gebrek aan herkenbaarheid is geen probleem. De techniek achter software als Murf.ai blijft relatief nieuw. Met wat meer stemmen en iets meer aanpassingsmogelijkheden gaat het al een stuk beter.

Over de auteur

Niels de Groot (MA Film Studies) specialiseert zich sinds 2011 in videoproductie en videomarketing. Met zijn videomarketing bureau Pro Motion Film helpt hij bedrijven en ondernemers te groeien met video.

Connect met Niels op LinkedIn ->

Pro Motion Film

Meer dan 10 jaar ervaring in videoproductie en videomarketing