Automatisch ondertitelen met 'STON' (spraak- en taaltechnologisch ondertitelen in het Nederlands)

Uitdaging

De beheersovereenkomst 2012-2016 van de VRT bepaalde dat tegen eind 2014 95% van de programma’s moest voorzien zijn van teletekstondertiteling (voor Vlaamse spraak). Voor de nieuws- en duidingsprogramma’s lag de norm zelfs op 100%. Tegelijkertijd neemt de stroom aan media, die opgevolgd en ondertiteld moet worden, steeds toe.

Deze elementen zetten de VRT ertoe aan op zoek te gaan naar een manier om het proces van ondertiteling efficiënter te laten verlopen: meer ondertitelde programma’s aan een lagere operationele kost door de (gedeeltelijke) automatisering van de ondertitelingsworkflow.

Taal- en spraaktechnologie kan hierbij een oplossing bieden, maar moest worden verfijnd.

Aanpak

Concreet wou de VRT een geïntegreerd softwareplatform ontwikkelen met onder meer spraakherkenning, een scriptparser en een oplijningsmodule.

De VRT en het IWT initieerden een marktconsultatie, door in het bulletin der aanbestedingen en in het publicatieblad van de Europese Unie een oproep tot deelname aan een marktverkenning te publiceren. Deze was gericht aan kennisinstellingen actief in de onderzoeksdomeinen taal- en spraaktechnologie, vertaling, audio/video-verwerking en bedrijven die oplossingen ontwikkelen en aanbieden rond ondertitelen, spraakverwerking, taalverwerking en vertaling.

Ongeveer 25 stakeholders uit België en Nederland schreven zich in. Tijdens de marktverkenning, die eind 2012 doorging, werden vragen behandeld als: Welke technologie is hiervoor nodig? Zijn er reeds oplossingen op de markt? Wat zijn de echte noden van de gebruikers? Waar is nog extra onderzoek nodig? Daarnaast werd er rekening gehouden met de echte noden van de gebruikers  (hiervoor werd samengewerkt met VMMa, SBS en de regionale omroepen) (hiervoor werd samengewerkt met VMMa, SBS en de regionale omroepen) en de prioriteiten voor een prototype De antwoorden op deze vragen werden verwerkt in een eindverslag.

Aangezien de conclusie van de marktconsultatie was dat er nog een traject van onderzoek en ontwikkeling nodig was om tot een prototype te komen, volgde in oktober 2013 een aanbesteding voor een pre-commercieel project bestaande uit meerdere percelen.

Twee consortia dienden een offerte in voor alle percelen, 2 leveranciers dienden een voorstel in voor een specifiek perceel.

Uiteindelijk won de offerte van het consortium, bestaande uit twee Belgische bedrijven Devoteam (coördinator) en Limecraft, de kennisinstellingen KULeuven en Universiteit Gent en het Italiaanse PerVoice, dat speech-to-text- oplossingen aanbiedt.

Het consortium ging aan de slag begin 2015 en voorzag 18 maanden voor de ontwikkeling van het prototype. Het bracht verschillende technologische modules samen en bekeek voor elke module mogelijke optimalisaties. De verschillende modules worden in een cockpitplatform verbonden tot een efficiënte workflow, die de gebruiker voorziet van een eenvoudige interface.

Resultaat

Door het samenvoegen en aaneenschakelen van de verschillende modules in één cockpitplatform, introduceert elke module kwaliteitsverlies in het eindreslutaat. Toch is de inzetbaarheid van STON bewezen voor testcases zoals documentaires en online nieuwscontent. Mits nog wat kleine aanpassingen aan de huidige STON workflow, verwacht men een tijdswinst van minstens 50%. STON kan het werk voor de ondertitelaar dus wel degelijk verlichten.

Daarnaast blijft er zeker nog ruimte voor verbetering, zowel voor testcases die momenteel nog te hoog gegrepen zijn (programma’s met veel achtergrondgeluid, snelle dialogen, spontane spraak, dialecten), als voor diegene die nu al winstgevend zijn. Een case per case aanpak is dan ook het motto voor de toekomst van automatische ondertiteling.