Als fervent Siri-gebruiker op je iPhone zou het toch fantastisch zijn om, als echte Fries, de Friese taal te kunnen spreken tegen de persoonlijke assistent op je smartphone of tablet. Het is binnenkort wellicht mogelijk en dat allemaal dankzij… de Bijbel!
Nieuwsartikelen nodig bij vertalen
Bij het ontwikkelen van automatische vertaalsystemen en zoekmachines gebruiken taalkundigen onder andere nieuwsartikelen uit kranten. Toch zijn er niet voor alle talen voldoende nieuwsartikelen te vinden in die taal. En zonder nieuwsartikelen is het vrijwel onmogelijk om tot accurate vertalingen te komen. Zo zijn er voor het Welsh in Wales, de Ierse taal en de taal van de Faeroërs, dat maar door zo’n 66.000 mensen wordt gesproken, niet genoeg artikelen beschikbaar om een automatisch vertaalsysteem mee te ontwikkelen.
De Bijbel als hulpmiddel
Daar hebben taalkundigen nu een oplossing op bedacht. Er wordt steeds vaker gebruik gemaakt van de Bijbel. Anders Søgaard van de universiteit van Kopenhagen zegt dat de Bijbel in meer dan 1500 talen is vertaald, zelfs in de meest exotische talen. ‘De vertalingen zijn erg conservatief. Zinnen hebben in verschillende talen dezelfde structuur, waardoor het makkelijk is om vertaalsystemen te bouwen.’
Ook Wikipedia als bron
Naast de Bijbel wordt er ook goed gebruik gemaakt van Wikipedia. Op Wikipedia staan meer dan 35 miljoen artikelen over verschillende onderwerpen in veel verschillende talen. Engels gaat aan kop als populairste taal met zo’n 4,9 miljoen pagina’s vol informatie. Daarnaast zijn er bijna 130 talen die meer dan 10.000 artikelen bevatten.
‘Glasses’ en ‘Brille’
Maar op welke manier gebruiken taalkundigen nu nieuwsartikelen uit kranten, de Bijbel en Wikipedia? Søgaard: ‘We maken hierbij gebruik van een methode: ‘omgekeerde indexatie’. Normaal gebruiken we woorden om het concept te omschrijven, maar bij omgekeerde indexatie is dit andersom. Zo lees je op de Engelse pagina over Harry Potter het woord ‘glasses’. Op de Duitse pagina komt ‘Brille’ in dezelfde context voor, waardoor we weten dat deze woorden bij elkaar horen. Dit vormt de basis van automatische vertaalsystemen.’