Automatische vertalingen zijn van het Engels naar het Duits of Spaans vaak opvallend beter dan naar het Nederlands. Dat komt omdat Facebook en Google voor deze vertalingen gebruikmaken van parallelle vertalingen die op het internet te vinden zijn. In het Engels en Spaans zijn nu eenmaal meer vertalingen te vinden waarop de tekst gecontroleerd kan worden.
Veel lastiger is het als het gaat om vertalingen van of naar het Maori, Tamil of bijvoorbeeld het Nederlands. Bij ‘zeldzame’ talen is het aantal gratis verkrijgbare vertalingen beperkt. Daardoor is het lastig om een goede automatische vertaling te genereren. Het resultaat is meestal een kromme zinsconstructie of een verkeerde context.
Word embedding
Een aantal machine-learning-ontwikkelaars van Facebook zijn met dit probleem aan de slag gegaan. Zij hebben een nieuw systeem ontwikkeld om automatische vertalingen te verbeteren. Het is nu mogelijk om zonder controle van parallelle bron- en doelteksten goede vertalingen af te leveren. Het gaat om een systeem dat ieder woord (= vector) plaatst in een vectorruimte. Een vectorruimte is de woordverzameling (in het Engels: ‘word embedding’) van geassocieerde woorden die met het woord te maken hebben. Het woord ‘hond’ staat bijvoorbeeld dichter bij ‘huisdier’ en ‘puppy’ dan het woord ‘wolkenkrabber’. De afstand tussen de afzonderlijke vectoren in de vectorruimte is in elke andere taal meestal redelijk vergelijkbaar. Zie het voorbeeld hieronder waarin de vectoren ‘goal’, ‘bal’ en ‘voetbal’ worden vergeleken in het Engels en Turks.
“Met deze techniek kunnen we nu automatisch een tweetalig woordenboek samenstellen zonder toegang tot parallelle vertalingen”, belooft Facebook alvast in een blogpost. De techniek staat nog in de kinderschoenen en de uitkomsten op zinsniveau zijn nog niet bijzonder goed. Het is echter wel duidelijk dat de machine- of automatische vertalingen via vectorruimten veel beter verloopt dan via automatische woord-voor-woord vertalingen. En dat nieuws is eigenlijk de grootste doorbraak.
Vooralsnog wordt de beste vertaling nog altijd door een gediplomeerd en ervaren vertaler gemaakt. Wilt u ook een ‘menselijke’ vertaling van uw document? Neem dan contact met ons op via info@mkvertalingen.nl of telefonisch op 020-7055182.
Dit bericht is gebaseerd op dit artikel en deze blogpost. De afbeelding met animatie komt uit dit artikel over vectoren.