Er wordt vandaag veel gesproken over Neural Machine Translation (NMT), maar de werking van deze vertaaltechnologie is nog relatief onbekend. Er heerst wat mysterie rond NMT en om het goed te snappen moet je een beetje abstract denken.

In onze volgende drie blogberichten gaan we dieper in op de technologie achter NMT.

NMT lokt heel wat reacties uit; van doemdenken over het einde van de vertaalindustrie tot zuivere euforie over de kwaliteit van vertaling. Wij nemen graag een tussenweg. Als Google echter zegt dat het zijn service enorm heeft verbeterd dankzij NMT, dan moet er wel enige reden tot opwinding zijn. NMT is zonder twijfel een enorme verbetering ten opzichte van statistische machinevertaling, aangezien NMT vertalingen biedt die heel natuurlijk en menselijk klinken.

Lees ook onze post over verschillende machine translation technologieën en ontdek of neural machine translation altijd de beste optie is.

NMT: VAN NAALDJE TOT DRAADJE

Maar ‘first things first’. Laat ons beginnen met een definitie van NMT.

Neural Machine Translation (NMT) is een vorm van machinevertaling waarbij gebruik wordt gemaakt van een groot artificieel neuraal netwerk om voorspellingen te doen over de waarschijnlijkheid van een sequentie van woorden. NMT probeert volledige zinnen te modelleren op een geïntegreerde manier. Deep Neural Machine Translation is een extensie van Neural Machine Translation.

(Bron: Wikipedia.)

We gaan even dieper in op een aantal van de termen uit die definitie:

  • Een neuraal netwerk is een computersysteem dat de miljarden neuroncellen in het menselijke brein nabootst en dat gebruik maakt van observatiedata (voorbeelden) om te leren en beslissingen te nemen.

  • Neurale netwerken zijn een vorm van machine learning, een soort artificiële intelligentie waarbij statistische technieken worden gebruikt om computers het vermogen te geven om te leren.

  • Deep neural machine translation verwijst naar de term deep learning. Dat is de uitbreiding van een neuraal netwerk met verschillende lagen. Deep learning maakt het mogelijk om patronen te herkennen in digitale voorstellingen van geluiden, beelden en andere gegevens.

DE ARCHITECTUUR VAN NMT

Het mooie aan neurale machinevertaling is dat het hele zinnen in één keer vertaalt, in plaats van stuk voor stuk, zoals dat het geval is met traditionele machinevertaling op basis van regels (Rule-Based Machine Translation - RBMT).

NMT gebruikt de context van de zin om de meest relevante vertaling te achterhalen. Die vertaling wordt vervolgens herschikt en aangepast totdat het meer klinkt zoals een persoon die spreekt volgens de juiste grammatica, vergelijkbaar met hoe mensen zouden vertalen. Als we 'De jongen rijdt op de fiets' willen vertalen, maken we eerst een mentale voorstelling van hoe dat eruit ziet. Als we die voorstelling hebben, dan kunnen we vertalen.

NMT gebruikt een encoder-decoderarchitectuur. Het neurale netwerk van de encoder leest en codeert een bronzin in een "thought vector" of "betekenisvector", een opeenvolging van getallen die de betekenis van de zin weergeeft. Een decoder voert vervolgens een vertaling uit van de gecodeerde vector.

Het hele encoder-decodersysteem wordt getraind met veel data om de kans op een correcte vertaling van de bronzin te vergroten. Dat maakt het mogelijk om afhankelijkheden op lange afstand in talen vast te leggen, zoals overeenkomst in geslacht en syntaxstructuren. Dat resulteert in veel vloeiendere vertalingen.

Het idee dat zinnen of gedachten omgezet worden in getallen kan wat vreemd aanvoelen. In onze volgende blogpost gaan we daar dieper op in.

Stay tuned!