Blog: Een maritieme speld in een digitale hooiberg

Screenshot

Nederlandse koloniale archieven zitten boordevol maritieme geschiedenis. Dankzij de toenemende digitalisering zijn veel van die archieven ook nog eens 24 uur per dag te raadplegen. Maar daar stopt het niet: nieuwe technieken maken het mogelijk om de stukken razendsnel te doorzoeken. U kunt nu – vanaf uw eigen huis – iets waarop iedere vroegmoderne bewindhebber van de VOC of WIC jaloers zou zijn geweest: namelijk een speld vinden in een hooiberg van (gedigitaliseerde) paperassen.

Een waargemaakte belofte

Dankzij kunstmatige intelligentie (vaak AI – Artificial Intelligence genoemd) vindt er de laatste jaren een stille revolutie plaats in de geschiedvorsing. De term ‘AI’ gaat vaak gepaard met bombastische claims en hyperbolische beloften. Dat neemt niet weg dat AI-onderzoekers ongelooflijke progressie hebben geboekt in het aanleren van nieuwe trucjes aan computers. Eén van die trucjes is het lezen van oude handschriften. Met behulp van Handwritten Text Recognition (HTR) zetten gespecialiseerde computerprogramma’s (foto’s van) oude, handgeschreven teksten om in digitale tekstbestanden. Als die stap eenmaal gezet is, gaat er een wereld aan nieuwe onderzoeksmogelijkheden open.

Miljoenen transcripties

Om een computer te leren om handschriften te lezen, moet die computer met voorbeelden worden getraind. Dat is precies wat verschillende archiefinstellingen en universiteiten de laatste jaren volop hebben gedaan, vaak met hulp van een leger vrijwilligers. Dankzij al die inspanningen zijn er nu verschillende zogenoemde ‘modellen’, een soort computerprogramma’s die oud schrift lezen. Eén van de manieren om zelf modellen te trainen of te gebruiken is het platform Transkribus. Het platform Transkribus biedt een laagdrempelige manier om met HTR aan de slag te gaan. U kunt het HTR-werk ook aan anderen overlaten, bijvoorbeeld aan het Nationaal Archief. Dat liet een getraind model los op een grote hoeveelheid archiefmateriaal. Eind 2020 publiceerde het archief drie miljoen tekstbestandjes met automatische transcripties van archiefstukken. Het ging onder meer om transcripties van vrijwel het hele archief van de West-Indische Compagnie (WIC), de Sociëteit van Suriname en de Sociëteit van Berbice. Ook een deel van het omvangrijke archief van de Verenigde Oost-Indische Compagnie (VOC) is automatisch getranscribeerd. De meeste transcripties zijn niet perfect, maar wel verrassend goed.

Doorzoek koloniale archieven

Op termijn zullen alle automatische transcripties doorzoekbaar worden gemaakt via de website zoekintranscripties.nl. Dat is een ingewikkelde klus, omdat die website moet samenwerken met de bestaande digitale infrastructuur van het Nationaal Archief. Daar wilde ik als maritiem historicus met interesse voor koloniale geschiedenis niet op wachten! Daarom ontwikkelde ik voor mezelf en alle andere geïnteresseerden de website Doorzoek koloniale archieven. Voor de technische fijnproever: mijn website is geprogrammeerd in Python en SQL. Op die website kunt u eenvoudig de transcripties van een aantal koloniale archieven doorzoeken. Uiteraard kunt u ook doorklikken naar afbeeldingen van de originele stukken en krijgt u de stukken in de juiste context te zien. De website biedt de mogelijkheid om snel relevante stukken te vinden in koloniale archieven. De koloniale bewindhebbers van vroeger zijn er niet meer, dus die kunt u niet echt jaloers meer maken. Maar ook iedere historicus begrijpt direct hoe revolutionair deze nieuwe manier van archiefonderzoek is.

De adders in de hooiberg

Er zitten echter wel wat addertjes onder het gras. De transcripties zijn niet perfect, omdat de computermodellen vrijwel nooit alle letters op een archiefpagina goed transcriberen (al komen ze wel steeds dichter in de buurt). Bovendien was de spelling vroeger niet gestandaardiseerd, dus naast computerfouten bevatten de transcripties veel reguliere vroegmoderne spellingvarianten. Computers zijn vrij dom: als u zoekt op een bepaald woord, zal de computer uw zoekopdracht heel letterlijk interpreteren. Zoekt u bijvoorbeeld op het woord ‘schepen’, dan slaat de computer alle documenten met ‘scheepen’ over. Gelukkig denken moderne zoekmachines met u mee, zodat ze ook spellingvarianten automatisch meenemen. Ook ‘Doorzoek koloniale archieven’ probeert dat, al bestaat er altijd de kans dat u iets mist.

Zoek met varianten

Bij het gebruik van de koloniale zoekmachine loont het vaak om te spelen met de ‘gevoeligheid voor spellingvarianten’. Stel dat u door het WIC-archief zoekt met de term ‘Deventer’. Dat levert meer dan duizend resultaten op, maar het is duidelijk dat het lang niet altijd gaat om de bedoelde stad. Zo presenteert de zoekmachine ook archiefstukken met ‘Deveer’ en ‘devenir’. In zo’n geval kunt u proberen om de gevoeligheid terug te brengen naar ‘middel’. Dat halveert het aantal resultaten, maar maakt ze wel relevanter. Daar staat wel tegenover dat het risico groter wordt dat u dingen mist als u de zoekmachine minder gevoelig instelt.

Toekomstmuziek

We staan nog maar op de drempel van alle nieuwe mogelijkheden die HTR biedt. De automatische transcripties zullen steeds beter worden. Zoekmachines die nu in ontwikkeling zijn, worden bovendien intelligenter en beloven nog meer relevante resultaten te vinden. Zo kunnen ze bijvoorbeeld onderscheid maken tussen het schip ‘Amsterdam’ en de stad met die naam. Of ze kunnen de teksten niet alleen doorzoeken op woorden, maar ook op gebeurtenissen of auteur. Verder zullen ze zelf verbanden gaan leggen en historische conclusies trekken op basis van archiefstukken. Maar hoe slim de computer ook wordt, het werk van de traditionele (maritiem) historicus blijft belangrijk. Zo blijft inlevingsvermogen onmisbaar voor historisch onderzoek. En menselijk inlevingsvermogen is een vaardigheid die geen computer, hoe kunstmatig intelligent ook, ooit echt zal kunnen aanleren.

Biografie

Gerhard de Kok

Gerhard de Kok is maritiem historicus en programmeur. Na zijn promotie in de geschiedenis (Walcherse ketens: De trans-Atlantische slavenhandel en de economie van Walcheren, 1755-1780) aan de Universiteit Leiden (2019) werkte hij aan diverse onderzoeksprojecten bij het KITLV, het IISG en het Huygens ING. Hij is enthousiast over de toepassing van digitale technieken voor historisch onderzoek.