Blog: Transcripties ‘Overgekomen Brieven en Papieren’. Miljoenen pagina’s uit het VOC-archief nu doorzoekbaar

Sinds kort is het mogelijk om via https://transcriptions.globalise.huygens.knaw.nl/ te zoeken en bladeren in transcripties van miljoenen pagina’s uit het archief van de VOC. Het gaat om de collectie ‘Overgekomen Brieven en Papieren’ (OBP) met documenten uit de periode 1610-1796. De transcripties zijn gemaakt door het GLOBALISE-project[1], dat tot doel heeft deze belangrijke collectie documenten uit het VOC-archief beter toegankelijk te maken voor onderzoek. Het project bouwt hiermee voort op het werk van het Nationaal Archief, dat in de afgelopen jaren eerst de hele OBP-serie gescand heeft (bij elkaar bijna 5 miljoen scans) en eerder al transcripties van een deel van deze serie beschikbaar had gesteld.

De ‘Overgekomen Brieven en Papieren’ omvat handgeschreven kopieën van documenten die vanuit de vele Aziatische vestigingen van de VOC naar Batavia werden verstuurd: verslagen, brieven, goederenlijsten en andere documenten. Enkele keren per jaar werden deze kopie-stukken, vergezeld van uitgebreide samenvattingen (‘Generale Missiven’) per schip vanuit Batavia naar de Republiek gezonden. Over een periode van twee eeuwen geven ze niet alleen een beeld van de organisatie van de VOC en de samenlevingen onder haar bewind, maar ook van de samenlevingen en gebieden waarmee zij in contact kwam. De documenten bevatten unieke gegevens over handel, diplomatie, slavernij en strijd tussen Europeanen en Aziaten. Hiermee geven ze zicht op de impact van de vroegmoderne Europese koloniale expansie in Azië. Ook is er informatie in te vinden over allerlei andere zaken die speelden in de wereld waarin de VOC zich begaf, uiteenlopend van natuurrampen tot de verspreiding van ziektes en de uitoefening van verschillende religies. En natuurlijk houdt alles verband met de maritieme geschiedenis van Nederland.

HTR-software Loghi

De transcripties zijn automatisch gegenereerd met de open-source Handwritten Text Recognition (HTR)-software Loghi, die bij het Humanities Cluster van de KNAW ontwikkeld is. De transcripties zijn niet perfect. Sommige letters zijn verkeerd herkend en ook bij de opmaak van de pagina’s gaat nog wel eens iets niet goed. Zo staan de marginalia (tekst in de marge van een pagina) soms in de lopende tekst, en is de volgorde waarin de tekstblokken geplaatst staan niet altijd logisch. Maar met behulp van slimme zoekopdrachten is het toch mogelijk om goede resultaten te vinden. Het is aan te raden bij iedere zoekterm een aantal variaties uit te proberen, en vooral de zoekopdracht uit te breiden met een asterisk (‘*’) of tilde (‘~’) om automatisch op spellingsvariaties te zoeken. In de toelichting bij de zoekomgeving staat uitgebreide uitleg bij de zoekmogelijkheden. Wie de transcripties van een heel inventarisnummer (of van de hele OBP) wil downloaden kan terecht op de GLOBALISE Dataverse: https://datasets.iisg.amsterdam/dataverse/globalise.

Screenshot van de GLOBALISE Transcriptions Viewer


Sterk verbeterde interface in 2025 online

Het is belangrijk om te benadrukken dat het GLOBALISE-project de komende tijd de transcripties blijft verbeteren en ook de nieuwe versies publiek beschikbaar zal stellen. Hierin zullen de eerdergenoemde problemen grotendeels verholpen zijn. De huidige viewer is bovendien niet meer dan een simpel prototype. Uiterlijk in 2025 komt er een sterk verbeterde interface online, waarin het bijvoorbeeld mogelijk zal zijn om zoekresultaten te filteren op datum of op type document. Ook wordt er momenteel hard gewerkt om entiteiten (zoals personen, plaatsen, goederen en schepen) en gebeurtenissen (zoals diplomatieke missies, scheepsreizen, oorlogen en opstanden) in de tekst te herkennen, zodat ook hierop gezocht kan worden. De vele miljoenen entiteiten en gebeurtenissen proberen we bovendien te voorzien van relevante contextuele informatie. De samenstelling en curatie van deze aanvullende gegevens gebeurt binnen het project door een team van historici. Hiervoor wordt gebruik gemaakt van vele bestaande historische hulpmiddelen. Te denken valt aan datasets, zoals Boekhouder-Generaal Batavia, Dutch-Asiatic Shipping, de Generale Zeemonsterrollen, en VOC-opvarenden. Maar ook aan de rijke informatie uit bronnenuitgaven, zoals de Generale Missiven en plakkaatboeken. Of aan het VOC-glossarium, de Atlas of Mutual Heritage, en vele andere fysieke en digitale hulpmiddelen. Door deze rijkdom van tot nog toe gefragmenteerde informatie bij elkaar te brengen ontstaat een ‘digitale encyclopedie’ die breed bruikbaar zal zijn voor toekomstig onderzoek. De gegevens worden als Linked Open Data gepubliceerd, waardoor ze ook bijvoorbeeld in de digitale omgevingen van het Netwerk Maritieme Bronnen gepresenteerd kunnen worden. Tot slot is het belangrijk te vermelden dat alle contextuele informatie ook in het Engels wordt gegeven. Dit maakt het voor onderzoekers en andere geïnteresseerden met beperkte kennis van het (oud-)Nederlands mogelijk om relevante gegevens op het spoor te komen. Tools als Chat-GPT maken het vervolgens mogelijk om passages samen te vatten of te vertalen.

Iedereen is van harte uitgenodigd om te gaan zoeken en dwalen in de transcripties. Vragen, suggesties en opmerkingen zijn welkom via https://globalise.huygens.knaw.nl/contact-us/.

Biografie

Lodewijk Petram. Foto Bert Wisse.

Lodewijk Petram werkt vanuit zijn functie als senioronderzoeker bij het Huygens Instituut als projectmanager bij GLOBALISE. Met Jelle van Lottum is hij daarnaast momenteel bezig met de afronding van het onderzoeksproject Zeevarenden op de koopvaardij (zie https://maritimecareers.eu/). Van hen samen verscheen eerder dit jaar In de schaduw van de stad. Verhalen van vier eeuwen gewone Amsterdammers (Ambo|Anthos).


[1] Dit project is een samenwerking van het Huygens Instituut met het Internationaal Instituut voor Sociale Geschiedenis, de afdeling Digital Infrastructure van het KNAW Humanities Cluster, de Vrije Universiteit (Computational Linguistics & Text Mining Lab), de Universiteit van Amsterdam (onderzoeksprogramma CREATE) en het Nationaal Archief.