Nieuw project Huygens ING: Digital forensics for historical documents

Thurmbnail_Huygens IISG-kort-RGB

Huygens ING heeft in samenwerking met het IISG een KNAW Onderzoeksfonds-subsidie verworven voor het project ‘Digital forensics for historical documents. Cracking cold cases with new technology.’ Voor het eerst in de geschiedenis is het mogelijk om handgeschreven teksten uit de middeleeuwen en vroegmoderne tijd te analyseren op een digitale ‘Big Data’-manier. Dat biedt een zee aan nieuwe onderzoeksmogelijkheden en het Huygens ING springt daar in samenwerking met het IISG vol overtuiging in.

Forensisch onderzoek
Het Digital Forensics-project wil een brug slaan tussen twee verschillende manieren van handschriftanalyse: de forensische en de paleografische methode. In forensisch onderzoek is de handschriftanalyse erop gericht om een uniek profiel vast te stellen van het individu, en zo erachter te komen wie de tekst geschreven heeft. De paleografie houdt zich bezig met het bestuderen en ontcijferen van oude handgeschreven boeken, om zo aan de hand van het uiterlijk van de letters zelf (en andere tekstelementen) te kunnen bepalen waar en wanneer iets geschreven is.

Deep learning
Het doel van het Digital Forensics-project is om de twee methodes met elkaar te combineren in één digitale omgeving. Door digitale beeldverzamelingen en datasets te combineren en exploreren, willen beide instituten een deep learning-systeem ontwikkelen dat de unieke karakteristieken (de vingerafdruk) van een bepaald schriftvoorbeeld matcht met de schriftvoorbeelden die er het meest op lijken. Deze methode is nu voor het eerst mogelijk, omdat grote hoeveelheden beeldmateriaal van handgeschreven teksten uit de middeleeuwen en vroegmoderne tijd digitaal beschikbaar zijn, in een gedeeld standaardformaat: IIIF.

Universiteit Leiden en Microsoft
Huygens ING en IISG werken in dit project samen met twee partners: de Universiteit Leiden en Microsoft. Het project is onderverdeeld in twee deelprojecten. In het ene traject gebruiken de onderzoekers handgeschreven materiaal uit de tijd van de VOC; in het andere middeleeuwse handgeschreven boeken. In het eerste traject zal de analyse zich richten op het identificeren van individuele handen (‘wie schreef wat?’). Hierin werken Matthias van Rossum, Charles van den Heuvel en Sebastiaan Derks samen met een nog aan te stellen programmeur en data-analist. Het tweede traject focust zich op het ontwikkelen van een nieuwe manier om middeleeuwse handgeschreven boeken te analyseren (‘wat is wanneer en waar geschreven?’). In dit traject werken Rutger van Koert, Mariken Teeuwen en Erik Kwakkel samen met een nog aan te stellen PhD student.

Het project start in het voorjaar of de zomer van 2018. Bij het project zijn onder meer betrokken: Mariken Teeuwen, Rutger van Koert, Charles van den Heuvel, Sebastiaan Derks, Jan Burgers, Gertjan Filarski (allen Huygens ING), Matthias van Rossum (IISG) en Erik Kwakkel (Universiteit Leiden). Een PhD student, een software engineer en een data-analist zullen worden geworven. Engineers van Microsoft en H.J. van den Herik van het Leiden Institute of Advanced Computer Science (LIACS) bieden advies en ondersteuning.