Nieuwe Tijdingen

De Vlaamse Erfgoedbibliotheken en meemoo bouwen samen met collectiebeherende organisaties een overkoepelend Vlaams programma voor de digitalisering, ontsluiting en archivering van het bedreigde Vlaamse krantenerfgoed.

Onze erfgoeddienst zet binnen dit project vooral mee in op het onderzoek naar het optimaliseren van de OCR-resultaten van reeds gedigitaliseerde kranten. OCR (Optical Character Recognition) is een proces waarbij afbeeldingen van gedrukte teksten geautomatiseerd worden omgezet naar lees- en bewerkbare tekst. Maar deze teksten bevatten vaak nog veel fouten. Een traject voor OCR-verbetering moet reeds gedigitaliseerde kranten beter bruikbaar maken. In fase 1 verkennen we nieuwe mogelijkheden van machine-learning bij OCR-verbetering door een representatief staal te laten testen. We werken hiervoor samen met specialisten van de Staatsbibliothek zu Berlin die hiervoor vooruitstrevende opensourceprocessen ontwikkelen. Daarnaast verzamelen we kennis over en resultaten van andere benaderingen voor OCR-verbetering, zoals handmatige transcriptie. Op basis van deze analyse stellen we een plan voor operationalisering op.

Contactgegevens

jolien@stuifzand.be