Generierung von Trainingsdaten für die Handschrifterkennung aus TEI annotierten Dokumenten – ein Erfahrungsbericht aus dem EU-Projekt READ

Bryan, Maximilian; Hodel, Tobias Mathias; Philipp, Nathanael (2018). Generierung von Trainingsdaten für die Handschrifterkennung aus TEI annotierten Dokumenten – ein Erfahrungsbericht aus dem EU-Projekt READ. In: Burghardt, Manuel; Müller-Birn, Claudia (eds.) INF-DH-2018. Bonn: Gesellschaft für Informatik 10.18420/infdh2018-11

Text
INF-DH-2018_paper_11.pdf_sequence=1&isAllowed=y - Published Version
Restricted to registered users only
Available under License Publisher holds Copyright.
Download (136kB)

Official URL: https://dl.gi.de/handle/20.500.12116/16992

Zum Trainieren maschineller Lernverfahren zur Erkennung von Handschriften werden Textdaten mit korrespondierenden Bildern benötigt. Die Textdaten liegen häufig im TEI-Format das diverse Möglichkeiten eröffnet, um textuelle und semantische Phänomene auszuzeichnen, weiter können gar eigene Tags oder Auszeichnungsarten eingeführt werden. In diesem Beitrag wird ein im EU-Projekt READ entwickeltes parametrisierbares Tool beschrieben, das mit unterschiedlichen Auszeichnungsstilen in TEI umgehen kann und Textdateien auf Seitenbasis liefert, die zur Zuordnung von Text zu Bilddaten (text-to-image) genutzt werden können und somit zur Aufbereitung von Trainingsdaten für Modelle der Handschriftenerkennung dienen. Die gezeigten Beispiele und Anwendungen stammen alle aus Projekten, die ihre Daten für READ zur Verfügung stellten.

Item Type:	Conference or Workshop Item (Paper)
Division/Institute:	06 Faculty of Humanities > Other Institutions > Walter Benjamin Kolleg (WBKolleg) 06 Faculty of Humanities > Other Institutions > Walter Benjamin Kolleg (WBKolleg) > Digital Humanities
UniBE Contributor:	Hodel, Tobias Mathias
Subjects:	000 Computer science, knowledge & systems 900 History
Publisher:	Gesellschaft für Informatik
Language:	German
Submitter:	Tobias Mathias Hodel
Date Deposited:	11 Nov 2019 10:01
Last Modified:	05 Dec 2022 15:32
Publisher DOI:	10.18420/infdh2018-11
BORIS DOI:	10.7892/boris.134759
URI:	https://boris.unibe.ch/id/eprint/134759

Actions (login required)

Edit item

Generierung von Trainingsdaten für die Handschrifterkennung aus TEI annotierten Dokumenten – ein Erfahrungsbericht aus dem EU-Projekt READ

Interest & Impact

Downloads

Citations

Search

Services

Actions (login required)

Item Type:

Division/Institute:

UniBE Contributor:

Subjects:

Publisher:

Language:

Submitter:

Date Deposited:

Last Modified:

Publisher DOI:

BORIS DOI:

URI:

Actions (login required)