Skip to content

GT Guide Transkriptionsprobleme bei Inkunabeln

Robert Sachunsky edited this page Mar 3, 2022 · 5 revisions

Transkriptionsprobleme bei Inkunabeln

Unterscheidung Macron/Tilde

Unterscheidung Macron/Tilde -> wichtig, oft ist im Originaltext kaum zu erkennen, was von beiden verwendet wurde.

image.

Lösung:

Es empfiehlt sich, die Transkription im Level zwei zu erstellen. Aus diesem Grund wird in der Regel keine Unterscheidung vorgenommen, wenn das Zeichen mit der gleichen Bedeutung verwendet wird. Es wird eine Zeichenkombination aus dem Graphem und in der Regel aus einer übergestellte Tilde gebildet. Wenn eine Unterscheidung nicht möglich ist sowie es sich in allen Fällen um ein Kürzungsstrich handelt, ist die übergestellte Tilde zu verwenden. Dazu wird der Unicode U+0303, COMBINING TILDE genutzt

Guidelines:

Handschriftliche Anmerkungen

Sollen nachträglich angebrachte handschriftliche Anmerkungen (z. B. Seitenzahlen) aufgenommen werden?

Sollen handschriftliche Eintragungen/ neuzeitliche Seitenangaben mit aufgenommen werden?

Lösung:

Bei Druckwerken werden handschriftliche Anmerkungen als GraphicRegion type="handwritten-annotation" gekennzeichnet.

Guidelines:

Handschriftliche Textkorrekturen

Handschriftliche Textkorrekturen mit transkribieren?

Lösung:

Bei Druckwerken werden handschriftliche Textkorrketuren in der Regel nicht transkribiert.

Zusammengesetzte Buchstaben im deutschen Text

Zusammengesetzte Buchstaben im deutschen Text (w: i+v, k: l+r-rotunda) wie transkribieren.

Lösung:

Transkription in unterschiedlichen Bedeutungszusammenhängen

Transkription, wenn ein Zeichen in unterschiedlichen Bedeutungszusammenhängen verwendet wird (z.B. z)

Lösung:

Bei der Erstellung von GT wird weitestgehend von Bedeutungszusammenhängen unabhängig transkribiert. Jedoch kann davon abgewichen werden, wenn das Trainingsmaterial:

  • für einen sehr spezielle Nutzung,
  • für eine sehr homogene Sammlung von Dokumenten/Vorlagen vorgesehen ist.

Für die Nutzung solch eines GT sollten Metadaten darauf hinweisen, dass Zeichen in unterschiedlichen Zusammenhängen transkribiert wurden.

Initiale

Initiale mit transkribieren?

Wenn Initiale Teil des ersten Wortes ist, ohne Spatium anschließen aber dennoch Großbuchstabe?

Lösung

Eine Initiale ist ein Anfangsbuchstabe, der am Beginn eines Kapitels oder Abschnitts steht. Dieser Buchstaben zeichnet sich durch seinen Schmuck, Verzierung oder durch seine vollständige andersartige Gestaltung gegenüber der verwendeten Schriftart aus.

image

Die Initiale sollte in der Regel immer Teil des ersten Wortes sein, (Anfangsbuchstabe). Die Transkription der Initiale ist ohne Spatium anzuschließen.

Die Initiale ist mit einer spezifizierten TextRegion auszuzeichnen.
<TextRegion type="drop-capital">

Bei diesem Beispiel handelt es sich nicht um eine Initiale.

image

Guidelines:

Beschädigungen

Wie ist mit Wörtern umzugehen, die durch Beschädigungen der Vorlage (Löcher, Risse) unvollständig sind?

Wenn das Wort dadurch gar nicht mehr identifizierbar ist?

Lösung:

Beschädigungen der Vorlage (Löcher, Risse...) sind nicht die Regel, sondern eine Ausnahme. Damit mit dem Trainingsmaterial (GT) stabile und robust neuronale Netze trainiert werden können, ist dieses geringe Vorkommen zu beachten.
Wenn Schäden transkribiert werden sollten diese wenn möglich als <NoiseRegion> ausgezeichnet werden.

Guidelines:

Welcome to the OCR-D wiki, a companion to the OCR-D website.

Articles and tutorials
Discussions
Expert section on OCR-D- workflows
Particular workflow steps
Recommended workflows
Workflow Guide
Videos
Section on Ground Truth
Clone this wiki locally