page__text.xsl is not honoring the reading order #138

mikegerber · 2021-05-19T19:06:15Z

page__text.xsl is not honoring the reading order in the PAGE-XML (pc:ReadingOrder), which gives completely false results. For this page, I get this text (shortened):

% docker run --rm -it -v "$PWD":/data ubma/ocr-fileformat ocr-transform page text OCR-D-GT-PAGE/OCR-D-GT-PAGE_00000024.xml | head
               
20
Die
[22.]
[22.]
ein gleies vorgegeben, und ſo gar ſehr viele mahle gegen ae menſlie Mglikeit mit Gewalt for-
ciret worden zu ſeyn, behaupten wi, mithin neb dem Bredekaw, weler (§. 28. 29.)  in aen ſeinen
Auagen wiederſproen, mit der Pœna fal um do gewier zu belegen i, da
ſecund. Farin. Tit. 9. qu. 66. p. m. 320.
die Klage ſo wohl als das Zeugnß vor falſ und erditet mßen gehalten werden.
§. 35) So viel die von der Inquitin
write /dev/stdout: broken pipe

For comparison, dinglehopper-extract gives the correct text:

% dinglehopper-extract OCR-D-GT-PAGE/OCR-D-GT-PAGE_00000024.xml| head
20
rath mit einer Pœna fiſcali angeſehen worden, und ſolche durch des Hrn. Graffen von Königsfeld Vor-
ſpruch, nur aus Gnaden nachgelaſſen erhalten.
Sondern man hat auch dieſen 4. Wochen lang alle Abend bey der Inquiſitin gantz allein gelaſſen.
Binnen welcher gantzer Zeit der Schreiber Bredekaw beſtändig bey Ihme geweſen, und ſich in
der am 13 ten Octobr. a.c. in Judicio gegen ſeinen geweſenen Hrn. introducirter Appellation deſſen Bey-
raths bedienet hat;
§. 33) Dabenebenſt iſt der Schreiber binnen dieſer gantzen Zeit auf freyem Fuß geblieben, und
hat nicht nur durch ſeinen Conſulenten, ſondern auch, weilen der Inquiſitin ſelbſten in Ihrem Gefängnüß
ſo viele Freyheit gelaſſen worden, daß ſie frembden Beſuch von Ihren Anverwandten ohngehindert em-

Image from the ZIP (converted to JPEG), for easier understanding:

The text was updated successfully, but these errors were encountered:

stweil · 2021-05-19T20:20:34Z

The XSL which is used for that conversion is too simple to handle more complex PAGE XML. I don't know whether a better XSL is available from other projects.

Did you try whether JPageConverter which is already used for the PAGE to ALTO conversion does a better job? As far as I know it can also produce text.

mikegerber · 2021-05-20T07:38:20Z

I would consider this a serious bug, not an enhancement.

stweil · 2021-05-20T07:41:27Z

It's both. PAGE XML is complex, so I would never expect a perfect tool which supports all of its features.

mikegerber · 2021-05-20T08:24:54Z

It's not imperfection by not supporting some features, it's producing a wrong result if it's not honoring the reading order, for a lot of real world PAGE XML files.

stweil · 2021-05-20T08:38:13Z

The texts in the XML file also look strange when I look at them with less or vi ("Mglikeit"). Do you use some special encoding? It's not UTF-8!

mikegerber · 2021-05-20T09:36:59Z

The file in #138 (comment) was created (by a SBB contractor) using Aletheia and uses their encoding scheme, which uses a lot of PUA characters, which in part is based on MUFI (See (https://www.primaresearch.org/www/assets/tools/Special%20Characters%20in%20Aletheia.pdf)). So it's UTF-8, but with private characters. But encoding is an entirely different beast :-) (dinglehopper-extract gives different characters due to normalization, but that's not the issue here.)

bertsky · 2023-06-06T14:58:03Z

Sry, did not see this earlier. But I had the exact same use case. It's not so difficult to properly handle PAGE reading order in XSLT 1.0. This was solved along with #151.

(You can even pass XSLT parameters for what hierarchy level you want to extract from (default is highest) or what separators to use for concatenation:

ocr-fileformat/xslt/page__text.xsl

Lines 14 to 21 in 3e32ef6

    
           <!-- paragraph break --> 
        
           <xsl:param name="pb" select="concat($newline,$newline)"/> 
        
           <!-- line break --> 
        
           <xsl:param name="lb" select="$newline"/> 
        
           <!-- text order: by element or by explicit ReadingOrder (reading-order|document) --> 
        
           <xsl:param name="order" select="'reading-order'"/> 
        
           <!-- hierarchy level to extract text annotation from (region|line|word|glyph|highest) --> 
        
           <xsl:param name="level" select="'highest'"/>

See

ocr-transform page text --help-args

mikegerber · 2024-07-24T14:19:12Z

Probably fixed in #151

stweil added the enhancement Any enhancement on the software itself (excluding new transformations) label May 19, 2021

stweil added the bug label May 20, 2021

mikegerber closed this as completed Jul 24, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

page__text.xsl is not honoring the reading order #138

page__text.xsl is not honoring the reading order #138

mikegerber commented May 19, 2021

stweil commented May 19, 2021

mikegerber commented May 20, 2021

stweil commented May 20, 2021

mikegerber commented May 20, 2021

stweil commented May 20, 2021 •

edited

Loading

mikegerber commented May 20, 2021

bertsky commented Jun 6, 2023

mikegerber commented Jul 24, 2024

page__text.xsl is not honoring the reading order #138

page__text.xsl is not honoring the reading order #138

Comments

mikegerber commented May 19, 2021

stweil commented May 19, 2021

mikegerber commented May 20, 2021

stweil commented May 20, 2021

mikegerber commented May 20, 2021

stweil commented May 20, 2021 • edited Loading

mikegerber commented May 20, 2021

bertsky commented Jun 6, 2023

mikegerber commented Jul 24, 2024

stweil commented May 20, 2021 •

edited

Loading