update leptonica, tesseract, and libk2pdfopt #1800

benoit-pierre · 2024-05-30T21:12:11Z

Thanks to some upstream cleanups in tesseract, the resulting code size (bss+data+text) is reduced by ~1.4-2.3 MB.

Note: tesseract is compiled with legacy engine support, which means the resulting mode after initialization will depend on the type of language data available:

tessdata (the one we use for the testsuite): 22.4 MB for English; contains data for both legacy & new engine: run the LSTM recognizer (new), but allow fallback to Tesseract (legacy) when things get difficult.
tessdata-fast: 3.92 MB for English; best “value for money” in speed vs accuracy (Integer models): run the LSTM line recognizer only.
tessdata-best: 14.7 MB for English; best results on Google’s eval data, slower (Float models): same mode as above.

AFAIK, there are no legacy only language files.

I tested both modes, English only with tessdata & tessdata-fast, and it did not seem to make a difference (which might just mean that the fallback on legacy was never triggered). Disabling the legacy engine would save an additional ~500 KB. But I don't know if the new engine is (always) better, especially for other languages.

The version used by Linux distributions seem to vary: for example Arch Linux is using the English tessdata variant, while Ubuntu uses tessdata-fast. ¯\(ツ)/¯

This change is

Dependency for newer tesseract versions.

Frenzie · 2024-05-31T21:17:32Z

I tested both modes, English only with tessdata & tessdata-fast, and it did not seem to make a difference (which might just mean that the fallback on legacy was never triggered).

You mean on a device I presume?

benoit-pierre · 2024-05-31T21:23:47Z

I tested both modes, English only with tessdata & tessdata-fast, and it did not seem to make a difference (which might just mean that the fallback on legacy was never triggered).

You mean on a device I presume?

Mainly with the emulator.

- bump leptonica to 1.84.1 - bump tesseract to 5.3.4 - bump libk2pdfopt to 2.55

Preliminary bump (koreader/koreader-base#1800 will be included in #11930): - koreader/koreader-base#1790 - koreader/koreader-base#1795 - koreader/koreader-base#1796 - koreader/koreader-base#1797 - koreader/koreader-base#1798 - koreader/koreader-base#1799 - koreader/koreader-base#1801 - koreader/koreader-base#1802 - koreader/koreader-base#1803 - koreader/koreader-base#1804

benoit-pierre marked this pull request as draft May 30, 2024 21:12

benoit-pierre mentioned this pull request May 30, 2024

update leptonica, tesseract, and libk2pdfopt koreader/koreader#11930

Merged

cpu_feature: add external project

d49d83d

Dependency for newer tesseract versions.

benoit-pierre force-pushed the pr/update_leptonica_tesseract_libk2pdfopt branch from 4f81d97 to 588c233 Compare May 31, 2024 21:21

benoit-pierre marked this pull request as ready for review May 31, 2024 21:23

Frenzie approved these changes May 31, 2024

View reviewed changes

leptonica & tesseract & libk2pdfopt: update

b7d28fa

- bump leptonica to 1.84.1 - bump tesseract to 5.3.4 - bump libk2pdfopt to 2.55

benoit-pierre force-pushed the pr/update_leptonica_tesseract_libk2pdfopt branch from 588c233 to b7d28fa Compare May 31, 2024 21:25

Frenzie merged commit be04eb0 into koreader:master May 31, 2024
1 check passed

benoit-pierre deleted the pr/update_leptonica_tesseract_libk2pdfopt branch May 31, 2024 22:02

benoit-pierre mentioned this pull request May 31, 2024

bump base koreader/koreader#11941

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

update leptonica, tesseract, and libk2pdfopt #1800

update leptonica, tesseract, and libk2pdfopt #1800

benoit-pierre commented May 30, 2024 •

edited by Frenzie

Loading

Frenzie commented May 31, 2024

benoit-pierre commented May 31, 2024

update leptonica, tesseract, and libk2pdfopt #1800

update leptonica, tesseract, and libk2pdfopt #1800

Conversation

benoit-pierre commented May 30, 2024 • edited by Frenzie Loading

Frenzie commented May 31, 2024

benoit-pierre commented May 31, 2024

benoit-pierre commented May 30, 2024 •

edited by Frenzie

Loading