Wie stelle ich die Sprache der OCR-Engine ein – damit sie diakritische Zeichen korrekt erkennt? #18

lexybarton · 2023-04-05T14:43:44Z

Können Sie mir bitte mitteilen, wie ich die Sprache von OCR ändern kann? Wenn das Quellbild diakritische Zeichen in tschechischer Sprache enthält, ist der resultierende Text voller Fehler und daher unbrauchbar.

Sie können es bei Bedarf an diesem Bild selbst versuchen:

Vielen Dank im Voraus für Ihre Hilfe

geimist · 2023-04-05T14:49:37Z

The language to be recognized is passed with the OCR parameters in synOCR GUI.
The corresponding parameter is -l <language>. It is also possible to combine several languages by +. So in your case maybe -l ces+eng.

EDIT:
What I forgot to mention: There are only a few languages included in the default image of OCRmyPDF. If your own language is missing, download a OCRmyPDF-Polyglot Image in the Docker GUI. This must then be assigned to your synOCR profile in the listbox.
The Polyglot image includes all Tesseract languages and is therefore larger.

Sie können es bei Bedarf an diesem Bild selbst versuchen:

This is how the recognized text with the language code `ces` and the image `geimist/ocrmypdf-polyglot_best` looks like:

N
BYDLENI U MALVAZINEK

I.
Předmět smlouvy

Prodávající tímto prodává Kupujícímu Byt se všemi součástmi a příslušenstvím, právy a
povinnostmi, jakož i vším, co podle čl. II této Smlouvy k jeho vlastnictví patří za smluvní vzájemně
dohodnutou kupní cenu ve výši dle čl. IV odst. 1 této Smlouvy a Kupující Byt se všemi součástmi a
příslušenstvím, právy a povinnostmi za sjednanou kupní cenu kupuje a přijímá do svého
vlastnictví.

IV.
Kupní cena

Kupní cena za Jednotku je smluvními stranami sjednána ve výši 5 243 200,- Kč plus DPH ve výši
4 613 520,-Kč, tj. celkem 6 029 680,- Kč.
Kupující uhradil celou kupní cenu ve sjednané výši před podpisem této Smlouvy bezhotovostně
na účet Prodávajícího. Prodávající podpisem této Smlouvy přijetí celé částky kupní ceny potvrzuje.

V.
Stav Bytu a jeho předání

Prodávající prohlašuje, že na Bytu neváznou žádné dluhy, věcná břemena, zástavní práva,
předkupní práva, ani neexistují žádné jiné právní vady.
Kupující prohlašuje, že se řádně seznámil s právním i faktickým stavem Bytu a v tomto stavu jej
kupuje.
Prodávající předá Kupujícímu Byt nejpozději do deseti (10) dnů od podání návrhu na vklad
vlastnického práva Kupujícího k Bytu do katastru nemovitostí, a to v den a čas dohodnutý mezi
smluvními stranami. Pokud k dohodě o termínu předání nedojde, bude tento termín určen ve
výzvě k převzetí, odeslané Prodávajícím.
O předání Bytu včetně předání záručních listů a dalších dokumentů bude sepsán předávací
protokol podepsaný oběma smluvními stranami. Předávací protokol bude mimo jiné obsahovat i
soupis případných vad a nedodělků, termíny jejich odstranění, údaje o stavech měřičů spotřeb
(elektroměr, vodoměr, kalorimetr) ke dni pořízení předávacího protokolu stím, že do dne podpisu
předávacího protokolu hradí náklady za spotřeby energií i další platby spojené s Bytem
Prodávající a od tohoto dne Kupující. Předávací protokol bude obsahovat i specifikaci částky,
zahrnující poplatek účtovaný společností PRE a.s. v souladu s příslušnými předpisy za připojení
elektroměru pro Byt. Tuto částku se zavazuje Kupující uhradit na účet Prodávajícího uvedený
vpředávacím protokolu do patnácti (15) kalendářních dnů ode dne podpisu předávacího
protokolu.
Kupující je oprávněn odmítnout převzetí Bytu pouze v případě výskytu takových vad, které
brání řádnému užívání Bytu.
Pokud Kupující odmítne Byt převzít, s výjimkou důvodu uvedeného v odstavci 5 tohoto článku,
nebo se k převzetí Bytu nedostaví, je Kupující povinen zaplatit Prodávajícímu smluvní pokutu ve
výši 1.000,- Kč za každý den prodlení s převzetím Bytu a po celou dobu prodlení je povinen
přispívat na náklady na správu a provoz Jednotky a Budovy uvedené v Prohlášení vlastníka nebo
stanovách příslušného společenství vlastníků dle tam uvedených pravidel. V případě prodlení
Kupujícího se splněním povinnosti převzít Byt po dobu delší než tři (3) měsíce, má Prodávající

lexybarton · 2023-04-05T21:43:50Z

Thank you for your answer, and sorry for bothering, I should have find it.

geimist · 2023-04-05T22:07:56Z

No problem. There are no wrong questions. I'm happy if it works now 🙂

BTW:
I have one more quick question for you. Do you use the GUI of synOCR in Czech language? I would be interested to know how the quality of the automatic translation is?

lexybarton · 2023-04-05T22:25:17Z

👍 I wouldn't have guessed that. I really thought it was translated by a human...

geimist added question Further information is requested OCR good first issue Indicates a good issue for first-time contributors labels Apr 5, 2023

geimist closed this as completed Apr 5, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Wie stelle ich die Sprache der OCR-Engine ein – damit sie diakritische Zeichen korrekt erkennt? #18

Wie stelle ich die Sprache der OCR-Engine ein – damit sie diakritische Zeichen korrekt erkennt? #18

lexybarton commented Apr 5, 2023

geimist commented Apr 5, 2023 •

edited

Loading

lexybarton commented Apr 5, 2023

geimist commented Apr 5, 2023

lexybarton commented Apr 5, 2023

Wie stelle ich die Sprache der OCR-Engine ein – damit sie diakritische Zeichen korrekt erkennt? #18

Wie stelle ich die Sprache der OCR-Engine ein – damit sie diakritische Zeichen korrekt erkennt? #18

Comments

lexybarton commented Apr 5, 2023

geimist commented Apr 5, 2023 • edited Loading

lexybarton commented Apr 5, 2023

geimist commented Apr 5, 2023

lexybarton commented Apr 5, 2023

geimist commented Apr 5, 2023 •

edited

Loading