Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Nejednoznačnost standardu ohledně zdroje pro OCR #58

Closed
godnat opened this issue May 16, 2018 · 2 comments
Closed

Nejednoznačnost standardu ohledně zdroje pro OCR #58

godnat opened this issue May 16, 2018 · 2 comments

Comments

@godnat
Copy link

godnat commented May 16, 2018

DMF 1.7.1 pro periodika (platí i pro 1.3.1 a starší DMF) na s. 10 se uvádí, že OCR (tj. ALTO XML) bude vznikat z uživatelské kopie (tj, ztrátově komprimovaný JP2), důvodem jsou lepší výsledky OCR z obrazů komprimovaných ztrátově.
Na s. 63 téhož DMF u elementu relationshipType je ale jako příklad uváděný vztah mezi dokumentem ALTO a TIFFem ze kterého vzniká-tj. předpokládá se vazba na původní sken.

A Komplexní validátor 1.7.1 nově očekává vazbu na archivní bezeztrátový JP2 (původně byla na primární sken viz: NLCR/komplexni-validator#56).

Do metadat nelze aktuálně zaznamenat vazbu OCR na uživatelskou kopii a kdyby se dělalo OCR z původního skenu nemusely by hodnoty v ALTO odpovídat archivovaným obrazům, proto je aktuálně preferovaná vazba ALTO na archivní JP2.

Proto je zřejmě třeba revize doporučení a metadat v DMF pro textové i zvukové dokumenty.
Je otevřeno k diskuzi.

@vjirousek
Copy link

Doporučení pro vytváření OCR z uživatelské kopie bude v nových verzích DMF postupně odstraňováno. V praxi se OCR vytváří skutečně z nekomprimovaných obrazových souborů a úváděný důvod (méně šumu u ztrátově komprimovaných souborů) se již nejeví jako relevantní.

@vjirousek
Copy link

Doporučení na vytváření OCR z uživatelských kopií obrazových souborů bylo odstraněno z:

  • DMF pro monografie ve verzi 2.0 z 10. 10. 2022
  • DMF pro periodika ve verzi 1.9 z 10. 10. 2022
  • DMF pro gramofonové desky ve verzi 0.5 z 10. 10. 2022
  • DMF pro fonografické válečky ve verzi 0.3 z 10. 10. 2022

Vztah mezi objekty v PREMIS je možné popisovat dle skutečnosti mezi objektem pro ALTO XML a objektem, který nejblíže popisuje soubor, ze kterého bylo OCR reálně vytvořeno (MC i ALTO XML mají zpravidla stejného rodiče v podobě souboru TIFF).

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment