Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

PERO generates 0kB ALTO files #49

Closed
erikamirova opened this issue Mar 1, 2023 · 6 comments
Closed

PERO generates 0kB ALTO files #49

erikamirova opened this issue Mar 1, 2023 · 6 comments

Comments

@erikamirova
Copy link

checking for zero ALTO file size would probably help

image

@erikamirova
Copy link
Author

erikamirova commented Mar 1, 2023

@michal-hradis Dobrý den, mohl byste na to mrknout, prosím? Nemám práva na přiřazování assignees. Děkujeme :)

@zabak
Copy link

zabak commented Mar 1, 2023

@erikamirova prosím připiš sem od kdy se to začalo dít. A případně kdyby mohl Lukáš doplnit ID nějakých jobů kde ten problém nastal.

@erikamirova
Copy link
Author

erikamirova commented Mar 1, 2023

Děje se to od 27. 2. S Lukášem se domluvím a ty ID když tak doplníme.

@michal-hradis
Copy link
Contributor

@erikamirova Prosím o další informace. Předpokládám, že problém se netýká přímo balíčku pero-ocr, ale API. Z toho budu vycházet. Potřebuju aspoň ID úlohy. V jaké stavu skočnilo zpracování daných stránek? Bylo to "PROCESSED"? Doopravdy API poslalo soubory s nulovou velikostí? U nás žádné ALTO s nulovou velikostí nevidím.

@michal-hradis
Copy link
Contributor

michal-hradis commented Mar 1, 2023

@erikamirova Od 27. nejsou ani žádné vaše stránky, které by selhaly. Ani se mi přes API nestáhne žádné prázdné ALTO u vašich úloh. Výpis počtů stránek podle stavů pro vaše úlohy jsou:
0106d879-8557-49a9-a26d-99308b942934.txt:PROCESSED 186
0b69a295-4050-4f01-9311-489fa52da11a.txt:PROCESSED 184
0b69a295-4050-4f01-9311-489fa52da11a.txt:CREATED 2
0e0455b4-244c-4739-9ff6-aca3f978a332.txt:PROCESSED 112
18fd5939-f06b-4059-8be4-680af59341f7.txt:PROCESSED 40
1bb8eb9a-6b5c-4528-b305-cc2ca799f2af.txt:PROCESSED 1
1e6d5b17-cd52-4455-81db-3e0b5009f721.txt:PROCESSED 64
25588f20-12cb-4861-a60c-07774f1d8e24.txt:PROCESSED 197
353e45a7-c04c-4da9-9d62-a8ada7b71e04.txt:PROCESSED 369
46fa3226-84c2-4c9c-a3c5-ecf9d2e542ee.txt:PROCESSED 186
523d3107-55e0-4d11-873d-8cf69e0df301.txt:PROCESSED 193
523d3107-55e0-4d11-873d-8cf69e0df301.txt:CANCELED 4
535bcda1-9084-4614-aeee-da7b3b9725e9.txt:PROCESSED 87
58b0cb28-f009-4fec-acef-9d1798af849e.txt:PROCESSED 99
5a880d7c-7f28-4449-8e60-fcdaace450f2.txt:PROCESSED 120
5cc72ba6-71c2-4972-9237-63aef471b197.txt:PROCESSED 369
5f7a3dfb-7639-470a-8a63-0d3635cda5ca.txt:PROCESSED 214
62528d3d-e7f4-4f98-be2c-c0ce8a3bc2bb.txt:PROCESSED 324
6738b9e7-f37b-47e0-b5ac-19b604245c7a.txt:PROCESSED 186
68f87791-ef2e-418f-97ce-cb697201f3f2.txt:PROCESSED 84
6e3ccef4-0807-4b95-806e-1486b2331fb9.txt:PROCESSED 78
6eb0246e-1e5a-4e2e-a567-0d8bd4cd2194.txt:PROCESSED 324
73e01956-e93c-42b7-90bc-9e915ff6a0ca.txt:PROCESSED 474
7b6bcf93-9b2c-473c-86a0-1f82aaf2bcd0.txt:PROCESSED 40
7f1975fe-f360-476a-923c-2f70061555c8.txt:CREATED 930
7f1975fe-f360-476a-923c-2f70061555c8.txt:PROCESSED 186
8380a681-060a-44cd-a06b-91e7d41a3294.txt:PROCESSED 473
8380a681-060a-44cd-a06b-91e7d41a3294.txt:CREATED 1
8dbd9741-e74b-49db-a3ea-1bfc3cf486e3.txt:PROCESSED 40
8f1776da-1fda-4d56-84ba-85be9049e646.txt:PROCESSED 120
8fbaecb9-1c44-4426-a451-1b3dc71a89f4.txt:PROCESSED 57
8fbaecb9-1c44-4426-a451-1b3dc71a89f4.txt:CANCELED 27
97e8851e-e557-4209-9459-b27e6f58ac86.txt:PROCESSED 40
98300f1c-1071-4244-8e52-f0203f5e201b.txt:PROCESSED 120
a7676091-42b6-4e09-896c-6ec125f3632c.txt:PROCESSED 177
a7676091-42b6-4e09-896c-6ec125f3632c.txt:CANCELED 9
a95adcbf-194e-43b5-a132-d7a7420edacb.txt:PROCESSED 191
a95adcbf-194e-43b5-a132-d7a7420edacb.txt:CREATED 5
a9cc339a-739f-4902-9665-9339981a8afd.txt:PROCESSED 108
af6ed882-6f2a-4699-a45b-9e5addb50653.txt:PROCESSED 64
b1fa1985-6efd-4245-8269-a127ce48bafb.txt:PROCESSED 84
c16239ba-db96-40bd-a5fe-427c157a9a30.txt:CREATED 1
c16239ba-db96-40bd-a5fe-427c157a9a30.txt:PROCESSED 228
c3a3eb37-5ba8-4e08-84d5-8e840f8e4a6f.txt:PROCESSED 369
c3a3eb37-5ba8-4e08-84d5-8e840f8e4a6f.txt:CREATED 1
c807225d-5aa2-4f13-9bd9-2339d3496742.txt:PROCESSED 87
c9282bb3-fe0c-400d-89e6-f85348f6e87e.txt:PROCESSED 40
cdb8421c-c1a3-49f5-bec6-b35c4b8fb958.txt:PROCESSED 1
cfc18f6c-722c-44d7-a67d-93a1fd31b2b3.txt:PROCESSED 186
d5f68509-47fd-4db4-889b-450d9ca854b1.txt:PROCESSED 368
d7313a75-b557-435c-9974-0b04fc9ce7e6.txt:PROCESSED 205
d773a8f4-081a-4731-933a-4dea1a49352b.txt:PROCESSED 1
d7c15177-bdc7-4e50-8bda-d5fe1fb02906.txt:PROCESSED 35
dd80e16e-410f-45b4-812e-9ad3d02db44e.txt:PROCESSED 77
dd80e16e-410f-45b4-812e-9ad3d02db44e.txt:CREATED 1
ddedc42c-7b02-4304-8ada-7397c32c4ed8.txt:PROCESSED 16
de681e0d-8a42-433b-bc1a-c56c9128ef25.txt:PROCESSED 224
de681e0d-8a42-433b-bc1a-c56c9128ef25.txt:CREATED 5
e1d925b4-e55c-4ae9-a72e-16271a162bb7.txt:PROCESSED 16
e5f3488e-ed5d-4fc4-bf36-3925bd8c358f.txt:CREATED 930
e5f3488e-ed5d-4fc4-bf36-3925bd8c358f.txt:PROCESSED 186
ec7f141e-79de-4fea-9ee7-41dd8fc05130.txt:PROCESSED 185
f28290a3-f58e-4aca-98e3-b6ba42907c6c.txt:PROCESSED 229
f33751d9-c16a-4804-9097-545662d78217.txt:PROCESSED 40
f5a435b7-13af-4145-8b0d-8765b6e1e3fd.txt:PROCESSED 186
fc44786d-e5bb-4a74-8bdf-e1c3eff6cd73.txt:PROCESSED 211

@Vacii
Copy link

Vacii commented Mar 3, 2023

Dobrý den,
zkontroloval jsem dokumenty, které kolegyni dělaly problém. Po dodatečném stažení ALTO souborů jsem zjistil, že jsou od Vás dodávány správně. Problém nejpravděpodobněji nastal při stažení souborů. Implementoval jsem tedy do našeho skriptu test na nulové XML soubory, který je případně stáhne znovu.

Když už ale řešíme XML soubory; všiml jsem si, že u nich chybí takové ty klasické XML hlavičky <?xml version='1.0' encoding='utf-8'?>. Je k tomu prosím nějaký důvod, případně šlo by je tam z vaší strany přidat?

@Vacii Vacii mentioned this issue Mar 21, 2023
@ibenes ibenes closed this as completed Feb 22, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants