Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Data v PDF #16

Open
helb opened this issue Apr 8, 2020 · 5 comments
Open

Data v PDF #16

helb opened this issue Apr 8, 2020 · 5 comments

Comments

@helb
Copy link
Collaborator

helb commented Apr 8, 2020

V PDFku od Ústeckého kraje se zase po aktualizaci všechno zpřeházelo. Opravil jsem to, ale koukám po jiném způsobu, než tahání jednotlivých řádků pdfminerem…

Tohle nevypadá zle: https://camelot-py.readthedocs.io/en/master/

Taky by šlo z celého PDF udělat obrázek a číst ho Tesseractem, to funguje celkem spolehlivě.

@helb
Copy link
Collaborator Author

helb commented Apr 8, 2020

A znovu se to polamalo… achjo.

Zkouska camelot-py ustecky kraj:

>>> import camelot
>>> tables = camelot.read_pdf("pocet_testovanych_osob_na_covid19_ustecky_kraj.pdf")
>>> tables[1].df
                0                                 1          2
0           okres  pozitivní  \n(kumulativní počet)  uzdravení
1           Děčín                                38         15
2        Chomutov                                15          3
3            Most                                17          1
4      Litoměřice                               144          5
5           Louny                                11          2
6         Teplice                                16          3
7  Ústí nad Labem                                73         17
8          CELKEM                               314         46

chickadee_20200408_235033

@helb
Copy link
Collaborator Author

helb commented Apr 8, 2020

camelot-py jihomoravsky kraj:

>>> import camelot
>>> tables = camelot.read_pdf("96_141_aktuality.pdf")
>>> tables[0].df
             0              1
0        Okres  Počet případů
1   Brno-město            121
2  Brno-venkov             35
3      Blansko             13
4      Břeclav             72
5      Hodonín              9
6       Vyškov             15
7       Znojmo             45
8   JMK celkem            310

chickadee_20200408_235003

@helb
Copy link
Collaborator Author

helb commented Apr 8, 2020

camelot-py zlinsky kraj:

>>> import camelot
>>> tables = camelot.read_pdf("info_cov19_zk_8_4_18.pdf")
>>> tables
<TableList n=1>
>>> tables[0].df
                                                   0    1
0  Počet osob s onemocněním COVID-19 ve Zlínském ...     
1                                     okres Kroměříž   25
2                             okres Uherské Hradiště  117
3                                       okres Vsetín   36
4                                         okres Zlín   44
5                                      celkový počet  222

chickadee_20200408_235349
(ty jednoradkove tabulky camelot za tabulky asi nepovazuje, nasel jen tu jednu)

@helb
Copy link
Collaborator Author

helb commented Apr 8, 2020

Jeste maji PDFko ve Varech, ale tam nejsou ty okresy v tabulce. A funguje zatim bez problemu s pdfminerem.

@helb
Copy link
Collaborator Author

helb commented Apr 8, 2020

Parsery PDF pro tyhle tri kraje jsou ve vetvi camelot-pdf. Dela se s tim pekne jednoduse, ale dotahlo si to par dalsich baliku (treba opencv). A potrebuje to Tkinter a ghostscript.

@lynt-smitka Co myslite, snese to dalsi zavislost? :) Pripadne to klidne muzu poustet u sebe…

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant