Tento khs-crawler zpracovává data z Krajských hygienických stanic o počtu identifikovaných nakažených osobách virem způsobujícím onemocnění COVID-19 a generuje je do Google Tabulky.
Výstupy dat jsou dostupné v Google Tabulkách, list Test Crawl
https://docs.google.com/spreadsheets/d/1FFEDhS6VMWon_AWkJrf8j3XxjZ4J6UI1B2lO3IW-EEc/edit#gid=84317159
- Středočeský kraj publikuje svá data nekonzistentně - více viz issues#4
- Některé kraje nepublikují svá data ve strojově snadno čitelném formátu, zejména u těchto může nacházet k nestabilitě dat, více viz níže sekce Zdroje dat
V této fázi vývoje se jedná stále o prototyp skriptů pro crawling dat jednotlivých KHS. Pracujte s ním opatrně, kód je psán primitivním stylem. Kupříkladu nejsou ošetřeny výjimky a podobně.
- requests + BeautifulSoup - parsování dat z webů
- pdfminer.six - parsování dat z PDF
- Pillow - práce s obrázky
- pytesseract - OCR pomocí Tesseract
Motivací byl status Marka Lutoňského o neexistenci jednotných dat pro COVID-19 u jednotlivých okresů, kde každá krajská hygienická stanice reportuje data svým vlastním způsobem.
Výstupy lze nalézt v Google Tabulkách, listu Test Crawl
https://docs.google.com/spreadsheets/d/1FFEDhS6VMWon_AWkJrf8j3XxjZ4J6UI1B2lO3IW-EEc/edit#gid=84317159
Detailnější informace o zdrojích dat, spolu s tím, které objekty DOM se scrapují, lze nalézt na: sablatura.info/covid/hygienicke-stanice
Emoji "pozor"