Бібліотека для парсингу територіальних даних ЦВК по:
- регіонах України;
- ОВО (одномандатний виборчий округ) — центр, опис меж, мета інформація;
- виборчих дільницях — місцезнаходження та межі дільниці. Розбір областей, районів, населених пунктів, різноманітних типів вулиць та незалежних будівель, номерів та проміжків номерів будинків.
В бібліотеці є декілька видів коректорів для поліпшення результатів парсингу. Дані ЦВК досить грязні, з помилками в описах, в назвах населених пунктів, в правилах опису меж виборчих дільниць. Для ідеального парсингу потрібне ручне налаштування парсеру та коректорів.
- Таблиця city. Проблемні записи мають не пусте поле name.
- Таблиця station (виборчі дільниці). Проблемні записи мають:
- не пусте поле district (зараз таких немає)
- пусте поле district_id (проте більша частина таких записів коректна для міста обласного значення, для яких немає звязаного району)
- не пусті поля city_type та city_name
- пусті поля street_name, street_type
В stationdirty після парсингу лежать сирі дані з центром виборчих дільниць та межами. В процесі дебагу рекомендується звіряти коректність парсингу з даними в цій таблиці.
Попередження: дані по останніх виборах (2014-2015 роки) подаються на сайті ЦВК без врахувань перейменувань населених пунктів. Для нових виборів, швидше за все, буде змінено відповідні дані, і для коректної роботи парсера потрібно буде оновити таблицю Locality із списком територіальних одиниць.
Перед парсингом необхідно імпортувати locality.sql в базу даних.