Skip to content

vcherniy/cvk-parser

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

cvk-parser

Бібліотека для парсингу територіальних даних ЦВК по:

  • регіонах України;
  • ОВО (одномандатний виборчий округ) — центр, опис меж, мета інформація;
  • виборчих дільницях — місцезнаходження та межі дільниці. Розбір областей, районів, населених пунктів, різноманітних типів вулиць та незалежних будівель, номерів та проміжків номерів будинків.

В бібліотеці є декілька видів коректорів для поліпшення результатів парсингу. Дані ЦВК досить грязні, з помилками в описах, в назвах населених пунктів, в правилах опису меж виборчих дільниць. Для ідеального парсингу потрібне ручне налаштування парсеру та коректорів.

Проблеми (на що звернути увагу в першу чергу)

  • Таблиця city. Проблемні записи мають не пусте поле name.
  • Таблиця station (виборчі дільниці). Проблемні записи мають:
    • не пусте поле district (зараз таких немає)
    • пусте поле district_id (проте більша частина таких записів коректна для міста обласного значення, для яких немає звязаного району)
    • не пусті поля city_type та city_name
    • пусті поля street_name, street_type

В stationdirty після парсингу лежать сирі дані з центром виборчих дільниць та межами. В процесі дебагу рекомендується звіряти коректність парсингу з даними в цій таблиці.

Попередження: дані по останніх виборах (2014-2015 роки) подаються на сайті ЦВК без врахувань перейменувань населених пунктів. Для нових виборів, швидше за все, буде змінено відповідні дані, і для коректної роботи парсера потрібно буде оновити таблицю Locality із списком територіальних одиниць.

Перед парсингом необхідно імпортувати locality.sql в базу даних.

About

Parser CVK locations data

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Languages