New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Консистентност на данните. #46

Open
tsikov opened this Issue Apr 30, 2014 · 7 comments

Comments

Projects
None yet
4 participants
@tsikov
Copy link
Member

tsikov commented Apr 30, 2014

За съжаление данните на сайта на правителството са понякога грешни. Ето един пример:

screen shot 2014-04-30 at 17 28 33

Според този XML бившият депутат все още членува в групи за приятелство.

Това прави нашата работа много по-сложна. Ако не поправим тези грешки, нашият сайт също ще е подвеждащ. Поради това предлагам в това issue да събираме информация за подобни случаи. Там където можем да напишем програмки за оправяне на данни - нека да го сторим. (Например в конкретния случай може да сложим крайна дата на членството - последния ден на съответното народно събрание.) Във всички останали случаи (а също и ако информацията е крайно важна и не можем да се доверим на догатки) - може да поискаме информацията от информационно-административния център към Народното събрание или в краен случай - по ЗДОИ.

Списък на неконсистентности в правителствените данни:

  • Депутати без профили. За сега известни такива са 'МИХАИЛ ВЛАДИМИРОВ ВЛАДОВ' и 'НИКОЛАЙ НАНКОВ НАНКОВ' (@Krastanov)
  • Непопълнени дати за край на присъствие в парламентарна структура.
  • Объркани имена на депутати в 41-вото НС. (@Krastanov)
  • Странно форматиране на списъка �с гласуване по имена с id 2766. (@Krastanov)
  • Да се намерят липсващите депутати на 19ти, 20ти и 21ви февруари.
@Krastanov

This comment has been minimized.

Copy link

Krastanov commented Apr 30, 2014

Списък с други проблеми (относно предишното правителство)

https://github.com/Krastanov/parlamentaren-kontrol/blob/master/README.md#workarounds

  • The votes-by-name list for stenogram ID 2766 contains strange formatting.
    Currently we use a manually modified excel file instead of the one on the
    parliament website. Below is a copy of the explanation given by the
    parliamentary infocenter (in Bulgarian):

За г-жа ВАНЯ ЧАВДАРОВА ДОБРЕВА беше допусната грешка при първоначлното
въвеждане на данни за нея и след поправяне на грешката системата дава следващ
идентификационен номер.

  • The MPs with names 'МИХАИЛ ВЛАДИМИРОВ ВЛАДОВ' and 'НИКОЛАЙ НАНКОВ НАНКОВ'
    have never been present in a voting session, however are registered for a
    number of them. At the same time they are not in the MPs list, so trying to
    import their absences in the data base gives a foreign key violation. We
    just skip them. Below is a copy of the explanation given by the
    parliamentary infocenter (in Bulgarian):

Здравейте, г-н МИХАИЛ ВЛАДИМИРОВ ВЛАДОВ и г-н НИКОЛАЙ НАНКОВ НАНКОВ са
били избрани за народни представители с Решение на ЦИК, но не са встъпвали в
длъжност. По тази причина фигурират като имена в разпечатките до момента, в
който ЦИК излезе с Решение, в което обявява за избран следващия народен
представител в листата на съответната партия.

  • The MP name "МАРИЯНА ПЕТРОВА ИВАНОВА-НИКОЛОВА" is a misspell of "МАРИАНА
    ПЕТРОВА ИВАНОВА-НИКОЛОВА". It is present in stenograms 2809, 2810, 2811, 2812.
    Below is a copy of the explanation given by the parliamentary infocenter (in
    Bulgarian):

Госпожа Мариана Иванова – Николова е избрана за народен представител с
решение на Централната избирателна комисия №2041-НС, съобщено в пленарна зала
на 03.10.2012 г. с името МАРИЯНА ПЕТРОВА ИВАНОВА – НИКОЛОВА. С така изписано
име госпожа Иванова- Николова е въведена в системата за гласуване. Само и
единствено Централната избирателна комисия може да промени изписването на
името на народен представител. Такава промяна е извършена от тях с решение
№2047-МИ,съобщено в пленарна зала на 10.10.2012 г. за поправка на явна
фактическа грешка в името на народният представител Мариана Петрова
Иванова-Николова, вместо „МАРИЯНА” да се чете ”МАРИАНА”. Именно поради тази
причина, а не допусната от нас правописна грешка госпожа Иванова-Николова
фигурира в посочените от Вас разпечатки от поименно гласуване, като
„МАРИЯНА".

  • The MP name "ВЕНЦЕСЛАВ ВАСИЛЕВ ВЪРБАНОВ" is a misspell of "ВЕНЦИСЛАВ
    ВАСИЛЕВ ВЪРБАНОВ". It is present in stenograms 676, 678, 679, 680, 681, 742.
    We have not asked the parliamentary infocenter about it.
@tsikov

This comment has been minimized.

Copy link
Member Author

tsikov commented May 1, 2014

@Krastanov, много ти благодаря :) Мисля да не слагам втората точка, защото скриптът за депутати взима информация като минава id-тата от 1 до 2312. Поради това си мисля, че няма да имаме проблем. Засега на моята машина работи без засечки.

@Krastanov

This comment has been minimized.

Copy link

Krastanov commented May 1, 2014

@jsibelius

Относно точка две, не знам дали ползвате ексел файловете с гласовете на депутатите за сега. Проблемът е там (поне за мен, поне преди година).

'МИХАИЛ ВЛАДИМИРОВ ВЛАДОВ' and 'НИКОЛАЙ НАНКОВ НАНКОВ' присъстват в ексел файловете с гласове (два или три файла) но ги няма в списъка с id-та.

Предполагам че когато почнете да ползвате ексел файловете или ще имате foreign key errors или просто базата данни няма да проверява за това и ще съдържа имена на хора сред гласуващите които не присъстват в таблицата с депутатите.

@tsikov

This comment has been minimized.

Copy link
Member Author

tsikov commented May 1, 2014

Прав си! Сега видях, че нямам Михаил Владов и Николай Нанков в списъка с депутати :)

@tsikov

This comment has been minimized.

Copy link
Member Author

tsikov commented May 8, 2014

Открих още едно. На 19ти, 20ти и 21ви 2014 февруари в списъците има само 238 или 239 депутата!

screen shot 2014-05-08 at 23 04 58

screen shot 2014-05-08 at 23 06 14

screen shot 2014-05-08 at 23 06 24

@antitoxic

This comment has been minimized.

Copy link
Member

antitoxic commented May 21, 2014

Това с липсващите депутати трябва да се логва с logger-a

@yurukov

This comment has been minimized.

Copy link

yurukov commented Jun 13, 2014

Ето тук съм споделил кода на моите скриптове за сваляне на данните. Свалям XML-ите и HTML-ите на повечето страници и ги обръщам после с XSL. Грешката, която направих е да пазя резултата в XML, а не в база данни.
https://github.com/yurukov/Bulgarian-Parliament-Open-Data

Тук е целия портал:
http://parliament.yurukov.net/

Проблемът е, че при малки промени в сайтовете им се чупят скрейпърите. От доста време не работят вече и не ми е останало време да ги оправя или пренапиша.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment