# Úkol č. 1 - vizualizace dat a web scraping (do 20. října)

  * V rámci tohoto úkolu musíte stáhnout dat z webu (tzv. _web scraping_, velmi základní) a následně data zpracovat a vizualizovat.
  * Cílem bude stáhnout data ze serveru https://www.volby.cz týkající se voleb do zastupitelstva Vámi vybraného (většího) města, uložit tato data v tabulkovém formátu a pak vymyslet vizualizace a zobrazení dat, které umožní orientaci v těchto datech a zvýrazní zajímavé informace a zobrazit přehledně časový vývoj různých veličin.
 
> **Úkoly jsou zadány tak, aby Vám daly prostor pro invenci. Vymyslet _jak přesně_ budete úkol řešit, je důležitou součástí zadání a originalita či nápaditost bude také hodnocena!**

## Výběr zdroje dat

Vyberte si větší město, které má zastupitelstvo druhu 3 (Zastupitelstvo statutárního města) a strojově stáhněte informace o stranách a kandidátkách z následujících let:
 * [2002](https://www.volby.cz/pls/kv2002/kv12?xjazyk=CZ&xid=0), [2006](https://www.volby.cz/pls/kv2006/kv12?xjazyk=CZ&xid=0), [2010](https://www.volby.cz/pls/kv2010/kv12?xjazyk=CZ&xid=0), [2014](https://www.volby.cz/pls/kv2014/kv12?xjazyk=CZ&xid=0) a [2018](https://www.volby.cz/pls/kv2018/kv12?xjazyk=CZ&xid=0).
 

## Pokyny k vypracování

**Základní body zadání**, za jejichž (poctivé) vypracování získáte **8 bodů**:
  * Strojově stáhněte data pro vybrané město a uložte je všechny do (asi dvou) přehledných tabulek ve formátu _csv_.
  * Data musí obsahovat _alespoň_ toto:
    * Vývoj výsledků (v procentech i počtu hlasů) pro jednotlivé strany v jednotlivých letech.
    * Seznam všech kandidátů všech stran v jednotlivých letech, u kandidáta by mělo být zaznamenáno: jméno, věk v době voleb, navrhující strana, politická příslušnost, volební zisk (procento i počet hlasů), pořadí na kandidátce, pořadí zvolení, jestli získal mandát (tyto informace získáte souhrnně ve _jmenných seznamech_).
  * V druhé části Vašeho Jupyter notebooku pracujte s těmito tabulkami načtenými z _csv_ souboru (aby opravující nemusel spouštět stahování z webu).
  * Tabulky ve formátu _csv_ také odevzdejte.
  * S využitím vybraných nástrojů zpracujte data a vymyslete vizualizace a grafy, aby bylo vidět následující:
    * Časový vývoj (po rocích voleb) počtu kandidujících stran i lidí a to celkově i po jednotlivých stranách (ve volbách, kterých se daná strana účastnila).
    * Věkovou strukturu kandidátů celkově i za jednotlivé strany a vývoj této struktury během jednotlivých voleb.
    * Časový vývoj volební účasti a volebních výsledků jednotlivých stran.
    * Časový vývoj podílu kandidujících s titulem a bez titulu.

**Další body zadání** za případné další body (můžete si vybrat, maximum bodů za úkol je každopádně 12 bodů):
  * (až +2 body) U titulů se pokuste rozlišit i různé stupně vzdělání: bakalářský, magisterský, doktorský a vyšší, vojenská hodnost atp. Zkuste odhadnout i podíl žen na kandidátkách.
  * (až +4 body) Pokuste se u jednotlivých kandidátů zjistit, zda kandidovali ve více volbách. Najděte 10 nejpilnějších kandidátů a vypište jejich volební zisky a za jaké strany kandidovali.
  * (až +2 body) Najděte nějaký balíček, který Vám dovolí do Vašeho notebooku zavést interaktivní prvky, např. si vyberete v select-boxu stranu a Váš notebook zobrazí grafy pouze pro ni atp.

## Poznámky k odevzdání

  * Řiďte se pokyny ze stránky https://courses.fit.cvut.cz/BI-VZD/homeworks/index.html.
  * Odevzdejte nejen Jupyter Notebook, ale i _csv_ soubor(y) se staženými daty.
  * Opravující Vám může umožnit úkol dodělat či opravit a získat tak další body. První verze je ale důležitá a bude-li odbytá, budete za to penalizováni.

In [1]:
import numpy as np
import pandas as pd
import sklearn as skit
import matplotlib.pyplot as plt
import seaborn as sns
import csv

In [78]:
party_data = []
people_data = []

years = [2006, 2010, 2014, 2018]

for year in years:
    '''
        reads data from volby.cz 
    '''
    url = 'https://www.volby.cz/pls/kv' + str(year) + '/kv1111?xjazyk=CZ&xid=1&xdz=3&xnumnuts=5103&xobec=563889&xstat=0&xvyber=0'
    dfs = pd.read_html(url,flavor='html5lib')
    party_data.append(dfs[1])
    url = 'https://www.volby.cz/pls/kv' + str(year) + '/kv21111?xjazyk=CZ&xid=1&xv=11&xdz=3&xnumnuts=5103&xobec=563889&xstrana=0'
    dfs = pd.read_html(url,flavor='html5lib')
    #dfs[0].columns = dfs[0].comlumns.to_frame()[1]
    people_data.append(dfs[0])
    
# changes header from 2 levels to 1 level
for df in party_data:
    df.columns = df.columns.to_frame()[1]
for df in people_data:
    df.columns = df.columns.to_frame()[1]

In [79]:
party_data[2]
people_data[1]

1,číslo,název,poř.číslo,"příjmení, jméno, tituly",věk,Navrhujícístrana,Politickápříslušnost,abs.,v %,Pořadízvolení/náhradníka,Mandát
0,2,Změna pro Liberec,19,Abel Daniel Tibor Ing.,46,NK,BEZPP,6 191,246,9,-
1,11,Strana Práv Občanů ZEMANOVCI,29,Abrt Přemysl,38,SPOZ,BEZPP,209,224,-,-
2,2,Změna pro Liberec,2,Absolonová Kateřina MUDr.,44,NK,BEZPP,8 467,337,2,*
3,7,Demokratická regionální strana,11,Andreasová Hana,27,DRS,BEZPP,1 140,240,-,-
4,9,SOS - Liberecký zastupitel,14,Antuš Jan Mgr.,50,SOS,BEZPP,1 184,272,-,-
5,9,SOS - Liberecký zastupitel,35,Baba Jan MVDr.,51,SOS,BEZPP,783,179,-,-
6,1,Unie pro sport a zdraví,25,Bahníková Štefania Ing.,57,USZ,USZ,2 038,240,22,-
7,12,Liberec občanům,34,Barthová Milena,58,KDU-ČSL,BEZPP,3 396,208,28,-
8,2,Změna pro Liberec,16,Barthová Petra Mgr.,39,NK,BEZPP,6 543,260,6,-
9,6,Věci veřejné,15,Bartoníček Miroslav,46,VV,VV,2 182,246,12,-


In [12]:
type(dfs)

list

In [97]:
url = 'http://www.volby.cz/pls/kv2002/kv21111?xjazyk=CZ&xid=1&xv=11&xdz=3&xnumnuts=5103&xobec=563889&xstrana=0'
people_data_2002 = pd.read_html(url, displayed_only=False)
people_data_2002[0].columns = party_data_2002[0].columns.to_frame()[1]
party_data_2002

AttributeError: 'list' object has no attribute 'columns'

In [96]:
url = 'http://www.volby.cz/pls/kv2002/kv1211?xjazyk=CZ&xid=1&xv=1&xdz=3&xnumnuts=5103'
party_data_2002 = pd.read_html(url, displayed_only=False)
party_data_2002[0].columns = party_data_2002[0].columns.to_frame()[1]
party_data_2002

[1  Počet  Zpr.    v %  celkem  zvolená Zapsanívoliči Vydanéobálky  \
 0     80    80  100.0       1        1        80 036       27 924   
 
 1  Vol.účastv % Odevzd.obálky Platnéhlasy  
 0         34.89        27 890     985 284  ,
                                        Volební strana    Hlasy         \
                                        Volební strana     abs.    v %   
 0   Křesťanská a demokratická unie - Československ...   35 474   3.60   
 1                  Česká strana sociálně demokratická  155 273  15.76   
 2                   Komunistická strana Čech a Moravy  105 909  10.75   
 3                        Občanská demokratická strana  273 081  27.72   
 4                                           NEZÁVISLÍ   50 781   5.15   
 5   Pravý Blok-strana za ODVOLAT.politiků, NÍZKÉ d...    2 874   0.29   
 6                    Unie svobody - Demokratická unie   53 994   5.48   
 7                     Strana pro otevřenou společnost   97 869   9.93   
 8                      Dem

In [59]:
pd.DataFrame(party_data).to_csv("party_data.csv")
pd.DataFrame(people_data).to_csv("people_data.csv")

In [60]:
pd.DataFrame(party_data[0]).info()
pd.DataFrame(people_data[0]).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 9 columns):
(Kandidátní listina, číslo)                                                 10 non-null int64
(Kandidátní listina, název)                                                 10 non-null object
(Hlasy, abs.)                                                               10 non-null object
(Hlasy, v %)                                                                10 non-null int64
(Početkandidátů, Početkandidátů)                                            10 non-null int64
(Přepočtenýzákladdle počtukandidátů, Přepočtenýzákladdle počtukandidátů)    10 non-null object
(Přepočtené %platných hlasů, Přepočtené %platných hlasů)                    10 non-null int64
(Početmandátů, Početmandátů)                                                10 non-null int64
(Podílyhlasů, Podílyhlasů)                                                  10 non-null object
dtypes: int64(5), object(4)
memory usage: 800.0+ 