# Úkol č. 1 - vizualizace dat a web scraping (do 20. října)

  * V rámci tohoto úkolu musíte stáhnout dat z webu (tzv. _web scraping_, velmi základní) a následně data zpracovat a vizualizovat.
  * Cílem bude stáhnout data ze serveru https://www.volby.cz týkající se voleb do zastupitelstva Vámi vybraného (většího) města, uložit tato data v tabulkovém formátu a pak vymyslet vizualizace a zobrazení dat, které umožní orientaci v těchto datech a zvýrazní zajímavé informace a zobrazit přehledně časový vývoj různých veličin.
 
> **Úkoly jsou zadány tak, aby Vám daly prostor pro invenci. Vymyslet _jak přesně_ budete úkol řešit, je důležitou součástí zadání a originalita či nápaditost bude také hodnocena!**

## Výběr zdroje dat

Vyberte si větší město, které má zastupitelstvo druhu 3 (Zastupitelstvo statutárního města) a strojově stáhněte informace o stranách a kandidátkách z následujících let:
 * [2002](https://www.volby.cz/pls/kv2002/kv12?xjazyk=CZ&xid=0), [2006](https://www.volby.cz/pls/kv2006/kv12?xjazyk=CZ&xid=0), [2010](https://www.volby.cz/pls/kv2010/kv12?xjazyk=CZ&xid=0), [2014](https://www.volby.cz/pls/kv2014/kv12?xjazyk=CZ&xid=0) a [2018](https://www.volby.cz/pls/kv2018/kv12?xjazyk=CZ&xid=0).
 

## Pokyny k vypracování

**Základní body zadání**, za jejichž (poctivé) vypracování získáte **8 bodů**:
  * Strojově stáhněte data pro vybrané město a uložte je všechny do (asi dvou) přehledných tabulek ve formátu _csv_.
  * Data musí obsahovat _alespoň_ toto:
    * Vývoj výsledků (v procentech i počtu hlasů) pro jednotlivé strany v jednotlivých letech.
    * Seznam všech kandidátů všech stran v jednotlivých letech, u kandidáta by mělo být zaznamenáno: jméno, věk v době voleb, navrhující strana, politická příslušnost, volební zisk (procento i počet hlasů), pořadí na kandidátce, pořadí zvolení, jestli získal mandát (tyto informace získáte souhrnně ve _jmenných seznamech_).
  * V druhé části Vašeho Jupyter notebooku pracujte s těmito tabulkami načtenými z _csv_ souboru (aby opravující nemusel spouštět stahování z webu).
  * Tabulky ve formátu _csv_ také odevzdejte.
  * S využitím vybraných nástrojů zpracujte data a vymyslete vizualizace a grafy, aby bylo vidět následující:
    * Časový vývoj (po rocích voleb) počtu kandidujících stran i lidí a to celkově i po jednotlivých stranách (ve volbách, kterých se daná strana účastnila).
    * Věkovou strukturu kandidátů celkově i za jednotlivé strany a vývoj této struktury během jednotlivých voleb.
    * Časový vývoj volební účasti a volebních výsledků jednotlivých stran.
    * Časový vývoj podílu kandidujících s titulem a bez titulu.

**Další body zadání** za případné další body (můžete si vybrat, maximum bodů za úkol je každopádně 12 bodů):
  * (až +2 body) U titulů se pokuste rozlišit i různé stupně vzdělání: bakalářský, magisterský, doktorský a vyšší, vojenská hodnost atp. Zkuste odhadnout i podíl žen na kandidátkách.
  * (až +4 body) Pokuste se u jednotlivých kandidátů zjistit, zda kandidovali ve více volbách. Najděte 10 nejpilnějších kandidátů a vypište jejich volební zisky a za jaké strany kandidovali.
  * (až +2 body) Najděte nějaký balíček, který Vám dovolí do Vašeho notebooku zavést interaktivní prvky, např. si vyberete v select-boxu stranu a Váš notebook zobrazí grafy pouze pro ni atp.

## Poznámky k odevzdání

  * Řiďte se pokyny ze stránky https://courses.fit.cvut.cz/BI-VZD/homeworks/index.html.
  * Odevzdejte nejen Jupyter Notebook, ale i _csv_ soubor(y) se staženými daty.
  * Opravující Vám může umožnit úkol dodělat či opravit a získat tak další body. První verze je ale důležitá a bude-li odbytá, budete za to penalizováni.

In [126]:
import numpy as np
import pandas as pd
import sklearn as skit
import matplotlib.pyplot as plt
import seaborn as sns
import csv

In [127]:
party_data = []
people_data = []

years = [2006, 2010, 2014, 2018]

for year in years:
    '''
        reads data from volby.cz 
    '''
    url = 'https://www.volby.cz/pls/kv' + str(year) + '/kv1111?xjazyk=CZ&xid=1&xdz=3&xnumnuts=5103&xobec=563889&xstat=0&xvyber=0'
    dfs = pd.read_html(url,flavor='html5lib')
    party_data.append(dfs[1])
    url = 'https://www.volby.cz/pls/kv' + str(year) + '/kv21111?xjazyk=CZ&xid=1&xv=11&xdz=3&xnumnuts=5103&xobec=563889&xstrana=0'
    dfs = pd.read_html(url,flavor='html5lib')
    #dfs[0].columns = dfs[0].comlumns.to_frame()[1]
    people_data.append(dfs[0])
    
# changes header from 2 levels to 1 level
for df in party_data:
    df.columns = df.columns.to_frame()[1]
for df in people_data:
    df.columns = df.columns.to_frame()[1]

In [128]:
# Řešení titulů pro roky 2006 - 2018
# Rozpoznávaé tituly
titles = ["Bc.", "BcA.", "Ing.", "Ing. arch.", "MUDr.", "MVDr.", "Mgr.", "MgA.", "JUDr.", "PhDr.", "RNDr.", "PharmDr.", "ThLic.", "ThDr.", "Ph.D.", "Ph.D.", "Th.D.", "CSc.", "DrSc.", "doc.", "prof."]

for df in people_data:
    title_frame = []
    cols = list(df)
    cols.insert(4, "Tituly")
    df["Tituly"] = np.nan
    df.columns = cols
    for index, row in df.iterrows():
        arr = row["příjmení, jméno, tituly"].split()
        title = ""
        if len(arr) < 3:
            title_frame.append("")
            continue
        for name in arr:
            if name in titles: 
                title = title + " " + name
        title_frame.append(title)
    df["Tituly"] = title_frame


In [129]:
people_data[3]

Unnamed: 0,číslo,název,poř.číslo,"příjmení, jméno, tituly",Tituly,věk,Navrhujícístrana,Politickápříslušnost,abs.,v %,Pořadízvolení/náhradníka,Mandát
0,10,Změna pro Liberec,10,Absolonová Kateřina MUDr.,MUDr.,Zelení,BEZPP,4 332,274,4,-,
1,5,ANO 2011,3,Balašová Renáta Mgr.,Mgr.,ANO,BEZPP,6 865,270,3,*,
2,7,PRO 2016 s podporou Svobodných,19,Ballaty Daniel,,Svobodní,Svobodní,1 043,244,-,-,
3,8,Liberec Plus+,37,Bára Milan,,NK,BEZPP,357,191,-,-,
4,12,Česká str.sociálně demokrat.,28,Bartáková Milada,,ČSSD,ČSSD,591,234,-,-,
5,8,Liberec Plus+,5,Bartoň Zdeněk Bc.,Bc.,NK,BEZPP,532,285,-,-,
6,5,ANO 2011,26,Bartoníčková Veronika,,ANO,BEZPP,6 432,253,15,-,
7,2,Svob.a př.dem.-T.Okamura (SPD),8,Bartoš Jan,,SPD,SPD,1 424,261,-,-,
8,2,Svob.a př.dem.-T.Okamura (SPD),38,Bartošová Veronika,,SPD,BEZPP,1 264,231,-,-,
9,12,Česká str.sociálně demokrat.,35,Bartošová Zuzana Ing.,Ing.,ČSSD,ČSSD,561,222,-,-,


In [130]:
party_data[2]

1,číslo,název,abs.,v %,Početkandidátů,Přepočtenýzákladdle počtukandidátů,Přepočtené %platných hlasů,Početmandátů,Podílyhlasů
0,1,Nový směr-společná kandidátka,28 259,271,39,"1 042 675,00",271,0,-
1,2,Česká str.sociálně demokrat.,102 429,982,39,"1 042 675,00",982,4,X
2,3,Starostové pro Liberecký kraj,172 933,1659,39,"1 042 675,00",1658,8,X
3,4,Změna pro Liberec,265 450,2546,39,"1 042 675,00",2545,12,X
4,5,Úsvit přímé demokracie,14 479,139,39,"1 042 675,00",138,0,-
5,6,KDU-ČSL a nezávislí,23 964,230,39,"1 042 675,00",229,0,-
6,7,Str.pro otevřenou společnost,6 044,58,36,"962 469,23",62,0,-
7,8,TOP 09,56 952,546,39,"1 042 675,00",546,2,X
8,9,Liberec ještě žije,16 293,156,39,"1 042 675,00",156,0,-
9,10,Strana svobodných občanů,19 909,191,39,"1 042 675,00",190,0,-


In [131]:
# reads people data for year 2002
url = 'http://www.volby.cz/pls/kv2002/kv21111?xjazyk=CZ&xid=1&xv=11&xdz=3&xnumnuts=5103&xobec=563889&xstrana=0'
people_data_2002 = pd.read_html(url, displayed_only=False)
people_data_2002[0].columns = people_data_2002[0].columns.to_frame()[1]

In [132]:
display(people_data_2002[0].columns)
display(people_data[0].columns)

Index(['Kandidátnílistina', 'Kandidátnílistina.1', 'Poř.číslo',
       'Příjmení, jméno', 'Tituly', 'Věk', 'Navrh.strana', 'Polit.přísl.',
       'abs.', 'v %', 'Pořadí', 'Mandát'],
      dtype='object', name=1)

Index(['číslo', 'název', 'poř.číslo', 'příjmení, jméno, tituly', 'Tituly',
       'věk', 'Navrhujícístrana', 'Politickápříslušnost', 'abs.', 'v %',
       'Pořadízvolení/náhradníka', 'Mandát'],
      dtype='object')

In [133]:
# reads party data for year 2002
url = 'http://www.volby.cz/pls/kv2002/kv1211?xjazyk=CZ&xid=1&xv=1&xdz=3&xnumnuts=5103'
party_data_2002 = pd.read_html(url, displayed_only=False)
party_data_2002[0].columns = party_data_2002[0].columns.to_frame()[1]
party_data_2002[1].columns = party_data_2002[1].columns.to_frame()[1]

In [134]:
# data from 2002 append other data
people_data_2002[0].columns = people_data[0].columns
people_data.append(people_data_2002[0])

In [152]:
for index, df in enumerate(party_data): 
    print("asdasd")
    df = df.drop(columns = ["číslo", "Početkandidátů", "Přepočtenýzákladdle počtukandidátů", "Podílyhlasů"])
#party_data[0].drop(columns = ["číslo", "Početkandidátů", "Přepočtenýzákladdle počtukandidátů", "Podílyhlasů"])

asdasd
asdasd
asdasd
asdasd


1,název,abs.,v %,Přepočtené %platných hlasů,Početmandátů
0,SNK ED a nezávislí společně,72 106,639,638,2
1,Strana zelených,127 974,1133,1133,4
2,Občanská demokratická strana,326 189,2889,2888,12
3,Unie pro sport a zdraví,102 316,906,906,3
4,NEZ.DEMOKRATÉ(předs.V.Železný),1 929,17,74,0
5,Česká str.sociálně demokrat.,161 564,1431,1430,6
6,Komunistická str.Čech a Moravy,98 964,876,876,3
7,SOS pro Liberec,236 848,2098,2152,9
8,Koruna Česká (monarch.strana),776,7,67,0
9,Občanská demokratická aliance,454,4,78,0


In [153]:
display(party_data_2002[1])
display(party_data[0])

1,Volební strana,abs.,v %,abs..1,v %.1
0,Křesťanská a demokratická unie - Československ...,35 474,3.6,0,0.0
1,Česká strana sociálně demokratická,155 273,15.76,7,17.95
2,Komunistická strana Čech a Moravy,105 909,10.75,5,12.82
3,Občanská demokratická strana,273 081,27.72,13,33.33
4,NEZÁVISLÍ,50 781,5.15,2,5.13
5,"Pravý Blok-strana za ODVOLAT.politiků, NÍZKÉ d...",2 874,0.29,0,0.0
6,Unie svobody - Demokratická unie,53 994,5.48,2,5.13
7,Strana pro otevřenou společnost,97 869,9.93,4,10.26
8,Demokratická regionální strana,60 223,6.11,3,7.69
9,Hnutí nezávislých za harmonický rozvoj obcí a ...,19 386,1.97,0,0.0


1,číslo,název,abs.,v %,Početkandidátů,Přepočtenýzákladdle počtukandidátů,Přepočtené %platných hlasů,Početmandátů,Podílyhlasů
0,1,SNK ED a nezávislí společně,72 106,639,39,"1 129 120,00",638,2,X
1,2,Strana zelených,127 974,1133,39,"1 129 120,00",1133,4,X
2,3,Občanská demokratická strana,326 189,2889,39,"1 129 120,00",2888,12,X
3,4,Unie pro sport a zdraví,102 316,906,39,"1 129 120,00",906,3,X
4,5,NEZ.DEMOKRATÉ(předs.V.Železný),1 929,17,9,"260 566,15",74,0,-
5,6,Česká str.sociálně demokrat.,161 564,1431,39,"1 129 120,00",1430,6,X
6,7,Komunistická str.Čech a Moravy,98 964,876,39,"1 129 120,00",876,3,X
7,8,SOS pro Liberec,236 848,2098,38,"1 100 168,20",2152,9,X
8,9,Koruna Česká (monarch.strana),776,7,4,"115 807,17",67,0,-
9,10,Občanská demokratická aliance,454,4,2,"57 903,58",78,0,-


In [145]:
pd.DataFrame(party_data).to_csv("party_data.csv")
pd.DataFrame(people_data).to_csv("people_data.csv")

In [146]:
pd.DataFrame(party_data[0]).info()
pd.DataFrame(people_data[0]).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 9 columns):
číslo                                 10 non-null int64
název                                 10 non-null object
abs.                                  10 non-null object
v %                                   10 non-null int64
Početkandidátů                        10 non-null int64
Přepočtenýzákladdle počtukandidátů    10 non-null object
Přepočtené %platných hlasů            10 non-null int64
Početmandátů                          10 non-null int64
Podílyhlasů                           10 non-null object
dtypes: int64(5), object(4)
memory usage: 800.0+ bytes
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 287 entries, 0 to 286
Data columns (total 12 columns):
číslo                       287 non-null int64
název                       287 non-null object
poř.číslo                   287 non-null int64
příjmení, jméno, tituly     287 non-null object
Tituly                      287 non-null 