# Úkol č. 1 - vizualizace dat a web scraping (do 20. října)

  * V rámci tohoto úkolu musíte stáhnout dat z webu (tzv. _web scraping_, velmi základní) a následně data zpracovat a vizualizovat.
  * Cílem bude stáhnout data ze serveru https://www.volby.cz týkající se voleb do zastupitelstva Vámi vybraného (většího) města, uložit data o závěrečných pracích v tabulkovém formátu a pak vymyslet vizualizace a zobrazení dat, které umožní orientaci v těchto datech a zvýrazní zajímavé informace a zobrazit přehledně časový vývoj různých veličin.
 
> **Úkoly jsou zadány tak, aby Vám daly prostor pro invenci. Vymyslet _jak přesně_ budete úkol řešit, je důležitou součástí zadání a originalita či nápaditost bude také hodnocena!**

## Výběr zdroje dat

Vyberte si větší město, které má zastupitelstvo druhu 3 (Zastupitelstvo statutárního města) a strojově stáhněte informace o stranách a kandidátkách z následujících let:
 * [2002](https://www.volby.cz/pls/kv2002/kv12?xjazyk=CZ&xid=0), [2006](https://www.volby.cz/pls/kv2006/kv12?xjazyk=CZ&xid=0), [2010](https://www.volby.cz/pls/kv2010/kv12?xjazyk=CZ&xid=0), [2014](https://www.volby.cz/pls/kv2014/kv12?xjazyk=CZ&xid=0) a [2018](https://www.volby.cz/pls/kv2018/kv12?xjazyk=CZ&xid=0).
 

## Pokyny k vypracování

**Základní body zadání**, za jejichž (poctivé) vypracování získáte **8 bodů**:
  * Strojově stáhněte data pro vybrané město a uložte je všechny do (asi dvou) přehledných tabulek ve formátu _csv_.
  * Data musí obsahovat _alespoň_ toto:
    * Vývoj výsledků (v procentech i počtu hlasů) pro jednotlivé strany v jednotlivých letech.
    * Seznam všech kandidátů všech stran v jednotlivých letech, u kandidáta by mělo být zaznamenáno: jméno, věk v době voleb, navrhující strana, politická příslušnost, volební zisk (procento i počet hlasů), pořadí na kandidátce, pořadí zvolení, jestli získal mandát (tyto informace získáte souhrnně ve _jmenných seznamech_).
  * V druhé části Vašeho Jupyter notebooku pracujte s těmito tabulkami načtenými z _csv_ souboru (aby opravující nemusel spouštět stahování z webu).
  * Tabulky ve formátu _csv_ také odevzdejte.
  * S využitím vybraných nástrojů zpracujte data a vymyslete vizualizace a grafy, aby bylo vidět následující:
    * Časový vývoj (po rocích voleb) počtu kandidujících stran i lidí a to celkově i po jednotlivých stranách (ve volbách, kterých se daná strana účastnila).
    * Věkovou strukturu kandidátů celkově i za jednotlivé strany a vývoj této struktury během jednotlivých voleb.
    * Časový vývoj volební účasti a volebních výsledků jednotlivých stran.
    * Časový vývoj podílu kandidujících s titulem a bez titulu.

**Další body zadání** za případné další body (můžete si vybrat, maximum bodů za úkol je každopádně 12 bodů):
  * (až +2 body) U titulů se pokuste rozlišit i různé stupně vzdělání: bakalářský, magisterský, doktorský a vyšší, vojenská hodnost atp. Zkuste odhadnout i podíl žen na kandidátkách.
  * (až +4 body) Pokuste se u jednotlivých kandidátů zjistit, zda kandidovali ve více volbách. Najděte 10 nejpilnějších kandidátů a vypište jejich volební zisky a za jaké strany kandidovali.
  * (až +2 body) Najděte nějaký balíček, který Vám dovolí do Vašeho notebooku zavést interaktivní prvky, např. si vyberete v select-boxu stranu a Váš notebook zobrazí grafy pouze pro ni atp.

## Poznámky k odevzdání

  * Řiďte se pokyny ze stránky https://courses.fit.cvut.cz/BI-VZD/homeworks/index.html.
  * Odevzdejte nejen Jupyter Notebook, ale i _csv_ soubor(y) se staženými daty.
  * Opravující Vám může umožnit úkol dodělat či opravit a získat tak další body. První verze je ale důležitá a bude-li odbytá, budete za to penalizováni.

## Řešení

In [None]:
# imports
import numpy as np
import pandas as pd
import matplotlib as mpl
import seaborn as sns
from ipywidgets import widgets, interactive
%matplotlib inline

## Stáhnutí tabulek pro každý rok pro město České Budějovice
* Pro každý rok stáhneme tři tabulky: tabulka se základními daty (voliči, účast, ...), tabulka stran, tabulka kandidátů

### 2002

In [None]:
# election results
url = "https://www.volby.cz/pls/kv2002/kv1111?xjazyk=CZ&xid=0&xdz=3&xnumnuts=3101&xobec=544256"
dfs = pd.read_html(url, flavor="html5lib", thousands=u"\xa0", decimal=".")
elections_2002 = dfs[0]
parties_2002 = dfs[1]

# list of names
url = "https://www.volby.cz/pls/kv2002/kv21111?xjazyk=CZ&xid=0&xv=11&xdz=3&xnumnuts=3101&xobec=544256&xstrana=0"
dfs = pd.read_html(url, flavor="html5lib", thousands=u"\xa0", decimal=".")
candidates_2002 = dfs[0]

### 2006

In [None]:
# election results
url = "https://www.volby.cz/pls/kv2006/kv1111?xjazyk=CZ&xid=0&xdz=3&xnumnuts=3101&xobec=544256"
dfs = pd.read_html(url, flavor="html5lib", thousands=u"\xa0", decimal=",")
elections_2006 = dfs[0]
parties_2006 = dfs[1]

# list of names
url = "https://www.volby.cz/pls/kv2006/kv21111?xjazyk=CZ&xid=0&xv=11&xdz=3&xnumnuts=3101&xobec=544256&xstrana=0"
dfs = pd.read_html(url, flavor="html5lib", thousands=u"\xa0", decimal=",")
candidates_2006 = dfs[0]

### 2010

In [None]:
# election results
url = "https://www.volby.cz/pls/kv2010/kv1111?xjazyk=CZ&xid=0&xdz=3&xnumnuts=3101&xobec=544256"
dfs = pd.read_html(url, flavor="html5lib", thousands=u"\xa0", decimal=",")
elections_2010 = dfs[0]
parties_2010 = dfs[1]

# list of names
url = "https://www.volby.cz/pls/kv2010/kv21111?xjazyk=CZ&xid=0&xv=11&xdz=3&xnumnuts=3101&xobec=544256&xstrana=0"
dfs = pd.read_html(url, flavor="html5lib", thousands=u"\xa0", decimal=",")
candidates_2010 = dfs[0]

### 2014

In [None]:
# election results
url = "https://www.volby.cz/pls/kv2014/kv1111?xjazyk=CZ&xid=0&xdz=3&xnumnuts=3101&xobec=544256"
dfs = pd.read_html(url, flavor="html5lib", thousands=u"\xa0", decimal=",")
elections_2014 = dfs[0]
parties_2014 = dfs[1]

# list of names
url = "https://www.volby.cz/pls/kv2014/kv21111?xjazyk=CZ&xid=0&xv=11&xdz=3&xnumnuts=3101&xobec=544256&xstrana=0"
dfs = pd.read_html(url, flavor="html5lib", thousands=u"\xa0", decimal=",")
candidates_2014 = dfs[0]

### 2018

In [None]:
# election results
url = "https://www.volby.cz/pls/kv2018/kv1111?xjazyk=CZ&xid=0&xdz=3&xnumnuts=3101&xobec=544256"
dfs = pd.read_html(url, flavor="html5lib", thousands=u"\xa0", decimal=",")
elections_2018 = dfs[0]
parties_2018 = dfs[1]

# list of names
url = "https://www.volby.cz/pls/kv2018/kv21111?xjazyk=CZ&xid=0&xv=11&xdz=3&xnumnuts=3101&xobec=544256&xstrana=0"
dfs = pd.read_html(url, flavor="html5lib", thousands=u"\xa0", decimal=",")
candidates_2018 = dfs[0]

## Úpravy tabulek do správného formátu, spojení a uložení do CSV
### Tabulka se základními informacemi

In [None]:
# rename columns
elections_cols = ["Počet volených členů zastupitelstva", "Počet volebních obvodů", "Počet okrsků",
                  "Počet zpracovaných okrsků", "Počet zpracovaných okrsků v %", "Zapsaní voliči",
                  "Vydané obálky", "Volební účast v %", "Odevzdané obálky", "Platné hlasy"]
elections_2002.columns = elections_cols
elections_2006.columns = elections_cols
elections_2010.columns = elections_cols
elections_2014.columns = elections_cols
elections_2018.columns = elections_cols

# add corresponding year
elections_2002["Rok"] = 2002
elections_2006["Rok"] = 2006
elections_2010["Rok"] = 2010
elections_2014["Rok"] = 2014
elections_2018["Rok"] = 2018

# concatenate
elections = pd.concat([elections_2002, elections_2006, elections_2010, elections_2014, elections_2018],
                      ignore_index=True)

### Tabulka se stranami

In [None]:
# rename columns
parties_cols = ["Číslo", "Název", "Hlasy abs.", "Hlasy v %", "Počet kandidátů",
                "Přepočtený základ dle počtu kandidátů", "Přepočtené % platných hlasů",
                "Počet mandátů", "Podíly hlasů"]
parties_2002.columns = parties_cols
parties_2006.columns = parties_cols
parties_2010.columns = parties_cols
parties_2014.columns = parties_cols
parties_2018.columns = parties_cols

# add corresponding year
parties_2002["Rok"] = 2002
parties_2006["Rok"] = 2006
parties_2010["Rok"] = 2010
parties_2014["Rok"] = 2014
parties_2018["Rok"] = 2018

# concatenate
parties = pd.concat([parties_2002, parties_2006, parties_2010, parties_2014, parties_2018],
                      ignore_index=True)

# drop unnecessary column 'Podíly hlasů'
parties = parties.drop("Podíly hlasů", axis=1)

### Tabulka s kandidáty

In [None]:
# rename columns
candidates_2002_cols = ["Číslo", "Název", "Pořadové číslo", "Příjmení, jméno", "Tituly", "Věk",
                        "Navrhující strana", "Politická příslušnost", "Hlasy abs.", "Hlasy v %",
                        "Pořadí zvolení/náhradníka", "Mandát"]
candidates_cols = ["Číslo", "Název", "Pořadové číslo", "Příjmení, jméno, tituly", "Věk",
                        "Navrhující strana", "Politická příslušnost", "Hlasy abs.", "Hlasy v %",
                        "Pořadí zvolení/náhradníka", "Mandát"]
candidates_2002.columns = candidates_2002_cols
candidates_2006.columns = candidates_cols
candidates_2010.columns = candidates_cols
candidates_2014.columns = candidates_cols
candidates_2018.columns = candidates_cols

# add corresponding year
candidates_2002["Rok"] = 2002
candidates_2006["Rok"] = 2006
candidates_2010["Rok"] = 2010
candidates_2014["Rok"] = 2014
candidates_2018["Rok"] = 2018

# concatenate candidates tables 2006, 2010, 2014, 2018
candidates_new = pd.concat([candidates_2006, candidates_2010, candidates_2014, candidates_2018],
                           ignore_index=True)

# split name and academic degrees to separate columns in candidates tables 2006, 2010, 2014, 2018
# this is actually more complicated than it sounds, people can have more than 2 names
def construct(df):
    out = pd.DataFrame(columns=["Příjmení, jméno", "Tituly"])
    degrees = [None, 'RNDr.', 'Bc.', 'Ing.', 'Mgr.', 'RSDr.', 'MUDr.', 'Doc.',
       'DiS', 'JUDr.', 'ak.mal.', 'PhDr.', 'DiS.', 'dipl.', 'doc.', 'MgA.', 'prof.',
       'MSc.,', 'ak.', 'MVDr.', 'Jur.', 'PaedDr.', 'Dr.', 'MBA', 'BBS', 'Ph.D.']
    for i, r in df.iterrows():
        index = 0
        for ii, rr in enumerate(r):
            if rr in degrees:
                index = ii
                break
        jmeno = ""
        tituly = np.nan
        for ii, rr in enumerate(r):
            if ii < index:
                if jmeno != "":
                    jmeno += " "
                jmeno += rr
            elif ii >= index:
                if rr != None:
                    if not isinstance(tituly, str):
                        tituly = ""
                    if tituly != "":
                        tituly += " "
                    tituly += rr
        out = out.append({"Příjmení, jméno" : jmeno,
                          "Tituly" : tituly},
                          ignore_index=True)
    return out

new = construct(candidates_new["Příjmení, jméno, tituly"].str.split(n=0, expand=True))
candidates_new = candidates_new.drop("Příjmení, jméno, tituly", axis=1)
candidates_new.insert(3, "Příjmení, jméno", new["Příjmení, jméno"])
candidates_new.insert(4, "Tituly", new["Tituly"])

# format 'Mandát' column to a boolean
candidates_2002["Mandát"].replace({'*': True, np.nan: False}, inplace=True)
candidates_new["Mandát"].replace({'*': True, '-': False}, inplace=True)
candidates_new.fillna(value=np.nan, inplace=True)
candidates_new["Pořadí zvolení/náhradníka"] = pd.to_numeric(candidates_new["Pořadí zvolení/náhradníka"],
                                                             errors="coerce")
# concatenate
candidates = pd.concat([candidates_2002, candidates_new], ignore_index=True)

# format 'Pořadí zvolení/náhradníka' column to int64 (NaN values to zero)
candidates["Pořadí zvolení/náhradníka"] = candidates["Pořadí zvolení/náhradníka"].fillna(0).astype(np.int64)

# replace \xa0 with space
candidates["Příjmení, jméno"] = candidates["Příjmení, jméno"].str.replace(u"\xa0", " ")

### Uložení do csv

In [None]:
elections.to_csv("elections.csv", sep=";", index=False)
parties.to_csv("parties.csv", sep=";", index=False)
candidates.to_csv("candidates.csv", sep=";", index=False)

## Práce s grafy
### Načtení z CSV

In [None]:
elections = pd.read_csv("elections.csv", sep=";")
parties = pd.read_csv("parties.csv", sep=";")
candidates = pd.read_csv("candidates.csv", sep=";")

# replace NaN with empty string in academic degrees
candidates["Tituly"] = candidates["Tituly"].fillna("")

### Počet kandidujících stran v průběhu let

In [None]:
party_count_years = parties.groupby("Rok")["Název"].count().to_frame()
party_count_years.columns = ["Počet kand. stran"]
ax = party_count_years.plot.bar(color="royalblue", legend=False, figsize=(8, 4))
_ = ax.set_ylabel("Počet kandidujících stran")

### Počet kandidátů ve stranách v jednotlivých letech

In [None]:
dd1 = widgets.Dropdown(
    options=[2002, 2006, 2010, 2014, 2018],
    value=2018,
    description='Rok: ')

def plot_candidate_count(year):
    df = candidates.copy()
    df = df[df["Rok"] == year]
    df = df.groupby("Název")["Příjmení, jméno"].count().to_frame()
    df.columns = ["Počet kandidátů"]
    ax = df.plot.bar(color="limegreen", legend=False, figsize=(8, 4), ylim=[0,50])
    ax.set_ylabel("Počet kandidátů")
    
interactive(plot_candidate_count, year=dd1)

### Průměrný věk kandidátů ve všech/jednotlivých stranách v průběhu let

In [None]:
dd2 = widgets.Dropdown(
    options=['Všechny'] + list(parties['Název'].unique()),
    value='Všechny',
    description='Strana: ')

def plot_avg_age(party):
    df = candidates.copy()
    if party != 'Všechny':
        df = df[df["Název"] == party]
    df = df.groupby("Rok")["Věk"].mean().to_frame()
    df.columns = ["Průměrný věk"]
    ax = df.plot.bar(color="red", legend=False, ylim=[30, 70], figsize=(8, 4))
    ax.set_ylabel("Průměrný věk")
    
interactive(plot_avg_age, party=dd2)

### Volební účast napříč lety

In [None]:
voter_turnout = elections[["Rok", "Volební účast v %"]]
ax = voter_turnout.plot.line(x="Rok", y="Volební účast v %", marker="o", color="orange",
                             xlim=[2000, 2020], xticks=[2002, 2006, 2010, 2014, 2018],
                             ylim=[30, 45], legend=False, figsize=(8, 4))
_ = ax.set_ylabel("Volební účast v %")

### Výsledky voleb (celkový přehled)

In [None]:
mpl.pyplot.figure(figsize=(17, 4))
sns.heatmap(parties.pivot("Rok", "Název", "Hlasy v %"),
            cmap="Oranges", cbar_kws={'label': 'Hlasy v %'})

### Výsledky voleb (procento hlasů) v konkrétních letech

In [None]:
dd3 = widgets.Dropdown(
    options=[2002, 2006, 2010, 2014, 2018],
    value=2018,
    description='Rok: ')

def plot_results(year):
    df = parties.copy()
    df = df[df["Rok"] == year][["Název", "Hlasy v %"]]
    df.plot.pie(y="Hlasy v %", labels=df["Název"].tolist(), legend=None,
                figsize=(10, 10), autopct="%1.2f%%", label="")
    
interactive(plot_results, year=dd3)

### Procento kandidátů s titulem

In [None]:
voter_degree_ratio = pd.DataFrame(columns=["Rok", "Podíl kandidujících s titulem a bez titulu"])
for year in range(2002, 2022, 4):
    df = candidates.copy()
    df = df[df["Rok"] == year]
    degree = df[df["Tituly"] != ""].shape[0]
    voter_degree_ratio = voter_degree_ratio.append({"Rok" : year,
                                                    "Podíl kandidujících s titulem a bez titulu"
                                                    : 100*degree/df.shape[0]},
                                                    ignore_index=True)
voter_degree_ratio = voter_degree_ratio.astype({"Rok" : int, "Podíl kandidujících s titulem a bez titulu" : float})

ax = voter_degree_ratio.plot.line(x="Rok", y="Podíl kandidujících s titulem a bez titulu", marker="o",
                                  color="purple", xlim=[2000, 2020], xticks=[2002, 2006, 2010, 2014, 2018],
                                  figsize=(8, 4), ylim=[34, 50], legend=False)
_ = ax.set_ylabel("Procento kandidátů s titulem")

### Věková struktura ve všech/jednotlivých stranách v konkrétních letech

In [None]:
dd4 = widgets.Dropdown(
    options=[2002, 2006, 2010, 2014, 2018],
    value=2018,
    description='Rok: ')

dd5 = widgets.Dropdown(
    options=['Všechny'] + list(parties[parties["Rok"] == dd4.value]["Název"].unique()),
    value='Všechny',
    continuous_update=True,
    description='Strana: ')

def dd4_on_change(change):
    if change['type'] == 'change' and change['name'] == 'value':
        dd5.options = ['Všechny'] + list(parties[parties["Rok"] == dd4.value]["Název"].unique())
    
dd4.observe(dd4_on_change)

def plot_age_structure(year, party):
    age_structure = pd.DataFrame(columns=["Věková kategorie", "Počet"])
    age_categories = {"<20" : (0, 20),
                      "20-30": (20, 30),
                      "30-40" : (30, 40),
                      "40-50" : (40, 50),
                      "50-60" : (50, 60),
                      "60-70"  : (60, 70),
                      "70-80" : (70, 80),
                      ">80" : (80, np.inf)}
    df = candidates.copy()
    df = df[df["Rok"] == year]
    if party != 'Všechny':
        df = df[df["Název"] == party]
        
    for k, v in age_categories.items():
        lo, hi = v
        df_cat = df.copy()
        df_cat = df_cat[df_cat["Věk"] > lo]
        df_cat = df_cat[df_cat["Věk"] < hi]
        age_structure = age_structure.append({"Věková kategorie" : k,
                                              "Počet" : df_cat.shape[0]},
                                              ignore_index=True)
    
    ax = age_structure.plot.bar(x="Věková kategorie", legend=False, y="Počet", color="y", figsize=(8, 4))
    ax.set_ylabel("Počet")

interactive(plot_age_structure, year=dd4, party=dd5)

### Odhad procenta kandidujících žen napříč lety

In [None]:
women_ratio = pd.DataFrame(columns=["Rok", "Podíl kandidujících žen a mužů"])
for year in range(2002, 2022, 4):
    df = candidates.copy()
    df = df[df["Rok"] == year]
    women = df[df["Příjmení, jméno"].str.match(".*(ová|ná|ská|ická|ká)\s.*")].shape[0]
    women_ratio = women_ratio.append({"Rok" : year,
                                      "Podíl kandidujících žen a mužů" : 100*women/df.shape[0]},
                                      ignore_index=True)
women_ratio = women_ratio.astype({"Rok" : int, "Podíl kandidujících žen a mužů" : float})

ax = women_ratio.plot.line(x="Rok", y="Podíl kandidujících žen a mužů", marker="o", color="deeppink",
                           xlim=[2000, 2020], xticks=[2002, 2006, 2010, 2014, 2018], figsize=(8, 4),
                           ylim=[28, 40], legend=False)
_ = ax.set_ylabel("Procento kandidujících žen")

### Struktura titulů ve všech/jednotlivých stranách v konkrétních letech

In [None]:
dd6 = widgets.Dropdown(
    options=[2002, 2006, 2010, 2014, 2018],
    value=2018,
    description='Rok: ')

dd7 = widgets.Dropdown(
    options=['Všechny'] + list(parties[parties["Rok"] == dd6.value]["Název"].unique()),
    value='Všechny',
    continuous_update=True,
    description='Strana: ')

def dd6_on_change(change):
    if change['type'] == 'change' and change['name'] == 'value':
        dd7.options = ['Všechny'] + list(parties[parties["Rok"] == dd6.value]["Název"].unique())
    
dd6.observe(dd6_on_change)

def plot_degree_structure(year, party):
    degree_structure = pd.DataFrame(columns=["Titul", "Počet"])
    degree_categories = {"vyšší" : ".*(prof|doc).*",
                         "doktorský": ".*(Ph\.D\.|DSc|CSc|Dr\.|DrSc|Th\.D*)",
                         "magisterský" : ".*(Ing|Ing\. arch|MUDr|MDDr|MVDr|MgA|Mgr|JUDr|PhDr|RNDr|PharmDr|ThLic|ThDr|akad\. arch|ak\.mal.|ak\. soch|MSDr|PaedDr|PhMr|RCDr|RSDr|RTDr|ThMgr.*)",
                         "bakalářský" : ".*(Bc|BcA).*",
                         "neakademický" : ".*(DiS).*"}
    df = candidates.copy()
    df = df[df["Rok"] == year]
    if party != 'Všechny':
        df = df[df["Název"] == party]
        
    for category, regex in degree_categories.items():
        df_cat = df.copy()
        df_cat = df_cat[df_cat["Tituly"].str.match(regex)]
        df = df[df["Tituly"].str.match(regex) == False]
        degree_structure = degree_structure.append({"Titul" : category,
                                                    "Počet" : df_cat.shape[0]},
                                                    ignore_index=True)
        
    degree_structure = degree_structure.append({"Titul" : "bez titulu",
                                                "Počet" : df.shape[0]},
                                                ignore_index=True)
    
    ax = degree_structure.plot.bar(x="Titul", y="Počet", legend=False, color="dodgerblue", figsize=(8, 4))
    ax.set_ylabel("Počet")
    

interactive(plot_degree_structure, year=dd6, party=dd7)