# Úkol č. 1 - vizualizace dat a web scraping (do 20. října)

  * V rámci tohoto úkolu musíte stáhnout dat z webu (tzv. _web scraping_, velmi základní) a následně data zpracovat a vizualizovat.
  * Cílem bude stáhnout data ze serveru https://www.volby.cz týkající se voleb do zastupitelstva Vámi vybraného (většího) města, uložit data o závěrečných pracích v tabulkovém formátu a pak vymyslet vizualizace a zobrazení dat, které umožní orientaci v těchto datech a zvýrazní zajímavé informace a zobrazit přehledně časový vývoj různých veličin.
 
> **Úkoly jsou zadány tak, aby Vám daly prostor pro invenci. Vymyslet _jak přesně_ budete úkol řešit, je důležitou součástí zadání a originalita či nápaditost bude také hodnocena!**

## Výběr zdroje dat

Vyberte si větší město, které má zastupitelstvo druhu 3 (Zastupitelstvo statutárního města) a strojově stáhněte informace o stranách a kandidátkách z následujících let:
 * [2002](https://www.volby.cz/pls/kv2002/kv12?xjazyk=CZ&xid=0), [2006](https://www.volby.cz/pls/kv2006/kv12?xjazyk=CZ&xid=0), [2010](https://www.volby.cz/pls/kv2010/kv12?xjazyk=CZ&xid=0), [2014](https://www.volby.cz/pls/kv2014/kv12?xjazyk=CZ&xid=0) a [2018](https://www.volby.cz/pls/kv2018/kv12?xjazyk=CZ&xid=0).
 

## Pokyny k vypracování

**Základní body zadání**, za jejichž (poctivé) vypracování získáte **8 bodů**:
  * Strojově stáhněte data pro vybrané město a uložte je všechny do (asi dvou) přehledných tabulek ve formátu _csv_.
  * Data musí obsahovat _alespoň_ toto:
    * Vývoj výsledků (v procentech i počtu hlasů) pro jednotlivé strany v jednotlivých letech.
    * Seznam všech kandidátů všech stran v jednotlivých letech, u kandidáta by mělo být zaznamenáno: jméno, věk v době voleb, navrhující strana, politická příslušnost, volební zisk (procento i počet hlasů), pořadí na kandidátce, pořadí zvolení, jestli získal mandát (tyto informace získáte souhrnně ve _jmenných seznamech_).
  * V druhé části Vašeho Jupyter notebooku pracujte s těmito tabulkami načtenými z _csv_ souboru (aby opravující nemusel spouštět stahování z webu).
  * Tabulky ve formátu _csv_ také odevzdejte.
  * S využitím vybraných nástrojů zpracujte data a vymyslete vizualizace a grafy, aby bylo vidět následující:
    * Časový vývoj (po rocích voleb) počtu kandidujících stran i lidí a to celkově i po jednotlivých stranách (ve volbách, kterých se daná strana účastnila).
    * Věkovou strukturu kandidátů celkově i za jednotlivé strany a vývoj této struktury během jednotlivých voleb.
    * Časový vývoj volební účasti a volebních výsledků jednotlivých stran.
    * Časový vývoj podílu kandidujících s titulem a bez titulu.

**Další body zadání** za případné další body (můžete si vybrat, maximum bodů za úkol je každopádně 12 bodů):
  * (až +2 body) U titulů se pokuste rozlišit i různé stupně vzdělání: bakalářský, magisterský, doktorský a vyšší, vojenská hodnost atp. Zkuste odhadnout i podíl žen na kandidátkách.
  * (až +4 body) Pokuste se u jednotlivých kandidátů zjistit, zda kandidovali ve více volbách. Najděte 10 nejpilnějších kandidátů a vypište jejich volební zisky a za jaké strany kandidovali.
  * (až +2 body) Najděte nějaký balíček, který Vám dovolí do Vašeho notebooku zavést interaktivní prvky, např. si vyberete v select-boxu stranu a Váš notebook zobrazí grafy pouze pro ni atp.

## Poznámky k odevzdání

  * Řiďte se pokyny ze stránky https://courses.fit.cvut.cz/BI-VZD/homeworks/index.html.
  * Odevzdejte nejen Jupyter Notebook, ale i _csv_ soubor(y) se staženými daty.
  * Opravující Vám může umožnit úkol dodělat či opravit a získat tak další body. První verze je ale důležitá a bude-li odbytá, budete za to penalizováni.

## Řešení

In [None]:
# imports
import numpy as np
import pandas as pd

### Stáhnutí tabulek pro každý rok
* Pro každý rok stáhneme tři tabulky: tabulka se základními daty (voliči, účast, ...), tabulka stran, tabulka kandidátů

#### 2002

In [None]:
# election results
url = "https://www.volby.cz/pls/kv2002/kv1111?xjazyk=CZ&xid=0&xdz=3&xnumnuts=3101&xobec=544256"
dfs = pd.read_html(url, flavor="html5lib", thousands=u"\xa0", decimal=".")
elections_2002 = dfs[0]
parties_2002 = dfs[1]

# list of names
url = "https://www.volby.cz/pls/kv2002/kv21111?xjazyk=CZ&xid=0&xv=11&xdz=3&xnumnuts=3101&xobec=544256&xstrana=0"
dfs = pd.read_html(url, flavor="html5lib", thousands=u"\xa0", decimal=".")
candidates_2002 = dfs[0]

#### 2006

In [None]:
# election results
url = "https://www.volby.cz/pls/kv2006/kv1111?xjazyk=CZ&xid=0&xdz=3&xnumnuts=3101&xobec=544256"
dfs = pd.read_html(url, flavor="html5lib", thousands=u"\xa0", decimal=",")
elections_2006 = dfs[0]
parties_2006 = dfs[1]

# list of names
url = "https://www.volby.cz/pls/kv2006/kv21111?xjazyk=CZ&xid=0&xv=11&xdz=3&xnumnuts=3101&xobec=544256&xstrana=0"
dfs = pd.read_html(url, flavor="html5lib", thousands=u"\xa0", decimal=",")
candidates_2006 = dfs[0]

#### 2010

In [None]:
# election results
url = "https://www.volby.cz/pls/kv2010/kv1111?xjazyk=CZ&xid=0&xdz=3&xnumnuts=3101&xobec=544256"
dfs = pd.read_html(url, flavor="html5lib", thousands=u"\xa0", decimal=",")
elections_2010 = dfs[0]
parties_2010 = dfs[1]

# list of names
url = "https://www.volby.cz/pls/kv2010/kv21111?xjazyk=CZ&xid=0&xv=11&xdz=3&xnumnuts=3101&xobec=544256&xstrana=0"
dfs = pd.read_html(url, flavor="html5lib", thousands=u"\xa0", decimal=",")
candidates_2010 = dfs[0]

#### 2014

In [None]:
# election results
url = "https://www.volby.cz/pls/kv2014/kv1111?xjazyk=CZ&xid=0&xdz=3&xnumnuts=3101&xobec=544256"
dfs = pd.read_html(url, flavor="html5lib", thousands=u"\xa0", decimal=",")
elections_2014 = dfs[0]
parties_2014 = dfs[1]

# list of names
url = "https://www.volby.cz/pls/kv2014/kv21111?xjazyk=CZ&xid=0&xv=11&xdz=3&xnumnuts=3101&xobec=544256&xstrana=0"
dfs = pd.read_html(url, flavor="html5lib", thousands=u"\xa0", decimal=",")
candidates_2014 = dfs[0]

#### 2018

In [None]:
# election results
url = "https://www.volby.cz/pls/kv2018/kv1111?xjazyk=CZ&xid=0&xdz=3&xnumnuts=3101&xobec=544256"
dfs = pd.read_html(url, flavor="html5lib", thousands=u"\xa0", decimal=",")
elections_2018 = dfs[0]
parties_2018 = dfs[1]

# list of names
url = "https://www.volby.cz/pls/kv2018/kv21111?xjazyk=CZ&xid=0&xv=11&xdz=3&xnumnuts=3101&xobec=544256&xstrana=0"
dfs = pd.read_html(url, flavor="html5lib", thousands=u"\xa0", decimal=",")
candidates_2018 = dfs[0]

### Úpravy tabulek do správného formátu, spojení a uložení do CSV
#### Tabulka se základními informacemi

In [None]:
# rename columns
elections_cols = ["Počet volených členů zastupitelstva", "Počet volebních obvodů", "Počet okrsků",
                  "Počet zpracovaných okrsků", "Počet zpracovaných okrsků v %", "Zapsaní voliči",
                  "Vydané obálky", "Volební účast v %", "Odevzdané obálky", "Platné hlasy"]
elections_2002.columns = elections_cols
elections_2006.columns = elections_cols
elections_2010.columns = elections_cols
elections_2014.columns = elections_cols
elections_2018.columns = elections_cols

# add corresponding year
elections_2002["Rok"] = 2002
elections_2006["Rok"] = 2006
elections_2010["Rok"] = 2010
elections_2014["Rok"] = 2014
elections_2018["Rok"] = 2018

# concatenate
elections = pd.concat([elections_2002, elections_2006, elections_2010, elections_2014, elections_2018],
                      ignore_index=True)

#### Tabulka se stranami

In [None]:
# rename columns
parties_cols = ["Číslo", "Název", "Hlasy abs.", "Hlasy v %", "Počet kandidátů",
                "Přepočtený základ dle počtu kandidátů", "Přepočtené % platných hlasů",
                "Počet mandátů", "Podíly hlasů"]
parties_2002.columns = parties_cols
parties_2006.columns = parties_cols
parties_2010.columns = parties_cols
parties_2014.columns = parties_cols
parties_2018.columns = parties_cols

# add corresponding year
parties_2002["Rok"] = 2002
parties_2006["Rok"] = 2006
parties_2010["Rok"] = 2010
parties_2014["Rok"] = 2014
parties_2018["Rok"] = 2018

# concatenate
parties = pd.concat([parties_2002, parties_2006, parties_2010, parties_2014, parties_2018],
                      ignore_index=True)

# drop unnecessary column 'Podíly hlasů'
parties = parties.drop("Podíly hlasů", axis=1)

#### Tabulka s kandidáty

In [None]:
# rename columns
candidates_2002_cols = ["Číslo", "Název", "Pořadové číslo", "Příjmení, jméno", "Tituly", "Věk",
                        "Navrhující strana", "Politická příslušnost", "Hlasy abs.", "Hlasy v %",
                        "Pořadí zvolení/náhradníka", "Mandát"]
candidates_cols = ["Číslo", "Název", "Pořadové číslo", "Příjmení, jméno, tituly", "Věk",
                        "Navrhující strana", "Politická příslušnost", "Hlasy abs.", "Hlasy v %",
                        "Pořadí zvolení/náhradníka", "Mandát"]
candidates_2002.columns = candidates_2002_cols
candidates_2006.columns = candidates_cols
candidates_2010.columns = candidates_cols
candidates_2014.columns = candidates_cols
candidates_2018.columns = candidates_cols

# add corresponding year
candidates_2002["Rok"] = 2002
candidates_2006["Rok"] = 2006
candidates_2010["Rok"] = 2010
candidates_2014["Rok"] = 2014
candidates_2018["Rok"] = 2018

# concatenate candidates tables 2006, 2010, 2014, 2018
candidates_new = pd.concat([candidates_2006, candidates_2010, candidates_2014, candidates_2018],
                           ignore_index=True)

# split first and last name to separate columns in candidates 2002 table
new = candidates_2002["Příjmení, jméno"].str.split(n=1, expand=True)
candidates_2002 = candidates_2002.drop("Příjmení, jméno", axis=1)
candidates_2002.insert(3, "Příjmení", new[0])
candidates_2002.insert(4, "Jméno", new[1])

# split first name, last name and academic degrees to separate columns in candidates tables 2006, 2010, 2014, 2018
new = candidates_new["Příjmení, jméno, tituly"].str.split(n=2, expand=True)
candidates_new = candidates_new.drop("Příjmení, jméno, tituly", axis=1)
candidates_new.insert(3, "Příjmení", new[0])
candidates_new.insert(4, "Jméno", new[1])
candidates_new.insert(5, "Tituly", new[2])

# format 'Mandát' column to a boolean
candidates_2002["Mandát"].replace({'*': True, np.nan: False}, inplace=True)
candidates_new["Mandát"].replace({'*': True, '-': False}, inplace=True)
candidates_new.fillna(value=np.nan, inplace=True)
candidates_new["Pořadí zvolení/náhradníka"] = pd.to_numeric(candidates_new["Pořadí zvolení/náhradníka"],
                                                             errors="coerce")
# concatenate
candidates = pd.concat([candidates_2002, candidates_new], ignore_index=True)

# format 'Pořadí zvolení/náhradníka' column to int64 (NaN values to zero)
candidates["Pořadí zvolení/náhradníka"] = candidates["Pořadí zvolení/náhradníka"].fillna(0).astype(np.int64)

#### Uložení do csv

In [None]:
elections.to_csv("elections.csv", sep=";", index=False)
parties.to_csv("parties.csv", sep=";", index=False)
candidates.to_csv("candidates.csv", sep=";", index=False)