# Úkol č. 1 - vizualizace dat a web scraping (do 20. října)

  * V rámci tohoto úkolu musíte stáhnout dat z webu (tzv. _web scraping_, velmi základní) a následně data zpracovat a vizualizovat.
  * Cílem bude stáhnout data ze serveru https://www.volby.cz týkající se voleb do zastupitelstva Vámi vybraného (většího) města, uložit data o závěrečných pracích v tabulkovém formátu a pak vymyslet vizualizace a zobrazení dat, které umožní orientaci v těchto datech a zvýrazní zajímavé informace a zobrazit přehledně časový vývoj různých veličin.
 
> **Úkoly jsou zadány tak, aby Vám daly prostor pro invenci. Vymyslet _jak přesně_ budete úkol řešit, je důležitou součástí zadání a originalita či nápaditost bude také hodnocena!**

## Výběr zdroje dat

Vyberte si větší město, které má zastupitelstvo druhu 3 (Zastupitelstvo statutárního města) a strojově stáhněte informace o stranách a kandidátkách z následujících let:
 * [2002](https://www.volby.cz/pls/kv2002/kv12?xjazyk=CZ&xid=0), [2006](https://www.volby.cz/pls/kv2006/kv12?xjazyk=CZ&xid=0), [2010](https://www.volby.cz/pls/kv2010/kv12?xjazyk=CZ&xid=0), [2014](https://www.volby.cz/pls/kv2014/kv12?xjazyk=CZ&xid=0) a [2018](https://www.volby.cz/pls/kv2018/kv12?xjazyk=CZ&xid=0).
 

## Pokyny k vypracování

**Základní body zadání**, za jejichž (poctivé) vypracování získáte **8 bodů**:
  * Strojově stáhněte data pro vybrané město a uložte je všechny do (asi dvou) přehledných tabulek ve formátu _csv_.
  * Data musí obsahovat _alespoň_ toto:
    * Vývoj výsledků (v procentech i počtu hlasů) pro jednotlivé strany v jednotlivých letech.
    * Seznam všech kandidátů všech stran v jednotlivých letech, u kandidáta by mělo být zaznamenáno: jméno, věk v době voleb, navrhující strana, politická příslušnost, volební zisk (procento i počet hlasů), pořadí na kandidátce, pořadí zvolení, jestli získal mandát (tyto informace získáte souhrnně ve _jmenných seznamech_).
  * V druhé části Vašeho Jupyter notebooku pracujte s těmito tabulkami načtenými z _csv_ souboru (aby opravující nemusel spouštět stahování z webu).
  * Tabulky ve formátu _csv_ také odevzdejte.
  * S využitím vybraných nástrojů zpracujte data a vymyslete vizualizace a grafy, aby bylo vidět následující:
    * 1) Časový vývoj (po rocích voleb) a)počtu kandidujících stran i b)lidí a to celkově i c)po jednotlivých stranách (ve volbách, kterých se daná strana účastnila).
    * 2) Věkovou strukturu kandidátů a)celkově i b)za jednotlivé strany a vývoj této struktury během jednotlivých voleb.
    * 3) Časový vývoj a)volební účasti a b)volebních výsledků jednotlivých stran.
    * 4) Časový vývoj podílu kandidujících a)s titulem a b)bez titulu.

**Další body zadání** za případné další body (můžete si vybrat, maximum bodů za úkol je každopádně 12 bodů):
  * (až +2 body) U titulů se pokuste rozlišit i různé stupně vzdělání: bakalářský, magisterský, doktorský a vyšší, vojenská hodnost atp. Zkuste odhadnout i podíl žen na kandidátkách.
  * (až +4 body) Pokuste se u jednotlivých kandidátů zjistit, zda kandidovali ve více volbách. Najděte 10 nejpilnějších kandidátů a vypište jejich volební zisky a za jaké strany kandidovali.
  * (až +2 body) Najděte nějaký balíček, který Vám dovolí do Vašeho notebooku zavést interaktivní prvky, např. si vyberete v select-boxu stranu a Váš notebook zobrazí grafy pouze pro ni atp.

## Poznámky k odevzdání

  * Řiďte se pokyny ze stránky https://courses.fit.cvut.cz/BI-VZD/homeworks/index.html.
  * Odevzdejte nejen Jupyter Notebook, ale i _csv_ soubor(y) se staženými daty.
  * Opravující Vám může umožnit úkol dodělat či opravit a získat tak další body. První verze je ale důležitá a bude-li odbytá, budete za to penalizováni.

In [None]:
# imports
import numpy as np
import pandas as pd
import sklearn as skit
import matplotlib.pyplot as plt
import seaborn as sns
#for scraping
import requests
from bs4 import BeautifulSoup

In [None]:
#obtain summary table for given election url
def getElectionSummaryTable(url, year):
    dataframe = pd.read_html(url,flavor='html5lib')
    electionSummaryTable = dataframe[0].droplevel(0, axis=1)
    
    #same names of columns
    electionSummaryTable.rename({'Vydanéobálky': 'Vydané obálky'}, inplace=True, axis=1)
    electionSummaryTable.rename({'Platnéhlasy': 'Platné hlasy'}, inplace=True, axis=1)
    #2002 specific
    electionSummaryTable.rename({'Vol.účastv %': 'Volební účast v %'}, inplace=True, axis=1, errors='ignore')
    electionSummaryTable.rename({'Počet volenýchčlenůzastupi-telstva': 'Počet volených členů zastupitelstva'}, inplace=True, axis=1, errors='ignore')
    electionSummaryTable.rename({'Početvoleb-níchobvodů': 'Počet volebních obvodů'}, inplace=True, axis=1, errors='ignore')
    electionSummaryTable.rename({'Zapsanívoliči': 'Voliči v seznamu'}, inplace=True, axis=1, errors='ignore')
    electionSummaryTable.rename({'Odevzd.obálky': 'Odevzdané obálky'}, inplace=True, axis=1, errors='ignore')
    electionSummaryTable.rename({'Počet': 'Celkem hlasů'}, inplace=True, axis=1, errors='ignore')
    #non 2002 cases
    electionSummaryTable.rename({'Volebníúčast v %': 'Volební účast v %'}, inplace=True, axis=1, errors='ignore')
    electionSummaryTable.rename({'Početvolenýchčlenůzastupitelstva': 'Počet volených členů zastupitelstva'}, inplace=True, axis=1, errors='ignore')
    electionSummaryTable.rename({'Početvolebníchobvodů': 'Počet volebních obvodů'}, inplace=True, axis=1, errors='ignore')
    electionSummaryTable.rename({'Voličiv seznamu': 'Voliči v seznamu'}, inplace=True, axis=1, errors='ignore')
    electionSummaryTable.rename({'Odevzdanéobálky': 'Odevzdané obálky'}, inplace=True, axis=1, errors='ignore')
    electionSummaryTable.rename({'celkem': 'Celkem hlasů'}, inplace=True, axis=1, errors='ignore')
    
    #same names of columns
    electionSummaryTable.drop('v %', axis=1, inplace=True)
    electionSummaryTable.drop('Počet volebních obvodů', axis=1, inplace=True)
    #2002 specific
    electionSummaryTable.drop('Zpr.', axis=1, inplace=True, errors='ignore')
    #non 2002 cases
    electionSummaryTable.drop('zpr.', axis=1, inplace=True, errors='ignore')
    
    #add year column
    electionSummaryTable['Rok'] = int(year)
    
    #correct wrong % displaying
    if year != '2002':
        electionSummaryTable['Volební účast v %'] = electionSummaryTable['Volební účast v %']/100
    
    return electionSummaryTable

In [None]:
#obtain election results table for given election url
def getElectionsTable(url, year):
    dataframe = pd.read_html(url,flavor='html5lib')
    electionTable = dataframe[1].droplevel(0, axis = 1)
    
    #same names of columns
    electionTable.rename({'abs.': 'Počet hlasů'}, inplace=True, axis=1)
    electionTable.rename({'v %': '% hlasů'}, inplace=True, axis=1)
    electionTable.rename({'Početkandidátů': 'Počet kandidátů'}, inplace=True, axis=1)
    electionTable.rename({'Přepočtenýzákladdle počtukandidátů': 'Přepočtený základ dle počtu kandidátů'}, inplace=True, axis=1)
    electionTable.rename({'Početmandátů': 'Počet mandátů'}, inplace=True, axis=1)
    electionTable.rename({'Podílyhlasů': 'Podíly hlasů'}, inplace=True, axis=1)
    #2002 specific
    electionTable.rename({'Kandidátní listina': 'Číslo'}, inplace=True, axis=1, errors='ignore')
    electionTable.rename({'Kandidátní listina.1': 'Název strany'}, inplace=True, axis=1, errors='ignore')
    electionTable.rename({'Přepočtené % plat. hlasů': 'Přepočtené % platných hlasů'}, inplace=True, axis=1, errors='ignore')
    #non 2002 cases
    electionTable.rename({'číslo': 'Číslo'}, inplace=True, axis=1, errors='ignore')
    electionTable.rename({'název': 'Název strany'}, inplace=True, axis=1, errors='ignore')
    electionTable.rename({'Přepočtené %platných hlasů': 'Přepočtené % platných hlasů'}, inplace=True, axis=1, errors='ignore')

    #correct wrong % displaying
    if year != '2002':
        electionTable['% hlasů'] = electionTable['% hlasů']/100
        electionTable['Přepočtené % platných hlasů'] = electionTable['Přepočtené % platných hlasů']/100
    
    #add year column
    electionTable['Rok'] = int(year)

    #drop unnecessary columns
    electionTable.drop('Podíly hlasů', axis=1, inplace=True)
    
    return electionTable

In [None]:
#get list of 'a' tags for given page
def getLinksForGivenUrl(url):
    result = requests.get(url)
    src = result.content
    soup = BeautifulSoup(src, 'lxml')
    return soup.find_all('a')

In [None]:
def hasPersonTitle(nameWithTitle):
    #list of known czech titles
    titles = ['Bc.', 'BcA.', 'CSc.', 'DiS.', 'Dr.', 'DrSc.', 'DSc.',
              'ICDr.', 'Ing.', 'Ing. arch.', 'JUDr.', 'MDDr.', 'MgA.',
              'Mgr.', 'MSDr.', 'MUDr.', 'MVDr.', 'PaedDr.', 'Ph.D.', 'PharmDr.',
              'PhDr.', 'PhMr.', 'RCDr.', 'RTDr.', 'RNDr.', 'RSDr.', 'ThDr.', 'Th.D.', 'ThLic.']
    for title in titles:
        if title in nameWithTitle:
            return True
    return False

In [None]:
#function for obtaining dictionary with all candidates for given campaign and some statistics about them
#gets data from elected candidates table and substitute candidate table
def getFullCandidatesDict(url, links, year):
    #obtain link for elected candidates
    for link in links:
        if 'Zvolení členové zastupitelstva' == link.text:
            urlSuccess = url[slice(url.rfind('/') + 1)]
            urlSuccess += link.attrs['href']
            break
    #obtain table of elected candidates
    electedCandidatesTable = pd.read_html(urlSuccess,flavor='html5lib')
    electedCandidatesTable = electedCandidatesTable[0].droplevel(0, axis=1)
    
    #obtain link for substitute candidates
    for link in links:
        if 'Náhradníci' == link.text:
            urlSubstitutes = url[slice(url.rfind('/') + 1)]
            urlSubstitutes += link.attrs['href']
            break
    #obtain table of substitute candidates
    substitutesCandidatesTable = pd.read_html(urlSubstitutes,flavor='html5lib')
    substitutesCandidatesTable = substitutesCandidatesTable[0].droplevel(0, axis=1)
    #merge tables
    fullCandidatesTable = pd.concat([electedCandidatesTable, substitutesCandidatesTable], ignore_index=True, sort=True)
    
    #rename columns
    #2002 specific
    fullCandidatesTable.rename({'Kandidátnílistina': 'Číslo'}, inplace=True, axis=1, errors='ignore')
    fullCandidatesTable.rename({'Kandidátnílistina.1': 'Název strany'}, inplace=True, axis=1, errors='ignore')
    fullCandidatesTable.rename({'Příjmení, jméno': 'příjmení, jméno, tituly'}, inplace=True, axis=1, errors='ignore')
    fullCandidatesTable.rename({'Polit.přísl.': 'Politická příslušnost'}, inplace=True, axis=1, errors='ignore')
    
    #non 2002 cases
    fullCandidatesTable.rename({'číslo': 'Číslo'}, inplace=True, axis=1, errors='ignore')
    fullCandidatesTable.rename({'název': 'Název strany'}, inplace=True, axis=1, errors='ignore')
    fullCandidatesTable.rename({'Politickápříslušnost': 'Politická příslušnost'}, inplace=True, axis=1, errors='ignore')
    fullCandidatesTable.rename({'věk': 'Věk'}, inplace=True, axis=1, errors='ignore')
    
    #drop unnecessary columns
    #same
    fullCandidatesTable.drop('abs.', axis=1, inplace=True)
    #non 2002 cases
    fullCandidatesTable.drop('poř.číslo', axis=1, inplace=True, errors='ignore')
    fullCandidatesTable.drop('Pořadízvolení', axis=1, inplace=True, errors='ignore')
    fullCandidatesTable.drop('Pořadínáhradníka', axis=1, inplace=True, errors='ignore')
    fullCandidatesTable.drop('Navrhujícístrana', inplace=True, axis=1, errors='ignore')
    #2002 specific
    fullCandidatesTable.drop('Navrh.strana', inplace=True, axis=1, errors='ignore')
    fullCandidatesTable.drop('Poř.číslo', inplace=True, axis=1, errors='ignore')
    fullCandidatesTable.drop('Pořadí', inplace=True, axis=1, errors='ignore')
    fullCandidatesTable.drop('Mandát', inplace=True, axis=1, errors='ignore')

    if year != '2002':
        fullCandidatesTable['v %'] = fullCandidatesTable['v %']/100

    #connect titles to names for 2002
    if year == '2002':
        for i, row in fullCandidatesTable.iterrows():
            if str(row['Tituly']) != 'nan':
                fullCandidatesTable.at[i,'příjmení, jméno, tituly'] += ' ' + row['Tituly']
        fullCandidatesTable.drop('Tituly', inplace=True, axis=1)
    
    #create and return dictionary with obtained data
    fullCandidatesDict = {}
    for i, row in fullCandidatesTable.iterrows():
        fullCandidatesDict[row['příjmení, jméno, tituly']] = {'Věk': row['Věk'],
                                                              'Politická příslušnost': row['Politická příslušnost']
                                                             }
    return fullCandidatesDict;

In [None]:
#fuction to obtain url of candidates from row
def getCandidatesUrl(datarow, partyNumber, url, links):
    for link in links:
        if str(partyNumber) == link.text:
            url = url[slice(url.rfind('/') + 1)]
            url += link.attrs['href']
            return url

In [None]:
#compute persons personal ID
def computePersonsID(name, age, year):
    born_year = year - int(age)
    ID = name + str(born_year)
    return ID

In [None]:
#function for obtaining candidates table from given url
def getCandidatesTable (url, partyName, year, succesfullCandidatesDict):
    candidatesTable = pd.read_html(url,flavor='html5lib')
    candidatesTable = candidatesTable[0].droplevel(0, axis=1)
    
    candidatesTable['Rok'] = int(year)
    candidatesTable['Název strany'] = partyName

    #rename columns - 2002 specific
    candidatesTable.rename({'Příjmení, jméno': 'příjmení, jméno, tituly'}, inplace=True, axis=1, errors='ignore')

    #drop unnecessary columns
    #same
    candidatesTable.drop('abs.', axis=1, inplace=True)
    candidatesTable.drop('Mandát', axis=1, inplace=True, errors='ignore')
    #2002 specific
    candidatesTable.drop('Pořadí', axis=1, inplace=True, errors='ignore')
    candidatesTable.drop('Por.číslo', axis=1, inplace=True, errors='ignore')
    #non 2002 cases
    candidatesTable.drop('poř.číslo', axis=1, inplace=True, errors='ignore')
    candidatesTable.drop('Pořadízvolení/náhradníka', axis=1, inplace=True, errors='ignore')
    
    if '2002' != year:
        candidatesTable['v %'] = candidatesTable['v %']/100
    
    if 'Tituly' in candidatesTable.columns:
        for i, row in candidatesTable.iterrows():
            if str(row['Tituly']) != 'nan':
                candidatesTable.at[i,'příjmení, jméno, tituly'] += ' ' + row['Tituly']
        candidatesTable.drop('Tituly', inplace=True, axis=1)
    
    #add info about academic title for every candidate
    for i, row in candidatesTable.iterrows():
        candidatesTable.at[i, 'Titul'] = hasPersonTitle(row['příjmení, jméno, tituly'])
        #add info about elected candidates
        if row['příjmení, jméno, tituly'] in succesfullCandidatesDict.keys():
            #create ID for each candidate
            candidatesTable.at[i, 'ID'] = computePersonsID(row['příjmení, jméno, tituly'], succesfullCandidatesDict[row['příjmení, jméno, tituly']]['Věk'], row['Rok'])
            candidatesTable.at[i,'Mandát'] = True
            candidatesTable.at[i, 'Věk'] = succesfullCandidatesDict[row['příjmení, jméno, tituly']]['Věk']
            candidatesTable.at[i, 'Politická příslušnost'] = succesfullCandidatesDict[row['příjmení, jméno, tituly']]['Politická příslušnost']
        else:
            candidatesTable.at[i,'Mandát'] = False
            candidatesTable.at[i, 'ID'] = row['příjmení, jméno, tituly']
    
    return candidatesTable;

In [None]:
#------------------------load election data for years 2002, 2006, 2010, 2014, 2018------------------------
yearsToObtainDataFrom = ['2002', '2006', '2010', '2014', '2018']
headerTables = []
electionsTables = []
allCandidatesTables = []
for year in yearsToObtainDataFrom:
    url = 'https://www.volby.cz/pls/kv' + year + '/kv1111?xjazyk=CZ&xid=0&xdz=3&xnumnuts=3203&xobec=554791'
    headerTables.append(getElectionSummaryTable(url, year))
    electionTable = getElectionsTable(url, year)
    electionsTables.append(electionTable)
    #get available links on current url
    links = getLinksForGivenUrl(url)
    #obtain table with elected candidates
    fullCandidatesDict = getFullCandidatesDict(url, links, year)
    #obtain candidates information about each party from current year
    for i, partyRow in electionTable.iterrows():
        candidatesDetailUrl = getCandidatesUrl(partyRow, i+1, url, links)
        candidatesTable = getCandidatesTable(candidatesDetailUrl, partyRow['Název strany'], year, fullCandidatesDict)
        allCandidatesTables.append(candidatesTable)
    print('Year ' + year + ' done')

In [None]:
#create 3 finale tables to get data for the graphs from
electionsSummaryTable = pd.concat(headerTables, ignore_index=True, sort=True)
electionsSummaryTable.to_csv('electionsSummary.csv')

electionResultsTable = pd.concat(electionsTables, ignore_index=True, sort=True)
electionResultsTable.to_csv('electionResults.csv')

allCandidatesInfoTable = pd.concat(allCandidatesTables, ignore_index=True, sort=True)
allCandidatesInfoTable.to_csv('allCandidatesInfo.csv')

ČÁST S GRAFY

In [None]:
#imports
import matplotlib.pyplot as plt
import matplotlib

%matplotlib inline 
matplotlib.style.use('ggplot')

In [None]:
#-------------------------GRAF 1a)-------------------------
# graf pro počet stran/rok
data = pd.read_csv('electionResults.csv')

yearToNumberOfParties = {}
for i, row in data.iterrows():
    if row['Rok'] not in yearToNumberOfParties.keys():
        yearToNumberOfParties[row['Rok']] = 1
    else:
        yearToNumberOfParties[row['Rok']] += 1
plt.figure(figsize=(6,3))
plt.xlabel('Rok')
plt.ylabel('Počet stran')
plt.plot(list(yearToNumberOfParties.keys()),list(yearToNumberOfParties.values()))

In [None]:
#-------------------------GRAF 1b)-------------------------
# graf pro počet kandidátů/rok
data = pd.read_csv('electionResults.csv')
        
yearToNumberOfCandidates = {}
for index, row in data.iterrows():
    if row['Rok'] not in yearToNumberOfCandidates.keys():
        yearToNumberOfCandidates[row['Rok']] = row['Počet kandidátů']
    elif row['Rok'] in yearToNumberOfCandidates.keys():#todo asi zbytecny uz davat podminku
        yearToNumberOfCandidates[row['Rok']] += row['Počet kandidátů']
plt.figure(figsize=(6,3))
plt.xlabel('Rok')
plt.ylabel('Počet kandidátů')
plt.plot(list(yearToNumberOfCandidates.keys()),list(yearToNumberOfCandidates.values()))

In [None]:
#-------------------------GRAF 1c)-------------------------
# grafy pro počet kandidátů v jednotlivých stranách/rok
data = pd.read_csv('allCandidatesInfo.csv')

partyToYearToNumberOfCandidates = {}
for i, row in data.iterrows():
    if row['Název strany'] in partyToYearToNumberOfCandidates.keys():
        if row['Rok'] in partyToYearToNumberOfCandidates[row['Název strany']].keys():
            partyToYearToNumberOfCandidates[row['Název strany']][row['Rok']] += 1
        else:
            partyToYearToNumberOfCandidates[row['Název strany']][row['Rok']] = 1
    else:
        partyToYearToNumberOfCandidates[row['Název strany']] = {}
        partyToYearToNumberOfCandidates[row['Název strany']][row['Rok']] = 1

partiesWithJustOneParticipation = {}
for partyName in partyToYearToNumberOfCandidates.keys():
    if len(list(partyToYearToNumberOfCandidates[partyName].keys())) == 1:
        partiesWithJustOneParticipation[partyName] = [list(partyToYearToNumberOfCandidates[partyName].keys())[0],
                                                      list(partyToYearToNumberOfCandidates[partyName].values())[0]]
    else:
        plt.figure(figsize=(6,3))
        plt.xlabel('Rok')
        plt.ylabel('Počet kandidátů')
        plt.ylim(0, 50)
        plt.title(partyName)
        plt.plot(list(partyToYearToNumberOfCandidates[partyName].keys()),list(partyToYearToNumberOfCandidates[partyName].values()))
        
print('Následující strany kandidovali pouze v jednom roce:')
for partyName in partiesWithJustOneParticipation.keys():
    print (partyName + ' - rok ' + str(partiesWithJustOneParticipation[partyName][0])
           + ' - ' + str(partiesWithJustOneParticipation[partyName][1]) + ' kandidátů')

In [None]:
def getAgeList(table):
    ageList = []
    for i, row in table.iterrows():
        if str(row['Věk']) != 'nan':
            ageList.append(row['Věk'])
    return ageList

In [None]:
#-------------------------GRAF 2a)-------------------------
# grafy vývoje celkové věkové struktury během jednotlivých voleb
years = ['2002', '2006', '2010', '2014', '2018']
data = pd.read_csv('allCandidatesInfo.csv')
plt.figure(figsize=(11,16))
i = 321
for year in years:
    plt.subplot(i)
    x = getAgeList(data[data['Rok'] == int(year)])
    plt.xlabel('Věk')
    plt.ylabel('Počet výskytů')
    plt.ylim(0, 35)
    plt.title('Histogram věkové struktury pro rok ' + year)
    plt.hist(x, 25, facecolor='g')
    i += 1

In [None]:
def getAgeListForGivenPartyName(table, partyName):
    ageList = []
    for i, row in table.iterrows():
        if row['Název strany'] == partyName and str(row['Věk']) != 'nan':
            ageList.append(row['Věk'])
    return ageList

In [None]:
#-------------------------GRAF 2b)-------------------------
# grafy pro vývoj věkové struktury pro jednotlivé strany
data = pd.read_csv('allCandidatesInfo.csv')

partyToYearToAges = {}
for i, row in data.iterrows():
    if row['Název strany'] in partyToYearToAges.keys():
        if row['Rok'] not in partyToYearToAges[row['Název strany']].keys():
            dataForCurrentYear = data[data['Rok'] == int(row['Rok'])]
            partyToYearToAges[row['Název strany']][row['Rok']] = getAgeListForGivenPartyName(dataForCurrentYear, row['Název strany'])
    else:
        partyToYearToAges[row['Název strany']] = {}
        dataForCurrentYear = data[data['Rok'] == int(row['Rok'])]
        partyToYearToAges[row['Název strany']][row['Rok']] = getAgeListForGivenPartyName(dataForCurrentYear, row['Název strany'])

for partyName in partyToYearToAges.keys():
    plt.figure(figsize=(9,17))
    i = 321
    for year in partyToYearToAges[partyName].keys():
        x = partyToYearToAges[partyName][year]
        if len(x) > 0:
            plt.subplot(i)
            plt.xlabel('Věk')
            plt.xlim(18, 90)
            plt.ylabel('Počet výskytů')
            plt.ylim(0, 8)
            if i == 321:
                plt.title(partyName + '\n pro rok ' + str(year))
            else:
                plt.title('pro rok ' + str(year))
            plt.hist(x, 25, facecolor='g')
            i += 1

In [None]:
#-------------------------GRAF 3a)-------------------------
# graf pro volební účast/rok
data = pd.read_csv('electionsSummary.csv')

yearToPercentageOfPersonsWhoVoted = {}
for i, row in data.iterrows():
    yearToPercentageOfPersonsWhoVoted[row['Rok']] = row['Volební účast v %']
plt.figure(figsize=(6,3))
plt.xlabel('Rok')
plt.ylabel('Volební účast v %')
plt.ylim(0, 100)
plt.plot(list(yearToPercentageOfPersonsWhoVoted.keys()),list(yearToPercentageOfPersonsWhoVoted.values()))

In [None]:
#-------------------------GRAF 3b)-------------------------
# grafy pro počet platných % hlasů pro stranu/rok
data = pd.read_csv('electionResults.csv')
data.head()


partyToYearToNumberOfVotes = {}
for i, row in data.iterrows():
    if row['Název strany'] in partyToYearToNumberOfVotes.keys():
        if row['Rok'] not in partyToYearToNumberOfVotes[row['Název strany']].keys():
            partyToYearToNumberOfVotes[row['Název strany']][row['Rok']] = row['Přepočtené % platných hlasů']
    else:
        partyToYearToNumberOfVotes[row['Název strany']] = {}
        partyToYearToNumberOfVotes[row['Název strany']][row['Rok']] = row['Přepočtené % platných hlasů']

partiesWithJustOneParticipation = {}
for partyName in partyToYearToNumberOfVotes.keys():
    if len(list(partyToYearToNumberOfVotes[partyName].keys())) == 1:
        partiesWithJustOneParticipation[partyName] = [list(partyToYearToNumberOfVotes[partyName].keys())[0],
                                                      list(partyToYearToNumberOfVotes[partyName].values())[0]]
    else:
        plt.figure(figsize=(6,3))
        plt.xlabel('Rok')
        plt.ylabel('Počet platných % hlasů')
        plt.ylim(0, 50)
        plt.title(partyName)
        plt.plot(list(partyToYearToNumberOfVotes[partyName].keys()),list(partyToYearToNumberOfVotes[partyName].values()))
        
print('Následující strany kandidovali pouze v jednom roce:')
for partyName in partiesWithJustOneParticipation.keys():
    print (partyName + ' - rok ' + str(partiesWithJustOneParticipation[partyName][0])
           + ' - ' + str(partiesWithJustOneParticipation[partyName][1]) + ' % hlasů')

In [None]:
#-------------------------GRAF 4a)-------------------------
# graf pro počet kandidátů s titulem/rok
data = pd.read_csv('allCandidatesInfo.csv')

yearToNumberOfPeopleWithTitle = {}
for i, row in data.iterrows():
    if row['Rok'] not in yearToNumberOfPeopleWithTitle.keys() and row['Titul'] == True:
        yearToNumberOfPeopleWithTitle[row['Rok']] = 1
    elif row['Titul'] == True:
        yearToNumberOfPeopleWithTitle[row['Rok']] += 1
plt.figure(figsize=(6,3))
plt.xlabel('Rok')
plt.ylabel('Počet osob s akademickým titulem')
plt.ylim(100, 400)
plt.plot(list(yearToNumberOfPeopleWithTitle.keys()),list(yearToNumberOfPeopleWithTitle.values()))

In [None]:
#-------------------------GRAF 4b)-------------------------
# graf pro počet kandidátů bez akad. titulu/rok
data = pd.read_csv('allCandidatesInfo.csv')

yearToNumberOfPeopleWithTitle = {}
for i, row in data.iterrows():
    if row['Rok'] not in yearToNumberOfPeopleWithTitle.keys() and row['Titul'] == False:
        yearToNumberOfPeopleWithTitle[row['Rok']] = 1
    elif row['Titul'] == False:
        yearToNumberOfPeopleWithTitle[row['Rok']] += 1
plt.figure(figsize=(6,3))
plt.xlabel('Rok')
plt.ylabel('Počet osob s akademickým titulem')
plt.ylim(100, 400)
plt.plot(list(yearToNumberOfPeopleWithTitle.keys()),list(yearToNumberOfPeopleWithTitle.values()))

In [None]:
def sortByActivitySize(val): 
    return len(val) 

def sortCandidatesByTheirActivity(listOfMostActiveCandidates):
    listOfMostActiveCandidates.sort(key = sortByActivitySize, reverse=True)

In [None]:
#-------------------------bonusovy  graf-------------------------
# tabulky s prehledem o 10 nejaktivnejsich kandidatech
data = pd.read_csv('allCandidatesInfo.csv')

idToYearToInfo = {}
for i, row in data.iterrows():
    if row['ID'] in idToYearToInfo.keys():
        idToYearToInfo[row['ID']].append({'pp': row['Politická příslušnost'],
                                          'perc': row['v %'],
                                          'name': row['příjmení, jméno, tituly'],
                                          'y': row['Rok'],
                                          'ID': row['ID']})
    else:
        idToYearToInfo[row['ID']] = []
        idToYearToInfo[row['ID']].append({'pp': row['Politická příslušnost'],
                                          'perc': row['v %'],
                                          'name': row['příjmení, jméno, tituly'],
                                          'y': row['Rok'],
                                          'ID': row['ID']})
#find 10 most activate candidates
mostActiveCandidates = []
for ID in idToYearToInfo.keys():
    mostActiveCandidates.append(idToYearToInfo[ID])
    sortCandidatesByTheirActivity(mostActiveCandidates)
    if len(mostActiveCandidates) > 10:
        mostActiveCandidates = mostActiveCandidates[:-1]

print('10 nejpilnějších kandidátů:\n\n')
i = 1
for candidate in mostActiveCandidates:
    df = pd.DataFrame(columns = ['ID', 'Jméno' , 'Politická příslušnost', 'v %' , 'Rok'])
    for year in candidate:
        df = df.append({'ID': year['ID'], 'Jméno' : year['name'], 'Politická příslušnost': year['pp'],
                        'v %': year['perc'], 'Rok': year['y']} , ignore_index=True)
    print(str(i) + ') ' + str(candidate[0]['name']))
    display(df)
    print('\n')
    i += 1
#nekteri kandidati nemaji vsechna pole vyplnena
#   - to pokud se tato pole nenasla ani v seznamu zvolenych kandidatu ani v seznamu nahradniku