In [1]:
import pandas as pd
import numpy as np
import requests
from bs4 import BeautifulSoup

In [4]:
def getsoup(link):
    '''
   Create a BeautifulSoup object from the URL given
    '''
    r = requests.get(link)
    soup = BeautifulSoup(r.text,'lxml')
    return(soup)

In [70]:
def print_list(list):
    '''
    Print a list of tables 
    '''
    for year in list:
        print(year)
    

## Prezidentske

In [5]:
def gettable_prez(soup):
    '''
   Create a table from the BeautifulSoup object given (presidential election format)
    '''
    table=soup.find('table',{'id':'pe41_t1'}).findAll('tr')
    tb= table[2:16]
    return(tb)


In [6]:
def scrapetable_prez(table):
    '''
   Create a DataFrame table with regions and respective polls (presidential election format)
    '''
    df_scraped = pd.DataFrame()
    for row in table:
        kraj = row.findAll('td')[1].text
        ucast = row.findAll('td',{'class':'cislo'})[5].text
        row1 = pd.Series({"Kraj":kraj,"Účast":ucast})
        df_scraped = pd.concat([df_scraped, row1], axis=1)
    df_scraped = df_scraped.T
    return(df_scraped)

In [7]:

soup_prez_2013 = getsoup('https://volby.cz/pls/prez2013/pe41?xjazyk=CZ&xv=1')
soup_prez_2018 = getsoup('https://volby.cz/pls/prez2018/pe41?xjazyk=CZ&xv=1')

In [8]:
tab_prez_2013 = gettable_prez(soup_prez_2013)
tab_prez_2018 = gettable_prez(soup_prez_2018)

In [9]:
df_prez_2013 = scrapetable_prez(tab_prez_2013)
df_prez_2018 = scrapetable_prez(tab_prez_2018)

In [10]:
print(df_prez_2013)
print(df_prez_2018)

                   Kraj  Účast
0    Hlavní město Praha  65,10
0      Středočeský kraj  63,96
0        Jihočeský kraj  63,63
0         Plzeňský kraj  61,97
0      Karlovarský kraj  52,35
0          Ústecký kraj  52,66
0        Liberecký kraj  59,10
0  Královéhradecký kraj  64,65
0       Pardubický kraj  64,86
0         Kraj Vysočina  66,79
0     Jihomoravský kraj  62,28
0        Olomoucký kraj  60,14
0          Zlínský kraj  62,45
0  Moravskoslezský kraj  56,17
                   Kraj  Účast
0    Hlavní město Praha  67,56
0      Středočeský kraj  64,73
0        Jihočeský kraj  63,25
0         Plzeňský kraj  61,44
0      Karlovarský kraj  52,11
0          Ústecký kraj  52,76
0        Liberecký kraj  60,74
0  Královéhradecký kraj  64,19
0       Pardubický kraj  64,98
0         Kraj Vysočina  67,01
0     Jihomoravský kraj  62,56
0        Olomoucký kraj  60,35
0          Zlínský kraj  63,74
0  Moravskoslezský kraj  56,75


## Parlamentni

In [145]:
def gettable_par_before1998(soup):
    '''
   Create a table from the BeautifulSoup object given (parlamential election format)
    '''
    table=soup.find('table').findAll('tr')
    tb = table[2:10]
    return(tb)


In [139]:
def gettable_par_after1998(soup):
    '''
   Create a table from the BeautifulSoup object given (parlamential election format)
    '''
    table=soup.find('table').findAll('tr')
    tb = table[2:16]
    return(tb)

In [129]:
def scrapetable_par(table):
    '''
   Create a DataFrame table with regions and respective polls (presidential election format)
    '''
    df_scraped = pd.DataFrame()
    for row in table:
        kraj = row.findAll('td')[1].text
        ucast = row.findAll('td')[7].text
        row1 = pd.Series({"Kraj":kraj,"Účast":ucast})
        df_scraped = pd.concat([df_scraped, row1], axis=1)
    df_scraped = df_scraped.T
    return(df_scraped)

In [148]:
soup_par_1996 = getsoup('https://volby.cz/pls/ps1996/u52')
soup_par_1998 = getsoup('https://volby.cz/pls/ps1998/u52')
soup_par_2002 = getsoup('https://volby.cz/pls/ps2002/ps5?xjazyk=CZ')
soup_par_2006 = getsoup('https://volby.cz/pls/ps2006/ps4?xjazyk=CZ')
soup_par_2010 = getsoup('https://volby.cz/pls/ps2010/ps4?xjazyk=CZ')
soup_par_2013 = getsoup('https://volby.cz/pls/ps2013/ps4?xjazyk=CZ')
soup_par_2017 = getsoup('https://volby.cz/pls/ps2017/ps4?xjazyk=CZ')


In [158]:

soup_par = np.empty(7, dtype=object)
soup_par[0] = soup_par_1996
soup_par[1] = soup_par_1998
soup_par[2] = soup_par_2002
soup_par[3] = soup_par_2006
soup_par[4] = soup_par_2010
soup_par[5] = soup_par_2013
soup_par[6] = soup_par_2017


In [146]:
tab_par_1996 = gettable_par_before1998(soup_par_1996)
tab_par_1998 = gettable_par_before1998(soup_par_1998)
tab_par_2002 = gettable_par_after1998(soup_par_2002)

In [147]:
df_par_1996 = scrapetable_par(tab_par_1996)
df_par_1998 = scrapetable_par(tab_par_1998)
df_par_2002 = scrapetable_par(tab_par_2002)

## Senatni - asi nedava uplne smysl, tim, ze nejsou plosne

In [12]:
soup_sen_1996 = getsoup('https://volby.cz/pls/senat/se31?xjazyk=CZ&xdatum=19961116&xv=1')
soup_sen_1998 = getsoup('https://volby.cz/pls/senat/se31?xjazyk=CZ&xdatum=19981114&xv=1')

## Krajska zastupitelstva

In [20]:
def gettable_kraj(soup):
    '''
   Create a table from the BeautifulSoup object given (regional election format)
   There are only 13 regions because Prague is not counted.
    '''
    table=soup.find('table').findAll('tr')
    tb = table[2:15]
    return(tb)

In [36]:
def scrapetable_kraj(table):
    '''
   Create a DataFrame table with regions and respective polls (regional election format)
    '''
    df_scraped = pd.DataFrame()
    for row in table:
        kraj = row.findAll('td')[1].text
        ucast = row.findAll('td')[7].text
        row1 = pd.Series({"Kraj":kraj,"Účast":ucast})
        df_scraped = pd.concat([df_scraped, row1], axis=1)
    df_scraped = df_scraped.T
    return(df_scraped)

In [37]:
soup_kraj_2000 = getsoup('https://volby.cz/pls/kz2000/kz4?xjazyk=CZ&xdatum=20001112')
soup_kraj_2004 = getsoup('https://volby.cz/pls/kz2004/kz4?xjazyk=CZ&xdatum=20041105')
soup_kraj_2008 = getsoup('https://volby.cz/pls/kz2008/kz4?xjazyk=CZ&xdatum=20081017')
soup_kraj_2012 = getsoup('https://volby.cz/pls/kz2012/kz4?xjazyk=CZ&xdatum=20121012')
soup_kraj_2016 = getsoup('https://volby.cz/pls/kz2016/kz4?xjazyk=CZ&xdatum=20161007')
soup_kraj_2020 = getsoup('https://volby.cz/pls/kz2020/kz4?xjazyk=CZ')

In [51]:
list_soup_kraj = (soup_kraj_2000, soup_kraj_2004, soup_kraj_2008, soup_kraj_2012, soup_kraj_2016, soup_kraj_2020)

i=0
list_table_kraj = [1, 2, 3, 4, 5, 6]
for year in list_soup_kraj:
    list_table_kraj[i] = gettable_kraj(year)
    i = i+1
   

In [54]:
i=0
list_scrape_kraj = [1,2,3,4,5,6]
for year in list_table_kraj:
    list_scrape_kraj[i] = scrapetable_kraj(year)
    i=i+1

In [71]:
print_list(list_scrape_kraj)

                     Kraj    Účast
0       Středočeský kraj    32.77 
0       Budějovický kraj    34.13 
0          Plzeňský kraj    35.55 
0       Karlovarský kraj    28.44 
0           Ústecký kraj    29.68 
0         Liberecký kraj    33.07 
0   Královéhradecký kraj    34.74 
0        Pardubický kraj    36.46 
0         Jihlavský kraj    35.86 
0          Brněnský kraj    34.93 
0         Olomoucký kraj    34.19 
0           Zlínský kraj    36.07 
0         Ostravský kraj    32.24 
                     Kraj    Účast
0       Středočeský kraj    30.73 
0         Jihočeský kraj    30.45 
0          Plzeňský kraj    31.34 
0       Karlovarský kraj    24.99 
0           Ústecký kraj    25.37 
0         Liberecký kraj    30.83 
0   Královéhradecký kraj    32.56 
0        Pardubický kraj    32.60 
0               Vysočina    31.82 
0      Jihomoravský kraj    29.71 
0         Olomoucký kraj    28.44 
0           Zlínský kraj    30.63 
0   Moravskoslezský kraj    27.55 
                   K

## Evropsky parlament

In [76]:
def gettable_eu(soup):
    '''
   Create a table from the BeautifulSoup object given (european parliament election format)
    '''
    table=soup.find('table').findAll('tr')
    tb = table[2:16]
    return(tb)

In [87]:
def scrapetable_eu(table):
    '''
   Create a DataFrame table with regions and respective polls (european parliament election format)
    '''
    df_scraped = pd.DataFrame()
    for row in table:
        kraj = row.findAll('th')[0].text
        ucast = row.findAll('td')[7].text
        row1 = pd.Series({"Kraj":kraj,"Účast":ucast})
        df_scraped = pd.concat([df_scraped, row1], axis=1)
    df_scraped = df_scraped.T
    return(df_scraped)

In [89]:
soup_eu_2004 = getsoup('https://volby.cz/pls/ep2004/ep121?xjazyk=CZ')
soup_eu_2009 = getsoup('https://volby.cz/pls/ep2009/ep121?xjazyk=CZ')
soup_eu_2014 = getsoup('https://volby.cz/pls/ep2014/ep121?xjazyk=CZ')
soup_eu_2019 = getsoup('https://volby.cz/pls/ep2019/ep121?xjazyk=CZ')

In [90]:
list_soup_eu = (soup_eu_2004, soup_eu_2009, soup_eu_2014, soup_eu_2019)

i=0
list_table_eu = [1, 2, 3, 4]
for year in list_soup_eu:
    list_table_eu[i] = gettable_eu(year)
    i = i+1

In [91]:
i=0
list_scrape_eu = [1, 2, 3, 4]
for year in list_table_eu:
    list_scrape_eu[i] = scrapetable_eu(year)
    i=i+1

In [92]:
print_list(list_scrape_eu)

                   Kraj    Účast
0    Hlavní město Praha  338 230
0      Středočeský kraj  270 496
0        Jihočeský kraj  137 446
0         Plzeňský kraj  130 081
0      Karlovarský kraj   56 227
0          Ústecký kraj  151 676
0        Liberecký kraj   92 333
0  Královéhradecký kraj  133 717
0       Pardubický kraj  119 443
0              Vysočina  119 838
0     Jihomoravský kraj  273 718
0        Olomoucký kraj  139 805
0          Zlínský kraj  138 667
0  Moravskoslezský kraj  242 613
                   Kraj    Účast
0    Hlavní město Praha  341 219
0      Středočeský kraj  285 850
0        Jihočeský kraj  141 944
0         Plzeňský kraj  127 950
0      Karlovarský kraj   53 184
0          Ústecký kraj  149 206
0        Liberecký kraj   93 049
0  Královéhradecký kraj  130 543
0       Pardubický kraj  119 374
0              Vysočina  119 309
0     Jihomoravský kraj  271 202
0        Olomoucký kraj  141 195
0          Zlínský kraj  134 243
0  Moravskoslezský kraj  260 869
          