# Mandáty 2006–2017

Zde stáhneme a zpracujeme data získaných mandátů podle různých krajů.

In [50]:
import csv
import re
import pandas as pd

from requests_html import HTMLSession

Zde hledáme a zpracujeme data mandátů z jednoho daného roku.

In [62]:
def scrape_mandates(url):
    session = HTMLSession()
    html = session.get(url).html
    base_url = get_base_url(url)
    s1 = "Rozdělení mandátů stranám"
    link1 = html.find('a', containing=s1, first=True).attrs['href']
    html = session.get(base_url + link1).html
    xp = "//a[contains(., 'Přehled zisků mandátů') and not(contains(., '%'))]"
    s2 = "Přehled zisků mandátů"
    link2 = html.xpath(xp, first=True).attrs['href']
    return scrape_table(base_url + link2)


REGIONS = [
    "Hlavní město Praha", "Středočeský kraj", "Jihočeský kraj",
    "Plzeňský kraj", "Karlovarský kraj", "Ústecký kraj", "Liberecký kraj",
    "Královehradecký kraj", "Pardubický kraj", "Vysočina", "Jihomoravský kraj",
    "Olomoucký kraj", "Zlínksý kraj", "Moravskoslezský kraj"
]


def scrape_table(url):
    session = HTMLSession()
    html = session.get(url).html

    table = html.find('table', first=True)
    rows = table.find('tr')
    return dict(scrape_row(r) for r in rows[1:-1])


def scrape_row(row):
    tds = row.find('td')
    header = row.find('th', first=True).text
    party = re.search(re.compile(r'\d+ (\w+)'), header).group(1)
    result = {
        region: safe_parse_int(tds[1 + i].text)
        for i, region in enumerate(REGIONS)
    }
    return (party, result)


def safe_parse_int(s):
    string = ''.join(c for c in s if c.isdigit())
    return int(string) if string.isdigit() else 0


def get_base_url(url):
    return re.match(re.compile(r'^.+\/'), url).group()

Zde kombinujeme data mandátů za několik let a ukládáme do souboru.

In [65]:
import pprint

def write_mandates(urls, filename):
    mds = {get_year(url): scrape_mandates(url) for url in urls}
    flat = flattened(mds)
                
    with open(filename, 'w') as f:
        writer = csv.DictWriter(f, all_columns(flat))
        writer.writeheader()
        writer.writerows(flat)
        
        
def flattened(mandates_yrs):
    flat = []
    for yr, md in mandates_yrs.items():
        for reg in REGIONS:
            result = {'year': yr, 'region': reg}
            for party, res in md.items():
                result[party] = res[reg]
            flat.append(result)
    return flat
    
    
def get_year(url) -> int:
    return int(re.search(re.compile(r'ps(\d+).*/'), url).group(1))


def all_columns(dicts):
    base = ['year', 'region']
    columns = set()
    for d in dicts:
        for k in d.keys():
            if k not in base:
                columns.add(k)
    return base + list(columns)

In [66]:
write_mandates(["https://volby.cz/pls/ps2017nss/ps?xjazyk=CZ"], "mandaty.csv")