# Python 101
## Part IX. - Vote results scraping
---

<img src="http://www.london24.com/polopoly_fs/1.3024317.1385128334!/image/4183113330.jpg_gen/derivatives/landscape_630/4183113330.jpg" width="360" align="left"></img>
<br style="clear:left;"/>

Scrape the 2018 hungarian voting results!
- import required libraries

In [None]:
import requests
from bs4 import BeautifulSoup

- set up basic URIs

In [None]:
VOTE_BASE = 'http://valasztas.hu/dyn/pv18/szavossz/hu/'
OVERALL = 'oevker.html'
BASE_URI = './data/'

- download document

In [None]:
vote_response = requests.get(VOTE_BASE + OVERALL)
print(vote_response.status_code)

- extract data with beautifulsoup

In [None]:
vote_soup = BeautifulSoup(vote_response.content, "html.parser") 
containers = vote_soup.find('table', {'border': '1'}).findAll('tr')
print(len(containers))
containers[:5]

- get the items out of the tablerows

In [None]:
rows = [row.findAll('td') for row in containers]
rows[:5]

- "transform" the data into a table-like format

In [None]:
for row in rows[:5]:
    print([r.getText() for r in row])

- for our analysis, we need the region, the subregion and the links

In [None]:
REGIONS = []
for row in rows:
    REGIONS.append([row[0].getText(), row[2].getText(), row[1].find('a').get('href')])
REGIONS[:5]

In [None]:
print('Number of regions:', len(REGIONS))

- get the detailed information for each region

In [None]:
results = []

for city, region, sub_url in REGIONS:
    print("Downloading and processing data for {} - {} ...".format(city, region), end='')
    region_response = requests.get(VOTE_BASE + sub_url)
    region_soup = BeautifulSoup(region_response.content, "html.parser")
    region_container = (region_soup
                        .find(text='A szavazatok száma jelöltenként')
                        .findNext('table')
                        .findAll('tr'))
    region_rows = [row.findAll('td') for row in region_container][1:] # remove empty header
    # every candidate will go to a new row
    for row in region_rows:
        results.append([city, region] + [r.getText() for r in row][:-1]) # remove the last 'tick column'
    print("Done.")

- let's look at the detailed information

In [None]:
print(results[:5])
print('-' * 79)
print('Number of candidates:', len(results))

- transform the items

In [None]:
cleaned_results =[]

for row in results:
    cleaned_results.append(
        [item.replace(u'\xa0', u'').replace(u'%', u'').strip() # replace the unneeded characters
         for item in row]
    )
cleaned_results[:5]    

Now we can finally save it!

In [None]:
import pandas as pd

header = [u'region', u'subregion', u'subid', u'name', u'party', u'votes', u'votes %']
filename = 'vote2018.csv'
pd.DataFrame(cleaned_results, columns=header).to_csv(filename, index=False)

----

# Transforming 2022 election data

In [1]:
import numpy as np
import pandas as pd

In [2]:
column_mapping = {
    'MEGYE': 'region', 
    'JELÖLT': 'name', 
    'SZAVAZAT': 'votes', 
    'SZERVEZET': 'party', 
    'NYERTES': 'winner'
}
county_level_columns = ['region', 'subregion', 'name', 'party', 'votes', 'winner']
ffill_columns = ['MEGYE', 'TELEPÜLÉS', 'OEVK']

In [6]:
vote2022 = (
    pd.read_excel("data/vote2022.xlsx")
    .drop(columns=[
        'TIPUS',
        'JKV_AZONOSÍTÓ',
        "'EGYÉNI_EREDMÉNY_JEGYZŐKÖNYV'",
        'MEGYEKÓD', 
        'SZÉKHELY', 
        "SZH_KER", 
        'SZÉKHELY_TELEPÜLÉS_SORSZÁM'
    ])
)
vote2022.head()

Unnamed: 0,MEGYE,OEVK,TELEPÜLÉS,VÁLASZTÓPOLGÁR,MEGJELENTEK,URNÁBAN_LEVŐ,ÉRVÉNYTELEN,ÉRVÉNYES,JELÖLT,SZERVEZET,SZAVAZAT,NYERTES
0,BUDAPEST,1.0,Budapest V. kerület,59754.0,45391.0,45341.0,407.0,44934.0,,,,
1,,,,,,,,,CSÁRDI ANTAL,DEMOKRATIKUS KOALÍCIÓ-JOBBIK MAGYARORSZÁGÉRT M...,21778.0,Nyertes
2,,,,,,,,,BÖRÖCZ LÁSZLÓ,FIDESZ - MAGYAR POLGÁRI SZÖVETSÉG-KERESZTÉNYDE...,19144.0,
3,,,,,,,,,HOTZ ANTAL,MAGYAR KÉTFARKÚ KUTYA PÁRT,1975.0,
4,,,,,,,,,SZIKORA ISTVÁN,MI HAZÁNK MOZGALOM,1229.0,


In [7]:
county_level_df = (
    vote2022.fillna({
        col: vote2022[col].ffill()
        for col in ffill_columns   
    })
    .loc[vote2022['JELÖLT'].notna()]
    .sort_values(by=['MEGYE', 'TELEPÜLÉS', 'OEVK', 'SZAVAZAT'], ascending=[True, True, True, False])
    .reset_index(drop=True)
)
county_level_df['NYERTES'] = county_level_df['NYERTES'] == 'Nyertes'
county_level_df['OEVK'] = county_level_df['OEVK'].astype(int).astype(str)
county_level_df.head()

Unnamed: 0,MEGYE,OEVK,TELEPÜLÉS,VÁLASZTÓPOLGÁR,MEGJELENTEK,URNÁBAN_LEVŐ,ÉRVÉNYTELEN,ÉRVÉNYES,JELÖLT,SZERVEZET,SZAVAZAT,NYERTES
0,BARANYA,3,Mohács,,,,,,DR. HARGITAI JÁNOS,FIDESZ - MAGYAR POLGÁRI SZÖVETSÉG-KERESZTÉNYDE...,28172.0,True
1,BARANYA,3,Mohács,,,,,,SCHWARCZ-KIEFER PATRIK,DEMOKRATIKUS KOALÍCIÓ-JOBBIK MAGYARORSZÁGÉRT M...,13954.0,False
2,BARANYA,3,Mohács,,,,,,BERNÁTH CSILLA,MI HAZÁNK MOZGALOM,3448.0,False
3,BARANYA,3,Mohács,,,,,,DÖBREI ISTVÁN,MEGOLDÁS MOZGALOM,826.0,False
4,BARANYA,3,Mohács,,,,,,KÓS ZOLTÁN,MAGYAR MUNKÁSPÁRT-IGEN SZOLIDARITÁS MAGYARORSZ...,213.0,False


In [8]:
multiple_region_df = (
    county_level_df
    .loc[county_level_df['NYERTES']]
    .groupby(['MEGYE', 'TELEPÜLÉS'], as_index=False).OEVK.count()
)
multiple_region_locations = (multiple_region_df.loc[multiple_region_df.OEVK > 1, 'TELEPÜLÉS'])
multiple_region_locations

1               Pécs
5            Miskolc
29         Kecskemét
37            Szeged
41    Székesfehérvár
44              Győr
48          Debrecen
82       Nyíregyháza
Name: TELEPÜLÉS, dtype: object

In [None]:
county_level_df = county_level_df.rename(columns=column_mapping)
county_level_df['subregion'] = np.where(county_level_df['TELEPÜLÉS'].isin(multiple_region_locations), 
                                        county_level_df['TELEPÜLÉS'] + ' ' + county_level_df['OEVK'],
                                        county_level_df['TELEPÜLÉS'])
county_level_df.head()

In [None]:

county_level_df[county_level_columns].to_csv('./data/vote2022.csv', index=False)