# Парсинг результатов президенстких выборов

## Импорты

In [1]:
from bs4 import BeautifulSoup
import requests
import pandas as pd

import multiprocessing
from itertools import starmap
from tqdm import tqdm

## Вспомогательные функции и константы

In [2]:
HEADERS = {
    "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.214 Safari/537.36"
}

In [3]:
start_url = "http://notelections.online/region/region/izbirkom?action=show&root=1&tvd=100100084849066&vrn=100100084849062&region=0&global=1&sub_region=0&prver=0&pronetvd=null&vibid=100100084849066&type=227"

## Парсинг

### Получение ссылок на страницы с таблицами избирательных комиссий

На начальной странице (```start_url```) есть список с ссылками на страницы с таблицами по отдельно взятым регионам. На каждом такой странице только для данного региона доступен список страниц с таблицами для отдельного взятого района.

In [4]:
start_r = requests.get(start_url, headers=HEADERS)

In [5]:
soup = BeautifulSoup(start_r.content, 'lxml')

Получаем список ссылок на информацию по регионам 

In [6]:
states_links = [(link.text, "http://notelections.online" + link.get("href")) for link in soup.find_all("a", style="text-decoration: none")]

Парсим таблицы для каждого УИК в каждом ТИК всех регионов и соединяем в один ```pd.DataFrame```

In [7]:
def extract_votes_for_candidate(field: str):
    
    return int(field.split()[0])

def get_df_for_hood(name, link):
    df = pd.read_html(link, encoding='cp1251', match="Сумма")[0]
    
    df.index = df.iloc[:, 1]
    df.index.name = None
    # Remove unnecessary columns
    df = df.iloc[:, 3:]
    # For each candidate have field in format "<votes> <votes, %>"
    # Have to get only int(<votes>)

    df.columns = pd.MultiIndex.from_product(
        [[name], df.columns],
        names=["ТИК", "УИК"]
    )
    
    return df

def get_table_for_state(name, link):
    state_r = requests.get(link, headers=HEADERS)
    state_soup = BeautifulSoup(state_r.content, 'lxml')
    
    hood_links = [(link.text, "http://notelections.online" + link.get("href")) for link in state_soup.find_all("a", style="text-decoration: none")]
    if hood_links:
        hood_dfs = starmap(get_df_for_hood, hood_links)
        state_df = pd.concat(hood_dfs, axis=1, join="outer")
    else:
        state_df = get_df_for_hood(None, link)
        
    return pd.concat([state_df], axis=1, keys=[name], names=["Регион"])

In [8]:
pool = multiprocessing.Pool()
state_dfs = pool.starmap(get_table_for_state, states_links)
df = pd.concat(state_dfs, axis=1, join="outer")

In [9]:
df = df.transpose()

In [10]:
df.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,"Число избирателей, включенных в список избирателей","Число избирательных бюллетеней, полученных участковой избирательной комиссией","Число избирательных бюллетеней, выданных избирателям, проголосовавшим досрочно","Число избирательных бюллетеней, выданных в помещении для голосования в день голосования","Число избирательных бюллетеней, выданных вне помещения для голосования в день голосования",Число погашенных избирательных бюллетеней,Число избирательных бюллетеней в переносных ящиках для голосования,Число бюллетеней в стационарных ящиках для голосования,Число недействительных избирательных бюллетеней,Число действительных избирательных бюллетеней,Число утраченных избирательных бюллетеней,"Число избирательных бюллетеней, не учтенных при получении",Бабурин Сергей Николаевич,Грудинин Павел Николаевич,Жириновский Владимир Вольфович,Путин Владимир Владимирович,Собчак Ксения Анатольевна,Сурайкин Максим Александрович,Титов Борис Юрьевич,Явлинский Григорий Алексеевич
Регион,ТИК,УИК,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1
Республика Адыгея (Адыгея),Адыгейская,УИК №1,2256,2181,0,2107,62,12,62,2107,3,2166,0,0,0 0.00%,137 6.32%,32 1.48%,1977 91.15%,14 0.65%,0 0.00%,1 0.05%,5 0.23%
Республика Адыгея (Адыгея),Адыгейская,УИК №2,2700,2633,0,2575,41,17,41,2575,22,2594,0,0,15 0.57%,86 3.29%,65 2.48%,2389 91.32%,13 0.50%,5 0.19%,6 0.23%,15 0.57%
Республика Адыгея (Адыгея),Адыгейская,УИК №3,2858,2752,0,2664,75,13,75,2664,5,2734,0,0,1 0.04%,62 2.26%,13 0.47%,2645 96.57%,6 0.22%,3 0.11%,4 0.15%,0 0.00%
Республика Адыгея (Адыгея),Адыгейская,УИК №4,2066,2034,0,1857,142,35,142,1857,21,1978,0,0,5 0.25%,288 14.41%,12 0.60%,1642 82.14%,21 1.05%,6 0.30%,2 0.10%,2 0.10%
Республика Адыгея (Адыгея),Адыгейская,УИК №5,700,714,0,676,11,27,11,676,3,684,0,0,2 0.29%,44 6.40%,6 0.87%,624 90.83%,6 0.87%,0 0.00%,0 0.00%,2 0.29%


In [11]:
df.iloc[:, 12:] = df.iloc[:, 12:].applymap(extract_votes_for_candidate)
df.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,"Число избирателей, включенных в список избирателей","Число избирательных бюллетеней, полученных участковой избирательной комиссией","Число избирательных бюллетеней, выданных избирателям, проголосовавшим досрочно","Число избирательных бюллетеней, выданных в помещении для голосования в день голосования","Число избирательных бюллетеней, выданных вне помещения для голосования в день голосования",Число погашенных избирательных бюллетеней,Число избирательных бюллетеней в переносных ящиках для голосования,Число бюллетеней в стационарных ящиках для голосования,Число недействительных избирательных бюллетеней,Число действительных избирательных бюллетеней,Число утраченных избирательных бюллетеней,"Число избирательных бюллетеней, не учтенных при получении",Бабурин Сергей Николаевич,Грудинин Павел Николаевич,Жириновский Владимир Вольфович,Путин Владимир Владимирович,Собчак Ксения Анатольевна,Сурайкин Максим Александрович,Титов Борис Юрьевич,Явлинский Григорий Алексеевич
Регион,ТИК,УИК,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1
Республика Адыгея (Адыгея),Адыгейская,УИК №1,2256,2181,0,2107,62,12,62,2107,3,2166,0,0,0,137,32,1977,14,0,1,5
Республика Адыгея (Адыгея),Адыгейская,УИК №2,2700,2633,0,2575,41,17,41,2575,22,2594,0,0,15,86,65,2389,13,5,6,15
Республика Адыгея (Адыгея),Адыгейская,УИК №3,2858,2752,0,2664,75,13,75,2664,5,2734,0,0,1,62,13,2645,6,3,4,0
Республика Адыгея (Адыгея),Адыгейская,УИК №4,2066,2034,0,1857,142,35,142,1857,21,1978,0,0,5,288,12,1642,21,6,2,2
Республика Адыгея (Адыгея),Адыгейская,УИК №5,700,714,0,676,11,27,11,676,3,684,0,0,2,44,6,624,6,0,0,2


Сохраняем как ```elections_results.csv```

In [12]:
df.to_csv("elections_results.csv")