# Выборы! Выборы! ...

## 1. Скачка данных с [сайта ЦИК](http://www.vybory.izbirkom.ru)

Изучаем структуру сайта. В ходе её изучения понимаем, что у каждого субъекта есть несколько больших изберательных комиссий, каждая из которых включает в себя какое-то количество УИКов.

Значит парсер должен иметь следущую структуру: 
1. Выбираем конкретные выборы
2. Переходим к конкретному субъекту
3. Переходим к конкретному участку
4. Собираем данные по УИКАМ

In [1]:
import requests                 # для отправки запросов
from bs4 import BeautifulSoup   # для поиска по html нужных элементов
import datetime                 # для работы с датами и временем
import time                     # для тайм-менеджмента

import numpy as np              # для работы с матрицами и векторами 
import pandas as pd             # для работы с датафреймами

# для красивых циклов
from tqdm import tqdm_notebook

In [18]:
# Ссылка на конкретные выборы 

# Президентские выборы 2012
# start_page_1 = "http://www.vybory.izbirkom.ru/region/region/izbirkom?action=show&root=1&tvd=100100031793509&vrn=100100031793505&region=0&global=1&sub_region=0&prver=0&pronetvd=null&vibid=100100031793509&type=227"

# Выборы в думму 2016
start_page_1 = "http://www.vybory.izbirkom.ru/region/region/izbirkom?action=show&root=1&tvd=100100067795854&vrn=100100067795849&region=0&global=1&sub_region=0&prver=0&pronetvd=0&vibid=100100067795854&type=233"


In [19]:
%%time

def subject_hrefer(url):
    '''
        Собирает все ссылки нс субъекты/районы 
        url : str
            ссылка для сбора ссылок 
    '''
    
    response = requests.get(url)
    html = response.content
    soup = BeautifulSoup(html,"lxml")
    
    # Поиск в html нужного куска
    pre_subjhrefs = soup.findAll("a",{'style':'text-decoration: none'})
    
    # Оставляем толкьо называния и ссылки
    subjects = [(item.text, item.get('href')) for item in pre_subjhrefs]

    # Возвращаем список объектов-ссылок.
    return list(set(subjects))  # Каждая ссылка собирается по два раза из-за дубляции заголовков у таблиц


# Собираем ссылки на субъекты 
subjects = subject_hrefer(start_page_1)
print('Собрано ссылок на субъекты:', len(subjects))

# Собираем по каждому субъекту ссылки на районы 
subj_subjects = { }
s = 0
for item in tqdm_notebook(subjects):
    cur_sub = subject_hrefer(item[1])
    s += len(cur_sub)
    subj_subjects[item[0]] = cur_sub
    
print('Собрано ссылок на районы:', s)

Собрано ссылок на субъекты: 225



Собрано ссылок на районы: 2820
CPU times: user 1min 22s, sys: 958 ms, total: 1min 23s
Wall time: 5min 3s


In [20]:
# Функция достаёт с каждой страницы хрефы на УИК
def region_href(url):
    '''
        Собирает все ссылки на УИКи
        url : str
            ссылка для сбора ссылок 
    '''
    
    response = requests.get(url)
    html = response.content
    soup = BeautifulSoup(html,"lxml")
    return soup.findAll('a')[-2].get('href')


def TableCreator(html_table):
    '''
        Делает из html разметки красивую табличку
        html_table : bs4
            html-разметка странички
    '''
    
    rows = html_table.find_all('tr')
    data = [ ]
    for row in rows:
        cols = row.find_all('td')
        cols = [ele.text.strip() for ele in cols]
        data.append([ele for ele in cols if ele])
    return(data)

def download_region(region):
    '''
        Скачивает информацию по конкретному региону 
        region: string
            имя региона (ключ в словаре из регионов)
    '''
    
    df_rr = [ ] # Вектор для таблиц 
    # Качаем инфомрацию по районам региона
    for item in subj_subjects[region]:
        urll = region_href(item[1])

        response = requests.get(urll)
        html = response.content
        soup = BeautifulSoup(html,"lxml")
        # Находим таблицы с УИК
        tablecontent = soup.find('table', {'style':"width:100%;border-color:#000000"})
        tablecontent = tablecontent.findAll('table')
        
        # Вынимаем таблицы
        Table1 = TableCreator(tablecontent[0])
        Table2 = TableCreator(tablecontent[1])
        
        df1 = pd.DataFrame(Table1[1:])
        df1.drop(0, axis=1, inplace=True)
        df1.columns = ['Имя колонки', 'Сумма']
        df1.drop('Сумма', axis=1, inplace=True)
        
        df2 = pd.DataFrame(Table2[1:])
        df2.columns = Table2[0]

        df_r = df1.join(df2)
        df_r = df_r.set_index('Имя колонки').T
        df_r['Район'] = df_r.shape[0]*[item[0]]  # добавляем колонку с названием района
        df_rr.append(df_r)                   # Собираем в вектор все таблицы по районам региона 
    
    # Создаём одну большую таблицу по региону
    big_df = pd.concat(df_rr)
    # Делаем колонку для конкретного региона
    big_df['Регион'] = big_df.shape[0] *[region]
    return big_df


In [21]:
dfs = [ ]
regions = list(subj_subjects.keys( ))

for reg in tqdm_notebook(regions):
    try:
        rg_df = download_region(reg)
        dfs.append(rg_df)
    except:
        print(reg)

ОИК №98
ОИК №97



In [22]:
all_df = pd.concat(dfs)

In [23]:
all_df.shape
all_df.head( )

Имя колонки,"Число избирателей, внесенных в список избирателей на момент окончания голосования","Число избирательных бюллетеней, полученных участковой избирательной комиссией","Число избирательных бюллетеней, выданных избирателям, проголосовавшим досрочно","Число избирательных бюллетеней, выданных в помещении для голосования в день голосования","Число избирательных бюллетеней, выданных вне помещения для голосования в день голосования",Число погашенных избирательных бюллетеней,"Число избирательных бюллетеней, содержащихся в переносных ящиках для голосования","Число избирательных бюллетеней, содержащихся в стационарных ящиках для голосования",Число недействительных избирательных бюллетеней,Число действительных избирательных бюллетеней,...,7. Политическая партия ЛДПР - Либерально-демократическая партия России,"8. Политическая партия ""Партия народной свободы"" (ПАРНАС)","9. Всероссийская политическая партия ""ПАРТИЯ РОСТА""","10. Общественная организация Всероссийская политическая партия ""Гражданская Сила""","11. Политическая партия ""Российская объединенная демократическая партия ""ЯБЛОКО""","12. Политическая партия ""КОММУНИСТИЧЕСКАЯ ПАРТИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ""","13. Политическая партия ""ПАТРИОТЫ РОССИИ""",14. Политическая партия СПРАВЕДЛИВАЯ РОССИЯ,Район,Регион
УИК №1277,2271,2300,0,1304,216,780,216,1304,21,1499,...,125\n8.22%,3\n0.20%,18\n1.18%,21\n1.38%,115\n7.57%,1\n0.07%,136\n8.95%,0\n0.00%,Белорецкая,ОИК №5
УИК №1278,2053,2000,0,917,85,998,85,917,9,993,...,101\n10.08%,5\n0.50%,11\n1.10%,1\n0.10%,12\n1.20%,95\n9.48%,2\n0.20%,89\n8.88%,Белорецкая,ОИК №5
УИК №1279,2121,2100,0,1054,123,923,123,1054,27,1150,...,132\n11.21%,3\n0.25%,8\n0.68%,1\n0.08%,4\n0.34%,130\n11.05%,4\n0.34%,93\n7.90%,Белорецкая,ОИК №5
УИК №1280,1158,1200,0,667,108,425,108,667,9,766,...,85\n10.97%,1\n0.13%,1\n0.13%,2\n0.26%,5\n0.65%,86\n11.10%,1\n0.13%,18\n2.32%,Белорецкая,ОИК №5
УИК №1281,1440,1500,0,1010,80,410,80,1010,20,1070,...,130\n11.93%,5\n0.46%,5\n0.46%,3\n0.28%,10\n0.92%,108\n9.91%,1\n0.09%,63\n5.78%,Белорецкая,ОИК №5


## 2. Работа с конкретной таблицей 

In [10]:
all_df_1 = all_df[['Регион', 'Район', 'Число избирателей, включенных в список избирателей',
                   'Число избирательных бюллетеней, полученных участковой избирательной комиссией',
                  'Число избирательных бюллетеней, выданных избирателям, проголосовавшим досрочно',
         'Число избирательных бюллетеней, выданных в помещении для голосования в день голосования',
       'Число избирательных бюллетеней, выданных вне помещения для голосования в день голосования',
                                                       'Число погашенных избирательных бюллетеней',
                              'Число избирательных бюллетеней в переносных ящиках для голосования',
                                          'Число бюллетеней в стационарных ящиках для голосования',
                                                 'Число недействительных избирательных бюллетеней',
                                                   'Число действительных избирательных бюллетеней',
                                                  'Число полученных открепительных  удостоверений',
               'Число открепительных удостоверений, выданных избирателям на избирательном участке',
                             'Число избирателей, проголосовавших по открепительным удостоверениям',
                                             'Число неиспользованных открепительных удостоверений',
                                    'Число открепительных удостоверений, выданных избирателям ТИК',
                                                   'Число утраченных открепительных удостоверений',
                                                       'Число утраченных избирательных бюллетеней',
                                       'Число избирательных бюллетеней, не учтенных при получении' 
                  ]]

In [11]:
names= ['Жириновский Владимир Вольфович', 'Зюганов Геннадий Андреевич', 'Миронов Сергей Михайлович',
        'Прохоров Михаил Дмитриевич', 'Путин Владимир Владимирович']

for nnm in names:
    all_df_1[nnm + ' (абсолютно)'] = all_df[nnm].apply(lambda x: x.split('\n')[0])
    all_df_1[nnm + ' (доля)'] = all_df[nnm].apply(lambda x: x.split('\n')[1])

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  


In [12]:
all_df_1

Имя колонки,Регион,Район,"Число избирателей, включенных в список избирателей","Число избирательных бюллетеней, полученных участковой избирательной комиссией","Число избирательных бюллетеней, выданных избирателям, проголосовавшим досрочно","Число избирательных бюллетеней, выданных в помещении для голосования в день голосования","Число избирательных бюллетеней, выданных вне помещения для голосования в день голосования",Число погашенных избирательных бюллетеней,Число избирательных бюллетеней в переносных ящиках для голосования,Число бюллетеней в стационарных ящиках для голосования,...,Жириновский Владимир Вольфович (абсолютно),Жириновский Владимир Вольфович (доля),Зюганов Геннадий Андреевич (абсолютно),Зюганов Геннадий Андреевич (доля),Миронов Сергей Михайлович (абсолютно),Миронов Сергей Михайлович (доля),Прохоров Михаил Дмитриевич (абсолютно),Прохоров Михаил Дмитриевич (доля),Путин Владимир Владимирович (абсолютно),Путин Владимир Владимирович (доля)
УИК №1039,Московская область,Котельниковская городская,405,330,0,263,7,60,7,263,...,19,7.04%,58,21.48%,10,3.70%,54,20.00%,126,46.67%
УИК №1040,Московская область,Котельниковская городская,2684,2275,0,1666,26,583,26,1665,...,149,8.81%,295,17.45%,70,4.14%,250,14.78%,905,53.52%
УИК №1041,Московская область,Котельниковская городская,2375,2105,0,1408,48,649,48,1408,...,70,4.81%,248,17.03%,60,4.12%,188,12.91%,862,59.20%
УИК №1042,Московская область,Котельниковская городская,2049,1815,0,1156,104,555,104,1156,...,124,9.84%,211,16.75%,47,3.73%,108,8.57%,755,59.92%
УИК №1043,Московская область,Котельниковская городская,2102,1890,0,1334,47,509,47,1334,...,102,7.39%,209,15.13%,56,4.06%,146,10.57%,845,61.19%
УИК №1044,Московская область,Котельниковская городская,2270,1940,0,1191,24,725,24,1191,...,107,8.81%,193,15.88%,38,3.13%,205,16.87%,649,53.42%
УИК №1045,Московская область,Котельниковская городская,3040,2545,0,1535,5,1005,5,1535,...,93,6.04%,225,14.61%,49,3.18%,326,21.17%,822,53.38%
УИК №1046,Московская область,Котельниковская городская,2572,2270,0,1471,36,763,36,1471,...,132,8.76%,299,19.84%,76,5.04%,200,13.27%,772,51.23%
УИК №1047,Московская область,Котельниковская городская,2664,2200,0,1855,47,298,47,1855,...,84,4.42%,325,17.09%,57,2.99%,133,6.99%,1262,66.35%
УИК №1048,Московская область,Красноармейская городская,2768,2600,0,1623,35,942,35,1622,...,116,7.00%,442,26.67%,83,5.01%,191,11.53%,786,47.44%


In [17]:
all_df_1.to_csv('pres_vote_2012.csv', sep='\t')

In [22]:
all_df_1[['Регион', 'Район', 'Число избирателей, включенных в список избирателей',
       'Число избирательных бюллетеней, полученных участковой избирательной комиссией',
       'Жириновский Владимир Вольфович (абсолютно)',
       'Зюганов Геннадий Андреевич (абсолютно)',
       'Миронов Сергей Михайлович (абсолютно)',
       'Прохоров Михаил Дмитриевич (абсолютно)',
       'Путин Владимир Владимирович (абсолютно)']].head(5)

Имя колонки,Регион,Район,"Число избирателей, включенных в список избирателей","Число избирательных бюллетеней, полученных участковой избирательной комиссией",Жириновский Владимир Вольфович (абсолютно),Зюганов Геннадий Андреевич (абсолютно),Миронов Сергей Михайлович (абсолютно),Прохоров Михаил Дмитриевич (абсолютно),Путин Владимир Владимирович (абсолютно)
УИК №1039,Московская область,Котельниковская городская,405,330,19,58,10,54,126
УИК №1040,Московская область,Котельниковская городская,2684,2275,149,295,70,250,905
УИК №1041,Московская область,Котельниковская городская,2375,2105,70,248,60,188,862
УИК №1042,Московская область,Котельниковская городская,2049,1815,124,211,47,108,755
УИК №1043,Московская область,Котельниковская городская,2102,1890,102,209,56,146,845


In [15]:
all_df_1.columns

Index(['Регион', 'Район', 'Число избирателей, включенных в список избирателей',
       'Число избирательных бюллетеней, полученных участковой избирательной комиссией',
       'Число избирательных бюллетеней, выданных избирателям, проголосовавшим досрочно',
       'Число избирательных бюллетеней, выданных в помещении для голосования в день голосования',
       'Число избирательных бюллетеней, выданных вне помещения для голосования в день голосования',
       'Число погашенных избирательных бюллетеней',
       'Число избирательных бюллетеней в переносных ящиках для голосования',
       'Число бюллетеней в стационарных ящиках для голосования',
       'Число недействительных избирательных бюллетеней',
       'Число действительных избирательных бюллетеней',
       'Число полученных открепительных  удостоверений',
       'Число открепительных удостоверений, выданных избирателям на избирательном участке',
       'Число избирателей, проголосовавших по открепительным удостоверениям',
       'Чи