In [9]:
import lxml.html
import requests
from lxml import etree
import pandas as pd
import numpy as np
from tqdm import tqdm
from collections import defaultdict
import concurrent.futures
import multiprocessing

### Схема парсинга
Для начала получаем список ссылок на результаты отдельных ТИК. Затем для каждого ТИК собирается список данных по УИК. В папке reports лежат файлы по результатам для каждого УИК (в одном файле лежат результаты всех УИК, относящихся к одному ТИК).

In [2]:
ENTRY_POINT_URL = 'http://www.vybory.izbirkom.ru/region/region/izbirkom?action=show&root=1&tvd=100100084849066&vrn=100100084849062&region=0&global=1&sub_region=0&prver=0&pronetvd=null&vibid=100100084849066&type=227'
page = requests.get(ENTRY_POINT_URL)

tree = lxml.html.fromstring(page.text)

region_data = []
table = tree.xpath('//table[2]//tr[4]//table[6]//td[2]//a')
for el in table:
    region_data.append((el.text_content(), el.get('href')))
region_data_array = np.array(region_data)

In [3]:
# [(region_name, TIK_name, TIK_url)]
TIK_data = []
for region_name, region_url in tqdm(region_data):
    region_page = requests.get(region_url)
    tree = lxml.html.fromstring(region_page.text)
    
    # /html/body/table[2]/tbody/tr[4]/td/table[6]/tbody/tr/td[2]/div/table/tbody/tr[1]/td[1]/nobr/a
    TIK_elements = tree.xpath('//nobr//a')
    for el in TIK_elements:
        TIK_name = el.text_content()
        TIK_url = el.get('href')
        TIK_data.append((
            region_name,
            TIK_name,
            TIK_url
        ))
len(TIK_data)

100%|██████████| 87/87 [01:52<00:00,  1.30s/it]


2776

In [4]:
def parse_links(args):
    region_name, TIK_name, TIK_url = args
    TIK_page = requests.get(TIK_url)
    tree = lxml.html.fromstring(TIK_page.text)
    UIKS_page_link = tree.xpath('//table[2]//tr[2]//td//a')
    if len(UIKS_page_link) == 1:
        UIK_page_link = UIKS_page_link[0].get('href')
        return region_name, TIK_name, UIK_page_link
    return None, None, None

In [10]:
UIK_links = []
num_processor = 8
with multiprocessing.Pool(num_processor) as mp:
    for result in tqdm(mp.imap_unordered(parse_links, TIK_data), total=len(TIK_data)):
        UIK_links.append(result)

100%|██████████| 2776/2776 [06:21<00:00,  7.27it/s]


In [11]:
df = pd.DataFrame(UIK_links)
df.to_csv('UIK_links.csv', header=False, index=False)

df = pd.read_csv('UIK_links.csv')
UIK_links = df.values

In [12]:
region_name, TIK_name, UIK_page_url = UIK_links[0]
UIK_page = requests.get(UIK_page_url)
UIK_page_tree = lxml.html.fromstring(UIK_page.text)
UIK_titles = UIK_page_tree.xpath('//table[3]//tr[4]//table[6]//td[1]//table')
titles = []
for el in UIK_titles[0].getchildren():
    titles.append(el.getchildren()[1].text_content())

print(titles)
del titles[13]
del titles[0]
table_titles = ['Регион', 'ТИК', 'УИК'] + titles

['Сумма', 'Число избирателей, включенных в список избирателей ', 'Число избирательных бюллетеней, полученных участковой избирательной комиссией', 'Число избирательных бюллетеней, выданных избирателям, проголосовавшим досрочно', 'Число избирательных бюллетеней, выданных в помещении для голосования в день голосования', 'Число избирательных бюллетеней, выданных вне помещения для голосования в день голосования', 'Число погашенных избирательных бюллетеней', 'Число избирательных бюллетеней в переносных ящиках для голосования', 'Число бюллетеней в стационарных ящиках для голосования', 'Число недействительных избирательных бюллетеней', 'Число действительных избирательных бюллетеней', 'Число утраченных избирательных бюллетеней', 'Число избирательных бюллетеней, не учтенных при получении ', '\xa0', 'Бабурин Сергей Николаевич', 'Грудинин Павел Николаевич', 'Жириновский Владимир Вольфович', 'Путин Владимир Владимирович', 'Собчак Ксения Анатольевна', 'Сурайкин Максим Александрович', 'Титов Борис Юр

In [13]:
bad_UIKs = []
def parse_page(args):
    num, arr = args
    region_name, TIK_name, UIK_page_url = arr
    try:
        UIK_page = requests.get(UIK_page_url)
        UIK_page_tree = lxml.html.fromstring(UIK_page.text)
        UIK_names = UIK_page_tree.xpath('//table[6]//td[2]//tr[1]')
        UIK_table = UIK_page_tree.xpath('//table[6]//td[2]//tr')

        table = defaultdict(list)

        UIK_names_list = []
        for UIK_name in UIK_names[0].getchildren():
            UIK_names_list.append(UIK_name.text_content())

        n_rows = len(UIK_names_list)
        table["region"].extend([region_name] * n_rows)
        table["tik_name"].extend([TIK_name] * n_rows)
        table["UIK_name"].extend(UIK_names_list)
        counter = 0
        for tr in UIK_table:
            this_row = []
            if tr.get('valign'):
                continue
            for td in tr.getchildren():
                if len(td.getchildren()[0].getchildren()) == 0:
                    this_row += ['empty_row']
                    break
                this_row += [int(td.getchildren()[0].getchildren()[0].text_content())]
            if this_row != ['empty_row']:
                table[f"col_{counter}"].extend(this_row)
                counter += 1
        df = pd.DataFrame(dict(table))
        df.to_csv(f'reports/uik_{num}.csv', header = False, index = False)
    except:
        print(f'Count {len(bad_UIKs) + 1} bad UIKs.')
        bad_UIKs.append(
            (region_name, TIK_name, UIK_page_url)
        )
    return True

In [14]:
%%time 

arr = []
with multiprocessing.Pool(num_processor) as mp:
    for result in tqdm(mp.imap_unordered(parse_page, enumerate(UIK_links)), total=len(UIK_links)):
        arr.append(result)
    print(sum(arr))

100%|██████████| 2775/2775 [06:21<00:00,  7.27it/s]

2775
CPU times: user 4.82 s, sys: 815 ms, total: 5.63 s
Wall time: 6min 21s





In [15]:
from os import listdir

with open('UIK_table.csv', mode='w+', encoding='utf8') as f:
    for file in tqdm(listdir('reports/')):
        if file == 'header.csv':
            continue
        with open('reports/' + file, mode='r', encoding='utf8') as report:
            for line in report:
                f.write(line)

100%|██████████| 2775/2775 [00:00<00:00, 11140.65it/s]


In [16]:
df = pd.read_csv('UIK_table.csv')
df

Unnamed: 0,Нижегородская область,Пильнинская,УИК №1562,1594,1500,0,878,31,591,31.1,...,0.1,0.2,10,177,81,603,10.1,12,3,4
0,Нижегородская область,Пильнинская,УИК №1563,1369,1300,0,743,41,516,41,...,0,0,7,163,71,522,3,6,5,3
1,Нижегородская область,Пильнинская,УИК №1564,1676,1600,0,1028,40,532,40,...,0,0,13,174,94,743,17,9,6,2
2,Нижегородская область,Пильнинская,УИК №1565,1613,1500,0,907,55,538,55,...,0,0,9,173,80,660,11,3,3,7
3,Нижегородская область,Пильнинская,УИК №1566,802,700,0,364,152,184,152,...,0,0,3,62,30,407,4,2,1,2
4,Нижегородская область,Пильнинская,УИК №1567,258,250,0,106,80,64,80,...,0,0,1,11,11,160,0,3,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
97217,город Москва,Савеловский район,УИК №402,2424,2100,0,1379,86,635,86,...,0,0,11,160,80,998,70,11,29,80
97218,город Москва,Савеловский район,УИК №403,2600,2100,0,1395,83,622,83,...,0,0,25,186,66,978,82,11,29,74
97219,город Москва,Савеловский район,УИК №404,2961,2200,0,1690,71,439,71,...,0,0,23,227,70,1139,117,11,47,90
97220,город Москва,Савеловский район,УИК №3649,128,150,0,83,39,28,39,...,0,0,1,15,7,85,9,2,0,3
