### Данные Москвы и Московской области с сайта "Реформа ЖКХ"

В данном отчете представлен код для скачивания данных по домам Москвы и Московской области с сайта [Реформа ЖКХ]('https://www.reformagkh.ru'). Затем производится объединение в общий `DataFrame`.Представлено несколько подходов, для последовательного скачивания с помощью `selenium` и `PhantomJS`, а также вариант в многопоточном исполнении с помощью модуля `multithreading`.  
Из-за недоступности сайта с одного айпи все необходимые данные не удалось загрузить. Были опробованы вариант с proxy из бесплатных, но скорость оставляла желать лучшего. Попытка с tor и socks5 для смены айпи через фиксированное количество запросов (похоже, что около 500) пока не увенчалась успехом, но это вопрос времени. Также было замечано, что с помощью запросов с PhantomJS после 5-ти запросов длительностью каждой 1-2 секунды была пауза в районе 60 секунд. С Firefox подобного поведения не наблюдалось.   
Далее представлен блок с импортами, а далее с основными операциями.

In [9]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np
import itertools as it
import datetime as dt
from multiprocessing.pool import ThreadPool as Pool

# user defined modules and functions
from get_data_from_form import get_keys_values, get_kadastr_number, get_address_anketa
from get_links_functions import (get_link_houses, get_num_pages, 
    get_list_key_value_for_area, get_keys_values_for_area_single)

# seleinum imports
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

Основной код для скачивания данныех без использования proxy, смены айпи:

In [None]:
# browser = webdriver.PhantomJS()
browser = webdriver.Firefox()

url_pref_house = 'https://www.reformagkh.ru'
url_prefix = 'https://www.reformagkh.ru/myhouse'
url_mos_area = 'https://www.reformagkh.ru/myhouse?tid=2281126'
url_mos = 'https://www.reformagkh.ru/myhouse?tid=2280999'

urls = [url_mos_area, url_mos]

multithread = False

if multithread:
    num_workers = 4
    pool = Pool(num_workers)
#     browsers = [webdriver.PhantomJS() for i in range(num_workers)]
    browsers = [webdriver.Firefox() for i in range(num_workers)]

for url in urls:
    # r = requests.get(url)
    # s = BeautifulSoup(r.text, 'lxml')
    browser.get(url)
    s = BeautifulSoup(browser.page_source, 'lxml')
    list_full_keys = []
    list_full_values = []
    list_full_names = []
    list_full_urls = []
    link_areas = s.find('table', class_='col_list tree').find_all('a')
    for link_area in link_areas[:1]:
        start_link_area = url_prefix + link_area.attrs['href']
        print(link_area.text)
        # r1 = requests.get(start_link_area)
        # s1 = BeautifulSoup(r1.text, 'lxml')
        requests.get(start_link_area)
        s1 = BeautifulSoup(browser.page_source, 'lxml')
        list_link_houses = []

        district = s1.find('table', class_='col_list tree') is not None
        if district:
            table_regions = s1.find_all('table', class_='col_list tree')
            link_regions = []
            for table_region in table_regions:
                link_regions.extend(table_region.find_all('a'))                

        else:
            # make list ling_regions with single link_area
            link_regions = [link_area]

        for link_region in link_regions:
            link_houses = get_link_houses(browser, link_region, district=district)
            link_houses = [link.split('?')[0] for link in link_houses]
            list_full_urls.extend(link_houses)
            if multithread:
                repeat_times = len(link_houses)//num_workers + 1
                browsers_list = list(it.chain(*it.repeat(browsers, times=repeat_times)))[:len(link_houses)]
                list_keys, list_values = pool.starmap(
                    get_keys_values_for_area_single, list(zip(link_houses, browsers_list)))
            else:
                list_keys, list_values = get_list_key_value_for_area(link_houses, browser, test=True)

            list_full_keys.extend(list_keys)
            list_full_values.extend(list_values)

            num_pages = get_num_pages(link_region)
            list_full_names.extend(list(it.repeat(link_region.text, times=num_pages)))
            
        # create DataFrame after each link_area and save it
        df = pd.DataFrame(list_full_values, columns=list_full_keys[0])
        name_series = pd.Series(list_full_names, name='Название региона')
        url_series = pd.Series(list_full_urls, name='Ссылки')
        if district:
            district_series = pd.Series(list(it.repeat(link_area.text, times=len(list_full_values))), 
                                    name="Название района")
        else:
            district_series = pd.Series(list(it.repeat(np.nan, times=len(list_full_values))), 
                                    name="Название района")            
        df = pd.concat([name_series, df, url_series, district_series], axis=1)
        df.to_csv('data/{}.csv'.format(link_area.text), sep=';', index=False)

Функция для добавления proxy, не каждый proxy сервер стабильно работает + скорость мала.

In [1]:
def load_proxy(PROXY_HOST,PROXY_PORT):
        fp = webdriver.FirefoxProfile()
        fp.set_preference("network.proxy.type", 1)
        fp.set_preference("network.proxy.http",PROXY_HOST)
        fp.set_preference("network.proxy.http_port",int(PROXY_PORT))
        fp.set_preference("general.useragent.override","whater_useragent")
        fp.update_preferences()
        return webdriver.Firefox(firefox_profile=fp)

Вариант с использованием [Tor](https://www.torproject.org/docs/debian.html.en) и [Privoxy ](http://www.privoxy.org/user-manual/installation.html). Для данного варианта необходимо реализовать еще принудительную смены личности в Tor, и тогда можно запускать web-scraping.

In [25]:
from selenium.webdriver.common.proxy import *

port = "8118" #The Privoxy (HTTP) port
myProxy = "127.0.0.1:"+port

proxy = Proxy({
    'proxyType': ProxyType.MANUAL,
    'httpProxy': myProxy,
    'ftpProxy': myProxy,
    'sslProxy': myProxy,
    'noProxy': '' # set this value as desired
    })
driver = webdriver.Firefox(proxy=proxy)

Для смены личности можно использовать [stem](https://stem.torproject.org/index.html), для этого необходимо выполнить следующий код, с предварительной настройкой с помощью [tutorial]:

In [None]:
from stem import Signal
from stem.control import Controller

with Controller.from_port(port = 9051) as controller:
  controller.authenticate()
  controller.signal(Signal.NEWNYM)

In [None]:
 82.163.79.61

In [None]:
185.100.85.101

In [12]:
df = pd.concat([name_series, df, url_series, district_series], axis=1)

In [2]:
import selenium.webdriver.common.proxy as pr

In [7]:
pr.ProxyTypeFactory

selenium.webdriver.common.proxy.ProxyTypeFactory

In [10]:
            district_series = pd.Series(list(it.repeat(link_area.text, times=len(list_full_values))), 
                                    name="Название района")

In [11]:
district_series

0     Восточный
1     Восточный
2     Восточный
3     Восточный
4     Восточный
5     Восточный
6     Восточный
7     Восточный
8     Восточный
9     Восточный
10    Восточный
11    Восточный
12    Восточный
13    Восточный
14    Восточный
15    Восточный
16    Восточный
17    Восточный
18    Восточный
19    Восточный
20    Восточный
21    Восточный
22    Восточный
23    Восточный
24    Восточный
25    Восточный
26    Восточный
27    Восточный
28    Восточный
29    Восточный
30    Восточный
31    Восточный
32    Восточный
33    Восточный
34    Восточный
35    Восточный
36    Восточный
37    Восточный
38    Восточный
39    Восточный
40    Восточный
41    Восточный
42    Восточный
43    Восточный
44    Восточный
45    Восточный
46    Восточный
47    Восточный
48    Восточный
49    Восточный
Name: Название района, dtype: object

In [13]:
get_keys_values_for_area_single(link_houses[0], browser)

(['Общая площадь дома, кв.м',
  'Наибольшее количество этажей',
  'Год ввода в эксплуатацию',
  'Последнее изменение анкеты',
  'Дата начала  обслуживания дома',
  'Количество этажей:наибольшее, ед.',
  'Количество этажей:наименьшее, ед.',
  'Количество помещений, в том числе:',
  'Количество помещений, в том числе:жилых, ед.',
  'Количество помещений, в том числе:нежилых, ед.',
  'Общая площадь дома, в том числе, кв.м:',
  'Общая площадь дома, в том числе, кв.м:общая площадь жилых помещений, кв.м',
  'Общая площадь дома, в том числе, кв.м:общая площадь нежилых помещений, кв.м',
  'Общая площадь дома, в том числе, кв.м:общая площадь помещений, входящих в состав общего имущества, кв.м',
  'Общие сведения о земельном участке, на котором расположен многоквартирный дом:площадь земельного участка, входящего в состав общего имущества в многоквартирном доме, кв.м',
  'Общие сведения о земельном участке, на котором расположен многоквартирный дом:площадь парковки в границах земельного участка, 

In [6]:
link_area

<a href="?tid=2393452&amp;PHPSESSID=rdrqib1fn8g4pml1jrj12qmjn1">Власиха (ЗАТО)</a>

Власиха (ЗАТО)
link houses page 1 is parsed with 8.35 seconds
0 house is parsed with total 1.82 seconds, 1.82 iteration time
1 house is parsed with total 3.13 seconds, 1.31 iteration time
2 house is parsed with total 4.36 seconds, 1.23 iteration time
3 house is parsed with total 5.59 seconds, 1.23 iteration time
4 house is parsed with total 59.61 seconds, 54.02 iteration time
5 house is parsed with total 60.80 seconds, 1.19 iteration time
6 house is parsed with total 62.27 seconds, 1.47 iteration time
7 house is parsed with total 63.65 seconds, 1.38 iteration time
8 house is parsed with total 64.95 seconds, 1.30 iteration time
9 house is parsed with total 66.11 seconds, 1.16 iteration time
10 house is parsed with total 119.93 seconds, 53.82 iteration time
11 house is parsed with total 121.31 seconds, 1.38 iteration time
12 house is parsed with total 122.84 seconds, 1.53 iteration time
13 house is parsed with total 124.25 seconds, 1.41 iteration time
14 house is parsed with total 125.48 seconds, 1.23 iteration time
15 house is parsed with total 126.67 seconds, 1.19 iteration time
16 house is parsed with total 180.26 seconds, 53.59 iteration time
17 house is parsed with total 182.22 seconds, 1.95 iteration time
18 house is parsed with total 183.51 seconds, 1.29 iteration time
19 house is parsed with total 184.75 seconds, 1.25 iteration time
20 house is parsed with total 186.05 seconds, 1.29 iteration time
21 house is parsed with total 187.27 seconds, 1.22 iteration time
22 house is parsed with total 240.58 seconds, 53.31 iteration time
23 house is parsed with total 242.57 seconds, 1.99 iteration time
24 house is parsed with total 244.00 seconds, 1.43 iteration time


In [26]:
list_full_urls = []
list_full_urls.extend(link.split('?')[0] for link in link_houses)

In [32]:
        df = pd.DataFrame(list_full_values, columns=list_full_keys[0])
        name_series = pd.Series(list_full_names, name='Название региона')
        url_series = pd.Series(list_full_urls, name='Ссылки')
        df = pd.concat([name_series, df, url_series], axis=1)

In [34]:
df.to_csv('data/{}.csv'.format(link_area.text), sep=';', index=False)

In [33]:
df.head()

Unnamed: 0,Название региона,"Общая площадь дома, кв.м",Наибольшее количество этажей,Год ввода в эксплуатацию,Последнее изменение анкеты,Дата начала обслуживания дома,"Количество этажей:наибольшее, ед.","Количество этажей:наименьшее, ед.","Количество помещений, в том числе:","Количество помещений, в том числе:жилых, ед.",...,Тип дома,Способ формирования фонда капитального ремонта,Дом признан аварийным,"Количество подъездов, ед.","Количество лифтов, ед.",Класс энергетической эффективности,Дополнительная информация,Кадастровый номер,Анкета дома,Ссылки
0,Власиха (ЗАТО),6 483.50,9,2000,18.12.2015 в 10:53,01.07.2015,9,9,Не заполнено,Не заполнено,...,Многоквартирный дом,На счете регионального оператора,Нет,2,2,Не заполнено,Не заполнено,Нет данных,"обл. Московская, п. Власиха, ул. Заозерная, д....",https://www.reformagkh.ru/myhouse/profile/view...
1,Власиха (ЗАТО),7 464.00,9,1991,18.12.2015 в 10:54,01.07.2015,9,9,Не заполнено,Не заполнено,...,Многоквартирный дом,На счете регионального оператора,Нет,3,3,Не заполнено,Не заполнено,Нет данных,"обл. Московская, п. Власиха, ул. Заозерная, д....",https://www.reformagkh.ru/myhouse/profile/view...
2,Власиха (ЗАТО),5 940.00,10,1993,18.12.2015 в 10:55,01.07.2015,10,10,Не заполнено,Не заполнено,...,Многоквартирный дом,На счете регионального оператора,Нет,2,2,Не заполнено,Не заполнено,Нет данных,"обл. Московская, п. Власиха, ул. Заозерная, д....",https://www.reformagkh.ru/myhouse/profile/view...
3,Власиха (ЗАТО),5 956.00,10,1992,18.12.2015 в 11:04,01.07.2015,10,10,Не заполнено,Не заполнено,...,Многоквартирный дом,На счете регионального оператора,Нет,2,2,Не заполнено,Не заполнено,Нет данных,"обл. Московская, п. Власиха, ул. Заозерная, д....",https://www.reformagkh.ru/myhouse/profile/view...
4,Власиха (ЗАТО),5 909.00,10,1993,18.12.2015 в 11:10,01.07.2015,10,10,Не заполнено,Не заполнено,...,Многоквартирный дом,На счете регионального оператора,Нет,2,2,Не заполнено,Не заполнено,Нет данных,"обл. Московская, п. Власиха, ул. Заозерная, д....",https://www.reformagkh.ru/myhouse/profile/view...


In [24]:
list_full_links

['https://www.reformagkh.ru/myhouse/profile/view/9063854/',
 'https://www.reformagkh.ru/myhouse/profile/view/9063858/',
 'https://www.reformagkh.ru/myhouse/profile/view/9063861/',
 'https://www.reformagkh.ru/myhouse/profile/view/9063862/',
 'https://www.reformagkh.ru/myhouse/profile/view/9063864/',
 'https://www.reformagkh.ru/myhouse/profile/view/9063865/',
 'https://www.reformagkh.ru/myhouse/profile/view/9063866/',
 'https://www.reformagkh.ru/myhouse/profile/view/9063868/',
 'https://www.reformagkh.ru/myhouse/profile/view/9063899/',
 'https://www.reformagkh.ru/myhouse/profile/view/9063901/',
 'https://www.reformagkh.ru/myhouse/profile/view/9063902/',
 'https://www.reformagkh.ru/myhouse/profile/view/9063904/',
 'https://www.reformagkh.ru/myhouse/profile/view/9063905/',
 'https://www.reformagkh.ru/myhouse/profile/view/9063906/',
 'https://www.reformagkh.ru/myhouse/profile/view/9063908/',
 'https://www.reformagkh.ru/myhouse/profile/view/9063910/',
 'https://www.reformagkh.ru/myhouse/prof

In [16]:
df = pd.DataFrame(list_full_values, columns=list_full_keys[0])

In [17]:
df.head()

Unnamed: 0,"Общая площадь дома, кв.м",Наибольшее количество этажей,Год ввода в эксплуатацию,Последнее изменение анкеты,Дата начала обслуживания дома,"Количество этажей:наибольшее, ед.","Количество этажей:наименьшее, ед.","Количество помещений, в том числе:","Количество помещений, в том числе:жилых, ед.","Количество помещений, в том числе:нежилых, ед.",...,"Серия, тип постройки здания",Тип дома,Способ формирования фонда капитального ремонта,Дом признан аварийным,"Количество подъездов, ед.","Количество лифтов, ед.",Класс энергетической эффективности,Дополнительная информация,Кадастровый номер,Анкета дома
0,6 483.50,9,2000,18.12.2015 в 10:53,01.07.2015,9,9,Не заполнено,Не заполнено,Не заполнено,...,Не заполнено,Многоквартирный дом,На счете регионального оператора,Нет,2,2,Не заполнено,Не заполнено,Нет данных,"обл. Московская, п. Власиха, ул. Заозерная, д...."
1,7 464.00,9,1991,18.12.2015 в 10:54,01.07.2015,9,9,Не заполнено,Не заполнено,Не заполнено,...,Не заполнено,Многоквартирный дом,На счете регионального оператора,Нет,3,3,Не заполнено,Не заполнено,Нет данных,"обл. Московская, п. Власиха, ул. Заозерная, д...."
2,5 940.00,10,1993,18.12.2015 в 10:55,01.07.2015,10,10,Не заполнено,Не заполнено,Не заполнено,...,Не заполнено,Многоквартирный дом,На счете регионального оператора,Нет,2,2,Не заполнено,Не заполнено,Нет данных,"обл. Московская, п. Власиха, ул. Заозерная, д...."
3,5 956.00,10,1992,18.12.2015 в 11:04,01.07.2015,10,10,Не заполнено,Не заполнено,Не заполнено,...,Не заполнено,Многоквартирный дом,На счете регионального оператора,Нет,2,2,Не заполнено,Не заполнено,Нет данных,"обл. Московская, п. Власиха, ул. Заозерная, д...."
4,5 909.00,10,1993,18.12.2015 в 11:10,01.07.2015,10,10,Не заполнено,Не заполнено,Не заполнено,...,Не заполнено,Многоквартирный дом,На счете регионального оператора,Нет,2,2,Не заполнено,Не заполнено,Нет данных,"обл. Московская, п. Власиха, ул. Заозерная, д...."


In [6]:
list(it.repeat(link_region.text, times=num_pages))

['Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (ЗАТО)',
 'Власиха (З

In [42]:
link_house = 'https://www.reformagkh.ru/myhouse/profile/view/9063854/'

In [34]:
browser = webdriver.PhantomJS()

In [23]:
browser = webdriver.Firefox()

In [36]:
link_house = 'https://www.reformagkh.ru/myhouse/profile/view/9063858/'

In [38]:
link_house = 'https://www.reformagkh.ru/myhouse/profile/view/9063861/'

In [40]:
link_house = 'https://www.reformagkh.ru/myhouse/profile/view/8698602/'

In [43]:
time_start = dt.datetime.now()
# browser = webdriver.PhantomJS()
browser.get(link_house)
element = WebDriverWait(browser, 15).until(
    EC.presence_of_element_located((By.XPATH, "//tr[27]/td[1]/span"))
)
print(dt.datetime.now() - time_start)

0:00:01.035511


In [15]:
browser.get_log()

TypeError: get_log() missing 1 required positional argument: 'log_type'

In [6]:

browser.find_element_by_xpath("//tr[1]/td[1]/a")

<selenium.webdriver.remote.webelement.WebElement (session="b31fc4e0-61d9-11e6-b855-adbf2e0b9f5a", element=":wdc:1471149865568")>

Объединение в единый `DataFrame`. Добавление столбца с названием регионов из текстов ссылок.

In [None]:
df = pd.DataFrame(list_full_values, columns=list_full_keys[0])
names_series = pd.Series(list_full_names, name='region_name')
df = pd.concat([name_series, df], axis=1)

Далее представлены несколько `DataFrame`, которые удалось извлечь до недоступности сайта с помощью функций из модуля `get_data_from_form`.

In [599]:
pd.DataFrame(list_values, columns=list_keys[0])

Unnamed: 0,"Общая площадь дома, кв.м",Наибольшее количество этажей,Год ввода в эксплуатацию,Последнее изменение анкеты,Дата начала обслуживания дома,"Количество этажей:наибольшее, ед.","Количество этажей:наименьшее, ед.","Количество помещений, в том числе:","Количество помещений, в том числе:жилых, ед.","Количество помещений, в том числе:нежилых, ед.",...,"Серия, тип постройки здания",Тип дома,Способ формирования фонда капитального ремонта,Дом признан аварийным,"Количество подъездов, ед.","Количество лифтов, ед.",Класс энергетической эффективности,Дополнительная информация,Кадастровый номер,Анкета дома
0,6 483.50,9,2000,18.12.2015 в 10:53,01.07.2015,9,9,Не заполнено,Не заполнено,Не заполнено,...,Не заполнено,Многоквартирный дом,На счете регионального оператора,Нет,2,2,Не заполнено,Не заполнено,Нет данных,"обл. Московская, п. Власиха, ул. Заозерная, д...."
1,7 464.00,9,1991,18.12.2015 в 10:54,01.07.2015,9,9,Не заполнено,Не заполнено,Не заполнено,...,Не заполнено,Многоквартирный дом,На счете регионального оператора,Нет,3,3,Не заполнено,Не заполнено,Нет данных,"обл. Московская, п. Власиха, ул. Заозерная, д...."


In [539]:
df = pd.DataFrame(list(zip(keys, values)))
df

Unnamed: 0,0,1
0,"Общая площадь дома, кв.м",6 483.50
1,Наибольшее количество этажей,9
2,Год ввода в эксплуатацию,2000
3,Последнее изменение анкеты,18.12.2015 в 10:53
4,Дата начала обслуживания дома,01.07.2015
5,"Количество этажей:наибольшее, ед.",9
6,"Количество этажей:наименьшее, ед.",9
7,"Количество помещений, в том числе:",Не заполнено
8,"Количество помещений, в том числе:жилых, ед.",Не заполнено
9,"Количество помещений, в том числе:нежилых, ед.",Не заполнено


### Выводы

На данный момент реализованы функции с обработкой формы конкретного дома и проверена на нескольких разных формах. Также реализованы функции с рекурсивным обходом домов Москвы и Московской области, но полностью не протестированы и данные не получены ввиду недоступности сайти "Реформа ЖКХ".