**Author:** Волокжанин Вадим Юрьевич<br>
**Create date:** 01.11.2019<br> 
**Description:** Загрузка домов и геокодирование данных

# Импортруем необходимые модули и данные

In [31]:
# Для мониторинга выполнения циклов
from tqdm import tqdm_notebook, tqdm

# Обработка HTML 
from bs4 import BeautifulSoup
# Для генерации поддельного User agent
from fake_useragent import UserAgent
# Для работы с запросами 
import requests
from requests import ConnectTimeout, ConnectionError, ReadTimeout 
import urllib
ua = UserAgent()

# Для работы с табличными данными
import pandas as pd

# Для работы с регулярными выражениями и строками
import re
import string

# Для работы с массивами и вычислениями
import numpy as np 

# Для работы с SQL
import sqlalchemy
from sqlalchemy import create_engine
# Для работы с Postgre
import psycopg2

# Для работы с операционной системой
import os

# Для работы с циклами
from itertools import cycle

# Для параллельной работы кода
from multiprocessing.dummy import Pool as ThreadPool

# Для работы с датой и временем 
import datetime
import time

# Для работы с картами
import folium
# Для работы с кластерами точек
from folium.plugins import MarkerCluster

# Создадим функции и наборы данных

## Для работы создаем пространственные индексы (расширение [postgis](https://postgis.net/install/))


**Установим необходимые пакеты:**

sudo apt install postgis на сервер.

**Установим расширение в pg:**

sudo -u postgres psql

```sql
-- Создаем расширение в pg
create extension postgis;
```

In [2]:
# Создадим подключние к dwh
engine = create_engine('postgres://volokzhanin:{password}@localhost:5432/volokzhanin'.format(password = os.getenv('PASSWORD1', False)))

In [3]:
# Импортируем класс tor 
os.chdir('/mnt/sda1/Documents/Projects/web_scraping_flats/scripts')
from tor_crawler import TorCrawler
crawler = TorCrawler(ctrl_pass='1234') 

## Создаем функции

In [107]:
def clean_number_house(address) -> string: 
    """
    Функция для обработки номера дома. 
    Вход: список с найденным домом.
    Выход: строка с номером дома.
    """
    # Загружаем знаки пунктуации
    punctuation = set([char for char in string.punctuation]) 
    clean_address = ''.join([char for char in address if char not in punctuation])
     # Маска для поика дома
    search_house = re.compile('\d{1,3}.{0,4}$')
    # Ищем номер дома
    finded_house = search_house.findall(clean_address)
    finded_house = [house.lower() for house in finded_house]
    finded_house = [char.replace(' ', '') for char in finded_house if len(finded_house) > 0]
    return finded_house

def geocoder(address) -> list:
    """
    Функция для возвращения долготы и широты. 
    Вход: текст с адресом.
    Выход: список с долготой и широтой. 
    """
    while True:
        # В процессе могут возникнуть ошибки requests
        try:             
            url = 'https://yandex.ru/maps/?text={text}'.format(text = urllib.parse.quote(address))
            crawler.rotate()
            bsObj = crawler.get(url, headers={'User-Agent': UserAgent().chrome})
            # Если нас proxy заблокировали, то меняем proxy
            if len(re.findall('Нам очень жаль, но запросы, поступившие с вашего IP-адреса, похожи на автоматические|У вас старая версия браузера, в ней недоступны новые функции Яндекс.Карт', bsObj.text)) > 0:
                continue
            else:
                # Ищем номер дома в тексте запроса
                fact_house = clean_number_house(address)
                # Ищем координаты дома 
                coordinates_list = re.findall(r'displayCoordinates":\[\d{1,3}.\d{1,10},\d{1,3}.\d{1,10}\],"type":"toponym","id":"\d{1,20}","kind":"house"', bsObj.text)
                coordinates_list = list(set(coordinates_list))
                finded_address = re.findall(r'requestGeoWhere":{"type":"toponym","id":"\d{1,10}","address":".+?"', bsObj.text)
                finded_address = re.sub('requestGeoWhere":{"type":"toponym","id":"\d{1,10}","address":|"', '', finded_address[0]) if len(finded_address) else ''
                # Ищем номер дома в ответе на запрос
                finded_house = clean_number_house(finded_address) #[house.lower() for house in finded_house]
                # Извлекаем координаты, если нашли координаты и номер дома в тексте равен номеру дома в ответе на запрос
                if len(coordinates_list) == 1 and fact_house == finded_house: 
                    coordinates_list = re.findall('\[\d{1,3}.\d{1,10},\d{1,3}.\d{1,10}\]', coordinates_list[0]) 
                    coordinates = re.sub(r'\[|\]', '', coordinates_list[0]).split(',')
                    result = [float(lnlat) for lnlat in coordinates]
                    result_table = pd.DataFrame(result).T
                    result_table['address'] = address
                    result_table.rename(columns = {0 : 'longitude', 1 : 'latitude'}, inplace = True)
                    break
                else: 
                    result = [None, None]
                    result_table = pd.DataFrame(result).T
                    result_table['address'] = address
                    result_table.rename(columns = {0 : 'longitude', 1 : 'latitude'}, inplace = True)
                    break                
        except (ConnectTimeout, ConnectionError, ReadTimeout) as e: 
            continue            
    return result_table

def house(url): 
    """
    Функция для данных  с сайта "Реформа ЖКХ".
    Вход: url набора. 
    Выход: таблицы с характеристиками домов и описанием полей.
    """
    # Получаем таблицы настранице
    table = pd.read_html(url)
    # Ищем строку с датой изменений
    for i in table: 
        current_date = i
        find_string = current_date[(current_date[0] == 'Дата последнего внесения изменений') | (current_date[1] == 'Реестр домов по Приморскому краю')]
        if find_string.shape[0] == 2: 
            break
        else: 
            continue
    update_date = current_date[current_date[0] == 'Дата последнего внесения изменений'][1].values[0]
    update_date = datetime.datetime.strptime(update_date, "%d.%m.%Y")

    # Ищем строку с описанием полей
    for i in table: 
        description_fields_df = i
        find_string = description_fields_df[description_fields_df[1] == 'ID дома на Портале']
        if find_string.shape[0] == 1: 
            break
        else: 
            continue
    description_fields_df.columns = ['column', 'description']

    # Получаем данные домов
    fields = ['houseguid', 'address', 'built_year', 'floor_count_max', 'floor_count_min', 'entrance_count', 'elevators_count', 'living_quarters_count', 'area_residential', 
          'chute_count', 'parking_square', 'wall_material']
    raw_df = pd.read_csv('https://www.reformagkh.ru/opendata/export/87', compression='zip', error_bad_lines = False, sep = ';')
    raw_df = raw_df[raw_df.formalname_city == 'Владивосток']
    raw_df = raw_df[fields]
    raw_df['load_date'] = update_date
    raw_df.replace(to_replace = 'Не заполнено', value = np.nan, inplace = True)
    raw_df['count_info'] = raw_df.count(axis = 1)
    # Получаем таблицу с домами-дубликатами
    group_house = raw_df.groupby('houseguid')['address'].count().sort_values(ascending = False).reset_index()
    group_house = group_house[group_house.address > 1]['houseguid'].values.tolist()
    # Получаем дома без домов-дубликатов
    house_df = raw_df[~raw_df.houseguid.isin(group_house)]
    # Получаем уникальные значения для домов-дубликатов
    house_unique = pd.DataFrame()
    for guid in group_house: 
        current_df = raw_df[raw_df.houseguid == guid]
        current_max = current_df.count_info.max()
        current_df  =  current_df[current_df.count_info == current_max]
        if current_df.shape[0] > 1: 
            current_df = current_df.head(1)
        house_unique = pd.concat([house_unique, current_df])
    # Соединяем все вместе 
    house_df = pd.concat([house_df, house_unique])
    house_df.reset_index(drop = True, inplace = True)
    return [house_df.iloc[:, :13], description_fields_df]

In [5]:
# Сайт "Реформа ЖКХ"
url = 'https://www.reformagkh.ru/opendata?gid=2213474'

# Получаем данные
address_df, description_fields_df = house(url)

In [11]:
description_fields_df

Unnamed: 0,column,description
0,id,ID дома на Портале
1,region_id,Субъект РФ (код ФИАС)
2,area_id,Район (код ФИАС)
3,city_id,Населенный пункт (код ФИАС)
4,street_id,Улица (код ФИАС)
5,shortname_region,Тип Субъекта РФ
6,formalname_region,Субъект РФ (наименование)
7,shortname_area,Тип района
8,formalname_area,Район (наименование)
9,shortname_city,Тип населенного пункта


In [6]:
# Записываем данные в pg
address_df.to_sql(
            name = 'house',
            schema ='staging_tables',
            con = engine,
            if_exists = 'replace',
            index = False
        )

In [7]:
unique_address = pd.DataFrame({'address' : address_df.address.unique()})
unique_address.head()

Unnamed: 0,address
0,"край. Приморский, г. Владивосток, Проспект. 10..."
1,"край. Приморский, г. Владивосток, Проспект. 10..."
2,"край. Приморский, г. Владивосток, Проспект. 10..."
3,"край. Приморский, г. Владивосток, Проспект. 10..."
4,"край. Приморский, г. Владивосток, Проспект. 10..."


In [8]:
# Генерируем табдлицу для обхода 
first_number = 0
multiple_number = 100
last_number = unique_address.shape[0] 

start_numbers = []
[start_numbers.append(i) for i in range(first_number, last_number, multiple_number)]
last_numbers = []
[last_numbers.append(i) for i in range(multiple_number, last_number + multiple_number, multiple_number)]
bypass_df = pd.DataFrame({'start_numbers' : start_numbers, 'last_numbers' : last_numbers})
# Подменим последнее значение
bypass_df.loc[bypass_df.shape[0]- 1, 'last_numbers'] = address_df.shape[0]+ 1 
bypass_df.tail()

Unnamed: 0,start_numbers,last_numbers
30,3000,3100
31,3100,3200
32,3200,3300
33,3300,3400
34,3400,3411


In [None]:
%%time
with ThreadPool(100) as p:
    for i in tqdm_notebook(range(bypass_df.shape[0])):      
        docs = p.map(geocoder, unique_address.address[bypass_df.start_numbers[i]:bypass_df.last_numbers[i]]) 
        current_table = pd.DataFrame()
        for i in docs:
            current_table = pd.concat([current_table, i])
        current_table.to_sql(
            name = 'geocoder_house',
            schema ='staging_tables',
            con = engine,
            if_exists = 'append',
            index = False
        )
        del current_table, docs

HBox(children=(IntProgress(value=0, max=35), HTML(value='')))

In [23]:
# Получаем данные с dwh для оценки 
query = """
select 
        *
from 
        staging_tables.geocoder_house  
where 
        latitude is not null
        or longitude is not null
"""
# Получаем lданные по квартирам
house_coordinates_df = pd.read_sql(
    con = engine,
    sql = query
)
house_coordinates_df.head()

Unnamed: 0,address,latitude,longitude
0,"край. приморский, г. владивосток, проспект. 10...",43.143078,131.910027
1,"край. приморский, г. владивосток, проспект. 10...",43.14417,131.907457
2,"край. приморский, г. владивосток, проспект. 10...",43.144696,131.908437
3,"край. приморский, г. владивосток, проспект. 10...",43.144696,131.907709
4,"край. приморский, г. владивосток, проспект. 10...",43.144749,131.906829


In [25]:
# Нарисуем карту
latlon = house_coordinates_df[:300]
center = [house_coordinates_df['latitude'].mean(), house_coordinates_df['longitude'].mean()]
zoom = 11

# Нарисуем и отобразим карту
m = folium.Map(
    width = '100%', 
    height = '100%',
    location = center,
    zoom_start = zoom,
    tiles = 'OpenStreetMap'
)

# Передадим координаты в кластера 
marker_cluster = MarkerCluster().add_to(m)

for i in range(len(latlon)): 
    folium.Marker(
        location = [latlon.latitude[i], latlon.longitude[i]],
        popup = '<b> Адрес: </b>' + '{address}'.format(address = latlon.address[i]),
        icon = folium.Icon(color = 'red', icon = 'ok-sign')
).add_to(marker_cluster)

m