**Author:** Волокжанин Вадим Юрьевич<br>
**Create date:** 18.09.2019<br> 
**Description:** Геокодирование данных

# Импортруем необходимые модули и данные

In [1]:
# Для мониторинга выполнения циклов
from tqdm import tqdm_notebook, tqdm

# Обработка HTML 
from bs4 import BeautifulSoup
# Для генерации поддельного User agent
from fake_useragent import UserAgent
# Для работы с HTTP-запросами 
import requests
from requests import ConnectTimeout, ConnectionError, ReadTimeout 
from requests.exceptions import ProxyError
import urllib

# Для работы с браузером
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait as wait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException, NoSuchElementException

# Для работы с табличными данными
import pandas as pd

# Для работы с регулярными выражениями 
import re

# Для работы с массивами и вычислениями
import numpy as np 

# Для работы с SQL
import sqlalchemy
from sqlalchemy import create_engine

# Для работы с операционной системой
import os

# Для работы с циклами
from itertools import cycle

# Для работы с математическими вычислениями
import math

# Для параллельной работы кода
from multiprocessing.dummy import Pool as ThreadPool 

# Для произведения синтаксического анализа (лемматизации)
import pymorphy2 as pm
# Загрузим словарь русского языка
morph = pm.MorphAnalyzer()

# Для работы со временем
import datetime

# Создадим функции и наборы данных

In [2]:
# Создадим подключние к dwh
engine = create_engine('postgres://volokzhanin:{password}@localhost:5432/volokzhanin'.format(password = os.getenv('PASSWORD1', False)))

In [3]:
# Получаем данные с Farpost
farpost_df = pd.read_sql(
    con = engine,
    sql = """
    SELECT 
            id, 
            title, 
            "text", 
            clean_text, 
            lem_text, 
            image, 
            address, 
            status_house, 
            is_builder, 
            price, 
            area, 
            is_mortage, 
            floor, 
            url, 
            is_balcony, 
            "source", 
            load_date
    FROM 
            staging_tables.farpost;
    """
)
farpost_df.head()

Unnamed: 0,id,title,text,clean_text,lem_text,image,address,status_house,is_builder,price,area,is_mortage,floor,url,is_balcony,source,load_date
0,74755606,5 Комнатная квартира в Центре города,Представляем к продаже просторную 5 комнатную ...,5 комнатная квартира в центре города представл...,5 комнатный квартира в центр город представлят...,[https://static.baza.farpost.ru/v/156386572755...,"Россия, Приморский край, Владивосток, улица Ал...",True,False,24000000.0,158.0,True,,https://www.farpost.ru/vladivostok/realty/sell...,True,farpost,2019-09-14 21:32:13
1,67243935,Аквамарин - 2комн. квартира с видом на море,одходит под ипотеку Первый небоскрёб Сибири и ...,аквамарин 2комн квартира с видом на море одход...,аквамарин 2комна квартира с вид на мор одходит...,[https://static.baza.farpost.ru/v/153958033652...,"Россия, Приморский край, Владивосток, улица Ар...",False,False,18366426.0,87.0,True,,https://www.farpost.ru/vladivostok/realty/sell...,False,farpost,2019-09-14 21:32:19
2,76093523,Отличная 1-ком на Первой речке,Продам уютную однокомнатную квартиру общей пло...,отличная 1 ком на первой речке продам уютную о...,отличный 1 ком на один речка продать уютный од...,[https://static.baza.farpost.ru/v/156845623641...,"Россия, Приморский край, Владивосток, улица Мы...",True,False,4200000.0,33.0,True,4-й в 9-этажном здании,https://www.farpost.ru/vladivostok/realty/sell...,False,farpost,2019-09-14 21:32:04
3,72706708,Срочно продам 3-х комнатную квартиру,Фактическая общая площадь квартиры 125 кв.м. С...,срочно продам 3 х комнатную квартиру фактическ...,срочно продать 3 х комнатный квартира фактичес...,[https://static.baza.farpost.ru/v/155722290455...,"Россия, Приморский край, Владивосток, улица Ки...",True,False,12600000.0,104.0,True,,https://www.farpost.ru/vladivostok/realty/sell...,True,farpost,2019-09-14 21:32:09
4,74857447,Продается 2-комнатная квартира,"Продается теплая, солнечная 2-х комнатная квар...",продается 2 комнатная квартира продается тепла...,продаваться 2 комнатный квартира продаваться т...,[https://static.baza.farpost.ru/v/156420479316...,"Россия, Приморский край, Владивосток, улица Ту...",True,False,6250000.0,52.0,True,,https://www.farpost.ru/vladivostok/realty/sell...,False,farpost,2019-09-14 21:32:10


In [4]:
# Создаем таблицу адресов
address_df = farpost_df.groupby('address')['id'].count().reset_index().copy()
address_df.head()

Unnamed: 0,address,id
0,"Россия, Приморский край, Владивосток, переулок...",1
1,"Россия, Приморский край, Владивосток, переулок...",2
2,"Россия, Приморский край, Владивосток, переулок...",7
3,"Россия, Приморский край, Владивосток, переулок...",2
4,"Россия, Приморский край, Владивосток, переулок...",1


In [9]:
# Генерируем табдлицу для обхода 
first_number = 0
multiple_number = 20
last_number = address_df.shape[0] 

start_numbers = []
[start_numbers.append(i) for i in range(first_number, last_number, multiple_number)]
last_numbers = []
[last_numbers.append(i) for i in range(multiple_number, last_number + multiple_number, multiple_number)]
bypass_df = pd.DataFrame({'start_numbers' : start_numbers, 'last_numbers' : last_numbers})
# Подменим последнее значение
bypass_df.loc[bypass_df.shape[0]- 1, 'last_numbers'] = address_df.shape[0]+ 1 
bypass_df.tail()

Unnamed: 0,start_numbers,last_numbers
80,1600,1620
81,1620,1640
82,1640,1660
83,1660,1680
84,1680,1700


In [6]:
# Получаем и записываем таблицу с proxy
# os.chdir('/mnt/sdb1/Documents/Projects/1/sripts')
# import proxy_loader

# proxy_loader = proxy_loader.proxy_loader() 
# proxy_df = proxy_loader.write_check_proxy()
# proxy_df.head()

In [7]:
# Получаем прокси сервера
proxy_df = pd.read_sql(
    con = engine,
    sql = """
    select 
            name 
    from 
            staging_tables.proxy_servers
    where 
            is_work = True
    """
)

# Создадим зацикливавние по прокси серверам
proxy_cycle = cycle(proxy_df.name)
proxy_df.head()

Unnamed: 0,name
0,95.141.36.112:8686
1,139.99.222.240:8080
2,202.150.139.46:47025
3,45.79.50.63:8118
4,180.180.156.60:58169


In [8]:
def city_coordinates(address) -> list():
    """
    Функция для получения широты и долготы адреса с yandex карт.
    Вход: текст адреса. 
    Выход: список широты и долготы.
    """
    while True:       
        try: 
            url = 'https://yandex.ru/maps/75/vladivostok/?text={text}'.format(text = urllib.parse.quote(address))
            chrome_options = webdriver.ChromeOptions()
            # Вставляем прокси
            chrome_options.add_argument('--proxy-server={proxy}'.format(proxy = next(proxy_cycle)))
            # Вставляем user agent
            chrome_options.add_argument("user-agent={user_agent}".format(user_agent = UserAgent().random))
            #  Запускаем без графического драйвера
            chrome_options.add_argument('--headless')
            driver = webdriver.Chrome(options = chrome_options)
            # Установим time out
            driver.implicitly_wait(10)
            driver.get(url)
            wait(driver, 10).until(EC.element_to_be_clickable((By.CSS_SELECTOR, '._inline')))
            driver.find_element(By.CSS_SELECTOR, '._inline')  
            page_source = driver.page_source
            bsObj = BeautifulSoup(page_source, 'html5lib')
            driver.close()
            coordinats_list = bsObj.find_all('div', {'class' : 'clipboard__action-wrapper _inline'})
            # Ищем координтаы
            if len(coordinats_list) > 0:
                latitude, longitude = re.findall(r'\d{1,3}.\d{1,10}', coordinats_list[0].text)
            else: 
                latitude, longitude = None, None  
            return [latitude, longitude]
            driver.close()
            break 
        except (TimeoutException, NoSuchElementException) as e: 
            driver.close()
            continue 
            

def coordinates(address, city_latitude = 43.115536, city_longitude = 131.885485) -> pd.DataFrame():
    """
    Функция для получения широты и долготы адреса с yandex карт.
    Вход: текст адреса, широта города, долгота города. 
    Выход: таблица: адрес, широта и долгота.
    """
    while True:       
        try: 
            url = 'https://yandex.ru/maps/75/vladivostok/?text={text}'.format(text = urllib.parse.quote(address))
            chrome_options = webdriver.ChromeOptions()
            # Вставляем прокси
            chrome_options.add_argument('--proxy-server={proxy}'.format(proxy = next(proxy_cycle)))
            # Вставляем user agent
            chrome_options.add_argument("user-agent={user_agent}".format(user_agent = UserAgent().random))
            #  Запускаем без графического драйвера
            chrome_options.add_argument('--headless')
            driver = webdriver.Chrome(options = chrome_options)
            # Установим time out
            driver.implicitly_wait(20)
            driver.get(url)
            wait(driver, 10).until(EC.element_to_be_clickable((By.CSS_SELECTOR, '._inline')))
            driver.find_element(By.CSS_SELECTOR, '._inline')  
            page_source = driver.page_source
            bsObj = BeautifulSoup(page_source, 'html5lib')
            driver.close()
            coordinats_list = bsObj.find_all('div', {'class' : 'clipboard__action-wrapper _inline'})
            # Ищем координтаы
            if len(coordinats_list) > 0:
                latitude, longitude = re.findall(r'\d{1,3}.\d{1,10}', coordinats_list[0].text)
            else: 
                latitude, longitude = None, None
            if latitude == city_latitude and longitude == city_longitude: 
                latitude, longitude = None, None
            else: 
                latitude = latitude
                longitude = longitude
            return pd.DataFrame({'address' : address, 'latitude' : [latitude], 'longitude' : [longitude]}) 
            driver.close()
            break 
        except (TimeoutException, NoSuchElementException) as e:             
            continue 
            driver.close()

# Получаем координаты

In [11]:
%%time
# Получаем координаты города Владивосток
city_latitude, city_longitude = city_coordinates('Приморский край, Владивосток')
print(city_latitude , city_longitude)

43.115536 131.885485
CPU times: user 156 ms, sys: 11.3 ms, total: 167 ms
Wall time: 37.8 s


In [None]:
%%time
with ThreadPool(50) as p:
    for i in tqdm_notebook(range(bypass_df.shape[0])):
        docs = p.map(coordinates, address_df.address[bypass_df.start_numbers[i]:bypass_df.last_numbers[i]])
        address_result_df = pd.DataFrame()
        current_table = pd.DataFrame()
        for i in docs:
            current_table = pd.concat([current_table, i])
        address_result_df = pd.concat([address_result_df, current_table], sort = False)
        address_result_df.to_sql(
            name = 'geocoder',
            schema ='staging_tables',
            con = engine,
            if_exists = 'append',
            index = False,
            dtype = {                
                'address': sqlalchemy.Text()
                , 'latitude': sqlalchemy.Float()
                , 'longitude': sqlalchemy.Float()
            }
        )
address_result_df

HBox(children=(IntProgress(value=0, max=85), HTML(value='')))