**Author:** Волокжанин Вадим Юрьевич<br>
**Create date:** 18.09.2019<br> 
**Description:** Геокодирование данных

# Импортруем необходимые модули и данные

In [1]:
# Для мониторинга выполнения циклов
from tqdm import tqdm_notebook, tqdm

# Обработка HTML 
from bs4 import BeautifulSoup
# Для генерации поддельного User agent
from fake_useragent import UserAgent
ua = UserAgent()
ua.update()
# Для работы с HTTP-запросами 
import urllib
# Для работы с браузером
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait as wait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException, NoSuchElementException, WebDriverException

# Для работы с табличными данными
import pandas as pd

# Для работы с регулярными выражениями 
import re

# Для работы с массивами и вычислениями
import numpy as np 

# Для работы с SQL
import sqlalchemy
from sqlalchemy import create_engine
# Для работы с Postgre
import psycopg2

# Для работы с операционной системой
import os

# Для работы с циклами
from itertools import cycle

# Для параллельной работы кода
from multiprocessing.dummy import Pool as ThreadPool

# Создадим функции и наборы данных

In [2]:
# Создадим подключние к dwh
engine = create_engine('postgres://volokzhanin:{password}@localhost:5432/volokzhanin'.format(password = os.getenv('PASSWORD1', False)))

In [3]:
# Получаем данные с Farpost
farpost_df = pd.read_sql(
    con = engine,
    sql = """
    SELECT 
            id, 
            title, 
            "text", 
            clean_text, 
            lem_text, 
            image, 
            address, 
            status_house, 
            is_builder, 
            price, 
            area, 
            is_mortage, 
            floor, 
            url, 
            is_balcony, 
            "source", 
            load_date
    FROM 
            staging_tables.farpost;
    """
)
farpost_df.head()

Unnamed: 0,id,title,text,clean_text,lem_text,image,address,status_house,is_builder,price,area,is_mortage,floor,url,is_balcony,source,load_date
0,76167469,Продается гостинка по адресу: ул. Луговая 70,"Компания "" и-Владивосток"" предлагает к продаже...",продается гостинка по адресу ул луговая 70 ком...,продаваться гостинка по адрес ул луговой 70 ко...,[https://static.baza.farpost.ru/v/156870415823...,"Россия, Приморский край, Владивосток, улица Лу...",True,False,2580000.0,23.0,True,8-й в 9-этажном здании,https://www.farpost.ru/vladivostok/realty/sell...,False,farpost,2019-09-21 14:45:45
1,74998209,"Продам квартиру - студию по ул. Корнилова,9",КВАРТИРА - ЗАЕЗЖАЙ И ЖИВИ !!!!!!! В НЕЙ ОДИН Н...,продам квартиру студию по ул корнилова 9 кварт...,продать квартира студия по ул корнилов 9 кварт...,[https://static.baza.farpost.ru/v/156470891213...,"Россия, Приморский край, Владивосток, улица Ко...",True,False,3200000.0,23.0,True,,https://www.farpost.ru/vladivostok/realty/sell...,False,farpost,2019-09-21 14:45:37
2,67520870,Открыта продажа 2- комнатной квартиры в строящ...,одходит под ипотеку Предлагается к продаже 2-к...,открыта продажа 2 комнатной квартиры в строяще...,открытый продажа 2 комнатный квартира в строит...,[https://static.baza.farpost.ru/v/155788927446...,"Россия, Приморский край, Владивосток, улица Тр...",False,True,7385700.0,70.0,True,,https://www.farpost.ru/vladivostok/realty/sell...,False,farpost,2019-09-21 14:45:40
3,73279445,Продается 3-х комнатная квартира на ул. 100-ле...,"Агентство недвижимости "" Альтаир-1"" предлагает...",продается 3 х комнатная квартира на ул 100 лет...,продаваться 3 х комнатный квартира на ул 100 г...,[https://static.baza.farpost.ru/v/155903750449...,"Россия, Приморский край, Владивосток, проспект...",True,False,4570000.0,43.0,True,,https://www.farpost.ru/vladivostok/realty/sell...,True,farpost,2019-09-21 14:45:33
4,76153182,2-комнатная на Нейбута,Агентство недвижимости «Приморский риэлтор» пр...,2 комнатная на нейбута агентство недвижимости ...,2 комнатный на нейбут агентство недвижимость п...,[https://static.baza.farpost.ru/v/156867563868...,"Россия, Приморский край, Владивосток, улица Не...",True,False,5000000.0,51.0,True,2-й в 12-этажном здании,https://www.farpost.ru/vladivostok/realty/sell...,True,farpost,2019-09-21 14:45:41


In [4]:
# Создаем таблицу адресов
address_df = farpost_df.loc[~farpost_df.address.duplicated(), :]
address_df = address_df.address
address_df.reset_index(drop = True, inplace = True)
address_df.head()

0    Россия, Приморский край, Владивосток, улица Лу...
1    Россия, Приморский край, Владивосток, улица Ко...
2    Россия, Приморский край, Владивосток, улица Тр...
3    Россия, Приморский край, Владивосток, проспект...
4    Россия, Приморский край, Владивосток, улица Не...
Name: address, dtype: object

In [5]:
# Генерируем табдлицу для обхода 
first_number = 0
multiple_number = 100
last_number = address_df.shape[0] 

start_numbers = []
[start_numbers.append(i) for i in range(first_number, last_number, multiple_number)]
last_numbers = []
[last_numbers.append(i) for i in range(multiple_number, last_number + multiple_number, multiple_number)]
bypass_df = pd.DataFrame({'start_numbers' : start_numbers, 'last_numbers' : last_numbers})
# Подменим последнее значение
bypass_df.loc[bypass_df.shape[0]- 1, 'last_numbers'] = address_df.shape[0]+ 1 
bypass_df.tail()

Unnamed: 0,start_numbers,last_numbers
13,1300,1400
14,1400,1500
15,1500,1600
16,1600,1700
17,1700,1726


In [6]:
# Получаем и записываем таблицу с proxy
# os.chdir('/mnt/sdb1/Documents/Projects/1/sripts')
# import proxy_loader

# proxy_loader = proxy_loader.proxy_loader() 
# proxy_df = proxy_loader.write_check_proxy()
# proxy_df.head()

In [7]:
# Получаем прокси сервера
proxy_df = pd.read_sql(
    con = engine,
    sql = """
    select 
            name 
    from 
            staging_tables.proxy_servers
    where 
            is_work = True
    """
)

# Создадим зацикливавние по прокси серверам
proxy_cycle = cycle(proxy_df.name)
proxy_df.head()

Unnamed: 0,name
0,51.79.143.103:8080
1,51.158.113.142:8811
2,1.20.101.90:37006
3,222.124.94.143:8080
4,157.55.201.215:80


In [13]:
def city_coordinates(address) -> list():
    """
    Функция для получения широты и долготы адреса с yandex карт.
    Вход: текст адреса. 
    Выход: список широты и долготы.
    """
    while True:       
        try: 
            url = 'https://yandex.ru/maps/75/vladivostok/?text={text}'.format(text = urllib.parse.quote(address))
            chrome_options = webdriver.ChromeOptions()
            # Вставляем прокси
            chrome_options.add_argument('--proxy-server={proxy}'.format(proxy = next(proxy_cycle)))
            # Вставляем user agent
            chrome_options.add_argument("user-agent={user_agent}".format(user_agent = ua.Chrome))
            #  Запускаем без графического драйвера
            chrome_options.add_argument('--headless')
            driver = webdriver.Chrome(options = chrome_options)
            # Установим time out
            driver.implicitly_wait(10)
            driver.get(url)
            wait(driver, 10).until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.button_rect-active-xlarge')))
            driver.find_element(By.CSS_SELECTOR, '._inline')  
            page_source = driver.page_source
            bsObj = BeautifulSoup(page_source, 'html5lib')
            coordinats_list = bsObj.find_all('div', {'class' : 'clipboard__action-wrapper _inline'})
            # Ищем координтаы
            if len(coordinats_list) > 0:
                latitude, longitude = re.findall(r'\d{1,3}.\d{1,10}', coordinats_list[0].text)
            else: 
                latitude, longitude = None, None  
            return [latitude, longitude]
            driver.close()
            break 
        except (TimeoutException, WebDriverException) as error: 
            driver.close()
            continue 
        except (NoSuchElementException) as case: 
            driver.close()
            latitude, longitude = None, None    
            return pd.DataFrame({'address' : address, 'latitude' : [latitude], 'longitude' : [longitude]}) 
            

def coordinates(address, city_latitude = 43.115536, city_longitude = 131.885485) -> pd.DataFrame():
    """
    Функция для получения широты и долготы адреса с yandex карт.
    Вход: текст адреса, широта города, долгота города. 
    Выход: таблица: адрес, широта и долгота.
    """
    while True:       
        try: 
            url = 'https://yandex.ru/maps/75/vladivostok/?text={text}'.format(text = urllib.parse.quote(address))
            chrome_options = webdriver.ChromeOptions()
            # Вставляем прокси
            chrome_options.add_argument('--proxy-server={proxy}'.format(proxy = next(proxy_cycle)))
            # Вставляем user agent
            chrome_options.add_argument("user-agent={user_agent}".format(user_agent = ua.Chrome))
            #  Запускаем без графического драйвера
            chrome_options.add_argument('--headless')
            driver = webdriver.Chrome(options = chrome_options)
            # Установим time out
            driver.implicitly_wait(10)
            driver.get(url)
            wait(driver, 10).until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.button_rect-active-xlarge')))
            driver.find_element(By.CSS_SELECTOR, '._inline')  
            page_source = driver.page_source
            bsObj = BeautifulSoup(page_source, 'html5lib')
            coordinats_list = bsObj.find_all('div', {'class' : 'clipboard__action-wrapper _inline'})
            # Ищем координтаы
            if len(coordinats_list) > 0:
                latitude, longitude = re.findall(r'\d{1,3}.\d{1,10}', coordinats_list[0].text)
            else: 
                latitude, longitude = None, None
            if latitude == city_latitude and longitude == city_longitude: 
                latitude, longitude = None, None
            else: 
                latitude = latitude
                longitude = longitude
            return pd.DataFrame({'address' : address, 'latitude' : [latitude], 'longitude' : [longitude]}) 
            driver.close()
            break 
        except (TimeoutException, WebDriverException) as error: 
            driver.close()
            continue 
        except (NoSuchElementException) as case: 
            driver.close()
            latitude, longitude = None, None    
            return pd.DataFrame({'address' : address, 'latitude' : [latitude], 'longitude' : [longitude]}) 

# Получаем координаты

In [11]:
%%time
# Получаем координаты города Владивосток
city_latitude, city_longitude = city_coordinates('Приморский край, Владивосток')
print(city_latitude , city_longitude)

43.115536 131.885485
CPU times: user 163 ms, sys: 16.3 ms, total: 179 ms
Wall time: 7.73 s


In [None]:
%%time
with ThreadPool(30) as p:
    for i in tqdm_notebook(range(bypass_df.shape[0])):
        docs = p.map(coordinates, address_df[bypass_df.start_numbers[i]:bypass_df.last_numbers[i]])
        address_result_df = pd.DataFrame()
        current_table = pd.DataFrame()
        for i in docs:
            current_table = pd.concat([current_table, i])
        address_result_df = pd.concat([address_result_df, current_table], sort = False)
        address_result_df['geom'] = None
        address_result_df.to_sql(
            name = 'geocoder',
            schema ='staging_tables',
            con = engine,
            if_exists = 'append',
            index = False
        )

HBox(children=(IntProgress(value=0, max=18), HTML(value='')))

In [64]:
# Создаем колонку с типом данные geometry
dbname = 'volokzhanin'
host = 'localhost'

query = """
    UPDATE staging_tables.geocoder
    SET geom = ST_SetSrid(ST_MakePoint(longitude, latitude),4326)
    WHERE
       geom is null;
   """
conn = psycopg2.connect("host='{host}' dbname='{db}' user='{user}' password='{password}'".format(
    host = host,
    db = dbname,
    user = os.getenv('USERNAME', False),
    password = os.getenv('PG_PASSWORD', False)))

cur = conn.cursor()
with conn.cursor() as cursor:
    cursor.execute(query)
    conn.commit()

OperationalError: FATAL:  password authentication failed for user "volokzhanin"
FATAL:  password authentication failed for user "volokzhanin"


In [None]:
# chrome driver + chrome нужно обновлять
# написать класс
# отправить в git
# пылесос
# Продажа ванны детской
# выгрузить ddl, в том числе для farpost