**Author:** Волокжанин Вадим Юрьевич<br>
**Create date:** 26.08.2019<br> 
**Description:** Загрузка данных по квартирам с FarPost

In [None]:
acac

# Импортруем необходимые модули

In [1]:
# Для мониторинга выполнения циклов
from tqdm import tqdm_notebook, tqdm

# Обработка HTML 
from bs4 import BeautifulSoup
# Для генерации поддельного User agent
from fake_useragent import UserAgent
# Для работы с HTTP-запросами 
import requests
from requests import ConnectTimeout, ConnectionError, ReadTimeout 
from requests.exceptions import ProxyError
import urllib

# Для работы с табличными данными
import pandas as pd

# Для работы с регулярными выражениями 
import re

# Для работы с массивами и вычислениями
import numpy as np 

# Для работы с SQL
import sqlalchemy
from sqlalchemy import create_engine

# Для работы с операционной системой
import os

# Для работы с циклами
from itertools import cycle

# Для работы с математическими вычислениями
import math

# Для параллельной работы кода
from multiprocessing.dummy import Pool as ThreadPool 

# Для произведения синтаксического анализа (лемматизации)
import pymorphy2 as pm
# Загрузим словарь русского языка
morph = pm.MorphAnalyzer()

# Для работы со временем
import datetime

In [2]:
# Создадим подключние к dwh
engine = create_engine('postgres://volokzhanin:{password}@localhost:5432/volokzhanin'.format(password = os.getenv('PASSWORD1', False)))

# Создадим функции и наборы данных

In [4]:
def clean_text(text):
        """
        Функция для очистки текста
        Параметры: text - текст
        Фозвращаемое значение:
        clean_text - очищенный текст
        """
        # Переводим в нижний регистр
        lower_text = text.lower()
        # Заменяем все кроме буквы или цифры
        clean_text = re.sub(r'\W', ' ', lower_text)
        # Удаляем все пробелы, кроме между словами
        clean_text = ' '.join(clean_text.split())
        return clean_text

def lem_text(text):
    """
    Функция для лемматизации текста
    Параметры:
    text - очищенный текст
    Фозвращаемое значение:
    finish_text - лемматизированный тест
    """
    # Лемматизируем каждое слово
    word_lem = [morph.parse(item)[0].normal_form for item in text.split()]
    # Склеиваем слово через пробел
    finish_text = ' '.join(word_lem)
    return(finish_text)

def my_session(url, headers, proxies, session, timeout = 50):
    """
    Функция для возвращения ссессии пользователя с заходом на url. 
    Параметры: url - строка url, headers - заголовки, proxies - прокси сервер, session - сессия пользователя. 
    Выход - сессия пользователя с заходом на указанную страницу. 
    """
    return session.get(
        url, 
        headers = headers, 
        proxies = proxies, 
        timeout = timeout
        )

def number_pages(url, headers, proxies, session):  
    """
    Функция для возварщения количества страниц. 
    Параметры: url - url, headers - заголовки, proxies - прокси сервер, session - сессия пользователя. 
    Выход - список с количеством страниц и предложений.
    """    
    url_offers = my_session(url, headers, proxies, session)
    bsObj_offers = BeautifulSoup(url_offers.text, 'html5lib')
    count_offers = bsObj_offers.find("span", { "class" : "item itemsCount" }).text
    pages = math.ceil(int(re.sub('\D', '', count_offers))/50)
    return [int(re.sub('\D', '', count_offers)), pages]

def pages_all(url = 'https://www.farpost.ru/vladivostok/realty/sell_flats'):
    """
    Функция для возварщения количества страниц. 
    Параметры: нет. 
    Выход - список с количеством страниц и предложений.
    """ 
    
    # Получаем общее количество предложений и страниц
    while True: 
        try:  
            headers = {'User-Agent' : UserAgent().chrome}
            proxies = {'https' : 'https://' + next(proxy_cycle)}
            session = requests.Session()
            adapter = requests.adapters.HTTPAdapter(max_retries = 1)
            session.mount('https://', adapter)
            offers, pages = number_pages(
                url, 
                headers = headers, 
                proxies = proxies, 
                session = session
            )
            break
        except ConnectTimeout: 
            continue
    return[offers, pages]

def link_ad(url, page, proxies, headers, session): 
    """
    Функция для получения ссылок на предложения Farpost
    Параметры: url - путь с запросом, page - страница, headers - заголовки, proxies - прокси сервер, session - сессия пользователя.  
    Выход: result_df - таблица с предложениями на выбранной странице
    """
    # Перейдем на страницу  и укажем прокси-сервера
    url_links = my_session(
        url, 
        proxies = proxies, 
        headers = headers,
        session = session   
    )

    # Приведем текст к понятному виду BeautifulSoup
    bsObj_offers = BeautifulSoup(url_links.text, 'html5lib')

    # Определим маску поиска ссылки
    regex = re.compile('/vladivostok/realty/sell_flats/.+\d{5,10}.html')
    links = bsObj_offers.find_all("a")

    # Создадим объект для сбора результата 
    links_list = []

    # Обойдем циклом все ссылки и оставим только необходимые
    for j in links:        
        current_link = j.get('href')  
        if current_link is None:
            continue
        elif regex.match(current_link) is None: 
            continue      
        else: 
            link = regex.match(current_link)            
            links_list.append(link.string)   
            
    # Оставим только уникальные ссылки
    result_df = pd.DataFrame({'raw_url' : links_list})
    result_df.drop_duplicates(
        keep = 'first',
        inplace = True
    )
    
    # Обработаем данные 
    result_df['url'] = result_df.apply(lambda x: 'https://www.farpost.ru' + x['raw_url'], axis = 1)
    result_df['page'] = url
    return result_df

def link_ad_all(pages, url = 'https://www.farpost.ru/vladivostok/realty/sell_flats'): 
    """
    Функция для получения таблицы обхода farpost. 
    Вход: количество страниц. 
    Выход: таблица для обхода.
    """
    while True: 
        try:  
            headers = {'User-Agent' : UserAgent().chrome}
            proxies = {'https' : 'https://' + next(proxy_cycle)}
            session = requests.Session()
            adapter = requests.adapters.HTTPAdapter(max_retries = 5)
            session.mount('https://', adapter)
            # Создаем объект для сбора результата 
            link_ad_df = pd.DataFrame()

            # Пройдемся циклом по всем страницам запроса и соберем все ссылки
            for page in range(1, pages + 1):
                current_url = url + '/?page={page}'.format(
                    page = page
                )
                current_table = link_ad(
                    url = current_url, 
                    proxies  = proxies, 
                    headers = headers, 
                    session = session,
                    page = page
                )    
                link_ad_df = pd.concat([link_ad_df, current_table])
            break
        except ConnectTimeout: 
            continue

    link_ad_df.reset_index(drop = True, inplace = True)
    return link_ad_df

def clean_ad(text): 
    """
    Функция для очистки текста объявления. 
    Вход: сырой текст. 
    Выход: очищенный тескст. 
    """
    tamplate = re.compile('\n|\t| во Владивостоке|Подробности о доме|Адрес|Этаж')
    clean_text = ' '.join(tamplate.sub(' ', text).split()).strip()
    return clean_text

def address_ad(text_block): 
    """
    Функция для получения адреса объявления. 
    Вход: текст для извлечения адреса.
    Выход: адрес объявления.  
    """
    raw_address = re.findall('Адрес[\t\n\r]+.+', text_block)
    if len(raw_address) > 0: 
        address = 'Россия, Приморский край, Владивосток, ' + clean_ad(raw_address[0])
    else: 
        address = None
    return address

def title_ad(bsObj_object): 
    """
    Функция для получения заголовка объявления. 
    Вход: beautiful soup объект.
    Выход: заголовок объявления.  
    """
    title = bsObj_object.find_all('h1', {'class' : 'subject viewbull-field__container'})
    if len(title) > 0: 
        title = clean_ad(title[0].text)
    else: 
        title = ''
    return title

def image_ad(bsObj_object): 
    """
    Функция для получения изображений объявления. 
    Вход: beautiful soup объект.
    Выход: лист изображений объявления.  
    """
    image = bsObj_object.find_all('img')
    if len(image) > 0:
        image_list = []
        for im in image: 
            current_image = re.findall(r'v/\d{1,100}_bulletin', str(im))
            if len(current_image) > 0: 
                image_list.append('https://static.baza.farpost.ru/' + current_image[0])
    else: 
        image_list = None
    return image_list

def price_ad(bsObj_object): 
    """
    Функция для получения цены в объявлении. 
    Вход: beautiful soup объект.
    Выход: цена в объявлении.  
    """
    price = bsObj_object.find_all('span', {'class' : 'viewbull-summary-price__value'})
    if len(price) > 0: 
        price = price[0].text
        price = re.sub('≈|\s', '', price)
        price = re.findall('\d{1,}₽', price)[0]
        price = int(re.sub('₽', '', price))       
    else: 
        price = None
    return price

def status_house_ad(text_block): 
    """
    Функция для получения статуса дома. 
    Вход: текст для извлечения статуса дома.
    Выход: статуса дома.    
    """
    is_house_delivered = re.findall('Этап строительства дома[\t\n\r]+Не сдан', text_block)
    if len(is_house_delivered) > 0:
        is_house_delivered = 0
    else: 
        is_house_delivered = 1    
    return is_house_delivered

def area_ad(text_block): 
    """
    Функция для получения площади в объявлении. 
    Вход: текст для извлечения площади в объявлении.
    Выход: площадь в объявления.   
    """
    area = re.findall('Площадь по документам[\t\n\r]+.+', text_block)
    if len(area) > 0: 
        area = int(re.findall(r'\d{1,4}', area[0])[0])
    else: 
        area = None
    return area

def is_mortage_ad(text_block): 
    """
    Функция для получения статуса ипотеки в объявлении. 
    Вход: текст для извлечения статуса ипотеки в объявлении.
    Выход: статуса ипотеки в объявлении.   
    """
    is_mortage = re.findall('Подходит под ипотеку', text_block)
    if len(is_mortage) > 0: 
        is_mortage = 1
    else: 
        is_mortage = 0
    return is_mortage

def floor_ad(text_block): 
    """
    Функция для получения этажа в объявления. 
    Вход: текст для извлечения этажа в объявлении..
    Выход: этаж в объявления.  
    """
    floor = re.findall('Этаж[\t\n\r]+.+', text_block)
    if len(floor) > 0: 
        floor = clean_ad(floor[0])
    else: 
        floor = None
    return floor

def text_ad(bsObj_object): 
    """
    Функция для получения текста объявления. 
    Вход: текст для извлечения текста объявления.
    Выход: текста объявления.   
    """
    text = clean_ad(bsObj_object.text)
    tamplate_search = re.compile(r"""
    одходит\sпод\sипотеку\s.+.contacts__actions\s{\smargin-right:\s50%;\smargin-bottom:\s10px;\s}
    |Дом [не]*\s*сдан\s.+.contacts__actions\s{\smargin-right:\s50%;\smargin-bottom:\s10px;\s}
    |Состояние\sи\sособенности\sквартиры\s.+.contacts__actions\s{\smargin-right:\s50%;\smargin-bottom:\s10px;\s} 
    """, re.VERBOSE)
    text = tamplate_search.findall(text)
    tamplate_delete = re.compile(r"""
    Не\sподходит\sпод\sипотеку\s|Подходит\sпод\sипотеку\s
    |\s.contacts__actions\s{\smargin-right:\s50%;\smargin-bottom:\s10px;\s}
    |\$\(function.+|Дом\s*[не]*сдан\s
    |Состояние\sи\sособенности\sквартиры\s""", re.VERBOSE)
    if len(text) > 0: 
        text = tamplate_delete.sub('', text[0]).strip()
    else: 
        text = None
    return text

def is_balcony(text):
    """
    Функция для получения наличия балкона. 
    Вход: очищенный текст. 
    Выход: 1 - есть балкон, 0 - нет балкона.
    """
    if len(re.findall('балкон', text)) > 0:
           result = 1
    else:
           result = 0
    return result

def is_builder_ad(bsObj_object, text_block):
    """
    Функция для возвращения принадлежности объявления к застройщику.
    Вход: bsObj_object - beautiful soup объект, text_block - текстовый блок.
    Выход: 0 - не принадлежит застройщику, 1 - принадлежит застройщику.
    """
    result = 0
    is_builder_raw = bsObj_object.find_all('span', {'data-field' : 'isAgency'})    
    if len(re.findall(r'Застройщик\n\t' , text_block)) > 0:
        result = 1
    elif len(is_builder_raw) > 0:
        is_builder = re.findall('От застройщика', is_builder_raw[0].text)
        if len(is_builder) > 0:
            result = 1
    else: 
        result = 0
    return result

def ad_fields(url_list): 
    """
    Функция для получения полей объявления. 
    Вход: лист с url: 0 - url объвления, 1 - url страницы объявления. 
    Выход: data frame с полями таблицы. 
    """
    while True: 
        try:
            headers = {'User-Agent' : UserAgent().chrome}
            proxies = {'https' : 'https://' + next(proxy_cycle)}
            session = requests.Session()
            adapter = requests.adapters.HTTPAdapter(max_retries = 0)
            session.mount('https://', adapter)
            my_session(
                url = url_list[1], 
                proxies = proxies, 
                headers = headers,
                session = session,
                timeout = 5
            )
            offers_current = my_session(
                url = url_list[0], 
                proxies = proxies, 
                headers = headers,
                session = session  
            )

            bsObj_object = BeautifulSoup(offers_current.text, 'html5lib')
            # Пишем условие, если блокируют
            if len(re.findall('Из вашей подсети наблюдается подозрительная активность. Поставьте отметку, чтобы продолжить.', bsObj_object.text)) > 0:
                continue
            else:
                title = title_ad(bsObj_object)
                text = text_ad(bsObj_object)
                image = image_ad(bsObj_object)
                price = price_ad(bsObj_object)
                text_block = bsObj_object.find_all('div',{'id' : 'fieldsetView'})
                if len(text_block) > 0: 
                    text_block =  text_block[0].text
                    address = address_ad(text_block)
                    status_house = status_house_ad(text_block)
                    area = area_ad(text_block)
                    is_mortage = is_mortage_ad(text_block)
                    floor = floor_ad(text_block) 
                text_clean = clean_text(' '.join([str(title), str(text)]))
                text_lem = lem_text(text_clean)
                id_ad = int(re.findall(r'\d{1,20}.html$', url_list[0])[0].replace('.html', ''))
                balcony = is_balcony(text_clean)
                builder = is_builder_ad(bsObj_object = bsObj_object, text_block = text_block)
                current_df = pd.DataFrame({'id' : [id_ad], 'title' : [title], 'text' : [text], 'clean_text' : text_clean, 'lem_text' : text_lem, 'image' : [image], 'address' : [address], 
                                           'status_house' : [status_house], 'is_builder' : builder, 'price' : [price], 'area' : [area], 'is_mortage' : [is_mortage], 'floor' : [floor], 
                                           'url' : [url_list[0]], 'is_balcony' : balcony, 'source' : ['farpost']}) 
                current_df['load_date'] = [datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")]                
            break
        except (ConnectTimeout, ProxyError, ConnectionError, ReadTimeout) as e: 
            continue    
    return current_df

# Соберем прокси-сервера

In [6]:
# Получаем и записываем таблицу с proxy
# os.chdir('/mnt/sdb1/Documents/Projects/1/sripts')
# import proxy_loader

# proxy_loader = proxy_loader.proxy_loader() 
# proxy_df = proxy_loader.write_check_proxy()
# proxy_df.head()

Unnamed: 0,id,name,load_date,is_work
0,0,134.119.205.252:8080,2019-09-14 19:11:45,0
1,1,207.191.15.166:38528,2019-09-14 19:11:45,0
2,2,12.189.125.89:30992,2019-09-14 19:11:45,0
3,3,180.180.156.60:58169,2019-09-14 19:11:45,1
4,4,176.110.121.90:21776,2019-09-14 19:11:45,1


In [7]:
# Получаем прокси сервера
proxy_df = pd.read_sql(
    con = engine,
    sql = """
    select 
            name 
    from 
            staging_tables.proxy_servers
    where 
            is_work = True
    """
)

# Создадим зацикливавние по прокси серверам
proxy_cycle = cycle(proxy_df.name)
proxy_df.head()

Unnamed: 0,name
0,180.180.156.60:58169
1,176.110.121.90:21776
2,201.184.151.58:45718
3,166.150.32.184:43539
4,14.207.43.181:8080


# Получаем даные предложений

In [8]:
# Получим количество страниц и предложений 
offers, pages = pages_all()
print(offers, pages)

3690 74


# Создаем таблицу обхода

In [9]:
link_ad_df = link_ad_all(pages)
link_ad_df.head()

Unnamed: 0,raw_url,url,page
0,/vladivostok/realty/sell_flats/1-komnatnaja-v-...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...
1,/vladivostok/realty/sell_flats/2-komnatnaja-kv...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...
2,/vladivostok/realty/sell_flats/prodazha-smart-...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...
3,/vladivostok/realty/sell_flats/3-komnatnaja-kv...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...
4,/vladivostok/realty/sell_flats/kvartiry-v-zhil...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...


In [10]:
# Перемешаем записи в таблице
link_ad_df = link_ad_df.sample(frac = 1)
link_ad_df.reset_index(drop = True, inplace = True)
link_ad_df['result_url'] = link_ad_df.apply(lambda x: [x['url'], x['page']], axis = 1)
link_ad_df.head()

Unnamed: 0,raw_url,url,page,result_url
0,/vladivostok/realty/sell_flats/2h-komnatnaja-a...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...,[https://www.farpost.ru/vladivostok/realty/sel...
1,/vladivostok/realty/sell_flats/prodaetsja-gost...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...,[https://www.farpost.ru/vladivostok/realty/sel...
2,/vladivostok/realty/sell_flats/prodam-gostinku...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...,[https://www.farpost.ru/vladivostok/realty/sel...
3,/vladivostok/realty/sell_flats/4-h-komnatnaja-...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...,[https://www.farpost.ru/vladivostok/realty/sel...
4,/vladivostok/realty/sell_flats/prodaetsja-1-ko...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...,[https://www.farpost.ru/vladivostok/realty/sel...


In [11]:
link_ad_df.shape

(3690, 4)

# Генерируем таблицу обхода

In [12]:
# Генерируем табдлицу для обхода 
first_number = 0
multiple_number = 100
last_number = link_ad_df.shape[0] 

start_numbers = []
[start_numbers.append(i) for i in range(first_number, last_number, multiple_number)]
last_numbers = []
[last_numbers.append(i) for i in range(multiple_number, last_number + multiple_number, multiple_number)]
bypass_df = pd.DataFrame({'start_numbers' : start_numbers, 'last_numbers' : last_numbers})
# Подменим последнее значение
bypass_df.loc[bypass_df.shape[0]- 1, 'last_numbers'] = link_ad_df.shape[0]+ 1 
bypass_df.tail()

Unnamed: 0,start_numbers,last_numbers
32,3200,3300
33,3300,3400
34,3400,3500
35,3500,3600
36,3600,3691


# Собираем все объявления

## Поля сырых данных таблицы

Поле                          |  Значение                            
:-----------------------------|-----------------------------------
id                            | Идентификатор объявления
text                          | Текст объявления
clean_text                    | Очищенный текст
lem_text                      | Лемматизированный текст
image                         | Список ссылок на картинки
address                       | Адрес
status_house                  | Статус дома 
is_builder                    | Объявление от застройщика
price                         | Цена
area                          | Общая площадь
is_mortage                    | Подходит под ипотеку
floor                         | Этаж
url                           | url 
is_balcony                    | Наличие балкона
source                        | Источник
load_date                     | Дата загрузки данных

In [13]:
%%time
# Получаем все объявления
with ThreadPool(100) as p:
    for i in tqdm_notebook(range(bypass_df.shape[0])): 
        docs = p.map(ad_fields, link_ad_df.result_url[bypass_df.start_numbers[i]:bypass_df.last_numbers[i]]) 
        farpost_df = pd.DataFrame()
        current_table = pd.DataFrame()
        for i in docs: 
            current_table = pd.concat([current_table, i])
        farpost_df = pd.concat([farpost_df, current_table], sort = False)
        farpost_df.to_sql(
            name = 'farpost',
            schema = 'staging_tables',
            con = engine,
            if_exists = 'append',
            index = False,
            dtype = {
                'id' : sqlalchemy.Integer()
                , 'title': sqlalchemy.Text()
                , '"text"': sqlalchemy.Text()
                , 'clean_text': sqlalchemy.Text()
                , 'lem_text' : sqlalchemy.Text()
                , 'image' : sqlalchemy.JSON()
                , 'address': sqlalchemy.Text()
                , 'status_house' : sqlalchemy.Boolean()
                , 'is_builder' : sqlalchemy.Boolean()
                , 'price' : sqlalchemy.BigInteger() 
                , 'area' : sqlalchemy.FLOAT() 
                , 'is_mortage' : sqlalchemy.Boolean()
                , 'floor' : sqlalchemy.Text()
                , 'url' : sqlalchemy.Text()
                , 'is_balcony' : sqlalchemy.Boolean()
                , 'source' : sqlalchemy.Text()
                , 'load_date' : sqlalchemy.DateTime()
            }
        )

HBox(children=(IntProgress(value=0, max=37), HTML(value='')))

KeyboardInterrupt: 

# Импортируем класс и получаем proxy

In [3]:
# Импортируем класс
os.chdir('/mnt/sdb1/Documents/Projects/1/sripts')
import farpost_loader
farpost_loader = farpost_loader.farpost_loader()


# Получим количество страниц и предложений
offers, pages = farpost_loader.pages_all()

In [4]:
# Получаем таблицу для обхода
link_ad_df = farpost_loader.link_ad_all(pages)
# Перемешаем записи в таблице
link_ad_df = link_ad_df.sample(frac=1)
link_ad_df.reset_index(drop=True, inplace=True)
link_ad_df['result_url'] = link_ad_df.apply(lambda x: [x['url'], x['page']], axis=1)

In [5]:
# Генерируем табдлицу для обхода
first_number = 0
multiple_number = 100
last_number = link_ad_df.shape[0]

start_numbers = []
[start_numbers.append(i) for i in range(first_number, last_number, multiple_number)]
last_numbers = []
[last_numbers.append(i) for i in range(multiple_number, last_number + multiple_number, multiple_number)]
bypass_df = pd.DataFrame({'start_numbers': start_numbers, 'last_numbers': last_numbers})
# Подменим последнее значение
bypass_df.loc[bypass_df.shape[0] - 1, 'last_numbers'] = link_ad_df.shape[0] + 1

In [6]:
%%time
# Получаем все объявления
with ThreadPool(100) as p:
    for i in tqdm_notebook(range(bypass_df.shape[0])):
        docs = p.map(farpost_loader.ad_fields, link_ad_df.result_url[bypass_df.start_numbers[i]:bypass_df.last_numbers[i]])
        farpost_df = pd.DataFrame()
        current_table = pd.DataFrame()
        for i in docs:
            current_table = pd.concat([current_table, i])
        farpost_df = pd.concat([farpost_df, current_table], sort=False)
        farpost_df.to_sql(
            name='farpost',
            schema='staging_tables',
            con=farpost_loader.engine,
            if_exists='append',
            index=False,
            dtype={
                'id': sqlalchemy.Integer()
                , 'title': sqlalchemy.Text()
                , '"text"': sqlalchemy.Text()
                , 'clean_text': sqlalchemy.Text()
                , 'lem_text': sqlalchemy.Text()
                , 'image': sqlalchemy.JSON()
                , 'address': sqlalchemy.Text()
                , 'status_house': sqlalchemy.Boolean()
                , 'is_builder': sqlalchemy.Boolean()
                , 'price': sqlalchemy.BigInteger()
                , 'area': sqlalchemy.FLOAT()
                , 'is_mortage': sqlalchemy.Boolean()
                , 'floor': sqlalchemy.Text()
                , 'url': sqlalchemy.Text()
                , 'is_balcony': sqlalchemy.Boolean()
                , 'source': sqlalchemy.Text()
                , 'load_date': sqlalchemy.DateTime()
            }
        )

HBox(children=(IntProgress(value=0, max=38), HTML(value='')))


CPU times: user 15min 24s, sys: 25.9 s, total: 15min 50s
Wall time: 40min 48s


In [7]:
# Получаем данные с Farpost
farpost_df = pd.read_sql(
    con = engine,
    sql = """
    SELECT 
            id, 
            title, 
            "text", 
            clean_text, 
            lem_text, 
            image, 
            address, 
            status_house, 
            is_builder, 
            price, 
            area, 
            is_mortage, 
            floor, 
            url, 
            is_balcony, 
            "source", 
            load_date
    FROM 
            staging_tables.farpost;
    """
)
farpost_df.head()

Unnamed: 0,id,title,text,clean_text,lem_text,image,address,status_house,is_builder,price,area,is_mortage,floor,url,is_balcony,source,load_date
0,74755606,5 Комнатная квартира в Центре города,Представляем к продаже просторную 5 комнатную ...,5 комнатная квартира в центре города представл...,5 комнатный квартира в центр город представлят...,[https://static.baza.farpost.ru/v/156386572755...,"Россия, Приморский край, Владивосток, улица Ал...",True,False,24000000.0,158.0,True,,https://www.farpost.ru/vladivostok/realty/sell...,True,farpost,2019-09-14 21:32:13
1,67243935,Аквамарин - 2комн. квартира с видом на море,одходит под ипотеку Первый небоскрёб Сибири и ...,аквамарин 2комн квартира с видом на море одход...,аквамарин 2комна квартира с вид на мор одходит...,[https://static.baza.farpost.ru/v/153958033652...,"Россия, Приморский край, Владивосток, улица Ар...",False,False,18366426.0,87.0,True,,https://www.farpost.ru/vladivostok/realty/sell...,False,farpost,2019-09-14 21:32:19
2,76093523,Отличная 1-ком на Первой речке,Продам уютную однокомнатную квартиру общей пло...,отличная 1 ком на первой речке продам уютную о...,отличный 1 ком на один речка продать уютный од...,[https://static.baza.farpost.ru/v/156845623641...,"Россия, Приморский край, Владивосток, улица Мы...",True,False,4200000.0,33.0,True,4-й в 9-этажном здании,https://www.farpost.ru/vladivostok/realty/sell...,False,farpost,2019-09-14 21:32:04
3,72706708,Срочно продам 3-х комнатную квартиру,Фактическая общая площадь квартиры 125 кв.м. С...,срочно продам 3 х комнатную квартиру фактическ...,срочно продать 3 х комнатный квартира фактичес...,[https://static.baza.farpost.ru/v/155722290455...,"Россия, Приморский край, Владивосток, улица Ки...",True,False,12600000.0,104.0,True,,https://www.farpost.ru/vladivostok/realty/sell...,True,farpost,2019-09-14 21:32:09
4,74857447,Продается 2-комнатная квартира,"Продается теплая, солнечная 2-х комнатная квар...",продается 2 комнатная квартира продается тепла...,продаваться 2 комнатный квартира продаваться т...,[https://static.baza.farpost.ru/v/156420479316...,"Россия, Приморский край, Владивосток, улица Ту...",True,False,6250000.0,52.0,True,,https://www.farpost.ru/vladivostok/realty/sell...,False,farpost,2019-09-14 21:32:10
