**Author:** Волокжанин Вадим Юрьевич<br>
**Create date:** 26.08.2019<br> 
**Description:** Загрузка данных по квартирам с FarPost

# Импортруем необходимые модули

In [11]:
# Для мониторинга выполнения циклов
from tqdm import tqdm_notebook, tqdm

# Обработка HTML 
from bs4 import BeautifulSoup
# Для генерации поддельного User agent
from fake_useragent import UserAgent
# Для работы с HTTP-запросами 
import requests
from requests import ConnectTimeout, ConnectionError 
from requests.exceptions import ProxyError

# Для работы с табличными данными
import pandas as pd

# Для работы с регулярными выражениями 
import re

# Для работы с массивами и вычислениями
import numpy as np 

# Для работы с SQL
from sqlalchemy import create_engine

# Для работы с операционной системой
import os

# Для работы с циклами
from itertools import cycle

# Для работы с математическими вычислениями
import math

# Для параллельной работы кода
from multiprocessing.dummy import Pool as ThreadPool 

In [2]:
# Создадим подключние к dwh
engine = create_engine('postgres://volokzhanin:{password}@localhost:5432/volokzhanin'.format(password = os.getenv('PASSWORD1', False)))

# Создадим функции и наборы данных

In [3]:
def my_session(url, headers, proxies, session, timeout = 50):
    """
    Функция для возвращения ссессии пользователя с заходом на url. 
    Параметры: url - строка url, headers - заголовки, proxies - прокси сервер, session - сессия пользователя. 
    Выход - сессия пользователя с заходом на указанную страницу. 
    """
    return session.get(
        url, 
        headers = headers, 
        proxies = proxies, 
        timeout = timeout
        )

def number_pages(url, headers, proxies, session):  
    """
    Функция для возварщения количества страниц. 
    Параметры: url - url, headers - заголовки, proxies - прокси сервер, session - сессия пользователя. 
    Выход - список с количеством страниц и предложений.
    """    
    url_offers = my_session(url, headers, proxies, session)
    bsObj_offers = BeautifulSoup(url_offers.text, 'html.parser')
    count_offers = bsObj_offers.find("span", { "class" : "item itemsCount" }).text
    pages = math.ceil(int(re.sub('\D', '', count_offers))/50)
    return [int(re.sub('\D', '', count_offers)), pages]

def pages_all(url = 'https://www.farpost.ru/vladivostok/realty/sell_flats'):
    """
    Функция для возварщения количества страниц. 
    Параметры: нет. 
    Выход - список с количеством страниц и предложений.
    """ 
    
    # Получаем общее количество предложений и страниц
    while True: 
        try:  
            headers = {'User-Agent' : UserAgent().chrome}
            proxies = {'https' : 'https://' + next(proxy_cycle)}
            session = requests.Session()
            adapter = requests.adapters.HTTPAdapter(max_retries = 1)
            session.mount('https://', adapter)
            offers, pages = number_pages(
                url, 
                headers = headers, 
                proxies = proxies, 
                session = session
            )
            break
        except ConnectTimeout: 
            continue
    return[offers, pages]

def link_ad(url, page, proxies, headers, session): 
    """
    Функция для получения ссылок на предложения Farpost
    Параметры: url - путь с запросом, page - страница, headers - заголовки, proxies - прокси сервер, session - сессия пользователя.  
    Выход: result_df - таблица с предложениями на выбранной странице
    """
    # Перейдем на страницу  и укажем прокси-сервера
    url_links = my_session(
        url, 
        proxies = proxies, 
        headers = headers,
        session = session   
    )

    # Приведем текст к понятному виду BeautifulSoup
    bsObj_offers = BeautifulSoup(url_links.text, 'html5lib')

    # Определим маску поиска ссылки
    regex = re.compile('/vladivostok/realty/sell_flats/.+\d{5,10}.html')
    links = bsObj_offers.find_all("a")

    # Создадим объект для сбора результата 
    links_list = []

    # Обойдем циклом все ссылки и оставим только необходимые
    for j in links:        
        current_link = j.get('href')  
        if current_link is None:
            continue
        elif regex.match(current_link) is None: 
            continue      
        else: 
            link = regex.match(current_link)            
            links_list.append(link.string)   
            
    # Оставим только уникальные ссылки
    result_df = pd.DataFrame({'raw_url' : links_list})
    result_df.drop_duplicates(
        keep = 'first',
        inplace = True
    )
    
    # Обработаем данные 
    result_df['url'] = result_df.apply(lambda x: 'https://www.farpost.ru' + x['raw_url'], axis = 1)
    result_df['page'] = url
    return result_df

def link_ad_all(pages, url = 'https://www.farpost.ru/vladivostok/realty/sell_flats'): 
    """
    Функция для получения таблицы обхода farpost. 
    Вход: количество страниц. 
    Выход: таблица для обхода.
    """
    while True: 
        try:  
            headers = {'User-Agent' : UserAgent().chrome}
            proxies = {'https' : 'https://' + next(proxy_cycle)}
            session = requests.Session()
            adapter = requests.adapters.HTTPAdapter(max_retries = 5)
            session.mount('https://', adapter)
            # Создаем объект для сбора результата 
            link_ad_df = pd.DataFrame()

            # Пройдемся циклом по всем страницам запроса и соберем все ссылки
            for page in range(1, pages + 1):
                current_url = url + '/?page={page}'.format(
                    page = page
                )
                current_table = link_ad(
                    url = current_url, 
                    proxies  = proxies, 
                    headers = headers, 
                    session = session,
                    page = page
                )    
                link_ad_df = pd.concat([link_ad_df, current_table])
            break
        except ConnectTimeout: 
            continue

    link_ad_df.reset_index(drop = True, inplace = True)
    return link_ad_df

def clean_ad(text): 
    """
    Функция для очистки текста объявления. 
    Вход: сырой текст. 
    Выход: очищенный тескст. 
    """
    tamplate = re.compile('\n|\t| во Владивостоке|Подробности о доме|Адрес|Этаж')
    clean_text = ' '.join(tamplate.sub(' ', text).split()).strip()
    return clean_text

def address_ad(text_block): 
    """
    Функция для получения адреса объявления. 
    Вход: текст для извлечения адреса.
    Выход: адрес объявления.  
    """
    raw_address = re.findall('Адрес[\t\n\r]+.+', text_block)
    if len(raw_address) > 0: 
        address = 'Приморский край, Владивосток, ' + clean_ad(raw_address[0])
    else: 
        address = None
    return address

def title_ad(bsObj_object): 
    """
    Функция для получения заголовка объявления. 
    Вход: beautiful soup объект.
    Выход: заголовок объявления.  
    """
    title = bsObj_object.find('h1', {'class' : 'subject viewbull-field__container'}).text
    title = clean_ad(title)
    return title

def image_ad(bsObj_object): 
    """
    Функция для получения изображений объявления. 
    Вход: beautiful soup объект.
    Выход: лист изображений объявления.  
    """
    image = bsObj_object.find_all('img')
    if len(image) > 0:
        image_list = []
        for im in image: 
            current_image = re.findall(r'v/\d{1,100}_bulletin', str(im))
            if len(current_image) > 0: 
                image_list.append('https://static.baza.farpost.ru/' + current_image[0])
    else: 
        image_list = None
    return image_list

def price_ad(bsObj_object): 
    """
    Функция для получения цены в объявлении. 
    Вход: beautiful soup объект.
    Выход: цена в объявлении.  
    """
    price = bsObj_object.find_all('span', {'class' : 'viewbull-summary-price__value'})
    if len(price) > 0: 
            price = price[0].text
            price = int(re.sub('₽|\s', '', price))
    else: 
        price = None
    return price

def status_house_ad(text_block): 
    """
    Функция для получения статуса дома. 
    Вход: текст для извлечения статуса дома.
    Выход: статуса дома.    
    """
    is_house_delivered = re.findall('Этап строительства дома[\t\n\r]+Не сдан', text_block)
    if len(is_house_delivered) > 0:
        is_house_delivered = 0
    else: 
        is_house_delivered = 1    
    return is_house_delivered

def area_ad(text_block): 
    """
    Функция для получения площади в объявлении. 
    Вход: текст для извлечения площади в объявлении.
    Выход: площадь в объявления.   
    """
    area = re.findall('Площадь по документам[\t\n\r]+.+', text_block)
    if len(area) > 0: 
        area = int(re.findall(r'\d{1,4}', area[0])[0])
    else: 
        area = None
    return area

def is_mortage_ad(bsObj_object): 
    """
    Функция для получения статуса ипотеки в объявлении. 
    Вход: текст для извлечения статуса ипотеки в объявлении.
    Выход: статуса ипотеки в объявлении.   
    """
    is_mortage = re.findall('Подходит под ипотеку', text_block)
    if len(is_mortage) > 0: 
        is_mortage = 1
    else: 
        is_mortage = 0
    return is_mortage

def floor_ad(text_block): 
    """
    Функция для получения этажа в объявления. 
    Вход: текст для извлечения этажа в объявлении..
    Выход: этаж в объявления.  
    """
    floor = re.findall('Этаж[\t\n\r]+.+', text_block)
    if len(floor) > 0: 
        floor = clean_ad(floor[0])
    else: 
        floor = None
    return floor

def text_ad(bsObj_object): 
    """
    Функция для получения текста объявления. 
    Вход: текст для извлечения текста объявления.
    Выход: текста объявления.   
    """
    text = clean_ad(bsObj_object.text)
    text = re.findall(r'одходит под ипотеку .+.contacts__actions { margin-right: 50%; margin-bottom: 10px; }', text)
    if len(text) > 0: 
        text = re.sub('одходит под ипотеку | .contacts__actions { margin-right: 50%; margin-bottom: 10px; }|\$\(function.+', '', text[0]).strip()
    else: 
        text = None
    return text

# Соберем прокси-сервера

In [4]:
# Получаем и записываем таблицу с proxy
# os.chdir('/mnt/sdb1/Documents/Projects/web_scraping_flats/sripts')
# import proxy_loader

# proxy_loader = proxy_loader.proxy_loader() 
# proxy_df = proxy_loader.write_check_proxy()
# proxy_df.head()

In [5]:
proxy_df = pd.read_sql(
    con = engine,
    sql = """
    select 
            name 
    from 
            staging_tables.proxy_servers
    where 
            is_work = True
    """
)

# Создадим зацикливавние по прокси серверам
proxy_cycle = cycle(proxy_df.name)

proxy_df.head()

Unnamed: 0,name
0,212.95.180.50:53281
1,62.122.18.7:49693
2,91.225.109.186:56617
3,73.55.10.186:8080
4,23.237.173.102:3128


# Получаем даные предложений

In [6]:
# Получим количество страниц и предложений 
offers, pages = pages_all()
print(offers, pages)

3636 73


# Создаем таблицу обхода

In [8]:
link_ad_df = link_ad_all(pages)
link_ad_df.head()

Unnamed: 0,raw_url,url,page
0,/vladivostok/realty/sell_flats/2-komnatnaja-kv...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...
1,/vladivostok/realty/sell_flats/prodazha-smart-...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...
2,/vladivostok/realty/sell_flats/2-komnatnaja-kv...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...
3,/vladivostok/realty/sell_flats/3-komnatnaja-kv...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...
4,/vladivostok/realty/sell_flats/kvartiry-v-zhil...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...


In [9]:
link_ad_df.shape

(3637, 3)

# Генерируем таблицу обхода

In [25]:
# Генерируем табдлицу для обхода 
first_number = 0
multiple_number = 100
last_number = link_ad_df.shape[0] 

start_numbers = []
[start_numbers.append(i) for i in range(first_number, last_number, multiple_number)]
last_numbers = []
[last_numbers.append(i) for i in range(multiple_number + 1, last_number + multiple_number, multiple_number)]

bypass_df = pd.DataFrame({'start_numbers' : start_numbers, 'last_numbers' : last_numbers})
bypass_df.head()

Unnamed: 0,start_numbers,last_numbers
0,0,101
1,100,201
2,200,301
3,300,401
4,400,501


# Собираем все объявления

In [None]:
# for i in tqdm_notebook(range(300, 301)): #bypass_df.shape[0]
#     with ThreadPool(10) as p:
#         docs = p.map(get_habr, range(bypass_df.start_numbers[i], bypass_df.last_numbers[i])) 
#         habr_posts = pd.DataFrame()
#         for i in docs: 
#             current_table = pd.DataFrame(i)
#             habr_posts = pd.concat([habr_posts, current_table], sort = False)

In [None]:
# Предусмотреть получение всех необходимых ссылок в 1 поле. 
#  Предварительно перемешать все страицы

In [30]:
result_df = pd.DataFrame()
for url in tqdm_notebook(bypass_df.url[:20]):
    current_bypass_df = bypass_df[bypass_df.url == url]
    current_bypass_df.reset_index(drop = True, inplace = True)
    # Получаем таблицу обхода
    while True: 
        try:
            headers = {'User-Agent' : UserAgent().chrome}
            proxies = {'https' : 'https://' + next(proxy_cycle)}
            session = requests.Session()
            adapter = requests.adapters.HTTPAdapter(max_retries = 0)
            session.mount('https://', adapter)
            get_my(
                url = current_bypass_df.page[0], 
                proxies = proxies, 
                headers = headers,
                session = session,
                timeout = 5
            )
            offers_current = get_my(
                url = current_bypass_df.url[0], 
                proxies = proxies, 
                headers = headers,
                session = session  
            )

            bsObj_object = BeautifulSoup(offers_current.text, 'html5lib')
            # Пишем условие, если блокируют
            if len(re.findall('Из вашей подсети наблюдается подозрительная активность. Поставьте отметку, чтобы продолжить.', bsObj_object.text)) > 0:
                continue
            else:
                title = title_ad(bsObj_object)
                text = text_ad(bsObj_object)
                image = image_ad(bsObj_object)
                price = price_ad(bsObj_object)
                text_block = bsObj_object.find_all('div',{'id' : 'fieldsetView'})
                if len(text_block) > 0: 
                    text_block =  text_block[0].text
                    address = address_ad(text_block)
                    status_house = status_house_ad(text_block)
                    area = area_ad(text_block)
                    is_mortage = is_mortage_ad(text_block)
                    floor = floor_ad(text_block)                    
                current_df = pd.DataFrame({'title' : [title], 'text' : [text],'image' : [image], 'address' : [address], 'status_house' : [status_house], 'price' : [price], 
                                           'area' : [area], 'is_mortage' : [is_mortage], 'floor' : [floor], 'url' : [current_bypass_df.url[0]], 'source' : ['farpost']})
                result_df = pd.concat([result_df, current_df])
            break
        except (ConnectTimeout, ProxyError, ConnectionError): 
            continue    
result_df.reset_index(drop = True, inplace = True)
result_df.head()

HBox(children=(IntProgress(value=0, max=20), HTML(value='')))




Unnamed: 0,title,text,image,address,status_house,price,area,is_mortage,floor,url,source
0,2-комнатная квартира в новом доме на Нейбута,Состояние и особенности квартиры Квартира от з...,[https://static.baza.farpost.ru/v/156740468221...,"Приморский край, Владивосток, улица Нейбута 4",0,4500000.0,50.0,1,средний,https://www.farpost.ru/vladivostok/realty/sell...,farpost
1,Продажа Smart квартир в ЖК «Atmosfera»,Жилой комплекс «ATMOSFERA» - это отличное реше...,[https://static.baza.farpost.ru/v/156705969821...,"Приморский край, Владивосток, улица Стрелковая...",0,,,1,,https://www.farpost.ru/vladivostok/realty/sell...,farpost
2,2-комнатная квартира в новом доме на Нейбута,Состояние и особенности квартиры Квартира от з...,[https://static.baza.farpost.ru/v/156740139946...,"Приморский край, Владивосток, улица Нейбута 17...",0,4980000.0,60.0,1,средний,https://www.farpost.ru/vladivostok/realty/sell...,farpost
3,3-комнатная квартира от застройщика,Состояние и особенности квартиры Дом введен в ...,[https://static.baza.farpost.ru/v/156706404599...,"Приморский край, Владивосток, улица Ватутина 33",1,6322500.0,75.0,1,низкий,https://www.farpost.ru/vladivostok/realty/sell...,farpost
4,"Квартиры в жилом комплексе ""Семейный"" в районе...",ЖК «Семейный» - многоквартирный жилой дом со в...,[https://static.baza.farpost.ru/v/156574169301...,"Приморский край, Владивосток, улица Черняховск...",0,,,1,,https://www.farpost.ru/vladivostok/realty/sell...,farpost


In [114]:
current_bypass_df = bypass_df[bypass_df.url == bypass_df.url[4]]
current_bypass_df.reset_index(drop = True, inplace = True)
while True:     
    try:
        headers = {'User-Agent' : UserAgent().chrome}
        proxies = {'https' : 'https://' + next(proxy_cycle)}
        session = requests.Session()
        adapter = requests.adapters.HTTPAdapter(max_retries = 0)
        session.mount('https://', adapter)
        get_my(
            url = current_bypass_df.page[0], 
            proxies = proxies, 
            headers = headers,
            session = session,
            timeout = 3
        )
        offers_current = get_my(
            url = current_bypass_df.url[0], 
            proxies = proxies, 
            headers = headers,
            session = session  
        )

        bsObj_object = BeautifulSoup(offers_current.text, 'html5lib')
        # Пишем условие, если блокируют
        if len(re.findall('Из вашей подсети наблюдается подозрительная активность. Поставьте отметку, чтобы продолжить.', bsObj_object.text)) > 0:
            continue
        else:
            title = title_ad(bsObj_object)
            text = text_ad(bsObj_object)
            image = image_ad(bsObj_object)
            price = price_ad(bsObj_object)
            text_block = bsObj_object.find_all('div',{'id' : 'fieldsetView'})
            if len(text_block) > 0: 
                text_block =  text_block[0].text
                address = address_ad(text_block)
                status_house = status_house_ad(text_block)
                area = area_ad(text_block)
                is_mortage = is_mortage_ad(text_block)
                floor = floor_ad(text_block)                    
            current_df = pd.DataFrame({'title' : [title], 'text' : [text],'image' : [image], 'address' : [address], 'status_house' : [status_house], 'price' : [price], 
                                       'area' : [area], 'is_mortage' : [is_mortage], 'floor' : [floor], 'url' : [current_bypass_df.url[0]], 'source' : ['farpost']})
        break
    except (ConnectTimeout, ProxyError, ConnectionError): 
        continue  

In [33]:
# создать обработчик по записи таблицы и обработке в несколько потоков, нужно обрабатывать частями

In [None]:
# 

In [14]:
# %who_ls function
# %who_ls

In [200]:
# pd.options.display.html.table_schema = True
# pd.options.display.max_rows = None
# bypass_df