**Author:** Волокжанин Вадим Юрьевич<br>
**Create date:** 26.08.2019<br> 
**Description:** Загрузка данных по квартирам с FarPost

# Импортруем необходимые модули

In [1]:
# Для мониторинга выполнения циклов
from tqdm import tqdm_notebook, tqdm

# Обработка HTML 
from bs4 import BeautifulSoup
# Для генерации поддельного User agent
from fake_useragent import UserAgent
# Для работы с HTTP-запросами 
import requests
from requests import ConnectTimeout, ConnectionError, ReadTimeout 
from requests.exceptions import ProxyError
import urllib

# Для работы с табличными данными
import pandas as pd

# Для работы с регулярными выражениями 
import re

# Для работы с массивами и вычислениями
import numpy as np 

# Для работы с SQL
import sqlalchemy
from sqlalchemy import create_engine

# Для работы с операционной системой
import os

# Для работы с циклами
from itertools import cycle

# Для работы с математическими вычислениями
import math

# Для параллельной работы кода
from multiprocessing.dummy import Pool as ThreadPool 

# Для произведения синтаксического анализа (лемматизации)
import pymorphy2 as pm
# Загрузим словарь русского языка
morph = pm.MorphAnalyzer()

# Для работы со временем
import datetime

In [2]:
# Создадим подключние к dwh
engine = create_engine('postgres://volokzhanin:{password}@localhost:5432/volokzhanin'.format(password = os.getenv('PASSWORD1', False)))

# Создадим функции и наборы данных

In [70]:
def clean_text(text):
        """
        Функция для очистки текста
        Параметры: text - текст
        Фозвращаемое значение:
        clean_text - очищенный текст
        """
        # Переводим в нижний регистр
        lower_text = text.lower()
        # Заменяем все кроме буквы или цифры
        clean_text = re.sub(r'\W', ' ', lower_text)
        # Удаляем все пробелы, кроме между словами
        clean_text = ' '.join(clean_text.split())
        return clean_text

def lem_text(text):
    """
    Функция для лемматизации текста
    Параметры:
    text - очищенный текст
    Фозвращаемое значение:
    finish_text - лемматизированный тест
    """
    # Лемматизируем каждое слово
    word_lem = [morph.parse(item)[0].normal_form for item in text.split()]
    # Склеиваем слово через пробел
    finish_text = ' '.join(word_lem)
    return(finish_text)

def my_session(url, headers, proxies, session, timeout = 50):
    """
    Функция для возвращения ссессии пользователя с заходом на url. 
    Параметры: url - строка url, headers - заголовки, proxies - прокси сервер, session - сессия пользователя. 
    Выход - сессия пользователя с заходом на указанную страницу. 
    """
    return session.get(
        url, 
        headers = headers, 
        proxies = proxies, 
        timeout = timeout
        )

def number_pages(url, headers, proxies, session):  
    """
    Функция для возварщения количества страниц. 
    Параметры: url - url, headers - заголовки, proxies - прокси сервер, session - сессия пользователя. 
    Выход - список с количеством страниц и предложений.
    """    
    url_offers = my_session(url, headers, proxies, session)
    bsObj_offers = BeautifulSoup(url_offers.text, 'html5lib')
    count_offers = bsObj_offers.find("span", { "class" : "item itemsCount" }).text
    pages = math.ceil(int(re.sub('\D', '', count_offers))/50)
    return [int(re.sub('\D', '', count_offers)), pages]

def pages_all(url = 'https://www.farpost.ru/vladivostok/realty/sell_flats'):
    """
    Функция для возварщения количества страниц. 
    Параметры: нет. 
    Выход - список с количеством страниц и предложений.
    """ 
    
    # Получаем общее количество предложений и страниц
    while True: 
        try:  
            headers = {'User-Agent' : UserAgent().chrome}
            proxies = {'https' : 'https://' + next(proxy_cycle)}
            session = requests.Session()
            adapter = requests.adapters.HTTPAdapter(max_retries = 1)
            session.mount('https://', adapter)
            offers, pages = number_pages(
                url, 
                headers = headers, 
                proxies = proxies, 
                session = session
            )
            break
        except ConnectTimeout: 
            continue
    return[offers, pages]

def link_ad(url, page, proxies, headers, session): 
    """
    Функция для получения ссылок на предложения Farpost
    Параметры: url - путь с запросом, page - страница, headers - заголовки, proxies - прокси сервер, session - сессия пользователя.  
    Выход: result_df - таблица с предложениями на выбранной странице
    """
    # Перейдем на страницу  и укажем прокси-сервера
    url_links = my_session(
        url, 
        proxies = proxies, 
        headers = headers,
        session = session   
    )

    # Приведем текст к понятному виду BeautifulSoup
    bsObj_offers = BeautifulSoup(url_links.text, 'html5lib')

    # Определим маску поиска ссылки
    regex = re.compile('/vladivostok/realty/sell_flats/.+\d{5,10}.html')
    links = bsObj_offers.find_all("a")

    # Создадим объект для сбора результата 
    links_list = []

    # Обойдем циклом все ссылки и оставим только необходимые
    for j in links:        
        current_link = j.get('href')  
        if current_link is None:
            continue
        elif regex.match(current_link) is None: 
            continue      
        else: 
            link = regex.match(current_link)            
            links_list.append(link.string)   
            
    # Оставим только уникальные ссылки
    result_df = pd.DataFrame({'raw_url' : links_list})
    result_df.drop_duplicates(
        keep = 'first',
        inplace = True
    )
    
    # Обработаем данные 
    result_df['url'] = result_df.apply(lambda x: 'https://www.farpost.ru' + x['raw_url'], axis = 1)
    result_df['page'] = url
    return result_df

def link_ad_all(pages, url = 'https://www.farpost.ru/vladivostok/realty/sell_flats'): 
    """
    Функция для получения таблицы обхода farpost. 
    Вход: количество страниц. 
    Выход: таблица для обхода.
    """
    while True: 
        try:  
            headers = {'User-Agent' : UserAgent().chrome}
            proxies = {'https' : 'https://' + next(proxy_cycle)}
            session = requests.Session()
            adapter = requests.adapters.HTTPAdapter(max_retries = 5)
            session.mount('https://', adapter)
            # Создаем объект для сбора результата 
            link_ad_df = pd.DataFrame()

            # Пройдемся циклом по всем страницам запроса и соберем все ссылки
            for page in range(1, pages + 1):
                current_url = url + '/?page={page}'.format(
                    page = page
                )
                current_table = link_ad(
                    url = current_url, 
                    proxies  = proxies, 
                    headers = headers, 
                    session = session,
                    page = page
                )    
                link_ad_df = pd.concat([link_ad_df, current_table])
            break
        except ConnectTimeout: 
            continue

    link_ad_df.reset_index(drop = True, inplace = True)
    return link_ad_df

def clean_ad(text): 
    """
    Функция для очистки текста объявления. 
    Вход: сырой текст. 
    Выход: очищенный тескст. 
    """
    tamplate = re.compile('\n|\t| во Владивостоке|Подробности о доме|Адрес|Этаж')
    clean_text = ' '.join(tamplate.sub(' ', text).split()).strip()
    return clean_text

def address_ad(text_block): 
    """
    Функция для получения адреса объявления. 
    Вход: текст для извлечения адреса.
    Выход: адрес объявления.  
    """
    raw_address = re.findall('Адрес[\t\n\r]+.+', text_block)
    if len(raw_address) > 0: 
        address = 'Приморский край, Владивосток, ' + clean_ad(raw_address[0])
    else: 
        address = None
    return address

def title_ad(bsObj_object): 
    """
    Функция для получения заголовка объявления. 
    Вход: beautiful soup объект.
    Выход: заголовок объявления.  
    """
    title = bsObj_object.find('h1', {'class' : 'subject viewbull-field__container'}).text
    title = clean_ad(title)
    return title

def image_ad(bsObj_object): 
    """
    Функция для получения изображений объявления. 
    Вход: beautiful soup объект.
    Выход: лист изображений объявления.  
    """
    image = bsObj_object.find_all('img')
    if len(image) > 0:
        image_list = []
        for im in image: 
            current_image = re.findall(r'v/\d{1,100}_bulletin', str(im))
            if len(current_image) > 0: 
                image_list.append('https://static.baza.farpost.ru/' + current_image[0])
    else: 
        image_list = None
    return image_list

def price_ad(bsObj_object): 
    """
    Функция для получения цены в объявлении. 
    Вход: beautiful soup объект.
    Выход: цена в объявлении.  
    """
    price = bsObj_object.find_all('span', {'class' : 'viewbull-summary-price__value'})
    if len(price) > 0: 
            price = price[0].text
            price = int(re.sub('₽|\s', '', price))
    else: 
        price = None
    return price

def status_house_ad(text_block): 
    """
    Функция для получения статуса дома. 
    Вход: текст для извлечения статуса дома.
    Выход: статуса дома.    
    """
    is_house_delivered = re.findall('Этап строительства дома[\t\n\r]+Не сдан', text_block)
    if len(is_house_delivered) > 0:
        is_house_delivered = 0
    else: 
        is_house_delivered = 1    
    return is_house_delivered

def area_ad(text_block): 
    """
    Функция для получения площади в объявлении. 
    Вход: текст для извлечения площади в объявлении.
    Выход: площадь в объявления.   
    """
    area = re.findall('Площадь по документам[\t\n\r]+.+', text_block)
    if len(area) > 0: 
        area = int(re.findall(r'\d{1,4}', area[0])[0])
    else: 
        area = None
    return area

def is_mortage_ad(text_block): 
    """
    Функция для получения статуса ипотеки в объявлении. 
    Вход: текст для извлечения статуса ипотеки в объявлении.
    Выход: статуса ипотеки в объявлении.   
    """
    is_mortage = re.findall('Подходит под ипотеку', text_block)
    if len(is_mortage) > 0: 
        is_mortage = 1
    else: 
        is_mortage = 0
    return is_mortage

def floor_ad(text_block): 
    """
    Функция для получения этажа в объявления. 
    Вход: текст для извлечения этажа в объявлении..
    Выход: этаж в объявления.  
    """
    floor = re.findall('Этаж[\t\n\r]+.+', text_block)
    if len(floor) > 0: 
        floor = clean_ad(floor[0])
    else: 
        floor = None
    return floor

def text_ad(bsObj_object): 
    """
    Функция для получения текста объявления. 
    Вход: текст для извлечения текста объявления.
    Выход: текста объявления.   
    """
    text = clean_ad(bsObj_object.text)
    tamplate_search = re.compile(r"""
    одходит\sпод\sипотеку\s.+.contacts__actions\s{\smargin-right:\s50%;\smargin-bottom:\s10px;\s}
    |Дом [не]*\s*сдан\s.+.contacts__actions\s{\smargin-right:\s50%;\smargin-bottom:\s10px;\s}
    |Состояние\sи\sособенности\sквартиры\s.+.contacts__actions\s{\smargin-right:\s50%;\smargin-bottom:\s10px;\s} 
    """, re.VERBOSE)
    text = tamplate_search.findall(text)
    tamplate_delete = re.compile(r"""
    Не\sподходит\sпод\sипотеку\s|Подходит\sпод\sипотеку\s
    |\s.contacts__actions\s{\smargin-right:\s50%;\smargin-bottom:\s10px;\s}
    |\$\(function.+|Дом\s*[не]*сдан\s
    |Состояние\sи\sособенности\sквартиры\s""", re.VERBOSE)
    if len(text) > 0: 
        text = tamplate_delete.sub('', text[0]).strip()
    else: 
        text = None
    return text

def address_coordinates_city(address): 
    """
    Функция для возвращения координат с yandex карт.
    Вход: адрес.
    Выход: долгота, широта. 
    """
    while True:     
        try: 
            url = 'https://yandex.ru/maps/75/vladivostok/?text={text}'.format(text = urllib.parse.quote(address))
            headers = {'User-Agent' : UserAgent().chrome}
            proxies = {'https' : 'https://' + next(proxy_cycle)}
            session = requests.Session()
            adapter = requests.adapters.HTTPAdapter(max_retries = 5)
            session.mount('https://', adapter)
            raw_coordinates = my_session(            
                url = url, 
                headers = headers, 
                proxies = proxies, 
                session = session
            )
            bsObj = BeautifulSoup(raw_coordinates.text, 'html5lib')
            coordinates_list = re.findall(r'"address":".+?","coordinates":\[\d{1,3}.\d{1,8},\d{1,3}.\d{1,8}\]', str(bsObj))[0]
            # Если не находим координаты
            if len(coordinates_list) is None  or len(coordinates_list) == 0:
                latitude, longitude = 0, 0
            # Если находим 1 значение
            elif isinstance('as', str): 
                coordinates_list = re.findall(r'\[\d{1,3}.\d{1,6}\,\d{1,3}.\d{1,8}\]', coordinates_list)[0]
                coordinates_list = re.sub(r'\[|\]', '', coordinates_list).split(',')
                longitude = coordinates_list[0]
                latitude = coordinates_list[1]
            else: 
                coordinates_list = re.findall(r'\[\d{1,3}.\d{1,6}\,\d{1,3}.\d{1,8}\]', coordinates_list[0])[0]
                coordinates_list = re.sub(r'\[|\]', '', coordinates_list).split(',')
                longitude = coordinates_list[0]
                latitude = coordinates_list[1]
            return [float(latitude), float(longitude)]
            break      
        except (ConnectTimeout, ProxyError, ConnectionError, ReadTimeout): 
            continue

def address_coordinates(address, city_latitude, city_longitude): 
    """
    Функция для возвращения координат с yandex карт.
    Вход: адрес.
    Выход: долгота, широта. 
    """
    while True:     
        try: 
            url = 'https://yandex.ru/maps/75/vladivostok/?text={text}'.format(text = urllib.parse.quote(address))
            headers = {'User-Agent' : UserAgent().chrome}
            proxies = {'https' : 'https://' + next(proxy_cycle)}
            session = requests.Session()
            adapter = requests.adapters.HTTPAdapter(max_retries = 5)
            session.mount('https://', adapter)
            raw_coordinates = my_session(            
                url = url, 
                headers = headers, 
                proxies = proxies, 
                session = session, 
                timeout = 10
            )
            bsObj = BeautifulSoup(raw_coordinates.text, 'html5lib')
            coordinates_list = re.findall(r'"address":".+?","coordinates":\[\d{1,3}.\d{1,8},\d{1,3}.\d{1,8}\]', str(bsObj))
            # Если не находим координаты
            if len(coordinates_list) == 0:
                latitude, longitude = 0, 0
            # Если находим 1 значение
            elif isinstance(coordinates_list, str): 
                coordinates_list = re.findall(r'\[\d{1,3}.\d{1,6}\,\d{1,3}.\d{1,8}\]', coordinates_list)[0]
                coordinates_list = re.sub(r'\[|\]', '', coordinates_list).split(',')
                longitude = coordinates_list[0]
                latitude = coordinates_list[1]
            else: 
                coordinates_list = re.findall(r'\[\d{1,3}.\d{1,6}\,\d{1,3}.\d{1,8}\]', coordinates_list[0])
                coordinates_list = re.sub(r'\[|\]', '', coordinates_list[0]).split(',')
                longitude = coordinates_list[0]
                latitude = coordinates_list[1]
            # Если координаты совпадают с координатами населенного пункта, то возвращаем None
            if float(longitude) == city_longitude and float(latitude) == city_latitude: 
                result_longitude, result_latitude = 0, 0            
            else: 
                result_longitude = float(longitude)
                result_latitude = float(latitude)
            return [result_latitude, result_longitude]
            break 
        except (ConnectTimeout, ProxyError, ConnectionError, ReadTimeout): 
            continue

# Соберем прокси-сервера

In [5]:
# Получаем и записываем таблицу с proxy
# os.chdir('/mnt/sdb1/Documents/Projects/web_scraping_flats/sripts')
# import proxy_loader

# proxy_loader = proxy_loader.proxy_loader() 
# proxy_df = proxy_loader.write_check_proxy()
# proxy_df.head()

In [6]:
proxy_df = pd.read_sql(
    con = engine,
    sql = """
    select 
            name 
    from 
            staging_tables.proxy_servers
    where 
            is_work = True
    """
)

# Создадим зацикливавние по прокси серверам
proxy_cycle = cycle(proxy_df.name)
proxy_df.head()

Unnamed: 0,name
0,51.38.69.83:8080
1,196.3.97.86:23500
2,98.172.141.251:8080
3,197.234.179.102:3128
4,46.225.242.246:1080


# Получаем даные предложений

In [7]:
# Получим количество страниц и предложений 
offers, pages = pages_all()
print(offers, pages)

3608 73


# Создаем таблицу обхода

In [8]:
link_ad_df = link_ad_all(pages)
link_ad_df.head()

Unnamed: 0,raw_url,url,page
0,/vladivostok/realty/sell_flats/2-komnatnaja-kv...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...
1,/vladivostok/realty/sell_flats/prodazha-smart-...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...
2,/vladivostok/realty/sell_flats/2-komnatnaja-kv...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...
3,/vladivostok/realty/sell_flats/3-komnatnaja-kv...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...
4,/vladivostok/realty/sell_flats/kvartiry-v-zhil...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...


In [9]:
# Перемешаем записи в таблице
link_ad_df = link_ad_df.sample(frac = 1)
link_ad_df.reset_index(drop = True, inplace = True)
link_ad_df['result_url'] = link_ad_df.apply(lambda x: [x['url'], x['page']], axis = 1)
link_ad_df.head()

Unnamed: 0,raw_url,url,page,result_url
0,/vladivostok/realty/sell_flats/prodaetsja-3-ko...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...,[https://www.farpost.ru/vladivostok/realty/sel...
1,/vladivostok/realty/sell_flats/3-komnatnaja-kv...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...,[https://www.farpost.ru/vladivostok/realty/sel...
2,/vladivostok/realty/sell_flats/2-h-komnatnaja-...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...,[https://www.farpost.ru/vladivostok/realty/sel...
3,/vladivostok/realty/sell_flats/1-komnatnaja-kv...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...,[https://www.farpost.ru/vladivostok/realty/sel...
4,/vladivostok/realty/sell_flats/1-komnatnaja-v-...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...,[https://www.farpost.ru/vladivostok/realty/sel...


In [10]:
link_ad_df.shape

(3608, 4)

# Генерируем таблицу обхода

In [11]:
# Генерируем табдлицу для обхода 
first_number = 0
multiple_number = 100
last_number = link_ad_df.shape[0] 

start_numbers = []
[start_numbers.append(i) for i in range(first_number, last_number, multiple_number)]
last_numbers = []
[last_numbers.append(i) for i in range(multiple_number, last_number + multiple_number, multiple_number)]
bypass_df = pd.DataFrame({'start_numbers' : start_numbers, 'last_numbers' : last_numbers})
# Подменим последнее значение
bypass_df.loc[bypass_df.shape[0]- 1, 'last_numbers'] = link_ad_df.shape[0]+ 1 
bypass_df.tail()

Unnamed: 0,start_numbers,last_numbers
32,3200,3300
33,3300,3400
34,3400,3500
35,3500,3600
36,3600,3609


# Собираем все объявления

## Поля сырых данных таблицы

Поле                          |  Значение                            
:-----------------------------|-----------------------------------
title                         | Заголовок
text                          | Текст
image                         | Список ссылок на картинки
address                       | Адрес
status_house                  | Статус дома 
price                         | Цена
area                          | Общая площадь
is_mortage                    | Подходит под ипотеку
floor                         | Этаж
url                           | url 
source                        | Источник

In [29]:
# Получаем координаты города Владивосток
city_latitude, city_longitude = address_coordinates_city('Приморский край, Владивосток')
print(city_latitude , city_longitude)

43.115536 131.885485


In [71]:
%%time
# Получаем все объявления
with ThreadPool(100) as p:
    for i in tqdm_notebook(range(1, 2)): #bypass_df.shape[0]
        docs = p.map(ad_fields, link_ad_df.result_url[bypass_df.start_numbers[i]:bypass_df.last_numbers[i]]) 
        farpost_df = pd.DataFrame()
        for i in docs: 
            current_table = pd.DataFrame(i)
            farpost_df = pd.concat([farpost_df, current_table], sort = False)
#         farpost_df.to_sql(
#             name = 'farpost',
#             schema = 'staging_tables',
#             con = engine,
#             if_exists = 'append',
#             index = False,
#             dtype = {
#                 'load_date' : sqlalchemy.DateTime()
#                 , 'title': sqlalchemy.Text()
#                 , '"text"': sqlalchemy.Text()
#                 , 'clean_text': sqlalchemy.Text()
#                 , 'lem_text' : sqlalchemy.Text()
#                 , 'image' : sqlalchemy.Text()
#                 , 'address': sqlalchemy.Text()
#                 , 'status_house' : sqlalchemy.Boolean()
#                 , 'price' : sqlalchemy.BigInteger() 
#                 , 'area' : sqlalchemy.FLOAT() 
#                 , 'is_mortage' : sqlalchemy.Boolean()
#                 , 'floor' : sqlalchemy.Text()
#                 , 'url' : sqlalchemy.Text()
#                 , 'source' : sqlalchemy.Text()
#             }
#         )

HBox(children=(IntProgress(value=0, max=1), HTML(value='')))

Приморский край, Владивосток, улица Снеговая 125
Приморский край, Владивосток, улица Анны Щетининой 22
Приморский край, Владивосток, улица Фастовская 14
Приморский край, Владивосток, улица Брянская 18а
Приморский край, Владивосток, улица Глинки 30
Приморский край, Владивосток, улица Надибаидзе 6а
Приморский край, Владивосток, улица Аллилуева 14
Приморский край, Владивосток, улица Добровольского 11
Приморский край, Владивосток, улица Набережная 5в
Приморский край, Владивосток, улица Пушкинская 16
Приморский край, Владивосток, проспект Океанский 123б
Приморский край, Владивосток, проспект Красного Знамени 129
Приморский край, Владивосток, улица Ватутина 4в
Приморский край, Владивосток, улица Черемуховая 14
Приморский край, Владивосток, улица Тунгусская 44Приморский край, Владивосток, улица Басаргина 34

Приморский край, Владивосток, улица Пихтовая 35
Приморский край, Владивосток, улица Нейбута 139
Приморский край, Владивосток, улица Русская 100 стр. 1
Приморский край, Владивосток, улица 

In [72]:
farpost_df

Unnamed: 0,title,text,clean_text,lem_text,image,address,status_house,price,area,is_mortage,floor,url,source,load_date
0,Продам 2-х комнатную квартиру по проспекту Кра...,Продам 2-х комнатную квартиру по проспекту Кра...,продам 2 х комнатную квартиру по проспекту кра...,продать 2 х комнатный квартира по проспект кра...,[https://static.baza.farpost.ru/v/156628851557...,"Приморский край, Владивосток, проспект Красног...",1,6450000,42,0,первый,https://www.farpost.ru/vladivostok/realty/sell...,farpost,2019-09-08 13:57:42
0,Продам гостинку,Внимание! Топ гостинка в 7 минутах ходьбы от В...,продам гостинку внимание топ гостинка в 7 мину...,продать гостинка внимание топ гостинка в 7 мин...,[https://static.baza.farpost.ru/v/156084323055...,"Приморский край, Владивосток, улица Некрасовск...",1,3050000,17,1,высокий,https://www.farpost.ru/vladivostok/realty/sell...,farpost,2019-09-08 13:57:40
0,Продам двухкомнатную квартиру на Нейбута,"Железная дверь, Линолеум, Лоджия, Пластиковые ...",продам двухкомнатную квартиру на нейбута желез...,продать двухкомнатный квартира на нейбут желез...,[https://static.baza.farpost.ru/v/156358603457...,"Приморский край, Владивосток, улица Нейбута 21",1,5100000,50,1,средний,https://www.farpost.ru/vladivostok/realty/sell...,farpost,2019-09-08 13:57:44
0,Комната в коммуналке,Продается уютная комната с видом на море общ 1...,комната в коммуналке продается уютная комната ...,комната в коммуналка продаваться уютный комнат...,[https://static.baza.farpost.ru/v/156387061462...,"Приморский край, Владивосток, улица Овчинников...",1,1850000,15,1,верхний,https://www.farpost.ru/vladivostok/realty/sell...,farpost,2019-09-08 13:57:42
0,Продам 4-х комнатную квартиру на Карбышева 18,"Предлагаем к покупке отличную, ухоженную 4-х к...",продам 4 х комнатную квартиру на карбышева 18 ...,продать 4 х комнатный квартира на карбышев 18 ...,[https://static.baza.farpost.ru/v/156514064627...,"Приморский край, Владивосток, улица Карбышева 18",1,7800000,100,1,первый,https://www.farpost.ru/vladivostok/realty/sell...,farpost,2019-09-08 13:58:09
0,Продается 4х комнатная квартира,Продается уютная солнечная четырех комнатная к...,продается 4х комнатная квартира продается уютн...,продаваться 4х комнатный квартира продаваться ...,[https://static.baza.farpost.ru/v/156730217805...,"Приморский край, Владивосток, улица Парис (о. ...",1,5500000,61,1,средний,https://www.farpost.ru/vladivostok/realty/sell...,farpost,2019-09-08 13:57:45
0,Продам гостинку Надибаидзе 6-а,"Предлагаем к продаже квартиру, расположенную н...",продам гостинку надибаидзе 6 а предлагаем к пр...,продать гостинка надибаидзе 6 а предлагать к п...,[https://static.baza.farpost.ru/v/155979123524...,"Приморский край, Владивосток, улица Надибаидзе 6а",1,2700000,23,1,первый,https://www.farpost.ru/vladivostok/realty/sell...,farpost,2019-09-08 13:57:34
0,Продаю 1-ком. на Аллилуева,"Агентство недвижимости ""Пальмира"" предлагает к...",продаю 1 ком на аллилуева агентство недвижимос...,продавать 1 ком на аллилуев агентство недвижим...,[https://static.baza.farpost.ru/v/156678402160...,"Приморский край, Владивосток, улица Аллилуева 14",1,4800000,36,1,средний,https://www.farpost.ru/vladivostok/realty/sell...,farpost,2019-09-08 13:57:35
0,Гостинка на Первой Речке,ООО Радуга-Недвижимость предлагает к продаже к...,гостинка на первой речке ооо радуга недвижимос...,гостинка на один речка ооо радуга недвижимость...,[https://static.baza.farpost.ru/v/156254910690...,"Приморский край, Владивосток, проспект Остряко...",1,2600000,14,1,средний,https://www.farpost.ru/vladivostok/realty/sell...,farpost,2019-09-08 13:57:42
0,Продаем отличную 2-х комн. квартиру ул. Дальза...,"Компания ""Фолиант 8"" предлагает к продаже уютн...",продаем отличную 2 х комн квартиру ул дальзаво...,продавать отличный 2 х комна квартира ул дальз...,[https://static.baza.farpost.ru/v/156082163131...,"Приморский край, Владивосток, улица Дальзаводс...",1,7750000,54,1,низкий,https://www.farpost.ru/vladivostok/realty/sell...,farpost,2019-09-08 13:57:47


In [42]:
def ad_fields(url_list): 
    """
    Функция для получения полей объявления. 
    Вход: лист с url: 0 - url объвления, 1 - url страницы объявления. 
    Выход: data frame с полями таблицы. 
    """
    while True: 
        try:
            headers = {'User-Agent' : UserAgent().chrome}
            proxies = {'https' : 'https://' + next(proxy_cycle)}
            session = requests.Session()
            adapter = requests.adapters.HTTPAdapter(max_retries = 0)
            session.mount('https://', adapter)
            my_session(
                url = url_list[1], 
                proxies = proxies, 
                headers = headers,
                session = session,
                timeout = 5
            )
            offers_current = my_session(
                url = url_list[0], 
                proxies = proxies, 
                headers = headers,
                session = session  
            )

            bsObj_object = BeautifulSoup(offers_current.text, 'html5lib')
            # Пишем условие, если блокируют
            if len(re.findall('Из вашей подсети наблюдается подозрительная активность. Поставьте отметку, чтобы продолжить.', bsObj_object.text)) > 0:
                continue
            else:
                title = title_ad(bsObj_object)
                text = text_ad(bsObj_object)
                image = image_ad(bsObj_object)
                price = price_ad(bsObj_object)
                text_block = bsObj_object.find_all('div',{'id' : 'fieldsetView'})
                if len(text_block) > 0: 
                    text_block =  text_block[0].text
                    address = address_ad(text_block)
                    status_house = status_house_ad(text_block)
                    area = area_ad(text_block)
                    is_mortage = is_mortage_ad(text_block)
                    floor = floor_ad(text_block) 
                print(address)
#                 if address is not None: 
#                     latitude, longitude  = address_coordinates(address = address, city_latitude = city_latitude, city_longitude = city_longitude)
#                 else: 
#                     latitude, longitude = 0, 0
                text_clean = clean_text(' '.join([str(title), str(text)]))
                text_lem = lem_text(text_clean)                
                current_df = pd.DataFrame({'title' : [title], 'text' : [text], 'clean_text' : text_clean, 'lem_text' : text_lem, 'image' : [image], 'address' : [address], 
                                           'status_house' : [status_house], 'price' : [price], 'area' : [area], 'is_mortage' : [is_mortage], 'floor' : [floor], 'url' : [url_list[0]], 
                                           'source' : ['farpost']}) #'latitude' : latitude, 'longitude'  : longitude, 
                current_df['load_date'] = [datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")]
                
            break
        except (ConnectTimeout, ProxyError, ConnectionError, ReadTimeout): 
            continue    
    return current_df

In [69]:
url_list = link_ad_df.result_url[3]

while True:     
    try:
        headers = {'User-Agent' : UserAgent().chrome}
        proxies = {'https' : 'https://' + next(proxy_cycle)}
        session = requests.Session()
        adapter = requests.adapters.HTTPAdapter(max_retries = 0)
        session.mount('https://', adapter)
        my_session(
            url = url_list[1], 
            proxies = proxies, 
            headers = headers,
            session = session,
            timeout = 3
        )
        offers_current = my_session(
            url = url_list[0], 
            proxies = proxies, 
            headers = headers,
            session = session  
        )

        bsObj_object = BeautifulSoup(offers_current.text, 'html5lib')
        # Пишем условие, если блокируют
        if len(re.findall('Из вашей подсети наблюдается подозрительная активность. Поставьте отметку, чтобы продолжить.', bsObj_object.text)) > 0:
            continue
        else:
            title = title_ad(bsObj_object)
            text = text_ad(bsObj_object)
            image = image_ad(bsObj_object)
            price = price_ad(bsObj_object)
            text_block = bsObj_object.find_all('div',{'id' : 'fieldsetView'})
            if len(text_block) > 0: 
                text_block =  text_block[0].text
                address = address_ad(text_block)
                status_house = status_house_ad(text_block)
                area = area_ad(text_block)
                is_mortage = is_mortage_ad(text_block)
                floor = floor_ad(text_block)   
            print(address)
            if address is not None: 
                    longitude, latitude = address_coordinates(address = address, city_latitude = city_latitude, city_longitude = city_longitude)
            else: 
                longitude, latitude = None, None
            text_clean = clean_text(' '.join([title, text_block]))
            text_lem = lem_text(text_clean)   
            current_df = pd.DataFrame({'title' : [title], 'text' : [text], 'clean_text' : text_clean, 'lem_text' : text_lem, 'image' : [image], 'address' : [address], 'longitude'  : longitude,
                                           'latitude' : latitude, 'status_house' : [status_house], 'price' : [price], 'area' : [area], 'is_mortage' : [is_mortage], 'floor' : [floor], 'url' : [url_list[0]], 
                                           'source' : ['farpost']})
            current_df['load_date'] = [datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")]
        break
    except (ConnectTimeout, ProxyError, ConnectionError, ReadTimeout): 
        continue  
current_df

Приморский край, Владивосток, улица Калинина 19


Unnamed: 0,title,text,clean_text,lem_text,image,address,longitude,latitude,status_house,price,area,is_mortage,floor,url,source,load_date
0,1- комнатная квартира на чуркине,Состояние и особенности квартиры 1комнатная кв...,1 комнатная квартира на чуркине 2 900 000 от ч...,1 комнатный квартира на чуркин 2 900 000 от ча...,[https://static.baza.farpost.ru/v/156671739829...,"Приморский край, Владивосток, улица Калинина 19",43.102129,131.925972,1,2900000,31,1,первый,https://www.farpost.ru/vladivostok/realty/sell...,farpost,2019-09-08 13:56:07


In [None]:
4.      Вторичное или первичное жилье. Если есть застройщик. 
12.     Балкон есть или нет.
проверить обработку текста
средний пиксел


In [61]:
# %who_ls function
# %who_ls