**Author:** Волокжанин Вадим Юрьевич<br>
**Create date:** 26.08.2019<br> 
**Description:** Загрузка данных по квартирам с FarPost

# Импортруем необходимые модули

In [1]:
# Для мониторинга выполнения циклов
from tqdm import tqdm_notebook, tqdm

# Обработка HTML 
from bs4 import BeautifulSoup
# Для генерации поддельного User agent
from fake_useragent import UserAgent
# Для работы с HTTP-запросами 
import requests
from requests import ConnectTimeout, ConnectionError, ReadTimeout 
from requests.exceptions import ProxyError
import urllib

# Для работы с табличными данными
import pandas as pd

# Для работы с регулярными выражениями 
import re

# Для работы с массивами и вычислениями
import numpy as np 

# Для работы с SQL
import sqlalchemy
from sqlalchemy import create_engine

# Для работы с операционной системой
import os

# Для работы с циклами
from itertools import cycle

# Для работы с математическими вычислениями
import math

# Для параллельной работы кода
from multiprocessing.dummy import Pool as ThreadPool 

# Для произведения синтаксического анализа (лемматизации)
import pymorphy2 as pm
# Загрузим словарь русского языка
morph = pm.MorphAnalyzer()

# Для работы со временем
import datetime

In [2]:
# Создадим подключние к dwh
engine = create_engine('postgres://volokzhanin:{password}@localhost:5432/volokzhanin'.format(password = os.getenv('PASSWORD1', False)))

# Создадим функции и наборы данных

In [14]:
def clean_text(text):
        """
        Функция для очистки текста
        Параметры: text - текст
        Фозвращаемое значение:
        clean_text - очищенный текст
        """
        # Переводим в нижний регистр
        lower_text = text.lower()
        # Заменяем все кроме буквы или цифры
        clean_text = re.sub(r'\W', ' ', lower_text)
        # Удаляем все пробелы, кроме между словами
        clean_text = ' '.join(clean_text.split())
        return clean_text

def lem_text(text):
    """
    Функция для лемматизации текста
    Параметры:
    text - очищенный текст
    Фозвращаемое значение:
    finish_text - лемматизированный тест
    """
    # Лемматизируем каждое слово
    word_lem = [morph.parse(item)[0].normal_form for item in text.split()]
    # Склеиваем слово через пробел
    finish_text = ' '.join(word_lem)
    return(finish_text)

def my_session(url, headers, proxies, session, timeout = 50):
    """
    Функция для возвращения ссессии пользователя с заходом на url. 
    Параметры: url - строка url, headers - заголовки, proxies - прокси сервер, session - сессия пользователя. 
    Выход - сессия пользователя с заходом на указанную страницу. 
    """
    return session.get(
        url, 
        headers = headers, 
        proxies = proxies, 
        timeout = timeout
        )

def number_pages(url, headers, proxies, session):  
    """
    Функция для возварщения количества страниц. 
    Параметры: url - url, headers - заголовки, proxies - прокси сервер, session - сессия пользователя. 
    Выход - список с количеством страниц и предложений.
    """    
    url_offers = my_session(url, headers, proxies, session)
    bsObj_offers = BeautifulSoup(url_offers.text, 'html5lib')
    count_offers = bsObj_offers.find("span", { "class" : "item itemsCount" }).text
    pages = math.ceil(int(re.sub('\D', '', count_offers))/50)
    return [int(re.sub('\D', '', count_offers)), pages]

def pages_all(url = 'https://www.farpost.ru/vladivostok/realty/sell_flats'):
    """
    Функция для возварщения количества страниц. 
    Параметры: нет. 
    Выход - список с количеством страниц и предложений.
    """ 
    
    # Получаем общее количество предложений и страниц
    while True: 
        try:  
            headers = {'User-Agent' : UserAgent().chrome}
            proxies = {'https' : 'https://' + next(proxy_cycle)}
            session = requests.Session()
            adapter = requests.adapters.HTTPAdapter(max_retries = 1)
            session.mount('https://', adapter)
            offers, pages = number_pages(
                url, 
                headers = headers, 
                proxies = proxies, 
                session = session
            )
            break
        except ConnectTimeout: 
            continue
    return[offers, pages]

def link_ad(url, page, proxies, headers, session): 
    """
    Функция для получения ссылок на предложения Farpost
    Параметры: url - путь с запросом, page - страница, headers - заголовки, proxies - прокси сервер, session - сессия пользователя.  
    Выход: result_df - таблица с предложениями на выбранной странице
    """
    # Перейдем на страницу  и укажем прокси-сервера
    url_links = my_session(
        url, 
        proxies = proxies, 
        headers = headers,
        session = session   
    )

    # Приведем текст к понятному виду BeautifulSoup
    bsObj_offers = BeautifulSoup(url_links.text, 'html5lib')

    # Определим маску поиска ссылки
    regex = re.compile('/vladivostok/realty/sell_flats/.+\d{5,10}.html')
    links = bsObj_offers.find_all("a")

    # Создадим объект для сбора результата 
    links_list = []

    # Обойдем циклом все ссылки и оставим только необходимые
    for j in links:        
        current_link = j.get('href')  
        if current_link is None:
            continue
        elif regex.match(current_link) is None: 
            continue      
        else: 
            link = regex.match(current_link)            
            links_list.append(link.string)   
            
    # Оставим только уникальные ссылки
    result_df = pd.DataFrame({'raw_url' : links_list})
    result_df.drop_duplicates(
        keep = 'first',
        inplace = True
    )
    
    # Обработаем данные 
    result_df['url'] = result_df.apply(lambda x: 'https://www.farpost.ru' + x['raw_url'], axis = 1)
    result_df['page'] = url
    return result_df

def link_ad_all(pages, url = 'https://www.farpost.ru/vladivostok/realty/sell_flats'): 
    """
    Функция для получения таблицы обхода farpost. 
    Вход: количество страниц. 
    Выход: таблица для обхода.
    """
    while True: 
        try:  
            headers = {'User-Agent' : UserAgent().chrome}
            proxies = {'https' : 'https://' + next(proxy_cycle)}
            session = requests.Session()
            adapter = requests.adapters.HTTPAdapter(max_retries = 5)
            session.mount('https://', adapter)
            # Создаем объект для сбора результата 
            link_ad_df = pd.DataFrame()

            # Пройдемся циклом по всем страницам запроса и соберем все ссылки
            for page in range(1, pages + 1):
                current_url = url + '/?page={page}'.format(
                    page = page
                )
                current_table = link_ad(
                    url = current_url, 
                    proxies  = proxies, 
                    headers = headers, 
                    session = session,
                    page = page
                )    
                link_ad_df = pd.concat([link_ad_df, current_table])
            break
        except ConnectTimeout: 
            continue

    link_ad_df.reset_index(drop = True, inplace = True)
    return link_ad_df

def clean_ad(text): 
    """
    Функция для очистки текста объявления. 
    Вход: сырой текст. 
    Выход: очищенный тескст. 
    """
    tamplate = re.compile('\n|\t| во Владивостоке|Подробности о доме|Адрес|Этаж')
    clean_text = ' '.join(tamplate.sub(' ', text).split()).strip()
    return clean_text

def address_ad(text_block): 
    """
    Функция для получения адреса объявления. 
    Вход: текст для извлечения адреса.
    Выход: адрес объявления.  
    """
    raw_address = re.findall('Адрес[\t\n\r]+.+', text_block)
    if len(raw_address) > 0: 
        address = 'Приморский край, Владивосток, ' + clean_ad(raw_address[0])
    else: 
        address = None
    return address

def title_ad(bsObj_object): 
    """
    Функция для получения заголовка объявления. 
    Вход: beautiful soup объект.
    Выход: заголовок объявления.  
    """
    title = bsObj_object.find_all('h1', {'class' : 'subject viewbull-field__container'})
    if len(title) > 0: 
        title = clean_ad(title[0].text)
    else: 
        title = ''
    return title

def image_ad(bsObj_object): 
    """
    Функция для получения изображений объявления. 
    Вход: beautiful soup объект.
    Выход: лист изображений объявления.  
    """
    image = bsObj_object.find_all('img')
    if len(image) > 0:
        image_list = []
        for im in image: 
            current_image = re.findall(r'v/\d{1,100}_bulletin', str(im))
            if len(current_image) > 0: 
                image_list.append('https://static.baza.farpost.ru/' + current_image[0])
    else: 
        image_list = None
    return image_list

def price_ad(bsObj_object): 
    """
    Функция для получения цены в объявлении. 
    Вход: beautiful soup объект.
    Выход: цена в объявлении.  
    """
    price = bsObj_object.find_all('span', {'class' : 'viewbull-summary-price__value'})
    if len(price) > 0: 
            price = price[0].text
            price = int(re.sub('₽|\s', '', price))
    else: 
        price = None
    return price

def status_house_ad(text_block): 
    """
    Функция для получения статуса дома. 
    Вход: текст для извлечения статуса дома.
    Выход: статуса дома.    
    """
    is_house_delivered = re.findall('Этап строительства дома[\t\n\r]+Не сдан', text_block)
    if len(is_house_delivered) > 0:
        is_house_delivered = 0
    else: 
        is_house_delivered = 1    
    return is_house_delivered

def area_ad(text_block): 
    """
    Функция для получения площади в объявлении. 
    Вход: текст для извлечения площади в объявлении.
    Выход: площадь в объявления.   
    """
    area = re.findall('Площадь по документам[\t\n\r]+.+', text_block)
    if len(area) > 0: 
        area = int(re.findall(r'\d{1,4}', area[0])[0])
    else: 
        area = None
    return area

def is_mortage_ad(text_block): 
    """
    Функция для получения статуса ипотеки в объявлении. 
    Вход: текст для извлечения статуса ипотеки в объявлении.
    Выход: статуса ипотеки в объявлении.   
    """
    is_mortage = re.findall('Подходит под ипотеку', text_block)
    if len(is_mortage) > 0: 
        is_mortage = 1
    else: 
        is_mortage = 0
    return is_mortage

def floor_ad(text_block): 
    """
    Функция для получения этажа в объявления. 
    Вход: текст для извлечения этажа в объявлении..
    Выход: этаж в объявления.  
    """
    floor = re.findall('Этаж[\t\n\r]+.+', text_block)
    if len(floor) > 0: 
        floor = clean_ad(floor[0])
    else: 
        floor = None
    return floor

def text_ad(bsObj_object): 
    """
    Функция для получения текста объявления. 
    Вход: текст для извлечения текста объявления.
    Выход: текста объявления.   
    """
    text = clean_ad(bsObj_object.text)
    tamplate_search = re.compile(r"""
    одходит\sпод\sипотеку\s.+.contacts__actions\s{\smargin-right:\s50%;\smargin-bottom:\s10px;\s}
    |Дом [не]*\s*сдан\s.+.contacts__actions\s{\smargin-right:\s50%;\smargin-bottom:\s10px;\s}
    |Состояние\sи\sособенности\sквартиры\s.+.contacts__actions\s{\smargin-right:\s50%;\smargin-bottom:\s10px;\s} 
    """, re.VERBOSE)
    text = tamplate_search.findall(text)
    tamplate_delete = re.compile(r"""
    Не\sподходит\sпод\sипотеку\s|Подходит\sпод\sипотеку\s
    |\s.contacts__actions\s{\smargin-right:\s50%;\smargin-bottom:\s10px;\s}
    |\$\(function.+|Дом\s*[не]*сдан\s
    |Состояние\sи\sособенности\sквартиры\s""", re.VERBOSE)
    if len(text) > 0: 
        text = tamplate_delete.sub('', text[0]).strip()
    else: 
        text = None
    return text

def is_balcony(text):
    """
    Функция для получения наличия балкона. 
    Вход: очищенный текст. 
    Выход: 1 - есть балкон, 0 - нет балкона.
    """
    if len(re.findall('балкон', text)) > 0:
           result = 1
    else:
           result = 0
    return result

def is_builder_ad(bsObj_object, text_block):
    """
    Функция для возвращения принадлежности объявления к застройщику.
    Вход: bsObj_object - beautiful soup объект, text_block - текстовый блок.
    Выход: 0 - не принадлежит застройщику, 1 - принадлежит застройщику.
    """
    result = 0
    is_builder_raw = bsObj_object.find_all('span', {'data-field' : 'isAgency'})    
    if len(re.findall(r'Застройщик\n\t' , text_block)) > 0:
        result = 1
    elif len(is_builder_raw) > 0:
        is_builder = re.findall('От застройщика', is_builder_raw[0].text)
        if len(is_builder) > 0:
            result = 1
    else: 
        result = 0
    return result

# Соберем прокси-сервера

In [4]:
# Получаем и записываем таблицу с proxy
# os.chdir('/mnt/sdb1/Documents/Projects/web_scraping_flats/sripts')
# import proxy_loader

# proxy_loader = proxy_loader.proxy_loader() 
# proxy_df = proxy_loader.write_check_proxy()
# proxy_df.head()

In [5]:
proxy_df = pd.read_sql(
    con = engine,
    sql = """
    select 
            name 
    from 
            staging_tables.proxy_servers
    where 
            is_work = True
    """
)

# Создадим зацикливавние по прокси серверам
proxy_cycle = cycle(proxy_df.name)
proxy_df.head()

Unnamed: 0,name
0,51.38.69.83:8080
1,196.3.97.86:23500
2,98.172.141.251:8080
3,197.234.179.102:3128
4,46.225.242.246:1080


# Получаем даные предложений

In [6]:
# Получим количество страниц и предложений 
offers, pages = pages_all()
print(offers, pages)

3618 73


# Создаем таблицу обхода

In [7]:
link_ad_df = link_ad_all(pages)
link_ad_df.head()

Unnamed: 0,raw_url,url,page
0,/vladivostok/realty/sell_flats/1-komnatnaja-v-...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...
1,/vladivostok/realty/sell_flats/2-komnatnaja-kv...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...
2,/vladivostok/realty/sell_flats/prodazha-smart-...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...
3,/vladivostok/realty/sell_flats/3-komnatnaja-kv...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...
4,/vladivostok/realty/sell_flats/kvartiry-v-zhil...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...


In [8]:
# Перемешаем записи в таблице
link_ad_df = link_ad_df.sample(frac = 1)
link_ad_df.reset_index(drop = True, inplace = True)
link_ad_df['result_url'] = link_ad_df.apply(lambda x: [x['url'], x['page']], axis = 1)
link_ad_df.head()

Unnamed: 0,raw_url,url,page,result_url
0,/vladivostok/realty/sell_flats/dvuhurovnevaja-...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...,[https://www.farpost.ru/vladivostok/realty/sel...
1,/vladivostok/realty/sell_flats/prodaetsja-3-ko...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...,[https://www.farpost.ru/vladivostok/realty/sel...
2,/vladivostok/realty/sell_flats/prodam-trehkomn...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...,[https://www.farpost.ru/vladivostok/realty/sel...
3,/vladivostok/realty/sell_flats/prodaem-2-komna...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...,[https://www.farpost.ru/vladivostok/realty/sel...
4,/vladivostok/realty/sell_flats/1-komnatnaja-kv...,https://www.farpost.ru/vladivostok/realty/sell...,https://www.farpost.ru/vladivostok/realty/sell...,[https://www.farpost.ru/vladivostok/realty/sel...


In [9]:
link_ad_df.shape

(3618, 4)

# Генерируем таблицу обхода

In [10]:
# Генерируем табдлицу для обхода 
first_number = 0
multiple_number = 100
last_number = link_ad_df.shape[0] 

start_numbers = []
[start_numbers.append(i) for i in range(first_number, last_number, multiple_number)]
last_numbers = []
[last_numbers.append(i) for i in range(multiple_number, last_number + multiple_number, multiple_number)]
bypass_df = pd.DataFrame({'start_numbers' : start_numbers, 'last_numbers' : last_numbers})
# Подменим последнее значение
bypass_df.loc[bypass_df.shape[0]- 1, 'last_numbers'] = link_ad_df.shape[0]+ 1 
bypass_df.tail()

Unnamed: 0,start_numbers,last_numbers
32,3200,3300
33,3300,3400
34,3400,3500
35,3500,3600
36,3600,3619


# Собираем все объявления

## Поля сырых данных таблицы

Поле                          |  Значение                            
:-----------------------------|-----------------------------------
title                         | Заголовок
text                          | Текст
image                         | Список ссылок на картинки
address                       | Адрес
status_house                  | Статус дома 
price                         | Цена
area                          | Общая площадь
is_mortage                    | Подходит под ипотеку
floor                         | Этаж
url                           | url 
source                        | Источник

In [15]:
%%time
# Получаем все объявления
with ThreadPool(100) as p:
    for i in tqdm_notebook(range(1, 2)): #bypass_df.shape[0]
        docs = p.map(ad_fields, link_ad_df.result_url[bypass_df.start_numbers[i]:bypass_df.last_numbers[i]]) 
        farpost_df = pd.DataFrame()
        for i in docs: 
            current_table = pd.DataFrame(i)
            farpost_df = pd.concat([farpost_df, current_table], sort = False)
#         farpost_df.to_sql(
#             name = 'farpost',
#             schema = 'staging_tables',
#             con = engine,
#             if_exists = 'append',
#             index = False,
#             dtype = {
#                 'load_date' : sqlalchemy.DateTime()
#                 , 'title': sqlalchemy.Text()
#                 , '"text"': sqlalchemy.Text()
#                 , 'clean_text': sqlalchemy.Text()
#                 , 'lem_text' : sqlalchemy.Text()
#                 , 'image' : sqlalchemy.Text()
#                 , 'address': sqlalchemy.Text()
#                 , 'status_house' : sqlalchemy.Boolean()
#                 , 'price' : sqlalchemy.BigInteger() 
#                 , 'area' : sqlalchemy.FLOAT() 
#                 , 'is_mortage' : sqlalchemy.Boolean()
#                 , 'floor' : sqlalchemy.Text()
#                 , 'url' : sqlalchemy.Text()
#                 , 'source' : sqlalchemy.Text()
#             }
#         )

HBox(children=(IntProgress(value=0, max=1), HTML(value='')))

CPU times: user 25.7 s, sys: 874 ms, total: 26.6 s
Wall time: 1min 1s


In [16]:
farpost_df

Unnamed: 0,id,title,text,clean_text,lem_text,image,address,status_house,is_builder,price,area,is_mortage,floor,url,is_balcony,source,load_date
0,73503795,"1-комнатная, улица Адмирала Юмашева, 32",Просьба агентствам недвижимости не беспокоить!...,1 комнатная улица адмирала юмашева 32 просьба ...,1 комнатный улица адмирал юмашев 32 просьба аг...,[https://static.baza.farpost.ru/v/156807191738...,"Приморский край, Владивосток, улица Адмирала Ю...",1,0,4500000,30,1,,https://www.farpost.ru/vladivostok/realty/sell...,1,farpost,2019-09-10 23:07:02
0,7319797,Продаётся квартира,Продаётся квартира в центре п.Трудовой(Угольна...,продаётся квартира продаётся квартира в центре...,продаваться квартира продаваться квартира в це...,[https://static.baza.farpost.ru/v/156329353495...,"Приморский край, Владивосток, улица Лермонтова 64",1,0,4700000,54,1,,https://www.farpost.ru/vladivostok/realty/sell...,0,farpost,2019-09-10 23:07:05
0,75499810,Продается 3-х комнатная квартира,"3-х комнатная квартира ""сталинской"" постройки....",продается 3 х комнатная квартира 3 х комнатная...,продаваться 3 х комнатный квартира 3 х комнатн...,[https://static.baza.farpost.ru/v/156645528361...,"Приморский край, Владивосток, улица Верхнепорт...",1,0,11350000,83,1,,https://www.farpost.ru/vladivostok/realty/sell...,1,farpost,2019-09-10 23:06:50
0,75502762,Продаю отличную 3-х комнатную квартиру в новом...,одходит под ипотеку Компания «Росконтракт» пре...,продаю отличную 3 х комнатную квартиру в новом...,продавать отличный 3 х комнатный квартира в но...,[https://static.baza.farpost.ru/v/156646076472...,"Приморский край, Владивосток, улица Поселковая...",0,0,6600000,70,1,,https://www.farpost.ru/vladivostok/realty/sell...,1,farpost,2019-09-10 23:06:52
0,73993014,Продам отличную 2х уровневую квартиру с шикарн...,"Продам отличную большую 2х уровневую квартиру,...",продам отличную 2х уровневую квартиру с шикарн...,продать отличный 2х уровневый квартира с шикар...,[https://static.baza.farpost.ru/v/156135160346...,"Приморский край, Владивосток, улица Давыдова 35",1,0,13900000,138,1,,https://www.farpost.ru/vladivostok/realty/sell...,1,farpost,2019-09-10 23:06:47
0,73627633,Продается 1-комнатная квартира по адресу: ул. ...,Агентство недвижимости «Кузнецы» предлагает к ...,продается 1 комнатная квартира по адресу ул не...,продаваться 1 комнатный квартира по адрес ул н...,[https://static.baza.farpost.ru/v/156506547075...,"Приморский край, Владивосток, улица Нейбута 27",1,0,4180000,33,1,,https://www.farpost.ru/vladivostok/realty/sell...,0,farpost,2019-09-10 23:06:49
0,72483980,"Продаем 3-комн. ""сталинку"" на среднем этаже с ...","Продаем квартиру в доме ""сталинской"" постройки...",продаем 3 комн сталинку на среднем этаже с бал...,продавать 3 комна сталинк на среднее этаж с ба...,[https://static.baza.farpost.ru/v/155652117422...,"Приморский край, Владивосток, улица Светланска...",1,0,6695000,60,1,,https://www.farpost.ru/vladivostok/realty/sell...,1,farpost,2019-09-10 23:06:37
0,74773299,Продается хорошая 3х комнатная квартира с крас...,"Центр недвижимости "" Прогресс"" предлагает к пр...",продается хорошая 3х комнатная квартира с крас...,продаваться хороший 3х комнатный квартира с кр...,[https://static.baza.farpost.ru/v/156393299015...,"Приморский край, Владивосток, улица Волкова 1а",1,0,5700000,62,1,,https://www.farpost.ru/vladivostok/realty/sell...,0,farpost,2019-09-10 23:07:05
0,75939183,"Продается 3х-комнатная квартира на Артековской, 3",АН Метры предлагает к продаже 3х-комнатную ква...,продается 3х комнатная квартира на артековской...,продаваться 3х комнатный квартира на артековск...,[https://static.baza.farpost.ru/v/156798678958...,"Приморский край, Владивосток, улица Артековская 3",1,0,4800000,61,1,,https://www.farpost.ru/vladivostok/realty/sell...,0,farpost,2019-09-10 23:06:40
0,70285745,"3-комнатная квартира в ЖК ""Меридианы Патрокла""...",одходит под ипотеку Предлагается к продаже 3-х...,3 комнатная квартира в жк меридианы патрокла в...,3 комнатный квартира в жк меридиан патрокл два...,[https://static.baza.farpost.ru/v/155002341956...,"Приморский край, Владивосток, улица Можайская ...",0,1,6558370,72,1,,https://www.farpost.ru/vladivostok/realty/sell...,0,farpost,2019-09-10 23:06:49


In [11]:
def ad_fields(url_list): 
    """
    Функция для получения полей объявления. 
    Вход: лист с url: 0 - url объвления, 1 - url страницы объявления. 
    Выход: data frame с полями таблицы. 
    """
    while True: 
        try:
            headers = {'User-Agent' : UserAgent().chrome}
            proxies = {'https' : 'https://' + next(proxy_cycle)}
            session = requests.Session()
            adapter = requests.adapters.HTTPAdapter(max_retries = 0)
            session.mount('https://', adapter)
            my_session(
                url = url_list[1], 
                proxies = proxies, 
                headers = headers,
                session = session,
                timeout = 5
            )
            offers_current = my_session(
                url = url_list[0], 
                proxies = proxies, 
                headers = headers,
                session = session  
            )

            bsObj_object = BeautifulSoup(offers_current.text, 'html5lib')
            # Пишем условие, если блокируют
            if len(re.findall('Из вашей подсети наблюдается подозрительная активность. Поставьте отметку, чтобы продолжить.', bsObj_object.text)) > 0:
                continue
            else:
                title = title_ad(bsObj_object)
                text = text_ad(bsObj_object)
                image = image_ad(bsObj_object)
                price = price_ad(bsObj_object)
                text_block = bsObj_object.find_all('div',{'id' : 'fieldsetView'})
                if len(text_block) > 0: 
                    text_block =  text_block[0].text
                    address = address_ad(text_block)
                    status_house = status_house_ad(text_block)
                    area = area_ad(text_block)
                    is_mortage = is_mortage_ad(text_block)
                    floor = floor_ad(text_block) 
                text_clean = clean_text(' '.join([str(title), str(text)]))
                text_lem = lem_text(text_clean)
                id_ad = int(re.findall(r'\d{1,20}.html$', url_list[0])[0].replace('.html', ''))
                balcony = is_balcony(text_clean)
                builder = is_builder_ad(bsObj_object = bsObj_object, text_block = text_block)
                current_df = pd.DataFrame({'id' : [id_ad], 'title' : [title], 'text' : [text], 'clean_text' : text_clean, 'lem_text' : text_lem, 'image' : [image], 'address' : [address], 
                                           'status_house' : [status_house], 'is_builder' : builder, 'price' : [price], 'area' : [area], 'is_mortage' : [is_mortage], 'floor' : [floor], 
                                           'url' : [url_list[0]], 'is_balcony' : balcony, 'source' : ['farpost']}) 
                current_df['load_date'] = [datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")]                
            break
        except (ConnectTimeout, ProxyError, ConnectionError, ReadTimeout) as e: 
            continue    
    return current_df

In [197]:
url_list = link_ad_df.result_url[3]

while True:     
    try:
        headers = {'User-Agent' : UserAgent().chrome}
        proxies = {'https' : 'https://' + next(proxy_cycle)}
        session = requests.Session()
        adapter = requests.adapters.HTTPAdapter(max_retries = 0)
        session.mount('https://', adapter)
        my_session(
            url = url_list[1], 
            proxies = proxies, 
            headers = headers,
            session = session,
            timeout = 3
        )
        offers_current = my_session(
            url = 'https://www.farpost.ru/vladivostok/realty/sell_flats/prodazha-smart-kvartir-v-zhk-atmosfera-68689174.html', 
            proxies = proxies, 
            headers = headers,
            session = session  
        )

        bsObj_object = BeautifulSoup(offers_current.text, 'html5lib')
        # Пишем условие, если блокируют
        if len(re.findall('Из вашей подсети наблюдается подозрительная активность. Поставьте отметку, чтобы продолжить.', bsObj_object.text)) > 0:
            continue
        else:
            title = title_ad(bsObj_object)
            text = text_ad(bsObj_object)
            image = image_ad(bsObj_object)
            price = price_ad(bsObj_object)
            text_block = bsObj_object.find_all('div',{'id' : 'fieldsetView'})
            if len(text_block) > 0: 
                text_block =  text_block[0].text
                address = address_ad(text_block)
                status_house = status_house_ad(text_block)
                area = area_ad(text_block)
                is_mortage = is_mortage_ad(text_block)
                floor = floor_ad(text_block)   
            print(address)
            if address is not None: 
                    longitude, latitude = address_coordinates(address = address, city_latitude = city_latitude, city_longitude = city_longitude)
            else: 
                longitude, latitude = None, None
            text_clean = clean_text(' '.join([title, text_block]))
            text_lem = lem_text(text_clean)  
            builder = is_builder_ad(bsObj_object = bsObj_object, text_block = text_block)
            current_df = pd.DataFrame({'title' : [title], 'text' : [text], 'clean_text' : text_clean, 'lem_text' : text_lem, 'image' : [image], 'address' : [address], 'longitude'  : longitude,
                                           'latitude' : latitude, 'status_house' : [status_house], 'price' : [price], 'area' : [area], 'is_mortage' : [is_mortage], 'floor' : [floor], 'url' : [url_list[0]], 
                                           'source' : ['farpost']})
            current_df['load_date'] = [datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")]
        break
    except (ConnectTimeout, ProxyError, ConnectionError, ReadTimeout): 
        continue  
current_df

Приморский край, Владивосток, улица Стрелковая 18а


Unnamed: 0,title,text,clean_text,lem_text,image,address,longitude,latitude,status_house,price,area,is_mortage,floor,url,source,load_date
0,Продажа Smart квартир в ЖК «Atmosfera»,одходит под ипотеку Жилой комплекс «ATMOSFERA»...,продажа smart квартир в жк atmosfera 8061622 и...,продажа smart квартира в жк atmosfera 8061622 ...,[https://static.baza.farpost.ru/v/156705969821...,"Приморский край, Владивосток, улица Стрелковая...",43.10513,131.950478,0,,,1,,https://www.farpost.ru/vladivostok/realty/sell...,farpost,2019-09-10 22:47:17


In [198]:
builder

1

In [None]:
проверить обработку текста
запись в бд проверить на всем массиве
средний пиксел


In [61]:
# %who_ls function
# %who_ls