# Скрейпинг данных.

## Оглавление.

* ### [Введение](#Введение.)
* ### [Загрузка данных](#Загрузка-данных.)
    * #### [Кол-во комнат, площадь, этажи](#Кол-во-комнат,-площадь,-этажи)
    * #### [Путь до метро](#Путь-до-метро.)
* ### [Создание датафрейма](#Создание-датафрейма.)
* ### [Итог работы](#Итог-работы.)

## Введение.

Прежде чем делать какие-то манипуляции с данными, их необходимо получить. Так как нашей задачей является анализ квартир в городе Москва, то я решил взять данные из объявлений на сайте **Avito.**

Впервую очередь, посмотрим на саму сущность объявления и решим какие данные нам пригодятся

![Image of Yaktocat](../docs/model.png)

Исходя из представленных данных по объявлению, мною было решено взять следующее:
 * Цена квартиры.
 * Площадь квартиры.
 * Кол-во комнат в квартире.
 * Этаж на котором находится квартира.
 * Общее количество этажей в здание.
 * Улица.
 * Ближайшая станция метро.
 * Расстояние до метро.

In [1]:
'''
Импорт библиотек
'''
import time # импортируем чтобы делать засыпания после запросов.
import unicodedata # библиотека для форматирования юникода.
import requests # библиотека для запросов.
from bs4 import BeautifulSoup # библиотека для непосредственного скрепинга.

In [2]:
# URL страницы с объявлениями.
base_url = "https://www.avito.ru/moskva/kvartiry/prodam-ASgBAgICAUSSA8YQ?p="

'''
Массивы, которые будут хранить информацию об объявлениях.
'''
price_list = [] # Список цен.
few_info_list = [] # Список площади.
adress_list = [] # Список адрессов.
metro_station_list = [] # Список станций метро.
distance_to_metro_list = [] # Путь до метро.

## Загрузка данных.

<div class="alert alert-info" role="alert">
  Напишем функцию <b>get_remote_data</b>, которая непосредственно будет брать данные с сайта, а после заносить их в наши списки. В качестве параметра будет принимать стартовый номер страницы и последний номер страницы.
</div>

In [3]:
def get_remote_data(start_page, end_page):
    '''
    Получает удалённые данные с сайта с помощью скрепинга.
    
    Аргументы функции:
    start_page -- начальная страница данных.
    end_page -- конечная страница данных.
    '''
    while start_page <= end_page:
        url = base_url + str(start_page)
        response = requests.get(url)
        time.sleep(5) # Делаем паузу, чтобы сайт не подумал, что мы бот, т.к это может привести к временному бану.
        html_soup = BeautifulSoup(response.text, 'html.parser')
        
        apartments_info = html_soup.find_all('div',class_='iva-item-root-_lk9K photo-slider-slider-S15A_ iva-item-list-rfgcH iva-item-redesign-rop6P iva-item-responsive-_lbhG iva-item-ratingsRedesign-ydZfp items-item-My3ih items-listItem-Gd1jN js-catalog-item-enum')
        if apartments_info != []:
            for apartment in apartments_info:
                if apartment.is_empty_element == False:
                    apartment = apartment.find('div', class_='iva-item-content-rejJg').find('div', class_='iva-item-body-KLUuy')
                    
                    # Цена.
                    price = apartment.find('div', class_='iva-item-priceStep-uq2CQ') \
                            .find('span', class_='price-price-JP7qe').find_all('meta')[1].get('content')
                    price_list.append(price)
                
                    # Кол-во комнат, площадь, этажи.
                    few_info = apartment.find('div', class_='iva-item-titleStep-pdebR') \
                                .find('a', class_='link-link-MbQDP link-design-default-_nSbv title-root-zZCwT iva-item-title-py3i_ title-listRedesign-_rejR title-root_maxHeight-X6PsH') \
                                .find('h3', class_='title-root-zZCwT iva-item-title-py3i_ title-listRedesign-_rejR title-root_maxHeight-X6PsH text-text-LurtD text-size-s-BxGpL text-bold-SinUO').text
                    few_info = unicodedata.normalize("NFKD", few_info)
                    few_info_list.append(few_info)
                    
                    # Станция метро.
                    try:
                        metro = apartment.find('div', class_='iva-item-developmentNameStep-qPkq2') \
                                          .find('div', class_='geo-root-zPwRk iva-item-geo-_Owyg') \
                                           .find('div', class_='geo-georeferences-SEtee text-text-LurtD text-size-s-BxGpL') \
                                            .find_all('span')
                        if len(metro) > 1:
                            metro_station_list.append(metro[1].text)
                        else:
                            metro_station_list.append(metro[0].text)
                    except AttributeError:
                        metro_station_list.append(None)
                    
                    # Улица.
                    try:
                        adress = apartment.find('div', class_='iva-item-developmentNameStep-qPkq2') \
                                          .find('div', class_='geo-root-zPwRk iva-item-geo-_Owyg') \
                                           .find('span', class_='geo-address-fhHd0 text-text-LurtD text-size-s-BxGpL') \
                                            .find('span').text
                        
                        adress = unicodedata.normalize("NFKD", adress)
                        adress_list.append(adress)
                    except AttributeError:
                        adress_list.append(None)
                    
                    # Путь до метро.
                    try:
                        distance = apartment.find('div', class_='iva-item-developmentNameStep-qPkq2') \
                                          .find('div', class_='geo-root-zPwRk iva-item-geo-_Owyg') \
                                           .find('div', class_='geo-georeferences-SEtee text-text-LurtD text-size-s-BxGpL') \
                                            .find_all('span')[2].text
                        
                        distance = unicodedata.normalize("NFKD", distance)
                        distance_to_metro_list.append(distance)
                    except (AttributeError, IndexError):
                        distance_to_metro_list.append(None)
                    
            
        else:
            break
            
        start_page += 1

In [4]:
'''
Загрузка данных.
'''
get_remote_data(1, 10) # c 1-ой по 10-ую страницу.
get_remote_data(11, 20) # c 11-ой по 20-ую страницу.
get_remote_data(21, 40) # c 21-ой по 40-ую страницу.
get_remote_data(41, 60) # c 41-ой по 60-ую страницу.
get_remote_data(61, 80) # c 61-ой по 80-ую страницу.
get_remote_data(81, 100) # c 81-ой по 100-ую страницу.

<div class="alert alert-success" role="alert">
  Данные успешно получены, взглянем на них.
</div>

In [5]:
# Отобразим первые 5 записей.
for i in range(5):
    print(f'Запись №{i+1}')
    print(f'Цена: {price_list[i]}')
    print(f'Кол-во комнат, площадь, этажи: {few_info_list[i]}')
    print(f'Адрес: {adress_list[i]}')
    print(f'Станция метро: {metro_station_list[i]}')
    print(f'Путь до метро: {distance_to_metro_list[i]}\n')

Запись №1
Цена: 10069526
Кол-во комнат, площадь, этажи: 2-к. квартира, 39 м2, 13/13 эт.
Адрес: п. Сосенское, дер. Николо-Хованское, кв-л 26, д. 4
Станция метро: Прокшино
Путь до метро: ,  800 м

Запись №2
Цена: 7100000
Кол-во комнат, площадь, этажи: Квартира-студия, 18,1 м2, 3/9 эт.
Адрес: ул. Маршала Бирюзова, 22к2
Станция метро: Октябрьское поле
Путь до метро: ,  400 м

Запись №3
Цена: 16325220
Кол-во комнат, площадь, этажи: 3-к. квартира, 78,6 м2, 33/33 эт.
Адрес: ш. Открытое, вл. 18/1, корп. 1.4
Станция метро: Бульвар Рокоссовского
Путь до метро: ,  800 м

Запись №4
Цена: 10397235
Кол-во комнат, площадь, этажи: 2-к. квартира, 53,1 м2, 5/21 эт.
Адрес: пос. Московский, стр. 1
Станция метро: Филатов луг
Путь до метро: ,  2,6 км

Запись №5
Цена: 15361837
Кол-во комнат, площадь, этажи: 3-к. квартира, 85,3 м2, 20/21 эт.
Адрес: пос. Московский, стр. 1
Станция метро: Филатов луг
Путь до метро: ,  2,6 км



In [6]:
# Посмотрим на кол-во элементов в каждом списке.
print(f'Цена = {len(price_list)}')
print(f'Кол-во комнат, площадь, этажи = {len(few_info_list)}')
print(f'Адрес = {len(adress_list)}')
print(f'Станция метро = {len(metro_station_list)}')
print(f'Путь до метро = {len(distance_to_metro_list)}')

Цена = 3909
Кол-во комнат, площадь, этажи = 3909
Адрес = 3909
Станция метро = 3909
Путь до метро = 3909


<div class="alert alert-info" role="alert">
  После просмотра полученных данных, можно сделать следующие выводы:
</div>


 * Данные по цене представлены **корректно.**
 
 
 * Количество комнат, площадь и этажи **можно разделить на 4 списка**, а именно:
     * Количество комнат
     * Площадь
     * Этаж квартиры
     * Общее кол-во этажей в здание
     
     
 * Данные об адресе представлены **корректно.**
 
 
 * Данные об станции метро представлены **корректно.**
 
 
 * В списке, который хранит путь до метро имеется запятая в начале записи а так же 2 пробела. Так же информация представлена в виде метров или километров, это плохо, т.к может помешать анализу, необходимо сделать преобразование в единую меру измерения.

### Кол-во комнат, площадь, этажи

Информация о трёх переменных, хранится в 1 значение. Нужно выполнить разделение, по следующему принципу:

In [7]:
example = few_info_list[0]
print(f'Изначальные данные: {example}')

print(f"Кол-во комнат: {example.split(', ')[0]}")
print(f"Площадь: {example.split(', ')[1].split(' ')[0]}")
print(f"Этаж квартиры: {example.split(', ')[2].split('/')[0]}")
print(f"Этажей в здание: {example.split(', ')[2].split('/')[1].split(' ')[0]}")

Изначальные данные: 2-к. квартира, 39 м2, 13/13 эт.
Кол-во комнат: 2-к. квартира
Площадь: 39
Этаж квартиры: 13
Этажей в здание: 13


In [8]:
room_count_list = []
square_list = []
apartment_floor_list = []
total_floor_list = []

for i in range(len(few_info_list)):
    values = few_info_list[i].split(', ')
    room_count_list.append(values[0])
    square_list.append(values[1].split(' ')[0])
    apartment_floor_list.append(values[2].split('/')[0])
    total_floor_list.append(values[2].split('/')[1].split(' ')[0])

<div class="alert alert-success" role="alert">
  Данные успешно рассортированы!
</div>

### Путь до метро.

In [9]:
# Удаляем запятую и два пробела.
for i in range(len(distance_to_metro_list)):
    if distance_to_metro_list[i] != None:
        distance_to_metro_list[i] = distance_to_metro_list[i][3:]

In [10]:
# Преобразуем данные о расстояние в киллометры и убираем приписки.
for i in range(len(distance_to_metro_list)):
    if distance_to_metro_list[i] != None:
        # Возьмём 2 последних символа.
        last_chars = distance_to_metro_list[i][-2:]
        # Возьмём значение.
        value = distance_to_metro_list[i].split(' ')[0]
        value = value.replace(',', '.')
        
        if last_chars != 'км':
            distance_to_metro_list[i] = float(int(value) / 1000)
        else:
            distance_to_metro_list[i] = float(value)

<div class="alert alert-success" role="alert">
  Данные готовы для того, чтобы преобразовать их в датафрейм.
</div>

## Создание датафрейма.

Чтобы создать датафрейм, нам необходима библиотека **pandas**. Импортируем её.

In [11]:
# Импорт библиотеки pandas.
import pandas as pd

In [12]:
# Подготовим наши данные в виде словаря.
apartment_data = {
    'price': price_list,
    'square':square_list,
    'apartment_type': room_count_list,
    'apartment_floor': apartment_floor_list,
    'total_floors': total_floor_list,
    'adress': adress_list,
    'metro_station': metro_station_list,
    'distance_to_station': distance_to_metro_list
}

# Создаём датафрейм
df = pd.DataFrame(data=apartment_data)

# Отобразим его.
df

Unnamed: 0,price,square,apartment_type,apartment_floor,total_floors,adress,metro_station,distance_to_station
0,10069526,39,2-к. квартира,13,13,"п. Сосенское, дер. Николо-Хованское, кв-л 26, ...",Прокшино,0.8
1,7100000,181,Квартира-студия,3,9,"ул. Маршала Бирюзова, 22к2",Октябрьское поле,0.4
2,16325220,786,3-к. квартира,33,33,"ш. Открытое, вл. 18/1, корп. 1.4",Бульвар Рокоссовского,0.8
3,10397235,531,2-к. квартира,5,21,"пос. Московский, стр. 1",Филатов луг,2.6
4,15361837,853,3-к. квартира,20,21,"пос. Московский, стр. 1",Филатов луг,2.6
...,...,...,...,...,...,...,...,...
3904,11163571,536,2-к. квартира,18,21,"ул. Бартеневская, стр. 1.2",Бунинская аллея,1.0
3905,4990498,249,Квартира-студия,15,15,"6-я Радиальная ул., 3к5",Царицыно,1.7
3906,7003697,223,Квартира-студия,6,15,"п. Сосенское, дер. Николо-Хованское, ул. Никол...",Прокшино,1.3
3907,19246968,701,3-к. квартира,3,13,"2-й Котляковский пер., вл. 1/1",Варшавская,0.9


## Итог работы.

<div class="alert alert-info" role="alert">
 Датасет по квартирам получен и преобразован в датафрейм. Сохраним его и перейдём к предъобработке данных.
</div>

In [13]:
df.to_csv('../data/apartment_data.csv', index=False)