# Parsing HTML documents

Для начала необходимо понять что такое HTML документ и как из него можно читать данные

HTML (HyperText Markup Language) — стандартизированный язык гипертекстовой разметки документов для просмотра веб-страниц в браузере. Веб-браузеры получают HTML документ от сервера по протоколам HTTP/HTTPS или открывают с локального диска, далее интерпретируют код в интерфейс, который будет отображаться на экране монитора.

Элементы HTML являются строительными блоками HTML страниц. С помощью HTML разные конструкции, изображения и другие объекты, такие как интерактивная веб-форма, могут быть встроены в отображаемую страницу. HTML предоставляет средства для создания заголовков, абзацев, списков, ссылок, цитат и других элементов. Элементы HTML выделяются тегами, записанными с использованием угловых скобок. Браузеры не отображают HTML-теги, но используют их для интерпретации содержимого страницы.

## DOM-tree и поиск значений

DOM – это представление HTML-документа в виде дерева тегов.

Начнём с такого, простого, документа:

<img src="./pictures/1.png"  
  width="600"
/>

Все, что есть в HTML, даже комментарии, является частью DOM.
Даже директива <!DOCTYPE...>, тоже является DOM-узлом. Она находится в дереве DOM прямо перед html. Мы не будем рассматривать этот узел, мы даже не рисуем его на наших диаграммах, но он существует.
Даже объект document, представляющий весь документ, формально является DOM-узлом.

В реальности DOM дерево выглядит сложнее, каждый елемент в дереве имеет свой тег и соотноситься с другими как дочерний или родитель:

<img src="./pictures/2.png"  
  width="1200"
/>

При такой схеме выгрузить необходимые данные было бы просто, но DOM документов обычно выглядит сложнее, дочерние елементы и родители могут иметь одинаковый тег(как на примере ниже div он же контейнер): 

<img src="./pictures/3.png"  
  width="600"
/>

## Class and Id

<b>Class</b> - универсальный атрибут тега, с помощью которого можно задать имя любому элементу на странице. Имя элемента в дальнейшем используется в качестве селектора в CSS и позволяет управлять стилями элемента. К тому же по имени класса удобно искать и манипулировать элементами на странице

<b>Id</b> - определяет уникальный идентификатор HTML-элемента. Значение атрибута <b>Id</b> должно быть уникальным в пределах HTML-документа.
Атрибут <b>Id</b> используется для указания определенного объявления стиля в таблице стилей. Он также используется для доступа к элементу с определенным идентификатором и управления им.

<img src="./pictures/4.png"  
  width="1400"
/>

В некоторых случаях DOM дерево может генерироваться на "лету" и использовать данные в зависимости от загруженной части сайта или переходах. 
В таких случаях использование парсинга будет затруднительной, т.к. в текущем варианте мы будем опираться на готовый "слепок" страницы и парсить ее.

## Ошибки со стороны веб приложения

- 400 — Bad Request. Обычно этот статус связан с ошибкой ввода, например, если пользователь вводит некорректный адрес электронной почты.
- 401 — Unauthorized. Этот статус связан с ситуацией, когда пользователь пытается получить доступ к чему-либо без авторизации там, где авторизация требуется. Также этот код ошибки подходит в ситуации, когда пользователь пытается выполнить действие, на которое у него нет прав.
- 403 — Forbidden. Разница между этим статусом и статусом 400 незначительная. Обычно код 403 говорит о том, что сервер понял запрос, но не может его выполнить. Например, такой статус можно возвращать, если пользователь ввёл номер акционного купона с истекшим сроком действия.
- 404 — Not Found. Это самый известный из «ошибочных» кодов ответа. Он сообщает, что запрошенный ресурс не найден. Это может произойти из-за некорректного URL, удалённой или перемещённой страницы.
- 409 — Conflict. В большинстве случаев этот статус говорит о конфликте управления версиями. Например, такое происходит, если пользователь пробует загрузить версию файла, которая старше загруженной ранее версии этого файла. Также этот код может говорить об ограничениях уникальности, например, если пользователь пытается повторно отправить электронное письмо (второй раз нажимает кнопку «Отправить», не дождавшись завершения действия).
- 500 — Internal Server Error. Этот статус говорит об ошибке, которую можно описать так: «Что-то пошло не так, но мы не знаем, что именно».
- 503 — Unavailable. Сервер вышел из строя, ошибка может быть запланированной или незапланированной.

## Статус ОК

- 200 ОК — самый популярный и нужный код ответа от сервера. Означает, что запрос со стороны клиента корректный и со стороны сервера выполняется без проблем. Все страницы, которые индексируются поисковыми системами, должны выдавать 200 ОК. 
- 301 Moved Permanently — указывает на перенаправление с одной страницы на другую.

# Новые библиотеки

## requests

requests библиотека позволяет нам легко и с минимальным количеством кода взаимодействовать с веб-приложениями. Это необходимо нам для решения любых задач, связанных с передачей информации от пользователя к серверу и обратно

загрузим библиотеку и посмотрим основные методы 

In [1]:
import requests

- Uniform Resource Locator. 

URL-адрес — это не что иное, как адрес данного уникального ресурса в Интернете. Теоретически каждый действительный URL-адрес указывает на уникальный ресурс.

зная что такое URL загрузим нашу страницу и посмотрим на результат 

In [2]:
URL_TEMPLATE = "https://www.ss.lv/lv/real-estate/flats/riga/all/hand_over/page48.html"

In [3]:
r = requests.get(URL_TEMPLATE)
print(r.status_code)

200


In [4]:
r.text[:200]

'<!DOCTYPE html>\r\n<HTML><HEAD>\r\n<title>SS.LV Dzīvokļi - Rīga, Cenas. Blakus, caurstaigājama..., Izīrē - Visi sludinājumi</title>\r\n<meta http-equiv="Content-Type" CONTENT="text/html; charset=UTF-8">\r\n<m'

мы полностью загрузили слепок страницы по URL адресу, теперь нужно вытащить необходимые нам данные, для этого воспользуемся библиотекой Beautiful Soup

## bs4

Beautiful Soup — это пакет Python для анализа документов HTML и XML. Он создает дерево синтаксического анализа для проанализированных страниц, которое можно использовать для извлечения данных из HTML, что полезно для очистки веб-страниц.

https://www.crummy.com/software/BeautifulSoup/bs4/doc/

In [2]:
from bs4 import BeautifulSoup as bs

Запуск документа «requests» через Beautiful Soup дает нам объект BeautifulSoup, который представляет документ как вложенную структуру данных:

In [6]:
soup = bs(r.text, "html.parser")

In [7]:
# тут можно увидеть данную структуру 
# soup

<img src="./pictures/5.png"  
  width="1200"
/>

Вот несколько простых способов навигации по этой структуре данных:

In [8]:
soup.title

<title>SS.LV Dzīvokļi - Rīga, Cenas. Blakus, caurstaigājama..., Izīrē - Visi sludinājumi</title>

In [9]:
soup.title.name

'title'

In [10]:
soup.title.string

'SS.LV Dzīvokļi - Rīga, Cenas. Blakus, caurstaigājama..., Izīrē - Visi sludinājumi'

In [11]:
soup.title.parent.name

'head'

In [12]:
soup.a

<a href="/lv/" title="Sludinājumi"><img alt="Sludinājumi" border="0" class="page_header_logo_ss" src="https://i.ss.lv/img/p.gif"/></a>

In [13]:
soup.find_all('a')[:5]

[<a href="/lv/" title="Sludinājumi"><img alt="Sludinājumi" border="0" class="page_header_logo_ss" src="https://i.ss.lv/img/p.gif"/></a>,
 <a class="a_menu" href="/lv/real-estate/flats/new/" title="Iesniegt Sludinājumu">Iesniegt Sludinājumu</a>,
 <a class="a_menu" href="/lv/login/" title="Mani Sludinājumi">Mani Sludinājumi</a>,
 <a class="a_menu" href="/lv/real-estate/flats/riga/search/" title="Meklēt sludinājumus">Meklēšana</a>,
 <a class="a_menu" href="/lv/favorites/" title="Memo">Memo</a>]

In [14]:
soup.find(id="tr_53431909")

метод <b>.find_all</b> принимает в себя параметры поиска по тегам, классам, id и другим параметрам тега. В нашем случае воспользуемся поиском по тегу + классу

In [15]:
parsed_data = soup.find_all('td', class_='msga2-o pp6')

посмотрим на результат

In [16]:
parsed_data[:12]

[<td c="1" class="msga2-o pp6" nowrap="">centrs<br/>Čaka 44</td>,
 <td c="1" class="msga2-o pp6" nowrap="">1</td>,
 <td c="1" class="msga2-o pp6" nowrap="">30</td>,
 <td c="1" class="msga2-o pp6" nowrap="">1/6</td>,
 <td c="1" class="msga2-o pp6" nowrap="">P. kara</td>,
 <td c="1" class="msga2-o pp6" nowrap="">55  €/dienā</td>,
 <td c="1" class="msga2-o pp6" nowrap="">centrs<br/>Barona 88</td>,
 <td c="1" class="msga2-o pp6" nowrap="">2</td>,
 <td c="1" class="msga2-o pp6" nowrap="">80</td>,
 <td c="1" class="msga2-o pp6" nowrap="">1/4</td>,
 <td c="1" class="msga2-o pp6" nowrap="">Specpr.</td>,
 <td c="1" class="msga2-o pp6" nowrap="">60  €/dienā</td>]

Другая распространенная задача — извлечение всего текста со страницы:

<img src="./pictures/6.png"  
  width="1000"
/>

In [17]:
parsed_data[0].get_text()

'centrsČaka 44'

get_text() удалил все теги и их параметры, при этом используемый тег br (служит для переноса строки) также был сьеден и привел к тому что наш текст "слипился"

для избежания таких ситуаций проставим сепаратор который в дальнейшем будет легко удалить/заменить для разрыва текста

In [18]:
parsed_data[0].get_text("|")

'centrs|Čaka 44'

In [19]:
for i in range(0,7):
    print(parsed_data[i].get_text("|"))

centrs|Čaka 44
1
30
1/6
P. kara
55  €/dienā
centrs|Barona 88


# Example 

## Variant 1

In [20]:
import pandas as pd
import numpy as np

In [21]:
URL_TEMPLATE = "https://www.ss.lv/lv/real-estate/flats/riga/all/sell/"
r = requests.get(URL_TEMPLATE)
print(r.status_code)

200


In [22]:
soup = bs(r.text, "html.parser")
parsed_data = soup.find_all('td', class_='msga2-o pp6')

In [23]:
parsed_data[:12]

[<td c="1" class="msga2-o pp6" nowrap="">Čiekurkalns<br/>Rusova 28</td>,
 <td c="1" class="msga2-o pp6" nowrap="">1</td>,
 <td c="1" class="msga2-o pp6" nowrap="">43</td>,
 <td c="1" class="msga2-o pp6" nowrap="">5/5</td>,
 <td c="1" class="msga2-o pp6" nowrap="">M. ģim.</td>,
 <td c="1" class="msga2-o pp6" nowrap="">34,000  €</td>,
 <td c="1" class="msga2-o pp6" nowrap="">Ķengarags<br/>Maskavas 260</td>,
 <td c="1" class="msga2-o pp6" nowrap="">2</td>,
 <td c="1" class="msga2-o pp6" nowrap="">48</td>,
 <td c="1" class="msga2-o pp6" nowrap="">2/5</td>,
 <td c="1" class="msga2-o pp6" nowrap="">LT proj.</td>,
 <td c="1" class="msga2-o pp6" nowrap="">41,000  €</td>]

<img src="./pictures/7.png"  
  width="1000"
/>

In [24]:
page_array = []

i = 0
for data in parsed_data:
    page_array.append([i, data.get_text("|")])
    i += 1
    
df_tmp = pd.DataFrame(page_array, columns=['line', 'data'])    

тут мы получили нумерованный массив данных. 

Как показано на рисунке выше, все даннные (даже табличные) превратились в строки, что б исправить эту ситуацию возьмем сделаем индекс столбца, для этого воспользуемся делением без остатка

In [25]:
df_tmp['head'] = df_tmp['line']%6

In [26]:
df_tmp.head(10)

Unnamed: 0,line,data,head
0,0,Čiekurkalns|Rusova 28,0
1,1,1,1
2,2,43,2
3,3,5/5,3
4,4,M. ģim.,4
5,5,"34,000 €",5
6,6,Ķengarags|Maskavas 260,0
7,7,2,1
8,8,48,2
9,9,2/5,3


отлично! у нас в таблице появился индекс столбца, осталось добавить индекс строки, для этого воспользуемся методом `.cumcount()`, он выполняет аналогичные действия оконным функциям SQL `count() over (partition by column1 group by column1)`

In [27]:
df_tmp['group'] = df_tmp.groupby('head').cumcount()

In [28]:
df_tmp.head(10)

Unnamed: 0,line,data,head,group
0,0,Čiekurkalns|Rusova 28,0,0
1,1,1,1,0
2,2,43,2,0
3,3,5/5,3,0
4,4,M. ģim.,4,0
5,5,"34,000 €",5,0
6,6,Ķengarags|Maskavas 260,0,1
7,7,2,1,1
8,8,48,2,1
9,9,2/5,3,1


соберем читаемый вид нашей таблицы

In [29]:
df = df_tmp.loc[df_tmp['head']==0][['group', 'data']]

In [30]:
df = df.merge(df_tmp.loc[df_tmp['head']==1][['group', 'data']], how='left', on='group', suffixes=('','_rooms'))
df = df.merge(df_tmp.loc[df_tmp['head']==2][['group', 'data']], how='left', on='group', suffixes=('','_m2'))
df = df.merge(df_tmp.loc[df_tmp['head']==3][['group', 'data']], how='left', on='group', suffixes=('','_floor'))
df = df.merge(df_tmp.loc[df_tmp['head']==4][['group', 'data']], how='left', on='group', suffixes=('','_seria'))
df = df.merge(df_tmp.loc[df_tmp['head']==5][['group', 'data']], how='left', on='group', suffixes=('','_price'))

In [31]:
df.head()

Unnamed: 0,group,data,data_rooms,data_m2,data_floor,data_seria,data_price
0,0,Čiekurkalns|Rusova 28,1,43,5/5,M. ģim.,"34,000 €"
1,1,Ķengarags|Maskavas 260,2,48,2/5,LT proj.,"41,000 €"
2,2,Vecmīlgrāvis|Emmas 28,2,40,2/4,Renov.,"48,000 €"
3,3,Vecmīlgrāvis|Emmas 28,2,33,3/4,Specpr.,"38,000 €"
4,4,Purvciems|Staiceles 19,2,44,3/5,LT proj.,"48,000 €"


Мы выгрузили наши первые данные из страницы html, но есть проблема, страниц на сайте больше. 

Значит мы напишем функцию для обработки и выгрузки данных со всем страниц

### update script

наверняка вы слышали и такой вещи как `DDoS` атаки, это тип атаки хакеров на ресурс, при котором киберпреступники создают непрерывный поток запросов из разных источников, который мешают серверу работать.

Один из самых простых способов защиты от таких атак является лимитирование запросов которые мы можем направить на сайт, иногда этот обьем лимитируеться 500 запросами в секунду, а иногда 50 в минуту (в зависимости от русерсов сервера).

Мы в нашем случае не будет проверять сайты на прочность, наша задача достать данные и при этом не навредить работе сайта. Для этого воспользуемся новой библиотекой `time`, с ее помощью мы можем python просить замедлить запросы делая между каждым паузу

In [11]:
import time
from tqdm.notebook import tqdm

In [33]:
def load_data(link, time_sleep, page_num):
    
    # метод принимает в себя время для ождания в секундах
    time.sleep(time_sleep)
    
    # тут будет генерироваться новая страница 
    # если вы обратите внимание чем отличаються страницы, сделать цикл по ним не будет проблемой 
    # https://www.ss.lv/lv/real-estate/flats/riga/all/hand_over/page48.html
    # https://www.ss.lv/lv/real-estate/flats/riga/all/hand_over/page49.html
    
    link = link + 'page' + str(page_num) + '.html'
    
    # получаем реквест 
    r = requests.get(URL_TEMPLATE)
    
    # важно, если вернулся статус не 200, то из функции можно выходить 
    if r.status_code!=200:
        print('Error status', r.status_code)
        return 
    
    # парсим наши данные, все проводимые ранее операции 
    soup = bs(r.text, "html.parser")
    parsed_data = soup.find_all('td', class_='msga2-o pp6')
    
    page_array = []

    i = 0
    for data in parsed_data:
        page_array.append([i, data.get_text("|")])
        i += 1

    df_tmp = pd.DataFrame(page_array, columns=['line', 'data'])
    df_tmp['head'] = df_tmp['line']%6
    df_tmp['group'] = df_tmp.groupby('head').cumcount()
    
    
    # собираем наши данные в единный датафрейм  
    df_page = df_tmp.loc[df_tmp['head']==0][['group', 'data']]       
    df_page = df_page.merge(df_tmp.loc[df_tmp['head']==1][['group', 'data']], how='left', on='group', suffixes=('','_rooms'))
    df_page = df_page.merge(df_tmp.loc[df_tmp['head']==2][['group', 'data']], how='left', on='group', suffixes=('','_m2'))
    df_page = df_page.merge(df_tmp.loc[df_tmp['head']==3][['group', 'data']], how='left', on='group', suffixes=('','_floor'))
    df_page = df_page.merge(df_tmp.loc[df_tmp['head']==4][['group', 'data']], how='left', on='group', suffixes=('','_seria'))
    df_page = df_page.merge(df_tmp.loc[df_tmp['head']==5][['group', 'data']], how='left', on='group', suffixes=('','_price'))
    
    return df_page

In [34]:
# устанавливем стартовый URL 
URL_TEMPLATE = "https://www.ss.lv/lv/real-estate/flats/riga/all/sell/"

In [35]:
# делаем пробный запуск, из праметров
# наш URL
# время ожидания между запросами устанавливаем в 1 сек
# выбираем первую страницу

df = load_data(URL_TEMPLATE, 1, 1)

In [36]:
# данные выглядят отлично, повторяем операцию для 48 страниц 
df.head()

Unnamed: 0,group,data,data_rooms,data_m2,data_floor,data_seria,data_price
0,0,Čiekurkalns|Rusova 28,1,43,5/5,M. ģim.,"34,000 €"
1,1,Ķengarags|Maskavas 260,2,48,2/5,LT proj.,"41,000 €"
2,2,Vecmīlgrāvis|Emmas 28,2,40,2/4,Renov.,"48,000 €"
3,3,Vecmīlgrāvis|Emmas 28,2,33,3/4,Specpr.,"38,000 €"
4,4,Purvciems|Staiceles 19,2,44,3/5,LT proj.,"48,000 €"


In [37]:
# обратите внимание. лимит стоит на +1 страницу
for i in tqdm(range(2,50)):
    df  = pd.concat([df, load_data(URL_TEMPLATE, 1, i)])

  0%|          | 0/48 [00:00<?, ?it/s]

In [38]:
# выгрузка данных по продажам 1400+ данных
len(df)

1470

модифицируем результаты 

In [39]:
df.head()

Unnamed: 0,group,data,data_rooms,data_m2,data_floor,data_seria,data_price
0,0,Čiekurkalns|Rusova 28,1,43,5/5,M. ģim.,"34,000 €"
1,1,Ķengarags|Maskavas 260,2,48,2/5,LT proj.,"41,000 €"
2,2,Vecmīlgrāvis|Emmas 28,2,40,2/4,Renov.,"48,000 €"
3,3,Vecmīlgrāvis|Emmas 28,2,33,3/4,Specpr.,"38,000 €"
4,4,Purvciems|Staiceles 19,2,44,3/5,LT proj.,"48,000 €"


In [40]:
# почистим данные в data_price, удалим ' €','|' и ','
df['data_price'] = df['data_price'].apply(lambda x: x.replace(' €','').replace('|','').replace(',',''))
df['data_price'] = df['data_price'].astype('int64')

In [41]:
# разделим дистрикт и улицу на два столбца
df[['data_district', 'data_street']] = df['data'].str.split(pat='|', n=1 , expand=True )

In [42]:
# разделим этаж и максимальный этаж на два столбца
df[['data_cur_floor', 'data_max_floor']] = df['data_floor'].str.split(pat='/', n=1 , expand=True )

df['data_cur_floor'] = df['data_cur_floor'].astype('int64')
df['data_max_floor'] = df['data_max_floor'].astype('int64')

In [43]:
df['data_rooms'] = df['data_rooms'].astype('int64')

In [44]:
df = df[['data_district','data_street','data_rooms','data_cur_floor','data_max_floor','data_m2','data_seria','data_price']]

In [45]:
# наши данные 
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1470 entries, 0 to 29
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   data_district   1470 non-null   object
 1   data_street     1470 non-null   object
 2   data_rooms      1470 non-null   int64 
 3   data_cur_floor  1470 non-null   int64 
 4   data_max_floor  1470 non-null   int64 
 5   data_m2         1470 non-null   object
 6   data_seria      1470 non-null   object
 7   data_price      1470 non-null   int64 
dtypes: int64(4), object(4)
memory usage: 103.4+ KB


In [46]:
df.head()

Unnamed: 0,data_district,data_street,data_rooms,data_cur_floor,data_max_floor,data_m2,data_seria,data_price
0,Čiekurkalns,Rusova 28,1,5,5,43,M. ģim.,34000
1,Ķengarags,Maskavas 260,2,2,5,48,LT proj.,41000
2,Vecmīlgrāvis,Emmas 28,2,2,4,40,Renov.,48000
3,Vecmīlgrāvis,Emmas 28,2,3,4,33,Specpr.,38000
4,Purvciems,Staiceles 19,2,3,5,44,LT proj.,48000


# Variant 2

Если перейти на каждое обьявление отдельно, то можно обнаружить дополнительную информацию, при построение моделей машинного обучения любая информация будет полезной, попробуем ее достать

<img src="./pictures/8.png"  
  width="800"
/>

в первую очередь необходимо обратить внимание на URL который ведет на эту страницу и сравнить их с парой других

- https://www.ss.lv/msg/ru/real-estate/flats/riga/centre/eixne.html
- https://www.ss.lv/msg/ru/real-estate/flats/riga/imanta/iddkc.html
- https://www.ss.lv/msg/ru/real-estate/flats/riga/mezhapark/idogx.html

страницы ка кмы видим не пронумерованы, и каждый район имеет свою директиву, перебирать все не имеет значения, мы заберем все ссылки напрямую.

In [3]:
URL_TEMPLATE = "https://www.ss.lv/lv/real-estate/flats/riga/all/hand_over/"

In [4]:
r = requests.get(URL_TEMPLATE)
print(r.status_code)

200


в этот раз будем искать ссылки, они имеют тег `a` и class `am`

In [5]:
soup = bs(r.text, "html.parser")
parsed_data = soup.find_all('a', class_='am')

In [6]:
parsed_data[:2]

[<a class="am" data="JTdDJThFJTg5JUE3JUFGeCVGMXN5JTkxJTg4JUE1JUFGJTdCJUFFc3YlODklOEIlQTglQUF3JUE1cnM=|CXXpzEuB" href="/msg/lv/real-estate/flats/riga/sarkandaugava/cjigh.html" id="dm_53863040"><b>Сдаем 1 комнатную квартиру на длительный срок. 250€+ ком . услуг</b></a>,
 <a class="am" data="bCU5RCU3RmglOUYlOEYlRUMlODV6JTkyaSU5NXlmJUEwJTkwJUE2JTg4JTdCJThBZCU5NndmJTk4|4dG6hXpTEZ" href="/msg/lv/real-estate/flats/riga/kengarags/bxdkoe.html" id="dm_53862994">Līdz 2024. gada 30. aprīlim īrei tiek piedāvāts mēbelēts dzīvokl</a>]

интересующие нас данных хранятся в параметре `href`, этот параметр указывает назначение ссылки 

In [7]:
parsed_data[0].get('href')

'/msg/lv/real-estate/flats/riga/sarkandaugava/cjigh.html'

пришло время проапдейтить наш запрос и выгрузить все ссылки 

In [8]:
def get_link(link, time_sleep, page_num):
    
    time.sleep(time_sleep)
    link = link + 'page' + str(page_num) + '.html'
    r = requests.get(link)
    
    if r.status_code!=200:
        return 
    
    soup = bs(r.text, "html.parser")
    parsed_data = soup.find_all('a', class_='am')
    
    pars_links = []
    
    for data in parsed_data:
        pars_links.append(data.get('href'))
        
    return pars_links

In [9]:
link_array = []
URL_TEMPLATE = "https://www.ss.lv/lv/real-estate/flats/riga/all/hand_over/"

In [12]:
for i in tqdm(range(1,25)):
    link_array = link_array + get_link(URL_TEMPLATE, 1, i)

  0%|          | 0/24 [00:00<?, ?it/s]

In [13]:
link_array[:10]

['/msg/lv/real-estate/flats/riga/sarkandaugava/cjigh.html',
 '/msg/lv/real-estate/flats/riga/kengarags/bxdkoe.html',
 '/msg/lv/real-estate/flats/riga/imanta/egkmp.html',
 '/msg/lv/real-estate/flats/riga/mezhapark/chkjc.html',
 '/msg/lv/real-estate/flats/riga/yugla/hocbe.html',
 '/msg/lv/real-estate/flats/riga/krasta-st-area/dfxln.html',
 '/msg/lv/real-estate/flats/riga/aplokciems/cxchxc.html',
 '/msg/lv/real-estate/flats/riga/aplokciems/cbefoj.html',
 '/msg/lv/real-estate/flats/riga/aplokciems/kefcj.html',
 '/msg/lv/real-estate/flats/riga/agenskalns/bihhb.html']

Теперь осталось повторить операцию выше для каждой страницы, посмотрим как будет выглядеть парсер одной страницы

In [14]:
# обратите внимание, от нашего URL остался только домен, остальное мы будет добавлять из сохраненных ссылок
URL_TEMPLATE = "https://www.ss.lv"

In [15]:
URL_TEMPLATE += link_array[0]

In [16]:
r = requests.get(URL_TEMPLATE)
print('Error status', r.status_code)

Error status 200


In [17]:
soup = bs(r.text, "html.parser")
# parsed_data = soup.find_all('td', class_='msga2-o pp6')

In [18]:
parsed_data = soup.find_all('td', class_='ads_opt')
parsed_data

[<td class="ads_opt" id="tdo_20" nowrap=""><b>Rīga</b></td>,
 <td class="ads_opt" id="tdo_856" nowrap=""><b>Sarkandaugava</b></td>,
 <td class="ads_opt" id="tdo_11" nowrap=""><b>Hāpsalas 15</b> <span class="td15">[<a class="ads_opt_link_map" href="javascript:;" id="mnu_map" onclick="mnu('map',1,1,'/lv/gmap/fTgTeF4QAzt4FD4eFFM=.html?mode=1&amp;c=57.0020819, 24.1207736, 14');return false;">Karte</a>]</span></td>,
 <td class="ads_opt" id="tdo_1" nowrap="">1</td>,
 <td class="ads_opt" id="tdo_3" nowrap="">48 m²</td>,
 <td class="ads_opt" id="tdo_4" nowrap="">5/9</td>,
 <td class="ads_opt" id="tdo_6" nowrap="">Specpr.</td>,
 <td class="ads_opt" id="tdo_2" nowrap="">Ķieģeļu-paneļu</td>,
 <td class="ads_opt" id="tdo_1734" nowrap="">Terase</td>]

In [19]:
# все данные получили
for i in parsed_data:
    print(i.get_text("|"))

Rīga
Sarkandaugava
Hāpsalas 15| |[|Karte|]
1
48 m²
5/9
Specpr.
Ķieģeļu-paneļu
Terase


In [20]:
# теперь попробуем достать карту 
parsed_map = soup.find_all('a', class_='ads_opt_link_map')
print(parsed_map[0]['onclick'])

mnu('map',1,1,'/lv/gmap/fTgTeF4QAzt4FD4eFFM=.html?mode=1&c=57.0020819, 24.1207736, 14');return false;


In [21]:
# и тогда достанем и описание апартаментов 
parsed_text = soup.find_all('div', id='msg_div_msg')
parsed_text[0].get_text(" | ")

# обратите внимание, что в контейнере id=msg_div_msg захватывает и данные по атрибутам которые мы уже взяли, 
# это связано с принципом вложенности, в данном контейнере и находяться наши теги td

'\n | \r\n\r\nСдаем 1 комнатную квартиру на длительный срок. 250€+ ком . услуги.  | \r\nIzīrējam dzīvokli uz ilgu laiku. 250€+kom. maksājumi. | Pilsēta: | Rīga | Rajons: | Sarkandaugava | Iela: | Hāpsalas 15 |   | [ | Karte | ] | Istabas: | 1 | Platība: | 48 m² | Stāvs: | 5/9 | Sērija: | Specpr. | Mājas tips: | Ķieģeļu-paneļu | Ērtības: | Terase | Cena: | 250 €/mēn. (5.21 €/m²)'

In [22]:
# и как же без цены
parsed_price = soup.find_all('td', class_='ads_price')
parsed_price[0].get_text()

'250 €/mēn. (5.21 €/m²)'

## update script

In [291]:
# по традиции что выполняется больше 1го раза мы пишем в функцию. 
# напишем функцию в которую мы будем передавать ссылку. а все данные в ввиде массива будут приходить ответом 

In [23]:
def get_data_link(url, time_sleep):
    
    page_array = []
    time.sleep(time_sleep)
    
    # добавляем к существующему домену
    link = "https://www.ss.lv"
    link += url
    
    r = requests.get(link)
    if r.status_code!=200:
        return 
    
    soup = bs(r.text, "html.parser")
        
    # данные 
    parsed_data = soup.find_all('td', class_='ads_opt')   
    # координаты
    parsed_map = soup.find_all('a', class_='ads_opt_link_map')   
        
    # цена
    parsed_price = soup.find_all('td', class_='ads_price')    
    # описание 
    parsed_text = soup.find_all('div', id='msg_div_msg')
    
    
    for data in parsed_data:
        page_array.append(data.get_text("|"))

    if len(parsed_map)==1:
        page_array.append(parsed_map[0]['onclick'])
    else:
        page_array.append('')
    
    page_array.append(parsed_price[0].get_text())       
    page_array.append(parsed_text[0].get_text(" | "))
    
    return page_array

In [24]:
# data_array = []

# data_array.append(get_data_link(link_array[447], 1))

In [25]:
# data_array

In [26]:
# запишем все данные 
data_array = []

for links in tqdm(link_array):
    # у нас будет 1470 запросов. довольно много, иногда лучше увеличить время ожидания, чем поймать бан 
    # в нашем случае парсинг + выгрузка (с тайм аутом) занимают ~1,8 сек, этого обычно достаточно достаточно
    # из опыта могу сказать что в среднем устанавливают до 500 итераций в минуту или 8.3 в секунду
    data_array.append(get_data_link(links, 0.25))

  0%|          | 0/720 [00:00<?, ?it/s]

In [33]:
# в части данных присутсвует дополнительное поле "удобства", добавим строку для формирования df 
# в части данных присутсвует дополнительное поле "Kadastra numurs", добавим строку для формирования df 
data_array_upd = []
for i in data_array:
    if len(i)==11:
        i.insert(8, '').insert(9, '')
    if len(i)==12:
        i.insert(8, '')
    data_array_upd.append(i)

In [138]:
df = pd.DataFrame(data_array, columns=['city', 'district','street','rooms','area','floor','seria','house_type','kadastr_numb','facilities', 'map','price','all_data'])

In [139]:
df.sample(2)

Unnamed: 0,city,district,street,rooms,area,floor,seria,house_type,kadastr_numb,facilities,map,price,all_data
692,Rīga,Ķengarags,J. Rancāna 10| |[|Karte|],3,59 m²,1/5,LT proj.,Paneļu,1000782211.0,Parkošanas vieta,"mnu('map',1,1,'/lv/gmap/fTgTeF4QAzt4FD4eFFM=.h...",400 €/mēn. (6.78 €/m²),\n | \r\n\r\nIlgtermiņā izīrēju trīsistabu mēb...
79,Rīga,Āgenskalns,Dreiliņu 20| |[|Karte|],1,30 m²,3/5,Hrušč.,Ķieģeļu,,,"mnu('map',1,1,'/lv/gmap/fTgTeF4QAzt4FD4eFFM=.h...",200 €/mēn. (6.67 €/m²),"\n | \r\n\r\nDzīvoklis labā stāvoklī, silts, m..."


In [140]:
# преступим к очистке данных

In [141]:
df['city'].unique()

array(['Rīga'], dtype=object)

In [142]:
df['district'].unique()

array(['Sarkandaugava', 'Ķengarags', 'Imanta', 'Mežaparks', 'Jugla',
       'Krasta r-ns', 'Aplokciems', 'Āgenskalns', 'Pļavnieki',
       'Mangaļsala', 'Mežciems', 'Zolitūde', 'Ziepniekkalns', 'centrs',
       'Teika', 'Purvciems', 'Maskavas priekšpilsēta', 'Torņakalns',
       'Dārzciems', 'Vecāķi', 'Mangaļi', 'Dreiliņi', 'Jaunciems',
       'Vecrīga', 'Bolderāja', 'Bieriņi', 'Šķirotava', 'Čiekurkalns',
       'Iļģuciems', 'Šampēteris-Pleskodāle', 'Klīversala', 'Vecmīlgrāvis',
       'Dzegužkalns', 'Cits', 'Ķīpsala', 'Kundziņsala', 'Grīziņkalns',
       'Daugavgrīva'], dtype=object)

In [143]:
df[['data_street', 'map_link']] = df['street'].str.split(pat='|', n=1 , expand=True )

In [144]:
df = df.drop(['city','map_link','street','kadastr_numb'], axis=1)

In [145]:
df[['cur_floor', 'max_floor']] = df['floor'].str.split(pat='/', n=1 , expand=True )

In [146]:
df = df.drop(['floor'], axis=1)

In [147]:
def get_cord(row):
    # ищем стартовую точку 
    point_start = row['map'].find('c=') + 2
    
    first_coma = row['map'][point_start:].find(',') + 1
    second_coma = row['map'][point_start+first_coma:].find(',')
    
    cord = row['map'][point_start:point_start+first_coma+second_coma]
    
    return cord    

In [148]:
df['cord_map'] = df.apply(get_cord, axis=1)

In [149]:
df[['len', 'lon']] = df['cord_map'].str.split(pat=',', n=1 , expand=True )
df = df.drop(['cord_map'], axis=1)
df = df.drop(['map'], axis=1)

In [150]:
df['area'] = df['area'].apply(lambda x: x.replace(' m²',''))

In [151]:
df[['price_eur', 'else_price']] = df['price'].str.split(pat='(', n=1 , expand=True )

In [152]:
df = df.drop(['price','else_price'], axis=1)

In [153]:
df['max_floor'].unique()

array(['9', '12/lifts', '5', '3/lifts', '2', '9/lifts', '4/lifts', '6',
       '4', '3', '24/lifts', '5/lifts', '6/lifts', '7/lifts', '10/lifts',
       '1', '8/lifts', '25/lifts', '7', '16/lifts', '11/lifts', '26',
       '12', '24', '14/lifts', '23/lifts', '13/lifts', '23', '30/lifts',
       '16', '30'], dtype=object)

In [154]:
df[['total_floor', 'lift']] = df['max_floor'].str.split(pat='/', n=1 , expand=True )
df = df.drop(['max_floor'], axis=1)

In [155]:
df[['price', 'currency']] = df['price_eur'].str.split(pat=' €/', n=1 , expand=True )

In [156]:
df = df.drop(['price_eur'], axis=1)

In [157]:
df['price'] = df['price'].apply(lambda x: x.replace(' ',''))

In [158]:
df['lon'] = df['lon'].fillna('-1')
df['len'] = df['len'].fillna('-1')

df.loc[df['len']=='', 'len'] = '-1'
df.loc[df['lon']=='', 'lon'] = '-1'

In [159]:
df['len'] = df['len'].apply(lambda x: x.replace(' ',''))
df['lon'] = df['lon'].apply(lambda x: x.replace(' ',''))

In [160]:
df = df[['district','data_street','rooms','area','price','cur_floor','total_floor', 'lift', 'seria','house_type','facilities','len','lon','all_data']]

In [161]:
df['rooms'] = df['rooms'].astype('int64')
df['area'] = df['area'].astype('float64')
df['price'] = df['price'].astype('int64')
df['cur_floor'] = df['cur_floor'].astype('int64')
df['total_floor'] = df['total_floor'].astype('int64')
df['len'] = df['len'].astype('float64')
df['lon'] = df['lon'].astype('float64')

In [162]:
df_all_data = df['all_data']

In [163]:
df = df.drop(['all_data'], axis=1)

In [164]:
df['facilities'].unique()

array(['Terase', '', 'Terase, Parkošanas vieta', 'Lodžija',
       'Lodžija, Parkošanas vieta', 'Parkošanas vieta', 'Balkons',
       'Balkons, Lodžija, Terase', '01009250575',
       'Pirts, Parkošanas vieta', 'Balkons, Parkošanas vieta',
       'Balkons, Lodžija', '111', 'Balkons, Lodžija, Parkošanas vieta',
       '01009282776', 'Balkons, Lodžija, Terase, Parkošanas vieta',
       'Balkons, Terase, Parkošanas vieta',
       'Lodžija, Terase, Parkošanas vieta', 'Lodžija, Terase', '6745312',
       'Terase, Pirts'], dtype=object)

In [170]:
arr_facilities = ['Terase', 'Terase, Parkošanas vieta', 'Lodžija',
       'Lodžija, Parkošanas vieta', 'Parkošanas vieta', 'Balkons',
       'Balkons, Lodžija, Terase',
       'Pirts, Parkošanas vieta', 'Balkons, Parkošanas vieta',
       'Balkons, Lodžija', 'Balkons, Lodžija, Parkošanas vieta',
       'Balkons, Lodžija, Terase, Parkošanas vieta',
       'Balkons, Terase, Parkošanas vieta',
       'Lodžija, Terase, Parkošanas vieta', 'Lodžija, Terase',
       'Terase, Pirts']

In [168]:
df['lift'] = np.where(df['lift']=='lifts',1,0)

In [171]:
df['facilities'] = np.where(df['facilities'].isin(arr_facilities),df['facilities'],'')

In [172]:
df.head()

Unnamed: 0,district,data_street,rooms,area,price,cur_floor,total_floor,lift,seria,house_type,facilities,len,lon
0,Sarkandaugava,Hāpsalas 15,1,48.0,250,5,9,0,Specpr.,Ķieģeļu-paneļu,Terase,57.002082,24.120774
1,Ķengarags,Aviācijas 2e,1,33.0,230,5,12,1,Čehu pr.,Ķieģeļu-paneļu,,56.903375,24.200309
2,Imanta,Dubultu 21,1,27.0,190,5,5,0,LT proj.,Paneļu,,56.956592,24.004457
3,Mežaparks,Visbijas pr. 45,3,95.0,1400,2,3,1,Jaun.,Paneļu,"Terase, Parkošanas vieta",56.995671,24.145585
4,Jugla,Brīvības gatve 365a,1,41.0,440,1,2,0,Staļina,Mūra,,56.987076,24.219233
