# Парсинг HTML-страниц

*Текст лекции: Будылин Р.Я., Щуров И.В., НИУ ВШЭ*

Другие материалы курса [странице курса](https://github.com/ischurov/pythonhse).

### Немного про HTML

То, что вы видите выше — HTML-страница. HTML (HyperText Markup Language) — это такой язык разметки, являющийся частным случаем стандарта SGML. Другим частным случаем SGML является XML, с которым мы еще встретимся. 

Напишем простенькую HTML-страницу. Удобнее всего это делать в каком-либо редакторе. Но я запишу ее в файл через ноутбук.

In [1]:
my_html = '''
<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset = "UTF-8">
    <title>Title</title>
</head>
<body>
<h1>Hello</h1>
<p>I'm a paragraph.</p>
<hr>
<ol>
    <li>One</li>
    <li>Two</li>
</ol>
    
</body>
</html>
'''

In [2]:
with open('my.html', 'w', encoding='utf-8') as f:
    f.write(my_html)

Откройте `my.html` браузером и вы увидите простую веб-страничку. Видно что HTML разбит на специальные фрагменты, которые называются тегами. В тексте выше есть теги: `<html>`, `<head>`, `<title>` и т.д. Каждый тег отмечает какой-то кусочек веб-страницы. Тег `<title>` — это заголовок страницы. Тег `<ol>` отмечает упорядоченный список. Тег `<li>` отвечает элементу списка. Тег `<p>` — абзац (paragraph). Все перечисленные теги являются *парными*: они отмечают какой-то фрагмент текста (возможно, содержащий другие теги), помещая его между соответствующим открывающим и закрывающим тегом (например, `<li>` — открывающий тег, а `</li>` — закрывающий; всё, что между ними — это элемент списка). Исключением здесь является тег `<hr>`, который рисует горизонтальную линию (он работает и без `</hr>`).

Фактически HTML-страница представляет собой набор вложенных тегов. Можно сказать, что это дерево с корнем в теге `<html>`. У каждого тега есть потомки - те теги, которые непосредственно вложены в него. Например, у тега `<body>` потомками будут `<h1>`, `<p>`, `<hr>`, `<ol>`. Получается такое как бы генеалогическое древо.

HTML нас интересует с целью извлечения информации из такого дерева. Одним из наиболее популярных объектов для хранения информации являются таблицы, поэтмоу давайте вставим в наш файл небольшую таблицу: она обозначается тегом `<table>`, каждая строка таблицы выделяется тегом `<tr>` внутри `<table>`, а каждая ячейка — тегом `<td>` внутри `<tr>`.

In [4]:
my_html = '''
<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset = "UTF-8">
    <title>Title</title>
    <style type='text/css;'>
        table {
        border-collapse: collapse;
    }

    table, th, td {
        border: 1px solid black;
    }
    </style>
</head>
<body>
<h1>Hello</h1>
<p>I'm a paragraph.</p>
<hr>
<ol>
    <li>One</li>
    <li>Two</li>
</ol>
<table>
    <tr>
        <td>
            Cell 1
        </td>
        <td>
            Cell 2
        </td>
    </tr>
    <tr>
        <td>
            Cell 3
        </td>
        <td>
            Cell 4
        </td>
    </tr>
</table>
</body>
</html>
'''
with open('my.html', 'w') as f:
    f.write(my_html)

## BeautifulSoup

Для обработки веб-страниц существует множество пакетов. Проблема с HTML в том, что большинство браузеров ведет себя «прощающе», и поэтому в вебе много плохо-написанных (не по стандарту HTML) HTML-страниц. Впрочем, обработка даже не вполне корректного HTML-кода не так сложна, если под рукой есть подходящие инструменты.

Мы будем пользоваться пакетом *Beautiful Soup 4*. Он входит в стандартную поставку *Anaconda*, но если вы используете другой дистрибутив Python, возможно, вам придётся его установить вручную с помощью `pip install beautifulsoup4`.

> Пакет под названием `BeautifulSoup` — скорее всего, не то, что вам нужно. Это третья версия (*Beautiful Soup 3*), а мы будем использовать четвертую. Так что нам нужен пакет `beautifulsoup4`. Чтобы было совсем весело, при импорте нужно указывать другое название пакета — `bs4`, а импортировать функцию под названием `BeautifulSoup`. В общем, сначала легко запутаться, но эти трудности нужно преодолеть однажды, а потом будет проще.

In [2]:
from bs4 import BeautifulSoup

Чтобы использовать *Beautiful Soup*, нужно передать функции `BeautifulSoup` текст веб-страницы (в виде одной строки). Чтобы он не ругался, я также вручную указываю название парсера (той программы, которая как раз и осуществляет обработку HTML) — с целью совместимости я использую `html.parser` (он входит в поставку Python и не требует установки), но вы можете также попробовать использовать `lxml`, если он у вас установлен.

In [43]:
page = BeautifulSoup(my_html, 'html.parser')

Что теперь лежит в переменной `page`? Давайте посмотрим.

In [7]:
page


<!DOCTYPE html>

<html lang="en">
<head>
<meta charset="utf-8"/>
<title>Title</title>
<style type="text/css;">
        table {
        border-collapse: collapse;
    }

    table, th, td {
        border: 1px solid black;
    }
    </style>
</head>
<body>
<h1>Hello</h1>
<p>I'm a paragraph.</p>
<hr/>
<ol>
<li>One</li>
<li>Two</li>
</ol>
<table>
<tr>
<td>
            Cell 1
        </td>
<td>
            Cell 2
        </td>
</tr>
<tr>
<td>
            Cell 3
        </td>
<td>
            Cell 4
        </td>
</tr>
</table>
</body>
</html>

Мы видим, что объект `page` очень похож на строку, но, на самом деле, это не просто строка. К `page` можно делать запросы. Например:

In [8]:
page.html

<html lang="en">
<head>
<meta charset="utf-8"/>
<title>Title</title>
<style type="text/css;">
        table {
        border-collapse: collapse;
    }

    table, th, td {
        border: 1px solid black;
    }
    </style>
</head>
<body>
<h1>Hello</h1>
<p>I'm a paragraph.</p>
<hr/>
<ol>
<li>One</li>
<li>Two</li>
</ol>
<table>
<tr>
<td>
            Cell 1
        </td>
<td>
            Cell 2
        </td>
</tr>
<tr>
<td>
            Cell 3
        </td>
<td>
            Cell 4
        </td>
</tr>
</table>
</body>
</html>

Мы видим то, что внутри тега `<html>` (это почти вся страница, но самая первая строчка «отрезалась»). Можно пойти вглубь и посмотреть на содержимое `<head>`.

In [9]:
page.html.head

<head>
<meta charset="utf-8"/>
<title>Title</title>
<style type="text/css;">
        table {
        border-collapse: collapse;
    }

    table, th, td {
        border: 1px solid black;
    }
    </style>
</head>

Теперь мы видим только то, что внутри тега `<head>`. Мы можем пойти еще глубже, и получить то, что находится внутри тега `<title>`, который в свою очередь находится внутри тега `<head>` (говорят, что `<title>` является *потомком* `<head>`:

In [11]:
page.html.head.title

<title>Title</title>

Впрочем, можно было бы и не писать так подробно — поскольку в документе есть только один тег `<title>`, мы бы могли не указывать, что он находится внутри `<head>`, который находится внутри `<html>`.

In [12]:
page.head.title

<title>Title</title>

In [13]:
page.title

<title>Title</title>

Одним из потомков `<body>` является `<table>`. Ее можно получить вот так.

In [14]:
page.body.table

<table>
<tr>
<td>
            Cell 1
        </td>
<td>
            Cell 2
        </td>
</tr>
<tr>
<td>
            Cell 3
        </td>
<td>
            Cell 4
        </td>
</tr>
</table>

Допустим, что мне нужно получить несколько элементов с одинаковым тегом, например, все строки `<tr>`. Для этого используется такой синтаксис:

In [15]:
rows = page.body.table.findAll('tr')
rows

[<tr>
 <td>
             Cell 1
         </td>
 <td>
             Cell 2
         </td>
 </tr>, <tr>
 <td>
             Cell 3
         </td>
 <td>
             Cell 4
         </td>
 </tr>]

In [16]:
len(rows)

2

Мы видим, что это список из двух элементов. Так что по нему можно пройти циклом.

In [17]:
for i, row in enumerate(rows):
    print(i)
    print(row)

0
<tr>
<td>
            Cell 1
        </td>
<td>
            Cell 2
        </td>
</tr>
1
<tr>
<td>
            Cell 3
        </td>
<td>
            Cell 4
        </td>
</tr>


У нас есть 2 строчки и каждая из них является таким же объектом BeautifulSoup, как и все предыдущие. Так что к ним можно применить конструкцию row.td

In [18]:
for i, row in enumerate(rows):
    print(i)
    print(row.td)

0
<td>
            Cell 1
        </td>
1
<td>
            Cell 3
        </td>


Мы видим, что если внутри тега `<row>` есть несколько тегов `<td>`, то row.td возьмет первый из них. Поэтому мы получили первый столбец. Но нас интересует не сам тег `<td>`, а строка, которая там лежит. Её можно напечатать вот так.

In [21]:
for i, row in enumerate(rows):
    print(i)
    print(row.td.text)

0

            Cell 1
        
1

            Cell 3
        


Видно, что перед строкой идут ненужные пробелы. Удалим их командой strip

In [22]:
for i, row in enumerate(rows):
    print(i)
    print(row.td.text.strip())

0
Cell 1
1
Cell 3


Давайте загрузим таблицу в виде списка списков

In [24]:
table = []
for i, row in enumerate(rows):
    table.append([])
    for cell in row.findAll('td'):
        table[i].append(cell.text.strip())
print(table)

[['Cell 1', 'Cell 2'], ['Cell 3', 'Cell 4']]


У тегов, кроме названия, бывают еще свойства — например, в строчке `<html lang="en">` мы видим свойство `lang` у тега `<html>`, имеющее значение `"en"`. Другим важным примером тега со свойствами является тег `<a>`, который создает ссылку. У него есть свойство `href`, которое хранит собственно ссылку.

> Например, строка
> `<a href="http://math-info.hse.ru/s15/m">Курс по Python</a>`
> превращается в ссылку
> <a href="http://math-info.hse.ru/s15/m">Курс по Python</a>,
> ведущую на страницу нашего курса.

Теперь представим себе, что мы хотим сделать робота, который будет ходить по веб-страницам, и переходить с одной страницы на другую по ссылкам. Тогда мы сталкиваемся с задачей извлечь из страницы все гиперссылки.
Для этого нужно найти все теги `<a>` на странице, и у всех них взять параметр `<href>`. Для начала покажем как получить свойство объекта, например, `lang` у `html`. Это делается так как будто наш объект словарь, и мы берем его значение по ключу.

In [25]:
page.html['lang']

'en'

Если запросить свойство, которое тег не имеет, то мы получим KeyError, как и со словарем.

In [26]:
page.html['strange']

KeyError: 'strange'

Так же, как у словаря, есть метод `get()`, который ничего не возвращает, если такого свойства нет. Или возвращает значение по умолчанию, определенное нами.

In [27]:
page.html.get('strange')

In [47]:
page.html.get('strange', 'no-such-tag')

'no-such-tag'

Теперь извлечем все ссылки с какого-нибудь сайта

In [96]:
import requests
r = requests.get('http://perm.hse.ru')
page = BeautifulSoup(r.text, 'html.parser')

Вот все ссылки на нашей странице.

In [99]:
page('a')

[<a class="link no-visited with-icon with-icon_flag-msk" href="//hse.ru/">Москва</a>,
 <a class="link no-visited with-icon with-icon_flag-spb" href="//spb.hse.ru/">Санкт-Петербург</a>,
 <a class="link no-visited with-icon with-icon_flag-nn" href="//nnov.hse.ru/">Нижний Новгород</a>,
 <a class="campus_list__item link_no-underline link no-visited" href="//hse.ru/">Москва</a>,
 <a class="campus_list__item link_no-underline link no-visited" href="//spb.hse.ru/">Санкт-Петербург</a>,
 <a class="campus_list__item link_no-underline link no-visited" href="//nnov.hse.ru/">Нижний Новгород</a>,
 <a class="link link_no-visited link_no-underline" href="https://perm.hse.ru/">RU</a>,
 <a class="link link_no-visited link_no-underline" href="https://perm.hse.ru/en/">EN</a>,
 <a class="control control_user is-desktop" href="https://www.hse.ru/user/" title="Личный кабинет сотрудника ВШЭ"><ins><svg class="control_svg" height="18" viewbox="0 0 17 18" width="17" xmlns="http://www.w3.org/2000/svg"><path d="M1

Как видим, метод `findAll()` (или его сокращённая форма записи в виде просто скобочек) ищет не только по непосредственным «детям» какой-то вершины (в генеалогических терминах), но и по всем потомкам.

Напечатаем сами ссылки

In [100]:
for link in page.findAll("a"):
    print(link['href'])

//hse.ru/
//spb.hse.ru/
//nnov.hse.ru/
//hse.ru/
//spb.hse.ru/
//nnov.hse.ru/
https://perm.hse.ru/
https://perm.hse.ru/en/
https://www.hse.ru/user/
https://perm.hse.ru/search/search.html?simple=0&searchid=2284688
https://vk.com/hsestudents
http://instagram.com/hse_perm/
https://www.facebook.com/hseperm/
https://gaming.youtube.com/channel/UCmvnSTjj7GF0HmmN76LrKVA
https://twitter.com/HSE_PERM
http://perm.hse.ru/press
#news
#events
#around_360
#around_hse
#contacts
#sitemap
https://spinner.hse.ru
http://strategy.hse.ru/
https://perm.hse.ru/structure/
http://www.hse.ru/org/persons/?udept=135213
http://mailperm.hse.ru
https://perm.hse.ru/upr/inoffice/
https://spasibo.hse.ru/perm_projects
https://www.hse.ru/our/
https://perm.hse.ru/
https://perm.hse.ru/en/
https://www.hse.ru/user/
https://perm.hse.ru/search/search.html?simple=0&searchid=2284688
https://perm.hse.ru/
http://perm.hse.ru/abiturient/
http://perm.hse.ru/education/
http://perm.hse.ru/scienceperm/
https://perm.hse.ru/info
https://sh

KeyError: 'href'

Возьем только те теги, в которых есть атрибут `href`.

In [102]:
links = []
for link in page("a"):
    if 'href' in link.attrs:
        links.append(link['href'])
links

['//hse.ru/',
 '//spb.hse.ru/',
 '//nnov.hse.ru/',
 '//hse.ru/',
 '//spb.hse.ru/',
 '//nnov.hse.ru/',
 'https://perm.hse.ru/',
 'https://perm.hse.ru/en/',
 'https://www.hse.ru/user/',
 'https://perm.hse.ru/search/search.html?simple=0&searchid=2284688',
 'https://vk.com/hsestudents',
 'http://instagram.com/hse_perm/',
 'https://www.facebook.com/hseperm/',
 'https://gaming.youtube.com/channel/UCmvnSTjj7GF0HmmN76LrKVA',
 'https://twitter.com/HSE_PERM',
 'http://perm.hse.ru/press',
 '#news',
 '#events',
 '#around_360',
 '#around_hse',
 '#contacts',
 '#sitemap',
 'https://spinner.hse.ru',
 'http://strategy.hse.ru/',
 'https://perm.hse.ru/structure/',
 'http://www.hse.ru/org/persons/?udept=135213',
 'http://mailperm.hse.ru',
 'https://perm.hse.ru/upr/inoffice/',
 'https://spasibo.hse.ru/perm_projects',
 'https://www.hse.ru/our/',
 'https://perm.hse.ru/',
 'https://perm.hse.ru/en/',
 'https://www.hse.ru/user/',
 'https://perm.hse.ru/search/search.html?simple=0&searchid=2284688',
 'https://per

Попробуем отфильтровать теги по атрибуту `class`.

In [103]:
links = []
for link in page.findAll("a", {'class':"navigation__link"}):
    links.append(link['href'])
links

['https://perm.hse.ru/',
 'https://www.hse.ru/sveden/common',
 'https://perm.hse.ru/appeal',
 'https://www.hse.ru/anticorruption',
 'http://www.hse.ru/orgstructure/campus/perm/',
 'http://perm.hse.ru/structure/',
 'http://www.hse.ru/org/persons/?udept=135213',
 'http://phone.hse.perm.ru/',
 'https://www.hse.ru/buildinghse/perm',
 'https://perm.hse.ru/inclusive/',
 'https://pay.hse.ru/perm',
 'https://perm.hse.ru/',
 'http://perm.hse.ru/fdp/',
 'http://olymp.hse.ru/',
 'http://perm.hse.ru/bacalavr/',
 'http://perm.hse.ru/magistr/',
 'https://perm.hse.ru/admissions',
 'http://perm.hse.ru/business_education/',
 'https://perm.hse.ru/okrug/',
 'https://perm.hse.ru/',
 'http://perm.hse.ru/scienceperm/',
 'http://perm.hse.ru/cae/',
 'http://www.hse.ru/pubs.html',
 'http://www.hse.ru/pubs.html',
 'http://publications.hse.ru',
 'http://sophist.hse.ru/',
 'https://mailperm.hse.ru/',
 'http://minobr.permkrai.ru/',
 'https://perm.hse.ru/',
 'http://www.minobrnauki.gov.ru/',
 'https://edu.gov.ru/',

## Задача 1
Выгрузить только валидные ссылки и их подписи.

In [104]:
import pandas as pd
links_with_name = [
    {
        'link': 'https://perm.hse.ru/',
        'name': 'Сайт Вышки'
    }
]
df = pd.DataFrame(links_with_name)
df

Unnamed: 0,link,name
0,https://perm.hse.ru/,Сайт Вышки


## Задача 2

1. Собрать данные о квартирах c avito.ru (структурировать информацию).
2. Подсчитать статистику (самая дорогая/дешевая квартира, самая высокая, оценить кол-во квартир в каждом районе).
3. Написать программу, которая находит наиболее подходящую квартиру по заданным параметрам.

In [3]:
import requests
r = requests.get('https://www.avito.ru/perm/kvartiry')
page = BeautifulSoup(r.text, 'lxml')
page

<!DOCTYPE html>
<html> <head> <script>
 try {
 window.firstHiddenTime = document.visibilityState === 'hidden' ? 0 : Infinity;
 document.addEventListener('visibilitychange', function (event) {
 window.firstHiddenTime = Math.min(window.firstHiddenTime, event.timeStamp);
 }, { once: true });
 if ('PerformanceLongTaskTiming' in window) {
 var globalStats = window.__statsLongTasks = { tasks: [] };
 globalStats.observer = new PerformanceObserver(function(list) {
 globalStats.tasks = globalStats.tasks.concat(list.getEntries());
 });
 globalStats.observer.observe({ entryTypes: ['longtask'] });
 }
 if (PerformanceObserver && (PerformanceObserver.supportedEntryTypes || []).some(function(e) {
 return e === 'element'
 })) {
 if (!window.oet) {
 window.oet = [];
 }
 new PerformanceObserver(function(l) {
 window.oet.push.apply(window.oet, l.getEntries());
 }).observe({ entryTypes: ['element'] });
 }
 } catch (e) {
 console.error(e);
 }
 </script>
<script>
 window.dataLayer = [{"userAuth":0,"pageType

### Расширение SelectorGadget в Chrome
Кликаем по необходимой информации на сайте, получаем CSS-селектор для выбранного элемента

In [4]:
selector = '.js-item-extended'
for item in page.select(selector):
    print(item.select('.snippet-title-row')[0].text.strip())
    print('--------')

3-к квартира, 62 м², 2/5 эт.
--------
1-к квартира, 37.8 м², 5/6 эт.
--------
2-к квартира, 60 м², 14/25 эт.
--------
2-к квартира, 57.9 м², 2/6 эт.
--------
1-к квартира, 42 м², 1/16 эт.
--------
2-к квартира, 70 м², 12/25 эт.
--------
1-к квартира, 31 м², 4/5 эт.
--------
2-к квартира, 43 м², 5/5 эт.
--------
3-к квартира, 70 м², 9/10 эт.
--------
1-к квартира, 38.2 м², 1/2 эт.
--------
2-к квартира, 42.7 м², 5/5 эт.
--------
2-к квартира, 41 м², 1/6 эт.
--------
2-к квартира, 44 м², 4/5 эт.
--------
5-к квартира, 160.2 м², 16/16 эт.
--------
3-к квартира, 60 м², 4/5 эт.
--------
4-к квартира, 107.2 м², 13/17 эт.
--------
2-к квартира, 100 м², 6/10 эт.
--------
1-к квартира, 35 м², 21/25 эт.
--------
1-к квартира, 35 м², 6/25 эт.
--------
2-к квартира, 44.3 м², 5/5 эт.
--------
1-к квартира, 42 м², 7/10 эт.
--------
1-к квартира, 42 м², 4/16 эт.
--------
2-к квартира, 60 м², 4/4 эт.
--------
1-к квартира, 56 м², 9/25 эт.
--------
1-к квартира, 18 м², 5/5 эт.
--------
1-к квартира, 56

### Использование библиотеки Selenium для парсинга

In [None]:
from selenium.webdriver import Chrome
from time import sleep

# In this directory the following file https://chromedriver.storage.googleapis.com/index.html?path=78.0.3904.105/
# chromedriver_win32.zip -> chromedriver.exe
browser = Chrome('chromedriver.exe')
browser.get('https://www.avito.ru/')

In [None]:
search = browser.find_element_by_css_selector('#search')
search.clear()
search.send_keys('Тойота')
button = browser.find_element_by_css_selector('.button-default-mSfac')
button.click()

In [None]:
page = BeautifulSoup(browser.page_source, 'html.parser')