## Введение в парсинг с BeautifulSoup

*Алла Тамбовцева*

Импортируем необходимые библиотеки. Нам понадобится модуль `requests` для отправки запросов, для «подключения» к странице и получения её содержимого в виде строки, и функция `BeautifulSoup` из библиотеки `bs4` для удобного поиска по полученной строке:

In [1]:
import requests

In [2]:
from bs4 import BeautifulSoup

Подключаемся к небольшой учебной странице, файлу HTML, который размещен на [Github](https://raw.githubusercontent.com/allatambov/PyPolit2023/main/example.html). Увидеть, как эта выглядит сверстанная страница можно [здесь](https://htmlpreview.github.io/?https://raw.githubusercontent.com/allatambov/PyPolit2023/main/example.html).

In [3]:
link = "https://raw.githubusercontent.com/allatambov/PyPolit2023/main/example.html"
page = requests.get(link)

Объект, который мы сохранили в `page`, имеет особый тип *request*, он же запрос. Из него можно извлечь исходный код страницы в виде обычного текста (тип *string*). 

In [4]:
print(page.text)

<html>
<h1>Парсинг HTML – не так страшно</h1>
<p class="main">В самом простом случае достаточно немного разбираться в тэгах 
HTML, то есть понимать, в каких тэгах обычно располагаются ссылки, заголовки, абзацы с текстом или таблицы, а также 
запастись терпением для поиска нужной информации в исходном 
коде страницы.
</p>
<p>Библиотека BeautifulSoup позволяет превращать блоки HTML-кода,
которые представляют собой обычный текст с разметкой, в объекты, 
на которых удобно выполнять поиск по тэгам (или тэгам и атрибутам).
</p>
<p>Схема поиска простая:</p>
<ol>
<li>По исходному коду страницы выясняем, в каких тэгах 
заключена необходимая информация. Если одного тэга мало (таких тэгов несколько, результат неоднозначный), обращаем внимание на атрибуты вроде <i>class</i>, <i>name</i>, <i>itemprop</i>, <i>id</i>. Эти дополнительные характеристики помогут уточнить поиск и находить только то, что нужно.</li>
<li>Когда по тэгу нашли подходящий фрагмент HTML кода, извлекаем из него содержимое. Если 

Выполнять поиск по такой строке с тэгами не очень удобно (даже если вы знакомы с регулярными выражениями), поэтому преобразуем строку в объект типа `BeautifulSoup`. Такой объект внешне несильно отличается от обычной строки, однако внутри по структуре похож на словарь, и это сходство значительно упрощает поиск по тэгам и атрибутам. 

In [5]:
soup = BeautifulSoup(page.text)

In [6]:
# внешне то же самое, что и ранее
soup

<html>
<body><h1>Парсинг HTML – не так страшно</h1>
<p class="main">В самом простом случае достаточно немного разбираться в тэгах 
HTML, то есть понимать, в каких тэгах обычно располагаются ссылки, заголовки, абзацы с текстом или таблицы, а также 
запастись терпением для поиска нужной информации в исходном 
коде страницы.
</p>
<p>Библиотека BeautifulSoup позволяет превращать блоки HTML-кода,
которые представляют собой обычный текст с разметкой, в объекты, 
на которых удобно выполнять поиск по тэгам (или тэгам и атрибутам).
</p>
<p>Схема поиска простая:</p>
<ol>
<li>По исходному коду страницы выясняем, в каких тэгах 
заключена необходимая информация. Если одного тэга мало (таких тэгов несколько, результат неоднозначный), обращаем внимание на атрибуты вроде <i>class</i>, <i>name</i>, <i>itemprop</i>, <i>id</i>. Эти дополнительные характеристики помогут уточнить поиск и находить только то, что нужно.</li>
<li>Когда по тэгу нашли подходящий фрагмент HTML кода, извлекаем из него содержимое.

На объектах `BeautifulSoup` определены методы `.find()` и `.find_all()`. Оба метода возвращают фрагменты кода HTML, которые соответствуют критериям поиска, различие заключается в том, что метод `.find()` предназначен для поиска одного совпадения (если критериям поиска соответствует несколько элементов на странице, то берётся только первый), а метод `.find_all()` – для поиска всех совпадений. В первом случае результат возвращается в виде одного элемента типа `BeautifulSoup`, а во втором – в виде списка таких элементов. Давайте попробуем что-то поискать!

Найдём сначала заголовок первого уровня – он здесь точно один (тэг `<h1>`):

In [7]:
soup.find("h1")

<h1>Парсинг HTML – не так страшно</h1>

Результат – фрагмент кода HTML со всеми тэгами. Как получить «чистый» текст? Запросить текст с помощью атрибута `.text`:

In [8]:
h1 = soup.find("h1").text
print(h1)

Парсинг HTML – не так страшно


Теперь найдём все абзацы с текстом, они заключены в тэг `<p></p>`:

In [9]:
soup.find_all("p")

[<p class="main">В самом простом случае достаточно немного разбираться в тэгах 
 HTML, то есть понимать, в каких тэгах обычно располагаются ссылки, заголовки, абзацы с текстом или таблицы, а также 
 запастись терпением для поиска нужной информации в исходном 
 коде страницы.
 </p>, <p>Библиотека BeautifulSoup позволяет превращать блоки HTML-кода,
 которые представляют собой обычный текст с разметкой, в объекты, 
 на которых удобно выполнять поиск по тэгам (или тэгам и атрибутам).
 </p>, <p>Схема поиска простая:</p>, <p>Перечень тэгов и атрибутов HTML можно найти <a href="http://htmlbook.ru/html">здесь</a>.</p>]

Сохраним полученный список с названием `pars` и поработаем с ним!

In [10]:
pars = soup.find_all("p")
pars

[<p class="main">В самом простом случае достаточно немного разбираться в тэгах 
 HTML, то есть понимать, в каких тэгах обычно располагаются ссылки, заголовки, абзацы с текстом или таблицы, а также 
 запастись терпением для поиска нужной информации в исходном 
 коде страницы.
 </p>, <p>Библиотека BeautifulSoup позволяет превращать блоки HTML-кода,
 которые представляют собой обычный текст с разметкой, в объекты, 
 на которых удобно выполнять поиск по тэгам (или тэгам и атрибутам).
 </p>, <p>Схема поиска простая:</p>, <p>Перечень тэгов и атрибутов HTML можно найти <a href="http://htmlbook.ru/html">здесь</a>.</p>]

Извлечем из каждого элемента текст в чистом виде:

In [11]:
texts = [p.text for p in pars]
print(texts)

['В самом простом случае достаточно немного разбираться в тэгах \nHTML, то есть понимать, в каких тэгах обычно располагаются ссылки, заголовки, абзацы с текстом или таблицы, а также \nзапастись терпением для поиска нужной информации в исходном \nкоде страницы.\n', 'Библиотека BeautifulSoup позволяет превращать блоки HTML-кода,\nкоторые представляют собой обычный текст с разметкой, в объекты, \nна которых удобно выполнять поиск по тэгам (или тэгам и атрибутам).\n', 'Схема поиска простая:', 'Перечень тэгов и атрибутов HTML можно найти здесь.']


Теперь в каждом элементе уберем `\n`, заменим этот символ на пустую строку:

In [12]:
texts2 = [t.replace("\n", "") for t in texts]
print(texts2)

['В самом простом случае достаточно немного разбираться в тэгах HTML, то есть понимать, в каких тэгах обычно располагаются ссылки, заголовки, абзацы с текстом или таблицы, а также запастись терпением для поиска нужной информации в исходном коде страницы.', 'Библиотека BeautifulSoup позволяет превращать блоки HTML-кода,которые представляют собой обычный текст с разметкой, в объекты, на которых удобно выполнять поиск по тэгам (или тэгам и атрибутам).', 'Схема поиска простая:', 'Перечень тэгов и атрибутов HTML можно найти здесь.']


Отлично, теперь продолжим поиски и найдем аналогичным образом все элементы нумерованного списка. Сначала найдем сам список по тэгу `<ol>`:

In [13]:
ol = soup.find("ol")
print(ol)

<ol>
<li>По исходному коду страницы выясняем, в каких тэгах 
заключена необходимая информация. Если одного тэга мало (таких тэгов несколько, результат неоднозначный), обращаем внимание на атрибуты вроде <i>class</i>, <i>name</i>, <i>itemprop</i>, <i>id</i>. Эти дополнительные характеристики помогут уточнить поиск и находить только то, что нужно.</li>
<li>Когда по тэгу нашли подходящий фрагмент HTML кода, извлекаем из него содержимое. Если нас интересует текст внутри тэгов (текст между открывающим и закрывающим тэгом), из объекта BeautifulSoup вызываем атрибут <i>.text</i>, если значение какого-нибудь атрибута внутри тэга – запрашиваем его по названию атрибута как обычно запрашивали значения по ключу в словаре.</li>
</ol>


А теперь внутри него поищем отдельные элементы, которые заключены в тэги `<li>`:

In [14]:
elems = ol.find_all("li")
elems

[<li>По исходному коду страницы выясняем, в каких тэгах 
 заключена необходимая информация. Если одного тэга мало (таких тэгов несколько, результат неоднозначный), обращаем внимание на атрибуты вроде <i>class</i>, <i>name</i>, <i>itemprop</i>, <i>id</i>. Эти дополнительные характеристики помогут уточнить поиск и находить только то, что нужно.</li>,
 <li>Когда по тэгу нашли подходящий фрагмент HTML кода, извлекаем из него содержимое. Если нас интересует текст внутри тэгов (текст между открывающим и закрывающим тэгом), из объекта BeautifulSoup вызываем атрибут <i>.text</i>, если значение какого-нибудь атрибута внутри тэга – запрашиваем его по названию атрибута как обычно запрашивали значения по ключу в словаре.</li>]

Извлечем из каждого элемента текст:

In [15]:
elems_texts = [e.text for e in elems]
elems_texts

['По исходному коду страницы выясняем, в каких тэгах \nзаключена необходимая информация. Если одного тэга мало (таких тэгов несколько, результат неоднозначный), обращаем внимание на атрибуты вроде class, name, itemprop, id. Эти дополнительные характеристики помогут уточнить поиск и находить только то, что нужно.',
 'Когда по тэгу нашли подходящий фрагмент HTML кода, извлекаем из него содержимое. Если нас интересует текст внутри тэгов (текст между открывающим и закрывающим тэгом), из объекта BeautifulSoup вызываем атрибут .text, если значение какого-нибудь атрибута внутри тэга – запрашиваем его по названию атрибута как обычно запрашивали значения по ключу в словаре.']

А теперь давайте выполним более специфический поиск: найдем фрагмент не просто по тэгу, а по тэгу и атрибуту. Посмотрите на исходный код страницы в `soup`. Абзацев с текстом с тэгом `<p>` там несколько, но первый абзац выделяется, он имеет дополнительный атрибут `class` со значением `"main"`. Если нам нужно достать из страницы только этот абзац, поиск нужно будет уточнить. Это делается с помощью словаря:

In [16]:
# словарь {атрибут : значение}

main = soup.find("p", {"class" : "main"})
print(main)

<p class="main">В самом простом случае достаточно немного разбираться в тэгах 
HTML, то есть понимать, в каких тэгах обычно располагаются ссылки, заголовки, абзацы с текстом или таблицы, а также 
запастись терпением для поиска нужной информации в исходном 
коде страницы.
</p>


И теперь снова отсюда можно извлечь текст:

In [17]:
print(main.text)

В самом простом случае достаточно немного разбираться в тэгах 
HTML, то есть понимать, в каких тэгах обычно располагаются ссылки, заголовки, абзацы с текстом или таблицы, а также 
запастись терпением для поиска нужной информации в исходном 
коде страницы.



В заключение давайте поработаем со ссылкой. Ссылка на странице одна, она имеет тэг `<a>`:

In [18]:
soup.find("a")

<a href="http://htmlbook.ru/html">здесь</a>

Как правило, если мы ищем ссылки, нас интересует не их текст (слово «здесь» в нашем случае), а сами ссылки, которые переправляют нас на другие страницы. Сами ссылки хранятся в атрибуте `href`, и значение этого атрибута можно извлечь по его названию, как по ключу в словаре:

In [19]:
a = soup.find("a")
a.get("href")

'http://htmlbook.ru/html'

In [20]:
# или

a["href"]

'http://htmlbook.ru/html'

Такой поиск возможен, поскольку объекты BeautifulSoup внутри выглядят как словари. Так, внутри Python объект `<a href="http://htmlbook.ru/html">здесь</a>`
выглядит примерно так (примерно, потому что еще отдельно сохранен текст «здесь»):

    {"href" : "http://htmlbook.ru/html"}