<div style="border: 1px solid white; padding: 5px; margin-right: auto;  width: 80%;">✍ Ресурс, с которым мы работали в предыдущем юните, возвращал ответ о текущем курсе валют в удобном, структурированном формате, из которого было легко извлечь необходимую информацию. Довольно часто для получения информации приходится обращаться напрямую к HTML-страницам.</div>

Для примера рассмотрим <a href="https://nplus1.ru/news/2021/10/11/econobel2021">страницу</a>, содержащую статью с информацией о присуждении Нобелевской премии по экономике в 2021 году, и попробуем извлечь из неё заголовок статьи, опубликованной на странице, дату публикации, а также текст статьи.

Получить содержимое страницы в большинстве случаев несложно, гораздо труднее извлечь из HTML-кода нужную информацию.

?
Что собой представляет HTML?

## Основы HTML

<div style="background-color: #e0fff3; padding: 15px; color: black; width: 80%;">  <b>HTML</b> (англ. HyperText Markup Language, рус. язык гипертекстовой разметки) — стандартизированный язык разметки документов в интернете. Большинство веб-страниц содержат описание разметки на языке HTML. Язык HTML интерпретируется браузерами. Полученный в результате интерпретации текст отображается на экране монитора компьютера или мобильного устройства.</div>

HTML позволяет создавать макет страницы, разбивая её на блоки: мы можем поместить содержимое посередине страницы, сбоку и т. п.

Кроме того, HTML используется для описания форматирования. Например, с его помощью мы можем указать, какая часть текста должна отображаться крупным шрифтом как заголовок, какая — курсивом, а какая — как обычный текст.

HTML является близким родственником уже знакомого вам формата XML. Разметка на языке HTML делается с помощью так называемых тегов, которые помещаются в угловые скобки, и применяется к элементам, заключённым внутри них. Посмотрите на примеры:

<h2> Это заголовок второго уровня </h2>
<div> А это обычный текст </div>

У корректной HTML-страницы есть заголовок и тело страницы. В заголовке (в тегах &lt;head> … &lt;/head>)  размещается техническая информация, подключаются скрипты и стили. В теле &lt;body> … &lt;/body> находятся текст и данные, которые непосредственно отображаются на странице в браузере.

Разметка небольшой страницы выглядит примерно так:

<!DOCTYPE html>
<html lang="ru">
    <head>
        <title>Название страницы</title>
        <meta charset="UTF-8">
    </head>
    <body>
        <h1> Это заголовок страницы </h1>
        <p> Какой-то текст </p>
    </body>
</html>

Вы можете сохранить этот код в текстовом файле с расширением .html и открыть этот файл в браузере.

<div style="background-color: #e0fff3; padding: 15px; color: black; width: 80%;">  Обратите внимание, что теги образуют иерархическую структуру, то есть одни теги расположены внутри других. В примере выше тег &lt;p> … &lt;/p> находится внутри тега &lt;body> … &lt;/body>.</div>

Кроме того, у тегов могут быть атрибуты, которые пишутся внутри открывающегося тега. Самые популярные атрибуты — это class и id:

<h1 id="big-title"> Заголовок страницы </h1>
<p class="red-back"> Какой-то текст </p>

Изучение языка HTML находится вне рамок этого курса, но для того, чтобы собирать информацию с веб-страниц, нет необходимости хорошо знать HTML. Достаточно понимать, что:

- существуют теги с разными именами;
- у тегов бывают атрибуты, такие как class и id;
- теги образуют иерархическую структуру, то есть одни теги вложены в другие.



<div style="border: 3px dotted white; padding: 5px; margin-right: auto;  width: 80%;"> 
ДОПОЛНИТЕЛЬНО

Вы можете ознакомиться с информацией о HTML в справочнике, перейдя по <a href="https://htmlbook.ru/html">ссылке</a>.
</div>

## Получаем содержимое веб-страницы

Получим HTML-код интересующей нас страницы.

Для этого отправим GET-запрос с помощью библиотеки requests и метода get() и посмотрим на текст ответа на наш запрос (как мы помним, он содержится в атрибуте text):

In [1]:
import requests  # Импортируем библиотеку requests

url = "https://nplus1.ru/news/2021/10/11/econobel2021"  # Определяем адрес страницы
response = requests.get(url)  # Выполняем GET-запрос
print(response.text)  # Выводим содержимое атрибута text

<!DOCTYPE html>
<html prefix="og: http://ogp.me/ns#" lang="ru">
<head>
  <meta charset="utf-8">
  <meta name="viewport" content="width=device-width, initial-scale=1">
  <title>Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей</title>
    <link rel="preload" href="https://staticn1.nplus1.ru/fonts/AeonikPro/AeonikPro-Regular.woff2" as="font" type="font/woff2" crossorigin />
    <link rel="preload" href="https://staticn1.nplus1.ru/fonts/Spectral/Spectral-Regular.woff" as="font" type="font/woff2" crossorigin />
  <link href="/front-build/css/main.css?id=c066269c9e31b8c5719ba747306ba601" rel="stylesheet">
  <link href="/front-build/css/app.css?id=20f90c4dc93fb680180b9868102e353c" rel="stylesheet">
  

  <link rel="apple-touch-icon" sizes="180x180" href="/apple-touch-icon.png">
  <link rel="icon" type="image/png" sizes="32x32" href="/favicon-32x32.png">
  <link rel="icon" type="image/png" sizes="16x16" href="/favicon-16x16.png">
  <link rel="

Ответ содержит HTML-код страницы, к которой мы обратились.

<div style="background-color: #e0fff3; padding: 15px; color: black; width: 80%;">  В отличие от предыдущего примера, где ответ возвращался в JSON-формате, мы не можем так просто преобразовать HTML-код в словарь и извлечь необходимую нам информацию.</div>

<div style="border: 1px solid white; padding: 5px; margin-right: auto;  width: 80%;">✍ Для поиска необходимых нам данных мы будем использовать библиотеку BeautifulSoup, которая позволяет по названию тегов и их атрибутов получать содержащийся в них текст.</div>

BeautifulSoup не является частью стандартной библиотеки, поэтому для начала её нужно установить. Например, в Jupyter Notebook это делается с помощью такой команды:

In [2]:
# Устанавливаем библиотеку BeautifulSoup

!pip install beautifulsoup4 

Collecting beautifulsoup4
  Downloading beautifulsoup4-4.12.2-py3-none-any.whl (142 kB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m143.0/143.0 KB[0m [31m509.8 kB/s[0m eta [36m0:00:00[0m kB/s[0m eta [36m0:00:01[0m
[?25hCollecting soupsieve>1.2
  Downloading soupsieve-2.5-py3-none-any.whl (36 kB)
Installing collected packages: soupsieve, beautifulsoup4
Successfully installed beautifulsoup4-4.12.2 soupsieve-2.5


После установки импортируем библиотеку в наш код:

In [3]:
from bs4 import BeautifulSoup  # Импортируем библиотеку BeautifulSoup

Теперь мы можем извлекать данные из любой веб-страницы.

Ранее мы уже получили содержимое страницы с помощью GET-запроса и сохранили информацию в переменной response , теперь создадим объект BeautifulSoup с именем page, указывая в качестве параметра html.parser.

Для примера получим информацию o title (с англ. заголовок) — это строка, которая отображается на вкладке браузера:



In [12]:
import requests  # Импортируем библиотеку requests
from bs4 import BeautifulSoup  # Импортируем библиотеку BeautifulSoup

url = "https://nplus1.ru/news/2021/10/11/econobel2021"  # Определяем адрес страницы
response = requests.get(
    url
)  # Выполняем GET-запрос, содержимое ответа присваивается переменной response
page = BeautifulSoup(
    response.text, "html.parser"
)  # Создаём объект BeautifulSoup, указывая html-парсер
print(page.title)  # Получаем тег title, отображающийся на вкладке браузера
print(
    page.title.text
)  # Выводим текст из полученного тега, который содержится в атрибуте text

<title>Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей</title>
Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей


<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">Если при запросе к сайту, а затем при его разборе с помощью BeautifulSoup в тексте страницы не находится нужный тег, попробуйте вывести на печать пару тысяч символов текста страницы. Если там обнаружится нечто похожее на капчу, возможно, сайт посчитал вас роботом и отказывается выдавать содержимое. Чтобы получить его, попробуйте «притвориться» браузером при запросе из скрипта:</div>

In [13]:
requests.get(url, headers={"User-Agent": "Mozilla/5.0"})

<Response [200]>

User-Agent своего браузера можно узнать по этой <a href="https://whatmyuseragent.com/">ссылке</a>.

## Извлекаем заголовок и время написания статьи

Выполним поставленную ранее задачу: получить информацию о <a href="https://nplus1.ru/news/2021/10/11/econobel2021">странице</a> и извлечь заголовок статьи, опубликованной на этой странице, дату публикации, а также текст статьи.

Предположим, что мы знаем, что в HTML-коде рассматриваемой нами страницы заголовок статьи заключён в тег &lt;h1> … &lt;/h1> (заголовок первого уровня).

Тогда мы можем получить его текст с помощью метода find() (с англ. найти) объекта BeautifulSoup, передав ему название интересующего нас тега:

In [14]:
# Применяем метод find() к объекту и выводим результат на экран
print(page.find("h1").text)


            Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей
          


⁉️ Но как же узнать, в каких именно тегах заключена необходимая информация?

Проще всего это сделать с помощью так называемого инструмента разработчика, который есть во всех современных браузерах. Покажем, как открыть данный инструмент на примере использования браузера Google Chrome.

Устанавливаем курсор на элементе страницы (заголовок статьи), информацию о котором хотим получить, нажимаем на правую клавишу мыши и в выпадающем списке выбираем пункт «Просмотреть код элемента» или «Посмотреть код» в зависимости от браузера.

<img src='../static/img/api_2.png' style='width: 70%;'>

В открывшемся окне инструмента разработчика видим, что информация о заголовке статьи заключена в теге &lt;h1> … &lt;/h1>.

<img src='../static/img/api_3.png' style='width: 70%;'>

###  Задание 5.3


Используя инструмент разработчика в браузере, определите, в каком теге лежит большой заголовок на странице в <a href="https://ru.wikipedia.org/wiki/Pink_Floyd">Wikipedia</a>. <br>
<img src='../static/img/api_4.jpg'>

<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
 h1
</code>
</details>

###  Задание 5.4

Напишите функцию wiki_header, которая по адресу страницы возвращает заголовок первого уровня для статей на Wikipedia.

Функция wiki_header принимает один аргумент - url.<br>
<code>wiki_header('https://en.wikipedia.org/wiki/Operating_system')
'Operating system'

</code>

<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
 h1
</code>
</details>

In [9]:
import requests  # Импортируем библиотеку requests
from bs4 import BeautifulSoup  # Импортируем библиотеку BeautifulSoup


def wiki_header(url):  # Определяем адрес страницы
    response = requests.get(
        url
    )  # Выполняем GET-запрос, содержимое ответа присваивается переменной response
    page = BeautifulSoup(
        response.text, "html.parser"
    )  # Создаём объект BeautifulSoup, указывая html-парсер
    return page.find("h1").text

In [10]:
wiki_header("https://en.wikipedia.org/wiki/Operating_system")

'Operating system'

## Неуникальные теги: извлекаем текст и дату публикации статьи

Теперь получим сам текст статьи. Как вы уже знаете, первым делом необходимо определить, в какой тег он заключён. Применим, как и ранее, инструмент разработчика.

<img src='../static/img/api_5.png' style='width: 70%;'>

Видим, что искомый текст заключён в тег  &lt;div> …  &lt;/div> . Попробуем извлечь его уже известным нам способом — с помощью метода find() — и выведем его на экран.

In [20]:
page.find("div").text  # Выводим содержимое атрибута text тега div

''

Мы увидели не то, что ожидали — кучу текста, не имеющего отношения к тому, что мы искали...

Дело в том, что теги &lt;div> … &lt;/div> очень распространённые и на странице их очень много. Метод find() нашёл первый из них, но это не то, что нам надо.

Посмотрим на нашу страницу, используя инструмент разработчика, ещё раз. Можем заметить, что у искомого текста есть свой класс — n1_material text-18 :





Передадим название класса в метод find() с помощью аргумента class_ и получим текст статьи:

In [21]:
print(
    page.find("div", class_="n1_material text-18").text
)  # Выводим содержимое атрибута text тега div класса n1_material text-18

Премия Шведского национального банка по экономическим наукам памяти Альфреда Нобеля за 2021 год присуждена Дэвиду Карду (David Card) за его вклад в эмпирические исследования экономики рынка труда, а также Джошуа Энгристу (Joshua Angrist) и Гвидо Имбенсу (Guido Imbens) за их вклад в методологию анализа причинно-следственных связей. Прямая трансляция церемонии объявления лауреатов шла на официальном сайте Нобелевской премии.


В данном случае происходит поиск точного строкового значения class атрибута, т. е. выполнение строк кода:

In [22]:
print(page.find("div", class_="n1_material").text)

Премия Шведского национального банка по экономическим наукам памяти Альфреда Нобеля за 2021 год присуждена Дэвиду Карду (David Card) за его вклад в эмпирические исследования экономики рынка труда, а также Джошуа Энгристу (Joshua Angrist) и Гвидо Имбенсу (Guido Imbens) за их вклад в методологию анализа причинно-следственных связей. Прямая трансляция церемонии объявления лауреатов шла на официальном сайте Нобелевской премии.


In [23]:
print(page.find("div", class_="n1_material text-18").text)

Премия Шведского национального банка по экономическим наукам памяти Альфреда Нобеля за 2021 год присуждена Дэвиду Карду (David Card) за его вклад в эмпирические исследования экономики рынка труда, а также Джошуа Энгристу (Joshua Angrist) и Гвидо Имбенсу (Guido Imbens) за их вклад в методологию анализа причинно-следственных связей. Прямая трансляция церемонии объявления лауреатов шла на официальном сайте Нобелевской премии.


даст одинаковый результат.

При выполнении строки кода

In [24]:
print(page.find("div", class_="text-18 n1_material").text)

AttributeError: 'NoneType' object has no attribute 'text'

мы получим ошибку, так как такого строкового значения в области поиска нет.

Аналогично получим информации о теге, который содержит дату написания статьи, отображаемую в левом верхнем углу страницы.

<img src='../static/img/api_6.png' style='width: 70%;'>

Итак, нам нужен тег &lt;a> …  &lt;/a> с классом "relative before:block before:w-px before:bg-current before:h-4 before:absolute before:left-0 group pl-2 flex inline-flex items-center". Для поиска достаточно указать в качестве класса "relative", отбросив дополнительные настройки.

Теперь получим данные из него с помощью уже известного метода find(), передав название нужного тега:

In [25]:
# Выводим на экран содержимое атрибута text тега a с классом "relative"
print(page.find("a", class_="relative").text)


11.10.21



<div style="border: 3px dotted white; padding: 5px; margin-right: auto;  width: 80%;"> О поиске по классу можно узнать подробнее в Beautiful Soup <a href= "https://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-by-css-class">Documentation</a>.</div>

Задача решена — мы извлекли из контента страницы заголовок статьи, опубликованной на странице, дату публикации, а также текст статьи.

## Сбор нескольких элементов: собираем все ссылки на странице

Рассмотрим ещё один сценарий: вы хотите собрать сразу несколько элементов со страницы. Например, представьте, что вы хотите получить названия всех языков программирования, упомянутых на <a href="https://en.wikipedia.org/wiki/List_of_programming_languages">странице</a> в Wikipedia в статье про языки программирования.

Можно заметить, что все названия языков программирования на этой странице связаны ссылками c соответствующими статьями о них. Таким образом, нам необходимо собрать все ссылки на странице. Для ссылок в HTML предусмотрен тег &lt;a> … &lt;/a>. Попробуем использовать find():

In [26]:
url = "https://en.wikipedia.org/wiki/List_of_programming_languages"  # Задаём адрес ресурса
response = requests.get(url)  # Делаем GET-запрос к ресурсу
page = BeautifulSoup(response.text, "html.parser")  # Создаём объект BeautifulSoup
print(page.find("a"))  # Ищем ссылку по тегу <a> и выводим её на экран

<a class="mw-jump-link" href="#bodyContent">Jump to content</a>


Мы получили только одну ссылку, хотя на странице их явно больше.

Это происходит, потому что метод find() возвращает только первый подходящий элемент. Если требуется получить больше элементов, необходимо воспользоваться методом find_all() (с англ. найти все):

In [27]:
links = page.find_all(
    "a"
)  # Ищем все ссылки на странице и сохраняем в переменной links в виде списка
print(len(links))  # Выводим количество найденных ссылок

959


Итак, на момент создания этих учебных материалов на странице содержалось 928 ссылок. Посмотрим на некоторые из них:

In [28]:
print(
    [link.text for link in links[500:510]]
)  # Выводим ссылки с 500 по 509 включительно

['Machine code', 'MAD', 'MAD/I', 'Magik', 'Magma', 'Máni', 'Maple', 'MAPPER', 'MARK-IV', 'Mary']


Не все ссылки соответствуют названиям языков программирования — страница содержит также «служебные» ссылки, такие, например, как Jump to navigation (с англ. Перейти к навигации) или Alphabetical (с англ. По алфавиту):

In [29]:
print([link.text for link in links[0:10]])  # Выводим ссылки с 1 по 9 включительно

['Jump to content', 'Main page', 'Contents', 'Current events', 'Random article', 'About Wikipedia', 'Contact us', 'Donate', 'Help', 'Learn to edit']


Для обработки полученных данных и исключения «лишней» информации можно, например, использовать подходы, которые вы изучили в модуле про очистку данных.

<div style="border: 1px solid white; padding: 5px; margin-right: auto;  width: 80%;">✍ В заключение заметим, что BeautifulSoup — достаточно мощная библиотека. Мы рассмотрели её базовые возможности, но их полный список гораздо шире. С ним можно ознакомиться в <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">официальной документации</a>.</div>