# Библиотека BeautifulSoup

### ✍ Для поиска необходимых нам данных мы будем использовать библиотеку BeautifulSoup, которая позволяет по названию тегов и их атрибутов получать содержащийся в них текст.

### BeautifulSoup не является частью стандартной библиотеки, поэтому для начала её нужно установить. Например, в Jupyter Notebook это делается с помощью такой команды:

In [1]:
# Устанавливаем библиотеку BeautifulSoup
!pip install beautifulsoup4

Collecting beautifulsoup4
  Downloading beautifulsoup4-4.12.2-py3-none-any.whl (142 kB)
                                              0.0/143.0 kB ? eta -:--:--
     ----------                            41.0/143.0 kB 991.0 kB/s eta 0:00:01
     -------------------------------------- 143.0/143.0 kB 1.7 MB/s eta 0:00:00
Collecting soupsieve>1.2 (from beautifulsoup4)
  Downloading soupsieve-2.4.1-py3-none-any.whl (36 kB)
Installing collected packages: soupsieve, beautifulsoup4
Successfully installed beautifulsoup4-4.12.2 soupsieve-2.4.1


### После установки импортируем библиотеку в наш код:

In [2]:
from bs4 import BeautifulSoup # Импортируем библиотеку BeautifulSoup

### Теперь мы можем извлекать данные из любой веб-страницы.

### Ранее мы уже получили содержимое страницы с помощью GET-запроса и сохранили информацию в переменной response , теперь создадим объект BeautifulSoup с именем page, указывая в качестве параметра html.parser.

### Для примера получим информацию o title (с англ. заголовок) — это строка, которая отображается на вкладке браузера:

In [5]:
import requests # Импортируем библиотеку requests
from bs4 import BeautifulSoup # Импортируем библиотеку BeautifulSoup
url = 'https://nplus1.ru/news/2021/10/11/econobel2021' # Определяем адрес страницы
response = requests.get(url) # Выполняем GET-запрос, содержимое ответа присваивается переменной response
page = BeautifulSoup(response.text, 'html.parser') # Создаём объект BeautifulSoup, указывая html-парсер
print(page.title) # Получаем тег title, отображающийся на вкладке браузера
print(page.title.text) # Выводим текст из полученного тега, который содержится в атрибуте text

<title>Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей</title>
Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей


### Если при запросе к сайту, а затем при его разборе с помощью BeautifulSoup в тексте страницы не находится нужный тег, попробуйте вывести на печать пару тысяч символов текста страницы. Если там обнаружится нечто похожее на капчу, возможно, сайт посчитал вас роботом и отказывается выдавать содержимое. Чтобы получить его, попробуйте «притвориться» браузером при запросе из скрипта (https://whatmyuseragent.com/):

In [6]:
requests.get(url, headers={'User-Agent': 'Mozilla/5.0'})

<Response [200]>

## ИЗВЛЕКАЕМ ЗАГОЛОВОК И ВРЕМЯ НАПИСАНИЯ СТАТЬИ

### Выполним поставленную ранее задачу: получить информацию о странице и извлечь заголовок статьи, опубликованной на этой странице, дату публикации, а также текст статьи.

### Предположим, что мы знаем, что в HTML-коде рассматриваемой нами страницы заголовок статьи заключён в тег < h1 > … < /h1 > (заголовок первого уровня).

### Тогда мы можем получить его текст с помощью метода find() (с англ. найти) объекта BeautifulSoup, передав ему название интересующего нас тега:

In [10]:
# Применяем метод find() к объекту и выводим результат на экран
print(page.find('h1').text) 


            Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей
          


### Но как же узнать, в каких именно тегах заключена необходимая информация?

### Проще всего это сделать с помощью так называемого инструмента разработчика, который есть во всех современных браузерах. Покажем, как открыть данный инструмент на примере использования браузера Google Chrome.

### Устанавливаем курсор на элементе страницы (заголовок статьи), информацию о котором хотим получить, нажимаем на правую клавишу мыши и в выпадающем списке выбираем пункт «Просмотреть код элемента» или «Посмотреть код» в зависимости от браузера:

![Alt text](https://lms-cdn.skillfactory.ru/assets/courseware/v1/a38492b587bc7aa56e431c92397772b1/asset-v1%3ASkillFactory%2BDSPR-2.0%2B14JULY2021%2Btype%40asset%2Bblock/Python_17-extra-02.png)

### В открывшемся окне инструмента разработчика видим, что информация о заголовке статьи заключена в теге < h1 > … < /h1 >.

![Alt text](https://lms-cdn.skillfactory.ru/assets/courseware/v1/ad64fa87a085613e4fc8357573a8cc8b/asset-v1%3ASkillFactory%2BDSPR-2.0%2B14JULY2021%2Btype%40asset%2Bblock/Python_17-extra-03.png)



In [None]:
# 5.4
def wiki_header(url):
    response = requests.get(url) 
    page = BeautifulSoup(response.text, 'html.parser') 
    return(page.find('h1').text)

## НЕУНИКАЛЬНЫЕ ТЕГИ: ИЗВЛЕКАЕМ ТЕКСТ И ДАТУ ПУБЛИКАЦИИ СТАТЬИ

### Теперь получим сам текст статьи. Как вы уже знаете, первым делом необходимо определить, в какой тег он заключён. Применим, как и ранее, инструмент разработчика.

![Alt text](https://lms-cdn.skillfactory.ru/assets/courseware/v1/d9700bf66b1221e44f9671a4c01f9380/asset-v1%3ASkillFactory%2BDSPR-2.0%2B14JULY2021%2Btype%40asset%2Bblock/Python_17_12.png)

### Видим, что искомый текст заключён в тег  < div> … < /div> . Попробуем извлечь его уже известным нам способом — с помощью метода find() — и выведем его на экран.

In [11]:
print(page.find('div').text) # Выводим содержимое атрибута text тега div


























N + offline
N + production




                О нас
              

                Сложность
              

                Рекламодателям
              

                Авторам
              


Физика
Зоология
Астрономия
Генетика
Математика
Космонавтика


Археология
Нейронауки
На мышах
Звук
Красота
Научные закрытия


ИИ спешит на помощь
Когда рассеется дым
Книжная полка







































О нас
Сложность
Рекламодателям
Вакансии


Физика
Зоология
Астрономия
Генетика
Математика
Космонавтика
Археология
Нейронауки
На мышах
Звук
Красота
Научные закрытия
ИИ спешит на помощь
Когда рассеется дым
Книжная полка



N + offline
N + production












































13:04


11.10.21





1.1


Экономика


Нобелевская премия























            Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей
          


Илья Ферапонтов




Премия Шведского национального банка по 

### Мы увидели не то, что ожидали — кучу текста, не имеющего отношения к тому, что мы искали...

### В чём же проблема?

### Дело в том, что теги < div> … < /div> очень распространённые и на странице их очень много. Метод find() нашёл первый из них, но это не то, что нам надо.

### Посмотрим на нашу страницу, используя инструмент разработчика, ещё раз. Можем заметить, что у искомого текста есть свой класс — n1_material text-18 :

![Alt text](https://lms-cdn.skillfactory.ru/assets/courseware/v1/e4f28aa40cbebfacf72cd4e47c572619/asset-v1%3ASkillFactory%2BDSPR-2.0%2B14JULY2021%2Btype%40asset%2Bblock/Python_17_14.png)

### Передадим название класса в метод find() с помощью аргумента class_ и получим текст статьи:

In [12]:
print(page.find('div', class_='n1_material text-18').text) # Выводим содержимое атрибута text тега div класса n1_material text-18

Премия Шведского национального банка по экономическим наукам памяти Альфреда Нобеля за 2021 год присуждена Дэвиду Карду (David Card) за его вклад в эмпирические исследования экономики рынка труда, а также Джошуа Энгристу (Joshua Angrist) и Гвидо Имбенсу (Guido Imbens) за их вклад в методологию анализа причинно-следственных связей. Прямая трансляция церемонии объявления лауреатов шла на официальном сайте Нобелевской премии.


### В данном случае происходит поиск точного строкового значения class атрибута, т. е. выполнение строк кода:



In [13]:
print(page.find('div', class_='n1_material').text)
print(page.find('div', class_='n1_material text-18').text)
# даст одинаковый результат.

Премия Шведского национального банка по экономическим наукам памяти Альфреда Нобеля за 2021 год присуждена Дэвиду Карду (David Card) за его вклад в эмпирические исследования экономики рынка труда, а также Джошуа Энгристу (Joshua Angrist) и Гвидо Имбенсу (Guido Imbens) за их вклад в методологию анализа причинно-следственных связей. Прямая трансляция церемонии объявления лауреатов шла на официальном сайте Нобелевской премии.


### При выполнении строки кода:

In [14]:
print(page.find('div', class_='text-18 n1_material').text)

AttributeError: 'NoneType' object has no attribute 'text'

### мы получим ошибку, так как такого строкового значения в области поиска нет.

### Аналогично получим информации о теге, который содержит дату написания статьи, отображаемую в левом верхнем углу страницы.

![Alt text](https://lms-cdn.skillfactory.ru/assets/courseware/v1/aa75fe2811ade7010ec7ca54247f5399/asset-v1%3ASkillFactory%2BDSPR-2.0%2B14JULY2021%2Btype%40asset%2Bblock/Python_17-extra-04.png)

### Итак, нам нужен тег < a> … < /a> с классом "relative before:block before:w-px before:bg-current before:h-4 before:absolute before:left-0 group pl-2 flex inline-flex items-center". Для поиска достаточно указать в качестве класса "relative", отбросив дополнительные настройки.

### Теперь получим данные из него с помощью уже известного метода find(), передав название нужного тега:

In [15]:
# Выводим на экран содержимое атрибута text тега a с классом "relative"
print(page.find('a', class_= "relative").text)


11.10.21



### Задача решена — мы извлекли из контента страницы заголовок статьи, опубликованной на странице, дату публикации, а также текст статьи.

## СБОР НЕСКОЛЬКИХ ЭЛЕМЕНТОВ: СОБИРАЕМ ВСЕ ССЫЛКИ НА СТРАНИЦЕ

### Рассмотрим ещё один сценарий: вы хотите собрать сразу несколько элементов со страницы. Например, представьте, что вы хотите получить названия всех языков программирования, упомянутых на странице в Wikipedia в статье про языки программирования.

### Можно заметить, что все названия языков программирования на этой странице связаны ссылками c соответствующими статьями о них. Таким образом, нам необходимо собрать все ссылки на странице. Для ссылок в HTML предусмотрен тег < a> … < /a>. Попробуем использовать find():

In [16]:
url = 'https://en.wikipedia.org/wiki/List_of_programming_languages' # Задаём адрес ресурса
response = requests.get(url) # Делаем GET-запрос к ресурсу
page = BeautifulSoup(response.text, 'html.parser') # Создаём объект BeautifulSoup
print(page.find('a')) # Ищем ссылку по тегу <a> и выводим её на экран

<a class="mw-jump-link" href="#bodyContent">Jump to content</a>


### Мы получили только одну ссылку, хотя на странице их явно больше.

### Это происходит, потому что метод find() возвращает только первый подходящий элемент. Если требуется получить больше элементов, необходимо воспользоваться методом find_all() (с англ. найти все):

In [17]:
links = page.find_all('a') # Ищем все ссылки на странице и сохраняем в переменной links в виде списка
print(len(links)) # Выводим количество найденных ссылок

954


### Итак, на момент создания этих учебных материалов на странице содержалось 928 ссылок. Посмотрим на некоторые из них:

In [18]:
print([link.text for link in links[500:510]]) # Выводим ссылки с 500 по 509 включительно

['MAD', 'MAD/I', 'Magik', 'Magma', 'Máni', 'Maple', 'MAPPER', 'MARK-IV', 'Mary', 'MATLAB']


### Не все ссылки соответствуют названиям языков программирования — страница содержит также «служебные» ссылки, такие, например, как Jump to navigation (с англ. Перейти к навигации) или Alphabetical (с англ. По алфавиту):

In [19]:
print([link.text for link in links[0:10]]) # Выводим ссылки с 1 по 9 включительно

['Jump to content', 'Main page', 'Contents', 'Current events', 'Random article', 'About Wikipedia', 'Contact us', 'Donate', 'Help', 'Learn to edit']
