# **Библиотека BeautifulSoup**

Для поиска необходимых нам данных мы будем использовать библиотеку [**BeautifulSoup**](https://www.crummy.com/software/BeautifulSoup/bs4/doc.ru/), которая позволяет по названию тегов и их атрибутов получать содержащийся в них текст.

BeautifulSoup не является частью стандартной библиотеки, поэтому для начала её нужно установить. Например, в Jupyter Notebook это делается с помощью такой команды:

**pip install beautifulsoup4**

In [2]:
import pandas as pd
from IPython.display import display
# Импортируем библиотеку requests
import requests
from pprint import pprint
# Импортируем библиотеку BeautifulSoup
from bs4 import BeautifulSoup

Теперь мы можем извлекать данные из любой веб-страницы.

Ранее мы уже получили содержимое страницы с помощью *GET-запроса* и сохранили информацию в переменной *response*, теперь создадим объект *BeautifulSoup* с именем page, указывая в качестве параметра *html.parser*.

Для примера получим информацию o title (с англ. заголовок) — это строка, которая отображается на вкладке браузера:

In [3]:
url = 'https://nplus1.ru/news/2021/10/11/econobel2021' # Определяем адрес страницы
response = requests.get(url) # Выполняем GET-запрос, содержимое ответа присваивается переменной response
page = BeautifulSoup(response.text, 'html.parser') # Создаём объект BeautifulSoup, указывая html-парсер
print(page.title) # Получаем тег title, отображающийся на вкладке браузера
print(page.title.text) # Выводим текст из полученного тега, который содержится в атрибуте text

<title>Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей</title>
Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей


##### **ИЗВЛЕКАЕМ ЗАГОЛОВОК И ВРЕМЯ НАПИСАНИЯ СТАТЬИ**
***
Выполним поставленную ранее задачу: получить информацию о [странице](https://nplus1.ru/news/2021/10/11/econobel2021) и извлечь заголовок статьи, опубликованной на этой странице, дату публикации, а также текст статьи.

Предположим, что мы знаем, что в HTML-коде рассматриваемой нами страницы заголовок статьи заключён в тег < h1> … < /h1> (заголовок первого уровня).

Тогда мы можем получить его текст с помощью метода **find()** (с англ. найти) объекта BeautifulSoup, передав ему название интересующего нас тега:

In [4]:
# Применяем метод find() к объекту и выводим результат на экран
print(page.find('h1').text)

Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей


Но как же узнать, в каких именно тегах заключена необходимая информация?

Проще всего это сделать с помощью так называемого **инструмента разработчика**, который есть во всех современных браузерах.

In [5]:
# Выводим на экран содержимое атрибута text тега time
print(page.find('time').text)


13:04
11 Окт. 2021



In [10]:
# Напишите функцию wiki_header, которая по адресу страницы возвращает заголовок для статей на Wikipedia.
def wiki_header(url):
    response = requests.get(url)
    page = BeautifulSoup(response.text, 'html.parser')
    title = page.find('h1').text
    return title

print(wiki_header('https://en.wikipedia.org/wiki/Operating_system'))

Operating system


##### **НЕУНИКАЛЬНЫЕ ТЕГИ: ИЗВЛЕКАЕМ ТЕКСТ СТАТЬИ**
***
Теперь получим сам текст статьи. Как вы уже знаете, первым делом необходимо определить, в какой тег он заключён. Применим, как и ранее, инструмент разработчика.

![инструмент разработчика](https://lms.skillfactory.ru/assets/courseware/v1/49225813b65e51e70260b9d907fc1bc3/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/Python_17_12.jpg)

Видим, что искомый текст заключён в тег  < div> … < /div> . Попробуем извлечь его уже известным нам способом — с помощью метода **find()** — и выведем его на экран.

In [12]:
# Выводим содержимое атрибута text тега div
print(page.find('div').text)




Мы увидели не то, что ожидали — пустое содержимое...

Дело в том, что теги **< div> … < /div>** очень распространённые и на странице их очень много. Метод **find()** нашёл первый из них, но это не то, что нам надо.

Посмотрим на нашу страницу, используя инструмент разработчика, ещё раз. Можем заметить, что у искомого текста есть свой класс — **body js-mediator-article**:

![свой класс](https://lms.skillfactory.ru/assets/courseware/v1/b62dab1aaa4273c5e47d40ff8cb4bdb1/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/Python_17_14.jpg)

Передадим название класса в метод find() с помощью аргумента **class_** и получим текст статьи:

In [14]:
# Выводим содержимое атрибута text тега div класса body js-mediator-article
print(page.find('div', class_='body js-mediator-article').text)









Премия Шведского национального банка по экономическим наукам памяти Альфреда Нобеля за 2021 год присуждена Дэвиду Карду (David Card) за его вклад в эмпирические исследования экономики рынка труда, а также Джошуа Энгристу (Joshua Angrist) и Гвидо Имбенсу (Guido Imbens) за их вклад в методологию анализа причинно-следственных связей. Прямая трансляция церемонии объявления лауреатов шла на официальном сайте Нобелевской премии.









Слева направо: Дэвид Карт, Джошуа Энгрист и Гвидо Имбенс.
Niklas Elmehed © Nobel Prize Outreach



Поделиться



















Премия по экономике, в отличие от Нобелевских премий по физиологии и медицине, физике, химии и литературе, а также премии мира, была учреждена не самим Альфредом Нобелем, а Банком Швеции в 1968 году. Ее размер равен размеру остальных премий.Лауреаты этого года награждены за их исследования причинно-следственных связей в области социальных наук. В частности, Дэвид Кард из университета Калифорнии в Беркли начиная с 1990-х год

##### **СБОР НЕСКОЛЬКИХ ЭЛЕМЕНТОВ: СОБИРАЕМ ВСЕ ССЫЛКИ НА СТРАНИЦЕ**
***
Рассмотрим ещё один сценарий: вы хотите собрать сразу несколько элементов со страницы. Например, представьте, что вы хотите получить названия всех языков программирования, упомянутых на странице в Wikipedia в [**статье**](https://en.wikipedia.org/wiki/List_of_programming_languages) про языки программирования.

Можно заметить, что все названия языков программирования на этой странице связаны ссылками c соответствующими статьями о них. Таким образом, нам необходимо собрать все ссылки на странице. Для ссылок в HTML предусмотрен тег **< a> … < /a>**. Попробуем использовать find():

In [15]:
url = 'https://en.wikipedia.org/wiki/List_of_programming_languages' # Задаём адрес ресурса
response = requests.get(url) # Делаем GET-запрос к ресурсу
page = BeautifulSoup(response.text, 'html.parser') # Создаём объект BeautifulSoup
print(page.find('a')) # Ищем ссылку по тегу <a> и выводим её на экран

<a id="top"></a>


Мы получили только одну ссылку, хотя на странице их явно больше.

Это происходит, потому что метод find() возвращает только первый подходящий элемент. Если требуется получить больше элементов, необходимо воспользоваться методом **find_all()** (с англ. найти все):

In [16]:
links = page.find_all('a') # Ищем все ссылки на странице и сохраняем в переменной links в виде списка
print(len(links)) # Выводим количество найденных ссылок

939


In [17]:
print([link.text for link in links[500:510]]) # Выводим ссылки с 500 по 509 включительно

['Opal', 'Open Programming Language', 'OpenCL', 'OpenEdge Advanced Business Language', 'OpenVera', 'OpenQASM', 'OPS5', 'OptimJ', 'Orc', 'ORCA/Modula-2']


Не все ссылки соответствуют названиям языков программирования — страница содержит также «служебные» ссылки, такие, например, как Jump to navigation (с англ. Перейти к навигации) или Alphabetical (с англ. По алфавиту):

In [18]:
print([link.text for link in links[0:10]]) # Выводим ссылки с 1 по 9 включительно

['', 'Jump to navigation', 'Jump to search', 'Programming languagelists', 'Alphabetical', 'Categorical', 'Chronological', 'Generational', 'v', 't']
