# Парсинг веб-страниц и сбор данных в сети Интернет

В современном мире в свободном доступе находятся тонны неструктурированных данных/информации (в основном веб-данных). Порой необходимо исследовать тему, по которой в сети находится крайне малое количество структурированных баз данных, но при этом по нужной теме написано множество статей, есть наборы статистических показателей. Составлять таблицы данных вручную по неструктурированной информации из Интернета - занятие утомительное. Однако мы, как разработчики Python, можем автоматизироавть этот процесс с помощью библиотек веб-скрепинга.

Веб-скрепинг - очень полезный инструмент для преобразования неструктурированных данных в структурированные, которые легче читать и анализировать. Другими словами, веб-скрепинг - это способ сбора, организации и анализа огромного количества данных. Итак, давайте сначала разберемся, что такое веб-скрепинг.

Допустим, вы нашли несколько сайтов, на которых приведены табличные данные. Таблицы большие, а потому разработчик сайта разбил их на несколько страниц. Порой количество страниц может достигать тысяч. Что делать? Копировать вручную? Долго. Да и над форматированием придется поработать. А веб-скрепинг позволяет как собрать данные, так и привести их в нужный вид с помощью форматирования на выбранном языке программирования. В нашем случае этим языком является, очевидно, Python.

В мире существует множество библиотек скрепинга веб-страниц. Приведем несколько ниже:
- ZenRows
- Selenium
- Requests
- Beautiful Soup
- Playwright
- Scrapy

Список этот не исчерпывающий, однако достаточный для выполнения большинства задач в данном направлении сбора данных. У каждого из этих инструментов есть свои плюсы и минусы. Какие-то подходят для сбора данных со статических страниц, какие-то - с динамических.

Для справки о том, что такое статика, а что такое динамика в вебе, приведем пример. Большинство людей знает о существовании социальной сети ВКонтакте. Лента, личные сообщения - страницы динамические. Не обновляя страницы ленты можно скроллить ее до бесконечности - контент сам будет подгружаться по мере просмотра. А, например, если перейти на конкретный пост в этой ленте, вы увидите статический контент - текст самого поста. Посты редактируют не так часто, поэтому если кто-то отредактирует контент поста, пока вы его читаете, вы не увидите изменений. Нужно будет вручную обновить страницу. Конечно, для ВК применение понятия статичности страниц немного некорректно, так как панель с сообщениями, например, постоянно находится в "динамичном" состоянии, отчего страницы ВК являютс смесью динамики и статики, однако для понимания различия этих понятий нам достаточно и этого упрощения.

На практике мы с вами будем работать с библиотекой Beautiful Soup. Она популярна, имеет широкую поддержку сообщества, легка в освоении. Ее недостатком является то, что с динамической подгрузкой она справляется плохо. Это связано с тем, что при скачивании страницы на ПК сервер, на котором выполняется веб-приложение, не станет отдавать весь контент - это долго и дорого по ресурсам в целом. Он отдаст только статический контент. Динамическое содержимое обычно подгружает сам пользователь своими действиями, например, прокруткой ленты ВК.

После выполнения данной работы вы можете самостоятельно изучить такую библиотеку, как Selenium. Она имеет более широкое покрытие сайтов, с которыми она способна справляться в разрезе скрепинга, но чуть более сложна в освоении. Зачастую даже требуется связка selenium и beautifulsoup.

## Знакомство с Beautiful Soup

Beautiful Soup - это библиотека python, названная в честь одноименного стихотворения Льюиса Кэрролла из «Приключений Алисы в Стране чудес». Beautiful Soup - это пакет python, который, как следует из названия, разбирает ненужные данные и помогает организовать и отформатировать беспорядочные веб-данные и представить их нам в виде легко просматриваемых XML-структур.

Короче говоря, Beautiful Soup - это пакет python, который позволяет нам извлекать данные из HTML и XML-документов.

## Структура дерева HTML

Прежде чем мы рассмотрим функциональность, предоставляемую Beautiful Soup, давайте разберемся в древовидной структуре HTML.

![image.png](img/html_tree_structure.jpg)

Корневым элементом в дереве документа является html, который может иметь родителей, потомков и "братьев" и "сестер", что определяет его положение в древовидной структуре. Чтобы перемещаться между элементами HTML, атрибутами и текстом, необходимо перемещаться между узлами в структуре дерева.

Предположим, что веб-страница имеет вид, показанный ниже -

![image.png](img/webpage.jpg)

Тогда html-документ этой страницы выглядит так

![image.png](img/web_struct.png)

А если в виде графа, то так

![image.png](img/html_tree_structure_document.jpg)

Понимание устройства веб-страниц позволит нам "вытащить" с них все, что нам нужно в качестве данных.

## Применение beautifulsoup

Попробуем посмотреть на практике, как работает эта библиотека

In [7]:
from bs4 import BeautifulSoup
import requests


url = "https://ru.wikipedia.org/wiki/Население_России"
req = requests.get(url)

soup = BeautifulSoup(req.content, "html.parser")

print(soup.title)

<title>Население России — Википедия</title>


Разберемся, что происходит в этом коде. url - ссылка на страницу. Вы можете скопировать ее и открыть сайт самостоятельно. Ссылка, как можно было догадаться, ведет на статью Википедии "Население России".

Далее с помощью библиотеки **requests** мы осуществляем запрос страницы **get(url)**. Сама по себе библиотека requests тоже обладает функционалом, позволяющим обрабатывать веб-страницы, однако нам будет достаточно этого запроса на скачивание страницы. Скачивается она непосредственно в оперативную память среды исполнения Python.

Затем происходит самое важное. Парсинг страницы. Парсинг - это процесс преобразования html-структуры документа в структуру, понятную beautifulsoup (для краткости давайте будем далее называть эту библиотеку **bs4**). После парсинга мы сможем с помощью методов объекта **soup** вытаскивать нужные нам данные.

Здесь **req.content** - это содержимое ответа на запрос **get**. Мы запросили у сервера страницу - он дал нам ответ в виде самой страницы. Не всегда запросы направлены на получение страниц. Иногда запросы получают ответ в виде файлов, если вы, например, скачиваете музыку. Однако мы будем парсить только веб-страницы.

**html.parser** - это "движок" парсера, алгоритм, который разбирает html-документ в структуры данных bs4. Таких движков существует несколько. Можете самостоятельно с помощью документации библиотеки узнать об аналогах.

И, наконец, мы выводим **soup.title**. Как нетрудно догадаться, это заголовок страницы, который вы можете найти на владке браузера.

### Title - это легко. А как получить конкретные данные на странице? Из таблиц, абзацев...

Для этого нам понадобится открыть инструменты разработчика в браузере. В Chrome и Firefox это можно сделать нажатием клавиши **f12**. Попробуйте.

Вы увидите что-то подобное

![image.png](img/f12.png)

Нетрудно догадаться, что снизу представлена html-структура веб-страницы. Например, заголовок на странице - это тэг **span**. Он выделен на картинке.

Чтобы понять, что есть что на странице, можно воспользоваться инструментов выделения **(1)**, навестись на нужный элемент **(2)**, кликнуть на него. В инспекторе страницы браузер выделит вам, какой тэг соответствует этому элементу. Например, ниже выделена картинка. Это тэг **img**.

![image.png](img/click.png)

## Тэг

HTML-тег используется для определения различных типов содержимого. Объект тега в BeautifulSoup соответствует тегу HTML или XML на реальной странице или в документе.

Теги содержат множество атрибутов и методов, и двумя важными характеристиками тега являются его имя и атрибуты.

Картинки - это img (от image), абзацы текста - это p (paragraph - абзац), таблицы - table... Список большой, так как различных типов контента - много. Можете самостоятельно исследовать какую-нибудь веб-страницу, чтобы узнать о других видах тэгов.

Давайте попробуем пособирать различные данные с этой страницы. Выше мы уже запустили код, который сохранил нам представление страницы в переменную **soup**, так что далее просто воспользуемся ей

Выведем все методы и поля объекта soup

In [10]:
dir(soup)

['ASCII_SPACES',
 'DEFAULT_BUILDER_FEATURES',
 'DEFAULT_INTERESTING_STRING_TYPES',
 'ROOT_TAG_NAME',
 '__bool__',
 '__call__',
 '__class__',
 '__contains__',
 '__copy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setitem__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__unicode__',
 '__weakref__',
 '_all_strings',
 '_decode_markup',
 '_feed',
 '_find_all',
 '_find_one',
 '_is_xml',
 '_lastRecursiveChild',
 '_last_descendant',
 '_linkage_fixer',
 '_markup_is_url',
 '_markup_resembles_filename',
 '_most_recent_element',
 '_namespaces',
 '_popToTag',
 '_should_pretty_print',
 'append',
 'attrs',
 'builder',
 'can_be_empty_element',
 'cdata_list_

Если быстро пробежаться по этому списку, можно заметить, что есть методы поиска по странице (find...), служебная информация, и текст самой страницы. Выведем его

In [12]:
soup.text

"\n\n\n\nНаселение России — Википедия\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nНаселение России\n\nМатериал из Википедии — свободной энциклопедии\n\nТекущая версия страницы пока не проверялась опытными участниками и может значительно отличаться от версии, проверенной 20 августа 2024 года; проверки требуют 2 правки.\n\n\n\n\nПерейти к навигации\nПерейти к поиску\nНаселение России\xa0— совокупность жителей, населяющих территорию России. На 1 января 2024 года по оценке Росстата в России проживало 146\xa0150\xa0789[1] постоянных жителей[2], по этому показателю страна занимает девятое место в мире.\nПлотность населения\xa0— 8,53 чел./км² (2024). Население распределено крайне неравномерно: 69,15\xa0% россиян проживают в европейской части России, которая составляет 20,82\xa0% территории.  Среди субъектов федерации наибольшая плотность населения зарегистрирована в Москве\xa0— 5134,64 чел./км², наименьшая\xa0— в Чукотском автономном округе\xa0— 

Бывает полезно вывести все содержимое страницы, чтобы убедиться, что вся страница пришла нам в ответе на запрос. Идем далее. Попробуем найти картинки на странице.

In [22]:
for img in soup.find_all('img'):
    print(img)

<img class="mw-file-element" data-file-height="2417" data-file-width="2822" decoding="async" height="188" src="//upload.wikimedia.org/wikipedia/commons/thumb/e/ec/Russia_Population_Pyramid.svg/220px-Russia_Population_Pyramid.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/e/ec/Russia_Population_Pyramid.svg/330px-Russia_Population_Pyramid.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/e/ec/Russia_Population_Pyramid.svg/440px-Russia_Population_Pyramid.svg.png 2x" width="220"/>
<img class="mw-file-element" data-file-height="603" data-file-width="922" decoding="async" height="249" src="//upload.wikimedia.org/wikipedia/commons/thumb/0/03/%D0%95%D1%81%D1%82%D0%B5%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%B8%D1%80%D0%BE%D1%81%D1%82_%D0%BD%D0%B0%D1%81%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F_%D0%A0%D0%BE%D1%81%D1%81%D0%B8%D0%B8.jpg/380px-%D0%95%D1%81%D1%82%D0%B5%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%B8%D1%80%D0%BE%D1%81%D

В результате получаем все тэги img и их содержимое. Далее поработаем с одной картинкой из этого списка, рассмотрев ее содержимое

In [30]:
first_image = soup.find('img')
first_image

<img class="mw-file-element" data-file-height="2417" data-file-width="2822" decoding="async" height="188" src="//upload.wikimedia.org/wikipedia/commons/thumb/e/ec/Russia_Population_Pyramid.svg/220px-Russia_Population_Pyramid.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/e/ec/Russia_Population_Pyramid.svg/330px-Russia_Population_Pyramid.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/e/ec/Russia_Population_Pyramid.svg/440px-Russia_Population_Pyramid.svg.png 2x" width="220"/>

Видим, что помимо самого тэга в начале, у нас есть множество параметров этого тэга. Эти параметры называются **атрибутами** тэга. По их названиям можно догадываться, что они значат. Например, height - это высота картинки, src - ссылка на картинку на сайте Вики. Попробуем вывести атрибуты

In [31]:
first_image.attrs

{'src': '//upload.wikimedia.org/wikipedia/commons/thumb/e/ec/Russia_Population_Pyramid.svg/220px-Russia_Population_Pyramid.svg.png',
 'decoding': 'async',
 'width': '220',
 'height': '188',
 'class': ['mw-file-element'],
 'srcset': '//upload.wikimedia.org/wikipedia/commons/thumb/e/ec/Russia_Population_Pyramid.svg/330px-Russia_Population_Pyramid.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/e/ec/Russia_Population_Pyramid.svg/440px-Russia_Population_Pyramid.svg.png 2x',
 'data-file-width': '2822',
 'data-file-height': '2417'}

Видим обычный словарь. Получим ссылку на картинку

In [38]:
image_link = first_image.attrs['src']
image_link

'//upload.wikimedia.org/wikipedia/commons/thumb/e/ec/Russia_Population_Pyramid.svg/220px-Russia_Population_Pyramid.svg.png'

In [43]:
# это код для отображения картинок в среде блокнотов
from IPython.display import Image, display
from IPython.core.display import HTML 

In [41]:
# выводим картинку
Image(url=image_link)

А теперь попробуем вывести первые три картинки со страницы

In [44]:
for img in soup.find_all('img')[:3]:
    image_link = img.attrs['src']
    display(Image(url=image_link))

Отлично, теперь поработаем с абзацами

In [50]:
first_p = soup.find('p')
first_p

<p><b>Население России</b> — совокупность жителей, населяющих территорию <a href="/wiki/%D0%A0%D0%BE%D1%81%D1%81%D0%B8%D1%8F" title="Россия">России</a>. На 1 января 2024 года по оценке <a class="mw-redirect" href="/wiki/%D0%A0%D0%BE%D1%81%D1%81%D1%82%D0%B0%D1%82" title="Росстат">Росстата</a> в России проживало <b>146 150 789<sup class="reference" id="cite_ref-2024AB_1-0"><a href="#cite_note-2024AB-1"><span class="cite-bracket">[</span>1<span class="cite-bracket">]</span></a></sup></b> постоянных жителей<sup class="reference" id="cite_ref-2"><a href="#cite_note-2"><span class="cite-bracket">[</span>2<span class="cite-bracket">]</span></a></sup>, по этому показателю страна занимает <a class="mw-redirect" href="/wiki/%D0%A1%D0%BF%D0%B8%D1%81%D0%BE%D0%BA_%D1%81%D1%82%D1%80%D0%B0%D0%BD_%D0%BF%D0%BE_%D0%BD%D0%B0%D1%81%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D1%8E" title="Список стран по населению">девятое место в мире</a>.
</p>

In [55]:
first_p.text

'Население России\xa0— совокупность жителей, населяющих территорию России. На 1 января 2024 года по оценке Росстата в России проживало 146\xa0150\xa0789[1] постоянных жителей[2], по этому показателю страна занимает девятое место в мире.\n'

Таблицами

In [56]:
table = soup.find('table')
table

<table class="wikitable">
<tbody><tr>
<th>Население
</th>
<th colspan="2">1678 год
</th>
<th colspan="2">1719 год
</th>
<th>Прирост (естественный и механический)
</th></tr>
<tr>
<th>
</th>
<th>Млн, чел.
</th>
<th>%
</th>
<th>Млн, чел.
</th>
<th>%
</th>
<th>
</th></tr>
<tr>
<td>Феодалы и армия
</td>
<td>0,3
</td>
<td>6
</td>
<td>0,5
</td>
<td>6
</td>
<td>0,2
</td></tr>
<tr>
<td><a class="mw-redirect" href="/wiki/%D0%9A%D1%80%D0%B5%D0%BF%D0%BE%D1%81%D1%82%D0%BD%D1%8B%D0%B5" title="Крепостные">Крепостные</a>
</td>
<td>3,4
</td>
<td>60
</td>
<td>4,7
</td>
<td>60
</td>
<td>1,3
</td></tr>
<tr>
<td>Феодально-зависимые от государства- лично свободные
</td>
<td>1,1
</td>
<td>19
</td>
<td>1,6
</td>
<td>21
</td>
<td>0,5
</td></tr>
<tr>
<td>ИТОГО
</td>
<td>4,8
</td>
<td>85
</td>
<td>6,8
</td>
<td>87
</td>
<td>2,0
</td></tr>
<tr>
<td><a href="/wiki/%D0%9B%D0%B5%D0%B2%D0%BE%D0%B1%D0%B5%D1%80%D0%B5%D0%B6%D0%BD%D0%B0%D1%8F_%D0%A3%D0%BA%D1%80%D0%B0%D0%B8%D0%BD%D0%B0" title="Левобережная Украина">Левобе

Внутри тэга table можно обнаружить множество других тэгов. tbody, th, tr, td... Тело таблицы, заголовок таблицы, строка таблицы, ячейка таблицы соответственно.

Метод find есть не только у корневого объета soup, но также и у того объета, что возвращает метод soup.find('table'). По своей сути, объект того же класса, однако содержимое у него другое. Чем-то похоже на цепочки вызовов из темы функций

In [67]:
table.find('th').text

'Население\n'

Найдем все ряды таблицы

In [69]:
len(table.find_all('tr'))

9

In [70]:
table.find_all('tr')[0]

<tr>
<th>Население
</th>
<th colspan="2">1678 год
</th>
<th colspan="2">1719 год
</th>
<th>Прирост (естественный и механический)
</th></tr>

Первый ряд - заголовки. Хорошо. Далее идут сами данные. Попробуем форматировать эту структуру в человекочитаемую

In [98]:
for row in table.find_all('tr'):
    # ищем либо заголовки, либо ячейки в строке
    data_cells = row.find_all('th') + row.find_all('td')
    # форматируем вывод
    # text выдает нам текст ячейки, strip отсекает лишний перенос строки
    # or '...' нужен там, где ячейки таблицы пусты (исходная таблица имеет "сложную" структуру, посмотрите сами
    # можно обойтись и без or '...', но так просто нагляднее. Можете стереть эту часть и посмотреть результат
    # распаковываем список с помощью * и задаем разделитель ' | '
    print(*[(cell.text.strip() or '...') for cell in data_cells], sep=' | ')

Население | 1678 год | 1719 год | Прирост (естественный и механический)
... | Млн, чел. | % | Млн, чел. | % | ...
Феодалы и армия | 0,3 | 6 | 0,5 | 6 | 0,2
Крепостные | 3,4 | 60 | 4,7 | 60 | 1,3
Феодально-зависимые от государства- лично свободные | 1,1 | 19 | 1,6 | 21 | 0,5
ИТОГО | 4,8 | 85 | 6,8 | 87 | 2,0
Левобережная Украина | 0,8 | 15 | 0,7 | 9 | −1Уменьшение численности населения произошло, видимо, вследствие переселений на Слободскую Украину, в Белгородскую и Воронежскую губернии
Прибалтика | — | — | 0,3 | 4 | 0,3
ВСЕГО | 5,6 | 100 | 7,8 | 100 | 2,2


Таким образом, по цепочке продвигаясь по тэгам, мы получили нужные нам данные со страницы. И этот подход можно расширить на остальные таблицы.

In [101]:
for table in soup.find_all('table'):
    print('Начало новой таблицы' + '-' * 200)
    for row in table.find_all('tr'):
        data_cells = row.find_all('th') + row.find_all('td')
        print(*[(cell.text.strip() or '...') for cell in data_cells], sep=' | ')

Начало новой таблицы--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Население | 1678 год | 1719 год | Прирост (естественный и механический)
... | Млн, чел. | % | Млн, чел. | % | ...
Феодалы и армия | 0,3 | 6 | 0,5 | 6 | 0,2
Крепостные | 3,4 | 60 | 4,7 | 60 | 1,3
Феодально-зависимые от государства- лично свободные | 1,1 | 19 | 1,6 | 21 | 0,5
ИТОГО | 4,8 | 85 | 6,8 | 87 | 2,0
Левобережная Украина | 0,8 | 15 | 0,7 | 9 | −1Уменьшение численности населения произошло, видимо, вследствие переселений на Слободскую Украину, в Белгородскую и Воронежскую губернии
Прибалтика | — | — | 0,3 | 4 | 0,3
ВСЕГО | 5,6 | 100 | 7,8 | 100 | 2,2
Начало новой таблицы-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Мы добавили всего одну строку **for table in soup.find_all('table'):**, а получили вывод всех таблиц. Однако обратим внимание на то, что под конец таблицы стали выглядеть не слишком "таблично". Разгадка кроется в том, что в конце страниц Википедии находятся таблицы со ссылками на другие страницы. Возможно, это не то, что нам нужно, только если мы не собираемся сохранять эти ссылки, переходить на другие страницы, собирать с них данные, и так далее.

Такой подход реализуют **кроулеры** (обходчики). Как ясно из вольного перевода, они "обходят" сайт по ссылкам, переходя с условно главной страницы на все страницы на сайте, собирая с них данные. Не всегда это отдельный алгоритм или библиотека. Кроулер можно сделать даже из одной строчки кода. Такое поведение бывает полезно, когда вы собираетесь собрать данные с рейтинговых сайтов по фильмам, например. Далее мы еще приведем такой пример, однако пока избавимся от таблиц со ссылками

Как же нам этого добиться? На самом деле, у нас уже есть ключ к ответу. Атрибуты. Посмотрим еще раз на них

In [102]:
table.attrs

{'class': ['nowraplinks', 'collapsible', 'collapsed', 'navbox-inner'],
 'style': 'border-spacing:0;background:transparent;color:inherit'}

А теперь на самую первую таблицу

In [103]:
soup.find('table').attrs

{'class': ['wikitable']}

Разница очевидна - атрибут **class**. В html этот атрибут помогает отделять одни типы контента от других. Например, применение стилей - правил визуального оформления элементов на странице. Таблицы wikitable, например, имеют одну "отрисовку", а таблицы ссылок - другую. Визуально это различие легко уловить, если взглянуть на саму страницу.

Применим полученное знание на практике для фильтрации в поиске. Для этого 

In [116]:
len(soup.find_all('table'))

24

In [117]:
len(soup.find_all('table', {'class': 'wikitable'}))

11

По количеству результатов ясно, что что-то отфильтровалось. Посмотрим, верно ли все.

In [118]:
for table in soup.find_all('table', {'class': 'wikitable'}):
    print('Начало новой таблицы' + '-' * 200)
    for row in table.find_all('tr'):
        data_cells = row.find_all('th') + row.find_all('td')
        print(*[(cell.text.strip() or '...') for cell in data_cells], sep=' | ')

Начало новой таблицы--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Население | 1678 год | 1719 год | Прирост (естественный и механический)
... | Млн, чел. | % | Млн, чел. | % | ...
Феодалы и армия | 0,3 | 6 | 0,5 | 6 | 0,2
Крепостные | 3,4 | 60 | 4,7 | 60 | 1,3
Феодально-зависимые от государства- лично свободные | 1,1 | 19 | 1,6 | 21 | 0,5
ИТОГО | 4,8 | 85 | 6,8 | 87 | 2,0
Левобережная Украина | 0,8 | 15 | 0,7 | 9 | −1Уменьшение численности населения произошло, видимо, вследствие переселений на Слободскую Украину, в Белгородскую и Воронежскую губернии
Прибалтика | — | — | 0,3 | 4 | 0,3
ВСЕГО | 5,6 | 100 | 7,8 | 100 | 2,2
Начало новой таблицы-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Теперь мы получаем только таблицы с данными по демографии, но не те, что содержат ссылки на другие страницы. Отлично. Помимо распространенного атрибута класса есть друго - **id**. id - уникальный идентификатор тэга. На всю страницу у каждого тэга - если имеется, - он уникален. К сожалению, не все разработчики следуют этому соглашению, однако зачастую это так. Например, заголовок статьи всегда один. И логично, что у него имеется свой атрибут id. В данном случае "firstHeading". Найдем именно этот элемент

![image.png](img/id.png)

In [119]:
soup.find('h1', {'id': 'firstHeading'})

<h1 class="firstHeading mw-first-heading" id="firstHeading"><span class="mw-page-title-main">Население России</span></h1>

А можно и так, если не указывать тэг

In [123]:
soup.find(id='firstHeading')

<h1 class="firstHeading mw-first-heading" id="firstHeading"><span class="mw-page-title-main">Население России</span></h1>

In [124]:
table.attrs

{'class': ['wikitable'], 'style': 'font-size: 80%'}

Иногда требуется найти тэги по нескольким классам. Тут пригодится **select** и **select_one**.

Например, возьмем только таблицы ссылок

Вот их атрибуты.

{'class': ['nowraplinks', 'collapsible', 'collapsed', 'navbox-inner'],

 'style': 'border-spacing:0;background:transparent;color:inherit'}

В данном случае можно было бы просто найти элементы по одному классу nowraplinks, но иногда не все так легко. На всякий случай изучим возможности селекторов.

In [128]:
len(soup.select('table.nowraplinks.collapsible'))

4

In [129]:
len(soup.select('nowraplinks.collapsible'))

0

In [130]:
len(soup.select('.nowraplinks.collapsible'))

4

In [131]:
len(soup.select('.collapsible'))

6

Здесь .название - это класс. До этого мы указывали класс как 'class': 'названиеКласса'. В select мы указываем, что ищем класс, через **.**

Можно и с id

In [132]:
soup.select('#firstHeading')

[<h1 class="firstHeading mw-first-heading" id="firstHeading"><span class="mw-page-title-main">Население России</span></h1>]

Что использовать - выбирать вам. Всегда следует отталкиваться от того, что удобнее и эффективнее в конкретном контексте

## Обещанный пример с рейтинговыми сайтами

Возьмем агрегатор японских анимационных фильмов MyAnimeList. По своему устройству он является одним из самых простых для парсинга.

Зададимся целью исследования. Понять, какие студии чаще встречаются в авторах среди самых популярных 100 анимационных фильмов или сериалов

In [181]:
url = 'https://myanimelist.net/topanime.php'

In [182]:
req = requests.get(url)

soup = BeautifulSoup(req.content, "html.parser")

In [183]:
req

<Response [200]>

> Важно!
> 
> вывод 200 означает, что ответ успешно получен. Некоторые сайты имеют защиту от "ботов" - скриптов в нашем случае. Иногда помогает передавать метаданные псевдо-клиента вместе с запросом, но чаще всего проще использовать Selenium или аналоги. Они для обхода защит подходят лучше

Рейтинг представляет собой список, в котором указаны ссылки на страницы каждого "продукта" студии. Чтобы узнать студию производства каждого из них, понадобится посетить все страницы. Можно делать это вручную, но если брать не первые 100, а, условно, топ 1000, то уже долго. Да и 100, откровенно говоря, не хочется прокликивать.

![image.png](img/list.png)

Нужные нам элементы имеют класс ranking_list

![image.png](img/ranking_list.png)

А вот сами ссылки лежат в тэге **a**, атрибуте href

![image.png](img/href.png)

In [219]:
all_titles = soup.find_all('a', {'class': 'hoverinfo_trigger'})
# на всякий случай устраняем дубликаты записей с помощью set
all_titles = set(all_titles)
hrefs = []
for title in all_titles:
    href = title.attrs['href']
    print(href)
    # сохраняем наши ссылки на страницы, они нам пригодятся
    hrefs.append(href)
    

https://myanimelist.net/anime/5114/Fullmetal_Alchemist__Brotherhood
https://myanimelist.net/anime/9253/Steins_Gate
https://myanimelist.net/anime/15417/Gintama__Enchousen
https://myanimelist.net/anime/53223/Kingdom_5th_Season
https://myanimelist.net/anime/47917/Bocchi_the_Rock
https://myanimelist.net/anime/199/Sen_to_Chihiro_no_Kamikakushi
https://myanimelist.net/anime/4181/Clannad__After_Story
https://myanimelist.net/anime/55690/Boku_no_Kokoro_no_Yabai_Yatsu_2nd_Season
https://myanimelist.net/anime/45649/The_First_Slam_Dunk
https://myanimelist.net/anime/54492/Kusuriya_no_Hitorigoto
https://myanimelist.net/anime/1/Cowboy_Bebop
https://myanimelist.net/anime/28851/Koe_no_Katachi
https://myanimelist.net/anime/55690/Boku_no_Kokoro_no_Yabai_Yatsu_2nd_Season
https://myanimelist.net/anime/41467/Bleach__Sennen_Kessen-hen
https://myanimelist.net/anime/28851/Koe_no_Katachi
https://myanimelist.net/anime/51535/Shingeki_no_Kyojin__The_Final_Season_-_Kanketsu-hen
https://myanimelist.net/anime/48583/S

Отработаем схему получения названия студии на примере одной страницы. На странице каждого продукта отмечена студия. В нашем случае это **Studios: Название**. В html-документе это тэг span с содержимым "Studios:".

А следом за span сразу находится тэг **a**, содержимое которого - название студии. Последовательность ясна, остается реализовать в коде

![image.png](img/studio.png)

In [207]:
req = requests.get(hrefs[0])
page_soup = BeautifulSoup(req.content, "html.parser")

In [220]:
page_soup.find('span', string='Studios:') # string позволяет искать по текстовому содержимому тэга

<span class="dark_text">Studios:</span>

In [222]:
page_soup.find('span', string='Studios:').findNext('a') # findNext возвращает следующий соседний элемент

<a href="/anime/producer/11/Madhouse" title="Madhouse">Madhouse</a>

In [223]:
page_soup.find('span', string='Studios:').findNext('a').text

'Madhouse'

Отлично. Осталось пройтись по всем страницам, собрать названия студий и подсчитать их.

In [229]:
from time import sleep
studios = {}
for href in hrefs:
    # вводим искусственную задержку с помощью sleep на полсекунды
    # нужно для того, чтобы сэмитировать открытие ссылок человеком
    # часто сайты блокируют запросы, если в один момент произошло открытие 100 ссылок
    # такое возможно, только если применяются скрипты для сбора или атаки
    # ни то, ни другое не выгодно держателю сайта
    sleep(.5)
    # выводим отрабатываемую в данный момент ссылку для отслеживания прогресса
    print(href)
    req = requests.get(href)
    page_soup = BeautifulSoup(req.content, "html.parser")
    studio_span = page_soup.find('span', string='Studios:')
    # на некоторых страницах есть проблемы с нахождением span
    # если нашли, то ищем дальше "a", иначе ничего не делаем
    if studio_span:
        studio = studio_span.findNext('a').text
        studios[studio] = studios.get(studio, 0) + 1


https://myanimelist.net/anime/5114/Fullmetal_Alchemist__Brotherhood
https://myanimelist.net/anime/9253/Steins_Gate
https://myanimelist.net/anime/15417/Gintama__Enchousen
https://myanimelist.net/anime/53223/Kingdom_5th_Season
https://myanimelist.net/anime/47917/Bocchi_the_Rock
https://myanimelist.net/anime/199/Sen_to_Chihiro_no_Kamikakushi
https://myanimelist.net/anime/4181/Clannad__After_Story
https://myanimelist.net/anime/55690/Boku_no_Kokoro_no_Yabai_Yatsu_2nd_Season
https://myanimelist.net/anime/45649/The_First_Slam_Dunk
https://myanimelist.net/anime/54492/Kusuriya_no_Hitorigoto
https://myanimelist.net/anime/1/Cowboy_Bebop
https://myanimelist.net/anime/28851/Koe_no_Katachi
https://myanimelist.net/anime/55690/Boku_no_Kokoro_no_Yabai_Yatsu_2nd_Season
https://myanimelist.net/anime/41467/Bleach__Sennen_Kessen-hen
https://myanimelist.net/anime/28851/Koe_no_Katachi
https://myanimelist.net/anime/51535/Shingeki_no_Kyojin__The_Final_Season_-_Kanketsu-hen
https://myanimelist.net/anime/48583/S

> Если вы запустите этот код, можно заметить, что он достаточно медленно обходит все ссылки. На практике это можно ускорить путем применения параллельных запросов. Однако бывает так, что с одного ip-адреса ускорения получить не удастся, если владелец сайта ограничил количество запросов в единицу времени. Тогда поможет только применение запросов с разных точек. Например, посредством покупки / аренды и настройки серверов, с которых будут совершаться запросы.

Мы создали словарь, в котором напротив каждого ключа-студии указано, сколько раз встречается данная студия среди первых 100 популярных продуктов.

In [232]:
studios

{'Bones': 4,
 'White Fox': 2,
 'Sunrise': 12,
 'Pierrot': 8,
 'CloverWorks': 2,
 'Studio Ghibli': 2,
 'Kyoto Animation': 8,
 'Shin-Ei Animation': 2,
 'Toei Animation': 2,
 'OLM': 2,
 'MAPPA': 10,
 'Shaft': 10,
 'Bandai Namco Pictures': 10,
 'Madhouse': 8,
 'ufotable': 2,
 'K-Factory': 2,
 'TMS Entertainment': 2,
 'Production I.G': 2,
 'Wit Studio': 4,
 'CoMix Wave Films': 2,
 'A-1 Pictures': 4}

Убедимся, что студий мы сохранили действительно 100

In [230]:
sum(studios.values())

100

Как видно выше, мы на всех 100 страницах нашли нужные тэги. Бывает, что на некоторых страницах все-таки тэг не находится, если судить по практике разработки этого блокнота. На всякий случай лучше страховаться, конечно, с помощью условных конструкций, чтобы посреди опроса сайта не вылетала ошибка, которая прервет весь процесс.

Не находиться он может по разным причинам, однако из очевидно возможных: проблемы со ссылкой или ссылка ведет не туда (ошибка на сайте, опять же).

Отсортируем данные по количеству популярных фильмов у студий

In [245]:
for pair in sorted([(studio, value) for studio, value in studios.items()], key=lambda x: -x[1]):
    print(f'{pair[0]:>22}|{pair[1]:>2}')

               Sunrise|12
                 MAPPA|10
                 Shaft|10
 Bandai Namco Pictures|10
               Pierrot| 8
       Kyoto Animation| 8
              Madhouse| 8
                 Bones| 4
            Wit Studio| 4
          A-1 Pictures| 4
             White Fox| 2
           CloverWorks| 2
         Studio Ghibli| 2
     Shin-Ei Animation| 2
        Toei Animation| 2
                   OLM| 2
              ufotable| 2
             K-Factory| 2
     TMS Entertainment| 2
        Production I.G| 2
      CoMix Wave Films| 2


Таким образом, мы можем наблюдать явных лидеров: от студии Sunrise до Madhouse

# Упражнение

В качестве практики возьмем этот же сайт, но другой раздел - top manga

![image.png](img/manga_main.png)

Нужно исследовать:
1. Какие жанры и темы наиболее популярны (themes & genres)?
2. Какая целевая аудитория выбирается авторами чаще всего (demographic)?

Решить эти задачи можно аналогично тому, что было проделано с анимационными картинк

![image.png](img/target.png)

При желании можете поискать другой агрегатор, где можно провести похожее исследование. В данном блокноте приведен MyAnimeList, потому что агрегаторы чаще всего используют динамическую загрузку элементов рейтинга, поэтому простым bs4 не обойтись. Например, Кинопоиск на запрос страницы рейтинга выдаст лишь остов страницы - шапку, подвал, панели, - словом, все, кроме интересующего нас списка фильмов - его он подгружает в процессе просмотра страницы.

In [248]:
# код решения