# Современные методы анализа данных и машинного обучения, БИ

## НИУ ВШЭ, 2024-25 учебный год

# Семинар 8. Web Scraping. Data Parsing


Прежде чем перейти к обсуждению и практическому освоению такого процесса, как Data Scraping, необходимо для начала освежить в памяти основы языка разметки HTML, поскольку всё то, с чем нам предстоит дальше работать, будет иметь именно такую структуру и оформление.

## Язык HTML

HTML (HyperText Markup Language) — это язык разметки, используемый для представления веб-страниц в интернете (для тех, кто работал с текстовыми ячейками в юпитеровских ноутбуках — в них, например, тоже используется свой язык разметки, только попроще). Принимая во внимание, что HTML — это именно язык разметки, а не язык программирования (вопреки расхожему заблуждению), — получается, что любая html-страница — это, по сути, самый обычный текст, в котором просто отмечено, какие части представляют собой заголовок, абзац, какие — таблицу, картинку, ну и так далее. Кстати, правилом хорошего тона считается включать в html-код как раз таки только содержательные вещи — текст и разметку; все оформление и интерактив принято выносить в отдельные файлы.

В целом, чтобы было понятнее, как это всё работает, поясним, что обычно за страницей в интернете кроется примерно следующее. На сервере лежит несколько папок. В одной папке лежат сами html-страницы с размеченным текстом. В другой — хранятся файлы *css* (*Cascading Style Sheets*), в которых заданы параметры оформления этих страниц (цвет заголовков, фона, меню, ширина рамочек вокруг текста и картинок и прочее). В третьей папке находятся файлы с кодом на *JavaScript*, которые отвечают за всевозможный интерактив: будь то всплывающий перевод слова при наведении курсора, увеличение картинки при просмотре, подсветка формы для заполнения, если формат даты неверный, и так далее. JavaScript — тоже отдельный язык программирования, на котором пишется код, соответствующий интерактиву (кстати, несмотря на название, с Java он никак не связан).

Все эти файлы чётко связаны между собой: к каждой html-странице с разметкой присоединены с помощью ссылок css-файл с оформлением и код javascript. Таким образом собирается воедино весь сайт.

Иногда, впрочем, html-страницы создаются не по стандартам и в файле с текстом могут встретиться огромные куски, например, отвечающие за оформление. Это, к сожалению, значительно затрудняет работу с ними (с такими сайтами мы ещё столкнемся в дальнейшем).

Сегодня мы с вами начнем разбирать веб-скрейпинг и дата-парсинг для html-файлов. Обычно два этих процесса связаны, просто парсинг — более узкое понятие. Веб-скрейпинг (*web scraping*) — это в целом процесс выгрузки данных с веб-страниц; а парсинг (*parsing*) — это выбор текста из файла с разметкой, например из xml или html, как у нас.

Но прежде, чем разбирать, как осуществляется работа с html-файлами, давайте получше познакомимся с их структурой. Для этого параллельно с рассмотрением дальнейших ячеек ноутбука предлагаем зайти на сайт [w3schools.com](https://www.w3schools.com/Html/) и открыть раздел [Try it yourself](https://www.w3schools.com/Html/tryit.asp?filename=tryhtml_default). W3Schools — отличный учебный инструмент для создания html-файлов: на сайте у них в целом много документации и тьюториалов по html, css и веб-дизайну вообще. Почитайте потом на досуге, если интересно!



Но вернемся к структуре HTML-файлов. Для начала стоит упомянуть, что в HTML для разметки везде используются тэги — служебные слова в треугольных скобках `<>`. Тэги бывают двух видов: открывающие и закрывающие. Открывающие тэги выглядят так, как представлено выше, а закрывающие — почти так же, но начинаются с прямого слэша (`/`).

Вся страница заключается в тэг `<html></html>`. В начале обычно указывается какая-то мета-информация: язык страницы, кодировка, метки, название и прочее. Здесь, правда, такого нет. "Тело" документа — собственно страница, которая отображается при просмотре, — заключается в тэг `<body></body>`.

Для заголовков используются тэги с `h` (`h` — от *header*): тэги `<h1></h1>`  — для заголовков первого уровня, тэг `<h2></h2>` — для заголовков второго уровня и так далее. В тэги `<p></p>` заключаются абзацы (`p` — от *paragraph*).

Приостановимся пока с теорией и приступим к созданию своей первой html-странички! Вначале внесем изменения в файл — создадим страничку "о себе". Для этого можете скопировать код ниже и вставить его в поле в разделе *Try it Yourself*, а затем нажать кнопку *Run*.

In [None]:
<!DOCTYPE html>
<html>
<head>
<title>Page Title</title>
</head>
<body>

<h1>Моя первая html-страница</h1>
<h2>О себе</h2>
<p>Я учусь создавать html-страницы.</p>

</body>
</html>

Теперь добавим небольшую таблицу. Знания об устройстве таблиц нам понадобятся, потому что чаще всего при парсинге приходится «выцеплять» данные как раз из таблиц на html-страницах.

Вся таблица заключается в тэги `<table></table>`. Далее таблица заполняется по строкам. Строка таблицы заключается в тэги `<tr></tr>` (от *table row*); затем идут ячейки таблицы — они тоже имеют свои тэги. Если ячейка обычная — то есть не является названием столбца или строки — она окружена тэгом `<td></td>` (от *table*). Если же является — тег будет другой: `<th></th>` (от *table header*).

Используя эти знания, давайте создадим свою таблицу на нашей странице:

In [None]:
<table>
<tr>
<th>Дата</th>
<th>Имя</th>
<th>Возраст</th>
</tr>
<tr>
<td>Иванов</td>
<td>Иван</td>
<td>28</td>
</tr>
</table>

Можем еще добавить, например, явные границы у ячеек. Для этого вставим атрибут *border* и отрегулируем ширину.

In [None]:
<table border="1">
<tr>
<th>Фамилия</th>
<th>Имя</th>
<th>Возраст</th>
</tr>
<tr>
<td>Иванов</td>
<td>Иван</td>
<td>28</td>
</tr>
</table>

Еще добавим заголовок и на этом пока, пожалуй, закончим.

In [None]:
<!DOCTYPE html>
<html>
<head>
<title>Page Title</title>
</head>
<body>

<h1>Моя первая html-страница</h1>
<h2>О себе</h2>
<p>Я учусь создавать html-страницы.</p>

<table border="1">
<caption>Информация</caption>
<tr>
<th>Фамилия</th>
<th>Имя</th>
<th>Возраст</th>
</tr>
<tr>
<td>Иванов</td>
<td>Иван</td>
<td>28</td>
</tr>
</table>

</body>
</html>

Получившийся результат выглядит довольно-таки просто, но в то же время он помог нам осознать основные принципы построения HTML-страниц, а также сконструировать и написать одну несложную страницу своими руками. Понимая это, мы готовы переходить к непосредственному обсуждению скрейпинга и парсинга, которые и являются главным предметом нашего сегодняшнего семинара.

## Web Scraping

Как мы уже выяснили в предыдущем блоке, процесс веб-скрейпинга подразумевает считывание данных с некоторого веб-сайта или ресурса автоматизированным образом. Для этого процесса существует очень большое количество различных подходов, возможных сценариев действия, а также специализированных библиотек, позволяющих реализовывать все эти сценарии. Ниже мы с вами рассмотрим пример лишь одного такого алгоритма, но, разумеется, ничто вас не ограничивает от того, чтобы в будущем действовать иначе, некоторым более продвинутым образом, со своими, подобранными вами библиотеками и так далее.

Один из возможных алгоритмов скрейпинга (которого мы будем вместе придерживаться сегодня):

* указать в коде адрес интересующего сайта, откуда вы хотите скачать данные (с использованием библиотеки requests)

* сохранить веб-страницу в программе (html-код вашей страницы)

* выбрать данные, которые нужно собрать (с использованием библиотеки BeautifulSoup)

* записать данные в csv-файл

* если нужно соскрейпить несколько страниц — повторить процесс для каждой из них.

Итак, давайте приступим к реализации этого алгоритма на практике!

Начнём с довольно интересной задачи по анализу новостей с одного известного российского научно-популярного портала с довольно-таки специфическим позиционированием — называется N + 1. Если вы ничего не слышали про данный портал и не понимаете, что я имею в виду под специфическим позиционированием, — не переживайте: очень скоро вы всё сами увидите! :)

В рамках анализа, который мы потенциально собираемся осуществить на основе данных с этого ресурса, собранных как раз-таки методами веб-скрейпинга и дата-парсинга, — поставим перед собой следующие цели:

- Понять, каким образом можно автоматически выгрузить новости с сайта, и собственно проделать это на практике;
- Сохранить все актуальные новости, — а точнее, ключевую информацию об этих новостях, — в датафрейм pandas;
- Осуществить выгрузку собранных данных из программы в csv-файл; скачать, сохранить файл; получить посредством этого возможность использовать результаты проделанных действий в дальнейшем в наших исследованиях и анализе.

Приступим к реализации нашей амбициозной задачи и для начала, пожалуй, заглянем на сам [портал](https://nplus1.ru/).

### Выгрузка данных через requests

Окей, мы посмотрели на титульную страницу портала, примерно поняли, с чем мы работаем, и можем теперь перейти непосредственно к скрейпингу.

Сначала выгрузим весь html-код страницы и сохраним его в отдельную переменную. Для этого нам потребуется библиотека `requests`. Документация библиотеки: https://requests.readthedocs.io/en/latest/

Импортируем её:

In [1]:
import requests

Сохраним ссылку на главную страницу сайта в переменную `url` для удобства и выгрузим страницу. (Разумеется, это будет работать только при подключении к интернету. Если соединение будет отключено, Python выдаст `NewConnectionError`).

In [2]:
url = 'https://nplus1.ru/' # сохраняем
page = requests.get(url) # загружаем страницу по ссылке

Если просто посмотреть на объект, ничего содержательного мы не увидим:

In [3]:
page

<Response [200]>

Или это всё-таки содержательное?

#### Вопрос

Что такое Response 200 и какие еще "респонзы" бывают?

#### Пояснение

Без лишних слов заглянем в соответствующую [статью](https://ru.wikipedia.org/wiki/%D0%A1%D0%BF%D0%B8%D1%81%D0%BE%D0%BA_%D0%BA%D0%BE%D0%B4%D0%BE%D0%B2_%D1%81%D0%BE%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D1%8F_HTTP) на Википедии!

### Parsing с BeautifulSoup

Для продолжения работы с нашей страницей и её последующего парсинга, нам понадобится специальная библиотека: BeautifulSoup.

BeautifulSoup — это одна из самых распространенных python-библиотек для синтаксического разбора файлов HTML/XML. В веб-разработке слэнговым термином «суп из тегов» (tag soup) называют синтаксически или структурно некорректный HTML, написанный для веб-страницы. Именно отсюда и пошло такое необычное название для библиотеки. (Есть и другая, более весёлая гипотеза названия — по [ссылке](https://aliceinwonderland.fandom.com/wiki/Turtle_Soup)).

Документация BeautifulSoup: https://www.crummy.com/software/BeautifulSoup/bs4/doc/



In [4]:
!pip install bs4

Collecting bs4
  Downloading bs4-0.0.2-py2.py3-none-any.whl.metadata (411 bytes)
Downloading bs4-0.0.2-py2.py3-none-any.whl (1.2 kB)
Installing collected packages: bs4
Successfully installed bs4-0.0.2


Итак, давайте импортируем функцию `BeautifulSoup` из библиотеки `bs4` (от *beautifulsoup4*) и заберём со страницы `page` код html в виде текста.

Сохраним в переменную `soup` весь HTML-код страницы. HTML-код — это "дерево тегов", формирующее контент и всё наполнение страницы.

In [5]:
from bs4 import BeautifulSoup

In [6]:
soup = BeautifulSoup(page.text, 'html')

Если выведем `soup` на экран, мы увидим то же самое, что в режиме разработчика или в режиме просмотра исходного кода (`view-source` через *Ctrl+U* в Google Chrome).

In [7]:
soup

<!DOCTYPE html>
<html lang="ru" prefix="og: http://ogp.me/ns#">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<title>N + 1 — главное издание о науке, технике и технологиях</title>
<link as="font" crossorigin="" href="https://staticn1.nplus1.ru/fonts/AeonikPro/AeonikPro-Regular.woff2" rel="preload" type="font/woff2"/>
<link as="font" crossorigin="" href="https://staticn1.nplus1.ru/fonts/Spectral/Spectral-Regular.woff" rel="preload" type="font/woff2"/>
<link href="/front-build/css/main.css?id=842e64708435127ee441c2e86afffea2" rel="stylesheet"/>
<link href="/front-build/css/app.css?id=92673ebe7185ebc42e29fc7294a4c65f" rel="stylesheet"/>
<link href="/apple-touch-icon.png" rel="apple-touch-icon" sizes="180x180"/>
<link href="/favicon-32x32.png" rel="icon" sizes="32x32" type="image/png"/>
<link href="/favicon-16x16.png" rel="icon" sizes="16x16" type="image/png"/>
<link href="/site.webmanifest" rel="manifest"/>
<link color="#f26e40" href=

Для просмотра, честно говоря, выглядит не очень удобно. «Причешем» немного наш `soup` — для этого воспользуемся методом `.prettify()` в сочетании с функцией `print()`.

In [8]:
print(soup.prettify())

<!DOCTYPE html>
<html lang="ru" prefix="og: http://ogp.me/ns#">
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1" name="viewport"/>
  <title>
   N + 1 — главное издание о науке, технике и технологиях
  </title>
  <link as="font" crossorigin="" href="https://staticn1.nplus1.ru/fonts/AeonikPro/AeonikPro-Regular.woff2" rel="preload" type="font/woff2"/>
  <link as="font" crossorigin="" href="https://staticn1.nplus1.ru/fonts/Spectral/Spectral-Regular.woff" rel="preload" type="font/woff2"/>
  <link href="/front-build/css/main.css?id=842e64708435127ee441c2e86afffea2" rel="stylesheet"/>
  <link href="/front-build/css/app.css?id=92673ebe7185ebc42e29fc7294a4c65f" rel="stylesheet"/>
  <link href="/apple-touch-icon.png" rel="apple-touch-icon" sizes="180x180"/>
  <link href="/favicon-32x32.png" rel="icon" sizes="32x32" type="image/png"/>
  <link href="/favicon-16x16.png" rel="icon" sizes="16x16" type="image/png"/>
  <link href="/site.webmanifest" rel="manifest"

В такой выдаче ориентироваться чуть-чуть удобнее (но при желании, то же самое можно увидеть в браузере, на большом экране).

#### Вопрос

Хорошо, мы научились считывать данные с сайта и продемонстрировали это на практике для нашего веб-ресурса. Но... что же нам делать дальше? Как на основе этого сырого html-кода получить доступ к новостям на портале?

Есть идеи?

#### Пояснение

Для того чтобы это сделать, давайте с главной страницы сайта соберем все ссылки, из которых потом выделим ссылки на страницы с новостями. Ссылки в html-файле всегда заключены в тэг `<a></a>` и имеют атрибут `href`.

Помочь нам в поиске ссылок может функция **`soup.find('a')`**, которая найдет первый в дереве тег `<a>`.

Если нам нужно найти не только первый элемент, а все элементы по определенному признаку, следует использовать функцию **`soup.find_all('a')`**

In [9]:
for link in soup.find_all('a'):
    print(link.get('href'))

/search
https://offline.nplus1.ru/
https://nplus.pro/
https://nplus1.ru/about
https://nplus1.ru/difficult
https://nplus1.ru/adv
https://nplus1.ru/blog/2022/04/01/samotek
https://nplus1.ru/search?tags=946
https://nplus1.ru/search?tags=869
https://nplus1.ru/search?tags=874
https://nplus1.ru/search?tags=880
https://nplus1.ru/search?tags=768
https://nplus1.ru/search?tags=890
https://nplus1.ru/search?tags=871
https://nplus1.ru/search?tags=876
https://nplus1.ru/search?tags=775
https://nplus1.ru/search?tags=767
https://nplus1.ru/search?tags=771
https://nplus1.ru/search?tags=772
https://nplus1.ru/search?tags=778
https://nplus1.ru/search?tags=917
https://nplus1.ru/search?tags=918
https://nplus1.ru/search?tags=824
https://t.me/nplusone
https://vk.com/nplusone
https://ok.ru/nplus1
https://twitter.com/nplusodin
https://nplus1.ru/about
https://nplus1.ru/difficult
https://nplus1.ru/adv
https://nplus1.ru/blog/2022/04/01/samotek
https://nplus1.ru/search?tags=946
https://nplus1.ru/search?tags=869
https

Ссылок много. Но нам нужны только новости — ссылки, которые начинаются со слова `/news`. Добавим условие: будем выбирать только те ссылки, в которых есть `/news`. Кроме того, нам не нужны их внутренние ссылки — поэтому в качестве ещё одного фильтра потребуем, чтобы ссылка начиналась с `https://`.

Создадим пустой список `urls` и будем добавлять в него только ссылки, удовлетворяющие заданным нами условиям:

In [11]:
urls = []

for link in soup.find_all('a'):
    if '/news' in link.get('href') and link.get('href').startswith('https://'):
        urls.append(link.get('href'))
urls

['https://nplus1.ru/news/2025/02/07/bonobos-theory-of-mind',
 'https://nplus1.ru/news/2025/02/10/tibetan-plateau-tectonic-evolution',
 'https://nplus1.ru/news/2025/02/10/inner-core-boundary-deformation',
 'https://nplus1.ru/news/2025/02/10/real-world-math',
 'https://nplus1.ru/news/2025/02/10/byzantine-ascetic-burial',
 'https://nplus1.ru/news/2025/02/10/cayman-islands-earthquake',
 'https://nplus1.ru/news/2025/02/10/valdegoba-cave',
 'https://nplus1.ru/news/2025/02/10/elastocaloric-cooling',
 'https://nplus1.ru/news/2025/02/10/super-heavy-b15-static-fire-test',
 'https://nplus1.ru/news/2025/02/07/bonobos-theory-of-mind',
 'https://nplus1.ru/news/2025/02/07/magdalenian-cannibalism',
 'https://nplus1.ru/news/2025/02/07/taste-the-tess',
 'https://nplus1.ru/news/2025/02/07/so-sad-but-true',
 'https://nplus1.ru/news/2025/02/07/vegavis-iaai-skull',
 'https://nplus1.ru/news/2025/02/07/temporal-turnover',
 'https://nplus1.ru/news/2025/02/06/cracking-boiled-egg',
 'https://nplus1.ru/news/2025/

Теперь наша задача сводится к следующему: изучить одну страницу с новостью; научиться из нее вытаскивать текст и всю необходимую нам информацию; а затем применить весь набор действий к каждой ссылке из `urls` посредством цикла.

Для начала посмотрим на новость с индексом 3 (у вас, конечно, будет другая, чем та, что ниже, — новости обновляются; портал — живой и работающий).

In [15]:
url0 = urls[3]

page0 = requests.get(url0)
soup0 = BeautifulSoup(page0.text, 'html')
soup0

<!DOCTYPE html>
<html lang="ru" prefix="og: http://ogp.me/ns#">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<title>Школьная математика не помогла индийским детям на рынке. А дети, торгующие на рынках, плохо справлялись с абстрактными заданиями</title>
<link as="font" crossorigin="" href="https://staticn1.nplus1.ru/fonts/AeonikPro/AeonikPro-Regular.woff2" rel="preload" type="font/woff2"/>
<link as="font" crossorigin="" href="https://staticn1.nplus1.ru/fonts/Spectral/Spectral-Regular.woff" rel="preload" type="font/woff2"/>
<link href="/front-build/css/main.css?id=842e64708435127ee441c2e86afffea2" rel="stylesheet"/>
<link href="/front-build/css/app.css?id=92673ebe7185ebc42e29fc7294a4c65f" rel="stylesheet"/>
<link href="/apple-touch-icon.png" rel="apple-touch-icon" sizes="180x180"/>
<link href="/favicon-32x32.png" rel="icon" sizes="32x32" type="image/png"/>
<link href="/favicon-16x16.png" rel="icon" sizes="16x16" type="image/png"/>
<

В коде каждой страницы с новостью есть часть с мета-информацией: датой, именем автора и прочим. Такая информация окружена тэгом `<meta></meta>`. Кажется, это как раз то, что надо! Посмотрим детельнее:

In [17]:
soup0.find_all('meta')

[<meta charset="utf-8"/>,
 <meta content="width=device-width, initial-scale=1" name="viewport"/>,
 <meta content="#f26e40" name="msapplication-TileColor"/>,
 <meta content="#ffffff" name="theme-color"/>,
 <meta content="8c90b02c84ac3b72" name="yandex-verification"/>,
 <meta content="b419949322895fc9106e24ed01be58ac" name="pmail-verification"/>,
 <meta content="N + 1 — главное издание о науке, технике и технологиях" name="description"/>,
 <meta content="N + 1 — главное издание о науке, технике и технологиях" property="og:site_name"/>,
 <meta content="Школьная математика не помогла индийским детям на рынке" property="og:title"/>,
 <meta content="https://minio.nplus1.ru/app-images/992546/67a9934b7a954_cover_share.jpg" property="og:image"/>,
 <meta content="https://nplus1.ru/news/2025/02/10/real-world-math" property="og:url"/>,
 <meta content="N + 1 — главное издание о науке, технике и технологиях" property="og:description"/>,
 <meta content="article" property="og:type"/>,
 <meta content="

Из этого списка нам нужны части с именем автора, датой и заголовком. Воспользуемся поиском по атрибуту `name`. Передадим функции `find_all()` в качестве аргумента словарь с названием и значением атрибута:

In [18]:
soup0.find_all('meta', {'name' : 'author'}) # например, автор

[<meta content="Катерина Петрова" name="author"/>]

Теперь выберем единственный элемент полученного списка (с индексом 0):

In [19]:
soup0.find_all('meta', {'name' : 'author'})[0]

<meta content="Катерина Петрова" name="author"/>

Нам нужно вытащить из этого объекта `content` — имя автора. Посмотрим на атрибуты:

In [20]:
soup0.find_all('meta', {'name' : 'author'})[0].attrs

{'name': 'author', 'content': 'Катерина Петрова'}

Как получить отсюда `content`? Очень просто, ведь это словарь! А доставать из словаря значение по ключу мы умеем.

In [21]:
author = soup0.find_all('meta', {'name' : 'author'})[0].get('content')
author

'Катерина Петрова'

Аналогичным образом извлечем дату и заголовок.

In [22]:
date = soup0.find_all('meta', {'itemprop' : 'datePublished'})[0].get('content')
title = soup0.find_all('meta', {'property' : 'og:title'})[0].get('content')

In [23]:
title

'Школьная математика не\xa0помогла индийским детям на\xa0рынке'

Что за `\ха0`, кстати — есть идеи? :)

Теперь осталось совсем чуть-чуть. Написать готовую функцию для всех проделанных нами действий и применить ее в цикле ко всем ссылкам в списке `urls`. Напишем! Аргументом функции будет ссылка на новость, а возвращать она будет название новости и всю необходимую информацию про неё (дата, автор и т.п.). Скопируем для этого соответствующие строки кода выше.

In [24]:
def GetNews(url0):
    """
    Возвращает кортеж с url0, date, author, title.
    Параметры:

    url0 - ссылка на новость (строка).
    """
    page0 = requests.get(url0)
    soup0 = BeautifulSoup(page0.text, 'html')

    try:
        author = soup0.find_all('meta', {'name' : 'author'})[0].get('content')
    except IndexError:
        author = None
    date = soup0.find_all('meta', {'itemprop' : 'datePublished'})[0].get('content')
    title = soup0.find_all('meta', {'property' : 'og:title'})[0].get('content')

    return url0, date, author, title

Уфф. Осталось применить нашу функцию в цикле. Но давайте не будем спешить: импортируем функцию `sleep` для задержки, чтобы на каждой итерации цикла, прежде чем перейти к следующей новости, Python ждал несколько секунд. Во-первых, это нужно, чтобы сайт «не понял», чтобы мы его грабим, да еще и автоматически. Во-вторых, с небольшой задержкой всегда есть гарантия, что страница прогрузится (сейчас это не очень важно, но особенно актуально будет, если рассматривать встраивание в браузер с Selenium). Приступим.

In [25]:
from time import sleep

In [26]:
len(urls)

50

In [27]:
news = [] # это будет список из кортежей, в которых будут храниться данные по каждой новости

for link in urls[10:25]:
    print(link)
    res = GetNews(link)
    news.append(res)

    sleep(3) # задержка в 3 секунды

https://nplus1.ru/news/2025/02/07/magdalenian-cannibalism
https://nplus1.ru/news/2025/02/07/taste-the-tess
https://nplus1.ru/news/2025/02/07/so-sad-but-true
https://nplus1.ru/news/2025/02/07/vegavis-iaai-skull
https://nplus1.ru/news/2025/02/07/temporal-turnover
https://nplus1.ru/news/2025/02/06/cracking-boiled-egg
https://nplus1.ru/news/2025/02/06/mo-as-good-as-ir
https://nplus1.ru/news/2025/02/06/genomic-history-of-north-pontic-region
https://nplus1.ru/news/2025/02/06/pig-kidneys-trial-go
https://nplus1.ru/news/2025/02/06/rats-global-warming
https://nplus1.ru/news/2025/02/06/omicron-escapes
https://nplus1.ru/news/2025/02/06/genetic-origin-of-the-yamnaya-people
https://nplus1.ru/news/2025/02/05/human-crowd-oscillations
https://nplus1.ru/news/2025/02/05/greenland-crevasse-fields
https://nplus1.ru/news/2025/02/05/mobile-not-carcinogenic


Так теперь выглядит первый элемент списка:

In [28]:
news[0]

('https://nplus1.ru/news/2025/02/07/magdalenian-cannibalism',
 '2025-02-07',
 'Михаил Подрезов',
 'На\xa0костях древних охотников-собирателей из\xa0Машицкой пещеры выявили следы каннибализма')

Импортируем `pandas` и создадим датафрейм из списка кортежей:

In [32]:
import pandas as pd

df = pd.DataFrame(news)
df.head(2)

Unnamed: 0,0,1,2,3
0,https://nplus1.ru/news/2025/02/07/magdalenian-...,2025-02-07,Михаил Подрезов,На костях древних охотников-собирателей из Маш...
1,https://nplus1.ru/news/2025/02/07/taste-the-tess,2025-02-07,Олег Лищук,Чрескожная электростимуляция помогла при гастр...


Как видите, это произошло довольно легко.

Переименуем столбцы в базе.

In [33]:
df.columns = ['link', 'date', 'author', 'title']

In [34]:
df

Unnamed: 0,link,date,author,title
0,https://nplus1.ru/news/2025/02/07/magdalenian-...,2025-02-07,Михаил Подрезов,На костях древних охотников-собирателей из Маш...
1,https://nplus1.ru/news/2025/02/07/taste-the-tess,2025-02-07,Олег Лищук,Чрескожная электростимуляция помогла при гастр...
2,https://nplus1.ru/news/2025/02/07/so-sad-but-true,2025-02-07,Олег Лищук,Эффективное лечение психических расстройств по...
3,https://nplus1.ru/news/2025/02/07/vegavis-iaai...,2025-02-07,Сергей Коленов,Череп выдал в позднемеловой птице из Антарктид...
4,https://nplus1.ru/news/2025/02/07/temporal-tur...,2025-02-07,Марина Попова,Резкие потепления и похолодания подорвали усто...
5,https://nplus1.ru/news/2025/02/06/cracking-boi...,2025-02-06,Егор Конюхов,Физики научились оптимально варить яйца
6,https://nplus1.ru/news/2025/02/06/mo-as-good-a...,2025-02-06,Михаил Бойм,Молибденовые комплексы не уступили иридиевым в...
7,https://nplus1.ru/news/2025/02/06/genomic-hist...,2025-02-06,Михаил Подрезов,Генетики выявили миграции эпохи энеолита в Сев...
8,https://nplus1.ru/news/2025/02/06/pig-kidneys-...,2025-02-06,Олег Лищук,В США разрешили клинические испытания генно-мо...
9,https://nplus1.ru/news/2025/02/06/rats-global-...,2025-02-06,Сергей Коленов,Городские популяции крыс выросли благодаря пот...


Всё! Сохраняем датафрейм в файл. Для разнообразия сохраним в Excel:

In [35]:
df.to_excel('nplus-news.xlsx', index=False)

Дело сделано! Мы молодцы! :)

## Практика

В качестве ещё одного практического примера, на котором можно потренироваться, а заодно и отточить свои навыки парсинга данных, рассмотрим обработку сайта с большим каталогом книг на продажу [(ссылка)](http://books.toscrape.com/catalogue/page-1.html). Сайт этот, кстати, представляет собой специальный тренировочный портал для практики веб-скрейпинга на данных близких к реальным, а значит особых затруднений в процессе его обработки у нас возникнуть не должно.

Сам процесс веб-скрейпинга и парсинга давайте будем осуществлять с минимумом комментариев и пояснений, поскольку глобально мы лишь повторяем то, что уже проделали чуть ранее, — последуем тут старинному принципу: "Нет времени обсуждать — пишем код!" :)

Итак, поехали!


In [44]:
url = 'http://books.toscrape.com/catalogue/page-1.html'
response = requests.get(url)
response

<Response [200]>

In [45]:
response.content[:1000]

b'\n\n<!DOCTYPE html>\n<!--[if lt IE 7]>      <html lang="en-us" class="no-js lt-ie9 lt-ie8 lt-ie7"> <![endif]-->\n<!--[if IE 7]>         <html lang="en-us" class="no-js lt-ie9 lt-ie8"> <![endif]-->\n<!--[if IE 8]>         <html lang="en-us" class="no-js lt-ie9"> <![endif]-->\n<!--[if gt IE 8]><!--> <html lang="en-us" class="no-js"> <!--<![endif]-->\n    <head>\n        <title>\n    All products | Books to Scrape - Sandbox\n</title>\n\n        <meta http-equiv="content-type" content="text/html; charset=UTF-8" />\n        <meta name="created" content="24th Jun 2016 09:30" />\n        <meta name="description" content="" />\n        <meta name="viewport" content="width=device-width" />\n        <meta name="robots" content="NOARCHIVE,NOCACHE" />\n\n        <!-- Le HTML5 shim, for IE6-8 support of HTML elements -->\n        <!--[if lt IE 9]>\n        <script src="//html5shim.googlecode.com/svn/trunk/html5.js"></script>\n        <![endif]-->\n\n        \n            <link rel="shortcut icon"

In [46]:
tree = BeautifulSoup(response.content, 'html.parser')

In [47]:
tree.html.head.title.text.strip()

'All products | Books to Scrape - Sandbox'

In [48]:
books = tree.find_all('article', {'class' : 'product_pod'})
books[5]

<article class="product_pod">
<div class="image_container">
<a href="the-requiem-red_995/index.html"><img alt="The Requiem Red" class="thumbnail" src="../media/cache/68/33/68339b4c9bc034267e1da611ab3b34f8.jpg"/></a>
</div>
<p class="star-rating One">
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
</p>
<h3><a href="the-requiem-red_995/index.html" title="The Requiem Red">The Requiem Red</a></h3>
<div class="product_price">
<p class="price_color">£22.65</p>
<p class="instock availability">
<i class="icon-ok"></i>
    
        In stock
    
</p>
<form>
<button class="btn btn-primary btn-block" data-loading-text="Adding..." type="submit">Add to basket</button>
</form>
</div>
</article>

In [49]:
books[5].find('p', {'class': 'price_color'}).text

'£22.65'

In [50]:
books[5].a.get('href')

'the-requiem-red_995/index.html'

In [51]:
books[5].h3.a.get('title')

'The Requiem Red'

In [52]:
books[5].p.get('class')[1]

'One'

In [53]:
def get_page(p):
    url = f'http://books.toscrape.com/catalogue/page-{p}.html'
    response = requests.get(url)
    tree = BeautifulSoup(response.content, 'html.parser')
    books = tree.find_all('article', {'class' : 'product_pod'})

    info = []

    for book in books:
        info.append({'price': book.find('p', {'class': 'price_color'}).text,
                     'href': book.h3.a.get('href'),
                     'title': book.h3.a.get('title'),
                    'rating': book.p.get('class')[1]})

    return info

In [54]:
from tqdm import tqdm

In [55]:
infa = []

for p in tqdm(range(1,51)):
    try:
        infa.extend(get_page(p))
        sleep(5)
    except:
        print(p)

100%|██████████| 50/50 [04:12<00:00,  5.06s/it]


In [56]:
df = pd.DataFrame(infa)
print(df.shape)
df.head()

(1000, 4)


Unnamed: 0,price,href,title,rating
0,£51.77,a-light-in-the-attic_1000/index.html,A Light in the Attic,Three
1,£53.74,tipping-the-velvet_999/index.html,Tipping the Velvet,One
2,£50.10,soumission_998/index.html,Soumission,One
3,£47.82,sharp-objects_997/index.html,Sharp Objects,Four
4,£54.23,sapiens-a-brief-history-of-humankind_996/index...,Sapiens: A Brief History of Humankind,Five


In [57]:
df.to_csv('books_parsed.csv', index=False)

In [58]:
df.to_excel('books_parsed.xlsx', index=False)

Ну что, всё получилось, всё понятно?

Попробуйте теперь самостоятельно!

### Задания для самостоятельного решения (парсинг сайта)

По аналогии с примером выше вам предстоит собрать данные с сайта https://quotes.toscrape.com/.

1) Распарсив html-страницу с цитатами, извлеките с сайта саму цитату, автора цитаты, а также все теги, связанные с этой цитатой.

2) Напишите программу, где пользователь вводит тег, а ему выводятся все цитаты, у которых есть такой тег (например, `'truth'`).

In [None]:
# your code here