# Современные методы анализа данных и машинного обучения, БИ

## НИУ ВШЭ, 2023-24 учебный год

# Семинар 10. Data Scraping. API


## Раздел 1. Web Scraping. Data Parsing

Прежде чем перейти к обсуждению и практическому освоению такого процесса, как Data Scraping, необходимо для начала освежить в памяти основы языка разметки HTML, поскольку всё то, с чем нам предстоит дальше работать, будет иметь именно такую разметку и оформление.

### Язык HTML

HTML (HyperText Markup Language) – это язык разметки, используемый для представления веб-страниц в интернете (для тех, кто работал с текстовыми ячейками в юпитеровских ноутбуках – в них, например, тоже используется свой язык разметки, только попроще). Принимая во внимание, что HTML – это язык разметки, а не язык программирования (вопреки расхожему заблуждению), – получается, что любая html-страница – это, по сути, самый обычный текст, в котором просто отмечено, какие части представляют собой заголовок, абзац, какие – таблицу, картинку, ну и так далее. Кстати, правилом хорошего тона считается включать в html-код как раз таки только содержательные вещи – текст и разметку; все оформление и интерактив принято выносить в отдельные файлы.

В целом, чтобы было понятнее, как это всё работает, поясним, что обычно за страницей в интернете кроется примерно следующее. На сервере лежит несколько папок. В одной папке лежат сами html-страницы с размеченным текстом. В другой – хранятся файлы *css* (*Cascading Style Sheets*), в которых заданы параметры оформления этих страниц (цвет заголовков, фона, меню, ширина рамочек вокруг текста и картинок и прочее). В третьей папке находятся файлы с кодом на *JavaScript*, которые отвечают за всевозможный интерактив: будь то всплывающий перевод слова при наведении курсора, увеличение картинки при просмотре, подсветка формы для заполнения, если формат даты неверный, и так далее. JavaScript ‒ тоже отдельный язык программирования, на котором пишется код, соответствующий интерактиву (кстати, несмотря на название, с Java он никак не связан).

Все эти файлы чётко связаны между собой: к каждой html-странице с разметкой присоединены с помощью ссылок css-файл с оформлением и код javascript. Таким образом собирается воедино весь сайт.

Иногда, впрочем, html-страницы создаются не по стандартам и в файле с текстом могут встретиться огромные куски, например отвечающие за оформление. Это, к сожалению, значительно затрудняет работу с ними (с такими сайтами мы ещё столкнемся в дальнейшем).

Сегодня мы с вами начнем разбирать веб-скрейпинг и дата-парсинг для html-файлов. Обычно два этих процесса связаны, просто парсинг – более узкое понятие. Веб-скрейпинг (*web scraping*) – это в целом процесс выгрузки данных с веб-страниц; а парсинг (*parsing*) – это выбор текста из файла с разметкой, например из xml или html, как у нас.

Но прежде, чем разбирать, как осуществляется работа с html-файлами, давайте получше познакомимся с их структурой. Для этого параллельно с рассмотрением дальнейших ячеек ноутбука предлагаем зайти на сайт [w3schools.com](https://www.w3schools.com/Html/) и открыть раздел [Try it yourself](https://www.w3schools.com/Html/tryit.asp?filename=tryhtml_default). W3Schools – отличный учебный инструмент для создания html-файлов, и да, на сайте в целом много документации и тьюториалов по html, css и веб-дизайну вообще. Почитайте потом на досуге!



Но вернемся к структуре HTML-файлов. Для начала стоит упомянуть, что в HTML для разметки везде используются тэги – служебные слова в треугольных скобках `<>`. Тэги бывают двух видов: открывающие и закрывающие. Открывающие тэги выглядят так, как представлено выше, а закрывающие – почти так же, но начинаются с прямого слэша (`/`).

Вся страница заключается в тэг `<html></html>`. В начале обычно указывается какая-то мета-информация: язык страницы, кодировка, метки, название и прочее. Здесь, правда, такого нет. "Тело" документа – собственно страница, которая отображается при просмотре, – заключается в тэг `<body></body>`.

Для заголовков используются тэги с `h` (`h` – от *header*): тэги `<h1></h1>`  ‒ для заголовков первого уровня, тэг `<h2></h2>` – для заголовков второго уровня и так далее. В тэги `<p></p>` заключаются абзацы (`p` – от *paragraph*).

Приостановимся пока с теорией и приступим к созданию своей первой html-странички! Вначале внесем изменения в файл ‒ создадим страничку "о себе". Для этого можете скопировать код ниже и вставить его в поле в разделе *Try it Yourself*, а затем нажать кнопку *Run*.

In [None]:
<!DOCTYPE html>
<html>
<head>
<title>Page Title</title>
</head>
<body>

<h1>Моя первая html-страница</h1>
<h2>О себе</h2>
<p>Я учусь создавать html-страницы.</p>

</body>
</html>

Теперь добавим небольшую таблицу. Знания об устройстве таблиц нам понадобятся, потому что чаще всего при парсинге приходится «выцеплять» данные как раз из таблиц на html-страницах.

Вся таблица заключается в тэги `<table></table>`. Далее таблица заполняется по строкам. Строка таблицы заключается в тэги `<tr></tr>` (от *table row*); затем идут ячейки таблицы ‒ они тоже имеют свои тэги. Если ячейка обычная ‒ то есть не является названием столбца или строки ‒ она окружена тэгом `<td></td>` (от *table*). Если же является ‒ тег будет другой: `<th></th>` (от *table header*).

Используя эти знания, давайте создадим свою таблицу на нашей странице:

In [None]:
<table>
<tr>
<th>Дата</th>
<th>Имя</th>
<th>Возраст</th>
</tr>
<tr>
<td>Иванов</td>
<td>Иван</td>
<td>28</td>
</tr>
</table>

Можем еще добавить, например, явные границы у ячеек. Для этого вставим атрибут *border* и отрегулируем ширину.

In [None]:
<table border="1">
<tr>
<th>Фамилия</th>
<th>Имя</th>
<th>Возраст</th>
</tr>
<tr>
<td>Иванов</td>
<td>Иван</td>
<td>28</td>
</tr>
</table>

Еще добавим заголовок и на этом пока, пожалуй, закончим.

In [None]:
<!DOCTYPE html>
<html>
<head>
<title>Page Title</title>
</head>
<body>

<h1>Моя первая html-страница</h1>
<h2>О себе</h2>
<p>Я учусь создавать html-страницы.</p>

<table border="1">
<caption>Информация</caption>
<tr>
<th>Фамилия</th>
<th>Имя</th>
<th>Возраст</th>
</tr>
<tr>
<td>Иванов</td>
<td>Иван</td>
<td>28</td>
</tr>
</table>

</body>
</html>

Получившийся результат выглядит довольно-таки просто, но в то же время он помог нам осознать основные принципы построения HTML-страниц, а также сконструировать и написать одну несложную страницу своими руками. Понимая это, мы готовы переходить к непосредственному обсуждению скрейпинга и парсинга, которые и являются главным предметом нашего сегодняшнего семинара.

### Web Scraping

Как мы уже выяснили в предыдущем блоке, процесс веб-скрейпинга подразумевает считывание данных с некоторого веб-сайта или ресурса автоматизированным образом. Для этого процесса существует очень большое количество различных подходов, возможных сценариев действия, а также специализированных библиотек, позволяющих реализовывать все эти сценарии. Ниже мы с вами рассмотрим пример лишь одного такого алгоритма действий для осуществления веб-скрейпинга, но, разумеется, ничто вас не ограничивает от того, чтобы в будущем действовать иначе, некоторым более продвинутым образом, со своими, подобранными вами библиотеками и так далее.

*Один из возможных алгоритмов скрейпинга:*

* указать в коде адрес интересующего сайта, откуда вы хотите скачать данные (с использованием библиотеки requests)

* сохранить веб-страницу в программе (html-код вашей страницы)

* выбрать данные, которые нужно собрать (с использованием библиотеки BeautifulSoup)

* записать данные в csv-файл

* если нужно соскрейпить несколько страниц ‒ повторить процесс для каждой из них.

Итак, давайте приступим к реализации этого алгоритма на практике. Нашей задачей будет являться анализ новостей с одного научно-популярного портала, выгрузка этих новостей в датафрейм pandas, а также последующее сохранение информации в csv-файл. Для начала, пожалуй, заглянем на сам [портал](https://nplus1.ru/).

Окей, мы посмотрели на титульную страницу портала, примерно поняли, с чем мы работаем, и можем теперь приступать непосредственно к скрейпингу.

Сначала выгрузим весь html-код страницы и сохраним его в отдельную переменную. Для этого нам потребуется библиотека `requests`. Документация: https://requests.readthedocs.io/en/latest/

Импортируем её:

In [None]:
import requests

Сохраним ссылку на главную страницу сайта в переменную `url` для удобства и выгрузим страницу. (Разумеется, это будет работать только при подключении к интернету. Если соединение будет отключено, Python выдаст `NewConnectionError`).

In [None]:
url = 'https://nplus1.ru/' # сохраняем
page = requests.get(url) # загружаем страницу по ссылке

Если мы просто посмотрим на объект, мы ничего особенного не увидим:

In [None]:
page

<Response [200]>

Кстати, что такое Response 200, и какие еще "респонзы" бывают?

### Parsing с BeautifulSoup

Для продолжения работы с нашей страницей и её последующего парсинга, нам понадобится специальная библиотека: BeautifulSoup.

BeautifulSoup ‒ это одна из самых распространенных python-библиотек для синтаксического разбора файлов HTML/XML. В веб-разработке слэнговым термином «суп из тегов» (tag soup) называют синтаксически или структурно некорректный HTML, написанный для веб-страницы. Именно отсюда и пошло такое необычное название для библиотеки. (Есть и другая, более весёлая гипотеза названия ‒ по [ссылке](https://aliceinwonderland.fandom.com/wiki/Turtle_Soup)).

Документация BeautifulSoup: https://www.crummy.com/software/BeautifulSoup/bs4/doc/



In [None]:
!pip install bs4

Collecting bs4
  Downloading bs4-0.0.2-py2.py3-none-any.whl (1.2 kB)
Installing collected packages: bs4
Successfully installed bs4-0.0.2


Итак, давайте импортируем функцию `BeautifulSoup` из библиотеки `bs4` (от *beautifulsoup4*) и заберём со страницы `page` код html в виде текста.

Сохраним в переменную `soup` весь HTML-код страницы. HTML-код ‒ это "дерево тегов", формирующее контент и всё наполнение страницы.

In [None]:
from bs4 import BeautifulSoup

In [None]:
soup = BeautifulSoup(page.text, 'html')

Если выведем `soup` на экран, мы увидим то же самое, что в режиме разработчика или в режиме просмотра исходного кода (`view-source` через *Ctrl+U* в Google Chrome).

In [None]:
soup

<!DOCTYPE html>
<html lang="ru" prefix="og: http://ogp.me/ns#">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<title>N + 1 — главное издание о науке, технике и технологиях</title>
<link as="font" crossorigin="" href="https://staticn1.nplus1.ru/fonts/AeonikPro/AeonikPro-Regular.woff2" rel="preload" type="font/woff2"/>
<link as="font" crossorigin="" href="https://staticn1.nplus1.ru/fonts/Spectral/Spectral-Regular.woff" rel="preload" type="font/woff2"/>
<link href="/front-build/css/main.css?id=9b496fbb252428c03791da99722528ab" rel="stylesheet"/>
<link href="/front-build/css/app.css?id=f9c00b5102d287d01698f43324336ca6" rel="stylesheet"/>
<link href="/apple-touch-icon.png" rel="apple-touch-icon" sizes="180x180"/>
<link href="/favicon-32x32.png" rel="icon" sizes="32x32" type="image/png"/>
<link href="/favicon-16x16.png" rel="icon" sizes="16x16" type="image/png"/>
<link href="/site.webmanifest" rel="manifest"/>
<link color="#f26e40" href=

Для просмотра, честно говоря, выглядит не очень удобно. «Причешем» наш `soup` – для этого воспользуемся методом `.prettify()` в сочетании с функцией `print()`.

In [None]:
print(soup.prettify())

<!DOCTYPE html>
<html lang="ru" prefix="og: http://ogp.me/ns#">
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1" name="viewport"/>
  <title>
   N + 1 — главное издание о науке, технике и технологиях
  </title>
  <link as="font" crossorigin="" href="https://staticn1.nplus1.ru/fonts/AeonikPro/AeonikPro-Regular.woff2" rel="preload" type="font/woff2"/>
  <link as="font" crossorigin="" href="https://staticn1.nplus1.ru/fonts/Spectral/Spectral-Regular.woff" rel="preload" type="font/woff2"/>
  <link href="/front-build/css/main.css?id=9b496fbb252428c03791da99722528ab" rel="stylesheet"/>
  <link href="/front-build/css/app.css?id=f9c00b5102d287d01698f43324336ca6" rel="stylesheet"/>
  <link href="/apple-touch-icon.png" rel="apple-touch-icon" sizes="180x180"/>
  <link href="/favicon-32x32.png" rel="icon" sizes="32x32" type="image/png"/>
  <link href="/favicon-16x16.png" rel="icon" sizes="16x16" type="image/png"/>
  <link href="/site.webmanifest" rel="manifest"

В такой выдаче ориентироваться чуть-чуть удобнее (но при желании, то же самое можно увидеть в браузере, на большом экране).

Итак, что же нам делать дальше? Как на основе этого сырого html-кода получить доступ к новостям на портале?

Для того чтобы это сделать, давайте с главной страницы сайта соберем все ссылки, из которых потом выделим ссылки на страницы с новостями. Ссылки в html-файле всегда заключены в тэг `<a></a>` и имеют атрибут `href`.

Помочь нам в поиске ссылок может функция **`soup.find('a')`**, которая найдет первый в дереве тег `<a>`.

Если нам нужно найти не только первый элемент, а все элементы по определенному признаку, следует использовать функцию **`soup.find_all('a')`**

In [None]:
for link in soup.find_all('a'):
    print(link.get('href'))

/search
https://offline.nplus1.ru/
https://nplus.pro/
https://nplus1.ru/about
https://nplus1.ru/difficult
https://nplus1.ru/adv
https://nplus1.ru/blog/2022/04/01/samotek
https://nplus1.ru/search?tags=946
https://nplus1.ru/search?tags=869
https://nplus1.ru/search?tags=874
https://nplus1.ru/search?tags=880
https://nplus1.ru/search?tags=768
https://nplus1.ru/search?tags=890
https://nplus1.ru/search?tags=871
https://nplus1.ru/search?tags=876
https://nplus1.ru/search?tags=775
https://nplus1.ru/search?tags=767
https://nplus1.ru/search?tags=771
https://nplus1.ru/search?tags=772
https://nplus1.ru/search?tags=778
https://nplus1.ru/search?tags=917
https://nplus1.ru/search?tags=918
https://nplus1.ru/search?tags=824
https://t.me/nplusone
https://vk.com/nplusone
https://ok.ru/nplus1
https://twitter.com/nplusodin
https://nplus1.ru/about
https://nplus1.ru/difficult
https://nplus1.ru/adv
https://nplus1.ru/blog/2022/04/01/samotek
https://nplus1.ru/search?tags=946
https://nplus1.ru/search?tags=869
https

Ссылок много. Но нам нужны только новости – ссылки, которые начинаются со слова `/news`. Добавим условие: будем выбирать только те ссылки, в которых есть `/news`. Создадим пустой список `urls` и будем добавлять в него только ссылки, которые удовлетворяют этому условию.

In [None]:
urls = []

for link in soup.find_all('a'):
#     print(link)
    if '/news' in link.get('href'):
        if 'https://' in link.get('href'):
            urls.append(link.get('href'))
urls

['https://nplus1.ru/news/2024/02/29/aortic-organ',
 'https://nplus1.ru/news/2024/03/02/proton-strangeness',
 'https://nplus1.ru/news/2024/03/02/slim-sleep-again-and-again',
 'https://nplus1.ru/news/2024/03/02/aphantasia-am',
 'https://nplus1.ru/news/2024/03/02/solo-orca-vs-shark',
 'https://nplus1.ru/news/2024/03/02/lifestyle-factors-frh',
 'https://nplus1.ru/news/2024/03/02/mujina-no-shokudai',
 'https://nplus1.ru/news/2024/03/02/ten-thousand-birds',
 'https://nplus1.ru/news/2024/03/02/worldwide-trends-underweight-obesity',
 'https://nplus1.ru/news/2024/03/02/sanctuary-phoenix-sorting',
 'https://nplus1.ru/news/2024/03/01/im-1-sleep',
 'https://nplus1.ru/news/2024/03/01/w-1-reentry',
 'https://nplus1.ru/news/2024/03/01/4c-37-11',
 'https://nplus1.ru/news/2024/03/01/im-1-ilo',
 'https://nplus1.ru/news/2024/03/01/posttraumatic-epilepsy-dementia',
 'https://nplus1.ru/news/2024/03/01/problem-solving-bird',
 'https://nplus1.ru/news/2024/03/01/suboptimal-asthma-care-ghg',
 'https://nplus1.r

Теперь наша задача сводится к следующему: изучить одну страницу с новостью, научиться из нее вытаскивать текст и всю необходимую информацию, а потом применить весь набор действий к каждой ссылке из `urls` в цикле. Посмотрим на новость с индексом 1 (у вас, конечно, может быть другая, новости обновляются).

In [None]:
url0 = urls[1]

page0 = requests.get(url0)
soup0 = BeautifulSoup(page0.text, 'html')
soup0

<!DOCTYPE html>
<html lang="ru" prefix="og: http://ogp.me/ns#">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<title>Физики раскрыли странность протона. Странный кварк вносит вклад в массу протона со значимостью более трех стандартных отклонений</title>
<link as="font" crossorigin="" href="https://staticn1.nplus1.ru/fonts/AeonikPro/AeonikPro-Regular.woff2" rel="preload" type="font/woff2"/>
<link as="font" crossorigin="" href="https://staticn1.nplus1.ru/fonts/Spectral/Spectral-Regular.woff" rel="preload" type="font/woff2"/>
<link href="/front-build/css/main.css?id=9b496fbb252428c03791da99722528ab" rel="stylesheet"/>
<link href="/front-build/css/app.css?id=f9c00b5102d287d01698f43324336ca6" rel="stylesheet"/>
<link href="/apple-touch-icon.png" rel="apple-touch-icon" sizes="180x180"/>
<link href="/favicon-32x32.png" rel="icon" sizes="32x32" type="image/png"/>
<link href="/favicon-16x16.png" rel="icon" sizes="16x16" type="image/png"/>
<

В коде каждой страницы с новостью есть часть с мета-информацией: датой, именем автора и проч. Такая информация окружена тэгом `<meta></meta>`. Посмотрим повнимательнее на это:

In [None]:
soup0.find_all('meta')

[<meta charset="utf-8"/>,
 <meta content="width=device-width, initial-scale=1" name="viewport"/>,
 <meta content="#f26e40" name="msapplication-TileColor"/>,
 <meta content="#ffffff" name="theme-color"/>,
 <meta content="8c90b02c84ac3b72" name="yandex-verification"/>,
 <meta content="b419949322895fc9106e24ed01be58ac" name="pmail-verification"/>,
 <meta content="N + 1 — главное издание о науке, технике и технологиях" name="description"/>,
 <meta content="N + 1 — главное издание о науке, технике и технологиях" property="og:site_name"/>,
 <meta content="Физики раскрыли странность протона" property="og:title"/>,
 <meta content="https://minio.nplus1.ru/app-images/894593/65e3641179ef8_cover_share.jpg" property="og:image"/>,
 <meta content="https://nplus1.ru/news/2024/03/02/proton-strangeness" property="og:url"/>,
 <meta content="N + 1 — главное издание о науке, технике и технологиях" property="og:description"/>,
 <meta content="article" property="og:type"/>,
 <meta content="2024-03-02" itempr

Из этого списка нам нужны части с именем автора, датой и заголовком. Воспользуемся поиском по атрибуту `name`. Передадим функции `find_all()` в качестве аргумента словарь с названием и значением атрибута:

In [None]:
soup0.find_all('meta', {'name' : 'author'}) # например, автор

[<meta content="Дмитрий Рудик" name="author"/>]

Теперь выберем единственный элемент полученного списка (с индексом 0):

In [None]:
soup0.find_all('meta', {'name' : 'author'})[0]

<meta content="Дмитрий Рудик" name="author"/>

Нам нужно вытащить из этого объекта `content` – имя автора. Посмотрим на атрибуты:

In [None]:
soup0.find_all('meta', {'name' : 'author'})[0].attrs

{'name': 'author', 'content': 'Дмитрий Рудик'}

Как получить отсюда `content`? Очень просто, ведь это словарь! А доставать из словаря значение по ключу мы умеем.

In [None]:
author = soup0.find_all('meta', {'name' : 'author'})[0].get('content')
author

'Дмитрий Рудик'

Аналогичным образом извлечем дату и заголовок.

In [None]:
date = soup0.find_all('meta', {'itemprop' : 'datePublished'})[0].get('content')
title = soup0.find_all('meta', {'property' : 'og:title'})[0].get('content')

In [None]:
title

'Физики раскрыли странность протона'

Теперь осталось совсем чуть-чуть. Написать готовую функцию для всех проделанных нами действий и применить ее в цикле для всех ссылок в списке `urls`. Напишем! Аргументом функции будет ссылка на новость, а возвращать она будет название новости и всю необходимую информацию (дата, автор и т.п.). Скопируем все строки кода выше.

In [None]:
def GetNews(url0):
    """
    Возвращает кортеж с url0, date, author, title.
    Параметры:

    url0 - ссылка на новость (строка).
    """
    page0 = requests.get(url0)
    soup0 = BeautifulSoup(page0.text, 'html')

    try:
        author = soup0.find_all('meta', {'name' : 'author'})[0].get('content')
    except IndexError:
        author = None
    date = soup0.find_all('meta', {'itemprop' : 'datePublished'})[0].get('content')
    title = soup0.find_all('meta', {'property' : 'og:title'})[0].get('content')

    return url0, date, author, title

In [None]:
help(GetNews)

Help on function GetNews in module __main__:

GetNews(url0)
    Возвращает кортеж с url0, date, author, title.
    Параметры:
    
    url0 - ссылка на новость (строка).



Уфф. Осталось применить нашу функцию в цикле. Но давайте не будем спешить: импортируем функцию `sleep` для задержки, чтобы на каждой итерации цикла, прежде чем перейти к следующей новости, Python ждал несколько секунд. Во-первых, это нужно, чтобы сайт «не понял», чтобы мы его грабим, да еще и автоматически. Во-вторых, с небольшой задержкой всегда есть гарантия, что страница прогрузится (сейчас это не очень важно, но особенно актуально будет, если рассматривать встраивание в браузер с Selenium). Приступим.

In [None]:
from time import sleep

In [None]:
len(urls)

71

In [None]:
news = [] # это будет список из кортежей, в которых будут храниться данные по каждой новости

for link in urls[10:25]:
    print(link)
    res = GetNews(link)
    news.append(res)

    sleep(3) # задержка в 3 секунды

https://nplus1.ru/news/2024/03/01/im-1-sleep
https://nplus1.ru/news/2024/03/01/w-1-reentry
https://nplus1.ru/news/2024/03/01/4c-37-11
https://nplus1.ru/news/2024/03/01/im-1-ilo
https://nplus1.ru/news/2024/03/01/posttraumatic-epilepsy-dementia
https://nplus1.ru/news/2024/03/01/problem-solving-bird
https://nplus1.ru/news/2024/03/01/suboptimal-asthma-care-ghg
https://nplus1.ru/news/2024/03/01/man-eating-wolves
https://nplus1.ru/news/2024/03/01/brokeback-whale
https://nplus1.ru/news/2024/03/01/predators-in-changing-climate
https://nplus1.ru/news/2024/03/01/trawniki-from-treblinka
https://nplus1.ru/news/2024/03/01/simple-vs-radical-hysterectomy
https://nplus1.ru/news/2024/03/01/dimorphos-shape
https://nplus1.ru/news/2024/03/01/dont-pack-to-go
https://nplus1.ru/news/2024/02/29/hl-taurus


Так теперь выглядит первый элемент списка:

In [None]:
news[0]

('https://nplus1.ru/news/2024/03/01/im-1-sleep',
 '2024-03-01',
 'Александр Войтюк',
 'Частный посадочный модуль IM-1 уснул на\xa0Луне')

Импортируем `pandas` и создадим датафрейм из списка кортежей:

In [None]:
import pandas as pd

In [None]:
df = pd.DataFrame(news)

In [None]:
df.head(2)

Unnamed: 0,link,date,author,title
0,https://nplus1.ru/news/2024/03/01/im-1-sleep,2024-03-01,Александр Войтюк,Частный посадочный модуль IM-1 уснул на Луне
1,https://nplus1.ru/news/2024/03/01/w-1-reentry,2024-03-01,Александр Войтюк,Varda Space показала видео спуска в атмосфере ...


Переименуем столбцы в базе.

In [None]:
df.columns = ['link', 'date', 'author', 'title']

In [None]:
df

Unnamed: 0,link,date,author,title
0,https://nplus1.ru/news/2024/03/01/im-1-sleep,2024-03-01,Александр Войтюк,Частный посадочный модуль IM-1 уснул на Луне
1,https://nplus1.ru/news/2024/03/01/w-1-reentry,2024-03-01,Александр Войтюк,Varda Space показала видео спуска в атмосфере ...
2,https://nplus1.ru/news/2024/03/01/4c-37-11,2024-03-01,Александр Войтюк,Астрономы отыскали самую тяжелую пару сверхмас...
3,https://nplus1.ru/news/2024/03/01/im-1-ilo,2024-03-01,Александр Войтюк,Лунный модуль IM-1 сфотографировал свою отлома...
4,https://nplus1.ru/news/2024/03/01/posttraumati...,2024-03-01,Слава Гоменюк,Эпилепсия после травмы головы повысила риск ра...
5,https://nplus1.ru/news/2024/03/01/problem-solv...,2024-03-01,Катерина Петрова,Способность птиц решать головоломки с едой свя...
6,https://nplus1.ru/news/2024/03/01/suboptimal-a...,2024-03-01,Марина Попова,Недостаточная забота о здоровье астматиков при...
7,https://nplus1.ru/news/2024/03/01/man-eating-w...,2024-03-01,Михаил Подрезов,Изотопы из шерсти волка-людоеда из Турку расск...
8,https://nplus1.ru/news/2024/03/01/brokeback-whale,2024-03-01,Сергей Коленов,Горбатые киты впервые спарились на глазах у лю...
9,https://nplus1.ru/news/2024/03/01/predators-in...,2024-03-01,Марина Попова,Гибкость в выборе жертв подвела хищных рыб в а...


Всё! Сохраняем датафрейм в файл. Для разнообразия сохраним в Excel:

In [None]:
df.to_excel('nplus-news.xlsx', index=False)

Дело сделано! Мы молодцы!

### Практика

В качестве ещё одного практического примера, на котором можно потренироваться, а заодно и отточить свои навыки парсинга данных, — рассмотрим обработку сайта с большим каталогом книг на продажу [(ссылка)](http://books.toscrape.com/catalogue/page-1.html). Сайт этот, кстати, представляет собой специальный тренировочный портал для практики веб-скрейпинга на данных близких к реальным, а значит особых затруднений в процессе его обработки у нас возникнуть не должно.

Сам процесс веб-скрейпинга и парсинга давайте будем осуществлять с минимумом комментариев и пояснений, поскольку глобально мы лишь повторяем то, что уже проделали чуть ранее, — последуем тут старинному принципу: "Нет времени обсуждать — пишем код!"

Итак, поехали!


In [None]:
url = 'http://books.toscrape.com/catalogue/page-1.html'
response = requests.get(url)
response

<Response [200]>

In [None]:
response.content[:1000]

b'\n\n<!DOCTYPE html>\n<!--[if lt IE 7]>      <html lang="en-us" class="no-js lt-ie9 lt-ie8 lt-ie7"> <![endif]-->\n<!--[if IE 7]>         <html lang="en-us" class="no-js lt-ie9 lt-ie8"> <![endif]-->\n<!--[if IE 8]>         <html lang="en-us" class="no-js lt-ie9"> <![endif]-->\n<!--[if gt IE 8]><!--> <html lang="en-us" class="no-js"> <!--<![endif]-->\n    <head>\n        <title>\n    All products | Books to Scrape - Sandbox\n</title>\n\n        <meta http-equiv="content-type" content="text/html; charset=UTF-8" />\n        <meta name="created" content="24th Jun 2016 09:30" />\n        <meta name="description" content="" />\n        <meta name="viewport" content="width=device-width" />\n        <meta name="robots" content="NOARCHIVE,NOCACHE" />\n\n        <!-- Le HTML5 shim, for IE6-8 support of HTML elements -->\n        <!--[if lt IE 9]>\n        <script src="//html5shim.googlecode.com/svn/trunk/html5.js"></script>\n        <![endif]-->\n\n        \n            <link rel="shortcut icon"

In [None]:
tree = BeautifulSoup(response.content, 'html.parser')

In [None]:
tree.html.head.title.text.strip()

'All products | Books to Scrape - Sandbox'

In [None]:
books = tree.find_all('article', {'class' : 'product_pod'})
books[5]

<article class="product_pod">
<div class="image_container">
<a href="the-requiem-red_995/index.html"><img alt="The Requiem Red" class="thumbnail" src="../media/cache/68/33/68339b4c9bc034267e1da611ab3b34f8.jpg"/></a>
</div>
<p class="star-rating One">
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
</p>
<h3><a href="the-requiem-red_995/index.html" title="The Requiem Red">The Requiem Red</a></h3>
<div class="product_price">
<p class="price_color">£22.65</p>
<p class="instock availability">
<i class="icon-ok"></i>
    
        In stock
    
</p>
<form>
<button class="btn btn-primary btn-block" data-loading-text="Adding..." type="submit">Add to basket</button>
</form>
</div>
</article>

In [None]:
books[0].find('p', {'class': 'price_color'}).text

'£51.77'

In [None]:
books[0].a.get('href')

'a-light-in-the-attic_1000/index.html'

In [None]:
books[0].h3.a.get('title')

'A Light in the Attic'

In [None]:
books[7].p.get('class')[1]

'Three'

In [None]:
def get_page(p):
    url = f'http://books.toscrape.com/catalogue/page-{p}.html'
    response = requests.get(url)
    tree = BeautifulSoup(response.content, 'html.parser')
    books = tree.find_all('article', {'class' : 'product_pod'})

    info = []

    for book in books:
        info.append({'price': book.find('p', {'class': 'price_color'}).text,
                     'href': book.h3.a.get('href'),
                     'title': book.h3.a.get('title'),
                    'rating': book.p.get('class')[1]})

    return info

In [None]:
from tqdm import tqdm

In [None]:
infa = []

for p in tqdm(range(1,51)):
    try:
        infa.extend(get_page(p))
        sleep(5)
    except:
        print(p)

100%|██████████| 50/50 [04:13<00:00,  5.07s/it]


In [None]:
df = pd.DataFrame(infa)
print(df.shape)
df.head()

(1000, 4)


Unnamed: 0,price,href,title,rating
0,£51.77,a-light-in-the-attic_1000/index.html,A Light in the Attic,Three
1,£53.74,tipping-the-velvet_999/index.html,Tipping the Velvet,One
2,£50.10,soumission_998/index.html,Soumission,One
3,£47.82,sharp-objects_997/index.html,Sharp Objects,Four
4,£54.23,sapiens-a-brief-history-of-humankind_996/index...,Sapiens: A Brief History of Humankind,Five


In [None]:
df.to_csv('books_parsed.csv', index=False)

In [None]:
df.to_excel('books_parsed.xlsx', index=False)

Ну что, всё получилось, всё понятно?

Попробуйте теперь самостоятельно!

### Задания для самостоятельного решения (парсинг сайта)

По аналогии с примером выше вам предстоит собрать данные с сайта https://quotes.toscrape.com/.

1) Распарсив html-страницу с цитатами, извлеките с сайта саму цитату, автора цитаты, а также все теги, связанные с этой цитатой.

2) Напишите программу, где пользователь вводит тег, а ему выводятся все цитаты, у которых есть такой тег (например, 'truth').

In [None]:
# your code here

## Раздел 2. Работа с API

До этого мы с вами собирали данные вручную, обращаясь к html-страницам, размеченным для отображения в браузере. Но данные также можно собирать и через API — application program interface.

Обычный интерфейс — это способ взаимодействия человека с программой, а API — одной программы с другой, например, вашего скрипта на Python — с удалённым веб-сервером.

Именно обсуждению такого прекрасного инструмента как API — а также всего, что с ним связано, — будет посвящен данный раздел семинара.

### Язык XML

Для хранения веб-страниц, которые читают люди, используется язык HTML. Для хранения произвольных структурированных данных, которыми обмениваются между собой программы, используются другие языки — в частности, язык XML, похожий на HTML. Точнее, XML — это, на самом деле, даже не язык, а скорее метаязык — то есть способ описания языков. В отличие от HTML, набор тегов в XML-документе может быть произвольным (и определяется разработчиком конкретного диалекта XML). Например, если бы мы хотели описать в виде XML некоторую студенческую группу, это могло бы выглядеть так:

```xml
<group>
    <number>134</number>
    <student>
        <firstname>Виталий</firstname>
        <lastname>Иванов</lastname>
    </student>
    <student>
        <firstname>Мария</firstname>
        <lastname>Петрова</lastname>
    </student>
</group>
```

Для обработки XML-файлов можно использовать тот же пакет *Beautiful Soup*, который мы уже использовали для работы с HTML. Единственное различие — нужно указать дополнительный параметр `features="xml"` при вызове функции `BeautifulSoup` — чтобы он не искал в документе HTML-теги.

In [1]:
group = """<group>
<number>134</number>
<student>
<firstname>Виталий</firstname>
<lastname>Иванов</lastname>
</student>
<student>
<firstname>Мария</firstname>
<lastname>Петрова</lastname>
</student>
</group>"""

In [2]:
!pip install lxml



In [4]:
obj = BeautifulSoup(group, features="lxml")
print(obj.prettify())

<html>
 <body>
  <group>
   <number>
    134
   </number>
   <student>
    <firstname>
     Виталий
    </firstname>
    <lastname>
     Иванов
    </lastname>
   </student>
   <student>
    <firstname>
     Мария
    </firstname>
    <lastname>
     Петрова
    </lastname>
   </student>
  </group>
 </body>
</html>



Номер группы можно найти, например, вот так — для каждого объекта через точку указываем его атрибут, в который надо спуститься.

In [5]:
obj.group.number.text # последний атрибут текст, точно также как делали в html

'134'

Но это работает только тогда, когда тэг уникальный. В других случаях, парсер всегда будет попадать в первый child-тэг, который он встретил по пути вниз.

In [6]:
obj.group.student.lastname.text # до Петровой так не добраться

'Иванов'

Перечислить всех студентов можно с помощью цикла (похожая структура у нас была и в обработке html).

In [7]:
for student in obj.group.find_all('student'):
    print(student.lastname.text, student.firstname.text)

Иванов Виталий
Петрова Мария


По сути, главное отличие xml от html, что работать вы будете не со стандартизированными структурами. Поэтому перед работой придется поиграть в детективов — запросить данные и внимательно изучить расположение узлов, чтобы понять, какие тэги вас интересуют.

### Язык JSON

Другой популярный формат, в котором клиент может отдать вам данные — это язык json. JSON расшифровывается как JavaScript Object Notation и изначально возник как подмножество языка JavaScript, используемое для описания объектов. Впрочем, впоследствии он начал использоваться и в других языках программирования, включая, конечно, Python.

Различные API могут поддерживать либо XML, либо JSON, либо и то, и другое одновременно, так что нам полезно будет научиться работать с обоими типами данных.

В целом, JSON очень похож на описание объекта в Python, и смысл квадратных и фигурных скобок здесь абсолютно такой же. Правда, есть и отличия: например, в Python одинарные и двойные кавычки ничем не отличаются, а в JSON можно использовать только двойные.

Полученный нами JSON-файл, как правило, представляет собой словарь, значения которого — строки или числа, а также списки или словари, значения которых в свою очередь также могут быть строками, числами, списками, словарями и т.д. Таким образом получается довольно сложная, ветвистая структура данных.

Впрочем, здесь очень важно сделать  ремарку, что тот факт, что перед нами сложная структура данных, видим только мы, но не программа — с точки зрения Python, j.text это просто какая-то строка. Однако в модуле requests присутствует специальный метод, позволяющий сразу выдать питоновский объект (словарь или список), если результат запроса возвращён в формате JSON. Так что нам в любом случае не придётся использовать какие-либо дополнительные библиотеки и сильно усложнять себе жизнь.

Подводя итог, хочется еще раз резюмировать, что основные преимущества JSON заключаются в том, что мы получаем готовый объект Python и нет необходимости использовать какие-то сторонние библиотеки для того, чтобы с ним работать. Недостатком является то же самое: зачастую поиск информации в XML-файле может проводиться более эффективно, чем в JSON.

### API для веб-сайтов

В рамках этого блока ваш семинарист осуществит смертельный номер: вы обсудите понятия API-ключа, протоколов API; изучите документацию по API для широкоизвестного российского портала; а также осуществите live-coding по сбору данных с этого ресурса автоматизированным образом.

В общем, будет интересно! Не переключайтесь! :)