# Web-scraping: сбор данных из баз данных и интернет-источников

*Алла Тамбовцева*

## Практикум 1.1. Введение в парсинг с BeautifulSoup: поиск по тэгам

Импортируем необходимые библиотеки. Нам понадобится модуль `requests` для отправки запросов, для «подключения» к странице и получения её содержимого в виде строки, и функция `BeautifulSoup` из библиотеки `bs4` для удобного поиска по полученной строке:

In [None]:
import requests

In [None]:
from bs4 import BeautifulSoup

Подключаемся к странице сайта с материалами [math-info.hse.ru](http://math-info.hse.ru)

In [None]:
page = requests.get("http://math-info.hse.ru/2023-24")

In [None]:
page

Объект, который мы сохранили в `page`, имеет особый тип *request*, он же запрос. Из него можно извлечь исходный код страницы в виде обычного текста (тип *string*). Однако в нашем случае мы этого сделать не сможем, потому что в ответ на запрос мы получили результат с кодом ошибки 404. Известная ошибка, которая возникает тогда, когда ссылка ведёт вникуда. Исправляемся – добавляем слэш в конце ссылки, в данном случае это важно:

In [None]:
page = requests.get("http://math-info.hse.ru/2023-24/")
page

Теперь код 200, это означает, что запрос был благополучно отправлен и на него был получен ответ. Извлечём из полученного ответа код HTML в виде обычной строки:

In [None]:
# print(page.text)

Выполнять поиск по такой строке с тэгами не очень удобно (даже если вы знакомы с регулярными выражениями), поэтому преобразуем строку в объект типа `BeautifulSoup`. Такой объект внешне несильно отличается от обычной строки, однако внутри по структуре похож на словарь, и это сходство значительно упрощает поиск по тэгам и атрибутам.

In [None]:
soup = BeautifulSoup(page.text)

In [None]:
# внешне то же самое, что и ранее
# soup

На объектах `BeautifulSoup` определены методы `.find()` и `.find_all()`. Оба метода возвращают фрагменты кода HTML, которые соответствуют критериям поиска, различие заключается в том, что метод `.find()` предназначен для поиска одного совпадения (если критериям поиска соответствует несколько элементов на странице, то берётся только первый), а метод `.find_all()` – для поиска всех совпадений. В первом случае результат возвращается в виде одного элемента типа `BeautifulSoup`, а во втором – в виде списка таких элементов. Давайте попробуем что-то поискать!

Найдём сначала заголовок первого уровня – он здесь точно один (тэг `<h1>`):

In [None]:
soup.find("h1")

Результат – фрагмент кода HTML со всеми тэгами. Как получить «чистый» текст? Запросить текст с помощью атрибута `.text`:

In [None]:
soup.find("h1").text

Теперь найдём все заголовки второго уровня:

In [None]:
soup.find_all("h2")

Сохраним полученный с названием `h2` и поработаем с ним (и не только)!

In [None]:
h2 = soup.find_all("h2")

### Задача 1

Сохраните в новый список `hh` только названия образовательных программ или факультетов/школ, то есть все элементы списка `h2`, кроме первого и последнего.

In [None]:
### YOUR CODE HERE ###

### Задача 2

Извлеките из каждого элемента списка `hh` текст и сохраните полученные названия программ/факультетов/школ в список `headers`.

In [None]:
### YOUR CODE HERE ###

### Задача 3

Найдите на странице список курсов ОП «Политология» (их просто больше всего) и сохраните его в переменную `polit`.

In [None]:
### YOUR CODE HERE ###

### Задача 4

Используя `polit`, получите список названий курсов и назовите его `names`.

In [None]:
### YOUR CODE HERE ###

### Задача 5

Извлеките из каждого элемента `names` названия предметов «в чистом» виде, без указаний на то, на каком курсе они читаются, и сохраните результаты в новый список `names_clean`.

Подсказка: метод `.split()` для строк.

In [None]:
### YOUR CODE HERE ###

### Задача 6

Дан перечень id для курсов, созданный с помощью функции `range()`:

In [None]:
ids = range(1, 6)

In [None]:
### YOUR CODE HERE ###

Используя `ids` и список `names_clean`, создайте словарь `info`, где ключами являются id, а значениями – названия курсов.