# Web-scraping: сбор данных из баз данных и интернет-источников

*Алла Тамбовцева*

## Практикум 1.1. Введение в парсинг с BeautifulSoup: поиск по тэгам

Импортируем необходимые библиотеки. Нам понадобится модуль `requests` для отправки запросов, для «подключения» к странице и получения её содержимого в виде строки, и функция `BeautifulSoup` из библиотеки `bs4` для удобного поиска по полученной строке:

In [1]:
import requests

In [2]:
from bs4 import BeautifulSoup

Подключаемся к странице сайта с материалами [math-info.hse.ru](http://math-info.hse.ru):

In [3]:
page = requests.get("http://math-info.hse.ru/2023-24")

In [4]:
page

<Response [404]>

Объект, который мы сохранили в `page`, имеет особый тип *request*, он же запрос. Из него можно извлечь исходный код страницы в виде обычного текста (тип *string*). Однако в нашем случае мы этого сделать не сможем, потому что в ответ на запрос мы получили результат с кодом 404. Известная ошибка, которая возникает тогда, когда ссылка ведёт вникуда. Исправляемся – добавляем слэш в конце ссылки, в данном случае это важно:

In [5]:
page = requests.get("http://math-info.hse.ru/2023-24/")
page

<Response [200]>

Теперь код 200, это означает, что запрос был благополучно отправлен и на него был получен ответ. Извлечём из полученного ответа код HTML в виде обычной строки:

In [None]:
# page.text

Выполнять поиск по такой строке с тэгами не очень удобно (даже если вы знакомы с регулярными выражениями), поэтому преобразуем строку в объект типа `BeautifulSoup`. Такой объект внешне несильно отличается от обычной строки, однако внутри по структуре похож на словарь, и это сходство значительно упрощает поиск по тэгам и атрибутам.

In [6]:
soup = BeautifulSoup(page.text)

In [None]:
# внешне то же самое, что и ранее
# soup

На объектах `BeautifulSoup` определены методы `.find()` и `.find_all()`. Оба метода возвращают фрагменты кода HTML, которые соответствуют критериям поиска, различие заключается в том, что метод `.find()` предназначен для поиска одного совпадения (если критериям поиска соответствует несколько элементов на странице, то берётся только первый), а метод `.find_all()` – для поиска всех совпадений. В первом случае результат возвращается в виде одного элемента типа `BeautifulSoup`, а во втором – в виде списка таких элементов. Давайте попробуем что-то поискать!

Найдём сначала заголовок первого уровня – он здесь точно один (тэг `<h1>`):

In [7]:
soup.find("h1")

<h1 class="firstHeading" id="firstHeading" lang="ru">Заглавная страница</h1>

Результат – фрагмент кода HTML со всеми тэгами. Как получить «чистый» текст? Запросить текст с помощью атрибута `.text`:

In [8]:
soup.find("h1").text

'Заглавная страница'

Теперь найдём все заголовки второго уровня:

In [9]:
soup.find_all("h2")

[<h2>Содержание</h2>,
 <h2><span id="Школа_лингвистики"></span><span class="mw-headline" id=".D0.A8.D0.BA.D0.BE.D0.BB.D0.B0_.D0.BB.D0.B8.D0.BD.D0.B3.D0.B2.D0.B8.D1.81.D1.82.D0.B8.D0.BA.D0.B8">Школа лингвистики</span></h2>,
 <h2><span id="ОП_Политология"></span><span class="mw-headline" id=".D0.9E.D0.9F_.D0.9F.D0.BE.D0.BB.D0.B8.D1.82.D0.BE.D0.BB.D0.BE.D0.B3.D0.B8.D1.8F">ОП Политология</span></h2>,
 <h2><span id="Вычислительные_социальные_науки"></span><span class="mw-headline" id=".D0.92.D1.8B.D1.87.D0.B8.D1.81.D0.BB.D0.B8.D1.82.D0.B5.D0.BB.D1.8C.D0.BD.D1.8B.D0.B5_.D1.81.D0.BE.D1.86.D0.B8.D0.B0.D0.BB.D1.8C.D0.BD.D1.8B.D0.B5_.D0.BD.D0.B0.D1.83.D0.BA.D0.B8">Вычислительные социальные науки</span></h2>,
 <h2><span id="Факультет_креативных_индустрий"></span><span class="mw-headline" id=".D0.A4.D0.B0.D0.BA.D1.83.D0.BB.D1.8C.D1.82.D0.B5.D1.82_.D0.BA.D1.80.D0.B5.D0.B0.D1.82.D0.B8.D0.B2.D0.BD.D1.8B.D1.85_.D0.B8.D0.BD.D0.B4.D1.83.D1.81.D1.82.D1.80.D0.B8.D0.B9">Факультет креативных индустрий</span

Сохраним полученный с названием `h2` и поработаем с ним (и не только)!

In [10]:
h2 = soup.find_all("h2")

### Задача 1

Сохраните в новый список `hh` только названия образовательных программ или факультетов/школ, то есть все элементы списка `h2`, кроме первого и последнего.

In [11]:
hh = h2[1:-1]
print(hh)

[<h2><span id="Школа_лингвистики"></span><span class="mw-headline" id=".D0.A8.D0.BA.D0.BE.D0.BB.D0.B0_.D0.BB.D0.B8.D0.BD.D0.B3.D0.B2.D0.B8.D1.81.D1.82.D0.B8.D0.BA.D0.B8">Школа лингвистики</span></h2>, <h2><span id="ОП_Политология"></span><span class="mw-headline" id=".D0.9E.D0.9F_.D0.9F.D0.BE.D0.BB.D0.B8.D1.82.D0.BE.D0.BB.D0.BE.D0.B3.D0.B8.D1.8F">ОП Политология</span></h2>, <h2><span id="Вычислительные_социальные_науки"></span><span class="mw-headline" id=".D0.92.D1.8B.D1.87.D0.B8.D1.81.D0.BB.D0.B8.D1.82.D0.B5.D0.BB.D1.8C.D0.BD.D1.8B.D0.B5_.D1.81.D0.BE.D1.86.D0.B8.D0.B0.D0.BB.D1.8C.D0.BD.D1.8B.D0.B5_.D0.BD.D0.B0.D1.83.D0.BA.D0.B8">Вычислительные социальные науки</span></h2>, <h2><span id="Факультет_креативных_индустрий"></span><span class="mw-headline" id=".D0.A4.D0.B0.D0.BA.D1.83.D0.BB.D1.8C.D1.82.D0.B5.D1.82_.D0.BA.D1.80.D0.B5.D0.B0.D1.82.D0.B8.D0.B2.D0.BD.D1.8B.D1.85_.D0.B8.D0.BD.D0.B4.D1.83.D1.81.D1.82.D1.80.D0.B8.D0.B9">Факультет креативных индустрий</span></h2>, <h2><span id="ОП_

### Задача 2

Извлеките из каждого элемента списка `hh` текст и сохраните полученные названия программ/факультетов/школ в список `headers`.

In [12]:
# с циклом
headers = []
for h in hh:
    headers.append(h.text)
print(headers)

['Школа лингвистики', 'ОП Политология', 'Вычислительные социальные науки', 'Факультет креативных индустрий', 'ОП социология', 'ОП Психология']


In [13]:
# со списковым включением
headers = [i.text for i in hh]
print(headers)

['Школа лингвистики', 'ОП Политология', 'Вычислительные социальные науки', 'Факультет креативных индустрий', 'ОП социология', 'ОП Психология']


### Задача 3

Найдите на странице список курсов ОП «Политология» (их просто больше всего) и сохраните его в переменную `polit`.

In [14]:
# находим все ненумерованные списки и берем третий
polit = soup.find_all("ul")[2]

### Задача 4

Используя `polit`, получите список названий курсов и назовите его `names`.

In [15]:
# элементы списка с тэгами
courses = polit.find_all("li")

# извлекаем текст из каждого элемента
names = [c.text for c in courses]
print(names)

['Высшая математика (1 курс)', 'Введение в регрессионный анализ (2 курс)', 'Основы анализа данных в Python (3 курс)', 'Программирование для всех (основы Python) (1 курс магистратуры)', 'Введение в теорию вероятностей и математическую статистику (1 курс)']


### Задача 5

Извлеките из каждого элемента `names` названия предметов «в чистом» виде, без указаний на то, на каком курсе они читаются, и сохраните результаты в новый список `names_clean`.

Подсказка: метод `.split()` для строк.

In [16]:
# на примере одного элемента: разбиваем строку
# по ( и из списка выбираем первый элемент (до скобки)

n = names[0]
n.split(" (")[0]

'Высшая математика'

In [17]:
# теперь для всех
names_clean = [n.split(" (")[0] for n in names]
names_clean

['Высшая математика',
 'Введение в регрессионный анализ',
 'Основы анализа данных в Python',
 'Программирование для всех',
 'Введение в теорию вероятностей и математическую статистику']

### Задача 6

Дан перечень id для курсов, созданный с помощью функции `range()`:

In [18]:
ids = range(1, 6)
print(*ids)

1 2 3 4 5


Используя `ids` и список `names_clean`, создайте словарь `info`, где ключами являются id, а значениями – названия курсов.

In [20]:
# склеиваем элементы списков попарно
print(*zip(ids, names_clean))

(1, 'Высшая математика') (2, 'Введение в регрессионный анализ') (3, 'Основы анализа данных в Python') (4, 'Программирование для всех') (5, 'Введение в теорию вероятностей и математическую статистику')


In [21]:
# склеиваем элементы списков попарно
# и превращаем список пар в словарь

info = dict(zip(ids, names_clean))
info

{1: 'Высшая математика',
 2: 'Введение в регрессионный анализ',
 3: 'Основы анализа данных в Python',
 4: 'Программирование для всех',
 5: 'Введение в теорию вероятностей и математическую статистику'}