# Программирование на Python 

# Web-scraping: сбор данных о преподавателях ОП "Политология"

*Автор: Лика Капустина, НИУ ВШЭ (tg: @lika_kapustina)*

**Содержание:**
1. [Введение в html и BeautifulSoup](#part1);
2. [Работа с requests](#part2)
3. [Дополнительные материалы](#parlast).

В рамках сегодняшнего семинара мы с вами научимся читать html-разметку, познакомимся с библиотеками `requests` и `BeautifulSoup` и напишем свой маленький проект по сбору данных о страницах преподавателей ОП "Политология".

<h2>Введение в html и BeautifulSoup.</h2><a name='part1'></a>

Что такое html? **HTML - Hyper text markup language – язык, который используется для разметки сайтов.** Выглядит она следующим образом:
```
<открывающий тег> содержание </закрывающий тег>
```

Давайте откроем страницу [Ильи Михайловича Локшина](https://www.hse.ru/org/persons/14276397) и изучим её разметку.

Как посмотреть разметку?
* В **Safari** – `Показать программный код страницы`;
* В **Google Chrome** – `Просмотреть код`.

<center><b>HTML имеет ряд наиболее распространенных тегов:</b></center>
<p></p>
<center> 
    <table>
        <tr>
            <th><center>Тег</center></th>
            <th><center>Значение</center></th>
        </tr> 
        <tr><td><code>title</code></td>
            <td><p>Название страницы</p><td></tr>
        <tr><td><code>h1</code></td>
            <td><p>Заголовок первого уровня</p><td></tr>
        <tr><td><code>h2</code></td>
            <td><p>Заголовок второго уровня</p><td></tr>
        <tr><td><code>h3</code></td>
            <td><p>Заголовок третьего уровня</p><td></tr>
        <tr><td><code>b</code></td>
            <td><p><b>Жирный</b> шрифт</p><td></tr>
        <tr><td><code>i</code></td>
            <td><p>Текст <i>курсивом</i></p><td></tr>
        <tr><td><code>a href="URL"</code></td>
            <td><p>Гиперссылка, ведущая на URL</p><td></tr>   
        <tr><td><code>p</code></td>
            <td><p>Новый параграф</p><td></tr>       
        <tr><td><code>span</code></td>
            <td><p>Контейнер для контента</p><td></tr>  
        <tr><td><code>div</code></td>
            <td><p>Базовый блочный элемент</p><td></tr>          
    </table>
</center>

Это только ряд тегов. С остальными наиболее распространенными тегами вы можете ознакомиться по [ссылке](http://www.astro.spbu.ru/staff/afk/Teaching/Help/Tegs.htm).

Но как работать с этой самой разметкой?

### BeautifulSoup

```
Красивый суп, столь густой и зеленый, 
Ожидающий в горячем глубоком блюде! 
Кто для таких лакомств не наклонился бы? 
Вечерний суп, красивый суп!
```
*(c) Льюис Кэролл, "Алиса в стране чудес"*

Библиотека `BeautifulSoup` названа в честь одноименного стихотворения из повести Льюиса Кэролла "Алиса в стране чудес". В сказке это стихотворение произносит персонаж по имени Черепаха Квази (Mock Turtle), а в то время черепаший суп был супом, который подавали как деликатесы на званых ужинах, хотя на самом деле он готовился из говядины.

Главная задача BeautifulSoup – придать смысл бессмыслице. Эта библиотека позволяет получить данные из html-разметки, попутно исправляя плохо размеченные html страницы.

+ [Документация BeautifulSoup на английском](https://www.crummy.com/software/BeautifulSoup/bs4/doc/);
+ [Документация BeautifulSoup на русском](https://www.crummy.com/software/BeautifulSoup/bs4/doc.ru/);

Разберем работу с ней на примере. В переменную `html` сохраним кусочек html-разметки со страницы [Ильи Михайловича Локшина](https://www.hse.ru/org/persons/14276397):

In [30]:
from bs4 import BeautifulSoup # импортируем одну функцию

html = '''
<h1 class="person-caption">Локшин Илья Михайлович</h1>
<ul class="g-ul g-list small">
    <li>
        <span class="person-appointment-title">Ученый секретарь:</span>
        <a href="https://social.hse.ru/" class="link">Факультет социальных наук</a>
    </li>
    <li>
        <span class="person-appointment-title">Доцент:</span>
        <a href="https://social.hse.ru/" class="link">Факультет социальных наук</a>
         / 
        <a href="https://social.hse.ru/politics/" class="link">Департамент политики и управления</a>
    </li>
</ul>
<ul class="g-ul g-list small person-employment-addition">
    <li class="i">Начал работать в НИУ ВШЭ в 2011 году.</li>
    <li class="i">Научно-педагогический стаж: 12 лет.</li>
'''

<code><b>BeautifulSoup(html)</b></code>

Функция, отвечающая за создание объекта класса `BeautifulSoup`.

In [31]:
soup = BeautifulSoup(html) # создаем новый элемент
print(soup.prettify()) # эта функция позволяет красиво отформатировать документ

<html>
 <body>
  <h1 class="person-caption">
   Локшин Илья Михайлович
  </h1>
  <ul class="g-ul g-list small">
   <li>
    <span class="person-appointment-title">
     Ученый секретарь:
    </span>
    <a class="link" href="https://social.hse.ru/">
     Факультет социальных наук
    </a>
   </li>
   <li>
    <span class="person-appointment-title">
     Доцент:
    </span>
    <a class="link" href="https://social.hse.ru/">
     Факультет социальных наук
    </a>
    /
    <a class="link" href="https://social.hse.ru/politics/">
     Департамент политики и управления
    </a>
   </li>
  </ul>
  <ul class="g-ul g-list small person-employment-addition">
   <li class="i">
    Начал работать в НИУ ВШЭ в 2011 году.
   </li>
   <li class="i">
    Научно-педагогический стаж: 12 лет.
   </li>
  </ul>
 </body>
</html>


<b>Объект <code>Tag</code></b>

Основная работа с объектами `BeautifulSoup` ведутся на уровне тегов – `Tag`. **Обсудим несколько способов обращаться к тегам:**

<b><code>BeautifulSoup.Tag</code></b> – возвращает **первый элемент** под **тегом `Tag`**

In [32]:
soup.a # первый элемент под тегом a

<a class="link" href="https://social.hse.ru/">Факультет социальных наук</a>

<b><code>BeautifulSoup.find('tag')</code></b> – аналогично – возвращает **первый элемент** под **тегом `Tag`**

In [26]:
soup.find('a') # первый элемент под тегом а

<a class="link" href="https://social.hse.ru/">Факультет социальных наук</a>

<b><code>BeautifulSoup.find_all('tag')</code></b> – возвращает **все элементы** под **тегом `Tag`**

In [27]:
soup.find_all('a') # все элементы под тегом a

[<a class="link" href="https://social.hse.ru/">Факультет социальных наук</a>,
 <a class="link" href="https://social.hse.ru/">Факультет социальных наук</a>,
 <a class="link" href="https://social.hse.ru/politics/">Департамент политики и управления</a>]

In [35]:
soup.find_all('a')[0] # тут работает индексирование!

<a class="link" href="https://social.hse.ru/">Факультет социальных наук</a>

<b><code>BeautifulSoup.find_all('tag', {'attribute':'attibute_value'})</code></b> – возвращает **все элементы** под **тегом `Tag`** c атрибутом **`attribute`**, равным **`attribute_value`**. 

**Тут возникает новый термин – атрибут**.

У элементов html может **не быть атрибутов** – сейчас перед нами элемент html под тегом `h3`:

```
<h3>Образование, учёные степени</h3>
```

**А может и быть N-ное количество атрибутов:**
```
<a class="link" href="https://social.hse.ru/">Факультет социальных наук</a>,
```
Разберем:
* Тег – `a`,
* Первый атрибут – `class`, значение первого атрибута – `link`;
* Второй атрибут – `href` (ведет на ссылку или на часть ссылки), значение второго атрибута – `https://social.hse.ru/`

Осуществим поиск элементов под тегом `a` со значением атрибута `class` = `link`:

In [33]:
soup.find_all('a', {'class': 'link'}) # все элементы

[<a class="link" href="https://social.hse.ru/">Факультет социальных наук</a>,
 <a class="link" href="https://social.hse.ru/">Факультет социальных наук</a>,
 <a class="link" href="https://social.hse.ru/politics/">Департамент политики и управления</a>]

А теперь найдем элементы, ведущие на сайт Факультета социальных наук: элементы под тегом `a` с атрибутом `href`, равного `https://social.hse.ru/`:

In [34]:
soup.find_all('a', {'href': 'https://social.hse.ru/'}) # все элементы

[<a class="link" href="https://social.hse.ru/">Факультет социальных наук</a>,
 <a class="link" href="https://social.hse.ru/">Факультет социальных наук</a>]

In [36]:
soup.find_all('a', {'href': 'https://social.hse.ru/'})[0] # первый элемент

<a class="link" href="https://social.hse.ru/">Факультет социальных наук</a>

**Но как получить полезную информацию из элемента html? Мы можем обратиться к атрибутам элемента:**

In [37]:
soup.find_all('a', {'href': 'https://social.hse.ru/'})[0] # один элемент

<a class="link" href="https://social.hse.ru/">Факультет социальных наук</a>

In [40]:
soup.find_all('a', {'href': 'https://social.hse.ru/'})[0].attrs # объект с атрибутами и значениями атрибутов;

{'href': 'https://social.hse.ru/', 'class': ['link']}

In [42]:
soup.find_all('a', {'href': 'https://social.hse.ru/'})[0].get('class') # значение атрибута 'class'

['link']

In [43]:
soup.find_all('a', {'href': 'https://social.hse.ru/'})[0].get('href') # значение атрибута 'href'

'https://social.hse.ru/'

In [44]:
soup.find_all('a', {'href': 'https://social.hse.ru/'})[0].text # превратим элемент в text

'Факультет социальных наук'

**Теперь давайте соединим работу с атрибутами и работу с несколькими элементами:**

In [46]:
# напечатаем все элементы "a"
for a_element in soup.find_all('a'):
    print(a_element)

<a class="link" href="https://social.hse.ru/">Факультет социальных наук</a>
<a class="link" href="https://social.hse.ru/">Факультет социальных наук</a>
<a class="link" href="https://social.hse.ru/politics/">Департамент политики и управления</a>


In [47]:
# напечатаем каждый текст за элементом "a"
for a_element in soup.find_all('a'):
    print(a_element.text)

Факультет социальных наук
Факультет социальных наук
Департамент политики и управления


In [49]:
# напечатаем каждую ссылку за элементом "a"
for a_element in soup.find_all('a'):
    print(a_element.get('href'))

https://social.hse.ru/
https://social.hse.ru/
https://social.hse.ru/politics/


<h2>Работа с requests</h2><a name='part2'></a>

С обработкой html мы с вами разобрались. Пришло время понять, как получить ту самую html разметку. А это делать мы будем с помощью библиотеки `request`, отправляющей запросы к веб-страницам:

In [50]:
import requests # импортируем библиотеку

In [59]:
link = 'https://www.hse.ru/ba/political/tutors' # страница c преподавателями
requests.get(link) # response [200] означает, что запрос отправлен успешно

<Response [200]>

In [60]:
link = "https://www.hse.ru/org/persons/14276397"
html = requests.get(link)
html.text[:100] # теперь здесь хранится вся html-разметка страницы

'<!DOCTYPE html>\n<!-- (c) Art. Lebedev Studio | http://www.artlebedev.com/ -->\n<html xmlns:perl="urn:'

In [61]:
soup = BeautifulSoup(html.text) # превратили всю разметку в объект BeautifulSoup

<h3>Сбор ссылок с веб-страниц</h3><a name='part2.1'></a>
<p></p>
<center><b>Задача 1. Сбор ссылок</b></center>

**1.1 Перед вами – [ссылка на страницу с преподавателями ОП "Политология"](https://www.hse.ru/ba/political/tutors). Сделайте запрос к этой странице, и напечатайте информацию в формате:**

```
ФИО преподавателя, гипертекстовая ссылка на его страницу
```

*Например, информация о первых трех преподавателях должна быть напечатана так:*
```
Авгиненко Анна Дмитриевна /mirror/org/persons/redir/860421659?pl=
Акаева Кавсарат Исламовна /mirror/org/persons/redir/305053833?pl=
Акоз Кемаль Киванч /mirror/org/persons/redir/223725168?pl=
```

In [69]:
link = 'https://www.hse.ru/ba/political/tutors'
html = requests.get(link)
soup = BeautifulSoup(html.text)

In [70]:
# YOUR CODE HERE

**1.2 Обратите внимание: если использовать только `/mirror/org/persons/redir/860421659?pl=`, вы не откроете новую страницу, потому что это ссылка – неполная. Придумайте, как напечатать полную ссылку на страницу преподавателя:**

In [None]:
# YOUR CODE HERE

**<font color='blue'>1.3 Задача со звездочкой.</font> На сайте ОП "Политология" представлена информация не только о преподавателях за 2023/2024 год, но и за другие годы: 2022/2023, 2021/2022, 2020/2021, 2019/2020. Придумайте способ, как напечатать информацию о всех преподавателях за все эти года.**

*Подсказка: обратите внимание на ссылки на страницы с разделами **2022/2023, 2021/2022, 2020/2021, 2019/2020**, и используйте вложенные циклы*.

In [None]:
# YOUR CODE HERE

<h3>Обработка данных веб-страниц и создание pandas.DataFrame</h3><a name='par2.2'></a>

Теперь давайте перейдем к следующему разделу и соберем базовую информацию о преподавателях ОП "Политология". Когда мы начинаем работу над проектом, обычно один код (функция) для одного типа страниц (например, страница преподавателя, страница курса, страница статьи) сработает и для других. Но начнем с одной страницы.

Возьмем для примера [страницу Ильи Михайловича Локшина](https://www.hse.ru/org/persons/14276397):

In [72]:
link = 'https://www.hse.ru/org/persons/14276397' # сохранили ссылку
html = requests.get(link) # отправляем запрос
soup = BeautifulSoup(html.text) # обрабатываем html

Получим ФИО преподавателя:

In [74]:
soup.find('h1')

<h1 class="person-caption">Локшин Илья Михайлович</h1>

In [75]:
soup.find('h1').text

'Локшин Илья Михайлович'

In [76]:
name = soup.find('h1')

Получим информацию о годе старта работы в Вышке:

In [84]:
soup.find_all('li', {'class': 'i'})

[<li class="i">Начал работать в НИУ ВШЭ в 2011 году.</li>,
 <li class="i">Научно-педагогический стаж: 12 лет.</li>]

In [85]:
soup.find_all('li', {'class': 'i'})[0]

<li class="i">Начал работать в НИУ ВШЭ в 2011 году.</li>

In [86]:
soup.find_all('li', {'class': 'i'})[0].text

'Начал работать в НИУ ВШЭ в 2011 году.'

In [87]:
soup.find_all('li', {'class': 'i'})[0].text.split()

['Начал', 'работать', 'в', 'НИУ', 'ВШЭ', 'в', '2011', 'году.']

In [89]:
int(soup.find_all('li', {'class': 'i'})[0].text.split()[-2])

2011

Соберем информацию про должности:

In [93]:
soup.find_all('span', {'class':'person-appointment-title'})

[<span class="person-appointment-title">Ученый секретарь:</span>,
 <span class="person-appointment-title">Доцент:</span>]

In [94]:
for element in soup.find_all('span', {'class':'person-appointment-title'}):
    print(element.text)

Ученый секретарь:
Доцент:


In [98]:
work_statuses = []
for element in soup.find_all('span', {'class':'person-appointment-title'}):
    one_status = element.text.strip(':')
    work_statuses.append(one_status)
work_statuses

['Ученый секретарь', 'Доцент']

In [99]:
work_statuses = ", ".join(work_statuses)
work_statuses

'Ученый секретарь, Доцент'

А теперь – преподаваемые курсы:

In [101]:
for a_element in soup.find_all('a'):
    if 'edu/courses' in a_element.get('href'):
        print(a_element)

TypeError: argument of type 'NoneType' is not iterable

Если мы столкнулись с ошибкой выше, можем добавить дополнительную проверку:

In [104]:
for a_element in soup.find_all('a'):
    if a_element.get('href') != None and 'edu/courses' in a_element.get('href'):
        print(a_element)

<a class="link" href="https://www.hse.ru/edu/courses/835244676">Большие идеи в политике: актуальность несовременного</a>
<a class="link" href="https://www.hse.ru/edu/courses/835137696">41.03.04. Политология"</a>
<a class="link" href="https://www.hse.ru/edu/courses/838221925">01.03.02. Прикладная математика и информатика"</a>
<a class="link" href="https://www.hse.ru/edu/courses/835156111">41.03.04. Политология"</a>
<a class="link" href="https://www.hse.ru/edu/courses/838234400">01.03.02. Прикладная математика и информатика"</a>
<a class="link" href="https://www.hse.ru/edu/courses/835157058">Научно-исследовательский семинар</a>
<a class="link" href="https://www.hse.ru/edu/courses/835163690">Research Seminar: Research Design</a>
<a class="link" href="https://www.hse.ru/edu/courses/835155743">Современная политика</a>
<a class="link" href="https://www.hse.ru/edu/courses/570846634">Большие идеи в политике: актуальность несовременного</a>
<a class="link" href="https://www.hse.ru/edu/courses/6

Теперь напечатаем все названия:

In [105]:
for a_element in soup.find_all('a'):
    if a_element.get('href') != None and 'edu/courses' in a_element.get('href'):
        print(a_element.text)

Большие идеи в политике: актуальность несовременного
41.03.04. Политология"
01.03.02. Прикладная математика и информатика"
41.03.04. Политология"
01.03.02. Прикладная математика и информатика"
Научно-исследовательский семинар
Research Seminar: Research Design
Современная политика
Большие идеи в политике: актуальность несовременного
41.03.04. Политология"
01.03.02. Прикладная математика и информатика"
01.03.02. Прикладная математика и информатика"
41.03.04. Политология"
01.03.02. Прикладная математика и информатика"
Научно-исследовательский семинар
Research Seminar: Research Design
Большие идеи в политике: актуальность несовременного
Введение в современную политическую науку
История политических учений
Категории политической науки
Research Seminar: Research Design
Research Seminar: Research Design
Большие идеи в политике: актуальность несовременного
История политических учений
Категории политической науки
Model Thinking
Большие идеи в политике: актуальность несовременного
Большие идеи в

Теперь избавимся от кодов специальностей, чтобы остались только названия курсов:

In [108]:
courses = []
for a_element in soup.find_all('a'):
    if a_element.get('href') != None and 'edu/courses' in a_element.get('href'):
        if a_element.text[0].isdigit() == False:
            print(a_element.text)
            courses.append(a_element.text)

Большие идеи в политике: актуальность несовременного
Научно-исследовательский семинар
Research Seminar: Research Design
Современная политика
Большие идеи в политике: актуальность несовременного
Научно-исследовательский семинар
Research Seminar: Research Design
Большие идеи в политике: актуальность несовременного
Введение в современную политическую науку
История политических учений
Категории политической науки
Research Seminar: Research Design
Research Seminar: Research Design
Большие идеи в политике: актуальность несовременного
История политических учений
Категории политической науки
Model Thinking
Большие идеи в политике: актуальность несовременного
Большие идеи в политике: актуальность несовременного
История политических учений
Категории политической науки
Категории политической науки


In [111]:
# получим список курсов
sorted(set(courses))

['Model Thinking',
 'Research Seminar: Research Design',
 'Большие идеи в политике: актуальность несовременного',
 'Введение в современную политическую науку',
 'История политических учений',
 'Категории политической науки',
 'Научно-исследовательский семинар',
 'Современная политика']

In [113]:
# и создадим строку с перечислением курсов
", ".join(sorted(set(courses)))

'Model Thinking, Research Seminar: Research Design, Большие идеи в политике: актуальность несовременного, Введение в современную политическую науку, История политических учений, Категории политической науки, Научно-исследовательский семинар, Современная политика'

Хорошая практика – постепенно оформлять имеющийся у вас код в функции. Вот и мы - создадим функцию, получающую на вход ссылку на страницу преподавателя и возвращающую информацию о нем:

In [117]:
def get_info_about_tutor(tutor_link):
    # 1. Получаем html-разметку
    html = requests.get(tutor_link)
    soup = BeautifulSoup(html.text)
    
    # 2. Получаем атрибуты
    name = soup.h1.text
    year_start = int(soup.find_all('li', {'class': 'i'})[0].text.split()[-2])
    work_statuses = []
    for element in soup.find_all('span', {'class':'person-appointment-title'}):
        one_status = element.text.strip(':')
        work_statuses.append(one_status)
    work_statuses = ", ".join(work_statuses)
    
    courses = []
    for a_element in soup.find_all('a'):
        if a_element.get('href') != None and 'edu/courses' in a_element.get('href'):
            if a_element.text[0].isdigit() == False:
                courses.append(a_element.text)
    courses = ", ".join(sorted(set(courses)))
    # 3. Возвращаем кортеж:
    return (name, year_start, work_statuses, courses)

Как работает функция?

In [118]:
get_info_about_tutor('https://www.hse.ru/org/persons/14276397')

('Локшин Илья Михайлович',
 2011,
 'Ученый секретарь, Доцент',
 'Model Thinking, Research Seminar: Research Design, Большие идеи в политике: актуальность несовременного, Введение в современную политическую науку, История политических учений, Категории политической науки, Научно-исследовательский семинар, Современная политика')

Эту же информацию можно превратить в `pandas.DataFrame`:

In [132]:
pd.DataFrame(get_info_about_tutor('https://www.hse.ru/org/persons/14276397'))

Unnamed: 0,0
0,Локшин Илья Михайлович
1,2011
2,"Ученый секретарь, Доцент"
3,"Model Thinking, Research Seminar: Research Des..."


Чтобы он выглядел прилично, его можно перевернуть с помощью метода `.transpose()`:

In [133]:
pd.DataFrame(get_info_about_tutor('https://www.hse.ru/org/persons/14276397')).transpose()

Unnamed: 0,0,1,2,3
0,Локшин Илья Михайлович,2011,"Ученый секретарь, Доцент","Model Thinking, Research Seminar: Research Des..."


Используем список с ссылками на страницы преподавателей (если вы не создавали его ранее):

In [151]:
tutors_links = pd.read_csv('https://github.com/lika1kapustina/POLIT_24/raw/main/tutors_links.txt', header=None)
tutors_links = tutors_links.iloc[:, 0].tolist()
tutors_links[:5]

['https://www.hse.ru//mirror/org/persons/redir/860421659?pl=',
 'https://www.hse.ru//mirror/org/persons/redir/305053833?pl=',
 'https://www.hse.ru//mirror/org/persons/redir/223725168?pl=',
 'https://www.hse.ru//mirror/org/persons/redir/210380431?pl=',
 'https://www.hse.ru//mirror/org/persons/redir/61713365?pl=']

Теперь с помощью метода `pandas.concat()` по очереди склеим информацию о преподавателях:

In [136]:
all_tutors = pd.DataFrame() # сюда будем добавлять информацию о всех преподавателях

for link in tutors_links[:5]:
    one_tutor = get_info_about_tutor(link)
    one_tutor = pd.DataFrame(one_tutor).transpose()
    all_tutors = pd.concat([all_tutors, one_tutor]) # склеиваем датафреймы
    
all_tutors

Unnamed: 0,0,1,2,3
0,Авгиненко Анна Дмитриевна,2024,Приглашенный преподаватель,English for General Communication Purposes. In...
0,Акаева Кавсарат Исламовна,2019,Менеджер,"Independent Data Science Test. Advanced Level,..."
0,Акоз Кемаль Киванч,2018,Доцент,"Contemporary Economics, International Economic..."
0,Андрюшкина Юлия Александровна,2017,"Тьютор, Приглашенный преподаватель",English for General Academic Purposes. Upper-I...
0,Арбатли Эким,2012,Доцент,"Comparative Politics, Current Trends in Politi..."


Напоследок лучше задать имена колонок: 

In [137]:
all_tutors.columns = ['name', 'year_start_in_hse', 'work_status', 'courses']
all_tutors

Unnamed: 0,name,year_start_in_hse,work_status,courses
0,Авгиненко Анна Дмитриевна,2024,Приглашенный преподаватель,English for General Communication Purposes. In...
0,Акаева Кавсарат Исламовна,2019,Менеджер,"Independent Data Science Test. Advanced Level,..."
0,Акоз Кемаль Киванч,2018,Доцент,"Contemporary Economics, International Economic..."
0,Андрюшкина Юлия Александровна,2017,"Тьютор, Приглашенный преподаватель",English for General Academic Purposes. Upper-I...
0,Арбатли Эким,2012,Доцент,"Comparative Politics, Current Trends in Politi..."


А если вы хотите получить информацию о всех преподавателях, можем пройтись по всем ссылкам.

Дополнительно импортируем модуль `tqdm`, чтобы с его помощью продемонстрировать прогресс-бар и отслеживать процесс парсинга страниц:

In [145]:
import tqdm # импортируем библиотеку

all_tutors = pd.DataFrame() # сюда будем добавлять информацию о всех преподавателях

for link in tqdm.tqdm(tutors_links): # здесь используем функцию
    one_tutor = get_info_about_tutor(link)
    one_tutor = pd.DataFrame(one_tutor).transpose()
    all_tutors = pd.concat([all_tutors, one_tutor]) # склеиваем датафреймы
     
all_tutors.columns = ['name', 'year_start_in_hse', 'work_status', 'courses']
all_tutors

100%|█████████████████████████████████████████| 176/176 [02:19<00:00,  1.26it/s]


Unnamed: 0,name,year_start_in_hse,work_status,courses
0,Авгиненко Анна Дмитриевна,2024,Приглашенный преподаватель,English for General Communication Purposes. In...
0,Акаева Кавсарат Исламовна,2019,Менеджер,"Independent Data Science Test. Advanced Level,..."
0,Акоз Кемаль Киванч,2018,Доцент,"Contemporary Economics, International Economic..."
0,Андрюшкина Юлия Александровна,2017,"Тьютор, Приглашенный преподаватель",English for General Academic Purposes. Upper-I...
0,Арбатли Эким,2012,Доцент,"Comparative Politics, Current Trends in Politi..."
...,...,...,...,...
0,Шмелева Александра Алексеевна,2022,"Советник, Приглашенный преподаватель",Интегрированные коммуникации
0,Шминке Дмитрий Алексеевич,2015,"заместитель проректора, Заведующий лабораторией","Safe Living Basics, Безопасность жизнедеятельн..."
0,Шустова Елена Дмитриевна,2019,"Приглашенный преподаватель, Тьютор, Приглашенн...","English Language, English for General Academic..."
0,Юдина Екатерина Ильинична,2023,"Тьютор, Приглашенный преподаватель",English for General Communication Purposes. Up...


Напоследок сохраним информацию о преподавателях в xlsx файл:

In [21]:
all_tutors.to_excel('tutors.xlsx')
# all_tutors.to_csv('tutors.csv') # если хотите сохранить в формате csv

<h2>Дополнительные материалы</h2><a name='parlast'></a>

+ [Документация BeautifulSoup на английском](https://www.crummy.com/software/BeautifulSoup/bs4/doc/);
+ [Документация BeautifulSoup на русском](https://www.crummy.com/software/BeautifulSoup/bs4/doc.ru/);
+ [Список основных тегов языка HTML](http://www.astro.spbu.ru/staff/afk/Teaching/Help/Tegs.htm);
+ [Пишем парсер на Python за 5 минут / Хабр](https://habr.com/ru/sandbox/195434/);