# Основы программирования в Python

*Светлана Жучкова, НИУ ВШЭ*

## Семинар 7

В этом семинаре вам предстоит потренироваться в использовании модулей `requests` и `bs4` для извлечения информации с веб-страницы. 
Основная задача следующая: собрать данные об учебных курсах вашей образовательной программы [с этой страницы](https://www.hse.ru/ba/political/courses), то есть получить таблицу, в которой будут представлены 
- название курса
- ссылка на курс
- статус курса: обязательный, по выбору, факультатив
- язык курса
- время проведения курса (какой курс и модули)  

Для вашего удобства задание разбито на мини-шаги.

**Шаг 1.** Импортируйте модули `requests` и `pandas` (под псевдонимом `pd`), а также функцию `BeautifulSoup` из модуля `bs4`.

In [3]:
import pandas as pd
from bs4 import BeautifulSoup
import requests

**Шаг 2.** Отправьте get-запрос на [эту страницу](https://www.hse.ru/ba/political/courses) и сохраните результат в переменную `response`. Убедитесь, что получили код ответа 200. Что он означает?

In [4]:
url = 'https://www.hse.ru/ba/political/courses'

response = requests.get(url)
response # все коды на 4-5 это коды ошибок, код 200 - всё окей

<Response [200]>

**Шаг 3.** Выведите на экран неструктурированный html-код страницы.

In [5]:
response.text

'<!DOCTYPE html>\n<!-- (c) Art. Lebedev Studio | http://www.artlebedev.com/ -->\n<html xmlns:perl="urn:perl" lang="ru"><head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8"><meta http-equiv="X-UA-Compatible" content="IE=Edge"><meta name="theme-color" content="#1658DA"><meta name="viewport" content="width=device-width, initial-scale=1"><link rel="apple-touch-icon" sizes="180x180" href="/f/src/global/i/favicon/favicon_ios_180x180.png"><link rel="icon" type="image/png" sizes="32x32" href="/f/src/global/i/favicon/favicon_32x32.png"><link rel="icon" type="image/png" sizes="16x16" href="/f/src/global/i/favicon/favicon_16x16.png"><link rel="mask-icon" href="/f/src/global/i/favicon/favicon.svg" color="#242f63"><link rel="manifest" href="/f/src/manifest/manifest_ru.json"><meta name="msapplication-config" content="/f/src/global/i/favicon/browserconfig.xml"><link rel="shortcut icon" type="image/x-icon" href="/favicon.ico"><!--[if lt IE 10]><script src="/f/src/global/bower_compo

**Шаг 4.** Восстановите структуру html-кода, превратив его в прекрасный суп, и сохраните результат в переменную `soup`.

In [6]:
soup = BeautifulSoup(response.text)

**Шаг 5.** Сначала поработайте с первым курсом на этой странице - Академическое письмо на английском языке. С помощью браузера определите тег, в котором содержится вся нужная информация об этом курсе. Тег должен быть универсальным в том плане, что такие же теги будут агрегировать информацию и по следующим курсам. Затем найдите этот тег в супе и сохраните его в переменную `data_per_course`.  

Обратите внимание, что методы `.find()` и `.find_all()` ищут нестрогие совпадения атрибутов тегов. Это означает, что если, например, у вас на странице есть теги `div` с атрибутами `class`, равными `edu-events__item` и `edu-events__item--header edu-events__item`, а вы ищете тег `div` с классом `edu-events__item`, то будут найдены оба тега.

In [26]:
data_per_course = soup.find_all('div', attrs ={'class':'edu-events__item'})
data_per_course

[<div class="edu-events__item--header edu-events__item"><div class="edu-events_persons">Преподаватели</div><div class="edu-events_modules"> </div><div class="edu-events_courses"><span class="edu-events_courses__caption">Курсы:</span><span class="edu-events_courses__switch edu-events_courses__switch--selected">По алфавиту</span><a class="edu-events_courses__switch no-visited" href="https://www.hse.ru/ba/political/courses?sort=status">По статусу</a></div></div>,
 <div class="edu-events__item" data-href="https://www.hse.ru/ba/political/courses/339572515.html"><div class="edu-events_persons"><div class="edu-events_person"><div class="g-pic edu-events_person__pic" style="background-image: url(/org/persons/cimage/192181869);"></div><div class="edu-events_person__name"><a href="/org/persons/192181869">Гагарина Людмила Александровна</a></div></div></div><div class="edu-events_modules"><ul class="edu-filter_modules__list ui-sortable" data-tooltip="4-й курс, 1-3 модуль"><li class="edu-filter_mod

In [28]:
data_per_course[1]

<div class="edu-events__item" data-href="https://www.hse.ru/ba/political/courses/339572515.html"><div class="edu-events_persons"><div class="edu-events_person"><div class="g-pic edu-events_person__pic" style="background-image: url(/org/persons/cimage/192181869);"></div><div class="edu-events_person__name"><a href="/org/persons/192181869">Гагарина Людмила Александровна</a></div></div></div><div class="edu-events_modules"><ul class="edu-filter_modules__list ui-sortable" data-tooltip="4-й курс, 1-3 модуль"><li class="edu-filter_modules__item edu-filter_modules__item--short edu-filter_modules__item--active edu-filter_modules__item--begin" data-course="4-й курс"></li><li class="edu-filter_modules__item edu-filter_modules__item--short edu-filter_modules__item--active" data-course="4-й курс"></li><li class="edu-filter_modules__item edu-filter_modules__item--short edu-filter_modules__item--active" data-course="4-й курс"></li><li class="edu-filter_modules__item edu-filter_modules__item--short" 

**Шаг 6.** Из найденного тега ивлеките название курса и сохраните в переменную `title`.

In [29]:
title = data_per_course[1].find('a', {'class': 'link link_dark'}).get_text()
title

'Академическое письмо на английском языке'

**Шаг 7.** Из найденного тега ивлеките ссылку на курс и сохраните в переменную `link`.

In [30]:
link = data_per_course[1].find('a', {'class': 'link link_dark'}).get('href')
link

'https://www.hse.ru/ba/political/courses/339572515.html'

**Шаг 8.** Из найденного тега ивлеките статус курса ("Факультатив") и сохраните в переменную `status`.

In [32]:
status = data_per_course[1].find('div', {'class': 'edu-program_status'}).get_text()
status

'Факультатив'

**Шаг 9.** Из найденного тега ивлеките язык курса ("русский") и сохраните в переменную `language`.

In [33]:
language = data_per_course[1].find('div', {'class': 'edu-program_languges b-events__languges with-indent1'}).get_text()
language

'русский'

**Шаг 10.** Из найденного тега ивлеките время проведения курса ("4-й курс, 1-3 модуль") и сохраните в переменную `modules`. Обратите внимание, что нужная информация в теге представлена не как текст, а как значение одного из атрибутов, то есть нужно использовать не `.get_text()`, а `.get(...)`.

In [42]:
modules = data_per_course[1].find('ul', {'class': 'edu-filter_modules__list ui-sortable'}).get('data-tooltip')
modules

'4-й курс, 1-3 модуль'

**Шаг 11.** Поместите найденные данные по этому курсу в список, назвав его `list_per_course`. Это будет одна строчка будущего датафрейма.

In [46]:
list_per_course = [title, link, status, language, modules]
list_per_course

['Академическое письмо на английском языке',
 'https://www.hse.ru/ba/political/courses/339572515.html',
 'Факультатив',
 'русский',
 '4-й курс, 1-3 модуль']

**Шаг 12.** Напишите цикл, который пройдётся по всем курсам с этой страницы и соберёт данные обо всех курсах на ней в список списков.  
Для этого: 
* создайте пустой список `list_per_page`
* пройдитесь циклом `for` по всем однотипным тегам из шага 5 (подсказка: скорее всего, вам не нужно трогать тег с индексом 0 по причине, описанной в шаге 5)
* [в цикле] повторите для каждого нужного тега действия по сбору названия, ссылки, статуса, языка и времени проведения курса, к которому относится этот тег. Всё это вы уже успешно проделали выше для одного тега
* [в цикле] поместите найденные данные по каждому курсу в список. Это вы уже успешно проделали выше для одного тега
* [в цикле] присоедините получившийся список к списку `list_per_page`
* выведите на экран `list_per_page`

In [60]:
list_per_page = []

for course in data_per_course[1:]:
    
    title = course.find('a', {'class': 'link link_dark'}).get_text()
    link = course.find('a', {'class': 'link link_dark'}).get('href')
    status = course.find('div', {'class': 'edu-program_status'}).get_text()
    language = course.find('div', {'class': 'edu-program_languges b-events__languges with-indent1'}).get_text()
    modules = course.find('ul', {'class': 'edu-filter_modules__list ui-sortable'}).get('data-tooltip')
    
    list_per_course = [title, link, status, language, modules]
    list_per_page.append(list_per_course)
    
print(list_per_page[:5])

[['Разработка и продвижение онлайн-продукта', 'https://www.hse.ru/ba/political/courses/339550775.html', 'По выбору', 'русский', '4-й курс, 1 модуль'], ['Россия в системе современной мировой политики', 'https://www.hse.ru/ba/political/courses/339558026.html', 'По выбору', 'русский', '4-й курс, 3 модуль'], ['Modern Political Science', 'https://www.hse.ru/ba/political/courses/339564390.html', 'Обязательный', 'английский', '4-й курс, 2 модуль'], ['Современная российская политика', 'https://www.hse.ru/ba/political/courses/375268465.html', 'Обязательный', 'русский', '2-й курс, 4 модуль'], ['Современный GR: как все работает на практике', 'https://www.hse.ru/ba/political/courses/375303218.html', 'По выбору', 'русский', '4-й курс, 2 модуль']]


**Шаг 13.** Напишите цикл, который пройдётся по всем четырём страницам с курсами и соберёт данные обо всех курсах в список списков.  
Для этого: 
* создайте пустой список `all_data`
* пройдитесь циклом `for` по всем однотипным ссылкам на страницы с курсами
* [в цикле] повторите для каждой страницы действия по отправке запроса, структурированию html-кода, сбору данных со всей страницы с помощью цикла из шага 11. Всё это вы уже успешно проделали выше для одной страницы
* [в цикле] на последнем шаге присоединяйте нужные данные к списку `all_data`, а не `list_per_page`
* выведите на экран `all_data`

Внимание! У одного из курсов (Современная российская политика) не указано время проведения - возникнет ошибка. Обработайте этот случай с помощью конструкции try-except.

In [62]:
all_data = []

for i in range(1, 5):
    
    url = f'https://www.hse.ru/ba/political/courses/page{i}.html?year=2020'
    response = requests.get(url)
    soup = BeautifulSoup(response.text)
    data_per_course = soup.find_all('div', attrs = {'class':'edu-events__item'})
    for course in data_per_course[1:]:
        try:
            modules = course.find('ul', {'class': 'edu-filter_modules__list ui-sortable'}).get('data-tooltip')
        except:
            modules = None
        title = course.find('a', {'class': 'link link_dark'}).get_text()
        link = course.find('a', {'class': 'link link_dark'}).get('href')
        status = course.find('div', {'class': 'edu-program_status'}).get_text()
        language = course.find('div', {'class': 'edu-program_languges b-events__languges with-indent1'}).get_text()
    
        list_per_course = [title, link, status, language, modules]
        all_data.append(list_per_course)

print(all_data)

[['Академическое письмо на английском языке', 'https://www.hse.ru/ba/political/courses/339572515.html', 'Факультатив', 'русский', '4-й курс, 1-3 модуль'], ['Анализ данных в Python', 'https://www.hse.ru/ba/political/courses/375301964.html', 'По выбору', 'русский', '4-й курс, 1, 2 модуль'], ['Анализ данных в Python', 'https://www.hse.ru/ba/political/courses/375301968.html', 'По выбору', 'русский', '3-й курс, 3, 4 модуль'], ['Анализ категориальных данных в статистических пакетах', 'https://www.hse.ru/ba/political/courses/375283978.html', 'По выбору', 'русский', '3-й курс, 3, 4 модуль'], ['Английский язык', 'https://www.hse.ru/ba/political/courses/339566012.html', 'Факультатив', 'русский', '2-й курс, 1-3 модуль'], ['Безопасность жизнедеятельности', 'https://www.hse.ru/ba/political/courses/384742079.html', 'Обязательный', 'русский', '1-й курс, 1 модуль'], ['Введение в специальность', 'https://www.hse.ru/ba/political/courses/384759383.html', 'Обязательный', 'русский', '1-й курс, 1 модуль'], 

In [None]:
data_per_course = soup.find_all('div', attrs ={'class':'edu-events__item'})

**Шаг 14.** Чтобы не заканчивать на несчастливом 13 шаге, переделайте список списков `all_data` в датафрейм. Придумайте ему собственное имя. Дайте названия колонкам. Экспортируйте собранную базу в excel-файл.

In [63]:
import pandas as pd
database = pd.DataFrame(all_data, columns = ['Название предмета', 'Ссылка', 'Обязательность', 'Язык', 'Модули'])
database.to_csv("hse.csv", sep='\t', encoding='utf-8')