# Основы программирования в Python

*Светлана Жучкова, НИУ ВШЭ*

Основная задача: собрать данные об учебных курсах вашей образовательной программы [с этой страницы](https://www.hse.ru/ba/political/courses), то есть получить таблицу, в которой будут представлены 
- название курса
- ссылка на курс
- статус курса: обязательный, по выбору, факультатив
- язык курса
- время проведения курса (какой курс и модули)

**Шаг 1.** Импортируйте модули `requests` и `pandas` (под псевдонимом `pd`), а также функцию `BeautifulSoup` из модуля `bs4`.

In [None]:
import pandas as pd
import requests
from bs4 import BeautifulSoup

**Шаг 2.** Отправьте get-запрос на [эту страницу](https://www.hse.ru/ba/political/courses) и сохраните результат в переменную `response`. Убедитесь, что получили код ответа 200. Что он означает?

In [None]:
url = 'https://www.hse.ru/ba/political/courses'
response = requests.get(url)
response

<Response [200]>

**Шаг 3.** Выведите на экран неструктурированный html-код страницы.

In [None]:
response.text

'<!DOCTYPE html>\n<!-- (c) Art. Lebedev Studio | http://www.artlebedev.com/ -->\n<html xmlns:perl="urn:perl" lang="ru"><head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8"><meta http-equiv="X-UA-Compatible" content="IE=Edge"><meta name="theme-color" content="#1658DA"><meta name="viewport" content="width=device-width, initial-scale=1"><link rel="apple-touch-icon" sizes="180x180" href="/f/src/global/i/favicon/favicon_ios_180x180.png"><link rel="icon" type="image/png" sizes="32x32" href="/f/src/global/i/favicon/favicon_32x32.png"><link rel="icon" type="image/png" sizes="16x16" href="/f/src/global/i/favicon/favicon_16x16.png"><link rel="mask-icon" href="/f/src/global/i/favicon/favicon.svg" color="#242f63"><link rel="manifest" href="/f/src/manifest/manifest_ru.json"><meta name="msapplication-config" content="/f/src/global/i/favicon/browserconfig.xml"><link rel="shortcut icon" type="image/x-icon" href="/favicon.ico"><!--[if lt IE 10]><script src="/f/src/global/bower_compo

**Шаг 4.** Восстановите структуру html-кода, превратив его в прекрасный суп, и сохраните результат в переменную `soup`.

In [None]:
soup = BeautifulSoup(response.text)
soup

<!DOCTYPE html>
<!-- (c) Art. Lebedev Studio | http://www.artlebedev.com/ --><html lang="ru" xmlns:perl="urn:perl"><head><meta content="text/html; charset=utf-8" http-equiv="Content-Type"/><meta content="IE=Edge" http-equiv="X-UA-Compatible"/><meta content="#1658DA" name="theme-color"/><meta content="width=device-width, initial-scale=1" name="viewport"/><link href="/f/src/global/i/favicon/favicon_ios_180x180.png" rel="apple-touch-icon" sizes="180x180"/><link href="/f/src/global/i/favicon/favicon_32x32.png" rel="icon" sizes="32x32" type="image/png"/><link href="/f/src/global/i/favicon/favicon_16x16.png" rel="icon" sizes="16x16" type="image/png"/><link color="#242f63" href="/f/src/global/i/favicon/favicon.svg" rel="mask-icon"/><link href="/f/src/manifest/manifest_ru.json" rel="manifest"/><meta content="/f/src/global/i/favicon/browserconfig.xml" name="msapplication-config"/><link href="/favicon.ico" rel="shortcut icon" type="image/x-icon"/><!--[if lt IE 10]><script src="/f/src/global/bowe

**Шаг 5.** Сначала поработайте с первым курсом на этой странице. С помощью браузера определите тег, в котором содержится вся нужная информация об этом курсе. Тег должен быть универсальным в том плане, что такие же теги будут агрегировать информацию и по следующим курсам. Затем найдите этот тег в супе и сохраните его в переменную `data_per_course`.  

Обратите внимание, что методы `.find()` и `.find_all()` ищут нестрогие совпадения атрибутов тегов. Это означает, что если, например, у вас на странице есть теги `div` с атрибутами `class`, равными `edu-events__item` и `edu-events__item--header edu-events__item`, а вы ищете тег `div` с классом `edu-events__item`, то будут найдены оба тега.

In [None]:
data_per_course = soup.find_all('div', {'class': 'edu-events__item'})[1]
data_per_course

<div class="edu-events__item" data-href="https://www.hse.ru/ba/political/courses/395894430.html"><div class="edu-events_persons"><div class="edu-events_person"><div class="g-pic edu-events_person__pic" style="background-image: url(/org/persons/cimage/499836616);"></div><div class="edu-events_person__name"><span>Швед Александр Игоревич</span></div></div></div><div class="edu-events_modules"><ul class="edu-filter_modules__list ui-sortable" data-tooltip="2-й курс, 1 модуль"><li class="edu-filter_modules__item edu-filter_modules__item--short edu-filter_modules__item--active edu-filter_modules__item--begin" data-course="2-й курс"></li><li class="edu-filter_modules__item edu-filter_modules__item--short" data-course="2-й курс"></li><li class="edu-filter_modules__item edu-filter_modules__item--short" data-course="2-й курс"></li><li class="edu-filter_modules__item edu-filter_modules__item--short" data-course="2-й курс"></li></ul></div><div class="edu-events_courses"><div class="edu-events_title

**Шаг 6.** Из найденного тега извлеките название курса и сохраните в переменную `title`.

In [None]:
title = data_per_course.find('div', {'class' : "edu-events_title title large"}).get_text().strip()
title

'GR-практики в системе государственного управления'

**Шаг 7.** Из найденного тега извлеките ссылку на курс и сохраните в переменную `link`.

In [None]:
link = data_per_course.find('div', {'class' : "edu-events_title title large"}).find("a").get('href')
link

'https://www.hse.ru/ba/political/courses/395894430.html'

**Шаг 8.** Из найденного тега извлеките статус курса и сохраните в переменную `status`.

In [None]:
status = data_per_course.find('div', {'class' : "edu-program_status"}).get_text().strip()
status

'Обязательный'

**Шаг 9.** Из найденного тега ивлеките язык курса и сохраните в переменную `language`.

In [None]:
language = data_per_course.find('div', {'class' : "edu-program_languges b-events__languges with-indent1"}).get_text().strip()
language

'русский'

**Шаг 9.** Из найденного тега ивлеките время проведения курса и сохраните в переменную `modules`. Обратите внимание, что нужная информация в теге представлена не как текст, а как значение одного из атрибутов, то есть нужно использовать не `.get_text()`, а `.get(...)`.

In [None]:
modules = data_per_course.find('ul', {'class' : "edu-filter_modules__list ui-sortable"}).get('data-tooltip')
modules

'2-й курс, 1 модуль'

**Шаг 10.** Поместите найденные данные по этому курсу в список, назвав его `list_per_course`. Это будет одна строчка будущего датафрейма.

In [None]:
list_per_course = [title, link, status, modules, language]
list_per_course

['GR-практики в системе государственного управления',
 'https://www.hse.ru/ba/political/courses/395894430.html',
 'Обязательный',
 '2-й курс, 1 модуль',
 'русский']

**Шаг 11.** Напишите цикл, который пройдётся по всем курсам с этой страницы и соберёт данные обо всех курсах на ней в список списков.  
Для этого: 
* создайте пустой список `list_per_page`
* пройдитесь циклом `for` по всем однотипным тегам из шага 5 (подсказка: скорее всего, вам не нужно трогать тег с индексом 0 по причине, описанной в шаге 5)
* [в цикле] повторите для каждого нужного тега действия по сбору названия, ссылки, статуса, языка и времени проведения курса, к которому относится этот тег. Всё это вы уже успешно проделали выше для одного тега
* [в цикле] поместите найденные данные по каждому курсу в список. Это вы уже успешно проделали выше для одного тега
* [в цикле] присоедините получившийся список к списку `list_per_page`
* выведите на экран `list_per_page`

In [None]:
list_per_course = []


for tag in soup.find_all('div', {'class': 'edu-events__item'})[1:]:
    
    title = tag.find('div', {'class' : "edu-events_title title large"}).get_text().strip()
    link = tag.find('div', {'class' : "edu-events_title title large"}).find("a").get('href')
    status = tag.find('div', {'class' : "edu-program_status"}).get_text().strip()
    modules = tag.find('ul', {'class' : "edu-filter_modules__list ui-sortable"}).get('data-tooltip')
    
    list_per_course.append([title, link, 
                              status, modules])
list_per_course

[['GR-практики в системе государственного управления',
  'https://www.hse.ru/ba/political/courses/395894430.html',
  'Обязательный',
  '2-й курс, 1 модуль'],
 ['Академическое письмо на английском языке',
  'https://www.hse.ru/ba/political/courses/339493143.html',
  'Факультатив',
  '4-й курс, 1-3 модуль'],
 ['Анализ данных в Python',
  'https://www.hse.ru/ba/political/courses/476629299.html',
  'По выбору',
  '3-й курс, 3, 4 модуль'],
 ['Анализ категориальных данных в статистических пакетах',
  'https://www.hse.ru/ba/political/courses/476613338.html',
  'По выбору',
  '3-й курс, 3, 4 модуль'],
 ['Безопасность жизнедеятельности',
  'https://www.hse.ru/ba/political/courses/470900387.html',
  'Обязательный',
  '1-й курс, 1 модуль'],
 ['Введение в многомерный статистический анализ',
  'https://www.hse.ru/ba/political/courses/470909651.html',
  'Обязательный',
  '2-й курс, 4 модуль'],
 ['Введение в специальность',
  'https://www.hse.ru/ba/political/courses/470999603.html',
  'Обязательный',

**Шаг 12.** Напишите цикл, который пройдётся по всем четырём страницам с курсами и соберёт данные обо всех курсах в список списков.  
Для этого: 
* создайте пустой список `all_data`
* пройдитесь циклом `for` по всем однотипным ссылкам на страницы с курсами
* [в цикле] повторите для каждой страницы действия по отправке запроса, структурированию html-кода, сбору данных со всей страницы с помощью цикла из шага 11. Всё это вы уже успешно проделали выше для одной страницы
* [в цикле] на последнем шаге присоединяйте нужные данные к списку `all_data`, а не `list_per_page`
* выведите на экран `all_data`

Внимание! У одного из курсов (Современная российская политика) не указано время проведения - возникнет ошибка. Обработайте этот случай с помощью конструкции try-except.

In [None]:
all_data = []

for i in range(1,5):
    url = f'https://www.hse.ru/ba/political/courses/page{i}.html?year=2021'
    response = requests.get(url)
    soup = BeautifulSoup(response.text)
    
    for tag in soup.find_all("div", {"class" : "edu-events__item"})[1:]:
        try:
            title = tag.find("div", {"class" : "edu-events_title title large"}).get_text().strip()
            link = tag.find("div", {"class" : "edu-events_title title large"}).find("a").get("href")
            status = tag.find("div", {"class" : "edu-program_status"}).get_text().strip()
            language = tag.find("div", {"class" : "edu-program_languges b-events__languges with-indent1"}).get_text().strip()
            modules = tag.find("ul", {"class" : "edu-filter_modules__list ui-sortable"}).get("data-tooltip")
    
            all_data.append([title, link, status, modules, language])
        except:
            continue
    
all_data

[['GR-практики в системе государственного управления',
  'https://www.hse.ru/ba/political/courses/395894430.html',
  'Обязательный',
  '2-й курс, 1 модуль',
  'русский'],
 ['Академическое письмо на английском языке',
  'https://www.hse.ru/ba/political/courses/339493143.html',
  'Факультатив',
  '4-й курс, 1-3 модуль',
  'русский'],
 ['Анализ данных в Python',
  'https://www.hse.ru/ba/political/courses/476629299.html',
  'По выбору',
  '3-й курс, 3, 4 модуль',
  'русский'],
 ['Анализ категориальных данных в статистических пакетах',
  'https://www.hse.ru/ba/political/courses/476613338.html',
  'По выбору',
  '3-й курс, 3, 4 модуль',
  'русский'],
 ['Безопасность жизнедеятельности',
  'https://www.hse.ru/ba/political/courses/470900387.html',
  'Обязательный',
  '1-й курс, 1 модуль',
  'русский'],
 ['Введение в многомерный статистический анализ',
  'https://www.hse.ru/ba/political/courses/470909651.html',
  'Обязательный',
  '2-й курс, 4 модуль',
  'русский'],
 ['Введение в специальность',

**Шаг 13.** Переделайте список списков `all_data` в датафрейм. Придумайте ему собственное имя. Дайте названия колонкам.

In [None]:
variables = ["Название", "Ссылка", "Статус", "Модуль", "Язык"]
df = pd.DataFrame(all_data, columns = variables)
df

Unnamed: 0,Название,Ссылка,Статус,Модуль,Язык
0,GR-практики в системе государственного управления,https://www.hse.ru/ba/political/courses/395894...,Обязательный,"2-й курс, 1 модуль",русский
1,Академическое письмо на английском языке,https://www.hse.ru/ba/political/courses/339493...,Факультатив,"4-й курс, 1-3 модуль",русский
2,Анализ данных в Python,https://www.hse.ru/ba/political/courses/476629...,По выбору,"3-й курс, 3, 4 модуль",русский
3,Анализ категориальных данных в статистических ...,https://www.hse.ru/ba/political/courses/476613...,По выбору,"3-й курс, 3, 4 модуль",русский
4,Безопасность жизнедеятельности,https://www.hse.ru/ba/political/courses/470900...,Обязательный,"1-й курс, 1 модуль",русский
...,...,...,...,...,...
72,Физическая культура,https://www.hse.ru/ba/political/courses/470895...,Обязательный,"1-й курс, 1-4 модуль",русский
73,Формирование государственной политики,https://www.hse.ru/ba/political/courses/395869...,Обязательный,"2-й курс, 3, 4 модуль",русский
74,Экономика,https://www.hse.ru/ba/political/courses/548056...,Обязательный,"1-й курс, 3, 4 модуль",русский
75,Электоральный анализ,https://www.hse.ru/ba/political/courses/452801...,По выбору,"4-й курс, 1, 2 модуль",русский


**Шаг 14.** Чтобы не заканчивать на несчастливом 13 шаге, экспортируйте собранную базу в excel-файл.

In [None]:
df.to_excel('Courses.xlsx')