In [1]:
import pandas as pd
import requests
from tqdm import tqdm_notebook
from bs4 import BeautifulSoup

In [2]:
def forever():
    i = 0
    while True:
        yield i
        i += 1

In [3]:
def parse_page(html):
    def get_subjects(link):
        """
        Returns a tuple with link, title, status and language of course.
        Parameters:
        link of course (string) 
        """
        page = requests.get(link)
        soup = BeautifulSoup(page.text)
        title = soup.find_all('h1', {'class': 'b-program__header-title'})[0].text
        status = soup.find_all('dd')[2].text
        lang = soup.find_all('span', {'class': 'b-program__lang1'})[0].text

        return title, link, status, lang

    html_soup = BeautifulSoup(html)
    urls, subjects = [], []
    for link in html_soup.find_all('a', {'class': 'link link_dark'}):
        urls.append(link.get('href'))
        
    for link in tqdm_notebook(urls, desc='Parsing urls on page', leave=False):
        res = get_subjects(link)
        subjects.append(res)
    
    return subjects

In [4]:
template_url = 'https://www.hse.ru/ba/political/courses/page{0}.html?year=2018'

all_subjects = []
for i in tqdm_notebook(forever(), desc='HSE page parsing'):
    url = template_url.format(i)
    response = requests.get(url)
    if response.text.find('не удалось найти') >= 0:
        break
    subjects = parse_page(response.text)
    all_subjects += subjects




In [8]:
all_subjects

[('Административное право',
  'https://www.hse.ru/ba/political/courses/219889968.html',
  'Курс обязательный',
  'RUS'),
 ('Академическое письмо на английском языке',
  'https://www.hse.ru/ba/political/courses/219889336.html',
  'Факультатив',
  'RUS'),
 ('Актуальные проблемы современной политики',
  'https://www.hse.ru/ba/political/courses/221310762.html',
  'Майнор',
  'RUS'),
 ('Анализ данных в Python',
  'https://www.hse.ru/ba/political/courses/219903932.html',
  'Курс по выбору',
  'RUS'),
 ('Анализ категориальных данных в статистических пакетах',
  'https://www.hse.ru/ba/political/courses/219880389.html',
  'Курс по выбору',
  'RUS'),
 ('Social Network Analysis',
  'https://www.hse.ru/ba/political/courses/219881297.html',
  'Курс обязательный',
  'ENG'),
 ('Английский язык',
  'https://www.hse.ru/ba/political/courses/219902038.html',
  'Факультатив',
  'RUS'),
 ('Английский язык',
  'https://www.hse.ru/ba/political/courses/219902042.html',
  'Факультатив',
  'RUS'),
 ('Аудит поли

In [9]:
type(all_subjects)

list

In [5]:
df = pd.DataFrame(all_subjects, 
                  columns=['course_title', 'course_link', 'course_status', 'course_language'])

In [6]:
df

Unnamed: 0,course_title,course_link,course_status,course_language
0,Административное право,https://www.hse.ru/ba/political/courses/219889...,Курс обязательный,RUS
1,Академическое письмо на английском языке,https://www.hse.ru/ba/political/courses/219889...,Факультатив,RUS
2,Актуальные проблемы современной политики,https://www.hse.ru/ba/political/courses/221310...,Майнор,RUS
3,Анализ данных в Python,https://www.hse.ru/ba/political/courses/219903...,Курс по выбору,RUS
4,Анализ категориальных данных в статистических ...,https://www.hse.ru/ba/political/courses/219880...,Курс по выбору,RUS
5,Social Network Analysis,https://www.hse.ru/ba/political/courses/219881...,Курс обязательный,ENG
6,Английский язык,https://www.hse.ru/ba/political/courses/219902...,Факультатив,RUS
7,Английский язык,https://www.hse.ru/ba/political/courses/219902...,Факультатив,RUS
8,Аудит политической системы РФ,https://www.hse.ru/ba/political/courses/219876...,Курс по выбору,RUS
9,Большие идеи в политике: актуальность несоврем...,https://www.hse.ru/ba/political/courses/221311...,Майнор,RUS


In [7]:
df.to_csv('html-Vakhreeva.csv')