In [30]:
import re
import time
import requests
import numpy as np
import pandas as pd
from bs4 import BeautifulSoup

# Парсинг рейтингов университетов

Одна из самых популярных пузомерок — рейтинги университетов. Есть российские, есть зарубежные. В данном материале собраны «рецепты» парсинга следующих рейтингов:

1. Московский рейтинг университетов — три миссии университета
2. Рейтинг университетов Интерфакса
3. RAEX ТОП 100
4. Рейтинг Best Global Universities, в т.ч. по предметам
5. QS-рейтинг университетов, в т.ч. по предметам
6. Шанхайский рейтинг университетов
7. Рейтинг университетов от Times Higher Education

Рейтинги выходят в разное время года. Какие-то уже обновились и есть данные за 2023 год, а какие-то заканчиваются 2022 годом. Чтобы исключить лишнюю вариативность в данном обучающем материале ограничим диапазон тремя календарными годами.

In [5]:
years = list(range(2020, 2022 + 1))
years

[2020, 2021, 2022]

## Московский рейтинг университетов

In [16]:
msk_data = []

for y in years:
    # Обратите внимание на вариативность в url (последний год отличается от всех остальных)
    msk_url = f"'https://mosiur.org'/{'ranking' if y == 2022 else 'ranking' + str(y)}/"
    msk_resp = requests.get(msk_url)

    if msk_resp.status_code == 200:
        msk_soup = BeautifulSoup(msk_resp.text)

        for tr in msk_soup.select('#top_table tbody tr'):
            tds = tr.find_all('td')
            msk_data.append({
                'year': y,
                'rank': tds[0].text,
                'university': tds[1].text,
                'country': tds[2].text
            })
    else:
        print(f"{msk_url} return status code {msk_resp.status_code}")

    # Бережём источник данных
    time.sleep(1)

msk_df = pd.DataFrame(msk_data)
msk_df.to_csv('data/msk.csv', index=False)
msk_df.to_excel('data/msk.xlsx', index=False)
msk_df.head(5)

Unnamed: 0,year,rank,university,country
0,2020,1,Harvard University,США
1,2020,2,Massachusetts Institute of Technology,США
2,2020,3,University of Cambridge,Великобритания
3,2020,4,University of Oxford,Великобритания
4,2020,5,University of Pennsylvania,США


Данные Московского рейтинга получены. Давайте посмотрим представительство стран по годам (ТОП 10):

In [21]:
msk_pivot = pd.pivot_table(
    msk_df,
    index='country',
    columns='year',
    values='university',
    aggfunc='count'
)
msk_pivot['sum'] = msk_pivot.sum(axis=1)
msk_pivot.sort_values(by='sum', ascending=False).head(10)

year,2020,2021,2022,sum
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
США,220.0,239.0,253.0,712.0
Китай,122.0,144.0,173.0,439.0
Россия,101.0,112.0,146.0,359.0
Великобритания,98.0,106.0,108.0,312.0
Япония,93.0,102.0,101.0,296.0
Германия,69.0,73.0,74.0,216.0
Италия,50.0,54.0,54.0,158.0
Индия,45.0,51.0,58.0,154.0
Испания,42.0,55.0,56.0,153.0
Франция,40.0,45.0,54.0,139.0


## Рейтинг Интерфакса

In [24]:
def get_interfax_list_by_year(year, page=1):
    url = f"https://academia.interfax.ru/data/rating/?rating=1&year={year}&page={page}"
    result = []
    resp = requests.get(url)

    # Бережём источник данных
    time.sleep(1)

    if resp.status_code == 200:
        json_data = resp.json()
        result += json_data['universities']
        page_count = json_data['page_count']

        if page != page_count:
            result += get_interfax_list_by_year(year, page + 1)
    else:
        print(f"{url} return status code {resp.status_code}")

    return result


interfax_df = pd.DataFrame()

for y in years:
    interfax_df_by_year = pd.DataFrame(get_interfax_list_by_year(y))
    interfax_df_by_year['year'] = y
    interfax_df = pd.concat([interfax_df, interfax_df_by_year], ignore_index=True)

interfax_df.to_csv('data/interfax.csv', index=False)
interfax_df.to_excel('data/interfax.xlsx', index=False)
interfax_df.head()

Unnamed: 0,change,description,is_close,point,rank,name,id,url,year
0,0,,False,1000,1,Московский государственный университет имени М...,1,https://www.msu.ru,2020
1,0,,False,963,2,Национальный исследовательский ядерный универс...,2,https://mephi.ru,2020
2,0,,False,961,3,Московский физико-технический институт (госуда...,4,https://mipt.ru,2020
3,0,,False,857,4,Национальный исследовательский университет «Вы...,6,https://www.hse.ru,2020
4,1,,False,848,5,Новосибирский национальный исследовательский г...,3,http://www.nsu.ru/?lang=ru,2020


В данных рейтинга Интерфакса уже есть данные про движения в рамках рейтинга. Давайте посмотрим на ТОП 10 университетов, которые поднялись в рейтинге за 3 последних года больше всех.

In [27]:
interfax_pivot = pd.pivot_table(
    interfax_df,
    index='name',
    columns='year',
    values='change',
    aggfunc='sum'
)
interfax_pivot['sum'] = interfax_pivot.sum(axis=1)
interfax_pivot.sort_values(by='sum', ascending=False).head(10)

year,2020,2021,2022,sum
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Уральский государственный аграрный университет,-21.0,40.0,104.0,123.0
Московский институт психоанализа,-8.0,3.0,128.0,123.0
Университет Синергия,-1.0,78.0,43.0,120.0
Чеченский государственный университет имени А.А.Кадырова,-22.0,83.0,58.0,119.0
Московский государственный психолого-педагогический университет,15.0,78.0,18.0,111.0
Красноярский государственный аграрный университет,-1.0,-12.0,122.0,109.0
Башкирский государственный педагогический университет имени М.Акмуллы,-34.0,45.0,93.0,104.0
Кубанский государственный технологический университет,24.0,18.0,61.0,103.0
Московский государственный областной университет,5.0,28.0,51.0,84.0
Волгоградский государственный аграрный университет,-1.0,46.0,33.0,78.0


## RAEX ТОП 100

In [32]:
raex_list = []

for y in years:
    raex_url = f"https://raex-rr.com/pro/education/russian_universities/top-100_universities/{y}/"
    raex_resp = requests.get(raex_url)

    if raex_resp.status_code == 200:
        raex_soup = BeautifulSoup(raex_resp.text)
        raex_trs = raex_soup.select('#rrp_table_wrapper > table > tbody.list > tr')

        for i, tr in enumerate(raex_trs):
            th = tr.findChildren('th', recursive=False)
            td = tr.findChildren('td', recursive=False)

            raex_list.append({
                'year': y,
                'rank': int(th[0].text),
                'title': re.sub(r'[\s\n]+', ' ', th[1].text).strip(),
                'previous': float(td[0].text) if td[0].text != '-' else np.NaN,
                'points': float(td[1].text),
                'quality': int(td[2].text),
                'graduates': int(td[3].text),
                'science': int(td[4].text)
            })
    else:
        print(f"{raex_url} return status code {raex_resp.status_code}")

    # Бережём источник данных
    time.sleep(1)

raex_df = pd.DataFrame(raex_list)
raex_df.to_csv('data/raex.csv', index=False)
raex_df.to_excel('data/raex.xlsx', index=False)
raex_df.head()

Unnamed: 0,year,rank,title,previous,points,quality,graduates,science
0,2020,1,Московский государственный университет имени М...,1.0,4.8419,1,1,1
1,2020,2,Московский физико-технический институт (национ...,2.0,4.7734,2,7,2
2,2020,3,Национальный исследовательский ядерный универс...,3.0,4.5535,5,5,4
3,2020,4,Санкт-Петербургский государственный университет,4.0,4.5394,3,12,7
4,2020,5,"Национальный исследовательский университет ""Вы...",5.0,4.4933,6,2,11


В отличие от двух предыдущих рейтингов, в данном рейтинге каждому университету присваивается конкретная позиция в рейтинге. Давайте посмотрим ТОП 10 лидеров по средней позиции в рейтинге за 3 года.

In [35]:
raex_df[['title', 'rank']].groupby(by='title').mean().sort_values(by='rank').head(10)

Unnamed: 0_level_0,rank
title,Unnamed: 1_level_1
Московский государственный университет имени М.В. Ломоносова,1.0
Московский физико-технический институт (национальный исследовательский университет),2.0
Национальный исследовательский ядерный университет «МИФИ»,3.333333
Санкт-Петербургский государственный университет,3.666667
"Национальный исследовательский университет ""Высшая школа экономики""",5.0
Московский государственный технический университет имени Н.Э. Баумана (национальный исследовательский университет),6.333333
МГИМО МИД России,6.666667
Санкт-Петербургский политехнический университет Петра Великого,8.333333
Национальный исследовательский Томский политехнический университет,8.5
Томский политехнический университет,9.0


**Обратите внимание** на то, что рейтинговое агентство RAEX «богато» на рейтинги (полный список [тут](https://raex-rr.com/all_rankings/)). Для парсинга других рейтингов, механики будут +/- аналогичные.