# File: Matching.ipynb
# Purpose: To match vacancies collected from
1.   [HSE courses site](https://www.hse.ru/edu/courses/)
2.   [Online edu site](https://online.edu.ru/public/courses)

# to ITMO university educational programs
# Programmer: VG6
# Date: 10.04.2020




# Preparing data sets

In [281]:
import pandas as pd
from nltk.tokenize import word_tokenize
import pymorphy2
from sklearn.feature_extraction.text import CountVectorizer
from tqdm import tqdm
import re

In [7]:
pd.set_option('display.max_rows', 900)

In [62]:
itmo = pd.read_csv('Data/itmo.csv', index_col=0)
online = pd.read_csv('Data/online.csv', index_col=0)
hse = pd.read_csv('Data/hse.csv', index_col=0)

In [63]:
orig_itmo = pd.read_csv('Data/full_subj_comma.csv', encoding='WINDOWS-1251')
orig_hse = pd.read_csv('Data/HSE_courses_data.csv', index_col=0)
orig_online = pd.read_csv('Data/online_edu_full.csv', index_col=0)

In [64]:
mask = orig_itmo['START_YEAR'] >= 2014
mask1 = orig_itmo['SUBFIELDCODE'] != 'ZZZZZZ'
mask2 = orig_itmo['SUBFIELDCODE'] != '999999'
mask3 = orig_itmo['SUBFIELDCODE'] != '00.00.00'

# updating information
orig_itmo = orig_itmo.loc[(mask) & (mask1) & (mask2) & (mask3)]

In [65]:
print("Orig itmo len: {}, itmo len: {}".format(len(orig_itmo), len(itmo)))
print("Orig online len: {}, online len: {}".format(len(orig_online), len(online)))
print("Orig hse len: {}, hse len: {}".format(len(orig_hse), len(hse)))

Orig itmo len: 53113, itmo len: 53113
Orig online len: 714, online len: 714
Orig hse len: 8063, hse len: 8063


In [66]:
orig_online['Дата сет'] = 'itmo'
orig_hse['Дата сет'] = 'hse'

In [82]:
orig_itmo['Чистые названия'] = itmo['SUBJECT']

In [83]:
orig_itmo.head()

Unnamed: 0.1,Unnamed: 0,SUBFIELDCODE,SUBFIELDNAME,DEGREE,SUBJECT,SEMESTER,START_YEAR,Чистые названия
0,0,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Математика,1,2014,математика
1,1,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Математика,2,2014,математика
2,2,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Физика,1,2014,физик
3,3,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Физика,2,2014,физик
4,4,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Основы права,1,2014,право


In [68]:
orig_online.head()

Unnamed: 0,URL,Название курса,Входные требования,Ключевые слова-пререквизиты,Содержание курса,Ключевые слова содержания,Направления подготовки,Дата сет
0,https://online.edu.ru/public/course.xhtml?face...,Теория игр\n,,,1. Стратегические взаимодействия 2. Доминиру...,"доминируемые стратегии, игры с несовершенной и...",41.03.04 Политология ...,itmo
1,https://online.edu.ru/public/course.xhtml?face...,Методы обработки навигационной измерительной и...,,,В курсе рассматриваются следующие темы: Эл...,"scilab, оптимальные оценки, случайные последов...",24.03.02 Системы управления движением и навига...,itmo
2,https://online.edu.ru/public/course.xhtml?face...,Методы вычислительной математики\n,,,Раздел 1. Элементарная теория погрешностей....,"методы решения нелинейных уравнений, численное...",01.03.02 Прикладная математика и информатика ...,itmo
3,https://online.edu.ru/public/course.xhtml?face...,Функциональное программирование: базовый курс\n,,,В курсе рассматриваются следующие темы: 1. В...,"рекурсия, списки в языке lisp, символы в языке...",09.00.00 Информатика и вычислительная техника ...,itmo
4,https://online.edu.ru/public/course.xhtml?face...,Веб-программирование\n,,,В курсе рассматриваются следующие темы: 1. ...,"позиционирование, разметка, html, декоративные...",09.00.00 Информатика и вычислительная техника ...,itmo


In [69]:
orig_hse.head()

Unnamed: 0,URL,Название,Содержание учебной дисциплины,Дата сет
0,https://www.hse.ru/edu/courses/303721815,Абстрактная математика,Introduction to Set Theory a. Definitions and ...,hse
1,https://www.hse.ru/edu/courses/302785733,Автобиографический рассказ,Жанр автобиографической прозы и его спецификаВ...,hse
2,https://www.hse.ru/edu/courses/292691508,Автоматизация ньюсрума и роботизированные проц...,"Введение в дисциплину«Робо-журналистика», в пе...",hse
3,https://www.hse.ru/edu/courses/292707512,Автоматизация проектных работ,Тема 1. Классификация задач автоматизированног...,hse
4,https://www.hse.ru/edu/courses/292707516,Автоматизация проектных работ,Тема 1. Классификация задач автоматизированног...,hse


In [70]:
stop_words_string = 'практика исследовательский работа профессиональный дисциплина инновационный специалист общий решение расчёт популярный современный неделя эффективный'

handed_stop_words = ['семинар', 'процесс', 'экспериментальный', 'исследование', 'теория', 'методы', 'введение', 'основа', 'основы', 'принципы', 'концепция', 'курс', 'сфере', 'теорию', 'подход']

handed_stop_words += stop_words_string.split()

hse['Название'] = hse['Название'].apply(lambda x: ' '.join([word for word in x.split() if word not in handed_stop_words]))
online['Название курса'] = online['Название курса'].apply(lambda x: ' '.join([word for word in x.split() if word not in handed_stop_words]))
itmo['SUBJECT'] = itmo['SUBJECT'].apply(lambda x: ' '.join([word for word in x.split() if word not in handed_stop_words]))
hse['Название'] = hse['Название'].apply(lambda x: re.sub('web', 'веб', x))
online['Название курса'] = online['Название курса'].apply(lambda x: re.sub('web', 'веб', x))
itmo['SUBJECT'] = itmo['SUBJECT'].apply(lambda x: re.sub('web', 'веб', x))
hse['Название'] = hse['Название'].apply(lambda x: re.sub('it', 'информационные технология', x))
online['Название курса'] = online['Название курса'].apply(lambda x: re.sub('it', 'информационные технология', x))
itmo['SUBJECT'] = itmo['SUBJECT'].apply(lambda x: re.sub('it', 'информационные технология', x))

# Getting understanding about names of courses

In [13]:
all_names = list(itmo['SUBJECT'].values) + list(online['Название курса'].values) + list(hse['Название'].values)

In [14]:
def get_top_n_grams(corpus, number_of_words=None, n_grams=1):
    vec = CountVectorizer(ngram_range=(n_grams, n_grams)).fit(corpus)
    bag_of_words = vec.transform(corpus)
    sum_words = bag_of_words.sum(axis=0) 
    words_freq = [(word, sum_words[0, idx]) for word, idx in vec.vocabulary_.items()]
    words_freq =sorted(words_freq, key = lambda x: x[1], reverse=True)
    return words_freq[:number_of_words]

In [15]:
get_top_n_grams(all_names, n_grams=1)

[('язык', 4572),
 ('система', 4493),
 ('производственный', 4470),
 ('научно', 4208),
 ('управление', 3775),
 ('иностранный', 3511),
 ('технология', 3356),
 ('культура', 3349),
 ('физический', 3217),
 ('деятельность', 2526),
 ('защита', 1705),
 ('информационный', 1609),
 ('анализ', 1600),
 ('математика', 1588),
 ('история', 1376),
 ('проектирование', 1352),
 ('моделирование', 1340),
 ('физик', 1279),
 ('научный', 1254),
 ('дать', 1251),
 ('экономика', 1233),
 ('философия', 1175),
 ('математический', 1112),
 ('элективный', 1069),
 ('вкр', 1061),
 ('производство', 1053),
 ('безопасность', 1043),
 ('компьютерный', 1012),
 ('техника', 990),
 ('организация', 987),
 ('получение', 984),
 ('программирование', 944),
 ('умение', 934),
 ('технологический', 918),
 ('методология', 903),
 ('менеджмент', 883),
 ('обработка', 880),
 ('прикладной', 876),
 ('бизнес', 864),
 ('пищевой', 849),
 ('предприятие', 830),
 ('государственный', 768),
 ('преддипломный', 747),
 ('продукт', 726),
 ('оптический', 718)

In [16]:
bigrams = get_top_n_grams(all_names, n_grams=2)

# Matching 

In [42]:
def intersect(a, b):
    """ return the intersection of two lists """
    return list(set(a) & set(b))
    
def union(a, b):
    """ return the union of two lists """
    return list(set(a) | set(b))

In [294]:
all_to_match = pd.DataFrame({'URL' : list(orig_online['URL'].values) + list(orig_hse['URL'].values),
                            'Название курса': list(orig_online['Название курса'].values) + list(orig_hse['Название'].values),
                            'Содержание курса' : list(orig_online['Содержание курса'].values) + list(orig_hse['Содержание учебной дисциплины'].values),
                            'Дата сет' : list(orig_online['Дата сет'].values) + list(orig_hse['Дата сет'].values),
                             'Чистые названия' : list(online['Название курса'].values) + list(hse['Название'].values),
                            'Ключевые слова' : list(orig_online['Ключевые слова содержания']) + list([' '] * len(orig_hse['Название']))})

In [295]:
all_to_match

Unnamed: 0,URL,Название курса,Содержание курса,Дата сет,Чистые названия,Ключевые слова
0,https://online.edu.ru/public/course.xhtml?face...,Теория игр\n,1. Стратегические взаимодействия 2. Доминиру...,itmo,игра,"доминируемые стратегии, игры с несовершенной и..."
1,https://online.edu.ru/public/course.xhtml?face...,Методы обработки навигационной измерительной и...,В курсе рассматриваются следующие темы: Эл...,itmo,обработка навигационный измерительный информация,"scilab, оптимальные оценки, случайные последов..."
2,https://online.edu.ru/public/course.xhtml?face...,Методы вычислительной математики\n,Раздел 1. Элементарная теория погрешностей....,itmo,вычислительный математика,"методы решения нелинейных уравнений, численное..."
3,https://online.edu.ru/public/course.xhtml?face...,Функциональное программирование: базовый курс\n,В курсе рассматриваются следующие темы: 1. В...,itmo,функциональный программирование базовый,"рекурсия, списки в языке lisp, символы в языке..."
4,https://online.edu.ru/public/course.xhtml?face...,Веб-программирование\n,В курсе рассматриваются следующие темы: 1. ...,itmo,веб программирование,"позиционирование, разметка, html, декоративные..."
...,...,...,...,...,...,...
8772,https://www.hse.ru/edu/courses/351718997,Tips&Tricks в анализе данных,Стандартныt трюки классического машинного обуч...,hse,tips&tricks анализ дать,
8773,https://www.hse.ru/edu/courses/341838791,TVPaint Animation,TVPaint Animation (этап 1)Знакомство с програм...,hse,tvpaint animation,
8774,https://www.hse.ru/edu/courses/292693779,UX-дизайн,Human-Computer Interaction: An IntroductionDef...,hse,ux дизайн,
8775,https://www.hse.ru/edu/courses/292688249,Web-визуализация,Интерактивные изображения.Активные области пов...,hse,веб визуализация,


In [273]:
orig_itmo

Unnamed: 0,SUBFIELDCODE,SUBFIELDNAME,DEGREE,SUBJECT,SEMESTER,START_YEAR
0,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Математика,1,2014
1,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Математика,2,2014
2,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Физика,1,2014
3,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Физика,2,2014
4,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Основы права,1,2014
...,...,...,...,...,...,...
53108,38.03.02,Управление проектом,Академический бакалавр,Иностранный язык,5,2017
53109,38.03.02,Управление проектом,Академический бакалавр,Иностранный язык,6,2017
53110,38.03.02,Управление проектом,Академический бакалавр,Проектирование в профессиональной деятельности,5,2017
53111,38.03.02,Управление проектом,Академический бакалавр,Проектирование в профессиональной деятельности,6,2017


In [274]:
with_.head()

Unnamed: 0,SUBFIELDCODE,SUBFIELDNAME,DEGREE,SUBJECT,SEMESTER,START_YEAR
5,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Информатика,1,2014
17,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,История,2,2014
20,09.03.02,Автоматизация и управление в образовательных с...,Академический бакалавр,История,2,2014
33,09.03.02,Автоматизация и управление в образовательных с...,Академический бакалавр,Информатика,1,2014
34,09.03.02,Автоматизация и управление в образовательных с...,Академический бакалавр,Информатика,2,2014


In [326]:
data = with_.values

In [327]:
len(data)

2353

In [328]:
recomended_courses = pd.DataFrame(columns=['SUBFIELDCODE', 'SUBFIELDNAME', 'DEGREE', 'SUBJECT', 'SEMESTER', 'START_YEAR',
                                           'URL', 'Название курса', 'Содержание курса',
                                          'Дата сет', 'Ключевые слова'])


for program in tqdm(data): 
    subfieldcode = []
    subfieldname = []
    degree = []
    subject = []
    semester = []
    start_year = []
    url = []
    course_name = []
    desc = []
    data_set = []
    key_words = []
    sims = []

    for item in a_to_match.values:
        name_words_o = word_tokenize(item[-2])
        name_words_i = word_tokenize(program[-1])

        # getting number of similar words
        similar_words = len(intersect(name_words_o, name_words_i))

        # getting all number of words
        all_words = len(union(name_words_i, name_words_o))
        
        if all_words != 0:
            # counting coefficient
            coeff = similar_words / all_words

            #coeff = similar_words / min(len(name_words_o), len(name_words_i))
            subfieldcode.append(program[0])
            subfieldname.append(program[1])
            degree.append(program[2])
            subject.append(program[3])
            semester.append(program[4])
            start_year.append(program[5])
            url.append(item[0])
            course_name.append(item[1])
            desc.append(item[2])
            data_set.append(item[3])
            key_words.append(item[-1])
            sims.append(coeff)
        else:
            coeff = 0
            subfieldcode.append(program[0])
            subfieldname.append(program[1])
            degree.append(program[2])
            subject.append(program[3])
            semester.append(program[4])
            start_year.append(program[5])
            url.append(' ')
            course_name.append(' ')
            desc.append(' ')
            data_set.append(' ')
            key_words.append(' ')
            sims.append(coeff)
        
    pred = pd.DataFrame({'SUBFIELDCODE' : subfieldcode, 'SUBFIELDNAME' : subfieldname, 'DEGREE' : degree,
                        'SUBJECT' : subject, 'SEMESTER' : semester, 'START_YEAR' : start_year,
                        'URL' : url, 'Название курса' : course_name, 'Содержание курса' : desc,
                        'Дата сет' : data_set, 'Ключевые слова' : key_words, 'Sims' : sims})
    
    pred_course = pred.loc[(pred['Sims'] == pred['Sims'].max()) & (pred['Sims'] >= 0.4)]
    pred_course = pred_course.drop(['Sims'], axis=1)
    
    if not pred_course.empty:
        recomended_courses = recomended_courses.append(pred_course.iloc[0])
    else:
        pred_course = pred_course.append([' '] * 11)
        recomended_courses = recomended_courses.append(pred_course.iloc[0])

100%|██████████| 2353/2353 [43:42<00:00,  1.11s/it]


In [331]:
recomended_courses

Unnamed: 0,SUBFIELDCODE,SUBFIELDNAME,DEGREE,SUBJECT,SEMESTER,START_YEAR,URL,Название курса,Содержание курса,Дата сет,Ключевые слова
2269,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Информатика,1,2014,https://www.hse.ru/edu/courses/292693027,Информатика,Стандарты оформления научных документовСтрукту...,hse,
432,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,История,2,2014,https://online.edu.ru/public/course.xhtml?face...,История\n,Модуль 1. История как наука и учебная дисципл...,itmo,"россия и европа в первой половине xix в, росси..."
432,09.03.02,Автоматизация и управление в образовательных с...,Академический бакалавр,История,2,2014,https://online.edu.ru/public/course.xhtml?face...,История\n,Модуль 1. История как наука и учебная дисципл...,itmo,"россия и европа в первой половине xix в, росси..."
2269,09.03.02,Автоматизация и управление в образовательных с...,Академический бакалавр,Информатика,1,2014,https://www.hse.ru/edu/courses/292693027,Информатика,Стандарты оформления научных документовСтрукту...,hse,
2269,09.03.02,Автоматизация и управление в образовательных с...,Академический бакалавр,Информатика,2,2014,https://www.hse.ru/edu/courses/292693027,Информатика,Стандарты оформления научных документовСтрукту...,hse,
...,...,...,...,...,...,...,...,...,...,...,...
0,,,,,,,,,,,
2269,27.03.04,Цифровые системы управления,Академический бакалавр,Информатика / Informatics,1,2019,https://www.hse.ru/edu/courses/292693027,Информатика,Стандарты оформления научных документовСтрукту...,hse,
0,,,,,,,,,,,
5156,11.04.02,Создание и эксплуатация сетей и систем связи,Магистр,Личная эффективность и управление временем,1,2019,https://www.hse.ru/edu/courses/296802135,Основы эффективности государственного управления,Тема: принципы и подходы к оценке эффективност...,hse,


In [145]:
pd.set_option('display.max_rows', 500)

In [330]:
recomended_courses = recomended_courses.drop([0], axis=1)

In [154]:
recomended_courses['Ключевые слова'].unique().shape[0]

190

In [0]:
recomended_courses.to_csv('drive/My Drive/Data/100_matched.csv')

In [113]:
len(itmo.values[:50])

50

In [339]:
r = recomended_courses.copy()

In [342]:
r.index = range(len(r))

In [343]:
r

Unnamed: 0,SUBFIELDCODE,SUBFIELDNAME,DEGREE,SUBJECT,SEMESTER,START_YEAR,URL,Название курса,Содержание курса,Дата сет,Ключевые слова
0,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Информатика,1,2014,https://www.hse.ru/edu/courses/292693027,Информатика,Стандарты оформления научных документовСтрукту...,hse,
1,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,История,2,2014,https://online.edu.ru/public/course.xhtml?face...,История\n,Модуль 1. История как наука и учебная дисципл...,itmo,"россия и европа в первой половине xix в, росси..."
2,09.03.02,Автоматизация и управление в образовательных с...,Академический бакалавр,История,2,2014,https://online.edu.ru/public/course.xhtml?face...,История\n,Модуль 1. История как наука и учебная дисципл...,itmo,"россия и европа в первой половине xix в, росси..."
3,09.03.02,Автоматизация и управление в образовательных с...,Академический бакалавр,Информатика,1,2014,https://www.hse.ru/edu/courses/292693027,Информатика,Стандарты оформления научных документовСтрукту...,hse,
4,09.03.02,Автоматизация и управление в образовательных с...,Академический бакалавр,Информатика,2,2014,https://www.hse.ru/edu/courses/292693027,Информатика,Стандарты оформления научных документовСтрукту...,hse,
...,...,...,...,...,...,...,...,...,...,...,...
2348,,,,,,,,,,,
2349,27.03.04,Цифровые системы управления,Академический бакалавр,Информатика / Informatics,1,2019,https://www.hse.ru/edu/courses/292693027,Информатика,Стандарты оформления научных документовСтрукту...,hse,
2350,,,,,,,,,,,
2351,11.04.02,Создание и эксплуатация сетей и систем связи,Магистр,Личная эффективность и управление временем,1,2019,https://www.hse.ru/edu/courses/296802135,Основы эффективности государственного управления,Тема: принципы и подходы к оценке эффективност...,hse,


In [338]:
with_

Unnamed: 0,SUBFIELDCODE,SUBFIELDNAME,DEGREE,SUBJECT,SEMESTER,START_YEAR
0,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Информатика,1,2014
1,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,История,2,2014
2,09.03.02,Автоматизация и управление в образовательных с...,Академический бакалавр,История,2,2014
3,09.03.02,Автоматизация и управление в образовательных с...,Академический бакалавр,Информатика,1,2014
4,09.03.02,Автоматизация и управление в образовательных с...,Академический бакалавр,Информатика,2,2014
...,...,...,...,...,...,...
2348,27.03.04,Цифровые системы управления,Академический бакалавр,Линейная алгебра / Linear Algebra,1,2019
2349,27.03.04,Цифровые системы управления,Академический бакалавр,Информатика / Informatics,1,2019
2350,11.04.02,Создание и эксплуатация сетей и систем связи,Магистр,Методология управления проектами (Предпринимат...,1,2019
2351,11.04.02,Создание и эксплуатация сетей и систем связи,Магистр,Личная эффективность и управление временем,1,2019


In [335]:
with_ = with_.drop(['Чистое название'], axis=1)

In [160]:
orig_itmo

Unnamed: 0,SUBFIELDCODE,SUBFIELDNAME,DEGREE,SUBJECT,SEMESTER,START_YEAR
0,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Математика,1,2014
1,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Математика,2,2014
2,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Физика,1,2014
3,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Физика,2,2014
4,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Основы права,1,2014
...,...,...,...,...,...,...
70143,38.03.02,Управление проектом,Академический бакалавр,Иностранный язык,5,2017
70144,38.03.02,Управление проектом,Академический бакалавр,Иностранный язык,6,2017
70145,38.03.02,Управление проектом,Академический бакалавр,Проектирование в профессиональной деятельности,5,2017
70146,38.03.02,Управление проектом,Академический бакалавр,Проектирование в профессиональной деятельности,6,2017


In [344]:
r[['SUBFIELDCODE', 'SUBFIELDNAME', 'DEGREE', 'SUBJECT', 'SEMESTER', 'START_YEAR']] = with_

In [346]:
r[:50]

Unnamed: 0,SUBFIELDCODE,SUBFIELDNAME,DEGREE,SUBJECT,SEMESTER,START_YEAR,URL,Название курса,Содержание курса,Дата сет,Ключевые слова
0,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Информатика,1,2014,https://www.hse.ru/edu/courses/292693027,Информатика,Стандарты оформления научных документовСтрукту...,hse,
1,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,История,2,2014,https://online.edu.ru/public/course.xhtml?face...,История\n,Модуль 1. История как наука и учебная дисципл...,itmo,"россия и европа в первой половине xix в, росси..."
2,09.03.02,Автоматизация и управление в образовательных с...,Академический бакалавр,История,2,2014,https://online.edu.ru/public/course.xhtml?face...,История\n,Модуль 1. История как наука и учебная дисципл...,itmo,"россия и европа в первой половине xix в, росси..."
3,09.03.02,Автоматизация и управление в образовательных с...,Академический бакалавр,Информатика,1,2014,https://www.hse.ru/edu/courses/292693027,Информатика,Стандарты оформления научных документовСтрукту...,hse,
4,09.03.02,Автоматизация и управление в образовательных с...,Академический бакалавр,Информатика,2,2014,https://www.hse.ru/edu/courses/292693027,Информатика,Стандарты оформления научных документовСтрукту...,hse,
5,09.03.04,Разработка программно-информационных систем,Академический бакалавр,История,2,2014,https://online.edu.ru/public/course.xhtml?face...,История\n,Модуль 1. История как наука и учебная дисципл...,itmo,"россия и европа в первой половине xix в, росси..."
6,09.03.04,Разработка программно-информационных систем,Академический бакалавр,Информатика,1,2014,https://www.hse.ru/edu/courses/292693027,Информатика,Стандарты оформления научных документовСтрукту...,hse,
7,10.03.01,Организация и технология защиты информации,Академический бакалавр,Информатика,1,2014,https://www.hse.ru/edu/courses/292693027,Информатика,Стандарты оформления научных документовСтрукту...,hse,
8,10.03.01,Организация и технология защиты информации,Академический бакалавр,Основы информационной безопасности,1,2014,,,,,
9,10.03.01,Организация и технология защиты информации,Академический бакалавр,История,2,2014,https://online.edu.ru/public/course.xhtml?face...,История\n,Модуль 1. История как наука и учебная дисципл...,itmo,"россия и европа в первой половине xix в, росси..."


In [337]:
with_.index = range(len(with_))

In [168]:
orig_itmo

Unnamed: 0,SUBFIELDCODE,SUBFIELDNAME,DEGREE,SUBJECT,SEMESTER,START_YEAR
0,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Математика,1,2014
1,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Математика,2,2014
2,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Физика,1,2014
3,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Физика,2,2014
4,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Основы права,1,2014
...,...,...,...,...,...,...
53108,38.03.02,Управление проектом,Академический бакалавр,Иностранный язык,5,2017
53109,38.03.02,Управление проектом,Академический бакалавр,Иностранный язык,6,2017
53110,38.03.02,Управление проектом,Академический бакалавр,Проектирование в профессиональной деятельности,5,2017
53111,38.03.02,Управление проектом,Академический бакалавр,Проектирование в профессиональной деятельности,6,2017


In [165]:
recomended_courses.index = range(len(recomended_courses))

In [175]:
recomended_courses[:500]

Unnamed: 0,SUBFIELDCODE,SUBFIELDNAME,DEGREE,SUBJECT,SEMESTER,START_YEAR,URL,Название курса,Содержание курса,Дата сет,Ключевые слова
0,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Математика,1.0,2014.0,https://www.hse.ru/edu/courses/292700221,Математика,Элементы линейной алгебрыТема 1.1. линейные пр...,hse,
1,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Математика,2.0,2014.0,https://www.hse.ru/edu/courses/292700221,Математика,Элементы линейной алгебрыТема 1.1. линейные пр...,hse,
2,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Физика,1.0,2014.0,https://www.hse.ru/edu/courses/292684119,Физика,Тема 1. Механика. Механические колебания и вол...,hse,
3,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Физика,2.0,2014.0,https://www.hse.ru/edu/courses/292684119,Физика,Тема 1. Механика. Механические колебания и вол...,hse,
4,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Основы права,1.0,2014.0,https://online.edu.ru/public/course.xhtml?face...,Основы права\n,Что такое право? Российское право на право...,itmo,
5,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Информатика,1.0,2014.0,https://online.edu.ru/public/course.xhtml?face...,Информатика\n,,itmo,
6,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Основы программирования,1.0,2014.0,https://www.hse.ru/edu/courses/341839483,Введение в программирование,Что такое программирование. Парадигмы программ...,hse,
7,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Основы программирования,2.0,2014.0,https://www.hse.ru/edu/courses/341839483,Введение в программирование,Что такое программирование. Парадигмы программ...,hse,
8,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Основы вычислительной техники,1.0,2014.0,https://www.hse.ru/edu/courses/292659489,Аппаратные средства вычислительной техники,ВведениеВведение в тематику курса. Предмет изу...,hse,
9,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Основы вычислительной техники,2.0,2014.0,https://www.hse.ru/edu/courses/292659489,Аппаратные средства вычислительной техники,ВведениеВведение в тематику курса. Предмет изу...,hse,


In [173]:
new_rec[['SUBFIELDCODE', 'SUBFIELDNAME', 'DEGREE', 'SUBJECT', 'SEMESTER', 'START_YEAR']] = orig_itmo

In [182]:
new_rec.to_csv('matched_data.csv')

In [181]:
online[online['Название курса'] == 'информатика']['URL'].values

array(['https://online.edu.ru/public/course.xhtml?faces-redirect=true&cid=11043709'],
      dtype=object)

In [224]:
len(new_rec.loc[(new_rec['Название курса'] == ' ') | (new_rec['Название курса'] == '  ')])

17151

In [225]:
len(new_rec.loc[(new_rec['Содержание курса'] == ' ') | (new_rec['Содержание курса'] == '  ')]) - len(new_rec.loc[(new_rec['Название курса'] == ' ') | (new_rec['Название курса'] == '  ')])

2353

In [209]:
new_rec.iloc[:500]

Unnamed: 0,SUBFIELDCODE,SUBFIELDNAME,DEGREE,SUBJECT,SEMESTER,START_YEAR,URL,Название курса,Содержание курса,Дата сет,Ключевые слова
0,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Математика,1,2014,https://www.hse.ru/edu/courses/292700221,Математика,Элементы линейной алгебрыТема 1.1. линейные пр...,hse,
1,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Математика,2,2014,https://www.hse.ru/edu/courses/292700221,Математика,Элементы линейной алгебрыТема 1.1. линейные пр...,hse,
2,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Физика,1,2014,https://www.hse.ru/edu/courses/292684119,Физика,Тема 1. Механика. Механические колебания и вол...,hse,
3,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Физика,2,2014,https://www.hse.ru/edu/courses/292684119,Физика,Тема 1. Механика. Механические колебания и вол...,hse,
4,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Основы права,1,2014,https://online.edu.ru/public/course.xhtml?face...,Основы права\n,Что такое право? Российское право на право...,itmo,
5,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Информатика,1,2014,https://online.edu.ru/public/course.xhtml?face...,Информатика\n,,itmo,
6,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Основы программирования,1,2014,https://www.hse.ru/edu/courses/341839483,Введение в программирование,Что такое программирование. Парадигмы программ...,hse,
7,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Основы программирования,2,2014,https://www.hse.ru/edu/courses/341839483,Введение в программирование,Что такое программирование. Парадигмы программ...,hse,
8,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Основы вычислительной техники,1,2014,https://www.hse.ru/edu/courses/292659489,Аппаратные средства вычислительной техники,ВведениеВведение в тематику курса. Предмет изу...,hse,
9,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Основы вычислительной техники,2,2014,https://www.hse.ru/edu/courses/292659489,Аппаратные средства вычислительной техники,ВведениеВведение в тематику курса. Предмет изу...,hse,


In [205]:
import numpy as np

In [218]:
m = pd.read_csv('matched_data.csv', index_col=0)

In [237]:
new_rec['URL'] = new_rec['URL'].apply(lambda x: re.sub(r'\s+', ' ', x))
new_rec['Содержание курса'] = new_rec['Содержание курса'].apply(lambda x: re.sub(r'\s+', ' ', x))

In [240]:
without = new_rec.loc[~((new_rec['URL'] != ' ') & (new_rec['Содержание курса'] == ' '))]

In [244]:
without.to_csv('without.csv')

In [246]:
with_ = new_rec.loc[(new_rec['URL'] != ' ') & (new_rec['Содержание курса'] == ' ')]

In [251]:
with_ = with_.drop(['URL', 'Название курса', 'Содержание курса', 'Дата сет', 'Ключевые слова'], axis=1)

In [252]:
with_

Unnamed: 0,SUBFIELDCODE,SUBFIELDNAME,DEGREE,SUBJECT,SEMESTER,START_YEAR
5,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Информатика,1,2014
17,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,История,2,2014
20,09.03.02,Автоматизация и управление в образовательных с...,Академический бакалавр,История,2,2014
33,09.03.02,Автоматизация и управление в образовательных с...,Академический бакалавр,Информатика,1,2014
34,09.03.02,Автоматизация и управление в образовательных с...,Академический бакалавр,Информатика,2,2014
...,...,...,...,...,...,...
53047,27.03.04,Цифровые системы управления,Академический бакалавр,Линейная алгебра / Linear Algebra,1,2019
53052,27.03.04,Цифровые системы управления,Академический бакалавр,Информатика / Informatics,1,2019
53077,11.04.02,Создание и эксплуатация сетей и систем связи,Магистр,Методология управления проектами (Предпринимат...,1,2019
53094,11.04.02,Создание и эксплуатация сетей и систем связи,Магистр,Личная эффективность и управление временем,1,2019


In [256]:
online

Unnamed: 0,URL,Название курса,Входные требования,Ключевые слова-пререквизиты,Содержание курса,Ключевые слова содержания,Направления подготовки,Направления
0,https://online.edu.ru/public/course.xhtml?face...,игра,,,1. Стратегические взаимодействия 2. Доминиру...,"доминируемые стратегии, игры с несовершенной и...",41.03.04 Политология ...,Политология ...
1,https://online.edu.ru/public/course.xhtml?face...,обработка навигационный измерительный информация,,,В курсе рассматриваются следующие темы: Эл...,"scilab, оптимальные оценки, случайные последов...",24.03.02 Системы управления движением и навига...,Системы управления движением и навигация ...
2,https://online.edu.ru/public/course.xhtml?face...,вычислительный математика,,,Раздел 1. Элементарная теория погрешностей....,"методы решения нелинейных уравнений, численное...",01.03.02 Прикладная математика и информатика ...,Прикладная математика и информатика ...
3,https://online.edu.ru/public/course.xhtml?face...,функциональный программирование базовый,,,В курсе рассматриваются следующие темы: 1. В...,"рекурсия, списки в языке lisp, символы в языке...",09.00.00 Информатика и вычислительная техника ...,Информатика и вычислительная техника ...
4,https://online.edu.ru/public/course.xhtml?face...,веб программирование,,,В курсе рассматриваются следующие темы: 1. ...,"позиционирование, разметка, html, декоративные...",09.00.00 Информатика и вычислительная техника ...,Информатика и вычислительная техника ...
...,...,...,...,...,...,...,...,...
709,https://online.edu.ru/public/course.xhtml?face...,история наука техника область приборостроение,Курс рассчитан на магистров 1-го года обу...,,Раздел 1. Период первоначального накопления ...,"второй этап периода классической науки, первый...",12.04.01 Приборостроение ...,Приборостроение ...
710,https://online.edu.ru/public/course.xhtml?face...,цифровой схемотехник,Курс рассчитан на бакалавров 4-го года о...,"физика, математика, информационные технологии,...",РАЗДЕЛ 1. ЛОГИЧЕСКИЕ ОПЕРАЦИИ И ЛОГИЧЕСКИЕ Э...,"цап с матрицей r-r, дтл, следящий ацп, последо...",,
711,https://online.edu.ru/public/course.xhtml?face...,нелинейный акустический диагностика,Курс рассчитан на студентов магистратуры...,"физика, математика, информационные технологии,...",Вступление Тема 1. Системы с сосредоточен...,"дефекты и нелинейные свойства кристаллов, коэф...",12.04.01 Приборостроение ...,Приборостроение ...
712,https://online.edu.ru/public/course.xhtml?face...,экономика организация,,,,,,


In [298]:
all_to_match['Содержание курса'] = all_to_match['Содержание курса'].apply(lambda x: re.sub(r'\s+', ' ', str(x)))

In [299]:
a_to_match = all_to_match[all_to_match['Содержание курса'] != ' ']

In [301]:
a_to_match[:50]

Unnamed: 0,URL,Название курса,Содержание курса,Дата сет,Чистые названия,Ключевые слова
0,https://online.edu.ru/public/course.xhtml?face...,Теория игр\n,1. Стратегические взаимодействия 2. Доминирую...,itmo,игра,"доминируемые стратегии, игры с несовершенной и..."
1,https://online.edu.ru/public/course.xhtml?face...,Методы обработки навигационной измерительной и...,В курсе рассматриваются следующие темы: Элеме...,itmo,обработка навигационный измерительный информация,"scilab, оптимальные оценки, случайные последов..."
2,https://online.edu.ru/public/course.xhtml?face...,Методы вычислительной математики\n,Раздел 1. Элементарная теория погрешностей. В...,itmo,вычислительный математика,"методы решения нелинейных уравнений, численное..."
3,https://online.edu.ru/public/course.xhtml?face...,Функциональное программирование: базовый курс\n,В курсе рассматриваются следующие темы: 1. Вв...,itmo,функциональный программирование базовый,"рекурсия, списки в языке lisp, символы в языке..."
4,https://online.edu.ru/public/course.xhtml?face...,Веб-программирование\n,В курсе рассматриваются следующие темы: 1. Вв...,itmo,веб программирование,"позиционирование, разметка, html, декоративные..."
5,https://online.edu.ru/public/course.xhtml?face...,Аналитическая геометрия\n,Лекция 1. Определение вектора. Сложение векто...,itmo,аналитический геометрия,однородные координаты на проективной плоскости...
6,https://online.edu.ru/public/course.xhtml?face...,Основы астрономии\n,Раздел 1. Астрономия вмире ивРоссии. Где рабо...,itmo,астрономия,"активная оптика, солнце, температура поверхнос..."
7,https://online.edu.ru/public/course.xhtml?face...,Биофизика\n,Раздел 1. Молекулярная биофизика. Лекция № 1....,itmo,биофизик,"белок, мембрана, рн, гравитация биологических ..."
8,https://online.edu.ru/public/course.xhtml?face...,Математический анализ. Теория функций одной пе...,Лекция 1. Элементы теории множеств. Лекция 2....,itmo,математический анализ функция один переменный,"производные высших порядков, формула тейлора с..."
9,https://online.edu.ru/public/course.xhtml?face...,Как химия объясняет и изменяет окружающий мир\n,Курс состоит из 10 лекций. Часть I. Как химия...,itmo,химия объяснять изменять окружающий мир,"твердые вещества, производство неорганических ..."


In [272]:
all_to_match

Unnamed: 0,URL,Название курса,Содержание курса,Дата сет,Чистые названия,Ключевые слова
0,https://online.edu.ru/public/course.xhtml?face...,Теория игр\n,1. Стратегические взаимодействия 2. Доминирую...,itmo,игра,"доминируемые стратегии, игры с несовершенной и..."
1,https://online.edu.ru/public/course.xhtml?face...,Методы обработки навигационной измерительной и...,В курсе рассматриваются следующие темы: Элеме...,itmo,обработка навигационный измерительный информация,"scilab, оптимальные оценки, случайные последов..."
2,https://online.edu.ru/public/course.xhtml?face...,Методы вычислительной математики\n,Раздел 1. Элементарная теория погрешностей. В...,itmo,вычислительный математика,"методы решения нелинейных уравнений, численное..."
3,https://online.edu.ru/public/course.xhtml?face...,Функциональное программирование: базовый курс\n,В курсе рассматриваются следующие темы: 1. Вв...,itmo,функциональный программирование базовый,"рекурсия, списки в языке lisp, символы в языке..."
4,https://online.edu.ru/public/course.xhtml?face...,Веб-программирование\n,В курсе рассматриваются следующие темы: 1. Вв...,itmo,веб программирование,"позиционирование, разметка, html, декоративные..."
...,...,...,...,...,...,...
8772,https://www.hse.ru/edu/courses/351718997,Tips&Tricks в анализе данных,Стандартныt трюки классического машинного обуч...,hse,tips&tricks анализ дать,
8773,https://www.hse.ru/edu/courses/341838791,TVPaint Animation,TVPaint Animation (этап 1)Знакомство с програм...,hse,tvpaint animation,
8774,https://www.hse.ru/edu/courses/292693779,UX-дизайн,Human-Computer Interaction: An IntroductionDef...,hse,ux дизайн,
8775,https://www.hse.ru/edu/courses/292688249,Web-визуализация,Интерактивные изображения.Активные области пов...,hse,веб визуализация,


In [284]:
import nltk
nltk.download('stopwords')# getting stop words
russian_stop_words = nltk.corpus.stopwords.words('russian')
english_stop_words = nltk.corpus.stopwords.words('english')

# forming multilingial stop words
multi_stop_words = russian_stop_words + english_stop_words

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/blakexdd/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [282]:
morph = pymorphy2.MorphAnalyzer()

In [None]:
a_to_match['SUBJECT'] = itmo_subjects_data['SUBJECT'].apply(lambda x: ' '.join([morph.parse(word)[0].normal_form for word in x.split()]))

In [287]:
handed_stop_words = ['семинар', 'теория', 'методы', 'введение', 'основа', 'основы', 'принципы', 'концепция', 'курс', 'сфере', 'теорию', 'подход']

In [288]:
# Preprocessing data function
# Arguments:
#   - pandas Series we want to preprocess and list of stop words
#        data : pd.Series, stop_words : list
# Rerutns:
#   - preprocesse pandas series
#       (pd.Series)
def preprocess_data(data : pd.Series, stop_words : list):
  data = data.apply(lambda x: x.lower())
  data = data.apply(lambda x: re.sub(r'\)\w+', ' ', x))
  data = data.apply(lambda x: re.sub(r'\b\d+\b', ' ', x))
  data = data.apply(lambda x: re.sub(r'\w+\(', ' ', x))
  data = data.apply(lambda x: re.sub(r'[-–\.\*\?«»•\(\)/—,:\"]', ' ', x))
  data = data.apply(lambda x: re.sub(r'\d+\.\d+\.', ' ', x))
  data = data.apply(lambda x: re.sub(r'\d+\.\d+', ' ', x))
  data = data.apply(lambda x: re.sub(r'\d+\.', ' ', x))
  data = data.apply(lambda x: re.sub(r'\s+', ' ', x))
  data = data.apply(lambda x : ' '.join([word for word in x.split() if word not in stop_words]))
  data = data.apply(lambda x : ' '.join([word for word in x.split() if len(word) <= 20]))

  return data

In [313]:
with_['Чистое название'] = preprocess_data(with_['SUBJECT'], multi_stop_words)
with_['Чистое название'] = with_['Чистое название'].apply(lambda x: ' '.join([word for word in x.split() if word not in handed_stop_words]))

In [311]:
with_['Чистое название'] = with_['Чистое название'].apply(lambda x: ' '.join([morph.parse(word)[0].normal_form for word in x.split()]))

In [314]:
with_

Unnamed: 0,SUBFIELDCODE,SUBFIELDNAME,DEGREE,SUBJECT,SEMESTER,START_YEAR,Чистое название
5,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Информатика,1,2014,информатика
17,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,История,2,2014,история
20,09.03.02,Автоматизация и управление в образовательных с...,Академический бакалавр,История,2,2014,история
33,09.03.02,Автоматизация и управление в образовательных с...,Академический бакалавр,Информатика,1,2014,информатика
34,09.03.02,Автоматизация и управление в образовательных с...,Академический бакалавр,Информатика,2,2014,информатика
...,...,...,...,...,...,...,...
53047,27.03.04,Цифровые системы управления,Академический бакалавр,Линейная алгебра / Linear Algebra,1,2019,линейная алгебра linear algebra
53052,27.03.04,Цифровые системы управления,Академический бакалавр,Информатика / Informatics,1,2019,информатика informatics
53077,11.04.02,Создание и эксплуатация сетей и систем связи,Магистр,Методология управления проектами (Предпринимат...,1,2019,методология управления проектами предпринимате...
53094,11.04.02,Создание и эксплуатация сетей и систем связи,Магистр,Личная эффективность и управление временем,1,2019,личная эффективность управление временем


In [363]:
new = pd.concat([without, r], axis=0, ignore_index=True)

In [369]:
new[:100]

Unnamed: 0,SUBFIELDCODE,SUBFIELDNAME,DEGREE,SUBJECT,SEMESTER,START_YEAR,URL,Название курса,Содержание курса,Дата сет,Ключевые слова
0,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Математика,1,2014,https://www.hse.ru/edu/courses/292700221,Математика,Элементы линейной алгебрыТема 1.1. линейные пр...,hse,
1,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Математика,2,2014,https://www.hse.ru/edu/courses/292700221,Математика,Элементы линейной алгебрыТема 1.1. линейные пр...,hse,
2,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Физика,1,2014,https://www.hse.ru/edu/courses/292684119,Физика,Тема 1. Механика. Механические колебания и вол...,hse,
3,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Физика,2,2014,https://www.hse.ru/edu/courses/292684119,Физика,Тема 1. Механика. Механические колебания и вол...,hse,
4,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Основы права,1,2014,https://online.edu.ru/public/course.xhtml?face...,Основы права,Что такое право? Российское право на правовой...,itmo,
5,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Основы программирования,1,2014,https://www.hse.ru/edu/courses/341839483,Введение в программирование,Что такое программирование. Парадигмы программ...,hse,
6,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Основы программирования,2,2014,https://www.hse.ru/edu/courses/341839483,Введение в программирование,Что такое программирование. Парадигмы программ...,hse,
7,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Основы вычислительной техники,1,2014,https://www.hse.ru/edu/courses/292659489,Аппаратные средства вычислительной техники,ВведениеВведение в тематику курса. Предмет изу...,hse,
8,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Основы вычислительной техники,2,2014,https://www.hse.ru/edu/courses/292659489,Аппаратные средства вычислительной техники,ВведениеВведение в тематику курса. Предмет изу...,hse,
9,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Физическая культура,1,2014,https://online.edu.ru/public/course.xhtml?face...,Физическая культура,Тема 1. Общая концепция теории и методики физ...,itmo,"здоровый образ жизни студента, спорт, физиолог..."


In [365]:
new = new.fillna(' ')

In [366]:
new['Название курса'] = new['Название курса'].apply(lambda x: re.sub(r'\s+', ' ', x))

In [367]:
len(new[new['Название курса'] != ' ']) / len(new) * 100

65.84263739574115

In [358]:
without[-100:]

Unnamed: 0,SUBFIELDCODE,SUBFIELDNAME,DEGREE,SUBJECT,SEMESTER,START_YEAR,URL,Название курса,Содержание курса,Дата сет,Ключевые слова
53005,09.04.01,Компьютерные системы и технологии,Магистр,Java EE and Middleware Technology / Программна...,1,2019,,,,,
53006,09.04.01,Компьютерные системы и технологии,Магистр,Parallel Computing/Параллельные вычисления,2,2019,https://www.hse.ru/edu/courses/292682685,Параллельные вычисления,Обзор суперкомпьютерных технологий. Введение в...,hse,
53007,09.04.01,Компьютерные системы и технологии,Магистр,Учение о теории и практике социализма с китайс...,1,2019,,,,,
53008,09.04.01,Компьютерные системы и технологии,Магистр,Инженерная этика / Engineering Ethics,1,2019,,,,,
53009,09.04.01,Компьютерные системы и технологии,Магистр,Объектно-ориентированные методы и технологии /...,1,2019,,,,,
53011,09.04.01,Компьютерные системы и технологии,Магистр,Английский язык / English,1,2019,https://www.hse.ru/edu/courses/292701717,Английский язык,"Личность. Описание внешности, физических харак...",hse,
53012,09.04.01,Компьютерные системы и технологии,Магистр,Английский язык / English,2,2019,https://www.hse.ru/edu/courses/292701717,Английский язык,"Личность. Описание внешности, физических харак...",hse,
53013,09.04.01,Компьютерные системы и технологии,Магистр,Разработка и анализ алгоритмов / Design and An...,1,2019,,,,,
53014,09.04.01,Компьютерные системы и технологии,Магистр,Искусственный интеллект и распознавание образо...,2,2019,,,,,
53015,09.04.01,Компьютерные системы и технологии,Магистр,Современная программная инженерия / Advanced S...,1,2019,https://www.hse.ru/edu/courses/292670071,Введение в программную инженерию,Программная инженерия в жизненном цикле програ...,hse,


In [362]:
r

Unnamed: 0,SUBFIELDCODE,SUBFIELDNAME,DEGREE,SUBJECT,SEMESTER,START_YEAR,URL,Название курса,Содержание курса,Дата сет,Ключевые слова
0,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,Информатика,1,2014,https://www.hse.ru/edu/courses/292693027,Информатика,Стандарты оформления научных документовСтрукту...,hse,
1,09.03.01,"Вычислительные машины, комплексы, системы и сети",Академический бакалавр,История,2,2014,https://online.edu.ru/public/course.xhtml?face...,История\n,Модуль 1. История как наука и учебная дисципл...,itmo,"россия и европа в первой половине xix в, росси..."
2,09.03.02,Автоматизация и управление в образовательных с...,Академический бакалавр,История,2,2014,https://online.edu.ru/public/course.xhtml?face...,История\n,Модуль 1. История как наука и учебная дисципл...,itmo,"россия и европа в первой половине xix в, росси..."
3,09.03.02,Автоматизация и управление в образовательных с...,Академический бакалавр,Информатика,1,2014,https://www.hse.ru/edu/courses/292693027,Информатика,Стандарты оформления научных документовСтрукту...,hse,
4,09.03.02,Автоматизация и управление в образовательных с...,Академический бакалавр,Информатика,2,2014,https://www.hse.ru/edu/courses/292693027,Информатика,Стандарты оформления научных документовСтрукту...,hse,
...,...,...,...,...,...,...,...,...,...,...,...
2348,27.03.04,Цифровые системы управления,Академический бакалавр,Линейная алгебра / Linear Algebra,1,2019,,,,,
2349,27.03.04,Цифровые системы управления,Академический бакалавр,Информатика / Informatics,1,2019,https://www.hse.ru/edu/courses/292693027,Информатика,Стандарты оформления научных документовСтрукту...,hse,
2350,11.04.02,Создание и эксплуатация сетей и систем связи,Магистр,Методология управления проектами (Предпринимат...,1,2019,,,,,
2351,11.04.02,Создание и эксплуатация сетей и систем связи,Магистр,Личная эффективность и управление временем,1,2019,https://www.hse.ru/edu/courses/296802135,Основы эффективности государственного управления,Тема: принципы и подходы к оценке эффективност...,hse,


In [370]:
new.to_csv('all_matched.csv')

In [371]:
len(new)

53113

In [372]:
len(orig_itmo)

53113