# Подготовим данные для тренировки модели

Нам даны две таблицы: в первой собраны данные о действиях пользователей, во второй - данные о попытках пользователей решить задания. Импортируем библиотеку Pandas и посмотрим на формат наших данных:

In [3]:
import pandas as pd
events_data = pd.read_csv('datasets/event_data_train.csv')
submissions_data = pd.read_csv('datasets/submissions_data_train.csv')

In [144]:
events_data.head()

Unnamed: 0,step_id,timestamp,action,user_id
0,32815,1434340848,viewed,17632
1,32815,1434340848,passed,17632
2,32815,1434340848,discovered,17632
3,32811,1434340895,discovered,17632
4,32811,1434340895,viewed,17632


1. step_id - id стэпа
2. user_id - анонимизированный id юзера
3. timestamp - время наступления события в формате unix date
4. action - событие, возможные значения: 

* discovered - пользователь перешел на стэп
* viewed - просмотр шага,
* started_attempt - начало попытки решить шаг
* passed - удачное решение практического шага

In [145]:
submissions_data.head()

Unnamed: 0,step_id,timestamp,submission_status,user_id
0,31971,1434349275,correct,15853
1,31972,1434348300,correct,15853
2,31972,1478852149,wrong,15853
3,31972,1478852164,correct,15853
4,31976,1434348123,wrong,15853


1. step_id - id стэпа
2. timestamp - время отправки решения в формате unix date
3. submission_status - статус решения
4. user_id - анонимизированный id юзера

Так как мы рассматриваем прогресс каждого студента в общем, а не по каждому степу, уберем колонку step_id из таблиц:

In [146]:
events_data = events_data.drop('step_id', axis=1)
submissions_data = submissions_data.drop('step_id', axis=1)

Теперь посчитаем количество различных событий и количество верных и неверных решений для каждого студента. Применим метод pivot_table к нашим таблицам:

In [147]:
action_count = events_data.pivot_table(values='action', index='user_id', 
                                       columns='action', aggfunc='count').fillna(0)

submissions_count = submissions_data.pivot_table(values='submission_status', 
                                                 index='user_id',
                                                 columns='submission_status', 
                                                 aggfunc='count').fillna(0)

Также посчитаем такой показатель, как отношение правильных ответов ко всем совершенным попыткам:

In [148]:
submissions_count['correct_ratio'] = submissions_count.correct / \
(submissions_count.correct + submissions_count.wrong)

In [149]:
action_count.head()

action,discovered,passed,started_attempt,viewed
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,1.0,0.0,0.0,1.0
2,9.0,9.0,2.0,10.0
3,91.0,87.0,30.0,192.0
5,11.0,11.0,4.0,12.0
7,1.0,1.0,0.0,1.0


In [150]:
submissions_count.head()

submission_status,correct,wrong,correct_ratio
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2,2.0,0.0,1.0
3,29.0,23.0,0.557692
5,2.0,2.0,0.5
8,9.0,21.0,0.3
14,0.0,1.0,0.0


Чтобы собрать все необходимые данные в одном месте, соединим две таблицы в одну:

In [151]:
complete_data = action_count.join(submissions_count, 
                                  on='user_id', how='outer').fillna(0)

Добавим в новую таблицу колонку, которая отображает, прошел пользователь курс или нет. По условию задачи мы считаем, что пользователь прошел курс, если он прошел как минимум 40 заданий:

In [152]:
complete_data['passed_course'] = (complete_data['correct'] > 40).astype('int')

In [171]:
complete_data.head()

Unnamed: 0_level_0,discovered,passed,started_attempt,viewed,correct,wrong,correct_ratio,passed_course
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0
2,9.0,9.0,2.0,10.0,2.0,0.0,1.0,0
3,91.0,87.0,30.0,192.0,29.0,23.0,0.557692,0
5,11.0,11.0,4.0,12.0,2.0,2.0,0.5,0
7,1.0,1.0,0.0,1.0,0.0,0.0,0.0,0


Наша таблица для тренировки модели почти готова! Осталось только для каждого пользователя выбрать те записи, которые отображают прогресс пользователя за первые 2 дня прохождения курса.

Для этого в исходных таблицах найдем первый, минимальный таймстэмп пользователя, затем прибавим к нему 2 дня (48\*60\*60 секунд), и возьмем те записи, которые будут принадлежать этому временному промежутку:

In [154]:
events_min_max_time = pd.DataFrame(events_data.groupby('user_id').
                                   timestamp.min()). \
                                   rename(columns={'timestamp': 'min_time'})

events_min_max_time['max_time'] = events_min_max_time.min_time + 48*60*60
events_data = events_data.join(events_min_max_time, on='user_id')

submissions_min_max_time = pd.DataFrame(submissions_data.groupby('user_id').
                                        timestamp.min()). \
                                        rename(columns={'timestamp': 'min_time'})
    
submissions_min_max_time['max_time'] = submissions_min_max_time.min_time + 48*60*60
submissions_data = submissions_data.join(submissions_min_max_time, on='user_id')

events_2days = events_data.loc[events_data.timestamp <= events_data.max_time]
submissions_2days = submissions_data.loc[submissions_data.timestamp <= 
                                         submissions_data.max_time]

Мы извлекли нужные записи - теперь нужно привести их к такому же виду, к какому мы привели исходные таблицы:

In [155]:
events_2days = events_2days.drop(['min_time', 'max_time'], axis=1)
submissions_2days = submissions_2days.drop(['min_time', 'max_time'], axis=1)

action_count_2days = events_2days.pivot_table(values='action', 
                                              index='user_id', 
                                              columns='action', 
                                              aggfunc='count').fillna(0)

submissions_count_2days = submissions_2days.pivot_table(values='submission_status', 
                                                        index='user_id',
                                                        columns='submission_status', 
                                                        aggfunc='count').fillna(0)

submissions_count_2days['correct_ratio'] = submissions_count_2days.correct / \
                                           (submissions_count_2days.correct + 
                                            submissions_count_2days.wrong)

data_2days = action_count_2days.join(submissions_count_2days, 
                                     on='user_id', how='outer').fillna(0)

И финальный шаг: добавим к двухдневной таблице колонку "из будущего" - прошел ли пользователь в итоге курс или нет. Это колонка *passed_course*, которую мы вычислили на основе полных данных.

In [156]:
data_2days = data_2days.join(complete_data.passed_course, on='user_id')

In [157]:
data_2days.head()

Unnamed: 0_level_0,discovered,passed,started_attempt,viewed,correct,wrong,correct_ratio,passed_course
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0
2,9.0,9.0,2.0,9.0,2.0,0.0,1.0,0
3,15.0,15.0,4.0,20.0,4.0,4.0,0.5,0
5,1.0,1.0,0.0,1.0,2.0,2.0,0.5,0
7,1.0,1.0,0.0,1.0,0.0,0.0,0.0,0


Прекрасно! Теперь у нас есть таблица, в которой отслеживается прогресс пользователя за первые два дня прохождения курса, но также в этой таблице есть информация о том, прошел ли пользователь в итоге курс или нет.

На такой таблице мы и будем обучать нашу модель. Сохраним наши обработанные данные в CSV формате и перейдем к следующему шагу.

In [158]:
data_2days.to_csv('datasets/ML_Contest_train.csv')

# Подготовка тестового датасета 

Загрузим наши тестовые данные - те данные, на основе которых и нужно предсказать, получит ли пользователь заветный сертификат.

In [62]:
events_data_test = pd.read_csv('datasets/events_data_test.csv')
submissions_data_test = pd.read_csv('datasets/submission_data_test.csv')

In [160]:
events_data_test.head()

Unnamed: 0,step_id,timestamp,action,user_id
0,30456,1526893787,viewed,24417
1,30456,1526893797,viewed,24417
2,30456,1526893954,viewed,24417
3,30456,1526895780,viewed,24417
4,30456,1526893787,discovered,24417


In [161]:
submissions_data_test.head()

Unnamed: 0,step_id,timestamp,submission_status,user_id
0,31971,1526800961,wrong,24370
1,31971,1526800976,wrong,24370
2,31971,1526800993,wrong,24370
3,31971,1526801054,correct,24370
4,31972,1526800664,wrong,24370


Эти данные записаны в таком же сыром виде, как и сырые данные для нашей тренировочной модели. Поэтому проведем для них те же операции, чтобы привести к нужному формату:

In [63]:
events_data_test = events_data_test.drop('step_id', axis=1)
submissions_data_test = submissions_data_test.drop('step_id', axis=1)

action_count_test = events_data_test.pivot_table(values='action', 
                                                 index='user_id',
                                                 columns='action', 
                                                 aggfunc='count').fillna(0)

submissions_count_test = submissions_data_test.pivot_table(values='submission_status', 
                                                           index='user_id',
                                                           columns='submission_status', 
                                                           aggfunc='count').fillna(0)

submissions_count_test['correct_ratio'] = submissions_count_test.correct / \
                                         (submissions_count_test.correct + 
                                          submissions_count_test.wrong)

complete_data_test = action_count_test.join(submissions_count_test, 
                                            on='user_id', how='outer').fillna(0)

In [170]:
complete_data_test.head()

Unnamed: 0_level_0,discovered,passed,started_attempt,viewed,correct,wrong,correct_ratio
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
4,1.0,1.0,0.0,1.0,0.0,0.0,0.0
6,1.0,1.0,0.0,1.0,0.0,0.0,0.0
10,2.0,2.0,0.0,6.0,0.0,0.0,0.0
12,11.0,9.0,4.0,14.0,1.0,0.0,1.0
13,70.0,70.0,35.0,105.0,29.0,36.0,0.446154


# Обучение модели

Настало время машинного обучения! Импортируем Random Forest и GridSearchCV из библиотеки Scikit-learn:

In [33]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.metrics import f1_score, roc_auc_score

Загрузим наш тренировочный датасет: обозначим зависимую переменную *passed_course* как y, а все независимые переменные как X. Разобьем датасет на тренировочный и тестовый.

In [85]:
train_dataset = pd.read_csv('datasets/ML_Contest_train.csv', index_col='user_id')
X = train_dataset.drop('passed_course', axis=1)
y = train_dataset.passed_course

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20)

Алгоритм Random Forest - один из самых мощных алгоритмов машинного обучения, поэтому используем его. Потренируем несколько лесов с разными параметрами и выберем наилучший из них. В качестве меры качества выберем характеристику ROC_AUC_Score:

In [48]:
clf = RandomForestClassifier()
params = {
    'n_estimators': range(100, 500, 50),
    'max_depth': range(1,10)
}

search = GridSearchCV(clf, params, scoring='roc_auc', n_jobs=-1)
search.fit(X_train, y_train)
best_tree = search.best_estimator_
best_tree

In [49]:
predicted = best_tree.predict_proba(X_test)[:, 1]
roc_auc_score(y_test, predicted)

0.8803455186202992

Попробуем улучшить параметр n_estimators:

In [51]:
clf = RandomForestClassifier()
params = {
    'n_estimators': range(200, 300, 10),
    'max_depth': range(1,10)
}

search = GridSearchCV(clf, params, scoring='roc_auc', n_jobs=-1)
search.fit(X_train, y_train)
best_tree = search.best_estimator_
best_tree

In [79]:
predicted = best_tree.predict_proba(X_test)[:, 1]
roc_auc_score(y_test, predicted)

0.8809948781623467

Показатель возрос - отлично! А если попробовать другую модель? Может, SVM справится лучше?

In [59]:
from sklearn.svm import SVC

svc = SVC(probability=True, class_weight='balanced')
svc.fit(X_train, y_train)
svc

In [60]:
predicted = svc.predict(X_test)
roc_auc_score(y_test, predicted)

0.773394061955063

Что ж, результат не стал лучше. Будем использовать модель Random Forest, которую мы получили на прошлом шаге.

# Поработаем с фичами

У нас довольно много признаков - 7, но все ли они важны для нашей модели? Ведь известно, что иногда большое количество признаков может только мешать делать точное предсказание. Давайте найдем самый маловажный признак и избавимся от него, а потом посмотрим, возросло ли качество модели?

In [81]:
pd.DataFrame(best_tree.feature_names_in_, best_tree.feature_importances_)

Unnamed: 0,0
0.093567,discovered
0.188635,passed
0.131334,started_attempt
0.062714,viewed
0.384431,correct
0.04496,wrong
0.09436,correct_ratio


Как видим, признак wrong - количество проваленных попыток - оказался наименее важным при предсказании того, завершит студент курс или нет.
Удалим этот признак и обучим модель, не учитывая его:

In [119]:
best_tree.fit(X_train.drop('wrong', axis=1), y_train)
predicted = best_tree.predict_proba(X_test.drop('wrong', axis=1))[:, 1]
roc_auc_score(y_test, predicted)

0.8885922326395086

Отлично! Мы улучшили модель, убрав малозначимый признак! Может, убрав correct_ratio, модель снова станет лучше?

In [90]:
pd.DataFrame(best_tree.feature_names_in_, best_tree.feature_importances_)

Unnamed: 0,0
0.117239,discovered
0.19352,passed
0.150756,started_attempt
0.054741,viewed
0.400716,correct
0.083028,correct_ratio


In [94]:
best_tree.fit(X_train.drop(['wrong', 'correct_ratio'], axis=1), y_train)
predicted = best_tree.predict_proba(X_test.drop(['wrong', 'correct_ratio'], axis=1))[:, 1]
roc_auc_score(y_test, predicted)

0.8857980205630825

Нет, стало хуже. Тогда вернемся к прошлому варианту, и сделаем финальное предсказание!

# Результат работы

Сделаем наше заключительное предсказание по датасету complete_data_test, который мы заранее подготовили.

In [135]:
best_tree.fit(X.drop('wrong', axis=1), y)

In [136]:
predict = best_tree.predict_proba(complete_data_test.drop('wrong', axis=1))[:, 1]

Результатом работы нашей программы должен стать файл, в котором указан id юзера и соответствующая ему вероятность завершения курса:

In [137]:
result = pd.Series(predict, index=complete_data_test.reset_index().user_id, 
                   name='is_gone')

result.to_csv('predictions.csv')

In [138]:
result.sort_values(ascending=False)

user_id
21685    0.930618
21444    0.914963
19796    0.891066
2384     0.879791
21512    0.879381
           ...   
22075    0.000041
10087    0.000041
10026    0.000041
22174    0.000041
26800    0.000041
Name: is_gone, Length: 6184, dtype: float64

Осталось лишь проверить точность наших предсказаний. Загрузим наш результат в проверочную форму и получим ROC_AUC_SCORE = 0.8888238705469613, что говорит о довольно высокой точности предсказания нашей модели!

![Скриншот результата](result.png)