In [72]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### events_data, submission_data --- подгружаем данные и добавляем столбец даты

In [73]:
events_data = pd.read_csv('event_data_train.csv')
events_data['date'] = pd.to_datetime(events_data.timestamp, unit = 's')
events_data['day'] = events_data.date.dt.date

submission_data = pd.read_csv('submissions_data_train.csv')
submission_data['date'] = pd.to_datetime(submission_data.timestamp, unit = 's')
submission_data['day'] = submission_data.date.dt.date

In [74]:
events_data.head(1)

Unnamed: 0,step_id,timestamp,action,user_id,date,day
0,32815,1434340848,viewed,17632,2015-06-15 04:00:48,2015-06-15


### users_data --- добавляем столбец "ушел ли пользователь" (отсутствует >30 дней)

In [75]:
users_data = events_data.groupby('user_id', as_index= False)\
        .agg({'timestamp': 'max'})\
        .rename({'timestamp':'last_timestamp'}, axis = 'columns')

In [76]:
now = 1526772811
drop_out_treshold = 2592000
users_data['is_gone_user'] = (now - users_data.last_timestamp) > drop_out_treshold

In [77]:
users_data.head(1)

Unnamed: 0,user_id,last_timestamp,is_gone_user
0,1,1472827464,True


### users_score --- создаем таблицу сравнения "сколько верных/неверных степов совершил юзер"

In [78]:
users_scores = submission_data.pivot_table(index='user_id',
                        columns = 'submission_status',
                        values = 'step_id',
                        aggfunc = 'count',
                        fill_value = 0)\
                        .reset_index()

In [79]:
users_scores.head(1)

submission_status,user_id,correct,wrong
0,2,2,0


### users_data += users_scores

In [80]:
users_data = users_data.merge(users_scores, on = 'user_id', how = 'outer')
users_data = users_data.fillna(0)
users_data.head()

Unnamed: 0,user_id,last_timestamp,is_gone_user,correct,wrong
0,1,1472827464,True,0.0,0.0
1,2,1519226966,True,2.0,0.0
2,3,1444581588,True,29.0,23.0
3,5,1499859939,True,2.0,2.0
4,7,1521634660,True,0.0,0.0


### users_invent_data --- создаем таблицу сравнения "сколько различных степов совершил юзер"

In [81]:
users_invent_data = events_data.pivot_table(index = 'user_id',
                        columns = 'action',
                        values  = 'step_id',
                        aggfunc = 'count',
                        fill_value = 0).reset_index()
users_invent_data.head()

action,user_id,discovered,passed,started_attempt,viewed
0,1,1,0,0,1
1,2,9,9,2,10
2,3,91,87,30,192
3,5,11,11,4,12
4,7,1,1,0,1


### users_data += users_invent_data

In [82]:
users_data = users_data.merge(users_invent_data, how = 'outer')

### users_days --- сколько уникальных дней юзер провел на курсе

In [83]:
users_days = events_data.groupby('user_id').day.nunique()
users_days.to_frame().reset_index()

Unnamed: 0,user_id,day
0,1,1
1,2,2
2,3,7
3,5,2
4,7,1
...,...,...
19229,26790,4
19230,26793,1
19231,26794,9
19232,26797,2


### users_data --- добавляем столбец "прошел курс"

In [84]:
users_data = users_data.merge(users_days, on = 'user_id', how = 'outer')
users_data['passed_corse'] = users_data.passed > 170

### users_data += user_min_time --- время начала курса

In [85]:
user_min_time = events_data.groupby('user_id', as_index=False) \
    .agg({'timestamp': 'min'}) \
    .rename({'timestamp': 'min_timestamp'}, axis =1)

In [86]:
users_data = users_data.merge(user_min_time, how='outer')

### events_data_train --- данные по действиям юзера в первые 3 дня на курсе

In [87]:
events_data_train = pd.DataFrame()

In [88]:
events_data['user_time'] = events_data.user_id.map(str) + '_' + \
                                events_data.timestamp.map(str)

In [89]:
learning_time_treshold = 3*24*60*60 # время для обучения, после - предсказываем

In [90]:
user_learning_time_treshold = user_min_time.user_id \
    .map(str) + '_' + (user_min_time.min_timestamp + \
                        learning_time_treshold).map(str)

In [91]:
user_min_time['user_learning_time_treshold'] = user_learning_time_treshold

In [92]:
events_data = events_data.merge(user_min_time[['user_id', \
                                               'user_learning_time_treshold']], how='outer')

In [93]:
events_data_train = events_data[events_data.user_time <= events_data.user_learning_time_treshold]

### submission_data --- аналогично отбираем первые 3 дня¶

In [94]:
submission_data['user_time'] = submission_data.user_id.map(str) + '_' + \
                                submission_data.timestamp.map(str)
submission_data = submission_data. \
    merge(user_min_time[['user_id', 'user_learning_time_treshold']],
         how='outer')
submission_data_train = submission_data[submission_data.user_time <= \
                                        submission_data.user_learning_time_treshold]

### X, y --- отбираем данные для машинного обучения

In [137]:
# количество уникальных дней на курсе для пользователя в первые три дня
X = submission_data_train.groupby('user_id').day.nunique().to_frame().reset_index(). \
    rename(columns={'day': 'days'})

In [138]:
# количество опробованных степов
steps_tried = submission_data_train.groupby('user_id').step_id.nunique().to_frame(). \
    reset_index().rename(columns={'step_id': 'steps_tried'})
X = X.merge(steps_tried, on='user_id', how='outer')

In [139]:
# добавляем сводную таблицу количества верных/ошибочных попыток юзера
X = X.merge(submission_data_train.pivot_table(index = 'user_id',
                                 columns = 'submission_status',
                                 values  = 'step_id',
                                 aggfunc = 'count',
                                 fill_value = 0).reset_index())
X['correct_ratio'] = X.correct / (X.correct + X.wrong)

In [140]:
X.head(1)

Unnamed: 0,user_id,days,steps_tried,correct,wrong,correct_ratio
0,2,1,2,2,0,1.0


In [141]:
# количество совершенных действий юзером
X = X.merge(events_data_train.pivot_table(index = 'user_id',
                                 columns = 'action',
                                 values  = 'step_id',
                                 aggfunc = 'count',
                                 fill_value = 0).reset_index()[['user_id', 'viewed']], 
                                 how='outer')
X = X.fillna(0)

In [142]:
# добавляем столбы "ушел ли" и "прошел ли"
X = X.merge(users_data[['user_id', 'passed_corse', 'is_gone_user']], how='outer')

In [143]:
# оставляем всех, кроме тех, кто еще проходит
X = X[~((X.is_gone_user == False) & (X.passed_corse == False))]

In [144]:
X.head(1)

Unnamed: 0,user_id,days,steps_tried,correct,wrong,correct_ratio,viewed,passed_corse,is_gone_user
0,2,1.0,2.0,2.0,0.0,1.0,9,False,True


In [145]:
# создаем y равный столбцу "прошел ли"
y = X.passed_corse.map(int)

In [146]:
# подчищаем X
X = X.drop(['passed_corse', 'is_gone_user'], axis=1)
X = X.set_index(X.user_id)
X = X.drop('user_id', axis=1)

### Самый сложный степ, после которого все слились

In [150]:
submission_data.head()

Unnamed: 0,step_id,timestamp,submission_status,user_id,date,day,user_time,user_learning_time_treshold
0,31971.0,1434349000.0,correct,15853,2015-06-15 06:21:15,2015-06-15,15853_1434349275,15853_1434605177
1,31972.0,1434348000.0,correct,15853,2015-06-15 06:05:00,2015-06-15,15853_1434348300,15853_1434605177
2,31972.0,1478852000.0,wrong,15853,2016-11-11 08:15:49,2016-11-11,15853_1478852149,15853_1434605177
3,31972.0,1478852000.0,correct,15853,2016-11-11 08:16:04,2016-11-11,15853_1478852164,15853_1434605177
4,31976.0,1434348000.0,wrong,15853,2015-06-15 06:02:03,2015-06-15,15853_1434348123,15853_1434605177


In [151]:
last_step = submission_data[submission_data['submission_status'] == 'wrong']. \
    groupby('user_id').agg({'step_id': 'max'})

In [152]:
last_step.head()

Unnamed: 0_level_0,step_id
user_id,Unnamed: 1_level_1
3,33540.0
5,32812.0
8,33481.0
14,33983.0
16,33994.0


In [153]:
last_step['step_id'].value_counts()

32812.0     1525
120745.0     791
32219.0      534
34041.0      532
31978.0      374
            ... 
32089.0        2
33480.0        2
33413.0        1
33367.0        1
33332.0        1
Name: step_id, Length: 72, dtype: int64