In [16]:
import pandas as pd

### Инициализируем датафреймы и выведем первичную информацию по каждой таблице

In [17]:
# Загрузим данные по датафрейму train
train = pd.read_csv('./data/train.csv')

In [18]:
# Выведем по 5 первых и последних записей
display(train.head(),train.tail())

Unnamed: 0,row_id,timestamp,user_id,content_id,content_type_id,task_container_id,user_answer,answered_correctly,prior_question_elapsed_time,prior_question_had_explanation
0,0,0,115,5692,0,1,3,1,,
1,1,56943,115,5716,0,2,2,1,37000.0,False
2,2,118363,115,128,0,0,0,1,55000.0,False
3,3,131167,115,7860,0,3,0,1,19000.0,False
4,4,137965,115,7922,0,4,1,1,11000.0,False


Unnamed: 0,row_id,timestamp,user_id,content_id,content_type_id,task_container_id,user_answer,answered_correctly,prior_question_elapsed_time,prior_question_had_explanation
101230327,101230327,428564420,2147482888,3586,0,22,0,1,18000.0,True
101230328,101230328,428585000,2147482888,6341,0,23,3,1,14000.0,True
101230329,101230329,428613475,2147482888,4212,0,24,3,1,14000.0,True
101230330,101230330,428649406,2147482888,6343,0,25,1,0,22000.0,True
101230331,101230331,428692118,2147482888,7995,0,26,3,1,29000.0,True


- row_id: (int64) Код идентификатора строки.

- timestamp: (int64) Время в миллисекундах между взаимодействием пользователя и завершением первого события от этого пользователя.

- user_id: (int32) Код идентификатора пользователя.

- content_id: (int16) Код идентификатора взаимодействия пользователя.

- content_type_id: (int8) 0, если событие было вопросом, адресованным пользователю, 1, если событием было то, что пользователь смотрел лекцию.

- task_container_id: (int16) Код идентификатора блока вопросов или лекций. Например, пользователь может увидеть три вопроса подряд перед тем, как увидеть объяснения к любому из них. Эти три будут иметь общий task_container_id.

- user_answer: (int8) Ответ пользователя на вопрос, если таковой имеется. Считать -1 как пустое значение, для лекций.

- answered_correctly: (int8) Если пользователь ответил правильно. Считать -1 как пустое значение, для лекций.

- prior_question_elapsed_time: (float32) Среднее время в миллисекундах, которое потребовалось пользователю для ответа на каждый вопрос в предыдущем наборе вопросов, игнорируя любые лекции между ними. Значение равно нулю для первой группы вопросов или лекции пользователя. Обратите внимание, что время является средним временем, которое потребовалось пользователю для решения каждого вопроса в предыдущем наборе.

- prior_question_had_explanation: (bool) Был ли у пользователя просмотр объяснений и правильных ответов после ответа на предыдущий набор вопросов, игнорируя любые лекции между ними. Значение применяется ко всему набору вопросов и равно нулю для первой группы вопросов или лекции пользователя. Обычно первые несколько вопросов, которые видит пользователь, являются частью диагностического теста для ознакомления, где он не получает никакой обратной связи.

In [19]:
# Удалим неинформативные стообцы
train_processed = train.drop(["row_id"], axis=1)

----

In [20]:
# Загрузим данные по датафрейму lectures
lectures = pd.read_csv('./data/lectures.csv')

In [21]:
# Выведем по 5 первых и последних записей
display(lectures.head(),lectures.tail())

Unnamed: 0,lecture_id,tag,part,type_of
0,89,159,5,concept
1,100,70,1,concept
2,185,45,6,concept
3,192,79,5,solving question
4,317,156,5,solving question


Unnamed: 0,lecture_id,tag,part,type_of
413,32535,8,5,solving question
414,32570,113,3,solving question
415,32604,24,6,concept
416,32625,142,2,concept
417,32736,82,3,concept


- lecture_id: внешний ключ для столбца train/test content_id, когда тип контента – лекция (1).

- part: код верхнего уровня категории для лекции.

- tag: один код тега для лекции. Значение тегов предоставляться не будет, но эти коды достаточны для группировки лекций вместе.

- type_of: краткое описание основной цели лекции.

---

In [22]:
# Загрузим данные по датафрейму questions
questions = pd.read_csv('./data/questions.csv')

In [23]:
# Выведем по 5 первых и последних записей
display(questions.head(),questions.tail())

Unnamed: 0,question_id,bundle_id,correct_answer,part,tags
0,0,0,0,1,51 131 162 38
1,1,1,1,1,131 36 81
2,2,2,0,1,131 101 162 92
3,3,3,0,1,131 149 162 29
4,4,4,3,1,131 5 162 38


Unnamed: 0,question_id,bundle_id,correct_answer,part,tags
13518,13518,13518,3,5,14
13519,13519,13519,3,5,8
13520,13520,13520,2,5,73
13521,13521,13521,0,5,125
13522,13522,13522,3,5,55


- question_id: внешний ключ для столбца train/test content_id, когда тип контента – вопрос (0).

- bundle_id: код для вопросов, которые подаются вместе.

- correct_answer: ответ на вопрос. Его можно сравнить с колонной train user_answer, чтобы проверить, был ли прав пользователь.

- part: соответствующий раздел теста TOEIC.

- tags: один или несколько подробных кодов тегов для вопроса. Значение тегов предоставляться не будет, но эти коды достаточны для группировки вопросов вместе.

---

### Избавимся от нормализованности таблиц и объединим все в один датафрейм

In [24]:
train_processed.head()

Unnamed: 0,timestamp,user_id,content_id,content_type_id,task_container_id,user_answer,answered_correctly,prior_question_elapsed_time,prior_question_had_explanation
0,0,115,5692,0,1,3,1,,
1,56943,115,5716,0,2,2,1,37000.0,False
2,118363,115,128,0,0,0,1,55000.0,False
3,131167,115,7860,0,3,0,1,19000.0,False
4,137965,115,7922,0,4,1,1,11000.0,False


In [25]:
# Сначала объединим train с lectures
data = pd.merge(
    left=train_processed, right=lectures, left_on="content_id", right_on="lecture_id"
)

# Дропнем ключ так как он больше не нужен
data = data.drop(["lecture_id"], axis=1)

# Проверим результат
data.head()

Unnamed: 0,timestamp,user_id,content_id,content_type_id,task_container_id,user_answer,answered_correctly,prior_question_elapsed_time,prior_question_had_explanation,tag,part,type_of
0,437272,115,7926,0,18,1,1,18000.0,False,57,5,concept
1,557677,115,185,0,23,3,0,21000.0,False,45,6,concept
2,710402,115,100,0,30,0,1,20000.0,False,70,1,concept
3,653762,2746,6808,1,14,-1,-1,,False,129,2,intention
4,835457,2746,484,0,19,0,1,20000.0,True,179,5,concept


In [26]:
# Теперь объединим data с questiones
data = pd.merge(
    left=data, right=questions, left_on="content_id", right_on="question_id"
)

# Дропнем ключ так как он больше не нужен
data = data.drop(["question_id"], axis=1)

# Проверим результат
data.head()

Unnamed: 0,timestamp,user_id,content_id,content_type_id,task_container_id,user_answer,answered_correctly,prior_question_elapsed_time,prior_question_had_explanation,tag,part_x,type_of,bundle_id,correct_answer,part_y,tags
0,437272,115,7926,0,18,1,1,18000.0,False,57,5,concept,7926,1,1,9 10 92
1,557677,115,185,0,23,3,0,21000.0,False,45,6,concept,185,0,1,131 111 81
2,710402,115,100,0,30,0,1,20000.0,False,70,1,concept,100,0,1,131 5 81
3,653762,2746,6808,1,14,-1,-1,,False,129,2,intention,6805,1,6,27
4,835457,2746,484,0,19,0,1,20000.0,True,179,5,concept,484,0,2,62 155 163 81 29


In [27]:
# Посмотрим на форму итогового датафрейма
data.shape

(2070944, 16)

In [28]:
# Создадим копию data
processed_data = data.copy()

In [29]:
# Переведем временные фичи к минутам для простоты анализа
processed_data["timestamp"] = data["timestamp"] / 1000 / 60
processed_data["prior_question_elapsed_time"] = data["prior_question_elapsed_time"] / 1000 / 60

In [30]:
processed_data.head()

Unnamed: 0,timestamp,user_id,content_id,content_type_id,task_container_id,user_answer,answered_correctly,prior_question_elapsed_time,prior_question_had_explanation,tag,part_x,type_of,bundle_id,correct_answer,part_y,tags
0,7.287867,115,7926,0,18,1,1,0.3,False,57,5,concept,7926,1,1,9 10 92
1,9.294617,115,185,0,23,3,0,0.35,False,45,6,concept,185,0,1,131 111 81
2,11.840033,115,100,0,30,0,1,0.333333,False,70,1,concept,100,0,1,131 5 81
3,10.896033,2746,6808,1,14,-1,-1,,False,129,2,intention,6805,1,6,27
4,13.924283,2746,484,0,19,0,1,0.333333,True,179,5,concept,484,0,2,62 155 163 81 29


In [31]:
# Посмотрим сколько уникальных пользователей
processed_data["user_id"].nunique()

215355

In [40]:
# Посмотрим на распределение времени для каждого вида взаимодействия
processed_data.groupby("content_type_id")["timestamp"].agg(["min", "max", "mean", "median"])

Unnamed: 0_level_0,min,max,mean,median
content_type_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,0.0,1453200.0,121852.262462,39315.033517
1,0.0,1453210.0,127742.524296,46917.828533
