## Подготовка данных

### Импорт библиотек

In [3]:
import pandas as pd

___

## Документация

### train.csv
<div style="text-align: center; font-size: 32px">Описание колонок</div>

<table><thead><tr class="rowsep-1"><th scope="col"><strong>Переменная</strong></th><th scope="col"><strong>Тип</strong></th><th scope="col"><strong>Описание</strong></th></tr></thead><tbody>
<tr><th scope="row"><em>row_id</em></th><td>int64</td><td>Идентификатор строки</td></tr>

<tr><th scope="row"><em>timestamp</em></th><td>int64</td><td>Время в миллисекундах между этим взаимодействием с пользователем и первым завершением события от этого пользователя.</td></tr>

<tr><th scope="row"><em>user_id</em></th><td>int32</td><td>Идентификатор пользователя</td>></tr>

<tr><th scope="row"><em>content_id</em></th><td>int16</td><td>Идентификатор взаимодействия с пользователем</td></tr>

<tr><th scope="row"><em>content_type_id</em></th><td>int8</td><td>0, если событием был вопрос, заданный пользователю, 1, если событием был просмотр лекции пользователем</td></tr>

<tr><th scope="row"><em>task_container_id</em></th><td>int16</td><td>Идентификатор пакета вопросов или лекций</td></tr>

<tr><th scope="row"><em>user_answer</em></th><td>int8</td><td>Ответ пользователя на вопрос, если таковой имеется. Для лекций прочтите -1 как ноль</td></tr>

<tr><th scope="row"><em>answered_correctly</em></th><td>int8</td><td> если пользователь ответил правильно. Для лекций прочтите -1 как ноль.</td></tr>

<tr><th scope="row"><em>prior_question_elapsed_time</em></th><td>float32</td><td>Среднее время в миллисекундах, которое потребовалось пользователю для ответа на каждый вопрос в предыдущей группе вопросов, игнорируя любые промежуточные лекции. Имеет значение NULL для первого пакета вопросов или лекции пользователя. </td></tr>

<tr><th scope="row"><em>prior_question_had_explanation</em></th><td>bool</td><td>Увидел ли пользователь объяснение и правильный ответ(ы) после ответа на предыдущий пакет вопросов, игнорируя любые лекции между ними. Значение распространяется на один пакет вопросов и является нулевым для первого пакета вопросов или лекции пользователя. </td></tr>

</tbody></table>



___

### questions.csv
<div style="text-align: center; font-size: 32px">Описание колонок</div>

<table><thead><tr class="rowsep-1"><th scope="col"><strong>Переменная</strong></th><th scope="col"><strong>Тип</strong></th><th scope="col"><strong>Описание</strong></th></tr></thead><tbody>


<tr><th scope="row"><em>question_id</em></th><td>int64</td><td>Внешний ключ для столбца content_id тренировки/теста, когда тип контента — вопрос (0).</td></tr>

<tr><th scope="row"><em>bundle_id</em></th><td>int64</td><td>Код, для которого вопросы подаются вместе</td></tr>

<tr><th scope="row"><em>correct_answer</em></th><td>int64</td><td>Ответ на вопрос. Можно сравнить со столбцом train user_answer, чтобы проверить, был ли прав пользователь</td></tr>

<tr><th scope="row"><em>part</em></th><td>int64</td><td>Соответствующий раздел теста TOEIC</td></tr>

<tr><th scope="row"><em>tags</em></th><td>object</td><td>Один или несколько подробных кодов тегов для вопроса. Значение тегов не будет указано, но этих кодов достаточно для группировки вопросов.</td></tr>

</tbody></table>

___

### lectures.csv
<div style="text-align: center; font-size: 32px">Описание колонок</div>

<table><thead><tr class="rowsep-1"><th scope="col"><strong>Переменная</strong></th><th scope="col"><strong>Тип</strong></th><th scope="col"><strong>Описание</strong></th></tr></thead><tbody>


<tr><th scope="row"><em>lecture_id</em></th><td>int64</td><td>Внешний ключ для столбца content_id поезда/теста, когда тип контента — лекция (1).</td></tr>

<tr><th scope="row"><em>part</em></th><td>int64</td><td>Код категории верхнего уровня для лекции.</td></tr>

<tr><th scope="row"><em>tag</em></th><td>int64</td><td>Один код тега для лекции. Значение тегов не будет указано, но этих кодов достаточно для группировки лекций</td>></tr>

<tr><th scope="row"><em>type_of</em></th><td>object</td><td>Краткое описание основной цели лекции.</td></tr>

</tbody></table>

___

## Загрузка данных

### Тренировки

In [14]:
train_df = pd.read_csv('train.csv')
train_df.head()

Unnamed: 0,row_id,timestamp,user_id,content_id,content_type_id,task_container_id,user_answer,answered_correctly,prior_question_elapsed_time,prior_question_had_explanation
0,0,0,115,5692,0,1,3,1,,
1,1,56943,115,5716,0,2,2,1,37000.0,False
2,2,118363,115,128,0,0,0,1,55000.0,False
3,3,131167,115,7860,0,3,0,1,19000.0,False
4,4,137965,115,7922,0,4,1,1,11000.0,False


In [15]:
# Проверяем размерность таблицы
train_df.shape

(101230332, 10)

In [16]:
# Проверяем информацию по таблице, типы, количество non-null, название столбцов и использованная память
train_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 101230332 entries, 0 to 101230331
Data columns (total 10 columns):
 #   Column                          Dtype  
---  ------                          -----  
 0   row_id                          int64  
 1   timestamp                       int64  
 2   user_id                         int64  
 3   content_id                      int64  
 4   content_type_id                 int64  
 5   task_container_id               int64  
 6   user_answer                     int64  
 7   answered_correctly              int64  
 8   prior_question_elapsed_time     float64
 9   prior_question_had_explanation  object 
dtypes: float64(1), int64(8), object(1)
memory usage: 7.5+ GB


In [43]:
# Проверяем основные статистические характеристики
train_df.describe()

Unnamed: 0,row_id,timestamp,user_id,content_id,content_type_id,task_container_id,user_answer,answered_correctly,prior_question_elapsed_time
count,99271300.0,99271300.0,99271300.0,99271300.0,99271300.0,99271300.0,99271300.0,99271300.0,98878790.0
mean,50615790.0,7702058000.0,1076745000.0,4994.398,0.0,907.8112,1.423,0.6572,25423.81
std,29221880.0,11594980000.0,619699500.0,3288.955,0.0,1364.974,1.1565,0.4746,19948.15
min,0.0,0.0,115.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,25308360.0,519528000.0,540837000.0,2016.0,0.0,103.0,0.0,0.0,16000.0
50%,50616490.0,2669611000.0,1071807000.0,4984.0,0.0,381.0,1.0,1.0,21000.0
75%,75920820.0,9929147000.0,1615742000.0,7218.0,0.0,1099.0,3.0,1.0,29666.0
max,101230300.0,87425770000.0,2147483000.0,13522.0,0.0,9999.0,3.0,1.0,300000.0


In [18]:
# Проверяем основные статистические характеристики для объектов
train_df.describe(include=['object'])

Unnamed: 0,prior_question_had_explanation
count,100837826
unique,2
top,True
freq,89685560


### Вопросы

In [20]:
questions_df = pd.read_csv('questions.csv')
questions_df.head()

Unnamed: 0,question_id,bundle_id,correct_answer,part,tags
0,0,0,0,1,51 131 162 38
1,1,1,1,1,131 36 81
2,2,2,0,1,131 101 162 92
3,3,3,0,1,131 149 162 29
4,4,4,3,1,131 5 162 38


In [21]:
# Проверяем размерность таблицы
questions_df.shape

(13523, 5)

In [22]:
# Проверяем информацию по таблице, типы, количество non-null, название столбцов и использованная память
questions_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13523 entries, 0 to 13522
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   question_id     13523 non-null  int64 
 1   bundle_id       13523 non-null  int64 
 2   correct_answer  13523 non-null  int64 
 3   part            13523 non-null  int64 
 4   tags            13522 non-null  object
dtypes: int64(4), object(1)
memory usage: 528.4+ KB


In [23]:
# Проверяем основные статистические характеристики 
questions_df.describe()

Unnamed: 0,question_id,bundle_id,correct_answer,part
count,13523.0,13523.0,13523.0,13523.0
mean,6761.0,6760.510907,1.455298,4.264956
std,3903.89818,3903.857783,1.149707,1.652553
min,0.0,0.0,0.0,1.0
25%,3380.5,3379.5,0.0,3.0
50%,6761.0,6761.0,1.0,5.0
75%,10141.5,10140.0,3.0,5.0
max,13522.0,13522.0,3.0,7.0


In [24]:
# Проверяем основные статистические характеристики для объектов
questions_df.describe(include=['object'])

Unnamed: 0,tags
count,13522
unique,1519
top,8
freq,738


___

### Лекции

In [27]:
lectures_df = pd.read_csv('lectures.csv')
lectures_df.head()

Unnamed: 0,lecture_id,tag,part,type_of
0,89,159,5,concept
1,100,70,1,concept
2,185,45,6,concept
3,192,79,5,solving question
4,317,156,5,solving question


In [28]:
# Проверяем размерность таблицы
lectures_df.shape

(418, 4)

In [29]:
# Проверяем информацию по таблице, типы, количество non-null, название столбцов и использованная память
lectures_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   lecture_id  418 non-null    int64 
 1   tag         418 non-null    int64 
 2   part        418 non-null    int64 
 3   type_of     418 non-null    object
dtypes: int64(3), object(1)
memory usage: 13.2+ KB


In [30]:
# Проверяем основные статистические характеристики 
lectures_df.describe()

Unnamed: 0,lecture_id,tag,part
count,418.0,418.0,418.0
mean,16983.401914,94.480861,4.267943
std,9426.16466,53.586487,1.872424
min,89.0,0.0,1.0
25%,9026.25,50.25,2.0
50%,17161.5,94.5,5.0
75%,24906.25,140.0,6.0
max,32736.0,187.0,7.0


In [31]:
# Проверяем основные статистические характеристики для объектов
lectures_df.describe(include=['object'])

Unnamed: 0,type_of
count,418
unique,4
top,concept
freq,222


___

### Анализ данных

### Данные по тренирочным тестам

In [34]:
# Получаем общее количество ответов в массиве данных
total_amount_answers = train_df.shape[0]
total_amount_answers

101230332

In [35]:
# Получаем общее количество ответов, которые были связанны с лекцией
count_answers_on_lections = train_df[train_df['user_answer'] == -1].shape[0]
print(f"Количество ответов на лекции составляет {count_answers_on_lections} из {total_amount_answers} или {round(count_answers_on_lections / total_amount_answers,3) } %")

Количество ответов на лекции составляет 1959032 из 101230332 или 0.019 %


In [36]:
# Убираем все строки, которые не связаны с тестированием
train_df = train_df[train_df['user_answer'] != -1]

In [37]:
# Выводим значение с актуальным количеством строк
total_amount_answers = train_df.shape[0]
print(f"Количество строк после сокращения данных строк, связанной с лекцией {total_amount_answers}")

Количество строк после сокращения данных строк, связанной с лекцией 99271300


In [38]:
# Получаем количество правильных ответов
count_correctly_answers = train_df[train_df['answered_correctly'] == 1].shape[0]
print(f"Общее количество правильных ответов состовляет {count_correctly_answers} из {total_amount_answers} или {round(count_correctly_answers / total_amount_answers,4)} %")

Общее количество правильных ответов состовляет 65244627 из 99271300 или 0.6572 %


___