In [1]:
import pandas as pd

lectures = pd.read_csv('/Users/bessonv/Downloads/defectdojo_api-master/venv/data/lectures.csv', sep = ',')
questions = pd.read_csv('/Users/bessonv/Downloads/defectdojo_api-master/venv/data/questions.csv', sep = ',')
train = pd.read_csv('/Users/bessonv/Downloads/defectdojo_api-master/venv/data/train.csv', sep = ',', index_col='row_id')

In [2]:
# Объединение с `questions` для получения данных о вопросах
train = train.merge(questions, left_on='content_id', right_on='question_id', how='left')

In [3]:
# Объединение с `lectures` для получения данных о лекциях
train = train.merge(lectures, left_on='content_id', right_on='lecture_id', how='left')

# Lectures

In [7]:
display(lectures.head())

Unnamed: 0,lecture_id,tag,part,type_of
0,89,159,5,concept
1,100,70,1,concept
2,185,45,6,concept
3,192,79,5,solving question
4,317,156,5,solving question


In [24]:
lectures.describe()

Unnamed: 0,lecture_id,tag,part
count,418.0,418.0,418.0
mean,16983.401914,94.480861,4.267943
std,9426.16466,53.586487,1.872424
min,89.0,0.0,1.0
25%,9026.25,50.25,2.0
50%,17161.5,94.5,5.0
75%,24906.25,140.0,6.0
max,32736.0,187.0,7.0


# Questions

In [6]:
display(questions.head())

Unnamed: 0,question_id,bundle_id,correct_answer,part,tags
0,0,0,0,1,51 131 162 38
1,1,1,1,1,131 36 81
2,2,2,0,1,131 101 162 92
3,3,3,0,1,131 149 162 29
4,4,4,3,1,131 5 162 38


In [26]:
questions.describe()

Unnamed: 0,question_id,bundle_id,correct_answer,part
count,13523.0,13523.0,13523.0,13523.0
mean,6761.0,6760.510907,1.455298,4.264956
std,3903.89818,3903.857783,1.149707,1.652553
min,0.0,0.0,0.0,1.0
25%,3380.5,3379.5,0.0,3.0
50%,6761.0,6761.0,1.0,5.0
75%,10141.5,10140.0,3.0,5.0
max,13522.0,13522.0,3.0,7.0


# Train

In [4]:
display(train.head())

Unnamed: 0_level_0,timestamp,user_id,content_id,content_type_id,task_container_id,user_answer,answered_correctly,prior_question_elapsed_time,prior_question_had_explanation
row_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
0,0,115,5692,0,1,3,1,,
1,56943,115,5716,0,2,2,1,37000.0,False
2,118363,115,128,0,0,0,1,55000.0,False
3,131167,115,7860,0,3,0,1,19000.0,False
4,137965,115,7922,0,4,1,1,11000.0,False


## Очистка данных

In [78]:
# Замена -1 на NaN
train['user_answer'] = train['user_answer'].replace(-1, pd.NA)
train['answered_correctly'] = train['answered_correctly'].replace(-1, pd.NA)

# Замена строковых значений на категориальные
train['prior_question_had_explanation'] = train['prior_question_had_explanation'].astype('category')

In [79]:
train.describe()

Unnamed: 0,timestamp,user_id,content_id,content_type_id,task_container_id,prior_question_elapsed_time
count,101230300.0,101230300.0,101230300.0,101230300.0,101230300.0,98878790.0
mean,7703644000.0,1076732000.0,5219.605,0.01935222,904.0624,25423.81
std,11592660000.0,619716300.0,3866.359,0.1377596,1358.302,19948.15
min,0.0,115.0,0.0,0.0,0.0,0.0
25%,524343600.0,540811600.0,2063.0,0.0,104.0,16000.0
50%,2674234000.0,1071781000.0,5026.0,0.0,382.0,21000.0
75%,9924551000.0,1615742000.0,7425.0,0.0,1094.0,29666.0
max,87425770000.0,2147483000.0,32736.0,1.0,9999.0,300000.0


## Cреднее время, которое тратили на вопрос студенты

In [80]:
train.groupby('answered_correctly')['prior_question_elapsed_time'].mean().reset_index(name='mean_prior_question_elapsed_time').round()

Unnamed: 0,answered_correctly,mean_prior_question_elapsed_time
0,0,25642.0
1,1,25310.0


Делаем вывод, что студенты отвечали на вопросы примерно одинаковое количество времени.

Можно добавить, что время затраченное на ответ не влияет на правильность ответа студента.

## Процентное соотношение правильных ответов на вопросы, где есть объяснение (True), и где его нет (False).

In [53]:
# Фильтрация ответов, где answered_correctly == 1
correct_answers = train.loc[train['answered_correctly'] == 1].groupby('prior_question_had_explanation')['answered_correctly'].size()

# Общее количество ответов в каждой группе prior_question_had_explanation
total_answers = train.groupby('prior_question_had_explanation')['answered_correctly'].size()

# Выражаем результат в процентах
percent_correct = (correct_answers / total_answers) * 100

percent_correct_df = percent_correct.reset_index(name='answered_correctly_percentage').round()

# Вывод результата
display(percent_correct_df)

Unnamed: 0,prior_question_had_explanation,answered_correctly_percentage
0,False,41.0
1,True,67.0


В ответах с объяснением правильных решений – 67%, а в ответах без объяснений правильных решений всего 41%.

*Вывод:* Учеников ответевших правильно с пояснением к решению – большинство.

# Пользовательские показатели

In [76]:
# Группировка по пользователям
user_performance = train.groupby('user_id')['answered_correctly'].mean()

# Отбор лучших пользователей (успеваемость выше среднего)
above_average_users = user_performance[user_performance > user_performance.mean()].count()

print(f'Учеников с успеваемостью выше среднего {round(float((above_average_users/user_performance.count())*100),2)}%')

Учеников с успеваемостью выше среднего 54.57%


## Объеденение таблиц

In [2]:
# Объединение с `questions` для получения данных о вопросах
train_and_questions = train.merge(questions, left_on='content_id', right_on='question_id', how='left')

# Объединение с `lectures` для получения данных о лекциях
train_and_lectures = train.merge(lectures, left_on='content_id', right_on='lecture_id', how='left')

# Часть теста (part)

In [18]:
# Успеваемость по частям теста
part_performance = train_and_questions.groupby('part')['answered_correctly'].mean().reset_index(name = 'answered_correctly_percentage')
part_performance['answered_correctly_percentage'] = part_performance['answered_correctly_percentage'] * 100
display(part_performance)

Unnamed: 0,part,answered_correctly_percentage
0,1.0,72.219824
1,2.0,70.191243
2,3.0,68.632123
3,4.0,60.914893
4,5.0,59.869141
5,6.0,65.488133
6,7.0,65.195551


In [19]:
part_performance.describe()

Unnamed: 0,part,answered_correctly_percentage
count,7.0,7.0
mean,4.0,66.072987
std,2.160247,4.609744
min,1.0,59.869141
25%,2.5,63.055222
50%,4.0,65.488133
75%,5.5,69.411683
max,7.0,72.219824


Вывод: Максимальное количество ответов в 1 части, минимальное в 5 части. В среднем, правильно ответили большинство.

In [9]:
# Разделение тегов и расчет средних значений
train['tags'] = train['tags'].fillna('').astype(str)
tag_performance = train.groupby('tags')['answered_correctly'].mean().reset_index(name = 'answered_correctly_percentage')
tag_performance['answered_correctly_percentage'] = tag_performance['answered_correctly_percentage'] * 100
display(tag_performance)

Unnamed: 0,tags,answered_correctly_percentage
0,,-99.999832
1,1,57.936679
2,1 162,62.280967
3,10 111 92,83.750696
4,10 164 102,76.147620
...,...,...
1515,98 97 21,72.081364
1516,98 97 35 117 122 162,71.819186
1517,98 97 35 146 122,71.699622
1518,98 97 46 135,68.493941
