In [78]:
import pandas as pd
assessments = pd.read_csv('/mnt/HC_Volume_18315164/home-jupyter/jupyter-m-vinokurov/assessments.csv')
courses = pd.read_csv('/mnt/HC_Volume_18315164/home-jupyter/jupyter-m-vinokurov/courses.csv')
student_assessment = pd.read_csv('/mnt/HC_Volume_18315164/home-jupyter/jupyter-m-vinokurov/studentAssessment.csv')
student_registration = pd.read_csv('/mnt/HC_Volume_18315164/home-jupyter/jupyter-m-vinokurov/studentRegistration.csv')




# Объединение данных по общим столбцам
df = pd.merge(assessments, courses, on=['code_module', 'code_presentation'])
df = pd.merge(df, student_assessment, on='id_assessment')
df = pd.merge(df, student_registration, on=['code_module', 'code_presentation', 'id_student'])



#Задание 1

# Отбираем оценки выше 40 для каждого студента
successful_attempts = df.query("score >= 40") 

# Отбираем именно экзамены
successful_attempts = successful_attempts.query("assessment_type == 'Exam'") 

# Подсчитываем количество уникальных успешно сданных курсов для каждого студента
successful_attempts_count = successful_attempts.groupby('id_student')['code_module'].nunique() 

# Считаем общее количество студентов, успешно сдавших только один курс
students_passing_one_course = successful_attempts_count[successful_attempts_count == 1].count()

print("Задание 1:")
print(f"Количество студентов, успешно сдавших только один курс: {students_passing_one_course}")




#Задание 2

successful_exams_count = successful_attempts.groupby(['code_module', 'code_presentation', 'id_assessment']).size()

# Подсчет общего количества попыток сдать экзамен
total_attempts_count = df.groupby(['code_module', 'code_presentation', 'id_assessment']).size() 

# Рассчет завершаемости для каждого экзамена
completion_rate = successful_exams_count / total_attempts_count 

# Нахождение экзамена с самой низкой завершаемостью
most_difficult_exam = completion_rate.idxmin()
lowest_completion_rate = completion_rate.min()

# Нахождение экзамена с самой высокой завершаемостью
easiest_exam = completion_rate.idxmax() 
highest_completion_rate = completion_rate.max()

print("\nЗадание 2:")
print(f"Самый сложный экзамен: {most_difficult_exam}, Завершаемость: {round(lowest_completion_rate*100, 2)}%")
print(f"Самый простой экзамен: {easiest_exam}, Завершаемость: {round(highest_completion_rate*100, 2)}%")




# Задание 3

# Находим последнюю успешную попытку для каждого студента по каждому предмету
last_successful_attempt = successful_attempts.groupby(['code_module', 'id_student'])['date_submitted'].max()

# Вычисляем средний срок сдачи экзаменов для каждого предмета
average_completion_time = last_successful_attempt.groupby('code_module').mean()

print("\nЗадание 3:")
print(average_completion_time.round(2))




# Задание 4

# Считаем количество регистраций для каждого предмета
registration_counts = df.groupby('code_module')['id_student'].nunique()

# Находим ТОП-3 самых популярных предмета
top_popular_subjects = registration_counts.nlargest(3)

# Считаем количество отписавшихся студентов для каждого предмета
dropout_counts = student_registration[student_registration['date_unregistration'].notna()].groupby('code_module')['id_student'].nunique()

# Рассчитываем отток как долю отписавшихся от зарегистрированных студентов
dropout_rate = dropout_counts / registration_counts

# Находим ТОП-3 предметов с самым большим оттоком
top_dropout_subjects = dropout_rate.nlargest(3)

print("\nЗадание 4:")
print("ТОП-3 самых популярных предметов:")
print(top_popular_subjects)
print("\nТОП-3 предметов с самым большим оттоком:")
print(top_dropout_subjects)




# Задание 5

# Рассчет завершаемости для каждого курса в каждом семестре
completion_rate = successful_attempts.groupby(['code_module', 'code_presentation'])['id_assessment'].nunique() / assessments.groupby(['code_module', 'code_presentation'])['id_assessment'].nunique()

# Нахождение семестра с самой низкой завершаемостью
lowest_completion_semester = completion_rate.idxmin()

# Рассчет среднего срока сдачи курсов для каждого курса в каждом семестре
average_completion_time = successful_attempts.groupby(['code_module', 'code_presentation', 'id_student'])['date_submitted'].max().groupby(['code_module', 'code_presentation']).mean()

# Нахождение семестра с самыми долгими средними сроками сдачи
longest_completion_semester = average_completion_time.idxmax()

print("\nЗадание 5:")
print(f"Семестр с самой низкой завершаемостью: {lowest_completion_semester}")
print(f"Семестр с самыми долгими средними сроками сдачи: {longest_completion_semester}")




#Задание 6

# R - Среднее время сдачи экзамена (Recency), уже рассчитанное в задаче 3
R_metric = df.groupby('id_student', as_index = False).agg({'date_submitted':'mean'})
R_metric = R_metric.rename(columns={'date_submitted':'Recency'})

# F - Доля сданных экзаменов от общего числа попыток сдачи (Frequency), похожее на расчет в задаче 2
# Подсчет успешных попыток сдачи экзаменов
successful_attempts = df[df['score'] >= 40].groupby('id_student').size()

# Подсчет всех попыток сдачи экзаменов
all_attempts = df.groupby('id_student').size()

# Расчет доли успешных попыток (Frequency)
F_metric = successful_attempts / all_attempts
F_metric = F_metric.reset_index(name='Frequency')

# M - Средний балл за экзамен (Monetary), включая неуспешные попытки
M_metric = df[df['assessment_type'] == 'Exam']\
    .groupby('id_student')['score'].mean().reset_index(name='Monetary')

# Объединение метрик в один DataFrame
rfm_data = pd.merge(R_metric, F_metric, left_on='id_student', right_on='id_student')
rfm_data = pd.merge(rfm_data, M_metric, left_on='id_student', right_on='id_student')

# Пересчитаем R, F и M как ранги
rfm_data['R_rank'] = rfm_data['Recency'].rank(ascending=True)
rfm_data['F_rank'] = rfm_data['Frequency'].rank(ascending=False)
rfm_data['M_rank'] = rfm_data['Monetary'].rank(ascending=True)

# Создание RFM-сегментов путем сцепки меток рангов
rfm_data['RFM_segment'] = rfm_data['R_rank'].astype(str) + rfm_data['F_rank'].astype(str) + rfm_data['M_rank'].astype(str)

# Сортировка по RFM-сегментам
rfm_data_sorted = rfm_data.sort_values('RFM_segment')

# Вывод первых строк DataFrame с RFM-сегментами
print('\n'f"Задание 6: {rfm_data_sorted.head()}")

Задание 1:
Количество студентов, успешно сдавших только один курс: 3805

Задание 2:
Самый сложный экзамен: ('DDD', '2013B', 25340), Завершаемость: 83.72%
Самый простой экзамен: ('DDD', '2014B', 25361), Завершаемость: 92.56%

Задание 3:
code_module
CCC    239.35
DDD    237.98
Name: date_submitted, dtype: float64

Задание 4:
ТОП-3 самых популярных предметов:
code_module
FFF    6058
BBB    5960
DDD    4699
Name: id_student, dtype: int64

ТОП-3 предметов с самым большим оттоком:
code_module
CCC    0.559976
DDD    0.439455
BBB    0.388255
Name: id_student, dtype: float64

Задание 5:
Семестр с самой низкой завершаемостью: ('DDD', '2013B')
Семестр с самыми долгими средними сроками сдачи: ('CCC', '2014J')

Задание 6:       id_student     Recency  Frequency  Monetary  R_rank  F_rank  M_rank  \
4102     1355699   33.000000   0.857143      69.0     1.0  3754.5  2565.5   
1679      553741   58.000000   1.000000      62.0    10.0  1605.5  2045.0   
589       370184   95.000000   1.000000      56.0 