In [1]:
import pandas as pd

In [2]:
assessments_df = pd.read_csv("/mnt/HC_Volume_18315164/home-jupyter/jupyter-a-zakorko/assessments.csv")
courses_df = pd.read_csv("/mnt/HC_Volume_18315164/home-jupyter/jupyter-a-zakorko/courses.csv")
student_assessment_df = pd.read_csv("/mnt/HC_Volume_18315164/home-jupyter/jupyter-a-zakorko/studentAssessment.csv")
student_registration_df = pd.read_csv("/mnt/HC_Volume_18315164/home-jupyter/jupyter-a-zakorko/studentRegistration.csv")


In [3]:
# Задача 1: Выяснить, сколько студентов успешно сдали только один курс.

# Фильтрация данных для выделения экзаменов
exams_df = assessments_df[assessments_df['assessment_type'] == 'Exam']

# Объединение данных об оценках студентов с данными об экзаменах
student_exams_df = pd.merge(student_assessment_df, exams_df, on='id_assessment')

# Определение успешной сдачи как получение 40 и более баллов
student_exams_df['passed'] = student_exams_df['score'] >= 40

# Подсчет количества успешных сдач для каждого студента
successful_completions = student_exams_df.groupby('id_student')['passed'].sum()

# Подсчет количества студентов, успешно сдавших только один курс
students_one_successful_completion = successful_completions[successful_completions == 1].count()

print('Ответ:', students_one_successful_completion)


Ответ: 3802


In [4]:
# Задача 2: Выявить самый сложный и самый простой экзамен по завершаемости.

# Расчет процента успешной сдачи для каждого экзамена
exam_pass_rates = student_exams_df.groupby('id_assessment')['passed'].mean()

# Определение экзамена с самым низким процентом успешной сдачи (самый сложный)
most_challenging_exam_id = exam_pass_rates.idxmin()
lowest_pass_rate = exam_pass_rates.min()

# Определение экзамена с самым высоким процентом успешной сдачи (самый простой)
easiest_exam_id = exam_pass_rates.idxmax()
highest_pass_rate = exam_pass_rates.max()

# Получение информации о самых сложном и простом экзаменах
most_challenging_exam_info = assessments_df[assessments_df['id_assessment'] == most_challenging_exam_id]
easiest_exam_info = assessments_df[assessments_df['id_assessment'] == easiest_exam_id]
# Форматированный вывод информации о самом сложном и самом простом экзамене

formatted_output = {
    "Самый сложный экзамен": {
        "Код предмета": most_challenging_exam_info.iloc[0]['code_module'],
        "Семестр": most_challenging_exam_info.iloc[0]['code_presentation'],
        "ID экзамена": most_challenging_exam_info.iloc[0]['id_assessment'],
        "Процент успешной сдачи": f"{lowest_pass_rate:.2%}"
    },
    "Самый простой экзамен": {
        "Код предмета": easiest_exam_info.iloc[0]['code_module'],
        "Семестр": easiest_exam_info.iloc[0]['code_presentation'],
        "ID экзамена": easiest_exam_info.iloc[0]['id_assessment'],
        "Процент успешной сдачи": f"{highest_pass_rate:.2%}"
    }
}

print('Ответ:', formatted_output)



Ответ: {'Самый сложный экзамен': {'Код предмета': 'DDD', 'Семестр': '2013B', 'ID экзамена': 25340, 'Процент успешной сдачи': '83.72%'}, 'Самый простой экзамен': {'Код предмета': 'DDD', 'Семестр': '2014B', 'ID экзамена': 25361, 'Процент успешной сдачи': '92.56%'}}


In [5]:
# Задача 3: Определение среднего срока сдачи экзаменов по каждому предмету.

# Объединение данных о сдаче экзаменов студентами с данными о курсах для включения даты начала семестра
student_exams_with_course_df = pd.merge(student_exams_df, courses_df, on=['code_module', 'code_presentation'])

# Фильтрация для учета только успешно сданных экзаменов
passed_exams_df = student_exams_with_course_df[student_exams_with_course_df['passed'] == True]

# Создание копии DataFrame перед изменением данных для избежания предупреждений
passed_exams_df_corrected = passed_exams_df.copy()

# Расчет среднего времени сдачи экзамена (в днях от начала семестра) для каждого предмета
passed_exams_df_corrected['days_to_pass'] = passed_exams_df_corrected['date_submitted']
average_days_to_pass_corrected = passed_exams_df_corrected.groupby('code_module')['days_to_pass'].mean()

print('Ответ', average_days_to_pass_corrected.round(2))


Ответ code_module
CCC    239.35
DDD    237.98
Name: days_to_pass, dtype: float64


In [6]:
student_exams_with_course_df

Unnamed: 0,id_assessment,id_student,date_submitted,is_banked,score,code_module,code_presentation,assessment_type,date,weight,passed,module_presentation_length
0,24290,558914,230,0,32.0,CCC,2014B,Exam,,100.0,False,241
1,24290,559706,234,0,78.0,CCC,2014B,Exam,,100.0,True,241
2,24290,559770,230,0,54.0,CCC,2014B,Exam,,100.0,True,241
3,24290,560114,230,0,64.0,CCC,2014B,Exam,,100.0,True,241
4,24290,560311,234,0,100.0,CCC,2014B,Exam,,100.0,True,241
...,...,...,...,...,...,...,...,...,...,...,...,...
4954,25368,652680,243,0,91.0,DDD,2014J,Exam,,100.0,True,262
4955,25368,652732,249,0,47.0,DDD,2014J,Exam,,100.0,True,262
4956,25368,652965,242,0,87.0,DDD,2014J,Exam,,100.0,True,262
4957,25368,653051,242,0,27.0,DDD,2014J,Exam,,100.0,False,262


In [7]:
# Задача 4: Выявление самых популярных предметов и предметов с самым большим оттоком студентов.

# Подсчет количества уникальных регистраций на каждый курс
unique_registrations_per_course = student_registration_df.groupby('code_module')['id_student'].nunique()

# Определение ТОП-3 самых популярных курсов на основе уникальных регистраций
top_3_popular_courses = unique_registrations_per_course.sort_values(ascending=False).head(3)

# Выделение студентов, которые отменили регистрацию и не регистрировались повторно
dropped_out_students = student_registration_df[student_registration_df['date_unregistration'].notnull()]
unique_dropout_students = dropped_out_students.drop_duplicates(subset=['id_student'], keep=False)

# Подсчет доли отписавшихся студентов для каждого курса
dropout_rate_per_course = unique_dropout_students.groupby('code_module')['id_student'].nunique() / unique_registrations_per_course

# Определение ТОП-3 курсов с самым большим оттоком
top_3_courses_with_highest_dropout_rate = dropout_rate_per_course.sort_values(ascending=False).head(3)


print('Топ 3 самых популярных предмета', top_3_popular_courses)
print('Топ 3 предмета с самым большим оттоком', top_3_courses_with_highest_dropout_rate)


Топ 3 самых популярных предмета code_module
BBB    7692
FFF    7397
DDD    5848
Name: id_student, dtype: int64
Топ 3 предмета с самым большим оттоком code_module
CCC    0.314985
DDD    0.300787
BBB    0.290952
Name: id_student, dtype: float64


In [8]:
# Задача 5: Анализ завершаемости курсов и средних сроков сдачи курсов за период с начала 2013 по конец 2014 года.
# Фильтрация данных для периода с начала 2013 по конец 2014 года
all_relevant_presentations = ['2013B', '2013J', '2014B', '2014J']
relevant_courses = courses_df[courses_df['code_presentation'].isin(all_relevant_presentations)]

# Объединение данных об экзаменах и курсах
student_exams_combined = pd.merge(student_assessment_df, assessments_df, on='id_assessment')
student_exams_with_courses = pd.merge(student_exams_combined, relevant_courses, on=['code_module', 'code_presentation'])

# Включение всех сдач экзаменов (не только успешных)
relevant_student_exams = student_exams_with_courses[
    student_exams_with_courses['code_presentation'].isin(all_relevant_presentations)
]
    
# Расчет завершаемости курсов для каждого семестра
completion_rates = relevant_student_exams.groupby('code_presentation').apply(
    lambda x: (x['score'] >= 40).sum() / len(x)
)

# Расчет среднего времени сдачи экзамена (в днях с начала семестра)
relevant_student_exams['days_to_pass'] = relevant_student_exams['date_submitted']

# Расчет средних сроков сдачи курсов для каждого семестра
average_completion_times = relevant_student_exams.groupby('code_presentation')['days_to_pass'].mean()

# Идентификация семестра с самой низкой завершаемостью и самыми длинными средними сроками сдачи
lowest_completion_rate_semester = completion_rates.idxmin()
longest_completion_time_semester = average_completion_times.idxmax()

print('Завершаемость курсов:',(completion_rates*100).round(2))
print('Средний срок сдачи:', average_completion_times.round(2))
print('Семестр с самой низкой завершаемостью:', lowest_completion_rate_semester)
print('Семестр с самыми длинными средними сроками сдачи:', longest_completion_time_semester)

Завершаемость курсов: code_presentation
2013B    95.51
2013J    96.86
2014B    95.30
2014J    94.50
dtype: float64
Средний срок сдачи: code_presentation
2013B    111.33
2013J    119.86
2014B    114.03
2014J    116.98
Name: days_to_pass, dtype: float64
Семестр с самой низкой завершаемостью: 2014J
Семестр с самыми длинными средними сроками сдачи: 2013J


In [9]:
# Повторное исполнение кода задачи 5 с учетом только экзаменов

# Фильтрация данных для периода с начала 2013 по конец 2014 года
all_relevant_presentations = ['2013B', '2013J', '2014B', '2014J']
relevant_courses = courses_df[courses_df['code_presentation'].isin(all_relevant_presentations)]

# Объединение данных об экзаменах и курсах
student_exams_combined = pd.merge(student_assessment_df, assessments_df, on='id_assessment')
student_exams_with_courses = pd.merge(student_exams_combined, relevant_courses, on=['code_module', 'code_presentation'])

# Ограничение данных только экзаменами
relevant_student_exams = student_exams_with_courses[
    (student_exams_with_courses['code_presentation'].isin(all_relevant_presentations)) &
    (student_exams_with_courses['assessment_type'] == 'Exam')
]

# Расчет завершаемости курсов для каждого семестра
completion_rates = relevant_student_exams.groupby('code_presentation').apply(
    lambda x: (x['score'] >= 40).sum() / len(x)
)

# Расчет среднего времени сдачи экзамена (в днях с начала семестра)
relevant_student_exams['days_to_pass'] = relevant_student_exams['date_submitted'] - 0

# Расчет средних сроков сдачи курсов для каждого семестра
average_completion_times = relevant_student_exams.groupby('code_presentation')['days_to_pass'].mean()

# Идентификация семестра с самой низкой завершаемостью и самыми длинными средними сроками сдачи
lowest_completion_rate_semester = completion_rates.idxmin()
longest_completion_time_semester = average_completion_times.idxmax()

# Вывод результатов
print('Завершаемость курсов:', (completion_rates * 100).round(2))
print('Средний срок сдачи:', average_completion_times.round(2))
print('Семестр с самой низкой завершаемостью:', lowest_completion_rate_semester)
print('Семестр с самыми длинными средними сроками сдачи:', longest_completion_time_semester)


Завершаемость курсов: code_presentation
2013B    83.72
2013J    90.70
2014B    90.40
2014J    87.87
dtype: float64
Средний срок сдачи: code_presentation
2013B    230.18
2013J    239.51
2014B    232.99
2014J    243.67
Name: days_to_pass, dtype: float64
Семестр с самой низкой завершаемостью: 2013B
Семестр с самыми длинными средними сроками сдачи: 2014J


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


In [10]:
# Задача 6:Сбор информации для каждого id_student для RFM-анализа

# R - Среднее время сдачи экзамена (Recency), уже рассчитанное в задаче 3
R_metric = relevant_student_exams.groupby('id_student')['days_to_pass'].mean()

# Определение всех попыток сдачи экзаменов
all_exam_attempts = student_exams_with_courses[student_exams_with_courses['assessment_type'] == 'Exam']

# F - Доля сданных экзаменов от общего числа попыток сдачи (Frequency), похожее на расчет в задаче 2
# Подсчет успешных попыток сдачи экзаменов
successful_attempts = all_exam_attempts[all_exam_attempts['score'] >= 40].groupby('id_student').size()
# Подсчет всех попыток сдачи экзаменов
all_attempts = all_exam_attempts.groupby('id_student').size()
# Расчет доли успешных попыток (Frequency)
F_metric = successful_attempts / all_attempts

# M - Средний балл за экзамен (Monetary), включая неуспешные попытки
M_metric = student_exams_with_courses[student_exams_with_courses['assessment_type'] == 'Exam']\
    .groupby('id_student')['score'].mean()

# Объединение метрик в один DataFrame
rfm_data = pd.DataFrame({
    'Recency': R_metric,
    'Frequency': F_metric,
    'Monetary': M_metric
}).reset_index()

# Удаление пропусков в данных и создание копии воизбежании предупреждения
rfm_data_cleaned = rfm_data.dropna().copy()


# Перезапуск исправленного кода задачи 6 с учетом уникальных значений Frequency

# Определение максимального количества уникальных групп для Frequency
unique_freq_values = rfm_data_cleaned['Frequency'].nunique()
freq_labels = range(1, unique_freq_values)

# Присвоение рангов с учетом уникальных значений
rfm_data_cleaned['R_rank'] = pd.qcut(rfm_data_cleaned['Recency'], 5, labels=[5, 4, 3, 2, 1])
rfm_data_cleaned['F_rank'] = pd.qcut(rfm_data_cleaned['Frequency'], unique_freq_values, labels=freq_labels, duplicates='drop')
rfm_data_cleaned['M_rank'] = pd.qcut(rfm_data_cleaned['Monetary'], 5, labels=[1, 2, 3, 4, 5])

# Создание RFM-сегментов путем сцепки меток рангов
rfm_data_cleaned['RFM_segment'] = rfm_data_cleaned['R_rank'].astype(str) + rfm_data_cleaned['F_rank'].astype(str) + rfm_data_cleaned['M_rank'].astype(str)

rfm_data_cleaned.sort_values('RFM_segment')


Unnamed: 0,id_student,Recency,Frequency,Monetary,R_rank,F_rank,M_rank,RFM_segment
3897,687023,244.0,1.0,44.0,1,1,1,111
3463,645698,245.0,1.0,44.0,1,1,1,111
2449,595514,244.0,1.0,46.0,1,1,1,111
3947,689759,244.0,1.0,53.0,1,1,1,111
3673,657352,245.0,1.0,48.0,1,1,1,111
...,...,...,...,...,...,...,...,...
3323,634128,230.0,1.0,92.0,5,1,5,515
3315,633942,230.0,1.0,100.0,5,1,5,515
2457,595847,230.0,1.0,94.0,5,1,5,515
4267,2064873,230.0,1.0,94.0,5,1,5,515
