# Описание данных

1. Assessments.csv — файл содержит информацию об оценках в тесте. Обычно каждый предмет в семестре включает ряд тестов с оценками, за которыми следует заключительный экзаменационный тест (экзамен).

code_module — идентификационный код предмета.

code_presentation — семестр (Идентификационный код).

id_assessment — тест (Идентификационный номер ассессмента).

assessment_type — тип теста. Существуют три типа оценивания: оценка преподавателя (TMA), компьютерная оценка (СМА), экзамен по курсу (Exam).

date — информация об окончательной дате сдачи теста. Рассчитывается как количество дней с момента начала семестра. Дата начала семестра имеет номер 0 (ноль).

weight — вес теста в % в оценке за курс. Обычно экзамены рассматриваются отдельно и имеют вес 100%. Сумма всех остальных оценок составляет 100%.

2. Сourses.csv — файл содержит список предметов по семестрам.

code_module — предмет (идентификационный код).

code_presentation — семестр (идентификационный код).

module_presentation_length — продолжительность семестра в днях.

3. StudentAssessment.csv — файл содержит результаты тестов студентов. Если учащийся не отправляет работу на оценку, результат не записывается в таблицу.

id_assessment — тест (идентификационный номер).

id_student — идентификационный номер студента.

date_submitted — дата сдачи теста студентом, измеряемая как количество дней с начала семестра.

is_banked — факт перезачета теста с прошлого семестра (иногда курсы перезачитывают студентам, вернувшимся из академического отпуска).
 
score — оценка учащегося в этом тесте. Диапазон составляет от 0 до 100. Оценка ниже 40 неудачная/неуспешная сдача теста.

4. StudentRegistration.csv — этот файл содержит информацию о времени, когда студент зарегистрировался для прохождения курса в семестре.

code_module — предмет (идентификационный код).

code_presentation — семестр (идентификационный код).

id_student — идентификационный номер студента.

date_registration — дата регистрации студента. Это количество дней, измеренное от начала семестра. Например, отрицательное значение -30 означает, что студент зарегистрировался на прохождение курса за 30 дней до его начала.

date_unregistration — дата отмены регистрации студента с предмета. У студентов, окончивших курс, это поле остается пустым.

# Откроем файлы с данными, изучим общую информацию и подготовим данные


In [416]:
import pandas as pd
import numpy as np

In [417]:
# Прочитаем данные и сохраним их в DF

assessments = pd.read_csv('assessments.csv')
courses = pd.read_csv('courses.csv')
studentAssessment = pd.read_csv('studentAssessment.csv')
studentRegistration = pd.read_csv('studentRegistration.csv')

In [418]:
# Напишем функцию для обзора DF
def df_review(df):
    display(df.head())
    print('------------------------------------------------------------------------------------------------------')
    print(df.info())
    print('------------------------------------------------------------------------------------------------------')
    print(df.describe())
    print('------------------------------------------------------------------------------------------------------')    
    print(df.isna().sum())
    print('------------------------------------------------------------------------------------------------------')    
    print(df.duplicated().sum())

In [419]:
df_review(assessments)

Unnamed: 0,code_module,code_presentation,id_assessment,assessment_type,date,weight
0,AAA,2013J,1752,TMA,19.0,10.0
1,AAA,2013J,1753,TMA,54.0,20.0
2,AAA,2013J,1754,TMA,117.0,20.0
3,AAA,2013J,1755,TMA,166.0,20.0
4,AAA,2013J,1756,TMA,215.0,30.0


------------------------------------------------------------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 206 entries, 0 to 205
Data columns (total 6 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   code_module        206 non-null    object 
 1   code_presentation  206 non-null    object 
 2   id_assessment      206 non-null    int64  
 3   assessment_type    206 non-null    object 
 4   date               195 non-null    float64
 5   weight             206 non-null    float64
dtypes: float64(2), int64(1), object(3)
memory usage: 9.8+ KB
None
------------------------------------------------------------------------------------------------------
       id_assessment        date      weight
count     206.000000  195.000000  206.000000
mean    26473.975728  145.005128   20.873786
std     10098.625521   76.001119   30.384224
min      1752.000000   12.000000    0.000000
25%     15023.

In [420]:
df_review(courses)

Unnamed: 0,code_module,code_presentation,module_presentation_length
0,AAA,2013J,268
1,AAA,2014J,269
2,BBB,2013J,268
3,BBB,2014J,262
4,BBB,2013B,240


------------------------------------------------------------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22 entries, 0 to 21
Data columns (total 3 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   code_module                 22 non-null     object
 1   code_presentation           22 non-null     object
 2   module_presentation_length  22 non-null     int64 
dtypes: int64(1), object(2)
memory usage: 656.0+ bytes
None
------------------------------------------------------------------------------------------------------
       module_presentation_length
count                   22.000000
mean                   255.545455
std                     13.654677
min                    234.000000
25%                    241.000000
50%                    261.500000
75%                    268.000000
max                    269.000000
----------------------------------------------

In [421]:
df_review(studentAssessment)

Unnamed: 0,id_assessment,id_student,date_submitted,is_banked,score
0,1752,11391,18,0,78.0
1,1752,28400,22,0,70.0
2,1752,31604,17,0,72.0
3,1752,32885,26,0,69.0
4,1752,38053,19,0,79.0


------------------------------------------------------------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 173912 entries, 0 to 173911
Data columns (total 5 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   id_assessment   173912 non-null  int64  
 1   id_student      173912 non-null  int64  
 2   date_submitted  173912 non-null  int64  
 3   is_banked       173912 non-null  int64  
 4   score           173739 non-null  float64
dtypes: float64(1), int64(4)
memory usage: 6.6 MB
None
------------------------------------------------------------------------------------------------------
       id_assessment    id_student  date_submitted      is_banked  \
count  173912.000000  1.739120e+05   173912.000000  173912.000000   
mean    26553.803556  7.051507e+05      116.032942       0.010977   
std      8829.784254  5.523952e+05       71.484148       0.104194   
min      1752.000000  6.516000e

In [422]:
df_review(studentRegistration)

Unnamed: 0,code_module,code_presentation,id_student,date_registration,date_unregistration
0,AAA,2013J,11391,-159.0,
1,AAA,2013J,28400,-53.0,
2,AAA,2013J,30268,-92.0,12.0
3,AAA,2013J,31604,-52.0,
4,AAA,2013J,32885,-176.0,


------------------------------------------------------------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32593 entries, 0 to 32592
Data columns (total 5 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   code_module          32593 non-null  object 
 1   code_presentation    32593 non-null  object 
 2   id_student           32593 non-null  int64  
 3   date_registration    32548 non-null  float64
 4   date_unregistration  10072 non-null  float64
dtypes: float64(2), int64(1), object(2)
memory usage: 1.2+ MB
None
------------------------------------------------------------------------------------------------------
         id_student  date_registration  date_unregistration
count  3.259300e+04       32548.000000         10072.000000
mean   7.066877e+05         -69.411300            49.757645
std    5.491673e+05          49.260522            82.460890
min    3.733000e+03        -3

Вывод: Прочитали файлы и сохранили в соответствующие переменные. Посмотрели общую информацию. Названия столбцов преведены к общему типу. Тип данных в столбцах, где указана дата оствляем(указаны дни). Пропуски корректы из-за специфики данных. Дубликаты отсутствуют.

# Интересующие нас вопросы в данных :


1. Сколько студентов успешно сдали только один курс? (Успешная сдача — это зачёт по курсу на экзамене)

2. Найдите и отсортируйте id экзаменов в рамках курса по возрастанию уровня завершаемости*.

3. Выявите самые популярные предметы (ТОП-3) по количеству регистраций на них.

4. Выявите предметы с самым большим оттоком (ТОП-3).

5. В период с начала 2013 по конец 2014 выявите семестр с самой низкой завершаемостью курсов.

6. В период с начала 2013 по конец 2014 выявите семестр с самыми долгими средними сроками сдачи курсов.

7. Постройте адаптированные RFM-кластеры студентов, чтобы качественно оценить свою аудиторию. В адаптированной кластеризации можно выбрать следующие метрики:

R — среднее время сдачи одного экзамена,

F — завершаемость курсов,

M — среднее количество баллов, получаемое за экзамен.

-----------------------------------------------------------------------------------------------------------------------

1. Сколько студентов успешно сдали только один курс? (Успешная сдача — это зачёт по курсу на экзамене)

In [423]:
# Объединим, интересующие нас, датафреймы(studentAssessment и assessments)
stude_sem = pd.merge(studentAssessment,assessments,on = 'id_assessment', how = 'inner')

In [424]:
stude_sem.head()

Unnamed: 0,id_assessment,id_student,date_submitted,is_banked,score,code_module,code_presentation,assessment_type,date,weight
0,1752,11391,18,0,78.0,AAA,2013J,TMA,19.0,10.0
1,1752,28400,22,0,70.0,AAA,2013J,TMA,19.0,10.0
2,1752,31604,17,0,72.0,AAA,2013J,TMA,19.0,10.0
3,1752,32885,26,0,69.0,AAA,2013J,TMA,19.0,10.0
4,1752,38053,19,0,79.0,AAA,2013J,TMA,19.0,10.0


In [425]:
# Отберем только итоговые и сданные экзамены курса. Сгруппируем по студентам. Найдем студентов, которые сдали только 1 экзамен.
stude_sem\
    .query('weight == 100 and score >= 40')\
    .groupby('id_student',as_index = False)\
    .agg({'id_assessment':'nunique'})\
    .rename(columns = {'id_assessment':'count_of_exams_passed'})\
    .query('count_of_exams_passed == 1').shape

(3802, 2)

Вывод: 3802 успешно сдали только один курс

-----------------------------------------------------------------------------------------------------------------------

2. Найдите и отсортируйте id экзаменов в рамках курса по возрастанию уровня завершаемости*.

In [426]:
# С помощью lambda функции разделим экзамены на успешно сданные и не сданные.
stude_sem['result'] = stude_sem['score'].apply(lambda x:'passed' if x >= 40 else 'failed')

In [427]:
stude_sem.head()

Unnamed: 0,id_assessment,id_student,date_submitted,is_banked,score,code_module,code_presentation,assessment_type,date,weight,result
0,1752,11391,18,0,78.0,AAA,2013J,TMA,19.0,10.0,passed
1,1752,28400,22,0,70.0,AAA,2013J,TMA,19.0,10.0,passed
2,1752,31604,17,0,72.0,AAA,2013J,TMA,19.0,10.0,passed
3,1752,32885,26,0,69.0,AAA,2013J,TMA,19.0,10.0,passed
4,1752,38053,19,0,79.0,AAA,2013J,TMA,19.0,10.0,passed


In [428]:
# Сделаем сводную таблицу и посчитаем сколько всего студентов сдали/не сдали конкретный экзамен. 
failed_passed = stude_sem\
                .query('weight == 100')\
                .pivot_table(index = 'id_assessment', columns = 'result', values = 'id_student',aggfunc='nunique')\
                .reset_index()
failed_passed.head()

result,id_assessment,failed,passed
0,24290,83,664
1,24299,149,1019
2,25340,98,504
3,25354,90,878
4,25361,39,485


In [429]:
# Рассчитаем завршаемость экзамена с помощью формулы:
# завершаемость = кол-во успешных экзаменов/кол-во всех попыток сдать экзамен * 100.
failed_passed['completion_rate'] = failed_passed['passed'] / (failed_passed['passed'] + failed_passed['failed']) * 100

In [430]:
# Отсортируем по возрастанию завершаемости
failed_passed.sort_values('completion_rate')

result,id_assessment,failed,passed,completion_rate
2,25340,98,504,83.72093
1,24299,149,1019,87.243151
5,25368,108,842,88.631579
0,24290,83,664,88.888889
3,25354,90,878,90.702479
4,25361,39,485,92.557252


Вывод: экзамен 25361 имеет самый высокий процент завершиемости.

-----------------------------------------------------------------------------------------------------------------------

3. Выявите самые популярные предметы (ТОП-3) по количеству регистраций на них.

In [431]:
studentRegistration.head()

Unnamed: 0,code_module,code_presentation,id_student,date_registration,date_unregistration
0,AAA,2013J,11391,-159.0,
1,AAA,2013J,28400,-53.0,
2,AAA,2013J,30268,-92.0,12.0
3,AAA,2013J,31604,-52.0,
4,AAA,2013J,32885,-176.0,


In [432]:
# Отфильтруем студентов, которые не отменяли регистрацию. Посчитаем ТОП-3 предметов по кол-ву регистраций.
studentRegistration\
    .query('date_unregistration != "NaN"')\
    .groupby('code_module',as_index = False)\
    .agg({'id_student':'nunique'})\
    .rename(columns = {'id_student':'count_student'})\
    .sort_values('count_student',ascending = False)\
    .head(3)

Unnamed: 0,code_module,count_student
1,BBB,2314
5,FFF,2249
3,DDD,2065


Вывод: Самыми популярными предметами по регистрации оказались (BBB - 1, FFF - 2, DDD - 3).

-----------------------------------------------------------------------------------------------------------------------

4. Выявите предметы с самым большим оттоком (ТОП-3).

In [433]:
# Отфильтруем студентов, которые отменили регистрацию. Посчитаем ТОП-3 предметов с самым большим оттоком.
studentRegistration\
    .query('date_unregistration == "NaN"')\
    .groupby('code_module',as_index = False)\
    .agg({'id_student':'nunique'})\
    .rename(columns = {'id_student':'count_student'})\
    .sort_values('count_student',ascending = False)\
    .head(3)

Unnamed: 0,code_module,count_student
1,BBB,5512
5,FFF,5356
3,DDD,4009


Вывод: ТОП-3 предметов с самым большим оттоком совпали с ТОП-3 предметов по кол-ву регистраций.

-----------------------------------------------------------------------------------------------------------------------

5. В период с начала 2013 по конец 2014 выявите семестр с самой низкой завершаемостью курсов.

In [434]:
# Выведем уникальные семестры. В данных присутсвуют семестры только 2013 и 2014 годов, фильтровать данные не нужно.
stude_sem['code_presentation'].unique()

array(['2013J', '2014J', '2013B', '2014B'], dtype=object)

In [435]:
# Сделаем сводную таблицу и посчитаем сколько всего студентов сдали/не сдали конкретный семестр. 
failed_passed_presentation = stude_sem\
                             .query('weight == 100')\
                             .pivot_table(index = 'code_presentation', columns = 'result', values = 'id_student',aggfunc='nunique')\
                             .reset_index()
failed_passed_presentation.head()

result,code_presentation,failed,passed
0,2013B,98,504
1,2013J,90,878
2,2014B,122,1140
3,2014J,257,1814


In [436]:
# Рассчитаем завршаемость экзамена с помощью формулы:
# завершаемость = кол-во успешных экзаменов/кол-во всех попыток сдать экзамен * 100.
failed_passed_presentation['completion_rate'] = failed_passed_presentation['passed'] / (failed_passed_presentation['passed'] + failed_passed_presentation['failed']) * 100

In [437]:
failed_passed_presentation

result,code_presentation,failed,passed,completion_rate
0,2013B,98,504,83.72093
1,2013J,90,878,90.702479
2,2014B,122,1140,90.332805
3,2014J,257,1814,87.590536


Вывод: В период с начала 2013 по конец 2014 семестр с самой низкой завершаемостью курсов - 2013B

-----------------------------------------------------------------------------------------------------------------------

6. В период с начала 2013 по конец 2014 выявите семестр с самыми долгими средними сроками сдачи курсов.

In [438]:
# Отсортируюем по сданным итоговым экзаменам и посчитаем среднее время на сдачу семестра.
stude_sem\
    .query('weight == 100 and result == "passed"')\
    .groupby('code_presentation',as_index = False)\
    .agg({'date_submitted':'mean'})\
    .sort_values('date_submitted',ascending = False)

Unnamed: 0,code_presentation,date_submitted
3,2014J,243.680279
1,2013J,239.509112
2,2014B,232.997389
0,2013B,230.164683


Вывод: В период с начала 2013 по конец 2014 семестр с самыми долгими средними сроками сдачи курсов -2014J

-----------------------------------------------------------------------------------------------------------------------

7. Постройте адаптированные RFM-кластеры студентов, чтобы качественно оценить свою аудиторию. В адаптированной кластеризации можно выбрать следующие метрики:

R — среднее время сдачи одного экзамена,

F — завершаемость курсов,

M — среднее количество баллов, получаемое за экзамен.

In [439]:
stude_sem.head()

Unnamed: 0,id_assessment,id_student,date_submitted,is_banked,score,code_module,code_presentation,assessment_type,date,weight,result
0,1752,11391,18,0,78.0,AAA,2013J,TMA,19.0,10.0,passed
1,1752,28400,22,0,70.0,AAA,2013J,TMA,19.0,10.0,passed
2,1752,31604,17,0,72.0,AAA,2013J,TMA,19.0,10.0,passed
3,1752,32885,26,0,69.0,AAA,2013J,TMA,19.0,10.0,passed
4,1752,38053,19,0,79.0,AAA,2013J,TMA,19.0,10.0,passed


In [440]:
# Расчитаем R — среднее время сдачи одного экзамена.
R= stude_sem\
    .query('weight == 100')\
    .groupby('id_student',as_index = False)\
    .agg({'date_submitted':'mean'})\
    .rename(columns = {'date_submitted':'recency'})\
    .sort_values('recency')

In [441]:
R.head()

Unnamed: 0,id_student,recency
666,391185,229.0
473,333856,229.0
1249,512080,229.0
4242,1982845,229.0
4070,957467,229.0


In [442]:
# M — среднее количество баллов, получаемое за экзамен.
M = stude_sem\
    .query('weight == 100')\
    .groupby('id_student',as_index = False)\
    .agg({'score':'mean'})\
    .rename(columns = {'score':'monetary'})\
    .sort_values('monetary')

In [443]:
M.head()

Unnamed: 0,id_student,monetary
75,81351,0.0
137,131152,0.0
1736,556660,0.0
4529,2588543,4.0
492,338034,7.0


In [444]:
# Расчитаем F —  завершаемость курсов.
F = stude_sem\
        .query('weight == 100')\
        .pivot_table(index = 'id_student', columns = 'result', values = 'id_assessment',aggfunc='nunique')\
        .reset_index()\
        .fillna(0)

In [445]:
F['completion_rate'] = F['passed'] / (F['passed'] + F['failed']) * 100

In [446]:
F = F[['id_student', 'completion_rate']]\
        .rename(columns = {'completion_rate':'frequency'})\


In [447]:
F.head()

result,id_student,frequency
0,23698,100.0
1,24213,100.0
2,27116,100.0
3,28046,100.0
4,28787,100.0


In [448]:
# Объединим все в один датафрейм rfm
rf = pd.merge(R, M,on = 'id_student',how = 'inner')
rfm = pd.merge(rf, F,on = 'id_student',how = 'inner')

In [449]:
rfm.head()

Unnamed: 0,id_student,recency,monetary,frequency
0,391185,229.0,49.0,100.0
1,333856,229.0,47.0,100.0
2,512080,229.0,33.0,0.0
3,1982845,229.0,53.0,100.0
4,957467,229.0,53.0,100.0


Будем придерживаться такой логики:

1) по recency можно получить 2, если значение recency меньше либо равно медиане по recency. В остальных случаях — 1.

2) по frequency можно получить 1, если значение frequency меньше 50. Можно получить 2, если значение по frequency меньше 100. Можно получить 3 в остальных случаях.

3) по monetary можно получить 1, если значение monetary меньше 40. Можно получить 2, если значение по monetary меньше либо равно 80. Можно получить 3 в остальных случаях

In [450]:
r_median = rfm['recency'].median()

In [451]:
rfm['R_score'] = rfm['recency'].apply(lambda x:'2' if x <= r_median else '1')

In [452]:
rfm['F_score'] = rfm['frequency'].apply(lambda x:'1' if x < 50 else ('2' if x<100 else '3'))

In [453]:
rfm['M_score'] = rfm['monetary'].apply(lambda x:'1' if x < 40 else ('2' if x<=80 else '3'))

In [455]:
rfm['RFM'] = rfm['R_score'].astype(str) + rfm['F_score'].astype(str) + rfm['M_score'].astype(str)

In [459]:
rfm[rfm['RFM'] == '233']

Unnamed: 0,id_student,recency,monetary,frequency,R_score,F_score,M_score,RFM
31,483818,229.0,82.0,100.0,2,3,3,233
34,487711,229.0,98.0,100.0,2,3,3,233
58,2537695,229.0,87.0,100.0,2,3,3,233
63,252149,229.0,91.0,100.0,2,3,3,233
90,556774,229.0,91.0,100.0,2,3,3,233
...,...,...,...,...,...,...,...,...
2411,586497,241.0,98.0,100.0,2,3,3,233
2413,497994,241.0,82.0,100.0,2,3,3,233
2418,583293,241.0,99.0,100.0,2,3,3,233
2424,342100,241.0,87.0,100.0,2,3,3,233


Вывод: Сформировали RFM-кластеры студентов, чтобы качественно оценить свою аудиторию.Это может привести к улучшению успеваемости студентов и повышению их удовлетворенности учебным процессом.