### Подключение модулей

In [1]:
import pandas as pd
import seaborn as sns
import numpy as np

### Загрузка данных из облака в датафреймы

In [2]:
assessments = pd.read_csv('assessments.csv')
courses = pd.read_csv('courses.csv')
studentAssessment = pd.read_csv('studentAssessment.csv')
studentRegistration = pd.read_csv('studentRegistration.csv')

### Изучение данных
#### assessments - содержит информацию об оценках в тесте. Обычно каждый предмет в семестре включает ряд тестов с оценками, за которыми следует заключительный экзаменационный тест (экзамен).
code_module — идентификационный код предмета.

code_presentation — семестр (Идентификационный код).

id_assessment — тест (Идентификационный номер ассессмента).

assessment_type — тип теста. Существуют три типа оценивания: оценка преподавателя (TMA), компьютерная оценка (СМА), экзамен по курсу (Exam).

date — информация об окончательной дате сдачи теста. Рассчитывается как количество дней с момента начала семестра. Дата начала семестра имеет номер 0 (ноль).

weight — вес теста в % в оценке за курс. Обычно экзамены рассматриваются отдельно и имеют вес 100%; сумма всех остальных оценок составляет 100%.

In [3]:
assessments.head()

Unnamed: 0,code_module,code_presentation,id_assessment,assessment_type,date,weight
0,AAA,2013J,1752,TMA,19.0,10.0
1,AAA,2013J,1753,TMA,54.0,20.0
2,AAA,2013J,1754,TMA,117.0,20.0
3,AAA,2013J,1755,TMA,166.0,20.0
4,AAA,2013J,1756,TMA,215.0,30.0


In [4]:
assessments.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 206 entries, 0 to 205
Data columns (total 6 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   code_module        206 non-null    object 
 1   code_presentation  206 non-null    object 
 2   id_assessment      206 non-null    int64  
 3   assessment_type    206 non-null    object 
 4   date               195 non-null    float64
 5   weight             206 non-null    float64
dtypes: float64(2), int64(1), object(3)
memory usage: 9.8+ KB


In [5]:
assessments.nunique()

code_module            7
code_presentation      4
id_assessment        206
assessment_type        3
date                  74
weight                24
dtype: int64

In [6]:
assessments.describe()

Unnamed: 0,id_assessment,date,weight
count,206.0,195.0,206.0
mean,26473.975728,145.005128,20.873786
std,10098.625521,76.001119,30.384224
min,1752.0,12.0,0.0
25%,15023.25,71.0,0.0
50%,25364.5,152.0,12.5
75%,34891.75,222.0,24.25
max,40088.0,261.0,100.0


In [7]:
assessments.duplicated().sum()

0

In [8]:
assessments.isnull().sum()

code_module           0
code_presentation     0
id_assessment         0
assessment_type       0
date                 11
weight                0
dtype: int64

In [9]:
assessments.loc[assessments['date'].isna()]

Unnamed: 0,code_module,code_presentation,id_assessment,assessment_type,date,weight
5,AAA,2013J,1757,Exam,,100.0
11,AAA,2014J,1763,Exam,,100.0
23,BBB,2013B,14990,Exam,,100.0
35,BBB,2013J,15002,Exam,,100.0
47,BBB,2014B,15014,Exam,,100.0
53,BBB,2014J,15025,Exam,,100.0
62,CCC,2014B,24290,Exam,,100.0
63,CCC,2014B,40087,Exam,,100.0
72,CCC,2014J,24299,Exam,,100.0
73,CCC,2014J,40088,Exam,,100.0


In [10]:
assessments[assessments.assessment_type == 'Exam']

Unnamed: 0,code_module,code_presentation,id_assessment,assessment_type,date,weight
5,AAA,2013J,1757,Exam,,100.0
11,AAA,2014J,1763,Exam,,100.0
23,BBB,2013B,14990,Exam,,100.0
35,BBB,2013J,15002,Exam,,100.0
47,BBB,2014B,15014,Exam,,100.0
53,BBB,2014J,15025,Exam,,100.0
62,CCC,2014B,24290,Exam,,100.0
63,CCC,2014B,40087,Exam,,100.0
72,CCC,2014J,24299,Exam,,100.0
73,CCC,2014J,40088,Exam,,100.0


#### Зпишем в date -1 вместо NaN. Это будет признаком того, что дата экзамена не определена.

In [11]:
assessments.date = assessments.date.fillna(-1)

assessments.isnull().sum()

code_module          0
code_presentation    0
id_assessment        0
assessment_type      0
date                 0
weight               0
dtype: int64

#### courses - содержит список предметов по семестрам.
code_module — предмет (идентификационный код).

code_presentation — семестр (идентификационный код).

module_presentation_length — продолжительность семестра в днях.

In [12]:
courses.head()

Unnamed: 0,code_module,code_presentation,module_presentation_length
0,AAA,2013J,268
1,AAA,2014J,269
2,BBB,2013J,268
3,BBB,2014J,262
4,BBB,2013B,240


In [13]:
courses.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22 entries, 0 to 21
Data columns (total 3 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   code_module                 22 non-null     object
 1   code_presentation           22 non-null     object
 2   module_presentation_length  22 non-null     int64 
dtypes: int64(1), object(2)
memory usage: 656.0+ bytes


In [14]:
courses.nunique()

code_module                   7
code_presentation             4
module_presentation_length    7
dtype: int64

In [15]:
courses.describe()

Unnamed: 0,module_presentation_length
count,22.0
mean,255.545455
std,13.654677
min,234.0
25%,241.0
50%,261.5
75%,268.0
max,269.0


In [16]:
courses.duplicated().sum()

0

#### studentAssessment - содержит результаты тестов студентов. Если учащийся не отправляет работу на оценку, результат не записывается в таблицу.
id_assessment — тест (идентификационный номер).

id_student — идентификационный номер студента.

date_submitted — дата сдачи теста студентом, измеряемая как количество дней с начала семестра.

is_banked — факт перезачета теста с прошлого семестра (иногда курсы перезачитывают студентам, вернувшимся из академического отпуска).

score — оценка учащегося в этом тесте. Диапазон составляет от 0 до 100. Оценка ниже 40 неудачная/неуспешная сдача теста.

In [17]:
studentAssessment.head()

Unnamed: 0,id_assessment,id_student,date_submitted,is_banked,score
0,1752,11391,18,0,78.0
1,1752,28400,22,0,70.0
2,1752,31604,17,0,72.0
3,1752,32885,26,0,69.0
4,1752,38053,19,0,79.0


In [18]:
studentAssessment.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 173912 entries, 0 to 173911
Data columns (total 5 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   id_assessment   173912 non-null  int64  
 1   id_student      173912 non-null  int64  
 2   date_submitted  173912 non-null  int64  
 3   is_banked       173912 non-null  int64  
 4   score           173739 non-null  float64
dtypes: float64(1), int64(4)
memory usage: 6.6 MB


In [19]:
studentAssessment.nunique()

id_assessment       188
id_student        23369
date_submitted      312
is_banked             2
score               101
dtype: int64

In [20]:
studentAssessment.describe()

Unnamed: 0,id_assessment,id_student,date_submitted,is_banked,score
count,173912.0,173912.0,173912.0,173912.0,173739.0
mean,26553.803556,705150.7,116.032942,0.010977,75.799573
std,8829.784254,552395.2,71.484148,0.104194,18.798107
min,1752.0,6516.0,-11.0,0.0,0.0
25%,15022.0,504429.0,51.0,0.0,65.0
50%,25359.0,585208.0,116.0,0.0,80.0
75%,34883.0,634498.0,173.0,0.0,90.0
max,37443.0,2698588.0,608.0,1.0,100.0


In [21]:
studentAssessment.duplicated().sum()

0

In [22]:
studentAssessment.isnull().sum()

id_assessment       0
id_student          0
date_submitted      0
is_banked           0
score             173
dtype: int64

In [23]:
studentAssessment.loc[studentAssessment['score'].isna()]

Unnamed: 0,id_assessment,id_student,date_submitted,is_banked,score
215,1752,721259,22,0,
937,1754,260355,127,0,
2364,1760,2606802,180,0,
3358,14984,186780,77,0,
3914,14984,531205,26,0,
...,...,...,...,...,...
148929,34903,582670,241,0,
159251,37415,610738,87,0,
166390,37427,631786,221,0,
169725,37435,648110,62,0,


#### Запишем в score 0 вместо NaN. Это будет признаком того, что студент не сдал тест.

In [24]:
studentAssessment.score = studentAssessment.score.fillna(0)

studentAssessment.isnull().sum()

id_assessment     0
id_student        0
date_submitted    0
is_banked         0
score             0
dtype: int64

#### studentRegistration - содержит информацию о времени, когда студент зарегистрировался для прохождения курса в семестре.
code_module — предмет (идентификационный код).

code_presentation — семестр (идентификационный код)

id_student — идентификационный номер студента.

date_registration — дата регистрации студента. Это количество дней, измеренное от начала семестра (например, отрицательное значение -30 означает, что студент зарегистрировался на прохождение курса за 30 дней до его начала).

date_unregistration — дата отмены регистрации студента с предмета. У студентов, окончивших курс, это поле остается пустым.

In [25]:
studentRegistration.head()

Unnamed: 0,code_module,code_presentation,id_student,date_registration,date_unregistration
0,AAA,2013J,11391,-159.0,
1,AAA,2013J,28400,-53.0,
2,AAA,2013J,30268,-92.0,12.0
3,AAA,2013J,31604,-52.0,
4,AAA,2013J,32885,-176.0,


In [26]:
studentRegistration.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32593 entries, 0 to 32592
Data columns (total 5 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   code_module          32593 non-null  object 
 1   code_presentation    32593 non-null  object 
 2   id_student           32593 non-null  int64  
 3   date_registration    32548 non-null  float64
 4   date_unregistration  10072 non-null  float64
dtypes: float64(2), int64(1), object(2)
memory usage: 1.2+ MB


In [27]:
studentRegistration.nunique()

code_module                7
code_presentation          4
id_student             28785
date_registration        332
date_unregistration      416
dtype: int64

In [28]:
studentRegistration.describe()

Unnamed: 0,id_student,date_registration,date_unregistration
count,32593.0,32548.0,10072.0
mean,706687.7,-69.4113,49.757645
std,549167.3,49.260522,82.46089
min,3733.0,-322.0,-365.0
25%,508573.0,-100.0,-2.0
50%,590310.0,-57.0,27.0
75%,644453.0,-29.0,109.0
max,2716795.0,167.0,444.0


In [29]:
studentRegistration.duplicated().sum()

0

In [30]:
studentRegistration.isnull().sum()

code_module                0
code_presentation          0
id_student                 0
date_registration         45
date_unregistration    22521
dtype: int64

In [31]:
studentRegistration.loc[studentRegistration['date_registration'].isna()]

Unnamed: 0,code_module,code_presentation,id_student,date_registration,date_unregistration
2344,BBB,2013B,630346,,
2538,BBB,2013J,57369,,-1.0
2759,BBB,2013J,342678,,-33.0
5356,BBB,2014B,582496,,-126.0
5490,BBB,2014B,607646,,-38.0
5573,BBB,2014B,614270,,-142.0
6295,BBB,2014B,2409808,,-109.0
6305,BBB,2014B,2439442,,-149.0
8307,BBB,2014J,694001,,-36.0
8975,CCC,2014B,394791,,-61.0


In [32]:
studentRegistration.loc[studentRegistration['date_registration'].isna() & \
                        ~studentRegistration['date_unregistration'].isna()]

Unnamed: 0,code_module,code_presentation,id_student,date_registration,date_unregistration
2538,BBB,2013J,57369,,-1.0
2759,BBB,2013J,342678,,-33.0
5356,BBB,2014B,582496,,-126.0
5490,BBB,2014B,607646,,-38.0
5573,BBB,2014B,614270,,-142.0
6295,BBB,2014B,2409808,,-109.0
6305,BBB,2014B,2439442,,-149.0
8307,BBB,2014J,694001,,-36.0
8975,CCC,2014B,394791,,-61.0
9523,CCC,2014B,575419,,-24.0


#### Уберём те строки, где дата регистрации не указана и курс отменён (дата отмены регистрации не NaN). Такие наблюдения нам точно не нужны.

In [33]:
studentRegistration = studentRegistration.drop(studentRegistration[studentRegistration['date_registration'].isna() & \
                        ~studentRegistration['date_unregistration'].isna()].index)

studentRegistration.loc[studentRegistration['date_registration'].isna() & \
                        ~studentRegistration['date_unregistration'].isna()]

Unnamed: 0,code_module,code_presentation,id_student,date_registration,date_unregistration


#### Запишем в date_registration вместо оставшихся NaN медианное значение. Затем запишем в date_unregistration 500 вместо NaN (500 это больше максимума, взятого из describe). Это будет признаком того, что студент окончил курс.

In [34]:
studentRegistration.date_registration = studentRegistration.date_registration \
                                    .fillna(studentRegistration.date_registration.median())

studentRegistration.date_unregistration = studentRegistration.date_unregistration.fillna(500)

studentRegistration.isnull().sum()

code_module            0
code_presentation      0
id_student             0
date_registration      0
date_unregistration    0
dtype: int64

In [35]:
studentRegistration.head()

Unnamed: 0,code_module,code_presentation,id_student,date_registration,date_unregistration
0,AAA,2013J,11391,-159.0,500.0
1,AAA,2013J,28400,-53.0,500.0
2,AAA,2013J,30268,-92.0,12.0
3,AAA,2013J,31604,-52.0,500.0
4,AAA,2013J,32885,-176.0,500.0


### 0. Оценив задания, я решил добавить новое поле и объединить датафреймы:

#### Введём понятие "курс". Курс - это сущность, объединяющая предмет и семестр.
#### Добавим поле course_id в courses.

In [36]:

courses['course_id'] = courses['code_module'] + courses['code_presentation']

#### Присоединяю courses к assessments, получаю assessments_ext:

In [37]:
assessments_ext = assessments.merge(courses, how = 'inner', on = ['code_module', 'code_presentation'])

#### Затем присоединяю assessments_ext к studentAssessment, получаю studentAssessment_ext

In [38]:
studentAssessment_ext = studentAssessment.merge(assessments_ext, how = 'inner', on = 'id_assessment')

### 1. Сколько студентов успешно сдали только один курс? (Успешная сдача — это зачёт по курсу на экзамене).

#### В данном случае работаем с датафреймом studentAssessment_ext

In [39]:
studentAssessment_ext.head()

Unnamed: 0,id_assessment,id_student,date_submitted,is_banked,score,code_module,code_presentation,assessment_type,date,weight,module_presentation_length,course_id
0,1752,11391,18,0,78.0,AAA,2013J,TMA,19.0,10.0,268,AAA2013J
1,1752,28400,22,0,70.0,AAA,2013J,TMA,19.0,10.0,268,AAA2013J
2,1752,31604,17,0,72.0,AAA,2013J,TMA,19.0,10.0,268,AAA2013J
3,1752,32885,26,0,69.0,AAA,2013J,TMA,19.0,10.0,268,AAA2013J
4,1752,38053,19,0,79.0,AAA,2013J,TMA,19.0,10.0,268,AAA2013J


#### В условии успешная сдача - это зачёт на экзамне. Зачёт получают при score не меньше 40. Группируем по студенту, у каждого студента считаем количество уникальных курсов, берём из полученных значений только единицы (условие - сдал только один курс), считаем размер датафрейма, выводим количество строк.

In [40]:
studentAssessment_ext.query("assessment_type == 'Exam' and score >= 40") \
    .groupby('id_student', as_index = False)['course_id'].nunique() \
    .query('course_id == 1').shape[0]

3802

#### Ответ: 3802 студента успешно сдали только один курс.

### 2. Выяви самый сложный и самый простой экзамен: найди курсы и экзамены в рамках курса, которые обладают самой низкой и самой высокой завершаемостью*.
*завершаемость = кол-во успешных экзаменов / кол-во всех попыток сдать экзамен

#### Работаем с studentAssessment_ext

In [41]:
studentAssessment_ext.head()

Unnamed: 0,id_assessment,id_student,date_submitted,is_banked,score,code_module,code_presentation,assessment_type,date,weight,module_presentation_length,course_id
0,1752,11391,18,0,78.0,AAA,2013J,TMA,19.0,10.0,268,AAA2013J
1,1752,28400,22,0,70.0,AAA,2013J,TMA,19.0,10.0,268,AAA2013J
2,1752,31604,17,0,72.0,AAA,2013J,TMA,19.0,10.0,268,AAA2013J
3,1752,32885,26,0,69.0,AAA,2013J,TMA,19.0,10.0,268,AAA2013J
4,1752,38053,19,0,79.0,AAA,2013J,TMA,19.0,10.0,268,AAA2013J


#### Фильтруем по типу Exam, группируем по course_id и id_assessment, заносим в список значения score

In [42]:
course_completeness = studentAssessment_ext.query("assessment_type == 'Exam'") \
    .groupby(['course_id', 'id_assessment'])['score'].apply(list).reset_index(name='score')
course_completeness

Unnamed: 0,course_id,id_assessment,score
0,CCC2014B,24290,"[32.0, 78.0, 54.0, 64.0, 100.0, 92.0, 84.0, 42..."
1,CCC2014J,24299,"[44.0, 94.0, 24.0, 70.0, 32.0, 38.0, 68.0, 54...."
2,DDD2013B,25340,"[40.0, 13.0, 73.0, 40.0, 49.0, 33.0, 51.0, 69...."
3,DDD2013J,25354,"[69.0, 67.0, 84.0, 33.0, 64.0, 58.0, 44.0, 53...."
4,DDD2014B,25361,"[58.0, 36.0, 87.0, 73.0, 51.0, 84.0, 91.0, 76...."
5,DDD2014J,25368,"[60.0, 100.0, 56.0, 67.0, 71.0, 60.0, 82.0, 9...."


#### Первым циклом проходимся по course_completeness, делим количество результатов с баллом >= 40 на общее количество результатов, получаем завершаемость. Находим MIN, MAX завершаемость; записываем завершаемость в словарь result. 
#### Вторым циклом выводим курс/экзамен с самой низкой и самой высокой завершаемостью.

In [43]:
completeness_min = 100
completeness_max = 0
result = {}

for row in course_completeness[:course_completeness.shape[0]].itertuples():
    score_passed = list(filter(lambda x: (x >= 40), row.score))
    completeness = round(100 * len(score_passed)/len(row.score))
    if completeness > completeness_max:
        completeness_max = completeness
    if completeness < completeness_min:
        completeness_min = completeness
    result[row.course_id + '/' + str(row.id_assessment)] = completeness

for key in result:
    if result[key] == completeness_min:
        print(f'Completeness MIN: Course/Assessment {key} has completeness {result[key]}.')
    elif result[key] == completeness_max:
        print(f'Completeness MAX: Course/Assessment {key} has completeness {result[key]}.')

Completeness MIN: Course/Assessment DDD2013B/25340 has completeness 84.
Completeness MAX: Course/Assessment DDD2014B/25361 has completeness 93.


#### Ответ: самый сложный курс/экзамен DDD2013B/25340, самый простой курс/экзамен DDD2014B/25361.

### 3. По каждому предмету определи средний срок сдачи экзаменов (под сдачей понимаем последнее успешное прохождение экзамена студентом).

#### Работаем с studentAssessment_ext. 
#### "Под сдачей понимаем последнее успешное прохождение экзамена студентом" -  перефразируем в "под сдачей понимаем успешное прохождение экзамена студентом", так как студент не будет повторно сдавать успешно сданный экзамен. Сделаем фильтрацию по успешной сдаче экзамена, как в 1 задании, сгруппируем по предмету, найдём среднее от даты сдачи экзамена студентом, округлим до целого.

In [44]:
studentAssessment_ext.query("assessment_type == 'Exam' and score >= 40") \
                .groupby('code_module')['date_submitted'].mean().round()

code_module
CCC    239.0
DDD    238.0
Name: date_submitted, dtype: float64

#### Где же предметы AAA, BBB, EEE, FFF, GGG? Их нет.

In [45]:
studentAssessment_ext.query("assessment_type == 'Exam' and code_module in ['AAA', 'BBB', 'EEE', 'FFF', 'GGG']")

Unnamed: 0,id_assessment,id_student,date_submitted,is_banked,score,code_module,code_presentation,assessment_type,date,weight,module_presentation_length,course_id


#### Ответ: средний срок сдачи экзаменов по предметам 'CCC' и 'DDD' равен 239 и 238 дней соответственно.

### 4. Выяви самые популярные предметы (ТОП-3) по количеству регистраций на них. А также предметы с самым большим оттоком (ТОП-3).

#### Работаем с studentRegistration

In [46]:
studentRegistration.head()

Unnamed: 0,code_module,code_presentation,id_student,date_registration,date_unregistration
0,AAA,2013J,11391,-159.0,500.0
1,AAA,2013J,28400,-53.0,500.0
2,AAA,2013J,30268,-92.0,12.0
3,AAA,2013J,31604,-52.0,500.0
4,AAA,2013J,32885,-176.0,500.0


#### Группируем по предмету, считаем количество строк, сортируем, оставляем топ-3.

In [47]:
studentRegistration.groupby('code_module', as_index = False)['date_registration'] \
            .count().sort_values('date_registration', ascending = False).head(3)

Unnamed: 0,code_module,date_registration
1,BBB,7901
5,FFF,7752
3,DDD,6260


#### Топ-3 по оттоку. Фильтруем по дате отмены регистрации != 500. Ранее мы задали значение 500 для не отменённых курсов. Оставляем только отменённые, группируем по предмету, считаем количество строк, сортируем, оставляем топ-3.

In [48]:
studentRegistration.query('date_unregistration != 500').groupby('code_module', as_index = False) \
    ['date_unregistration'].count().sort_values('date_unregistration', ascending = False).head(3)

Unnamed: 0,code_module,date_unregistration
5,FFF,2370
1,BBB,2369
3,DDD,2223


#### Ответ:
#### ТОП-3 предметов по количеству регистраций: BBB, FFF, DDD;
#### ТОП-3 предметов с самым большим оттоком: FFF, BBB, DDD.

### 5. Используя pandas, в период с начала 2013 по конец 2014 выяви семестр с самой низкой завершаемостью курсов и самыми долгими средними сроками сдачи курсов.

#### Это комбинация немного изменённых 2 и 3 заданий
#### Фильтруем по типу Exam, группируем по code_presentation, заносим в список значения score

In [49]:
presentation_completeness = studentAssessment_ext.query("assessment_type == 'Exam'") \
    .groupby('code_presentation')['score'].apply(list).reset_index(name='score')
presentation_completeness

Unnamed: 0,code_presentation,score
0,2013B,"[40.0, 13.0, 73.0, 40.0, 49.0, 33.0, 51.0, 69...."
1,2013J,"[69.0, 67.0, 84.0, 33.0, 64.0, 58.0, 44.0, 53...."
2,2014B,"[32.0, 78.0, 54.0, 64.0, 100.0, 92.0, 84.0, 42..."
3,2014J,"[44.0, 94.0, 24.0, 70.0, 32.0, 38.0, 68.0, 54...."


#### Первым циклом проходимся по presentation_completeness, делим количество результатов с баллом >= 40 на общее количество результатов, получаем завершаемость. Находим MIN завершаемость, записываем завершаемость в словарь result.
#### Вторым циклом выводим семестр с самой низкой завершаемостью.

In [50]:
completeness_min = 100
result = {}

for row in presentation_completeness[:presentation_completeness.shape[0]].itertuples():
    score_passed = list(filter(lambda x: (x >= 40), row.score))
    completeness = round(100 * len(score_passed)/len(row.score))
    if completeness < completeness_min:
        completeness_min = completeness
    result[row.code_presentation] = completeness
    print(f'Presentation: {row.code_presentation}\tCompleteness: {completeness}')

for key in result:
    if result[key] == completeness_min:
        print(f'Completeness MIN: Presentation {key} has completeness {result[key]}.')

Presentation: 2013B	Completeness: 84
Presentation: 2013J	Completeness: 91
Presentation: 2014B	Completeness: 90
Presentation: 2014J	Completeness: 88
Completeness MIN: Presentation 2013B has completeness 84.


In [51]:
studentAssessment_ext.query("assessment_type == 'Exam' and score >= 40") \
                .groupby('code_presentation')['date_submitted'].mean().round().sort_values()

code_presentation
2013B    230.0
2014B    233.0
2013J    240.0
2014J    244.0
Name: date_submitted, dtype: float64

#### Ответ: минимальная завершаемость у семестра 2013B, а максимальный средний срок сдачи курсов у семестра 2014J.

### 6. Часто для качественного анализа аудитории использую подходы, основанные на сегментации. Используя python, построй адаптированные RFM-кластеры студентов, чтобы качественно оценить свою аудиторию. В адаптированной кластеризации можешь выбрать следующие метрики: R - среднее время сдачи одного экзамена, F - завершаемость курсов, M - среднее количество баллов, получаемое за экзамен. Подробно опиши, как ты создавал кластеры. Для каждого RFM-сегмента построй границы метрик recency, frequency и monetary для интерпретации этих кластеров.

#### Работаем с studentAssessment_ext

In [52]:
studentAssessment_ext.head()

Unnamed: 0,id_assessment,id_student,date_submitted,is_banked,score,code_module,code_presentation,assessment_type,date,weight,module_presentation_length,course_id
0,1752,11391,18,0,78.0,AAA,2013J,TMA,19.0,10.0,268,AAA2013J
1,1752,28400,22,0,70.0,AAA,2013J,TMA,19.0,10.0,268,AAA2013J
2,1752,31604,17,0,72.0,AAA,2013J,TMA,19.0,10.0,268,AAA2013J
3,1752,32885,26,0,69.0,AAA,2013J,TMA,19.0,10.0,268,AAA2013J
4,1752,38053,19,0,79.0,AAA,2013J,TMA,19.0,10.0,268,AAA2013J


#### Найдём M - среднее количество баллов, получаемое за экзамен. Фильтруем studentAssessment_ext по сданным экзаменам, группируем по id экзамена, считаем среднее кол-во баллов, округляем до целых, приводим к типу int.

In [53]:
m = studentAssessment_ext.query("assessment_type == 'Exam' and score >= 40") \
    .groupby('id_assessment', as_index=False)['score'].mean().round()
m = m.astype({'score':'int'})
m

Unnamed: 0,id_assessment,score
0,24290,75
1,24299,74
2,25340,61
3,25354,68
4,25361,72
5,25368,68


#### Найдём R - среднее время сдачи одного экзамена. Фильтруем studentAssessment_ext по сданным экзаменам, группируем по id экзамена, считаем среднее время сдачи, округляем до целых, приводим к типу int.

In [54]:
r = studentAssessment_ext.query("assessment_type == 'Exam' and score >= 40") \
    .groupby('id_assessment', as_index=False)['date_submitted'].mean().round()
r = r.astype({'date_submitted':'int'})
r

Unnamed: 0,id_assessment,date_submitted
0,24290,232
1,24299,244
2,25340,230
3,25354,240
4,25361,235
5,25368,243


#### Найдём F - завершаемость курсов
#### Проходимся по course_completeness (создан во 2-м задании), делим количество результатов с баллом >= 40 на общее количество результатов, получаем завершаемость, записываем в словарь result.
#### На основе result создаём датафрейм f, приводим id_assessment к типу int.

In [55]:
result = {}

for row in course_completeness[:course_completeness.shape[0]].itertuples():
    score_passed = list(filter(lambda x: (x >= 40), row.score))
    completeness = round(100 * len(score_passed)/len(row.score))
    result[str(row.id_assessment)] = completeness

f = pd.DataFrame(list(result.items()), columns = ['id_assessment', 'completeness'])
f = f.astype({'id_assessment':'int'})
f

Unnamed: 0,id_assessment,completeness
0,24290,89
1,24299,87
2,25340,84
3,25354,91
4,25361,93
5,25368,89


#### Объединим r, f, m в одну таблицу

In [56]:
rfm = r.merge(f, on = 'id_assessment').merge(m, on = 'id_assessment')
rfm

Unnamed: 0,id_assessment,date_submitted,completeness,score
0,24290,232,89,75
1,24299,244,87,74
2,25340,230,84,61
3,25354,240,91,68
4,25361,235,93,72
5,25368,243,89,68


#### Получили:
* date_submitted - r - среднее время сдачи - чем меньше, тем лучше;
* completeness - f - завершаемость - чем больше, тем лучше;
* score - m - среднее количество баллов - чем больше, тем лучше
#### Проранжируем. Сначала разобьём на 5 интервалов:

In [57]:
quintiles = rfm[['date_submitted', 'completeness', 'score']].quantile([.2, .4, .6, .8]).to_dict()
quintiles

{'date_submitted': {0.2: 232.0, 0.4: 235.0, 0.6: 240.0, 0.8: 243.0},
 'completeness': {0.2: 87.0, 0.4: 89.0, 0.6: 89.0, 0.8: 91.0},
 'score': {0.2: 68.0, 0.4: 68.0, 0.6: 72.0, 0.8: 74.0}}

#### Создадим функции присвоения рангов

In [58]:
def r_score(x):
    if x <= quintiles['date_submitted'][.2]:
        return 5
    elif x <= quintiles['date_submitted'][.4]:
        return 4
    elif x <= quintiles['date_submitted'][.6]:
        return 3
    elif x <= quintiles['date_submitted'][.8]:
        return 2
    else:
        return 1

def fm_score(x, c):
    if x <= quintiles[c][.2]:
        return 1
    elif x <= quintiles[c][.4]:
        return 2
    elif x <= quintiles[c][.6]:
        return 3
    elif x <= quintiles[c][.8]:
        return 4
    else:
        return 5

#### Присвоим ранги с помощью функций r_score() и fm_score(). Сложим ранги-веса, получим RFM_Score, отсортируем по убыванию.

In [59]:
rfm['R'] = rfm['date_submitted'].apply(lambda x: r_score(x))
rfm['F'] = rfm['completeness'].apply(lambda x: fm_score(x, 'completeness'))
rfm['M'] = rfm['score'].apply(lambda x: fm_score(x, 'score'))
rfm['RFM_Score'] = rfm['R'].map(str) + rfm['F'].map(str) + rfm['M'].map(str)
rfm = rfm.sort_values('RFM_Score', ascending = False)
rfm

Unnamed: 0,id_assessment,date_submitted,completeness,score,R,F,M,RFM_Score
0,24290,232,89,75,5,2,5,525
2,25340,230,84,61,5,1,1,511
4,25361,235,93,72,4,5,3,453
3,25354,240,91,68,3,4,1,341
5,25368,243,89,68,2,2,1,221
1,24299,244,87,74,1,1,4,114


#### Исходя из RFM_Score можем сделать следующие выводы:
#### - самые успешные экзамены (быстрее сдаются, с высокой завершаемостью и баллами) 24290 и 25361;
#### - самый неуспешный экзамен (медленнее сдаётся, с низкой завершаемостью и баллами) 25368.