## Проект e-learning

Для анализа по проекту e-learning представлены 4 файла:  
**assessments.csv**  
**courses.csv**  
**studentAssessment.csv**  
**studentRegistration.csv**  
Далее детально можно познакомиться описанием этих файлов.

## Описание файлов  
**assessments.csv** — этот файл содержит информацию об оценках в тесте. Обычно каждый предмет в семестре включает ряд тестов с оценками, за которыми следует заключительный экзаменационный тест (экзамен).
*code_module* — идентификационный код предмета.

*code_presentation* — семестр (Идентификационный код).

*id_assessment* — тест (Идентификационный номер ассессмента).

*assessment_type* — тип теста. Существуют три типа оценивания: оценка преподавателя (TMA), компьютерная оценка (СМА), экзамен по курсу (Exam).

*date* — информация об окончательной дате сдачи теста. Рассчитывается как количество дней с момента начала семестра. Дата начала семестра имеет номер 0 (ноль).

*weight* — вес теста в % в оценке за курс. Обычно экзамены рассматриваются отдельно и имеют вес 100%; сумма всех остальных оценок составляет 100%.

**courses.csv** — файл содержит список предметов по семестрам.  
*code_module* — предмет (идентификационный код).

*code_presentation* — семестр (идентификационный код).

*module_presentation_length* — продолжительность семестра в днях.

**studentAssessment.csv** — этот файл содержит результаты тестов студентов. Если учащийся не отправляет работу на оценку, результат не записывается в таблицу.  
*id_assessment* — тест (идентификационный номер).

*id_student* — идентификационный номер студента.

*date_submitted* — дата сдачи теста студентом, измеряемая как количество дней с начала семестра.

*is_banked* — факт перезачета теста с прошлого семестра (иногда курсы перезачитывают студентам, вернувшимся из академического отпуска).

*score* — оценка учащегося в этом тесте. Диапазон составляет от 0 до 100. Оценка ниже 40 неудачная/неуспешная сдача теста.

**studentRegistration.csv** — этот файл содержит информацию о времени, когда студент зарегистрировался для прохождения курса в семестре.  
*code_module* — предмет (идентификационный код).

*code_presentation* — семестр (идентификационный код)

*id_student* — идентификационный номер студента.

*date_registration* — дата регистрации студента. Это количество дней, измеренное от начала семестра (например, отрицательное значение -30 означает, что студент зарегистрировался на прохождение курса за 30 дней до его начала).

*date_unregistration* — дата отмены регистрации студента с предмета. У студентов, окончивших курс, это поле остается пустым.

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
df_assessments = pd.read_csv('assessments.csv')

In [3]:
df_courses = pd.read_csv('courses.csv')

In [4]:
df_studentAssessment = pd.read_csv('studentAssessment.csv')

In [5]:
df_studentRegistration = pd.read_csv('studentRegistration.csv')

## Предобработка данных

**Шаг №1.** Проверка на наличие пропущенных данных во всех файлах.

In [6]:
## Применяем функцию info() для получение информации о количестве и типе данных в файле.
df_assessments.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 206 entries, 0 to 205
Data columns (total 6 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   code_module        206 non-null    object 
 1   code_presentation  206 non-null    object 
 2   id_assessment      206 non-null    int64  
 3   assessment_type    206 non-null    object 
 4   date               195 non-null    float64
 5   weight             206 non-null    float64
dtypes: float64(2), int64(1), object(3)
memory usage: 9.8+ KB


Как можем заметить в столбце **date** присутствуют пропущенные значения. Далее их рассмотрим детально.

In [7]:
## Применяем функцию info() для получение информации о количестве и типе данных в файле.
df_courses.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22 entries, 0 to 21
Data columns (total 3 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   code_module                 22 non-null     object
 1   code_presentation           22 non-null     object
 2   module_presentation_length  22 non-null     int64 
dtypes: int64(1), object(2)
memory usage: 656.0+ bytes


Тут пропущенных значений нет.

In [8]:
## Применяем функцию info() для получение информации о количестве и типе данных в файле.
df_studentAssessment.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 173912 entries, 0 to 173911
Data columns (total 5 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   id_assessment   173912 non-null  int64  
 1   id_student      173912 non-null  int64  
 2   date_submitted  173912 non-null  int64  
 3   is_banked       173912 non-null  int64  
 4   score           173739 non-null  float64
dtypes: float64(1), int64(4)
memory usage: 6.6 MB


Как можем заметить в столбце **score** присутствуют пропущенные значения. Далее их рассмотрим детально.

In [9]:
## Применяем функцию info() для получение информации о количестве и типе данных в файле.
df_studentRegistration.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32593 entries, 0 to 32592
Data columns (total 5 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   code_module          32593 non-null  object 
 1   code_presentation    32593 non-null  object 
 2   id_student           32593 non-null  int64  
 3   date_registration    32548 non-null  float64
 4   date_unregistration  10072 non-null  float64
dtypes: float64(2), int64(1), object(2)
memory usage: 1.2+ MB


Как можем заметить в двух столбцах, **date_registration** и **date_unregistration** присутствуют пропущенные значения. Далее их рассмотрим детально.

**Шаг №2.** Очистка данных.

In [10]:
df_assessments.query('date == "NaN"')

Unnamed: 0,code_module,code_presentation,id_assessment,assessment_type,date,weight
5,AAA,2013J,1757,Exam,,100.0
11,AAA,2014J,1763,Exam,,100.0
23,BBB,2013B,14990,Exam,,100.0
35,BBB,2013J,15002,Exam,,100.0
47,BBB,2014B,15014,Exam,,100.0
53,BBB,2014J,15025,Exam,,100.0
62,CCC,2014B,24290,Exam,,100.0
63,CCC,2014B,40087,Exam,,100.0
72,CCC,2014J,24299,Exam,,100.0
73,CCC,2014J,40088,Exam,,100.0


Эти пропущенные данные решил оставить, так как с помощью файла **courses** можно их приблизительно дополнить. Что сделаем в следущих итерациях.

In [11]:
## Обьединяем файлы - assessments и courses.
merged_assessments_courses = pd.merge(df_assessments, df_courses, on=['code_module', 'code_presentation'], how='inner')

In [12]:
## С помощью функции query проверяется условие "date > module_presentation_length". 
## Это нужно для того чтобы проверить логику между столбцами, так как "date" всегда должна быть менгьше или равно "module_presentation_length".
merged_assessments_courses.query('date == module_presentation_length')

Unnamed: 0,code_module,code_presentation,id_assessment,assessment_type,date,weight,module_presentation_length
87,DDD,2013B,25340,Exam,240.0,100.0,240
94,DDD,2013J,25354,Exam,261.0,100.0,261
101,DDD,2014B,25361,Exam,241.0,100.0,241


In [13]:
merged_assessments_courses['date'] = merged_assessments_courses['date'].fillna(merged_assessments_courses['module_presentation_length'])

Исходя из вышесказанных комментариев можно сделать вывод, что данные пропущенные данные по "assessment_type == 'Exam'" меньше или равно "module_presentation_length". Так как такое условие True, было решено дополнились значениями столбца "module_presentation_length".

In [14]:
## Пропущенные данные в файле df_studentAssessment. 
## Эти пропуски означают, что студент не отправил работу на проверку. 
## Для полноты картины эти данные тоже были сохранены, вместо "NaN" заполнено значением - 0. 
df_studentAssessment.query('score == "NaN"')
df_studentAssessment['score'] = df_studentAssessment['score'].fillna(0)

In [15]:
## Эти значения были удалены, так как нету информации о регистрации. 
## Также нам известно, что студент сдал этот предмет.
df_studentRegistration.query('date_registration == "NaN" & date_unregistration == "NaN"')

Unnamed: 0,code_module,code_presentation,id_student,date_registration,date_unregistration
2344,BBB,2013B,630346,,
12893,CCC,2014J,1777834,,
14392,DDD,2013B,2707979,,
14393,DDD,2013B,2710343,,
17559,DDD,2014B,2710343,,
23796,FFF,2013B,2102658,,


In [16]:
## Удаление пропусков в обоих столбцов.
df_studentRegistration = df_studentRegistration.dropna(subset=['date_registration', 'date_unregistration'], how='all')

In [17]:
## Пропущенные данные в "date_registration".
df_studentRegistration.query('date_registration == "NaN"').head()

Unnamed: 0,code_module,code_presentation,id_student,date_registration,date_unregistration
2538,BBB,2013J,57369,,-1.0
2759,BBB,2013J,342678,,-33.0
5356,BBB,2014B,582496,,-126.0
5490,BBB,2014B,607646,,-38.0
5573,BBB,2014B,614270,,-142.0


In [18]:
## Как и с данными в файле assessment, тут тоже можно приравнять к значением другого столбца.
## Пропущенные данные в "date_registration" = значением в "date_unregistration".
df_studentRegistration['date_registration'] = df_studentRegistration['date_registration'].fillna(df_studentRegistration['date_unregistration'])

Пропуски в "date_unregistration" пришлось оставить, эти пропуски показатель окончание курса.

## Объединение данных

In [19]:
## Во время очистки было сделано объединение двух файлов(df_assessments + df_courses).
merged_assessments_courses.head()

Unnamed: 0,code_module,code_presentation,id_assessment,assessment_type,date,weight,module_presentation_length
0,AAA,2013J,1752,TMA,19.0,10.0,268
1,AAA,2013J,1753,TMA,54.0,20.0,268
2,AAA,2013J,1754,TMA,117.0,20.0,268
3,AAA,2013J,1755,TMA,166.0,20.0,268
4,AAA,2013J,1756,TMA,215.0,30.0,268


In [20]:
## Объединение df_studentAssessment + merged_assessments_courses.
merged_studentAssessment_assessments_courses = pd.merge(df_studentAssessment, merged_assessments_courses, on=['id_assessment'], how='inner')

In [21]:
## Объединение merged_studentAssessment_assessments_courses + df_studentRegistration в один едмный датафрейм.
merged_full = pd.merge(merged_studentAssessment_assessments_courses, df_studentRegistration, on=['id_student', 'code_module','code_presentation'], how='inner')

In [22]:
merged_full.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 173912 entries, 0 to 173911
Data columns (total 13 columns):
 #   Column                      Non-Null Count   Dtype  
---  ------                      --------------   -----  
 0   id_assessment               173912 non-null  int64  
 1   id_student                  173912 non-null  int64  
 2   date_submitted              173912 non-null  int64  
 3   is_banked                   173912 non-null  int64  
 4   score                       173912 non-null  float64
 5   code_module                 173912 non-null  object 
 6   code_presentation           173912 non-null  object 
 7   assessment_type             173912 non-null  object 
 8   date                        173912 non-null  float64
 9   weight                      173912 non-null  float64
 10  module_presentation_length  173912 non-null  int64  
 11  date_registration           173912 non-null  float64
 12  date_unregistration         13055 non-null   float64
dtypes: float64(5),

Почему обьединение было сделано поэтапно? Чтобы проверить на наличие допусков и правильность обьединение этих данных. Например когда объединял "df_studentAssessment" с "df_studentRegistration" получалось больше данных чем в главном датафрейме(df_studentAssessment - 173912 данных), где то 200 000.

## Проверка на истинность данных. Соответсвуют ли значения описанию столбца.

In [23]:
merged_full.head()

Unnamed: 0,id_assessment,id_student,date_submitted,is_banked,score,code_module,code_presentation,assessment_type,date,weight,module_presentation_length,date_registration,date_unregistration
0,1752,11391,18,0,78.0,AAA,2013J,TMA,19.0,10.0,268,-159.0,
1,1753,11391,53,0,85.0,AAA,2013J,TMA,54.0,20.0,268,-159.0,
2,1754,11391,115,0,80.0,AAA,2013J,TMA,117.0,20.0,268,-159.0,
3,1755,11391,164,0,85.0,AAA,2013J,TMA,166.0,20.0,268,-159.0,
4,1756,11391,212,0,82.0,AAA,2013J,TMA,215.0,30.0,268,-159.0,


Первое что заметил в данных после объединение - в стобце "date_submitted" некоторые значении больше чем значении в стобце "module_presentation_length". По описанию столбец "date_submitted" показывает дату сдачи теста студентом, измеряемая как количество дней с начала семестра, а в описании столбца "module_presentation_length" — продолжительность семестра в днях. Возникает вопрос, под продолжительностью семестра имеется ввиду семестр + сессия или просто семестр без сессии. В наших данных можно заметить, что большая часть экзаменов входят в диапазон продолжительности сессии. Поэтому было решено удалить те данные, в которых "date_submitted" > "module_presentation_length", т.е. удалить те данные где дата сдачи превышает продолжительность семестра.

In [24]:
# Применяем фильтр
filtered = merged_full.query('date_submitted > module_presentation_length')
# Получаем индексы отфильтрованных строк
indexes_to_drop = filtered.index
# Удаляем отфильтрованные строки из merged_full
merged_full = merged_full.drop(indexes_to_drop)

Второе, что было замечено - это присутсвие отрицательных и равных нулю значений в столбце "date_submitted", ~~(пока все проблемы в этом столбце :))~~ даже при условии "is_banked == 0", 0 здесь означает отсутсвие пересдачи, как я понимаю. Также было решено удалить все отрицвтельные данные в "date_submitted".

In [25]:
# Применяем фильтр
filtered_2 = merged_full.query('date_submitted <= 0 ')
# Получаем индексы отфильтрованных строк
indexes_to_drop_2 = filtered_2.index
# Удаляем отфильтрованные строки из merged_full
merged_full = merged_full.drop(indexes_to_drop_2)

Третье, что было замечено - некоторые значения в строках столбца 'date_submitted' больше чем значении в столбце 'date'. Нам известно, что 'date' описывает окончательную дату сдачи теста, а 'date_submitted' - сдачу теста студентом. Если дата сдачи теста студентом превышает дату окончательного теста, то такое в явление считается срезом)). Так, как не получается у кого-то досконально узнать причину таких данных(на работе скорее всего нашли бы одного из студентов, чтобы допросить)), придется их удалить. Отрицательные значении часто несут беду)

In [26]:
# Применяем фильтр
filtered_3 = merged_full.query('date_submitted > date')
# Получаем индексы отфильтрованных строк
indexes_to_drop_3 = filtered_3.index
# Удаляем отфильтрованные строки из merged_full
merged_full = merged_full.drop(indexes_to_drop_3)

Четвертое, что было замечено - некоторые значения в строках столбца 'date_submitted' больше чем значении в столбце 'date_unregistration'. Нам известно, что 'date' описывает окончательную дату сдачи теста, а 'date_unregistration' - отмену регистрации студентом. Если допустим студент отменил регистрацию на предмет "AAA" 10-го числа и 12-го числа сдал тесты, то его результат думаю должен аннулироваться, так как он больше не является учеником предмета "AAA" в этом семестре. Поэтому решил удалить эти данные тоже.

In [27]:
# Применяем фильтр
filtered_3 = merged_full.query('date_submitted > date_unregistration')
# Получаем индексы отфильтрованных строк
indexes_to_drop_3 = filtered_3.index
# Удаляем отфильтрованные строки из merged_full
merged_full = merged_full.drop(indexes_to_drop_3)

Это всё что удалось найти в данном датафрейме. Далее начинаются выполнение задач.

## Задача №1
Сколько студентов успешно сдали только один курс? (Успешная сдача — это зачёт по курсу на экзамене)

Чтобы решить данную задачу нам понадобиться файл - studentAssessment и dassessments.

Что нам надо тут делать. Под выражением - "успешно сдали только один курс". Слово "курс" понимался, как предмет. В учебной сфере курс трактуется по разному, как годовое обучение в учебном заведении или же как серия учебных занятий для освоение одного предмета.

In [28]:
## Под курсом тут имеется ввиду столбец "code_module" из merged_full.
## Извлекаем студентов сдавщих тест(больше 39). Оценка ниже 40 неудачная/неуспешная сдача теста. 
merged_full_passed = merged_full.query('score > 39 & assessment_type == "Exam"')

In [29]:
## Считаем количество успешных сдач экзаменов по студентам.
a = merged_full_passed[['id_student','code_module']].value_counts().reset_index()
a = a.rename(columns={0: 'passed_test_count'}) ## Переименовываем столбец 0 в'passed_test_count' 
a

Unnamed: 0,id_student,code_module,passed_test_count
0,593903,DDD,2
1,540758,DDD,2
2,605118,DDD,2
3,551304,CCC,1
4,551267,CCC,1
...,...,...,...
4374,627882,DDD,1
4375,627879,DDD,1
4376,627772,DDD,1
4377,627750,CCC,1


In [30]:
## Создаем булевский индекс для дублирующихся строк по столбцу 'id_student'.
is_duplicated = a['id_student'].duplicated(keep=False)
# Фильтруем DataFrame и оставляем только строки, в которых значение не дублируется.
result = a[~is_duplicated] 
result

Unnamed: 0,id_student,code_module,passed_test_count
0,593903,DDD,2
1,540758,DDD,2
2,605118,DDD,2
3,551304,CCC,1
4,551267,CCC,1
...,...,...,...
4374,627882,DDD,1
4375,627879,DDD,1
4376,627772,DDD,1
4377,627750,CCC,1


### Проверка правильности выполненной работы.

In [31]:
result.iloc[1] ## Выбираем рандомную строку из result. В нашем примере она равна 1.

id_student           540758
code_module             DDD
passed_test_count         2
Name: 1, dtype: object

In [32]:
## Проверяем по столбцу id_student, в качестве примера передаем значение полученное выше в result.iloc[1].
merged_full_passed.query('id_student == 540758') 

Unnamed: 0,id_assessment,id_student,date_submitted,is_banked,score,code_module,code_presentation,assessment_type,date,weight,module_presentation_length,date_registration,date_unregistration
71018,25340,540758,229,0,40.0,DDD,2013B,Exam,240.0,100.0,240,-74.0,
84602,25361,540758,234,0,60.0,DDD,2014B,Exam,241.0,100.0,241,-25.0,


### Итоги по Заданию №1
Ответ: 3795 студентов успешно сдали только один экзамен по курсу.

## Задача №2
Выяви самый сложный и самый простой экзамен: найди курсы и экзамены в рамках курса, которые обладают самой низкой и самой высокой завершаемостью*.

***завершаемость** = кол-во успешных экзаменов / кол-во всех попыток сдать экзамен

In [33]:
## Шаг №1. Фильтрация по столбцу - assessment_type.
merged_full_exam = merged_full.query('assessment_type == "Exam"')

In [34]:
## Шаг №2. Группировка по курсу(code_module). Получаем количество всех попыток сдать экзамен.
all_exam_count = merged_full_exam.groupby(['code_module','id_assessment'],as_index= False).agg({'code_presentation': 'count'})

In [35]:
## Шаг №3. Фильтрация по столбцу score, для получения успешных экзаменов.
passed_exam_count = merged_full_exam.query('score > 39').groupby(['code_module','id_assessment'],as_index= False).agg({'code_presentation': 'count'})

In [36]:
## Шаг №4. Считаем завершаемость.
math_operation = passed_exam_count['code_presentation'] / all_exam_count['code_presentation']

In [37]:
## Шаг №5. Объединяем полученную завершаемость с курсом.
result_exam = pd.concat([passed_exam_count[['code_module','id_assessment']], math_operation], axis=1)
result_exam = result_exam.rename(columns={'code_presentation': 'finalty'}).round(2)
result_exam

Unnamed: 0,code_module,id_assessment,finalty
0,CCC,24290,0.89
1,CCC,24299,0.87
2,DDD,25340,0.84
3,DDD,25354,0.91
4,DDD,25361,0.93
5,DDD,25368,0.89


### Итоги по Заданию №2.
Самый сложным экзаменом оказался, экзамен - '25340' по курсу "DDD",его завершаемость состовляет 0.84. Самым простым экзаменом оказался, экзамен - '25361' по курсу "DDD",его завершаемость состовляет 0.93.

## Задача №3
По каждому предмету определи средний срок сдачи экзаменов (под сдачей понимаем последнее успешное прохождение экзамена студентом).

In [38]:
## Берем данные выполненные в Задаче №2 (Шаг№1).
merged_full_exam.head(5)

Unnamed: 0,id_assessment,id_student,date_submitted,is_banked,score,code_module,code_presentation,assessment_type,date,weight,module_presentation_length,date_registration,date_unregistration
46189,24290,29764,230,0,94.0,CCC,2014B,Exam,241.0,100.0,241,-34.0,
46198,24290,29820,230,0,76.0,CCC,2014B,Exam,241.0,100.0,241,-57.0,
46205,24290,40604,234,0,66.0,CCC,2014B,Exam,241.0,100.0,241,-17.0,
46214,24290,42638,230,0,50.0,CCC,2014B,Exam,241.0,100.0,241,-52.0,
46226,24290,46605,230,0,98.0,CCC,2014B,Exam,241.0,100.0,241,-54.0,


In [39]:
## Фильтрация по столбцу score, для получения успешных экзаменов.
merged_full_exam_passed = merged_full_exam.query('score > 39')
merged_full_exam_passed.head()

Unnamed: 0,id_assessment,id_student,date_submitted,is_banked,score,code_module,code_presentation,assessment_type,date,weight,module_presentation_length,date_registration,date_unregistration
46189,24290,29764,230,0,94.0,CCC,2014B,Exam,241.0,100.0,241,-34.0,
46198,24290,29820,230,0,76.0,CCC,2014B,Exam,241.0,100.0,241,-57.0,
46205,24290,40604,234,0,66.0,CCC,2014B,Exam,241.0,100.0,241,-17.0,
46214,24290,42638,230,0,50.0,CCC,2014B,Exam,241.0,100.0,241,-52.0,
46226,24290,46605,230,0,98.0,CCC,2014B,Exam,241.0,100.0,241,-54.0,


In [40]:
## Находим последнее успешное прохождение экзамена студентом.
last_pass_ex = merged_full_exam_passed.loc[merged_full_exam_passed.groupby('id_student')['date_submitted'].idxmax()]

In [41]:
## Определяем средний срок сдачи экзаменов по предмету.
last_pass_ex_mean =last_pass_ex.groupby(['code_module', 'assessment_type'],as_index = False).agg({'date_submitted': 'mean'})
last_pass_ex_mean

Unnamed: 0,code_module,assessment_type,date_submitted
0,CCC,Exam,239.589649
1,DDD,Exam,237.997159


#### Итоги по Заданию №3
Средний срок сдачи экзаменов по курсу **'CCC'** состовляет приблизительно 240 дней, а по курсу **'DDD'** составляет приблизительно 238 дней.

## Задача №4
Выяви самые популярные предметы (ТОП-3) по количеству регистраций на них. А также предметы с самым большим оттоком (ТОП-3).

In [42]:
## ТОП-3 самых популярных предметов по количеству регистраций на них.
merged_full.groupby(['code_module'], as_index=False). \
agg({'date_registration': 'count'}).sort_values('date_registration', ascending=False).head(3)

Unnamed: 0,code_module,date_registration
5,FFF,48240
1,BBB,21941
3,DDD,21723


In [43]:
## ТОП-3 предметы с самым большим оттоком.
merged_full.groupby(['code_module'], as_index=False). \
agg({'date_unregistration': 'count'}).sort_values('date_unregistration', ascending=False).head(3)

Unnamed: 0,code_module,date_unregistration
5,FFF,2467
3,DDD,1981
1,BBB,1261


### Итоги по Заданию №4:
Самые популярные предметы (ТОП-3) по количеству регистраций на них - 'FFF', 'BBB', 'DDD'. ТОП-3 предметы с самым большим оттоком -  'FFF', 'DDD', 'BBB'. Одна из причин такого итога - студент записывался на предмет, потому что в первых двух предметах отсутствовал экзамен, ну или может препод был хорош.

## Задача №5.
Используя pandas, в период с начала 2013 по конец 2014 выяви семестр с самой низкой завершаемостью курсов и самыми долгими средними сроками сдачи курсов.

### Часть 1. Выявляем семестр с самой низкой завершаемостью курсов.
P.S. Тут есть один тонкий момент, который не смог уточнить у себя в голове: "в период с начала 2013 по конец 2014". Так как конец одного из семестров (семестр 2014J или семестр 2014B) может попасть к началу 2015-го года(мы не знаем какой из этих семестров является осенним, а какой весенним). Поэтому пришлось оставить их так как есть.

In [44]:
## Берем данные выполненные в Задаче №2 (Шаг №1).
merged_full_exam.head(5)

Unnamed: 0,id_assessment,id_student,date_submitted,is_banked,score,code_module,code_presentation,assessment_type,date,weight,module_presentation_length,date_registration,date_unregistration
46189,24290,29764,230,0,94.0,CCC,2014B,Exam,241.0,100.0,241,-34.0,
46198,24290,29820,230,0,76.0,CCC,2014B,Exam,241.0,100.0,241,-57.0,
46205,24290,40604,234,0,66.0,CCC,2014B,Exam,241.0,100.0,241,-17.0,
46214,24290,42638,230,0,50.0,CCC,2014B,Exam,241.0,100.0,241,-52.0,
46226,24290,46605,230,0,98.0,CCC,2014B,Exam,241.0,100.0,241,-54.0,


In [45]:
## Группировка данных по "code_presentation", с успешной сдачей экзаменов. 
passed_exam_count_2 = merged_full_exam.query('score > 39').groupby(['code_presentation'],as_index= False).agg({'assessment_type': 'count'})

In [46]:
## Группировка данных по  "code_presentation", со всеми сдачами экзаменов.
all_exam_count_2 = merged_full_exam.groupby(['code_presentation'],as_index= False).agg({'assessment_type': 'count'})

In [47]:
## Далее, чтобы вычислить завершаемость по семестру, делим количество успешных сдач на все сдачи экзаменов.
math_operation_2 = passed_exam_count_2['assessment_type'] / all_exam_count_2['assessment_type']

In [48]:
## Объединяем полученную завершаемость с курсом.
result_exam_2 = pd.concat([passed_exam_count_2[['code_presentation']],math_operation_2], axis=1)
result_exam_2 = result_exam_2.rename(columns={'assessment_type': 'finalty'})
result_exam_2

Unnamed: 0,code_presentation,finalty
0,2013B,0.837793
1,2013J,0.907963
2,2014B,0.904348
3,2014J,0.878544


### Часть 2. Выявляем семестр с самыми долгими сроками сдачи.


In [49]:
## Группировка данных по "code_presentation", с успешной сдачей экзаменов.Потом находим среднее по срокам сдачи экзаменов. 
passed_day = merged_full_exam.query('score > 39').groupby(['code_presentation'],as_index= False).agg({'date_submitted': 'mean'})
passed_day

Unnamed: 0,code_presentation,date_submitted
0,2013B,230.0998
1,2013J,239.509112
2,2014B,232.929196
3,2014J,243.639053


### Итоги по заданию №5.
Семестром с самой низкой завершаемостью курсов является **2013B** с завершаемостью равной 0.8378. Семестром с самыми долгими сроками сдачи курсов является **2014J** со средним сроком равным приблизительно 244 дня.

## Задача №6.
Часто для качественного анализа аудитории используют подходы, основанные на сегментации. Используя python, построй адаптированные RFM-кластеры студентов, чтобы качественно оценить свою аудиторию. В адаптированной кластеризации можешь выбрать следующие метрики: R - среднее время сдачи одного экзамена, F - завершаемость курсов, M - среднее количество баллов, получаемое за экзамен. Подробно опиши, как ты создавал кластеры. Для каждого RFM-сегмента построй границы метрик recency, frequency и monetary для интерпретации этих кластеров.

In [50]:
## Шаг №1. Для вычисление RFM был взят датафрейм merged_full.
merged_full_exam

Unnamed: 0,id_assessment,id_student,date_submitted,is_banked,score,code_module,code_presentation,assessment_type,date,weight,module_presentation_length,date_registration,date_unregistration
46189,24290,29764,230,0,94.0,CCC,2014B,Exam,241.0,100.0,241,-34.0,
46198,24290,29820,230,0,76.0,CCC,2014B,Exam,241.0,100.0,241,-57.0,
46205,24290,40604,234,0,66.0,CCC,2014B,Exam,241.0,100.0,241,-17.0,
46214,24290,42638,230,0,50.0,CCC,2014B,Exam,241.0,100.0,241,-52.0,
46226,24290,46605,230,0,98.0,CCC,2014B,Exam,241.0,100.0,241,-54.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
95941,25368,653319,250,0,64.0,DDD,2014J,Exam,262.0,100.0,262,-51.0,
95965,25368,650232,243,0,49.0,DDD,2014J,Exam,262.0,100.0,262,-65.0,
95976,25368,485421,243,0,42.0,DDD,2014J,Exam,262.0,100.0,262,-100.0,
95980,25368,508615,242,0,27.0,DDD,2014J,Exam,262.0,100.0,262,-80.0,


In [51]:
## Для вычисления среднего времени сдачи экхаменов нам нужно найти разницу между сроком сдачи и датой когда студент сдал экзамен.
merged_full_exam['days_diff'] = merged_full_exam['date'] - merged_full_exam['date_submitted']
merged_full_exam

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


Unnamed: 0,id_assessment,id_student,date_submitted,is_banked,score,code_module,code_presentation,assessment_type,date,weight,module_presentation_length,date_registration,date_unregistration,days_diff
46189,24290,29764,230,0,94.0,CCC,2014B,Exam,241.0,100.0,241,-34.0,,11.0
46198,24290,29820,230,0,76.0,CCC,2014B,Exam,241.0,100.0,241,-57.0,,11.0
46205,24290,40604,234,0,66.0,CCC,2014B,Exam,241.0,100.0,241,-17.0,,7.0
46214,24290,42638,230,0,50.0,CCC,2014B,Exam,241.0,100.0,241,-52.0,,11.0
46226,24290,46605,230,0,98.0,CCC,2014B,Exam,241.0,100.0,241,-54.0,,11.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95941,25368,653319,250,0,64.0,DDD,2014J,Exam,262.0,100.0,262,-51.0,,12.0
95965,25368,650232,243,0,49.0,DDD,2014J,Exam,262.0,100.0,262,-65.0,,19.0
95976,25368,485421,243,0,42.0,DDD,2014J,Exam,262.0,100.0,262,-100.0,,19.0
95980,25368,508615,242,0,27.0,DDD,2014J,Exam,262.0,100.0,262,-80.0,,20.0


## Создание метрик R, F, M.

In [52]:
## R - среднее время сдачи одного экзамена.
recency = merged_full_exam.groupby(['id_student'],as_index=False)['days_diff'].mean().round(2)
recency.columns = ['id_student', 'recency'] 

In [53]:
## M - среднее количество баллов, получаемое за экзамен.
monetary = merged_full_exam.groupby(['id_student'], as_index=False)['score'].mean().round(2)
monetary.columns = ['id_student', 'monetary']

In [54]:
## F - завершаемость курсов.
merged_full_exam['passed'] = merged_full_exam['score'].apply(lambda x: 1 if x >= 40 else 0.1) ## Почему 0.1? 
## Чтобы после суммирование вычислить студентов, которые сдавали 2 экзамена, но прошли один(надеюсь такой фокус законный).
frequency = merged_full_exam.groupby('id_student', as_index=False).agg({'passed':'sum'})
frequency.columns = ['id_student','frequency']

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


In [55]:
## Проверка частоты завершаемости
frequency.frequency.value_counts()

1.0    3764
0.1     530
2.0     295
1.1      28
0.2       3
Name: frequency, dtype: int64

Как мы можем заметить 28 студентов смогли только сдать один экзамен из двух. Также можем заметить, что 3 студента срезались по двум экзаменам.

In [56]:
# Объединение метрик R, F, M в один датафрейм.
rf_df = pd.merge(recency, frequency, on=['id_student'])
rfm_df = pd.merge(rf_df, monetary, on=['id_student'])
rfm_df

Unnamed: 0,id_student,recency,frequency,monetary
0,23698,26.0,1.0,80.0
1,24213,5.0,1.0,58.0
2,27116,26.0,1.0,96.0
3,28046,24.0,1.0,40.0
4,28787,26.0,1.0,44.0
...,...,...,...,...
4615,2694886,5.0,1.0,69.0
4616,2694933,10.0,1.0,73.0
4617,2695608,24.0,1.0,73.0
4618,2697181,11.0,1.0,80.0


### Далее, чтобы разбить по сегментам был использован процентиль.   
Разбивка была сделана на три сегмента от 1 до 4  
r ((Дедлайн - сдача экзамена студентом). Чем меньше тем ближе к дедлайну был сдан экзамен, тем меньше значение сегмента)  
f (завершаемость экзамена. Чем меньше завершаемость, тем сложнее оказался этот экзамен студентов.)  
m (Среднее количество балов за экзамен. Чем меньше количество балов, тем хуже сдал студент экзамен, тем меньше значение сегмента)

### Делаем разбивки по сегментам.

С помощью функции qcut делаем сегментацию по recency. Остальные две(frequency,monetary) были сделаны вручную. Так, как с помощью
qcut не получилось выделить срез от сдачи экзамена.

In [57]:
rfm_df['r'] = (pd.qcut(rfm_df.recency, 4, labels=False) +1)

In [58]:
## Смотрим на разделение с помощью qcut.
rfm_df.groupby('r')['recency'].agg(['mean','count'])

Unnamed: 0_level_0,mean,count
r,Unnamed: 1_level_1,Unnamed: 2_level_1
1,8.706978,1691
2,18.345032,926
3,21.975443,1242
4,25.161629,761


Можно сказать, что разделение можно считать нормальным.

In [59]:
## Создаем функцию для выпронение ручной сегментации. Frequency.
def get_f(a):
    if a < 1:
        return 1
    if a > 1 and a<=1.5:
        return 2
    if a == 1:
        return 3
    if a==2:
        return 4

In [60]:
rfm_df['f'] = rfm_df.frequency.apply(get_f)

In [61]:
## Создаем функцию для выпронение ручной сегментации. Monetary
def get_m(b):
    if b < 40:
        return 1
    if b >= 40 and b<=70:
        return 2
    if b > 70 and b <=80:
        return 3
    if b >80:
        return 4

In [62]:
rfm_df['m'] = rfm_df.monetary.apply(get_m)

In [63]:
## Вычисляем rfm_score
rfm_df['rfm_score'] = rfm_df['r'].map(str) + rfm_df['f'].map(str) + rfm_df['m'].map(str)

In [64]:
## Можно посмотреть на данные сортировке по убыванию столбца rfm_score.
rfm_df.sort_values('rfm_score', ascending = False)

Unnamed: 0,id_student,recency,frequency,monetary,r,f,m,rfm_score
2152,580714,24.5,2.0,86.0,4,4,4,444
2028,574310,25.0,2.0,91.5,4,4,4,444
1851,563016,25.0,2.0,89.0,4,4,4,444
4361,2340786,25.0,2.0,94.5,4,4,4,444
1521,543788,24.5,2.0,85.5,4,4,4,444
...,...,...,...,...,...,...,...,...
3207,631207,4.0,0.1,33.0,1,1,1,111
1417,532531,4.0,0.1,26.0,1,1,1,111
3211,631299,7.0,0.1,29.0,1,1,1,111
1419,532695,10.0,0.1,27.0,1,1,1,111


In [65]:
## Построил границы метрик recency, frequency и monetary для интерпретации этих кластеров. 
segt_map = {
    r'[1][1-4]': 'Срез',
    r'[2][1-4]': 'Студент имеет один срез',
    r'[3][2]': 'Экзамен сдан на утвердительно(39+)',
    r'[3][3]': 'Экзамен сдан на хорошо(70+)',
    r'[4][2]': 'Экзамены сданы на утвердительно(39+)',
    r'[4][1]': 'Срез по двум экзаменам',
    r'[4]3': 'Экзамены сданы на хорошо(70+)',
    r'[4]4': 'Экзамены сданы на отлично. Студент красавец!',
    r'[3][4]': 'Экзамен сдан на отлично(80+)'
}

rfm_df['segment'] = rfm_df['f'].map(str) + rfm_df['m'].map(str)
rfm_df['segment'] = rfm_df['segment'].replace(segt_map, regex=True)

In [66]:
## Финальный результат RFM
rfm_df

Unnamed: 0,id_student,recency,frequency,monetary,r,f,m,rfm_score,segment
0,23698,26.0,1.0,80.0,4,3,3,433,Экзамен сдан на хорошо(70+)
1,24213,5.0,1.0,58.0,1,3,2,132,Экзамен сдан на утвердительно(39+)
2,27116,26.0,1.0,96.0,4,3,4,434,Экзамен сдан на отлично(80+)
3,28046,24.0,1.0,40.0,3,3,2,332,Экзамен сдан на утвердительно(39+)
4,28787,26.0,1.0,44.0,4,3,2,432,Экзамен сдан на утвердительно(39+)
...,...,...,...,...,...,...,...,...,...
4615,2694886,5.0,1.0,69.0,1,3,2,132,Экзамен сдан на утвердительно(39+)
4616,2694933,10.0,1.0,73.0,1,3,3,133,Экзамен сдан на хорошо(70+)
4617,2695608,24.0,1.0,73.0,3,3,3,333,Экзамен сдан на хорошо(70+)
4618,2697181,11.0,1.0,80.0,1,3,3,133,Экзамен сдан на хорошо(70+)
