In [50]:
import requests
from urllib.parse import urlencode
import pandas as pd

In [132]:
base_url = 'https://cloud-api.yandex.net/v1/disk/public/resources/download?'
name_dict = {'assessments': 'https://disk.yandex.ru/d/PBW7aUHGuodFDA',
             'courses': 'https://disk.yandex.ru/d/m0Z6QYNT46f9tQ',
             'student_assessment' : 'https://disk.yandex.ru/d/lsmdbYB0iM7p3w',
             'student_registration': 'https://disk.yandex.ru/d/Yse4Y6RJqg_WaA'}

public_keys = [assessments, courses, student_assessment, student_registration]

# Получаем загрузочную ссылку
for key, value in name_dict.items():
    final_url = base_url + urlencode(dict(public_key=value))
    response = requests.get(final_url)
    download_url = response.json()['href']
    # Загружаем файл и сохраняем его
    download_response = requests.get(download_url)
    with open(f'{key}.csv', 'wb') as f:   # Здесь укажите нужный путь к файлу
        f.write(download_response.content)

assessments = pd.read_csv('assessments.csv')
courses = pd.read_csv('courses.csv')
student_assessment = pd.read_csv('student_assessment.csv')
student_registration = pd.read_csv('student_registration.csv')
    

1) assessments.csv — этот файл содержит информацию об оценках в тесте. Обычно каждый предмет в семестре включает ряд тестов с оценками, за которыми следует заключительный экзаменационный тест (экзамен).

code_module — идентификационный код предмета.

code_presentation — семестр (Идентификационный код).

id_assessment — тест (Идентификационный номер ассессмента).

assessment_type — тип теста. Существуют три типа оценивания: оценка преподавателя (TMA), компьютерная оценка (СМА), экзамен по курсу (Exam).

date — информация об окончательной дате сдачи теста. Рассчитывается как количество дней с момента начала семестра. Дата начала семестра имеет номер 0 (ноль).

weight — вес теста в % в оценке за курс. Обычно экзамены рассматриваются отдельно и имеют вес 100%; сумма всех остальных оценок составляет 100%.

2) courses.csv — файл содержит список предметов по семестрам.

code_module — предмет (идентификационный код).

code_presentation — семестр (идентификационный код).

module_presentation_length — продолжительность семестра в днях.

3) studentAssessment.csv — этот файл содержит результаты тестов студентов. Если учащийся не отправляет работу на оценку, результат не записывается в таблицу.

id_assessment — тест (идентификационный номер).

id_student — идентификационный номер студента.

date_submitted — дата сдачи теста студентом, измеряемая как количество дней с начала семестра.

is_banked — факт перезачета теста с прошлого семестра (иногда курсы перезачитывают студентам, вернувшимся из академического отпуска).

score — оценка учащегося в этом тесте. Диапазон составляет от 0 до 100. Оценка ниже 40 неудачная/неуспешная сдача теста.

4) studentRegistration.csv — этот файл содержит информацию о времени, когда студент зарегистрировался для прохождения курса в семестре.

code_module — предмет (идентификационный код).

code_presentation — семестр (идентификационный код)

id_student — идентификационный номер студента.

date_registration — дата регистрации студента. Это количество дней, измеренное от начала семестра (например, отрицательное значение -30 означает, что студент зарегистрировался на прохождение курса за 30 дней до его начала).

date_unregistration — дата отмены регистрации студента с предмета. У студентов, окончивших курс, это поле остается пустым.

### 1. Сколько студентов успешно сдали только один курс? (Успешная сдача — это зачёт по курсу на экзамене) (7 баллов).

In [133]:
# Связь фреймов данных о студентах и их результатах по тестам
assessment_df = student_assessment.merge(assessments, how='left', on='id_assessment')

In [134]:
# Число студентов, которые успешно сдали только один курс
assessment_df.query('score >= 40 and assessment_type == "Exam"') \
             .groupby('id_student',as_index=False) \
             .agg({'id_assessment': 'count'}) \
             .rename(columns={'id_assessment': 'num_of_passed_exams'}) \
             .query('num_of_passed_exams == 1').shape[0]

3802

### 2. Выяви самый сложный и самый простой экзамен: найди курсы и экзамены в рамках курса, которые обладают самой низкой и самой высокой завершаемостью*. (5 баллов) 
завершаемость = кол-во успешных экзаменов / кол-во всех попыток сдать экзамен

In [135]:
assessment_df.query('assessment_type == "Exam"').groupby('code_module',as_index = False).agg({'id_student': 'count'})

Unnamed: 0,code_module,id_student
0,CCC,1915
1,DDD,3044


In [136]:
# Студенты, которые сдавали экзамены с группировкой по предмету и семестру
all_students = assessment_df.query('assessment_type == "Exam"') \
                            .groupby(['code_module', 'code_presentation'],as_index=False) \
                            .agg({"id_student": 'count'}) \
                            .rename(columns={'id_student': 'number_of_tried'})

# Студенты, которые успешно сдали экзамены с группировкой по предмету и семестру
passed_students = assessment_df.query('assessment_type == "Exam" and score >= 40') \
                               .groupby(['code_module', 'code_presentation'],as_index=False) \
                               .agg({"id_student": 'count'}) \
                               .rename(columns={'id_student': 'number_of_passed'})

In [137]:
# объединяем два фрейма студентов по предмету и создаем колонку завершаемости предмета
exams_df = passed_students.merge(all_students, how = 'inner')

exams_df['passing_rate'] =  exams_df.number_of_passed / exams_df.number_of_tried

exams_df

Unnamed: 0,code_module,code_presentation,number_of_passed,number_of_tried,passing_rate
0,CCC,2014B,664,747,0.888889
1,CCC,2014J,1019,1168,0.872432
2,DDD,2013B,504,602,0.837209
3,DDD,2013J,878,968,0.907025
4,DDD,2014B,485,524,0.925573
5,DDD,2014J,842,950,0.886316


In [139]:
# определяем минимальное и максимальное значения завершаемости курсов
min_ending = exams_df.passing_rate.min()

max_ending = exams_df.passing_rate.max()

In [141]:
# Экзамен и код экзамена с самой низкой завершаемостью
exams_df.query('passing_rate == @min_ending')[['code_module', 'code_presentation']]

Unnamed: 0,code_module,code_presentation
2,DDD,2013B


In [142]:
# Экзамен и код экзамена с самой высокой завершаемостью
exams_df.query('passing_rate == @max_ending')[['code_module', 'code_presentation']]

Unnamed: 0,code_module,code_presentation
4,DDD,2014B


### 3. По каждому предмету определи средний срок сдачи экзаменов (под сдачей понимаем последнее успешное прохождение экзамена студентом). (5 баллов) 

In [143]:
# Определяем средний срок сдачи экзамена
mean_pass_date_df = assessment_df.query('assessment_type == "Exam" and score >= 40') \
             .groupby(['code_module', 'code_presentation'],as_index=False) \
             .agg({"date_submitted": 'mean'}) \
             .rename(columns={'date_submitted': 'average_pass_date'}) \

mean_pass_date_df

Unnamed: 0,code_module,code_presentation,average_pass_date
0,CCC,2014B,231.581325
1,CCC,2014J,244.404318
2,DDD,2013B,230.164683
3,DDD,2013J,239.509112
4,DDD,2014B,234.936082
5,DDD,2014J,242.804038


### 4. Выяви самые популярные курсы (ТОП-3) по количеству регистраций на них. А также курсы с самым большим оттоком (ТОП-3). (8 баллов)

In [144]:
# ТОП-3 курса по числу регистраций
student_registration.groupby('code_module', as_index=False) \
                    .agg({'id_student': 'count'}) \
                    .rename(columns={'id_student': 'number_of_reg'}) \
                    .sort_values('number_of_reg', ascending=False) \
                    .head(3)

Unnamed: 0,code_module,number_of_reg
1,BBB,7909
5,FFF,7762
3,DDD,6272


In [145]:
# ТОп-3 курса по оттоку студентов
student_registration.groupby('code_module', as_index=False) \
                    .agg({'date_unregistration': 'count'}) \
                    .rename(columns={'date_unregistration': 'number_of_unreg'}) \
                    .sort_values('number_of_unreg', ascending=False) \
                    .head(3)

Unnamed: 0,code_module,number_of_unreg
5,FFF,2380
1,BBB,2377
3,DDD,2235


### Напиши функцию на python, позволяющую строить когортный (семестровый) анализ. В период с начала 2013 по конец 2014 выяви семестр с самой низкой завершаемостью курсов и самыми долгими средними сроками сдачи курсов. (10 баллов) 

In [150]:
def Cohort():
#     импортируем датафреймы
    assessments = pd.read_csv('assessments.csv')
    courses = pd.read_csv('courses.csv')
# создаем датафреймы для анализа
    assessment_df = student_assessment.merge(assessments, how='left', on='id_assessment')
# число студентов, сдававших экзамены
    all_students = assessment_df.query('assessment_type == "Exam"') \
                            .groupby( 'code_presentation',as_index=False) \
                            .agg({"id_student": 'count'}) \
                            .rename(columns={'id_student': 'number_of_tried'})
# студенты, успешно сдавшие экзамены
    passed_students = assessment_df.query('assessment_type == "Exam" and score >= 40') \
                               .groupby('code_presentation',as_index=False) \
                               .agg({"id_student": 'count'}) \
                               .rename(columns={'id_student': 'number_of_passed'})
#     датафрейм для расчета завершаемости
    exams_df = passed_students.merge(all_students, how = 'inner')
    exams_df['passing_rate'] =  exams_df.number_of_passed / exams_df.number_of_tried
#     датафрейм среднего времени сдачи экзаменов за семестр
    average_pass_date = assessment_df.query('assessment_type == "Exam" and score >= 40') \
             .groupby('code_presentation', as_index=False) \
             .agg({"date_submitted": 'mean'}) \
             .rename(columns={'date_submitted': 'average_pass_date'})
#     Объединяем датафрейм с завершаемостью курсов на семестре и средним временем завершения экзамена
    df = exams_df.merge(average_pass_date, how='inner')
    df = df.set_index('code_presentation')
    return df

In [147]:
df = Cohort()

In [148]:
# семестр с самой низкой завершаемостью курсов
df['passing_rate'].idxmin()

'2013B'

In [149]:
# семестр c самыми долгими средними сроками сдачи курсов
df['average_pass_date'].idxmax()

'2014J'

#### 6. Часто для качественного анализа аудитории используют подходы, основанные на сегментации. Используя python, построй адаптированные RFM-кластеры студентов, чтобы качественно оценить свою аудиторию. В адаптированной кластеризации можешь выбрать следующие метрики: R - среднее время сдачи одного экзамена, F - завершаемость курсов, M - среднее количество баллов, получаемое за экзамен. Подробно опиши, как ты создавал кластеры. Для каждого RFM-сегмента построй границы метрик recency, frequency и monetary для интерпретации этих кластеров. Пример такого описания: RFM-сегмент 132 (recency=1, frequency=3, monetary=2) имеет границы метрик recency от 130 до 500 дней, frequency от 0.1 до 0.5, monetary от 55 до 72 баллов. Описание подхода можно найти тут. (35 баллов)