# Курсовая работа. Блок 1
*Pandas и Matplotlib*

**NB!** Код должен быть с комментариями к каждому логическому блоку кода. В противном случае работа **не** будет принята. <br><br>
Выполнение курсовой работы может потребовать использование дополнительных библиотек. 

<br><br>
**Описание работы:**

Перед вами стоит бизнес-задача – на основании имеющихся данных подготовить аналитический отчет, который в дальнейшем поможет продюсерам образовательных программ эффективно выстраивать стратегию по модернизированию и улучшению курсов. В начале отчета предлагается оформить емкий описательный блок по каждому курсу на основании рассчитанных показателей. Далее предлагается посчитать потенциальную нагрузку на преподавателей, чтобы оценить необходимость расширения штата сотрудников. Затем идет блок из двух пунктов по анализу качества контента курсов, где необходимо выявить проблемные модули, которые, возможно, требуют доработки. Также стоит задача выявить потенциальную сезонность. Наконец, предложено задание для самостоятельной разработки метрики успеваемости студентов для нахождения тех, кто значительно хуже справляются с прохождением курса. Каждый из пунктов анализа предполагается сопроводить аналитическим выводом на основании рассчитанных метрик.

<br><br>

_________
Обозначения:<br><br>
&nbsp;&nbsp;&nbsp;&nbsp;**(p)** – задание может быть выполнено после прохождения модулей по Pandas <br>
&nbsp;&nbsp;&nbsp;&nbsp;**(m)** – задание может быть выполнено после прохождения модуля по Matplotlib <br>
&nbsp;&nbsp;&nbsp;&nbsp;⭐ – необязательное задание повышенной сложности
_________

[Codebook](#Codebook) <br>
[1. Описание и начальная работа с данными](#1.1-Описание-и-начальная-работа-с-данными)<br>
[2. Расчет потенциальной нагрузки на преподавателей](#2.-Расчет-потенциальной-нагрузки-на-преподавателей)<br>
[3. Выявление проблемных модулей](#3.-Выявление-проблемных-модулей)<br>
[4. Расчет конверсии](#4.-Расчет-конверсии) <br>
[5. Метрика успеваемости ](#5.-Метрика-успеваемости)

## Codebook

`courses.csv` содержит следующие значения: <br><br>
&nbsp;&nbsp;&nbsp;&nbsp; `id` – идентификатор курса <br>
&nbsp;&nbsp;&nbsp;&nbsp; `title` – название курса <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `field` – сфера, к которой относится курс <br> <br><br>
`students.csv` содержит следующие значения: <br><br>
&nbsp;&nbsp;&nbsp;&nbsp; `id` – идентификатор студента <br>
&nbsp;&nbsp;&nbsp;&nbsp; `city` – город студента <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `birthday` – день рождения студента <br> <br><br>
`course_contents.csv` содержит следующие значения: <br><br>
&nbsp;&nbsp;&nbsp;&nbsp; `course_id` – идентификатор курса <br>
&nbsp;&nbsp;&nbsp;&nbsp; `module_number` – номер модуля <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `module_title` – название модуля <br> 
&nbsp;&nbsp;&nbsp;&nbsp; `lesson_number` – номер урока <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `lesson_title` – название урока <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `lesson_token` – токен урока <br> 
&nbsp;&nbsp;&nbsp;&nbsp; `is_video` – наличие видео *(true/false)* <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `is_homework` – наличие домашней работы *(true/false)* <br>
<br><br>
`progresses.csv` содержит следующие значения: <br><br>
&nbsp;&nbsp;&nbsp;&nbsp; `id` – идентификатор прогресса <br>
&nbsp;&nbsp;&nbsp;&nbsp; `student_id` – идентификатор студента <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `course_id` – идентификатор курса <br> <br><br>
`progress_phases.csv` содержит следующие значения: <br><br>
&nbsp;&nbsp;&nbsp;&nbsp; `progress_id` – идентификатор прогресса <br>
&nbsp;&nbsp;&nbsp;&nbsp; `module_number` – номер модуля <br>
&nbsp;&nbsp;&nbsp;&nbsp; `lesson_number` – номер урока <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `status` – статус прохождения урока <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `start_date` – дата начала <br> 
&nbsp;&nbsp;&nbsp;&nbsp; `finish_date` – дата окончания <br>
<br><br>

In [None]:
import datetime

import pandas as pd
import matplotlib.pyplot as plt
from datetime import datetime
from matplotlib.patches import Patch

today = pd.to_datetime('today')

In [None]:
df_courses = pd.read_csv('courses.csv')
df_courses_content = pd.read_csv('course_contents.csv')
df_progress_phases = pd.read_csv('progress_phases.csv', parse_dates= ['start_date', 'finish_date'])
df_progresses = pd.read_csv('progresses.csv')
df_students = pd.read_csv('students.csv', parse_dates= ['birthday'])

In [None]:
df_students.birthday = pd.to_datetime(df_students.birthday, errors= 'coerce', yearfirst= True)

In [None]:
df_students.info()

In [None]:
print(df_courses.shape)
print(df_courses_content.shape)
print(df_progress_phases.shape)
print(df_progresses.shape)

In [None]:
df_1 = pd.merge(df_progresses, df_progress_phases, left_on= 'id', right_on = 'progress_id')

print(df_1.shape)
print(df_progress_phases.shape)

In [None]:
df_2 = pd.merge(df_courses_content, df_1)
df_2.shape

In [None]:
%%time
df_3 = pd.merge(df_courses, df_2, left_on = 'id', right_on= 'course_id')
df_3.shape

In [None]:
%%time
df_main = df_3.copy(deep = True)
df_main = df_main.drop(['Unnamed: 0', 'id_x', 'id_y'], axis = 1)
df_main.shape

## 1. Описание и начальная работа с данными

Вам необходимо подготовить данные и описать их. Данные реальные и содержат пропущенные значения, а также лишние относительно друг друга данные. <br>

Объедините датасеты (кроме `students.scv`) в один общий для дальнейшей работы. Отдельный датасет создайте для расчета среднего возраста студентов курсов (отдельный датасет со `students.scv` нужен, чтобы в основном не потерять значения в основном датасете из-за того, что не по всем студентам есть анкетные данные о дате рождения). <br> <br>
Опишите данные: <br>
1. **(p)** Посчитайте
      * общее количество курсов в датасете, 
      * количество модулей на каждом курсе, 
      * количество уроков в каждом модуле на каждом курсе, 
      * медианное количество уроков в модуле на каждом курсе, 
      * количество учеников на каждом курсе
      * минимальный, максимальный, средний, медианный возраст студентов
      * минимальный, максимальный, средний, медианный возраст студентов на каждом курсе
2. **(m)** Постройте bar-chart, отражающий количество студентов на каждом курсе. Ticks нужно развернуть так, чтобы они были читаемы
3. **(m)** Постройте горизонтальный (столбцы должны располагаться горизонтально) bar-chart, отражающий количество студентов на каждом курсе. График должен иметь заголовок. Значения должны быть отсортированы. Цвет столбцов должен содержать информацию о сфере, к которой относится курс (то есть нужна легенда). Прозрачность должна стоять на отметке 0.1. На график должна быть нанесена линия медианы. У медианы должен быть свой цвет. Рамки у графика быть не должно ⭐
4.     На основании рассчитанных значений опишите данные (описание должно быть полным и покрывать все полученные выше метрики)

_____________________________________________________________________


Для того, чтобы проверить, что вы правильно соединили все датасеты в основной (без `students.csv`), запустите аналогичный приведенному ниже запрос. Выдача должна совпадать. Имейте в виду, что названия некоторых столбцов были переименованы.

##### 1.1.1 Посчитайте общее количество курсов в датасете

In [None]:
courses_total = df_main['title'].unique()
print(courses_total)
print(courses_total.shape)

Для подготовки аналитического отчета взяты данные из 15 курсов.

##### 1.1.2 Посчитайте количество модулей на каждом курсе

In [None]:
df_main[['title', 'module_title']].groupby('title').nunique().sort_values('module_title', ascending= False)

Лидером по количеству модулей в курсе является курс "Анимация интерфейсов", наименьшее же количество модулей - в курсе "Веб-вёрстка для начинающих 2.0".

##### 1.1.3 Посчитайте количество уроков в каждом модуле на каждом курсе

In [None]:
count_lessons = df_main[['title', 'module_title', 'lesson_title']].groupby(['title', 'module_title']).nunique()


In [None]:
for i in courses_total:
    print('Название курса -', i)
    print(count_lessons.loc[i], end = '\n\n\n')

Лидером по количеству уроков в модуле является курс "Интернет-маркетолог от Ingate". На курсе "Веб-разработчик" модулей и курсов одинаковое количество.

##### 1.1.4 Посчитайте медианное количество уроков в модуле на каждом курсе

In [None]:
count_lessons.groupby('title').median()

##### 1.1.5 Посчитайте количество учеников на каждом курсе

In [None]:
df_main[['title', 'student_id']].groupby('title').nunique().sort_values('student_id', ascending= False)

Наиболее популярным является курс "Интернет-маркетолог от Ingate", а наименее - "SMM-маркетолог от А до Я".

##### 1.1.6 Посчитайте минимальный, максимальный, средний, медианный возраст студентов

In [None]:
students_age = df_students.copy(deep= True)

In [None]:
students_age['age'] = (today - students_age.birthday)// pd.Timedelta(days = 365)

In [None]:
students_age.age.agg(['mean', 'median', 'max', 'min'])

Средний возраст студента на курсах - 31 год. Минимальный и максимальный возрасты расчитывались на текущий момент исхождя из представленных дат рождения студентов. На данном этапе выявлены выбросы, отфильтруем их.

In [None]:
students_age[(students_age.age <= 0) | (students_age.age > 70)].sort_values('age', ascending= False)

In [None]:
students_age = students_age.drop(students_age[(students_age.age <= 0) | (students_age.age > 70)].index)

In [None]:
students_age.age.agg(['mean', 'median', 'max', 'min'])

После фильтрации данных и выявления выбросов была установлена граница максимального возраста в 70 лет, так как способности к обучению людей выше 70 лет вызывают сомнения. Далее отфильтруем данные для определения минимального возраста.

In [None]:
students_age[(students_age.age > 0) & (students_age.age < 17)]

In [None]:
students_age = students_age.drop(students_age[(students_age.age > 0) & (students_age.age < 17)].index)

In [None]:
students_age.age.agg(['mean', 'median', 'max', 'min'])

В ходе исследования данных для выявления минимального возраста была выставлена граница в 17 лет, так как дальнейшее иследование данных показывает, что студенты младше на данных курсах не обучаются.

##### 1.1.7 Посчитайте минимальный, максимальный, средний, медианный возраст студентов на каждом курсе

In [None]:
df_main_students = df_main.copy(deep = True)
df_main_students.shape

In [None]:
df_main_students.head(1)

In [None]:
students_age.head(1)

In [None]:
df_main_students = df_main_students.merge(students_age, how = 'left', left_on = 'student_id', right_on = 'id', copy= False)
df_main_students.shape

In [None]:
df_main_students.head(1)
df_main_students = df_main_students.drop(['id_', 'id', 'city', 'birthday'], axis= 1)
df_main_students.shape

In [None]:
df_main_students.head()

In [None]:
df_main_students[['title', 'student_id', 'age']].groupby('title').agg(['mean', 'median', 'max', 'min'])

Анализ студентов на курсе по возрастам показывает, что самому старшему студенту - 68 лет, а самому младшему - 17. 

##### 1.2. Постройте bar-chart, отражающий количество студентов на каждом курсе. Ticks нужно развернуть так, чтобы они были читаемы

In [None]:
students_number_on_courses = df_main_students[['title', 'student_id']].groupby('title').nunique().sort_values('student_id', ascending= False)

fig, ax = plt.subplots(figsize = (15, 6))

plt.bar(students_number_on_courses.index, students_number_on_courses.student_id)
plt.title('Диаграмма распределения учеников по курсам')
plt.xlabel('Название курса')
plt.ylabel('Количество учеников')
plt.xticks(students_number_on_courses.index, rotation = 'vertical',);

##### 1.3. Постройте горизонтальный (столбцы должны располагаться горизонтально) bar-chart, отражающий количество студентов на каждом курсе. График должен иметь заголовок. Значения должны быть отсортированы. Цвет столбцов должен содержать информацию о сфере, к которой относится курс (то есть нужна легенда). Прозрачность должна стоять на отметке 0.1. На график должна быть нанесена линия медианы. У медианы должен быть свой цвет. Рамки у графика быть не должно ⭐

In [None]:
labels = ('Веб', 'Маркетинг', 'Программирование', 'Дизайн', 'Менеджмент')
colors = ('red', 'blue', 'yellow', 'cyan', 'pink')
cmap = dict(zip(colors, labels))

In [None]:
color_dict = {
            'Веб-дизайн с нуля 2.0' : 'red', 'Веб-вёрстка для начинающих 2.0' : 'red', 'Веб-дизайн PRO 2.0' : 'red', 'Веб-разработчик' : 'red',
            'Веб-дизайн Базовый' : 'red',
            'Интернет-маркетолог от Ingate' : 'blue', 'SMM-маркетолог от А до Я' : 'blue',
            'JavaScript с нуля' : 'yellow', 'PHP-разработчик с 0 до PRO. Часть 1' : 'yellow', 'Java-разработчик' : 'yellow', 
            'Java-разработчик c нуля': 'yellow', 'Excel Базовый' : 'yellow',
            'UX-дизайн' : 'cyan', 'Анимация интерфейсов' : 'cyan',
            'Руководитель digital-проектов' : 'pink'
}

In [None]:
fig, ax = plt.subplots(figsize = (20, 10))

for i in range(len(students_number_on_courses.index)):

    ax.barh(students_number_on_courses.index[i], students_number_on_courses.student_id[i], alpha = 0.9, color = color_dict.get(students_number_on_courses.index[i]))

ax.axvline(x = students_number_on_courses.median()['student_id'], color = 'green', ls = '--', label = 'Медиана')
ax.set_ylabel('Название курса')
ax.set_xlabel('Количество учеников')
ax.set_title('Распределение учеников по направлениям')
plt.xticks(list(range(0, 2200, 150)) + [students_number_on_courses.median()['student_id'], 2200], rotation = 'vertical')
plt.legend()
ax.spines[['top', 'left', 'right', 'bottom']].set_visible(False)

patches = [Patch(color = v, label = k) for v, k in cmap.items()]

plt.legend(title = 'Направления', labels = labels , handles = patches)

plt.show()

Курсы по веб и программированию составляют наибольшую часть в данном исследовании - по 5 курсов в каждом направлении. Далее идут курсы по дизайну и маркетингу - по 2 в каждом направлении. Курс по менеджементу представлен всего один. Наименее и наиболее популярными являются курсы по маркетингу. 

## 2. Расчет потенциальной нагрузки на преподавателей

1. **(p)** Рассчитать прирост студентов на каждом курсе в каждом месяце за всю историю (каждый месяц в диапазоне от марта 2016 до июля 2019 включительно). Считать дату начала прохождения курса студентом по дате начала первой домашней работы.
2. **(m)** На основании первого пункта построить line-graph с приростом студентов в каждом месяце для каждого курса. 15 графиков. Графики должны иметь заголовки, оси должны быть подписаны. Ticks нужно развернуть так, чтобы они были читаемы.
3. **(m)** На основании первого пункта построить line-graph с несколькими линиями, отражающими прирост студентов в каждом месяце для каждого курса. 15 линий на графике. Ticks нужно развернуть так, чтобы они были читаемы. График должен иметь заголовок. Ось, отражающая прирост, должна быть подписана. Линия для каждого курса должна иметь свой цвет (нужна легенда). Рамок у графика быть не должно ⭐
4. **(p)** Рассчитать количество прогрессов по выполнению домашних работ в каждом месяце за всю историю (каждый месяц в диапазоне от марта 2016 до июля 2019 включительно) для каждого курса. Учитывать, что выполнение домашнего задания может перетекать из одного месяца в другой (такие дз надо включать в общее число прогрессов для всех месяцев, которые покрывает срок выполнения этих дз)
5. **(m)** Построить line-graph по четвертому пункту. 15 графиков. Графики должны иметь заголовки, оси должны быть подписаны. Ticks нужно развернуть так, чтобы они были читаемы
6. **(m)** Построить один line-graph для всех курсов по четвертому пункту. 15 линий на графике. Ticks нужно развернуть так, чтобы они были читаемы. График должен иметь заголовок. Ось, отражающая количество прогрессов, должна быть подписана. Линия для каждого курса должна иметь свой цвет (нужна легенда). Рамок у графика быть не должно ⭐
7. На основании рассчитанных значений сделайте аналитический вывод (должен быть полным и покрывать все полученные выше метрики)

##### 2.1. Рассчитать прирост студентов на каждом курсе в каждом месяце за всю историю (каждый месяц в диапазоне от марта 2016 до июля 2019 включительно). Считать дату начала прохождения курса студентом по дате начала первой домашней работы.


In [None]:
# создаем датафрейм с первыми домашними работами на каждом курсе.
df_hw_starts = df_main[df_main['is_homework'] == True].groupby('title').first().sort_values(['start_date'])
df_hw_starts = df_hw_starts.drop(['lesson_token', 'is_video', 'student_id', 'progress_id', 'status', 'finish_date', 'field'], axis = 1)
df_hw_starts

In [None]:
# мерджим с основным датафрейм чтобы остались только записи с началом домашних работ
df_hw_starts_count = df_hw_starts.merge(df_main, 
                                        how = 'left', 
                                        on = ['course_id', 'module_number', 'lesson_number'],
                                        suffixes= ('_count', '_main'))
df_hw_starts_count.shape

In [None]:
print(df_main.shape)
print(df_hw_starts_count.shape)

In [None]:
# создаем функцию для поиска прироста количества студентов на курсе
def students_delta(course_name):
    df_22 = df_hw_starts_count[df_hw_starts_count.title == course_name]\
        .sort_values('start_date_main', ascending= True)\
        .groupby(pd.Grouper(key = 'start_date_main', freq= 'm'))\
        .agg('count')['student_id']

    return df_22

In [None]:
# список курсов
list_of_courses = list(df_main.title.unique())

In [None]:
for i in list_of_courses:
    print(i, students_delta(i))

##### 2.2. На основании первого пункта построить line-graph с приростом студентов в каждом месяце для каждого курса. 15 графиков. Графики должны иметь заголовки, оси должны быть подписаны. Ticks нужно развернуть так, чтобы они были читаемы.

In [None]:
dates = pd.date_range(start = '2016-03-01', end= '2019-08-01', freq= 'M').tolist()
courses_names = list(df_main.title.unique())

In [None]:
fig, axs = plt.subplots(nrows = 15, figsize = (15, 75))


for i, course in enumerate(courses_names):
    graph = students_delta(course)
    axs[i].plot(graph.index, graph.values, label = course)
    axs[i].set_ylabel('Прирост учеников, шт.')
    axs[i].set_xlabel('Месяц')
    axs[i].legend()

plt.show()
    


##### 2.3. На основании первого пункта построить line-graph с несколькими линиями, отражающими прирост студентов в каждом месяце для каждого курса. 15 линий на графике. Ticks нужно развернуть так, чтобы они были читаемы. График должен иметь заголовок. Ось, отражающая прирост, должна быть подписана. Линия для каждого курса должна иметь свой цвет (нужна легенда). Рамок у графика быть не должно ⭐

In [None]:
fig, ax = plt.subplots(figsize = (30, 15))


for course in courses_names:
    graph = students_delta(course)
    plt.plot(graph.index, graph.values, label = course)
    plt.xticks(dates, rotation = 30)
    plt.ylabel('Прирост учеников по итогам месяца, шт.')
    plt.xlabel('Месяц')
    plt.title('Прирост учеников на различных курсах в период с 2016-03 по 2019-07 ')
    plt.legend()
    ax.spines[['top', 'left', 'right', 'bottom']].set_visible(False)

plt.show()

##### 2.4. Рассчитать количество прогрессов по выполнению домашних работ в каждом месяце за всю историю (каждый месяц в диапазоне от марта 2016 до июля 2019 включительно) для каждого курса. Учитывать, что выполнение домашнего задания может перетекать из одного месяца в другой (такие дз надо включать в общее число прогрессов для всех месяцев, которые покрывает срок выполнения этих дз)

In [None]:
java_hw_done = java_1_hw[java_1_hw.status == 'done']

In [None]:
java_hw_done['period'] = java_hw_done['finish_date'] - java_hw_done['start_date']

In [None]:
java_hw_done.head()

In [None]:
java_1_hw.sort_values('start_date', ascending= True).groupby(pd.Grouper(key = 'start_date', freq= 'm')).agg('count')['student_id']

In [None]:
df_main[(df_main.title == 'Excel Базовый') & (df_main.status == 'done')].sort_values('start_date', ascending= True)\
    .groupby(pd.Grouper(key = 'start_date', freq= 'M')).agg('count')['status']

In [None]:
for i in courses_names:
    freq = df_main[(df_main.title == i) & (df_main.status == 'done')].sort_values('start_date', ascending= True)\
        .groupby(pd.Grouper(key = 'start_date', freq= 'M')).agg('count')['status']
    print(freq)

## 3. Выявление проблемных модулей

1. **(p)** Рассчитать минимальное, максимальное, среднее, медианное время прохождения каждого модуля (разность между временем начала и окончания выполнения домашней работы) для каждого курса. Если домашних заданий в модуле несколько, то считать разность между временем начала выполнения первой домашней работы и временем окончания выполнения последней домашней работы в модуле
2. **(m)** На основании первого пункта построить line-graph с медианным временем прохождения каждого модуля для каждого курса. 15 графиков. Графики должны иметь заголовки
3. **(p)**  Чтобы выявить сезонность, посчитать медианное время выполнения домашней работы по месяцам (12 месяцев, январь-декабрь) для каждого курса. 
4. **(m)** На основании третьего пункта построить line-graph, на который будут нанесены линии для каждого курса с медианным временем выполнения домашней работы по месяцам. 15 линий на графике. График должен иметь заголовок. Ось, отражающая время прохождения, должна быть подписана. Линия для каждого курса должна иметь свой цвет (нужна легенда). Рамок у графика быть не должно  ⭐
5. На основании рассчитанных значений сделайте аналитический вывод (должен быть полным и покрывать все полученные выше метрики)

In [None]:
### YOUR CODE HERE ###




## 4. Расчет конверсии

1. **(p)** Посчитать конверсию перехода студентов из одного модуля в другой на каждом курсе. Формула: отношение количества студентов, приступивших к выполнению домашнего задания в этом модуле (если дз в модуле несколько, то считать по первому дз в модуле), к количеству студентов, сдавших задание в предыдущем модуле (если дз в модуле несколько, то считать по последнему дз в модуле).
2. **(m)** Постройте bar-chart, отражающий конверсию перехода студентов из одного модуля в другой на каждом курсе. График должен иметь заголовок. Ticks нужно развернуть так, чтобы они были читаемы
3. **(m)** Постройте горизонтальный (столбцы должны располагаться горизонтально) bar-chart, отражающий конверсию перехода студентов из одного модуля в другой на каждом курсе. 15 графиков. Графики должны иметь заголовки. Ticks должны содержать номер и название модуля. Цвет столбцов графиков должен содержать информацию о сфере, к которой относится курс (нужна легенда). Прозрачность должна стоять на отметке 0.1. На графики должна быть нанесена линия медианы конверсии для каждого курса. У медианы должен быть свой цвет. Рамок у графиков быть не должно ⭐
4. На основании рассчитанных значений сделайте аналитический вывод (должен быть полным и покрывать все полученные выше метрики)

In [None]:
### YOUR CODE HERE ###




## 5. Метрика успеваемости 

&nbsp;&nbsp;&nbsp;&nbsp;*(необязательное задание)*

Иногда студенты берут курсы, которые оказываются для них неподъемными. Это может быть как по причинам недостаточной изначальной подготовки, так и по причинам, связанным с низкой мотивацией студента. Для улучшения качества контента полезно выявить причину. На основании имеющихся данных придумайте метрику успеваемости студента. **Обоснуйте ее.** Выявите таких студентов на каждом курсе, чтобы предоставить продюсерам список проблемных студентов. 

In [None]:
### YOUR CODE HERE ###


