# Практикум №1
## Аналитика. Начальный уровень

<br><br>
**Описание работы:**

Перед вами стоит бизнес-задача: на основании имеющихся данных подготовить аналитический отчёт, который в дальнейшем поможет продюсерам образовательных программ эффективно выстраивать стратегию по модернизированию и улучшению курсов. В начале отчёта предлагается оформить ёмкий описательный блок по каждому курсу на основании рассчитанных показателей. Далее — посчитать потенциальную нагрузку на преподавателей, чтобы оценить необходимость расширения штата сотрудников. Затем идёт блок из двух пунктов по анализу качества контента курсов, где необходимо выявить проблемные модули, которые, возможно, требуют доработки. Также стоит задача выявить потенциальную сезонность. Наконец, предложено задание для самостоятельной разработки метрики успеваемости студентов для нахождения тех, кто значительно хуже справляется с прохождением курса. Каждый из пунктов анализа предполагается сопроводить аналитическим выводом на основании рассчитанных метрик.
<br><br>
_________
Обозначения:<br><br>
&nbsp;&nbsp;&nbsp;&nbsp;**(p)** — задание нужно выполнить инструментами Pandas, **использование циклов for/while НЕ допускается**. <br>
&nbsp;&nbsp;&nbsp;&nbsp;**(m)** — задание нужно выполнить инструментами Matplotlib или Seaborn, использование циклов for/while допускается; <br>
&nbsp;&nbsp;&nbsp;&nbsp;⭐ — необязательное задание повышенной сложности.
_________

**Содержание работы:** <br>
[Codebook](#Codebook) <br>
[1. Описание и начальная работа с данными](#1.-Описание-и-начальная-работа-с-данными)<br>
[2. Расчёт потенциальной нагрузки на преподавателей](#2.-Расчет-потенциальной-нагрузки-на-преподавателей)<br>
[3. Выявление проблемных модулей](#3.-Выявление-проблемных-модулей)<br>
[4. Расчёт конверсии](#4.-Расчет-конверсии) <br>
[5. Метрика успеваемости ](#5.-Метрика-успеваемости)

## Codebook

`courses.csv` содержит следующие значения: <br><br>
&nbsp;&nbsp;&nbsp;&nbsp; `id` — идентификатор курса, <br>
&nbsp;&nbsp;&nbsp;&nbsp; `title` — название курса, <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `field` — сфера, к которой относится курс. <br> <br><br>
`students.csv` содержит следующие значения: <br><br>
&nbsp;&nbsp;&nbsp;&nbsp; `id` — идентификатор студента, <br>
&nbsp;&nbsp;&nbsp;&nbsp; `city` — город студента, <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `birthday` — день рождения студента. <br> <br><br>
`course_contents.csv` содержит следующие значения: <br><br>
&nbsp;&nbsp;&nbsp;&nbsp; `course_id` — идентификатор курса, <br>
&nbsp;&nbsp;&nbsp;&nbsp; `module_number` — номер модуля, <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `module_title` — название модуля, <br> 
&nbsp;&nbsp;&nbsp;&nbsp; `lesson_number` — номер урока, <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `lesson_title` — название урока, <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `lesson_token` — токен урока, <br> 
&nbsp;&nbsp;&nbsp;&nbsp; `is_video` — наличие видео *(true/false)*, <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `is_homework` — наличие домашней работы *(true/false)*. <br>
<br><br>
`progresses.csv` содержит следующие значения: <br><br>
&nbsp;&nbsp;&nbsp;&nbsp; `id` — идентификатор прогресса, <br>
&nbsp;&nbsp;&nbsp;&nbsp; `student_id` — идентификатор студента, <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `course_id` — идентификатор курса, <br> <br><br>
`progress_phases.csv` содержит следующие значения: <br><br>
&nbsp;&nbsp;&nbsp;&nbsp; `progress_id` — идентификатор прогресса, <br>
&nbsp;&nbsp;&nbsp;&nbsp; `module_number` — номер модуля, <br>
&nbsp;&nbsp;&nbsp;&nbsp; `lesson_number` — номер урока, <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `status` — статус прохождения урока, <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `start_date` — дата начала, <br> 
&nbsp;&nbsp;&nbsp;&nbsp; `finish_date` — дата окончания. <br>
<br><br>

In [1]:
# Подключение библиотек
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime

## 1. Описание и начальная работа с данными

Подготовьте данные и опишите их. Данные реальные и содержат пропущенные значения, а также лишние относительно друг друга данные. <br>

Объедините датасеты (кроме `students.scv`) в один общий для дальнейшей работы. Отдельный датасет создайте для расчёта среднего возраста студентов курсов (отдельный датасет со `students.scv` нужен, чтобы не потерять значения в основном датасете из-за того, что не по всем студентам есть анкетные данные о дате рождения). <br><br>

<details>
<summary><b>Hint #1</b></summary>
    <p>
Для объединения датасетов нужно использовать pandas метод <a href="https://www.shanelynn.ie/merge-join-dataframes-python-pandas-index-1/#mergetypes">merge()</a>.
    </p>
    <br>
</details>
<details>
<summary><b>Hint #2</b></summary>
    <p>
В итоговом датасете должно получиться 350677 строк. Ошибок памяти при таком количестве строк в датасете не будет. 
    </p>
    <br>
</details>


Опишите данные: <br>
1. **(p)** Посчитайте
<ol type="a">
  <li>общее количество курсов в датасете;</li>
  <li>количество модулей на каждом курсе;</li>
  <li>количество уроков в каждом модуле на каждом курсе;</li>
  <li>медианное количество уроков в модуле на каждом курсе;</li>
  <li>количество учеников на каждом курсе;</li>
  <li>минимальный, максимальный, средний, медианный возраст студентов *(чтобы отсечь некорректные значения, в данном случае достаточно установить правдоподобный диапазон на ваше усмотрение)*;</li>
  <li>минимальный, максимальный, средний, медианный возраст студентов на каждом курсе.</li>
</ol>
2. **(m)** Постройте bar-chart, отражающий количество студентов на каждом курсе. Ticks нужно развернуть так, чтобы они были читаемы.
3. **(m)** Постройте горизонтальный (столбцы должны располагаться горизонтально) bar-chart, отражающий количество студентов на каждом курсе. График должен иметь заголовок. Значения должны быть отсортированы. Цвет столбцов должен содержать информацию о сфере, к которой относится курс (то есть нужна легенда). Прозрачность должна стоять на отметке 0.5. На график должна быть нанесена линия медианы. У медианы должен быть свой цвет. Рамки у графика быть не должно ⭐
<details>
<summary><b>Hint #1</b></summary>
    <p>
График удобно строить, если сначала подготовить таблицу для него через метод <a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.unstack.html">unstack()</a>, чтобы «горизонтальные» колонки были по сферам курсов (4 колонки), а «вертикальные» по самим курсам (15 колонок-строк). 
    </p>
    <img src="https://miro.medium.com/max/1400/1*DYDOif_qBEgtWfFKUDSf0Q.png" alt="Stack/Unstack">
    <br>
</details>
4.     На основании рассчитанных значений опишите данные (описание должно быть полным и покрывать все полученные выше метрики).

_____________________________________________________________________


### 1) Проверяем данные в course_contents

In [6]:
course_contents_df = pd.read_csv('Data/course_contents.csv')
course_contents_df.head()

Unnamed: 0,course_id,module_number,module_title,lesson_number,lesson_title,lesson_token,is_video,is_homework
0,04ba6d0b40670c43a209141fa01fa784,1,"Введение в Motion Design. Тренды, разновидност...",1,Знакомство,aa344de3-1191-4e69-b485-61823118f71c,True,False
1,04ba6d0b40670c43a209141fa01fa784,1,"Введение в Motion Design. Тренды, разновидност...",2,"Введение в Motion Design. Тренды, разновидност...",246c8429-dd18-4f3a-a9fb-d3c07e7d6912,True,False
2,04ba6d0b40670c43a209141fa01fa784,1,"Введение в Motion Design. Тренды, разновидност...",3,Домашняя работа,c4377574-d117-45c7-8da5-dd7d1923517d,False,True
3,04ba6d0b40670c43a209141fa01fa784,2,12 принципов анимации от Walt Disney Studio,1,Интро,7ea16a2d-e6d1-4158-907f-ae0ce8379c45,True,False
4,04ba6d0b40670c43a209141fa01fa784,2,12 принципов анимации от Walt Disney Studio,2,12 принципов анимации,7eea2930-11db-45c9-a16c-0d800b6dc99d,True,False


In [7]:
course_contents_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1201 entries, 0 to 1200
Data columns (total 8 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   course_id      1201 non-null   object
 1   module_number  1201 non-null   int64 
 2   module_title   1201 non-null   object
 3   lesson_number  1201 non-null   int64 
 4   lesson_title   1201 non-null   object
 5   lesson_token   1201 non-null   object
 6   is_video       1201 non-null   bool  
 7   is_homework    1201 non-null   bool  
dtypes: bool(2), int64(2), object(4)
memory usage: 58.8+ KB


In [8]:
course_contents_df[course_contents_df.duplicated()]

Unnamed: 0,course_id,module_number,module_title,lesson_number,lesson_title,lesson_token,is_video,is_homework


In [9]:
course_contents_df[course_contents_df.duplicated(subset=['course_id', 'lesson_token'])]

Unnamed: 0,course_id,module_number,module_title,lesson_number,lesson_title,lesson_token,is_video,is_homework


### 2) Проверяем данные в courses

In [10]:
courses_df = pd.read_csv('Data/courses.csv', index_col=[0])
courses_df.head()

Unnamed: 0,id,title,field
0,943306102e5b067d08a29094f37b8193,Java-разработчик c нуля,Development
1,17013cd19d25cb3f28dc1b2683721bb9,Веб-дизайн Базовый,Design
2,ac634845fb0350d0e9d49078aaa4b68f,Excel Базовый,Business
3,0770b1b039964228294f1f34b29fc2c1,Руководитель digital-проектов,Business
4,abce125a877c2196a3bc7bfbc11b5fc5,Веб-вёрстка для начинающих 2.0,Development


In [11]:
courses_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 15 entries, 0 to 14
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   id      15 non-null     object
 1   title   15 non-null     object
 2   field   15 non-null     object
dtypes: object(3)
memory usage: 480.0+ bytes


In [12]:
courses_df[courses_df.duplicated()]

Unnamed: 0,id,title,field


In [13]:
courses_df[courses_df.duplicated(subset=['id', 'title'])]

Unnamed: 0,id,title,field


In [14]:
courses_df[courses_df.duplicated(subset=['id'])]

Unnamed: 0,id,title,field


In [15]:
courses_df.rename(columns = {'id':'course_id'}, inplace=True)

In [16]:
list(courses_df)

['course_id', 'title', 'field']

### 3) Проверяем данные в progress_phases

In [17]:
progress_phases_df = pd.read_csv('Data/progress_phases.csv')
progress_phases_df.head()

Unnamed: 0,progress_id,module_number,lesson_number,status,start_date,finish_date
0,a387ab916f402cb3fbfffd29f68fd0ce,2,4,done,2018-06-23 08:28:50.681065+00,2018-06-23 08:28:52.439542+00
1,a387ab916f402cb3fbfffd29f68fd0ce,1,1,done,2018-06-20 14:25:21.783762+00,2018-06-20 15:45:07.717209+00
2,a387ab916f402cb3fbfffd29f68fd0ce,2,2,done,2018-06-23 08:18:09.653771+00,2018-06-23 08:18:12.784616+00
3,a387ab916f402cb3fbfffd29f68fd0ce,1,4,done,2018-06-20 16:00:06.36178+00,2018-06-21 19:09:30.845034+00
4,a387ab916f402cb3fbfffd29f68fd0ce,1,6,done,2018-06-21 19:10:36.957891+00,2018-06-28 15:59:25.320418+00


In [18]:
progress_phases_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 350677 entries, 0 to 350676
Data columns (total 6 columns):
 #   Column         Non-Null Count   Dtype 
---  ------         --------------   ----- 
 0   progress_id    350677 non-null  object
 1   module_number  350677 non-null  int64 
 2   lesson_number  350677 non-null  int64 
 3   status         350677 non-null  object
 4   start_date     350677 non-null  object
 5   finish_date    334508 non-null  object
dtypes: int64(2), object(4)
memory usage: 16.1+ MB


In [19]:
progress_phases_df[progress_phases_df.duplicated()]

Unnamed: 0,progress_id,module_number,lesson_number,status,start_date,finish_date


### 4) Проверяем данные в progresses

In [20]:
progresses_df = pd.read_csv('Data/progresses.csv')
progresses_df.head()

Unnamed: 0,id,student_id,course_id
0,8459fbc07e32ec92bd7b43d7df9bfa89,a6ae278c0eab719b3784e5ea147c128f,0770b1b039964228294f1f34b29fc2c1
1,a9d173142534e33ce39146017f9c6835,e24062de06d301937b3b3a8e383e3e21,bf27a4bf4ada4c756451703ea62a914f
2,da26551a71cd62bbab844e3e54af7f71,35a36d90b745992b59085c8d54a072e7,6e4837f0a65c68efbfdd0594d6774701
3,cda22f5fb5b5dcfad42b59b91b1938dc,37e8e8179295ae764524223086b0b568,abce125a877c2196a3bc7bfbc11b5fc5
4,5ead083521d7f2284a43290c743aa93b,37e8e8179295ae764524223086b0b568,17013cd19d25cb3f28dc1b2683721bb9


In [21]:
progresses_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15934 entries, 0 to 15933
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   id          15934 non-null  object
 1   student_id  15934 non-null  object
 2   course_id   15934 non-null  object
dtypes: object(3)
memory usage: 373.6+ KB


In [22]:
progresses_df[progresses_df.duplicated()]

Unnamed: 0,id,student_id,course_id


In [23]:
progresses_df.rename(columns = {'id':'progress_id'}, inplace=True)

In [24]:
list(progresses_df)

['progress_id', 'student_id', 'course_id']

### 5) Проверяем данные в students

In [25]:
students_df = pd.read_csv('Data/students.csv')
students_df.head()

Unnamed: 0,id_,id,city,birthday
0,1325,35e8a1938b9a33d5e45c8f4451c4309a,,
1,7503,6c3e52be632fc50de9640147e4017dcd,Москва,1979-10-23
2,8972,2033122d7c9b24b36eebc468d5259642,,
3,9235,a6ae278c0eab719b3784e5ea147c128f,Москва,
4,9588,51b25c9afd20d178ef3c07276df38e2d,Великий Новгород,


In [26]:
students_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 43830 entries, 0 to 43829
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   id_       43830 non-null  int64 
 1   id        43830 non-null  object
 2   city      13161 non-null  object
 3   birthday  25499 non-null  object
dtypes: int64(1), object(3)
memory usage: 1.3+ MB


In [27]:
students_df[students_df.duplicated()]

Unnamed: 0,id_,id,city,birthday


### Merge

In [28]:
merge1_df = progress_phases_df.merge(progresses_df, how='inner', left_on='progress_id', right_on='progress_id')
merge1_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 350677 entries, 0 to 350676
Data columns (total 8 columns):
 #   Column         Non-Null Count   Dtype 
---  ------         --------------   ----- 
 0   progress_id    350677 non-null  object
 1   module_number  350677 non-null  int64 
 2   lesson_number  350677 non-null  int64 
 3   status         350677 non-null  object
 4   start_date     350677 non-null  object
 5   finish_date    334508 non-null  object
 6   student_id     350677 non-null  object
 7   course_id      350677 non-null  object
dtypes: int64(2), object(6)
memory usage: 21.4+ MB


In [29]:
merge2_df = merge1_df.merge(course_contents_df, how='inner', left_on=['course_id', 'module_number', 'lesson_number'], right_on=['course_id', 'module_number', 'lesson_number'])
merge2_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 350677 entries, 0 to 350676
Data columns (total 13 columns):
 #   Column         Non-Null Count   Dtype 
---  ------         --------------   ----- 
 0   progress_id    350677 non-null  object
 1   module_number  350677 non-null  int64 
 2   lesson_number  350677 non-null  int64 
 3   status         350677 non-null  object
 4   start_date     350677 non-null  object
 5   finish_date    334508 non-null  object
 6   student_id     350677 non-null  object
 7   course_id      350677 non-null  object
 8   module_title   350677 non-null  object
 9   lesson_title   350677 non-null  object
 10  lesson_token   350677 non-null  object
 11  is_video       350677 non-null  bool  
 12  is_homework    350677 non-null  bool  
dtypes: bool(2), int64(2), object(9)
memory usage: 30.1+ MB


In [30]:
all_attributes_df = merge2_df.merge(courses_df, how='inner', left_on='course_id', right_on='course_id')
all_attributes_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 350677 entries, 0 to 350676
Data columns (total 15 columns):
 #   Column         Non-Null Count   Dtype 
---  ------         --------------   ----- 
 0   progress_id    350677 non-null  object
 1   module_number  350677 non-null  int64 
 2   lesson_number  350677 non-null  int64 
 3   status         350677 non-null  object
 4   start_date     350677 non-null  object
 5   finish_date    334508 non-null  object
 6   student_id     350677 non-null  object
 7   course_id      350677 non-null  object
 8   module_title   350677 non-null  object
 9   lesson_title   350677 non-null  object
 10  lesson_token   350677 non-null  object
 11  is_video       350677 non-null  bool  
 12  is_homework    350677 non-null  bool  
 13  title          350677 non-null  object
 14  field          350677 non-null  object
dtypes: bool(2), int64(2), object(11)
memory usage: 35.4+ MB


### students - birthday

In [31]:
students_correct_df = students_df.dropna(subset=['birthday'])
students_correct_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 25499 entries, 1 to 43828
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   id_       25499 non-null  int64 
 1   id        25499 non-null  object
 2   city      11362 non-null  object
 3   birthday  25499 non-null  object
dtypes: int64(1), object(3)
memory usage: 996.1+ KB


In [28]:
# НЕОБХОДИМО ПОЧИСТИТЬ ДАТЫ (СУЩЕСТВУЮТ ВЫБРОСЫ)

### 1.A

In [32]:
all_attributes_df.course_id.nunique()

15

### 1.B

In [33]:
all_attributes_df.groupby(['title']).module_number.nunique().reset_index(name='count_modules')

Unnamed: 0,title,count_modules
0,Excel Базовый,9
1,Java-разработчик,17
2,Java-разработчик c нуля,9
3,JavaScript с нуля,18
4,PHP-разработчик с 0 до PRO. Часть 1,8
5,SMM-маркетолог от А до Я,11
6,UX-дизайн,20
7,Анимация интерфейсов,21
8,Веб-вёрстка для начинающих 2.0,8
9,Веб-дизайн PRO 2.0,17


### 1.C

In [34]:
all_attributes_df.groupby(['title', 'module_title']).lesson_number.nunique().reset_index(name='count_lessons')

Unnamed: 0,title,module_title,count_lessons
0,Excel Базовый,Визуализация данных Excel,5
1,Excel Базовый,Основной функционал Excel,11
2,Excel Базовый,Основной функционал Excel (продолжение),7
3,Excel Базовый,Сводные таблицы Excel,5
4,Excel Базовый,Формулы и функции Excel. Более сложные формулы,5
...,...,...,...
224,Руководитель digital-проектов,Решение факапов. Lean/TOC. Обзор.,5
225,Руководитель digital-проектов,Требовательность digital-продюсера,4
226,Руководитель digital-проектов,Управление временем,4
227,Руководитель digital-проектов,Управление дизайнерами. Разработка дизайна по ...,7


### 1.D

In [35]:
all_attributes_df.groupby(['title']).lesson_number.agg(['median']).rename(columns={'median': 'median_lessons'}).reset_index()

Unnamed: 0,title,median_lessons
0,Excel Базовый,4.0
1,Java-разработчик,4.0
2,Java-разработчик c нуля,5.0
3,JavaScript с нуля,4.0
4,PHP-разработчик с 0 до PRO. Часть 1,3.0
5,SMM-маркетолог от А до Я,3.0
6,UX-дизайн,3.0
7,Анимация интерфейсов,2.0
8,Веб-вёрстка для начинающих 2.0,4.0
9,Веб-дизайн PRO 2.0,3.0


### 1.E

In [36]:
all_attributes_df.groupby(['title']).student_id.nunique().reset_index(name='count_students')

Unnamed: 0,title,count_students
0,Excel Базовый,782
1,Java-разработчик,763
2,Java-разработчик c нуля,581
3,JavaScript с нуля,966
4,PHP-разработчик с 0 до PRO. Часть 1,854
5,SMM-маркетолог от А до Я,506
6,UX-дизайн,1151
7,Анимация интерфейсов,598
8,Веб-вёрстка для начинающих 2.0,2004
9,Веб-дизайн PRO 2.0,1711


### 1.F

In [34]:
# ПЕРЕД ЭТИМ НЕОБХОДИМО ПОЧИСИТЬ ДАННЫЕ И СОЗДАТЬ AGE
# students_correct_df.age.agg(['min', 'max', 'median', 'mean'])

### 1.G

## 2. Расчет потенциальной нагрузки на преподавателей

1. **(p)** Рассчитать количество студентов в каждом месяце для каждого курса, которые начинали выполнение первой домашней работы в каждом месяце за всю историю (каждый месяц в диапазоне от марта 2016 года до июля 2019 года включительно). При этом расчёт идёт по первой домашней работе по программе курса (не просто по любой работе, которую конкретный студент начал первой). Обратите внимание, что на разных курсах разный номер модуля, где это ДЗ лежит, но при этом нужно придумать, как лаконично отфильтровать данные по этой информации. Здесь важно не прописывать вручную в запросе, где на каком модуле лежит первое ДЗ, а попробовать придумать, как оптимизировать этот процесс, чтобы наше решение работало даже если бы у нас было не 15 курсов, а 15 тысяч курсов, и каждый со своим номером, где лежит первое ДЗ.

<details>
<summary><b>Hint #1</b></summary>
    <p>
В этом задании для оптимального решения нужна фильтрация одного датасета по другому, которую можно выполнить через merge(). Первый датасет будет с «адресами» первых домашних работ на курсах в соответствии с их программой. Второй — датасет записями о домашних работах студентов.
    </p>
    <br>
</details>
<details>
<summary><b>Hint #2</b></summary>
    <p>
Для создания датасета с «адресами» первых домашних работ на курсах в соответствии с их программой понадобится метод agg().
    </p>
    <br>
</details>

2. **(m)** На основании первого пункта построить line-graph с приростом студентов в каждом месяце для каждого курса. 15 графиков. Графики должны иметь заголовки, оси должны быть подписаны. Ticks нужно развернуть так, чтобы они были читаемы.
3. **(m)** На основании первого пункта построить line-graph с несколькими линиями, отражающими прирост студентов в каждом месяце для каждого курса. 15 линий на графике. Ticks нужно развернуть так, чтобы они были читаемы. График должен иметь заголовок. Ось, отражающая прирост, должна быть подписана. Линия для каждого курса должна иметь свой цвет (нужна легенда). Рамок у графика быть не должно ⭐
4. **(p)** Рассчитать количество прогрессов по выполнению домашних работ в каждом месяце за всю историю (каждый месяц в диапазоне от марта 2016 года до июля 2019 года включительно) для каждого курса. Учитывать, что выполнение домашнего задания может перетекать из одного месяца в другой (такие ДЗ надо включать в общее число прогрессов для всех месяцев, которые покрывает срок выполнения этих ДЗ).  Если у нас нет финишной даты, то мы можем либо учесть эту работу как нагрузку только в самом первом месяце, либо как нагрузку во всех месяцах с начала выполнения работы до даты, когда был выгружен датафрейм (последняя встречающаяся дата в дф). Таким образом, нам для каждого месяца по каждому курсу нужно посчитать количество домашних работ, которые пришлось проверять преподавателям.

<details>
<summary><b>Hint #1</b></summary>
    <p>
В этом задании для оптимального решения понадобятся методы date_range(), explode() из Pandas, а также модуль pandas.tseries.offsets и методы MonthEnd, MonthBegin и Day из него.
    </p>
    <br>
</details>

5. **(m)** Построить line-graph по четвёртому пункту. 15 графиков. Графики должны иметь заголовки, оси должны быть подписаны. Ticks нужно развернуть так, чтобы они были читаемы.
6. **(m)** Построить один line-graph для всех курсов по четвёртому пункту. 15 линий на графике. Ticks нужно развернуть так, чтобы они были читаемы. График должен иметь заголовок. Ось, отражающая количество прогрессов, должна быть подписана. Линия для каждого курса должна иметь свой цвет (нужна легенда). Рамок у графика быть не должно ⭐
7. На основании рассчитанных значений сделайте аналитический вывод (должен быть полным и покрывать все полученные выше метрики).

In [35]:
### YOUR CODE HERE ###



## 3. Выявление проблемных модулей

1. **(p)** Рассчитать минимальное, максимальное, среднее, медианное время прохождения каждого модуля (разность между временем начала и окончания выполнения домашней работы) для каждого курса. Если домашних заданий в модуле несколько, то считать разность между временем начала выполнения первой домашней работы и временем окончания выполнения последней домашней работы в модуле. Записи без финишной даты для этого пункта имеет смысл удалить
2. **(m)** На основании первого пункта построить line-graph с медианным временем прохождения каждого модуля для каждого курса. 15 графиков. Графики должны иметь заголовки
3. **(p)**  Чтобы выявить сезонность, посчитать медианное время выполнения домашней работы по месяцам (12 месяцев, январь-декабрь) для каждого курса. То есть посчитать для каждого месяца, медианное время выполнения работ, которые были начаты в этом месяце.
4. **(m)** На основании третьего пункта построить line-graph, на который будут нанесены линии для каждого курса с медианным временем выполнения домашней работы по месяцам. 15 линий на графике. График должен иметь заголовок. Ось, отражающая время прохождения, должна быть подписана. Линия для каждого курса должна иметь свой цвет (нужна легенда). Рамок у графика быть не должно ⭐
5. На основании рассчитанных значений сделайте аналитический вывод (должен быть полным и покрывать все полученные выше метрики)

In [36]:
### YOUR CODE HERE ###




## 4. Расчет конверсии

1. **(p)** Посчитать конверсию перехода студентов из одного модуля в другой на каждом курсе. Формула: отношение количества студентов, приступивших к выполнению домашнего задания в этом модуле (если ДЗ в модуле несколько, то считать по первому ДЗ в модуле), к количеству студентов, сдавших задание в предыдущем модуле (если ДЗ в модуле несколько, то считать по последнему ДЗ в модуле).
<details>
<summary><b>Hint #1</b></summary>
    <p>
Конверсию мы считаем как отношение домашних работ, которые в целом были начаты (здесь мы считаем не только работы в статусе done, но и работы, находящиеся в любом другом статусе) в этом модуле, к количеству работ, которые были полностью сданы в предыдущем модуле (то есть все они находятся в статусе done). 
    </p>
    <br>
</details>
2. **(m)** Постройте bar-chart, отражающий конверсию перехода студентов из одного модуля в другой на каждом курсе. График должен иметь заголовок. Ticks нужно развернуть так, чтобы они были читаемы.
3. **(m)** Постройте горизонтальный (столбцы должны располагаться горизонтально) bar-chart, отражающий конверсию перехода студентов из одного модуля в другой на каждом курсе. 15 графиков. Графики должны иметь заголовки. Ticks должны содержать номер и название модуля. Цвет столбцов графиков должен содержать информацию о сфере, к которой относится курс (нужна легенда). Прозрачность должна стоять на отметке 0.1. На графики должна быть нанесена линия медианы конверсии для каждого курса. У медианы должен быть свой цвет. Рамок у графиков быть не должно ⭐
4. На основании рассчитанных значений сделайте аналитический вывод (должен быть полным и покрывать все полученные выше метрики).

In [37]:
### YOUR CODE HERE ###




## 5. Метрика успеваемости 

&nbsp;&nbsp;&nbsp;&nbsp;*(необязательное задание)*

Иногда студенты берут курсы, которые оказываются для них неподъёмными. Это может быть как по причинам недостаточной изначальной подготовки, так и по причинам, связанным с низкой мотивацией студента. Для улучшения качества контента полезно выявить причину. На основании имеющихся данных придумайте метрику успеваемости студента. **Обоснуйте её.** Выявите таких студентов на каждом курсе, чтобы предоставить продюсерам список проблемных студентов. 

In [38]:
### YOUR CODE HERE ###


