# Практикум №1
## Аналитика. Начальный уровень

<br><br>
**Описание работы:**

Перед вами стоит бизнес-задача: на основании имеющихся данных подготовить аналитический отчёт, который в дальнейшем поможет продюсерам образовательных программ эффективно выстраивать стратегию по модернизированию и улучшению курсов. В начале отчёта предлагается оформить ёмкий описательный блок по каждому курсу на основании рассчитанных показателей. Далее — посчитать потенциальную нагрузку на преподавателей, чтобы оценить необходимость расширения штата сотрудников. Затем идёт блок из двух пунктов по анализу качества контента курсов, где необходимо выявить проблемные модули, которые, возможно, требуют доработки. Также стоит задача выявить потенциальную сезонность. Наконец, предложено задание для самостоятельной разработки метрики успеваемости студентов для нахождения тех, кто значительно хуже справляется с прохождением курса. Каждый из пунктов анализа предполагается сопроводить аналитическим выводом на основании рассчитанных метрик.
<br><br>
_________
Обозначения:<br><br>
&nbsp;&nbsp;&nbsp;&nbsp;**(p)** — задание нужно выполнить инструментами Pandas, **использование циклов for/while НЕ допускается**. <br>
&nbsp;&nbsp;&nbsp;&nbsp;**(m)** — задание нужно выполнить инструментами Matplotlib или Seaborn, использование циклов for/while допускается; <br>
&nbsp;&nbsp;&nbsp;&nbsp;⭐ — необязательное задание повышенной сложности.
_________

**Содержание работы:** <br>
[Codebook](#Codebook) <br>
[1. Описание и начальная работа с данными](#1.-Описание-и-начальная-работа-с-данными)<br>
[2. Расчёт потенциальной нагрузки на преподавателей](#2.-Расчет-потенциальной-нагрузки-на-преподавателей)<br>
[3. Выявление проблемных модулей](#3.-Выявление-проблемных-модулей)<br>
[4. Расчёт конверсии](#4.-Расчет-конверсии) <br>
[5. Метрика успеваемости ](#5.-Метрика-успеваемости)

## Codebook

`courses.csv` содержит следующие значения: <br><br>
&nbsp;&nbsp;&nbsp;&nbsp; `id` — идентификатор курса, <br>
&nbsp;&nbsp;&nbsp;&nbsp; `title` — название курса, <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `field` — сфера, к которой относится курс. <br> <br><br>
`students.csv` содержит следующие значения: <br><br>
&nbsp;&nbsp;&nbsp;&nbsp; `id` — идентификатор студента, <br>
&nbsp;&nbsp;&nbsp;&nbsp; `city` — город студента, <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `birthday` — день рождения студента. <br> <br><br>
`course_contents.csv` содержит следующие значения: <br><br>
&nbsp;&nbsp;&nbsp;&nbsp; `course_id` — идентификатор курса, <br>
&nbsp;&nbsp;&nbsp;&nbsp; `module_number` — номер модуля, <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `module_title` — название модуля, <br> 
&nbsp;&nbsp;&nbsp;&nbsp; `lesson_number` — номер урока, <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `lesson_title` — название урока, <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `lesson_token` — токен урока, <br> 
&nbsp;&nbsp;&nbsp;&nbsp; `is_video` — наличие видео *(true/false)*, <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `is_homework` — наличие домашней работы *(true/false)*. <br>
<br><br>
`progresses.csv` содержит следующие значения: <br><br>
&nbsp;&nbsp;&nbsp;&nbsp; `id` — идентификатор прогресса, <br>
&nbsp;&nbsp;&nbsp;&nbsp; `student_id` — идентификатор студента, <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `course_id` — идентификатор курса, <br> <br><br>
`progress_phases.csv` содержит следующие значения: <br><br>
&nbsp;&nbsp;&nbsp;&nbsp; `progress_id` — идентификатор прогресса, <br>
&nbsp;&nbsp;&nbsp;&nbsp; `module_number` — номер модуля, <br>
&nbsp;&nbsp;&nbsp;&nbsp; `lesson_number` — номер урока, <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `status` — статус прохождения урока, <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `start_date` — дата начала, <br> 
&nbsp;&nbsp;&nbsp;&nbsp; `finish_date` — дата окончания. <br>
<br><br>

In [6]:
# Подключение библиотек
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## 1. Описание и начальная работа с данными

Подготовьте данные и опишите их. Данные реальные и содержат пропущенные значения, а также лишние относительно друг друга данные. <br>

Объедините датасеты (кроме `students.scv`) в один общий для дальнейшей работы. Отдельный датасет создайте для расчёта среднего возраста студентов курсов (отдельный датасет со `students.scv` нужен, чтобы не потерять значения в основном датасете из-за того, что не по всем студентам есть анкетные данные о дате рождения). <br><br>

<details>
<summary><b>Hint #1</b></summary>
    <p>
Для объединения датасетов нужно использовать pandas метод <a href="https://www.shanelynn.ie/merge-join-dataframes-python-pandas-index-1/#mergetypes">merge()</a>.
    </p>
    <br>
</details>
<details>
<summary><b>Hint #2</b></summary>
    <p>
В итоговом датасете должно получиться 350677 строк. Ошибок памяти при таком количестве строк в датасете не будет. 
    </p>
    <br>
</details>


Опишите данные: <br>
1. **(p)** Посчитайте
<ol type="a">
  <li>общее количество курсов в датасете;</li>
  <li>количество модулей на каждом курсе;</li>
  <li>количество уроков в каждом модуле на каждом курсе;</li>
  <li>медианное количество уроков в модуле на каждом курсе;</li>
  <li>количество учеников на каждом курсе;</li>
  <li>минимальный, максимальный, средний, медианный возраст студентов *(чтобы отсечь некорректные значения, в данном случае достаточно установить правдоподобный диапазон на ваше усмотрение)*;</li>
  <li>минимальный, максимальный, средний, медианный возраст студентов на каждом курсе.</li>
</ol>
2. **(m)** Постройте bar-chart, отражающий количество студентов на каждом курсе. Ticks нужно развернуть так, чтобы они были читаемы.
3. **(m)** Постройте горизонтальный (столбцы должны располагаться горизонтально) bar-chart, отражающий количество студентов на каждом курсе. График должен иметь заголовок. Значения должны быть отсортированы. Цвет столбцов должен содержать информацию о сфере, к которой относится курс (то есть нужна легенда). Прозрачность должна стоять на отметке 0.5. На график должна быть нанесена линия медианы. У медианы должен быть свой цвет. Рамки у графика быть не должно ⭐
<details>
<summary><b>Hint #1</b></summary>
    <p>
График удобно строить, если сначала подготовить таблицу для него через метод <a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.unstack.html">unstack()</a>, чтобы «горизонтальные» колонки были по сферам курсов (4 колонки), а «вертикальные» по самим курсам (15 колонок-строк). 
    </p>
    <img src="https://miro.medium.com/max/1400/1*DYDOif_qBEgtWfFKUDSf0Q.png" alt="Stack/Unstack">
    <br>
</details>
4.     На основании рассчитанных значений опишите данные (описание должно быть полным и покрывать все полученные выше метрики).

_____________________________________________________________________


In [None]:
### YOUR CODE HERE ###



## 2. Расчет потенциальной нагрузки на преподавателей

1. **(p)** Рассчитать количество студентов в каждом месяце для каждого курса, которые начинали выполнение первой домашней работы в каждом месяце за всю историю (каждый месяц в диапазоне от марта 2016 года до июля 2019 года включительно). При этом расчёт идёт по первой домашней работе по программе курса (не просто по любой работе, которую конкретный студент начал первой). Обратите внимание, что на разных курсах разный номер модуля, где это ДЗ лежит, но при этом нужно придумать, как лаконично отфильтровать данные по этой информации. Здесь важно не прописывать вручную в запросе, где на каком модуле лежит первое ДЗ, а попробовать придумать, как оптимизировать этот процесс, чтобы наше решение работало даже если бы у нас было не 15 курсов, а 15 тысяч курсов, и каждый со своим номером, где лежит первое ДЗ.

<details>
<summary><b>Hint #1</b></summary>
    <p>
В этом задании для оптимального решения нужна фильтрация одного датасета по другому, которую можно выполнить через merge(). Первый датасет будет с «адресами» первых домашних работ на курсах в соответствии с их программой. Второй — датасет записями о домашних работах студентов.
    </p>
    <br>
</details>
<details>
<summary><b>Hint #2</b></summary>
    <p>
Для создания датасета с «адресами» первых домашних работ на курсах в соответствии с их программой понадобится метод agg().
    </p>
    <br>
</details>

2. **(m)** На основании первого пункта построить line-graph с приростом студентов в каждом месяце для каждого курса. 15 графиков. Графики должны иметь заголовки, оси должны быть подписаны. Ticks нужно развернуть так, чтобы они были читаемы.
3. **(m)** На основании первого пункта построить line-graph с несколькими линиями, отражающими прирост студентов в каждом месяце для каждого курса. 15 линий на графике. Ticks нужно развернуть так, чтобы они были читаемы. График должен иметь заголовок. Ось, отражающая прирост, должна быть подписана. Линия для каждого курса должна иметь свой цвет (нужна легенда). Рамок у графика быть не должно ⭐
4. **(p)** Рассчитать количество прогрессов по выполнению домашних работ в каждом месяце за всю историю (каждый месяц в диапазоне от марта 2016 года до июля 2019 года включительно) для каждого курса. Учитывать, что выполнение домашнего задания может перетекать из одного месяца в другой (такие ДЗ надо включать в общее число прогрессов для всех месяцев, которые покрывает срок выполнения этих ДЗ).  Если у нас нет финишной даты, то мы можем либо учесть эту работу как нагрузку только в самом первом месяце, либо как нагрузку во всех месяцах с начала выполнения работы до даты, когда был выгружен датафрейм (последняя встречающаяся дата в дф). Таким образом, нам для каждого месяца по каждому курсу нужно посчитать количество домашних работ, которые пришлось проверять преподавателям.

<details>
<summary><b>Hint #1</b></summary>
    <p>
В этом задании для оптимального решения понадобятся методы date_range(), explode() из Pandas, а также модуль pandas.tseries.offsets и методы MonthEnd, MonthBegin и Day из него.
    </p>
    <br>
</details>

5. **(m)** Построить line-graph по четвёртому пункту. 15 графиков. Графики должны иметь заголовки, оси должны быть подписаны. Ticks нужно развернуть так, чтобы они были читаемы.
6. **(m)** Построить один line-graph для всех курсов по четвёртому пункту. 15 линий на графике. Ticks нужно развернуть так, чтобы они были читаемы. График должен иметь заголовок. Ось, отражающая количество прогрессов, должна быть подписана. Линия для каждого курса должна иметь свой цвет (нужна легенда). Рамок у графика быть не должно ⭐
7. На основании рассчитанных значений сделайте аналитический вывод (должен быть полным и покрывать все полученные выше метрики).

In [None]:
### YOUR CODE HERE ###



## 3. Выявление проблемных модулей

1. **(p)** Рассчитать минимальное, максимальное, среднее, медианное время прохождения каждого модуля (разность между временем начала и окончания выполнения домашней работы) для каждого курса. Если домашних заданий в модуле несколько, то считать разность между временем начала выполнения первой домашней работы и временем окончания выполнения последней домашней работы в модуле. Записи без финишной даты для этого пункта имеет смысл удалить
2. **(m)** На основании первого пункта построить line-graph с медианным временем прохождения каждого модуля для каждого курса. 15 графиков. Графики должны иметь заголовки
3. **(p)**  Чтобы выявить сезонность, посчитать медианное время выполнения домашней работы по месяцам (12 месяцев, январь-декабрь) для каждого курса. То есть посчитать для каждого месяца, медианное время выполнения работ, которые были начаты в этом месяце.
4. **(m)** На основании третьего пункта построить line-graph, на который будут нанесены линии для каждого курса с медианным временем выполнения домашней работы по месяцам. 15 линий на графике. График должен иметь заголовок. Ось, отражающая время прохождения, должна быть подписана. Линия для каждого курса должна иметь свой цвет (нужна легенда). Рамок у графика быть не должно ⭐
5. На основании рассчитанных значений сделайте аналитический вывод (должен быть полным и покрывать все полученные выше метрики)

In [None]:
### YOUR CODE HERE ###




## 4. Расчет конверсии

1. **(p)** Посчитать конверсию перехода студентов из одного модуля в другой на каждом курсе. Формула: отношение количества студентов, приступивших к выполнению домашнего задания в этом модуле (если ДЗ в модуле несколько, то считать по первому ДЗ в модуле), к количеству студентов, сдавших задание в предыдущем модуле (если ДЗ в модуле несколько, то считать по последнему ДЗ в модуле).
<details>
<summary><b>Hint #1</b></summary>
    <p>
Конверсию мы считаем как отношение домашних работ, которые в целом были начаты (здесь мы считаем не только работы в статусе done, но и работы, находящиеся в любом другом статусе) в этом модуле, к количеству работ, которые были полностью сданы в предыдущем модуле (то есть все они находятся в статусе done). 
    </p>
    <br>
</details>
2. **(m)** Постройте bar-chart, отражающий конверсию перехода студентов из одного модуля в другой на каждом курсе. График должен иметь заголовок. Ticks нужно развернуть так, чтобы они были читаемы.
3. **(m)** Постройте горизонтальный (столбцы должны располагаться горизонтально) bar-chart, отражающий конверсию перехода студентов из одного модуля в другой на каждом курсе. 15 графиков. Графики должны иметь заголовки. Ticks должны содержать номер и название модуля. Цвет столбцов графиков должен содержать информацию о сфере, к которой относится курс (нужна легенда). Прозрачность должна стоять на отметке 0.1. На графики должна быть нанесена линия медианы конверсии для каждого курса. У медианы должен быть свой цвет. Рамок у графиков быть не должно ⭐
4. На основании рассчитанных значений сделайте аналитический вывод (должен быть полным и покрывать все полученные выше метрики).

In [None]:
### YOUR CODE HERE ###




## 5. Метрика успеваемости 

&nbsp;&nbsp;&nbsp;&nbsp;*(необязательное задание)*

Иногда студенты берут курсы, которые оказываются для них неподъёмными. Это может быть как по причинам недостаточной изначальной подготовки, так и по причинам, связанным с низкой мотивацией студента. Для улучшения качества контента полезно выявить причину. На основании имеющихся данных придумайте метрику успеваемости студента. **Обоснуйте её.** Выявите таких студентов на каждом курсе, чтобы предоставить продюсерам список проблемных студентов. 

In [None]:
### YOUR CODE HERE ###


