
**Описание работы:**

Перед вами стоит бизнес-задача – на основании имеющихся данных подготовить аналитический отчет, который в дальнейшем поможет продюсерам образовательных программ эффективно выстраивать стратегию по модернизированию и улучшению курсов. Предлагается оформить емкий описательный блок по каждому курсу на основании рассчитанных показателей. 


## Codebook

`courses.csv` содержит следующие значения: <br><br>
&nbsp;&nbsp;&nbsp;&nbsp; `id` – идентификатор курса <br>
&nbsp;&nbsp;&nbsp;&nbsp; `title` – название курса <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `field` – сфера, к которой относится курс <br> <br><br>
`students.csv` содержит следующие значения: <br><br>
&nbsp;&nbsp;&nbsp;&nbsp; `id` – идентификатор студента <br>
&nbsp;&nbsp;&nbsp;&nbsp; `city` – город студента <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `birthday` – день рождения студента <br> <br><br>
`course_contents.csv` содержит следующие значения: <br><br>
&nbsp;&nbsp;&nbsp;&nbsp; `course_id` – идентификатор курса <br>
&nbsp;&nbsp;&nbsp;&nbsp; `module_number` – номер модуля <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `module_title` – название модуля <br> 
&nbsp;&nbsp;&nbsp;&nbsp; `lesson_number` – номер урока <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `lesson_title` – название урока <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `lesson_token` – токен урока <br> 
&nbsp;&nbsp;&nbsp;&nbsp; `is_video` – наличие видео *(true/false)* <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `is_homework` – наличие домашней работы *(true/false)* <br>
<br><br>
`progresses.csv` содержит следующие значения: <br><br>
&nbsp;&nbsp;&nbsp;&nbsp; `id` – идентификатор прогресса <br>
&nbsp;&nbsp;&nbsp;&nbsp; `student_id` – идентификатор студента <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `course_id` – идентификатор курса <br> <br><br>
`progress_phases.csv` содержит следующие значения: <br><br>
&nbsp;&nbsp;&nbsp;&nbsp; `progress_id` – идентификатор прогресса <br>
&nbsp;&nbsp;&nbsp;&nbsp; `module_number` – номер модуля <br>
&nbsp;&nbsp;&nbsp;&nbsp; `lesson_number` – номер урока <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `status` – статус прохождения урока <br>
&nbsp;&nbsp;&nbsp;&nbsp;  `start_date` – дата начала <br> 
&nbsp;&nbsp;&nbsp;&nbsp; `finish_date` – дата окончания <br>
<br><br>

## 1. Описание и начальная работа с данными

Вам необходимо подготовить данные и описать их. Данные реальные и содержат пропущенные значения, а также лишние относительно друг друга данные. <br>

Объедините датасеты (кроме `students.scv`) в один общий для дальнейшей работы. Отдельный датасет создайте для расчета среднего возраста студентов курсов (отдельный датасет со `students.scv` нужен, чтобы в основном не потерять значения в основном датасете из-за того, что не по всем студентам есть анкетные данные о дате рождения). <br> <br>
Опишите данные: <br>
1. **(p)** Посчитайте
      * общее количество курсов в датасете, 
      * количество модулей на каждом курсе, 
      * количество уроков в каждом модуле на каждом курсе, 
      * медианное количество уроков в модуле на каждом курсе, 
      * количество учеников на каждом курсе
      * минимальный, максимальный, средний, медианный возраст студентов
      * минимальный, максимальный, средний, медианный возраст студентов на каждом курсе
2. **(m)** Постройте bar-chart, отражающий количество студентов на каждом курсе. Ticks нужно развернуть так, чтобы они были читаемы
3. **(m)** Постройте горизонтальный (столбцы должны располагаться горизонтально) bar-chart, отражающий количество студентов на каждом курсе. График должен иметь заголовок. Значения должны быть отсортированы. Цвет столбцов должен содержать информацию о сфере, к которой относится курс (то есть нужна легенда). Прозрачность должна стоять на отметке 0.1. На график должна быть нанесена линия медианы. У медианы должен быть свой цвет. Рамки у графика быть не должно ⭐
4.     На основании рассчитанных значений опишите данные (описание должно быть полным и покрывать все полученные выше метрики)



In [6]:
#импортирую все необходимые библиотеки
import numpy as np
import pandas as pd
from datetime import datetime
from matplotlib import pyplot as plt

In [7]:
# выгружаю данные
courses = pd.read_csv('courses.csv', index_col= 0)
students = pd.read_csv('students.csv')
course_contents = pd.read_csv('course_contents.csv')
progresses = pd.read_csv('progresses.csv')
progress_phases = pd.read_csv('progress_phases.csv')

In [8]:
# подготавливаю данные к соединению
courses.columns = ['course_id', 'course_title', 'course_field']# переименовываю столбцы, чтобы было проще соединять
course_contents.drop(['module_number','lesson_number'], axis='columns', inplace=True)# удаляю повторябщиеся столбцы

In [9]:
# соединяю таблички 
df = progress_phases.merge(progresses, how='outer', left_on='progress_id', right_on='id')
df.drop(['id'], axis='columns', inplace=True) # удаляю дублирующий столбец
df = df.merge(courses, how='left')
df = df.merge(course_contents, how='left', left_on='course_id', right_on='course_id')
df.head() # получили нашу табличку, с которой будем работать дальше

Unnamed: 0,progress_id,module_number,lesson_number,status,start_date,finish_date,student_id,course_id,course_title,course_field,module_title,lesson_title,lesson_token,is_video,is_homework
0,a387ab916f402cb3fbfffd29f68fd0ce,2.0,4.0,done,2018-06-23 08:28:50.681065+00,2018-06-23 08:28:52.439542+00,768c2987a744c51ce64a5993a2a94eaf,c9fcb746d51e41bc5a217002d081454b,Веб-дизайн PRO 2.0,Design,Специализация и личное позиционирование,Интро курса,df1a1f20-cdf7-443d-b25b-0a4b990b84d9,True,False
1,a387ab916f402cb3fbfffd29f68fd0ce,2.0,4.0,done,2018-06-23 08:28:50.681065+00,2018-06-23 08:28:52.439542+00,768c2987a744c51ce64a5993a2a94eaf,c9fcb746d51e41bc5a217002d081454b,Веб-дизайн PRO 2.0,Design,Специализация и личное позиционирование,Специализация,558acc64-3867-4ada-ac6f-36e9a7922f68,True,False
2,a387ab916f402cb3fbfffd29f68fd0ce,2.0,4.0,done,2018-06-23 08:28:50.681065+00,2018-06-23 08:28:52.439542+00,768c2987a744c51ce64a5993a2a94eaf,c9fcb746d51e41bc5a217002d081454b,Веб-дизайн PRO 2.0,Design,Специализация и личное позиционирование,Домашнее задание #1,a3d74174-08be-4634-949a-108d4f915fa6,True,False
3,a387ab916f402cb3fbfffd29f68fd0ce,2.0,4.0,done,2018-06-23 08:28:50.681065+00,2018-06-23 08:28:52.439542+00,768c2987a744c51ce64a5993a2a94eaf,c9fcb746d51e41bc5a217002d081454b,Веб-дизайн PRO 2.0,Design,Специализация и личное позиционирование,Личное позиционирование,9dd50916-4aa6-4a73-b86c-56a1bd7753c8,True,False
4,a387ab916f402cb3fbfffd29f68fd0ce,2.0,4.0,done,2018-06-23 08:28:50.681065+00,2018-06-23 08:28:52.439542+00,768c2987a744c51ce64a5993a2a94eaf,c9fcb746d51e41bc5a217002d081454b,Веб-дизайн PRO 2.0,Design,Специализация и личное позиционирование,Домашнее задание #2,7ea421f0-04b5-4df8-a76c-03e24692eba9,True,False


In [None]:
# Посчитайте общее количество курсов в датасете:
df['course_id'].nunique()

# количество модулей на каждом курсе:
df.groupby('course_title').agg({'module_number': 'nunique'}).sort_values('module_number')

# количество уроков в каждом модуле на каждом курсе:
df.groupby(['course_title', 'module_title']).agg({'lesson_title': 'nunique'}).sort_values('lesson_title')

# медианное количество уроков в модуле на каждом курсе:
df.groupby(['course_title','module_title']).agg({'lesson_title': 'nunique'}) \
.groupby(['course_title']).agg({'lesson_title': 'median'})

# количество учеников на каждом курсе:
df.groupby('course_title').agg({'student_id': 'nunique'})

# минимальный, максимальный, средний, медианный возраст студентов:

#перевожу стобец в формат даты и удаляю значения не удовлетворяющие формату
students['birthday'] = pd.to_datetime(students['birthday'], errors='coerce')
# создаю день сегодняшнего отсчета и высчитываю возраст (в отдельный столбец)
now = pd.to_datetime('now') 
students['age'] = (now.year - students['birthday'] \
                       .dt.year) - ((now.month - students['birthday'].dt.month))
# удаляю "неадекватные" возрасты
students_age = students[(students['age'] >= 16) | (students['age'] <= 80)]
students_age['age'].describe() # ответ: мин = 17, макс = 79, ср = 36, мед = 35 

# минимальный, максимальный, средний, медианный возраст студентов на каждом курсе:

# объединяю таблички с названием курса и возрастом студентов
df3 = students_age.merge(df, how='left', left_on='id', right_on='student_id')
# считаю показатели по каждому курсу и переименовываю столбцы, чтобы объединить данные в одну табличку
min_age = df3.groupby('course_title').agg({'age': 'min'})
min_age.columns = ['min_age']
max_age = df3.groupby('course_title').agg({'age': 'max'})
max_age.columns = ['max_age']
mean_age = df3.groupby('course_title').agg({'age': 'mean'})
mean_age.columns = ['mean_age']
median_age = df3.groupby('course_title').agg({'age': 'median'})
median_age.columns = ['median_age']
# объединяю данные в одну табличку
courses_and_ages = min_age.join(max_age, how='outer').join(mean_age, how='outer').join(median_age, how='outer')

In [None]:
# (m) Постройте bar-chart, отражающий количество студентов на каждом курсе. 
# Ticks нужно развернуть так, чтобы они были читаемы
student_per_course = df.groupby('course_title').agg({'student_id': 'nunique'}).reset_index()
ax = student_per_course.plot.bar(x='course_title', y='student_id', rot=0)
ax.set_xlabel('Название курса')
ax.set_ylabel('Кол-во студентов')
ax.set_title('Кол-во студентов на каждом курсе')
ax.tick_params(labelsize = 10, 
               labelrotation = 90)
ax.get_legend().remove()

In [None]:
# (m) Постройте горизонтальный (столбцы должны располагаться горизонтально) bar-chart, 
# отражающий количество студентов на каждом курсе. График должен иметь заголовок. 
# Значения должны быть отсортированы. Цвет столбцов должен содержать информацию о сфере, 
# к которой относится курс (то есть нужна легенда). Прозрачность должна стоять на отметке 0.1. 
# На график должна быть нанесена линия медианы. У медианы должен быть свой цвет. Рамки у графика быть не должно ⭐

# готовлю датафрейм для построения графика
student_per_course2 = df.groupby('course_title').agg({'student_id': 'nunique'}) \
.sort_values('student_id').reset_index()
# нахожу медиану
df.groupby('course_title').agg({'student_id': 'nunique'}).median()
# строю график (полностью задание не смогла выполнить)
ax = student_per_course2.plot.barh(x='course_title', y='student_id', rot=0, alpha=0.1)
ax.set_xlabel('Название курса')
ax.set_ylabel('Кол-во студентов')
ax.set_title('Кол-во студентов на каждом курсе')
ax.tick_params(labelsize = 10, 
               labelrotation = 0)
ax.vlines(782, -1, 2500,  color = 'b',
          linewidth = 1,
          linestyle = '--',
         label = 'Медиана')
ax.spines['top'].set_visible(False)
ax.spines['right'].set_visible(False)
ax.spines['bottom'].set_visible(False)
ax.spines['left'].set_visible(False) 

Заключение: 
Школа предоставляет возможность пройти обучение по 4 направлениям: Бизнес, Маркетинг, Дизайн и Программирование. Каждое направление предлагает более 2 курсов. Общее количество курсов по всем направлением составляет 15.

Каждый курс состоит из нескольких модулей: самыми короткими курсами являются ‘PHP-разработчик с 0 до PRO. Часть 1’ и ‘Веб-вёрстка для начинающих 2.0’, которые состоят из 8 модулей, что практически в два раза меньше среднего объема всех курсов. Самыми объемными курсами являются курсы по UX-дизайну (20 модулей), Веб-разработке(20 модулей) и Анимации интерфейсов (21 модуль).

Каждый модуль состоит и нескольких уроков. Практически в каждом курсе есть бонусные (дополнительные) модули, которые состоят всего из 1 урока. Самыми большими модулями с точки зрения количества уроков являются ‘Числа, строки и даты’ (курс ‘Java-разработчик c нуля’, 27 уроков) и ‘Email-маркетинг’ (курс ‘Интернет-маркетолог от Ingate’, 29 уроков)

Медианное количество уроков в модуле варьируется от 2 (на курсе Веб-разработчиков) до 10 (курс по Java-разработчик c нуля). Можно сделать вывод, что курс Java-разработчик c нуля состоит из небольшого числа модулей, однако, каждый сами модуля являются очень объемными. С точностью до наоборот обстоят дела с курсом по Веб- разработке, где очень много маленьких, коротких модулей. Возможно, структура курса оказывает влияние на скорость прохождения студентом курса, рассмотрим это позже.

На каждом курсе обучается более 500 студентов. Наименее популярным курсом с точки зрения количества обучающихся является SMM-маркетолог от А до Я (511 студентов) , а наиболее популярным Интернет-маркетолог от Ingate (2168 студентов). Интересно то, что оба курса относятся к одной и той же сфере. Интересно будет выяснить, что повлияло на решение студентов при выборе курса по данному направлению.

Далее проанализируем возраст студентов онлайн-школы. *Датафрейм содержал ‘неадекватные данные’ по возрасту студентов. Было принято решение анализировать данные только тех обучающихся, возраст который больше 16, но меньше 80 (включительно). Таким образом, самым молодым студентам школы сейчас 17 лет, а самым возрастным 79 лет. Средний и медианный возрасты практически совпали: 36 и 35 лет соответственно, что говорит о том, что занятия в данной школе практически в одинаковой степени популярны среди представителей разных поколений.

Наиболее популярными курсами среди молодого поколения являются ‘Веб-разработчик’ и ‘Веб-дизайн с нуля 2.0’. Многие студенты приходят туда по окончании школы в возрасте 17-18 лет, а медианный ворса составляет 34 года. Более взрослый состав студентов наблюдается на курсе по базовому Excel и на курсе ‘Руководитель digital-проектов’. Самые молодые ученики на данных направления скорее всего уже успели получить статус бакалавра, и нуждаются в дополнительных знаниях. Их возраст составляет 21 год. Средний и медианный возраст на данных курсах достигает 40 лет.