In [None]:
import pandas as pd
pd.options.display.max_rows = 100 # тут меняем количество строк для отображения
import datetime # библиотека для работы с датами и временем
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns # библиотека для визуализации

# специально написанная функция для построения гистограмм для категориальных признаков
def plot_column_hist(df, col_name = 'subject_norm', rotation_angle = 90, num_elements = 20):
    tbl = df[col_name].value_counts().reset_index()[:num_elements]
    tbl = tbl.rename(columns={'index': col_name, col_name: 'qty'}, 
                     index=str).sort_values(by = 'qty', ascending = False)
    x = np.arange(tbl.shape[0])
    plt.figure(figsize = (10, 6))
    plt.bar(x, tbl.qty)
    plt.xticks(x, tbl[col_name], rotation = rotation_angle)
    plt.show()

%pylab inline

### Задание по подготовки, нормализации данных.
Загрузим данные по успеваемости учащихся нескольких московских школ.

In [None]:
%%time
df = pd.read_csv('marks_for_prerocessing_sirius.csv.gzip', sep = ';', compression = 'gzip')
df['mark'] = df['mark*weight'] / df['weight']

In [None]:
df.shape

In [None]:
df.head(2)

Состав полей:   
guid - идентификатор ученика,   
subject_name - назание предмета,   
class_level_name - номер параллели учащегося,   
letter - буква,   
weight - вес полученной оценки (какие-то оценки являются более важными, например контрольные, самостоятельные работы),   
control_form_name - краткое наименование формы контрольной работы,   
lesson_date - дата урока.
### Взглянем на названия предметов.

In [None]:
df.subject_name.value_counts()

In [None]:
df.subject_name.unique().shape[0]

Видно, что предметов слишком много, и так называемый хвост не является содержательным если мы анализируем общую успеваемость. Давайте оценим, каким количеством предметов можно пренебречь, посчитаем количество поставленных оценок накопительным итогом по предметам, упорядоченным от часто встречающихся к редко встречающимся. И оценим долю от всех оценок.

In [None]:
(df.subject_name.value_counts().cumsum().head(80) / df.shape[0]).reset_index()

Получается что можно оставить только 74 предмета и они будут составлять 99% от всех поставленных оценок.   
Оставим только эти 74 предмета и перейдем к нормализации предметов.

In [None]:
(df.subject_name.value_counts().cumsum().head(74) / df.shape[0]).reset_index().rename(columns={'index': 'subject_name', 
    'subject_name': 'qty'}, index=str).to_csv('subject_ref.csv', sep = ',', index = False)

Мы сохранили данные для подготовки справочника и сейчас займемся унификацией предметов в любом текстовом редакторе: содаем дополнительную колонку и исходя из своих экспертных знаний присваиваем им унифицированные значения.

In [None]:
s_ref = pd.read_csv('subject_ref_done.csv', sep = ';')
del s_ref['qty']
s_ref.head(2)

Теперь объединим две таблицы.

In [None]:
%%time
df = pd.merge(df, s_ref, how = 'inner', on = 'subject_name')

In [None]:
df.head(2)

In [None]:
plot_column_hist(df, 'subject_norm', rotation_angle = 90, num_elements = 50)

Теперь приведем даты в соответствующий формат (сейчас это текст).

In [None]:
df.dtypes['lesson_date']

In [None]:
%%time
df.lesson_date = df.lesson_date.apply(lambda x: datetime.datetime.strptime(x, '%Y-%m-%d'))

In [None]:
df.dtypes['lesson_date']

Добавим колонку, в которой будет только месяц, без дня. Используем его в дальнейшем для агрегации.

In [None]:
df.lesson_date.apply(lambda x: datetime.date(x.year, x.month, 1)).value_counts()

In [None]:
df['mondate'] = df.lesson_date.apply(lambda x: datetime.date(x.year, x.month, 1))

Первая визуализация: Давайте посмотрим, как меняется средняя успеваемость в течении года.

In [None]:
sns.heatmap(pd.pivot_table(df, index = 'subject_norm', columns = 'mondate', values = 'mark', 
                           aggfunc = np.mean), figsize (8, 12), cmap='RdYlGn_r', linewidths=1, annot=True)

Попробуйте ответить на простые ответы, взглянув на эту диаграмму:    
По каким предметам успеваемость меняется в течении года кардинально?   
По каким предметам мы имеем наивысшую успеваемость?    
По каким предметам успеваемость заметно ниже средней?    
По каким успеваемость улучшается в течении года?

#### Возьмем предыдущую диаграмму за основу и изменим ее так, чтобы вместо месяцев были порядковые номера параллелей

In [None]:
### ВАШ КОД ЗДЕСЬ

#### Придумайте вопросы, которые могут помочь вам выявить закономерности в данных и ответьте на них

ваши вопросы и ответы здесь

In [None]:
for i in range(7):
    x = datetime.date(2018, 6, 1 + i)
    print(x)
    print(x.weekday())
    print((x - datetime.timedelta(x.weekday())))
    print()

Самостоятельное задание: выделите из даты номер недели и получите похожую диаграмму, 
но вместо месяцев нужны будут недели.    
Для этого вам могут быть полезны следующие приемы:

In [None]:
x = datetime.date(2018, 6, 1)
print('это дата', x)
print('этот метод возвращает номер недели для даты', x.weekday())
print('чтобы складывать даты, можно использовать тип timedelta, первый агрумент это количество дней', 
      datetime.timedelta(1))
print('добавить день к дате можно так', x + datetime.timedelta(1))

Посмотрите на заполненность формы ответа, попробуйте написать на питоне функцию, которая бы нормализовала бы эти значения.

In [None]:
df.control_form_name.value_counts()

In [None]:
plot_column_hist(df, 'control_form_name', rotation_angle = 90, num_elements = 50)