# Первичный анализ данных и визуализации

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

## Первичный анализ данных, pandas и графики

**pandas** - библиотека для работы с данными в табличном формате   

+ будем работать с датасетом [Student Performance](http://archive.ics.uci.edu/ml/datasets/Student+Performance#)
+ постараемся предсказать итоговую оценку по математике (G3) по разным другим признакам 



### Attributes


1. **school** - student's school (binary: 'GP' - Gabriel Pereira or 'MS' - Mousinho da Silveira)
2. **sex** - student's sex (binary: 'F' - female or 'M' - male)
3. **age** - student's age (numeric: from 15 to 22)
4. **address** - student's home address type (binary: 'U' - urban or 'R' - rural)
5. **famsize** - family size (binary: 'LE3' - less or equal to 3 or 'GT3' - greater than 3)
6. **Pstatus** - parent's cohabitation status (binary: 'T' - living together or 'A' - apart)
7. **Medu** - mother's education (numeric: 0 - none, 1 - primary education (4th grade), 2 - 5th to 9th grade, 3 - secondary education or 4 - higher education)
8. **Fedu** - father's education (numeric: 0 - none, 1 - primary education (4th grade), 2 - 5th to 9th grade, 3 - secondary education or 4 - higher education)
9. **Mjob** - mother's job (nominal: 'teacher', 'health' care related, civil 'services' (e.g. administrative or police), 'at_home' or 'other')
10. **Fjob** - father's job (nominal: 'teacher', 'health' care related, civil 'services' (e.g. administrative or police), 'at_home' or 'other')
11. **reason** - reason to choose this school (nominal: close to 'home', school 'reputation', 'course' preference or 'other')
12. **guardian** - student's guardian (nominal: 'mother', 'father' or 'other')
13. **traveltime** - home to school travel time (numeric: 1 - <15 min., 2 - 15 to 30 min., 3 - 30 min. to 1 hour, or 4 - >1 hour)
14. **studytime** - weekly study time (numeric: 1 - <2 hours, 2 - 2 to 5 hours, 3 - 5 to 10 hours, or 4 - >10 hours)
15. **failures** - number of past class failures (numeric: n if 1<=n<3, else 4)
16. **schoolsup** - extra educational support (binary: yes or no)
17. **famsup** - family educational support (binary: yes or no)
18. **paid**- extra paid classes within the course subject (Math or Portuguese) (binary: yes or no)
19. **activities** - extra-curricular activities (binary: yes or no)
20. **nursery** - attended nursery school (binary: yes or no)
21. **higher** - wants to take higher education (binary: yes or no)
22. **internet** - Internet access at home (binary: yes or no)
23. **romantic** - with a romantic relationship (binary: yes or no)
24. **famrel** - quality of family relationships (numeric: from 1 - very bad to 5 - excellent)
25. **freetime** - free time after school (numeric: from 1 - very low to 5 - very high)
26. **goout** - going out with friends (numeric: from 1 - very low to 5 - very high)
27. **Dalc** - workday alcohol consumption (numeric: from 1 - very low to 5 - very high)
28. **Walc** - weekend alcohol consumption (numeric: from 1 - very low to 5 - very high)
29. **health** - current health status (numeric: from 1 - very bad to 5 - very good)
30. **absences** - number of school absences (numeric: from 0 to 93)



### Target:
31. **G1** - first period grade (numeric: from 0 to 20)
31. **G2** - second period grade (numeric: from 0 to 20)
32. **G3** - final grade (numeric: from 0 to 20, output target)

### Посмотрим на данные

In [None]:
import pandas as pd

In [None]:
# загружаем датасет с оценками по математике
# не забываем указать правильный разделитель
data = pd.read_csv('https://raw.githubusercontent.com/arunk13/MSDA-Assignments/master/IS607Fall2015/Assignment3/student-mat.csv', delimiter=';')

In [None]:
# посмотрим на первые 15 строк таблицы
# каждая строка - объект
# столбцы - признаки
data.head(15)

### Удаление столбцов, добавление столбцов, сортировка

In [None]:
# убираем столбцы G1 и G2, т.к. нас интересует только G3
data = data.drop(columns=['G1', 'G2'])

In [None]:
# добавить столбец
data['MeanAlc'] = (data['Walc']+data['Dalc'])/2

In [None]:
data = data.drop(columns=['MeanAlc'])

In [None]:
# отсортируем по оценкам по убыванию
sorted_data = data.sort_values(by='G3', ascending=False)

In [None]:
# первые 5 учеников
sorted_data.head(5)

In [None]:
# последние 5 учеников
sorted_data.tail(5)

### Индексация

In [None]:
# индексация - строки
data.loc[0]
# data.loc[:10]

In [None]:
# индексация - столбцы
data['G3']
# data[['school', 'address']] # несколько столбцов

In [None]:
# и то, и другое
data['G3'].loc[0]
# data.loc[0]['G3'] # так тоже можно

In [None]:
# индексация по условию
# средняя оценка людей, состоящих в отношениях
data[data['romantic'] == 'yes']['G3'].mean()

In [None]:
# и не состоящих
data[data['romantic'] == 'no']['G3'].mean()

In [None]:
# несколько условий
# есть отношения и хорошие отношения в семье
data[(data['romantic'] == 'yes') & (data['famrel'] >= 4)]

In [None]:
# есть отношения или хорошие отношения в семье
data[(data['romantic'] == 'yes') | (data['famrel'] >= 4)]

### Задание
Найти средний возраст тех, кто много пьет (Dalc и Walc >= 4) и тех, кто мало пьёт (Dalc и Walc = 1)


## Типы признаков и их статистические характеристики

In [None]:
# названия столбцов
data.columns

In [None]:
# количестов объектов, названия и типы признаков
data.info()

In [None]:
# узнать разные статистические характеристики числовых признаков 
data.describe()

#### Визуализация распределения значений для численных переменных

In [None]:
# гистограмма
data['G3'].plot(kind='hist', figsize=(5, 5))

In [None]:
# то же самое для бинарных и категориальных признаков
# в include пишем нужные типы переменных
data.describe(include=['object'])

Для категориальных (тип object) и булевых (тип bool) признаков можно воспользоваться методом value_counts.

In [None]:
# узнаем какие профессии родителей встречаются чаще всего
data['Mjob'].value_counts()

In [None]:
# то же самое, но в % соотношении
data['Mjob'].value_counts(normalize=True)

In [None]:
data['Fjob'].value_counts()

#### Визуализация распределения значений для категориальных переменных

In [None]:
# bar plot
data['Fjob'].value_counts().plot(kind='bar', figsize=(5,5))

### Сводные таблицы

In [None]:
# pd.crosstab(data['sex'], data['romantic'])
pd.crosstab(data['sex'], data['romantic'], normalize=True)

In [None]:
# сколько мальчиков и девочек среду тех, кто получил худшие оценки
worst_grades = data[data['G3'] <= 7]
pd.crosstab(worst_grades['G3'], worst_grades['sex'], normalize=True)

In [None]:
# то же самое в виде очень красивого и очень разноцветного графика

table = pd.crosstab(data['G3'], data['age'])

plt.figure(figsize=(5, 5)) # регулируем размер графика

sns.heatmap(table, # таблица
            xticklabels=table.columns, # названия столбцов
            yticklabels=table.index, # названия колонок
           annot=True) # подписать значения на цветных квадратиках
           
# добавляем название
plt.title('Оценки и возраст', fontsize=12)

# делаем шрифт побольше
plt.xticks(fontsize=12)
plt.yticks(fontsize=12)
plt.show()

### **Вопросы**
+ Какой % учеников ни разу не пропускал занятия?
+ Какой % учеников проваливал экзамены хотя бы один раз?
+ Есть ли сильно пьющие ученики (Dalc или Walc 4 и больше) с очень высокими оценками (G3 >= 18)? Какая самая высокая оценка среди сильно пьющих учеников?
+ Есть ли состоящие в отношениях ученики с высокими оценками (G3 >= 18)? Какая самая высокая оценка среди учеников, состоящих в отношених?
+ Правда ли, что большинство людей с высшим баллом (G3 >= 18) пьют мало/не пьют (Dalc и Walc = 1)?

## Корреляции

In [None]:
# корреляция между признаками (только количественные)
data.corr()
# data.corr().abs() # абсолютные значения

**Задание** - нарисовать таблицу корреляции в виде очень красивого и очень разноцветного графика с подписями

In [None]:
# то же самое в виде очень красивого и очень разноцветного графика


+ https://matplotlib.org/stable/tutorials/colors/colormaps.html
+ https://matplotlib.org/stable/gallery/color/colormap_reference.html

In [None]:
# признаки, больше всего коррелирующие с целевой переменной (G3)
data.corr().abs()['G3'].sort_values(ascending=False)

### Вопросы
+ Те, кто много пьёт, учатся хуже?
+ Учащиеся, которые живут дальше от школы чаще отстутствуют? 
+ Те у кого здоровье хуже чаще отстутвуют?

### Задание - на дом
Написать функцию, которая выведет топ n пар признаков с самым высоким абсолютным коэффициентом корреляции

In [None]:
data.corr().unstack()

In [None]:
def get_top_n_abs_corr(data, n=5):
    pass

## Визуализации по итогам обучения модели

In [None]:
target = data['G3']
data = data.drop(columns=['G3'])

Преобразуем не числовые признаки в компьютерочитаемый вид:

**Бинарные кодируем в 0 и 1:**

In [None]:
from sklearn.preprocessing import LabelEncoder

In [None]:
le = LabelEncoder()

In [None]:
for column in data.columns:
    if data[column].dtype == 'object' and len(data[column].unique()) == 2:
        print(column)
        data[column] = le.fit_transform(data[column])

**Категориальные** - one-hot encoding

Почему просто не заменить на числа с помощью Label Encoder?
+ В принципе так можно делать.
+ Но это не очень правильно, т.к. весь смысл категориальности теряется и появляются ложные интерпретации.
+ Ведь значения категориальных признаков нельзя сравнить между собой или расположить по порядку,в отличие от чисел.  Почему просто не заменить на числа с помощью Label Encoder?
+ В принципе так можно делать.
+ Но это не очень правильно, т.к. весь смысл категориальности теряется и появляются ложные интерпретации.
+ Ведь значения категориальных признаков нельзя сравнить между собой или расположить по порядку,в отличие от чисел.  

На примере признака Mjob, если заменить на значения числа (health -> 0, teacher -> 1, at_home -> 2, services -> 3, other -> 4), то получается что 
+ health < teacher < at_home < services < other 
+ teacher + at_home = services 
+ и т.д.
+ и все это не свойство данных, а свойство выбранной нами кодировки!

С категориальными признаками правильнее использовать One-hot encoding - создать N новых бинарных признаков (N - количество уникальных значений), 1 - в том столбце, где значение признака равно названию столбца, в остальных - 0. 
![](https://i.imgur.com/mtimFxh.png)

In [None]:
# те у которых больше 2 значений - делаем one-hot encoding
# drop_first - удаляем одну из колонок, тк она восстанавливается по значениям других (то, что не Red и не Yellow - точно Green)
data = pd.get_dummies(data, drop_first=True)

In [None]:
data.head()

Делим на обучающую и тестовую выборки:

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
# фиксируем RANDOM_STATE для воспороизводимости результатов (при каждм перезапуске ячейки в тестовую выборку попадают одни и те же объекты,
# соотв-но значение метрики качества для одной и той же модели не будет меняться каждый раз)
RANDOM_STATE = 666
# train_test_split рандомно выбирает 25% объектов и соответсвующих им ответов
X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.25, random_state=RANDOM_STATE)

In [None]:
# 39 признаков, 296 объектов в обучающй выборке
X_train.shape, y_train.shape

In [None]:
# 39 признаков, 99 объектов в тестовой выборке
X_test.shape, y_test.shape

### Регрессия

In [None]:
from sklearn.neighbors import KNeighborsRegressor

In [None]:
regr = KNeighborsRegressor()

In [None]:
regr.fit(X_train, y_train)

In [None]:
y_pred_regr = regr.predict(X_test)

#### Prediction error plot

+ На вертикальной оси - предсказанные значения, на горизонтальной - реальные. 
+ Чем ближе точки к диагонали, тем более точным является предсказание модели. 
+ Позволяет оценить на сколько и в какую сторону ошибается модель. 
+ В частности здесь мы видим, что она чаще занижает результаты (больше точек расположено ниже диагонали)

In [None]:
fig, ax = plt.subplots()
# рисуем синие точки, каждая точка - отдельный объект из тестовой выборки
ax.scatter(x=y_test, y=y_pred_regr)
# рисуем диагональ 
ax.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'k--', lw=4)
# подписываем оси
ax.set_xlabel('Real')
ax.set_ylabel('Predicted')
plt.show()

#### True and predicted values plot

Просто нарисуем для каждого объекта его реальное и предсказанное значение.

In [None]:
# y_test_sorted = [tst for tst, pred in sorted(zip(y_test, y_pred_regr))]
# y_pred_sorted = [pred for tst, pred in sorted(zip(y_test, y_pred_regr))]

In [None]:
fig, ax = plt.subplots(figsize=(15, 7))

y_true = y_test
y_pred = y_pred_regr

# рисуем точки соотвествующие каждому объекту
ax.scatter(x=range(0, len(y_true)), y=y_true, label='true')
ax.scatter(x=range(0, len(y_true)), y=y_pred, label='predicted')

# соединяем точки линией
ax.plot(range(0, len(y_true)),y_true)
ax.plot(range(0, len(y_true)), y_pred)

plt.legend(loc='lower right')

plt.show()

### Классификация

Будем предсказывать не конкретную оценку, а ее характеристику
+ exc 17-20
+ good - 13-16
+ sat - 8-12
+ fail - 0-7

In [None]:
def encode_grade(grade: float):
    if grade <= 7:
        return 'fail'
    if 8 <= grade <= 12:
        return 'sat'
    if 13 <= grade <= 16:
        return 'good'
    if 17 <= grade <= 20:
        return 'exc'

In [None]:
y_train_clf = [encode_grade(grade) for grade in y_train]
y_test_clf = [encode_grade(grade) for grade in y_test]

In [None]:
from sklearn.neighbors import KNeighborsClassifier

In [None]:
clf = KNeighborsClassifier()

In [None]:
clf.fit(X_train, y_train_clf)

In [None]:
y_pred_clf = clf.predict(X_test)

In [None]:
from sklearn.metrics import classification_report, confusion_matrix

In [None]:
print(classification_report(y_test_clf, y_pred_clf))

#### Confusion matrix

In [None]:
print(confusion_matrix(y_test_clf, y_pred_clf, labels=['exc', 'good', 'sat', 'fail']))

In [None]:
plt.figure(figsize=(6, 5)) # регулируем размер графика

sns.heatmap(confusion_matrix(y_test_clf, y_pred_clf, 
                             labels=['exc', 'good', 'sat', 'fail']), # таблица
            xticklabels=['exc', 'good', 'sat', 'fail'], # названия столбцов
            yticklabels=['exc', 'good', 'sat', 'fail'], # названия колонок
           annot=True) # подписать значения на цветных квадратиках
           
# добавляем название
plt.title('Confusion matrix', fontsize=12)

plt.ylabel('True') # true - строчки
plt.xlabel('Predicted') # predicted - столбцы

plt.show()

#### Самое шикарное - отобразить признаки в двумерное пространство и раскрасить в цвета классов

In [None]:
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE

In [None]:
model = TSNE(n_components=2)

In [None]:
# model.fit(data)
Z = model.fit_transform(X_test)

x_axis_2d = Z[:, 0]
y_axis_2d = Z[:, 1]

In [None]:
order = ['exc', 'good', 'sat', 'fail']

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(10, 5))

ax1.set_title('Predicted classes')
scatter = ax1.scatter(x_axis_2d, y_axis_2d, c=[order.index(i) for i in y_pred_clf])
legend = ax1.legend(*scatter.legend_elements()[:-1], order)

scatter2 = ax2.scatter(x_axis_2d, y_axis_2d, c=[order.index(i) for i in y_test_clf])
ax2.set_title('True classes')
legend = ax2.legend(*scatter2.legend_elements()[:-1], order)