# Метрики качества классификации

## 1. Данные

In [36]:
import numpy as np
import pandas as pd

from matplotlib import pyplot as plt
%matplotlib inline
import seaborn as sns

In [37]:
from sklearn.model_selection import train_test_split

In [38]:
X = pd.read_pickle('data/shelter/xtrain.pkl')
y = pd.read_csv('data/shelter/train.csv')['OutcomeType']

для учебных примеров оставим только 2 класса, отличающихся значительно и по смыслу, и по размеру

In [39]:
y.value_counts()

Adoption           10769
Transfer            9422
Return_to_owner     4786
Euthanasia          1555
Died                 197
Name: OutcomeType, dtype: int64

In [40]:
is_first_2_class = (y=='Adoption')|(y=='Euthanasia')

In [41]:
X = X[is_first_2_class]
X.index = range(len(X))
y = y[is_first_2_class]
y.index = range(len(y))

y теперь можно перевести в множество {0,1}

In [42]:
y = (y=='Adoption').astype(int)

для оценки качества разобьём выборки на 2 части, 3:1

In [44]:
Xtr, Xval, ytr, yval = train_test_split(X, y, test_size=0.25)

-----

## 2. Обучим классификатор

In [45]:
from sklearn.tree import DecisionTreeClassifier

In [46]:
clf = DecisionTreeClassifier(max_depth=5)

In [47]:
clf.fit(Xtr, ytr)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=5,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')

In [48]:
yval_pred = clf.predict(Xval)
yval_pred_proba = clf.predict_proba(Xval)

-----

## 3. Написание метрик с нуля

In [49]:
from sklearn import metrics

**hint:** в сами библиотеки можно заходить и смотрить код. Особенно это удобно в [PyCharm](https://www.jetbrains.com/pycharm/)

-----

Основа многих метрик - матрица ошибок (confusion matrix)

**Задание.** Написать функцию для расчёта матрицы ошибок при заданных *y, y_pred* и сравнить со значениями из sklearn.metrics

In [63]:
z=pd.Series(list(y))
z[list(set(z.index)-set(z[z==0].index))].index

Int64Index([    1,     2,     3,     4,     5,     6,     7,     8,     9,
               10,
            ...
            12312, 12314, 12316, 12317, 12318, 12319, 12320, 12321, 12322,
            12323],
           dtype='int64', length=10769)

In [64]:
def get_confusion_matrix(y, y_pred, print_matrix=False):
    # приводим это в pandas.Series и избавляемся от индекса (иначе по нему будет идти сопоставление)
    y = pd.Series(list(y))
    y_pred = pd.Series(list(y_pred))
    
    # рассчитываем значения
    #your code
    y_set_index = set(y.index)
    y_0 = set(y[y==0].index)
    y_1 = set(y[y==1].index)
    y_pred_0 = set(y_pred[y_pred==0].index)
    y_pred_1 = set(y_pred[y_pred==1].index)
    TN = len(y_0&y_pred_0)
    TP = len(y_1&y_pred_1)
    FP = len(y_0&y_pred_1)
    FN = len(y_1&y_pred_0)
    
    # выводим матрицу
    if print_matrix:
        print("{:5} {:5} {:5}".format("", "y=1", "y=0"))
        print("a=1 {:5} {:5}".format(TP, FP))
        print("a=0 {:5} {:5}".format(FN, TN))
    
    return {"TP":TP, "FP":FP, "TN":TN, "FN":FN}

In [65]:
get_confusion_matrix(yval, yval_pred, True)

      y=1   y=0  
a=1  2694   145
a=0    18   224


{'TP': 2694, 'FP': 145, 'TN': 224, 'FN': 18}

In [None]:
pass #your code for sklearn

In [66]:
from sklearn.metrics import confusion_matrix

In [67]:
confusion_matrix(yval, yval_pred)

array([[ 224,  145],
       [  18, 2694]], dtype=int64)

-----

**Задание.** Написать функцию для расчёта accuracy (доли верных ответов) и сравнить со значением из sklearn.metrics

$accuracy = \frac {TP+TN}{TP+TN+FP+FN}$

In [68]:
def accuracy(y, y_pred):
    scores_dict = get_confusion_matrix(y, y_pred)
    TP = scores_dict['TP']
    TN = scores_dict['TN']
    FP = scores_dict['FP']
    FN = scores_dict['FN']
    return (TP+TN)/(TP+TN+FP+FN)

In [69]:
accuracy(yval, yval_pred)

0.9470950989938332

In [None]:
pass #your code for sklearn

In [70]:
from sklearn.metrics import accuracy_score

In [71]:
accuracy_score(yval, yval_pred)

0.9470950989938332

-----

**Задание.** Написать функцию для расчёта precision (точности) и сравнить со значением из sklearn.metrics

$precision = \frac {TP}{TP+FP}$

In [72]:
def precision(y, y_pred):
    scores_dict = get_confusion_matrix(y, y_pred)
    TP = scores_dict['TP']
    TN = scores_dict['TN']
    FP = scores_dict['FP']
    FN = scores_dict['FN']
    return (TP)/(TP+FP)
    #your code

In [73]:
precision(yval, yval_pred)

0.9489256780556534

In [None]:
pass #your code for sklearn

In [75]:
from sklearn.metrics import precision_score
precision_score(yval, yval_pred)

0.9489256780556534

-----

**Задание.** Написать функцию для расчёта recall (полноты) и сравнить со значением из sklearn.metrics

$recall = \frac {TP}{TP+FN}$

In [76]:
def recall(y, y_pred):
    scores_dict = get_confusion_matrix(y, y_pred)
    TP = scores_dict['TP']
    TN = scores_dict['TN']
    FP = scores_dict['FP']
    FN = scores_dict['FN']
    return (TP)/(TP+FN)
    #your code

In [77]:
recall(yval, yval_pred)

0.9933628318584071

In [78]:
from sklearn.metrics import recall_score
recall_score(yval, yval_pred)

0.9933628318584071

-----

**Задание.** Написать функцию для расчёта f1 score и сравнить со значением из sklearn.metrics

$f1 = 2*\frac {precision*recall}{precision+recall}$

In [81]:
def f1_score(y, y_pred):
    pr = precision(y, y_pred)
    rec = recall(y, y_pred)
    return 2* ((pr*rec)/(pr+rec))

In [82]:
f1_score(yval, yval_pred)

0.9706359214555936

In [83]:
from sklearn.metrics import f1_score
f1_score(yval, yval_pred)

0.9706359214555936

-----

**Задание.** Найти значения AUC-ROC, AUR-PRC, logloss с помощью sklearn

In [84]:
metrics.roc_auc_score(yval, yval_pred_proba[:,1])

0.92460938436818

In [85]:
metrics.average_precision_score(yval, yval_pred_proba[:,1])

0.9828709267186603

In [86]:
metrics.log_loss(yval, yval_pred_proba[:,1])

0.1872564608897831