# Метрики качества классификации

## 1. Данные

In [1]:
import numpy as np
import pandas as pd

from matplotlib import pyplot as plt
%matplotlib inline
import seaborn as sns

In [2]:
from sklearn.model_selection import train_test_split

In [3]:
X = pd.read_pickle('data/shelter/xtrain.pkl')
y = pd.read_csv('data/shelter/train.csv')['OutcomeType']

для учебных примеров оставим только 2 класса, отличающихся значительно и по смыслу, и по размеру

In [4]:
y.value_counts()

Adoption           10769
Transfer            9422
Return_to_owner     4786
Euthanasia          1555
Died                 197
Name: OutcomeType, dtype: int64

In [5]:
is_first_2_class = (y=='Adoption')|(y=='Euthanasia')

In [6]:
X = X[is_first_2_class]
X.index = range(len(X))
y = y[is_first_2_class]
y.index = range(len(y))

y теперь можно перевести в множество {0,1}

In [7]:
y = (y=='Adoption').astype(int)

для оценки качества разобьём выборки на 2 части, 3:1

In [8]:
Xtr, Xval, ytr, yval = train_test_split(X, y, test_size=0.25)

-----

## 2. Обучим классификатор

In [9]:
from sklearn.tree import DecisionTreeClassifier

In [10]:
clf = DecisionTreeClassifier(max_depth=5)

In [11]:
clf.fit(Xtr, ytr)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=5,
            max_features=None, max_leaf_nodes=None,
            min_impurity_split=1e-07, min_samples_leaf=1,
            min_samples_split=2, min_weight_fraction_leaf=0.0,
            presort=False, random_state=None, splitter='best')

In [12]:
yval_pred = clf.predict(Xval)
yval_pred_proba = clf.predict_proba(Xval)

-----

## 3. Написание метрик с нуля

In [13]:
from sklearn import metrics

**hint:** в сами библиотеки можно заходить и смотрить код. Особенно это удобно в [PyCharm](https://www.jetbrains.com/pycharm/)

-----

Основа многих метрик - матрица ошибок (confusion matrix)

**Задание.** Написать функцию для расчёта матрицы ошибок при заданных *y, y_pred* и сравнить со значениями из sklearn.metrics

In [14]:
def get_confusion_matrix(y, y_pred, print_matrix=False):
    # приводим это в pandas.Series и избавляемся от индекса (иначе по нему будет идти сопоставление)
    y = pd.Series(list(yval))
    y_pred = pd.Series(list(yval_pred))
    TP=0
    FP=0
    FN=0
    TN=0
    for i in range(len(yval)):
        if y[i]==1 and y_pred[i]==1:
            TP+=1
        elif y[i]==0 and y_pred[i]==1:
            FP+=1
        elif y[i]==1 and y_pred[i]==0:
            FN+=1
        elif y[i]==0 and y_pred[i]==0:
            TN+=1
            
    # рассчитываем значения
    pass #your code
    
    # выводим матрицу
    if print_matrix:
        print("{:5} {:5} {:5}".format("", "y=1", "y=0"))
        print("a=1 {:5} {:5}".format(TP, FP))
        print("a=0 {:5} {:5}".format(FN, TN))
    
    return {"TP":TP, "FP":FP, "TN":TN, "FN":FN}

In [15]:
get_confusion_matrix(yval, yval_pred, True)

      y=1   y=0  
a=1  2666   145
a=0    25   245


{'FN': 25, 'FP': 145, 'TN': 245, 'TP': 2666}

In [16]:
from sklearn.metrics import confusion_matrix

In [20]:
confusion_matrix(yval, yval_pred)

array([[ 245,  145],
       [  25, 2666]])

-----

**Задание.** Написать функцию для расчёта accuracy (доли верных ответов) и сравнить со значением из sklearn.metrics

$accuracy = \frac {TP+TN}{TP+TN+FP+FN}$

In [None]:
def accuracy(y, y_pred):
    pass #your code

In [None]:
accuracy(yval, yval_pred)

In [None]:
pass #your code for sklearn

-----

**Задание.** Написать функцию для расчёта precision (точности) и сравнить со значением из sklearn.metrics

$precision = \frac {TP}{TP+FP}$

In [None]:
def precision(y, y_pred):
    pass #your code

In [None]:
precision(yval, yval_pred)

In [None]:
pass #your code for sklearn

-----

**Задание.** Написать функцию для расчёта recall (полноты) и сравнить со значением из sklearn.metrics

$recall = \frac {TP}{TP+FN}$

In [None]:
def recall(y, y_pred):
    pass #your code for sklearn

In [None]:
recall(yval, yval_pred)

In [None]:
pass #your code for sklearn

-----

**Задание.** Написать функцию для расчёта f1 score и сравнить со значением из sklearn.metrics

$f1 = 2*\frac {precision*recall}{precision+recall}$

In [None]:
def f1_score(y, y_pred):
    pass #your code

In [None]:
f1_score(yval, yval_pred)

In [None]:
pass #your code for sklearn

-----

**Задание.** Найти значения AUC-ROC, AUR-PRC, logloss с помощью sklearn

In [None]:
metrics.roc_auc_score(yval, yval_pred_proba[:,1])

In [None]:
metrics.average_precision_score(yval, yval_pred_proba[:,1])

In [None]:
metrics.log_loss(yval, yval_pred_proba[:,1])