# Метрики качества классификации

1. Загрузите файл classification.csv. В нем записаны истинные классы объектов выборки (колонка true) и ответы некоторого классификатора (колонка pred).
 Заполните таблицу ошибок классификации:

- | Actual Positive | Actual Negative
--- | --- | ---
Predicted Positive | TP | FP
Predicted Negative | FN | TN

2. Посчитайте основные метрики качества классификатора (accuracy, precision, recall, f1_score)

In [73]:
import pandas as pd
import numpy as np
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn.metrics import precision_recall_curve
from sklearn.metrics import roc_auc_score

In [81]:
data = pd.read_csv('data/classification.csv')
data.head()

Unnamed: 0,true,pred
0,1,0
1,1,1
2,1,1
3,0,0
4,1,1


In [84]:
TP = len(data[(data['true'] == 1) & (data['pred'] == 1)])
TN = len(data[(data['true'] == 0) & (data['pred'] == 0)])
FP = len(data[(data['true'] == 0) & (data['pred'] == 1)])
FN = len(data[(data['true'] == 1) & (data['pred'] == 0)])

print('TP: ', TP)
print('TN: ', TN)
print('FP: ', FP)
print('FN: ', FN)

TP:  43
TN:  64
FP:  34
FN:  59


In [34]:
accuracy = accuracy_score(data['true'], data['pred'])
precision = precision_score(data['true'], data['pred'])
recall = recall_score(data['true'], data['pred'])
f1 = f1_score(data['true'], data['pred'])

print('Accuracy:\t', accuracy)
print('Precision:\t', precision)
print('Recall:\t\t', recall)
print('F1:\t\t', f1)

Accuracy:	 0.535
Precision:	 0.5584415584415584
Recall:		 0.4215686274509804
F1:		 0.48044692737430167


Имеется четыре обученных классификатора. В файле scores.csv записаны истинные классы и значения степени принадлежности положительному классу для каждого классификатора на некоторой выборке:

```
для логистической регрессии — вероятность положительного класса (колонка score_logreg),
для SVM — отступ от разделяющей поверхности (колонка score_svm),
для метрического алгоритма — взвешенная сумма классов соседей (колонка score_knn),
для решающего дерева — доля положительных объектов в листе (колонка score_tree).
```
Загрузите этот файл.

### 3. Посчитайте площадь под ROC-кривой для каждого классификатора. Какой классификатор имеет наибольшее значение метрики AUC-ROC (укажите название столбца)?

In [56]:
data = pd.read_csv('data/scores.csv')
data

Unnamed: 0,true,score_logreg,score_svm,score_knn,score_tree
0,0,0.683832,0.145976,0.787063,0.500000
1,1,0.801966,0.239511,1.000000,0.833333
2,0,0.382315,-0.245701,0.000000,0.000000
3,1,0.506797,-0.137058,0.000000,0.105263
4,1,0.488781,-0.154148,0.000000,0.105263
...,...,...,...,...,...
195,0,0.573801,-0.088203,0.284192,0.400000
196,0,0.624422,-0.012315,0.205437,0.400000
197,1,0.425538,-0.135673,0.382351,0.700000
198,0,0.905270,0.583806,1.000000,1.000000


In [66]:
logreg_roc = roc_auc_score(data['true'], data['score_logreg'])
svm_roc = roc_auc_score(data['true'], data['score_svm'])
knn_roc = roc_auc_score(data['true'], data['score_knn'])
tree_roc = roc_auc_score(data['true'], data['score_tree'])

print('LogReg ROC-AUC:\t', logreg_roc)
print('SVM ROC-AUC:\t', svm_roc)
print('KNN ROC-AUC:\t', knn_roc)
print('Tree ROC-AUC:\t', tree_roc)

print('\nscore_logreg')

LogReg ROC-AUC:	 0.719187675070028
SVM ROC-AUC:	 0.7086834733893557
KNN ROC-AUC:	 0.6351540616246498
Tree ROC-AUC:	 0.6919267707082833

score_logreg



### 4. Какой классификатор достигает наибольшей точности (Precision) при полноте (Recall) не менее 70% ? 

Чтобы получить ответ на этот вопрос, найдите все точки precision-recall-кривой с помощью функции sklearn.metrics.precision_recall_curve. Она возвращает три массива: precision, recall, thresholds. В них записаны точность и полнота при определенных порогах, указанных в массиве thresholds. Найдите максимальной значение точности среди тех записей, для которых полнота не меньше, чем 0.7.


In [74]:
prec, recall, thresholds = precision_recall_curve(data['true'], data['score_logreg'])
np.max(prec[recall > 0.7])

0.6302521008403361

In [75]:
prec, recall, thresholds = precision_recall_curve(data['true'], data['score_svm'])
np.max(prec[recall > 0.7])

0.6228070175438597

In [76]:
prec, recall, thresholds = precision_recall_curve(data['true'], data['score_knn'])
np.max(prec[recall > 0.7])

0.6065573770491803

In [77]:
prec, recall, thresholds = precision_recall_curve(data['true'], data['score_tree'])
np.max(prec[recall > 0.7])

0.6517857142857143

In [79]:
print('\nscore_tree')


score_tree
