### Метрики

Меры качества классификации можно разбить на две большие группы: предназначенные для алгоритмов, выдающих номера классов, и для алгоритмов, выдающих оценки принадлежности к классам. К первой группе относятся доля правильных ответов, точность, полнота, F-мера. Ко второй — площади под ROC- или PR-кривой.

In [2]:
import pandas as pd
import numpy as np
from sklearn.tree import DecisionTreeClassifier
import sklearn.metrics

data = pd.read_csv('metrics.csv')
d1 = data[data['true'] == data['pred']]
d2 = data[data['true'] != data['pred']]

tp = len(d1[d1['true'] == 1])
tn = len(d1[d1['true'] == 0])
fn = len(d2[d2['true'] == 1])
fp = len(d2[d2['true'] == 0])

print(tp, fp, fn, tn)


43 34 59 64


    Accuracy (доля верно угаданных) — sklearn.metrics.accuracy_score
    
    Precision (точность) — sklearn.metrics.precision_score
    
    Recall (полнота) — sklearn.metrics.recall_score
    
    F-мера — sklearn.metrics.f1_score

In [2]:
print(sklearn.metrics.accuracy_score(data['true'], data['pred']))
print(sklearn.metrics.precision_score(data['true'], data['pred']))
print(sklearn.metrics.recall_score(data['true'], data['pred']))
print(sklearn.metrics.f1_score(data['true'], data['pred']))

0.535
0.5584415584415584
0.4215686274509804
0.48044692737430167


### ROC_AUC метрика

In [6]:
data_a = pd.read_csv('scores.csv')

print(sklearn.metrics.roc_auc_score(data_a['true'], data_a['score_logreg']))
print(sklearn.metrics.roc_auc_score(data_a['true'], data_a['score_svm']))
print(sklearn.metrics.roc_auc_score(data_a['true'], data_a['score_knn']))
print(sklearn.metrics.roc_auc_score(data_a['true'], data_a['score_tree']))



0.719187675070028
0.7086834733893557
0.6351540616246498
0.6919267707082833


Какой классификатор достигает наибольшей точности (Precision) при полноте (Recall) не менее 70% 

In [112]:
logred = pd.DataFrame(sklearn.metrics.precision_recall_curve(data_a['true'], data_a['score_logreg']))
logred = logred.transpose()
l = logred[logred[1] > 0.7].sort_values(by=0)
print(l.iloc[-1][0])

svm = pd.DataFrame(sklearn.metrics.precision_recall_curve(data_a['true'], data_a['score_svm']))
svm = svm.transpose()
s = svm[svm[1] > 0.7].sort_values(by=0)
print(s.iloc[-1][0])

knn = pd.DataFrame(sklearn.metrics.precision_recall_curve(data_a['true'], data_a['score_knn']))
knn = knn.transpose()
k = knn[knn[1] > 0.7].sort_values(by=0)
print(k.iloc[-1][0])

tree = pd.DataFrame(sklearn.metrics.precision_recall_curve(data_a['true'], data_a['score_tree']))
tree = tree.transpose()
t = tree[tree[1] > 0.7].sort_values(by=0)
print(t.iloc[-1][0])

0.6302521008403361
0.6228070175438597
0.6065573770491803
0.6517857142857143


###### Значит максимальной значение точности среди тех записей, для которых полнота не меньше, чем 0.7 у классификатора score_tree