# Задание на coursera #

## Метрики качества классификации ##

Цель:
* вычислять различные меры качества классификации: долю правильных ответов, точность, полноту, AUC-ROC и т.д.
* сравнивать алгоритмы классификации при наличии ограничений на точность или полноту

In [29]:
# подгрузим библиотеки
import numpy as np
import pandas as pd
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn.metrics import roc_auc_score, precision_recall_curve

**1. Загрузите файл classification.csv. В нем записаны истинные классы объектов выборки (колонка true) и ответы некоторого классификатора (колонка pred).**

In [4]:
data = pd.read_csv('classification.csv')

**Заполните таблицу ошибок классификации:**

In [12]:
TP = data.loc[(data.true==1) & (data.pred==1)].shape[0]
FP = data.loc[(data.true==0) & (data.pred==1)].shape[0]
FN = data.loc[(data.true==1) & (data.pred==0)].shape[0]
TN = data.loc[(data.true==0) & (data.pred==0)].shape[0]

**Посчитайте основные метрики качества классификатора:**
* Accuracy (доля верно угаданных) — sklearn.metrics.accuracy_score
* Precision (точность) — sklearn.metrics.precision_score
* Recall (полнота) — sklearn.metrics.recall_score
* F-мера — sklearn.metrics.f1_score 


In [14]:
accuracy_score(data.true, data.pred)


0.535

In [16]:
precision_score(data.true, data.pred)

0.5584415584415584

In [19]:
recall_score(data.true, data.pred)

0.4215686274509804

In [21]:
f1_score(data.true, data.pred)

0.48044692737430167

**Имеется четыре обученных классификатора.**

*В файле scores.csv записаны истинные классы и значения степени принадлежности положительному классу для каждого классификатора на некоторой выборке:*
* для логистической регрессии — вероятность положительного класса (колонка score_logreg),
* для SVM — отступ от разделяющей поверхности (колонка score_svm),
* для метрического алгоритма — взвешенная сумма классов соседей (колонка score_knn),
* для решающего дерева — доля положительных объектов в листе (колонка score_tree).

In [24]:
df = pd.read_csv("scores.csv")
df.head()

Unnamed: 0,true,score_logreg,score_svm,score_knn,score_tree
0,0,0.683832,0.145976,0.787063,0.5
1,1,0.801966,0.239511,1.0,0.833333
2,0,0.382315,-0.245701,0.0,0.0
3,1,0.506797,-0.137058,0.0,0.105263
4,1,0.488781,-0.154148,0.0,0.105263


**Посчитайте площадь под ROC-кривой для каждого классификатора. Какой классификатор имеет наибольшее значение метрики AUC-ROC (укажите название столбца)? Воспользуйтесь функцией sklearn.metrics.roc_auc_score.**

In [28]:
clf_names = df.columns[1:]
scores = pd.Series([roc_auc_score(df["true"], df[clf]) for clf in clf_names], index=clf_names)
scores

score_logreg    0.719188
score_svm       0.708683
score_knn       0.635154
score_tree      0.691927
dtype: float64

**Какой классификатор достигает наибольшей точности (Precision) при полноте (Recall) не менее 70% ?**

In [34]:
pr_scores = []
for clf in clf_names:
    pr_curve = precision_recall_curve(df["true"], df[clf])
    pr_scores.append(pr_curve[0][pr_curve[1] >= 0.7].max())

clf_names[np.argmax(pr_scores)]

'score_tree'