# Assignment: Метрики качества классификации

Данное задание основано на материалах лекций по метрикам качества классификации.

Вы научитесь:

* вычислять различные меры качества классификации: долю правильных ответов, точность, полноту, AUC-ROC и т.д.
* сравнивать алгоритмы классификации при наличии ограничений на точность или полноту

## Введение

В задачах классификации может быть много особенностей, влияющих на подсчет качества: различные цены ошибок, несбалансированность классов и т.д. Из-за этого существует большое количество метрик качества — каждая из них рассчитана на определенное сочетание свойств задачи и требований к ее решению.

Меры качества классификации можно разбить на две большие группы: предназначенные для алгоритмов, выдающих номера классов, и для алгоритмов, выдающих оценки принадлежности к классам. К первой группе относятся доля правильных ответов, точность, полнота, F-мера. Ко второй — площади под ROC- или PR-кривой.

## Реализация в `sklearn`

Различные метрики качества реализованы в пакете `sklearn.metrics`. Конкретные функции указаны в инструкции по выполнению задания.

## Материалы

* [Подробнее о метриках качества](https://github.com/esokolov/ml-course-msu/blob/master/ML15/lecture-notes/Sem05_metrics.pdf)

## Инструкция по выполнению

###  Задание 1
Загрузите файл `classification.csv`. В нем записаны истинные классы объектов выборки (колонка `true`) и ответы некоторого классификатора (колонка `predicted`).

In [2]:
import pandas as pd
import numpy as np

from sklearn import metrics

In [5]:
data = pd.read_csv("classification.csv")
print(data.shape)

true = data['true']
print(len(true))
predicted = data['pred']
print(len(predicted))

(200, 2)
200
200


Заполните **таблицу ошибок классификации**:
```
                Actual Positive	Actual Negative
    Predicted Positive	TP            FP
    Predicted Negative	FN	         TN
```
Для этого подсчитайте величины `TP`, `FP`, `FN` и `TN` согласно их определениям. Например, `FP` — это количество объектов, имеющих класс `0`, но отнесенных алгоритмом к классу `1`. Ответ в данном вопросе — четыре числа через пробел.

In [6]:
metrics.confusion_matrix(true, predicted)

array([[64, 34],
       [59, 43]])

In [7]:
"64 34 59 43"

'64 34 59 43'

In [3]:
df = pd.read_csv('classification.csv')

TP = sum((df.true == df.pred) & (df.pred == 1))
FP = sum((df.true != df.pred) & (df.pred == 1))
FN = sum((df.true != df.pred) & (df.pred == 0))
TN = sum((df.true == df.pred) & (df.pred == 0))

accuracy = metrics.accuracy_score(df.true,df.pred)
precision = metrics.precision_score(df.true,df.pred)
recall = metrics.recall_score(df.true,df.pred)
f1 = metrics.f1_score(df.true,df.pred)
print(TP, FP, FN, TN)

OSError: File b'classification.csv' does not exist

### Задание 2

Посчитайте основные метрики качества классификатора:

- Accuracy (доля верно угаданных) — `sklearn.metrics.accuracy_score`
- Precision (точность) — `sklearn.metrics.precision_score`
- Recall (полнота) — `sklearn.metrics.recall_score`
- F-мера — `sklearn.metrics.f1_score`

В качестве ответа укажите эти четыре числа через пробел.

In [10]:
print(round(metrics.accuracy_score(true, predicted), 2), 
      round(metrics.precision_score(true,predicted), 2), 
      round(metrics.recall_score(true,predicted), 2),
      round(metrics.f1_score(true,predicted), 2)
    )

0.54 0.56 0.42 0.48


### Задание 3

Имеется четыре обученных классификатора. В файле `scores.csv` записаны истинные классы и значения степени принадлежности положительному классу для каждого классификатора на некоторой выборке:

- для логистической регрессии — вероятность положительного класса (колонка `score_logreg`),
- для SVM — отступ от разделяющей поверхности (колонка `score_svm`),
- для метрического алгоритма — взвешенная сумма классов соседей (колонка `score_knn`),
- для решающего дерева — доля положительных объектов в листе (колонка `score_tree`).

Загрузите этот файл.

In [12]:
scores = pd.read_csv("scores.csv")
scores.head

<bound method NDFrame.head of      true  score_logreg  score_svm  score_knn  score_tree
0       0      0.683832   0.145976   0.787063    0.500000
1       1      0.801966   0.239511   1.000000    0.833333
2       0      0.382315  -0.245701   0.000000    0.000000
3       1      0.506797  -0.137058   0.000000    0.105263
4       1      0.488781  -0.154148   0.000000    0.105263
5       0      0.108506  -0.790864   0.000000    0.000000
6       0      0.413749  -0.185143   0.283053    0.363636
7       0      0.961081   0.830973   1.000000    1.000000
8       0      0.055733  -0.872805   0.000000    0.100000
9       0      0.168708  -0.518390   0.000000    0.100000
10      1      0.504716  -0.103459   0.698631    0.833333
11      1      0.700781   0.104391   1.000000    0.833333
12      0      0.310665  -0.301488   0.676880    0.363636
13      0      0.784460   0.195189   1.000000    0.923077
14      0      0.160733  -0.611195   0.655103    0.315789
15      1      0.799574   0.331874   1.000

In [22]:
ytest = scores['true']

Посчитайте площадь под `ROC`-кривой для каждого классификатора. Какой классификатор имеет наибольшее значение метрики `AUC-ROC` (укажите название столбца с ответами этого классификатора)? Воспользуйтесь функцией `sklearn.metrics.roc_auc_score`.

In [23]:
print(metrics.roc_auc_score(ytest, scores['score_logreg']))
print(metrics.roc_auc_score(ytest, scores['score_svm']))
print(metrics.roc_auc_score(ytest, scores['score_knn']))
print(metrics.roc_auc_score(ytest, scores['score_tree']))

0.71918767507
0.708683473389
0.635154061625
0.691926770708


### Задание 4

Какой классификатор достигает наибольшей точности (`Precision`) при полноте (`Recall`) не менее 70% ? Какое значение точности при этом получается?

Чтобы получить ответ на этот вопрос, найдите все точки `precision-recall`-кривой с помощью функции `sklearn.metrics.precision_recall_curve`. Она возвращает три массива: `precision`, `recall`, `thresholds`. В них записаны точность и полнота при определенных порогах, указанных в массиве `thresholds`. Найдите максимальной значение точности среди тех записей, для которых полнота не меньше, чем 0.7.

In [49]:

# precision = dict()
# recall = dict()
# threshold = dict()
precisionL, recallL, thresholdL = metrics.precision_recall_curve(ytest, scores['score_logreg'])
print(max(precisionL[recallL >= 0.7]))

precisionS, recallS, thresholdS = metrics.precision_recall_curve(ytest, scores['score_svm'])
print(max(precisionS[recallS >= 0.7]))
precisionK, recallK, thresholdK = metrics.precision_recall_curve(ytest, scores['score_knn'])
print(max(precisionK[recallK > 0.7]))
precisionT, recallT, thresholdT = metrics.precision_recall_curve(ytest, scores['score_tree'])
print(max(precisionT[recallT > 0.7]))


0.63025210084
0.622807017544
0.606557377049
0.651785714286


Если ответом является нецелое число, то целую и дробную часть необходимо разграничивать точкой, например, 0.42. При необходимости округляйте дробную часть до двух знаков. Ответ на каждое задание — текстовый файл, содержащий ответ в первой строчке. Обратите внимание, что отправляемые файлы не должны содержать перевод строки в конце. Данный нюанс является ограничением платформы Coursera. Мы работаем над тем, чтобы убрать это ограничение.