# Задание по программированию: Метрики качества классификации

## Вы научитесь:
- вычислять различные меры качества классификации: долю правильных ответов, точность, полноту, AUC-ROC и т.д.
- сравнивать алгоритмы классификации при наличии ограничений на точность или полноту

## Введение
В задачах классификации может быть много особенностей, влияющих на подсчет качества: различные цены ошибок, несбалансированность классов и т.д. Из-за этого существует большое количество метрик качества — каждая из них рассчитана на **определенное сочетание свойств** задачи и требований к ее решению.

Меры качества классификации можно разбить на две большие группы: предназначенные для алгоритмов, выдающих **номера классов**, и для алгоритмов, выдающих **оценки принадлежности** к классам. К первой группе относятся **доля правильных ответов, точность, полнота, F-мера**. Ко второй — **площади** под ROC- или PR-кривой.

## Реализация в sklearn
Различные метрики качества реализованы в пакете **sklearn.metrics**. Конкретные функции указаны в инструкции по выполнению задания.

## Материалы
- <a href="https://github.com/esokolov/ml-course-hse/blob/master/2016-fall/lecture-notes/lecture04-linclass.pdf">Подробнее о метриках качества</a>
- <a href="https://github.com/esokolov/ml-course-hse/blob/master/2016-fall/seminars/sem05-linclass.pdf">Задачи по AUC-ROC</a>

In [1]:
import pandas as pd
import numpy as np

In [54]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score, precision_recall_curve

In [5]:
# функция для записи ответов
def write_answer(name, answer):
    with open('data/' + name + '.txt', 'w') as file:
        file.write(str(answer))

## Инструкция по выполнению
1) Загрузите файл `classification.csv`. В нем записаны истинные классы объектов выборки (колонка true) и ответы некоторого классификатора (колонка pred).

In [2]:
data = pd.read_csv('data/classification.csv')

In [3]:
data.head()

Unnamed: 0,true,pred
0,1,0
1,1,1
2,1,1
3,0,0
4,1,1


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 2 columns):
true    200 non-null int64
pred    200 non-null int64
dtypes: int64(2)
memory usage: 3.2 KB


2) Заполните таблицу ошибок классификации:   
Для этого подсчитайте величины **TP, FP, FN и TN** согласно их определениям. Например, FP — это количество объектов, имеющих класс 0, но отнесенных алгоритмом к классу 1. Ответ в данном вопросе — четыре числа через пробел.



In [24]:
TP = ((data['true'] == 1) & (data['pred'] == 1)).sum()
FP = ((data['true'] == 0) & (data['pred'] == 1)).sum()
FN = ((data['true'] == 1) & (data['pred'] == 0)).sum()
TN = ((data['true'] == 0) & (data['pred'] == 0)).sum()

In [41]:
write_answer('metrics_answer1', ' '.join(np.array([TP, FP, FN, TN]).astype(str)))

3) Посчитайте основные метрики качества классификатора:

- Accuracy (доля верно угаданных) — sklearn.metrics.accuracy_score
- Precision (точность) — sklearn.metrics.precision_score
- Recall (полнота) — sklearn.metrics.recall_score
- F-мера — sklearn.metrics.f1_score   

В качестве ответа укажите эти четыре числа через пробел.

In [38]:
scores = [round(score(data['true'], data['pred']), 2) for score in [accuracy_score, precision_score, recall_score, f1_score]]    

In [42]:
write_answer('metrics_answer2', ' '.join(np.array(scores).astype(str)))

4) Имеется четыре обученных классификатора. В файле `scores.csv` записаны истинные классы и значения степени принадлежности положительному классу для каждого классификатора на некоторой выборке:

- для логистической регрессии — вероятность положительного класса (колонка score_logreg),
- для SVM — отступ от разделяющей поверхности (колонка score_svm),
- для метрического алгоритма — взвешенная сумма классов соседей (колонка score_knn),
- для решающего дерева — доля положительных объектов в листе (колонка score_tree).

Загрузите этот файл.

In [43]:
scores = pd.read_csv('data/scores.csv')

In [44]:
scores.head()

Unnamed: 0,true,score_logreg,score_svm,score_knn,score_tree
0,0,0.683832,0.145976,0.787063,0.5
1,1,0.801966,0.239511,1.0,0.833333
2,0,0.382315,-0.245701,0.0,0.0
3,1,0.506797,-0.137058,0.0,0.105263
4,1,0.488781,-0.154148,0.0,0.105263


In [45]:
scores.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 5 columns):
true            200 non-null int64
score_logreg    200 non-null float64
score_svm       200 non-null float64
score_knn       200 non-null float64
score_tree      200 non-null float64
dtypes: float64(4), int64(1)
memory usage: 7.9 KB


5) Посчитайте площадь под ROC-кривой для каждого классификатора. Какой классификатор имеет наибольшее значение метрики AUC-ROC (укажите название столбца)? Воспользуйтесь функцией `sklearn.metrics.roc_auc_score`.

In [72]:
score_names = scores.drop('true', axis=1).columns
max_score = score_names[np.argmax([roc_auc_score(scores['true'], scores[score]) 
                                                           for score in score_names])]
max_score

'score_logreg'

In [53]:
write_answer('metrics_answer3', max_score)

6) Какой классификатор достигает наибольшей точности (Precision) при полноте (Recall) не менее 70% ?

Чтобы получить ответ на этот вопрос, найдите все точки precision-recall-кривой с помощью функции `sklearn.metrics.precision_recall_curve`. Она возвращает три массива: `precision, recall, thresholds`. В них записаны точность и полнота при определенных порогах, указанных в массиве `thresholds`. Найдите максимальной значение точности среди тех записей, для которых полнота не меньше, чем 0.7.

In [56]:
precision_recalls = [precision_recall_curve(scores['true'], scores[score]) for score in scores.drop('true', axis=1).columns]


In [73]:
max_Precision_clf = score_names[
                                np.argmax([max(precision_recalls[i][0][precision_recalls[i][1] >= 0.7]) 
                                                                                   for i in range(len(precision_recalls))])
                                ]
max_Precision_clf

'score_tree'

In [74]:
write_answer('metrics_answer4', max_Precision_clf)