В задачах классификации может быть много особенностей, влияющих на подсчет качества: различные цены ошибок, несбалансированность классов и т.д. Из-за этого существует большое количество метрик качества — каждая из них рассчитана на определенное сочетание свойств задачи и требований к ее решению.

Меры качества классификации можно разбить на две большие группы: предназначенные для алгоритмов, выдающих номера классов, и для алгоритмов, выдающих оценки принадлежности к классам. К первой группе относятся доля правильных ответов, точность, полнота, F-мера. Ко второй — площади под ROC- или PR-кривой.
Реализация в sklearn

Различные метрики качества реализованы в пакете sklearn.metrics. Конкретные функции указаны в инструкции по выполнению задания.

1. Загрузите файл classification.csv. В нем записаны истинные классы объектов выборки (колонка true) и ответы некоторого классификатора (колонка pred).

2. Заполните таблицу ошибок классификации:

Для этого подсчитайте величины TP, FP, FN и TN согласно их определениям. Например, FP — это количество объектов, имеющих класс 0, но отнесенных алгоритмом к классу 1. Ответ в данном вопросе — четыре числа через пробел.

3. Посчитайте основные метрики качества классификатора:

    Accuracy (доля верно угаданных) — sklearn.metrics.accuracy_score

    Precision (точность) — sklearn.metrics.precision_score

    Recall (полнота) — sklearn.metrics.recall_score

    F-мера — sklearn.metrics.f1_score

В качестве ответа укажите эти четыре числа через пробел.

4. Имеется четыре обученных классификатора. В файле scores.csv записаны истинные классы и значения степени принадлежности положительному классу для каждого классификатора на некоторой выборке:

    для логистической регрессии — вероятность положительного класса (колонка score_logreg),

    для SVM — отступ от разделяющей поверхности (колонка score_svm),

    для метрического алгоритма — взвешенная сумма классов соседей (колонка score_knn),

    для решающего дерева — доля положительных объектов в листе (колонка score_tree).

Загрузите этот файл.

5. Посчитайте площадь под ROC-кривой для каждого классификатора. Какой классификатор имеет наибольшее значение метрики AUC-ROC (укажите название столбца)? Воспользуйтесь функцией sklearn.metrics.roc_auc_score.

6. Какой классификатор достигает наибольшей точности (Precision) при полноте (Recall) не менее 70% ? 

Чтобы получить ответ на этот вопрос, найдите все точки precision-recall-кривой с помощью функции sklearn.metrics.precision_recall_curve. Она возвращает три массива: precision, recall, thresholds. В них записаны точность и полнота при определенных порогах, указанных в массиве thresholds. Найдите максимальной значение точности среди тех записей, для которых полнота не меньше, чем 0.7.

Если ответом является нецелое число, то целую и дробную часть необходимо разграничивать точкой, например, 0.42. При необходимости округляйте дробную часть до двух знаков.

In [1]:
import numpy as np
import pandas as pd
import sklearn.metrics
import math

In [2]:
df = pd.read_csv('classification.csv', sep=',')
y_true = df.values[:, 0]
y_pred = df.values[:, 1]

In [3]:
TP = df[(df.true==1) & (df.pred==1)].shape[0]
FP = df[(df.true==0) & (df.pred==1)].shape[0]
FN = df[(df.true==1) & (df.pred==0)].shape[0]
TN = df[(df.true==0) & (df.pred==0)].shape[0]

In [4]:
answer = f'%d %d %d %d' % (TP, FP, FN, TN)
print(answer)
with open('lab9_1.txt', 'w') as outfile:
    outfile.write(answer)

43 34 59 64


Accuracy (доля верно угаданных) — sklearn.metrics.accuracy_score
sklearn.metrics.accuracy_score(
    y_true,
    y_pred,
    *,
    normalize=True,
    sample_weight=None,
)

Precision (точность) — sklearn.metrics.precision_score
sklearn.metrics.precision_score(
    y_true,
    y_pred,
    *,
    labels=None,
    pos_label=1,
    average='binary',
    sample_weight=None,
    zero_division='warn',
)
Recall (полнота) — sklearn.metrics.recall_score
sklearn.metrics.recall_score(
    y_true,
    y_pred,
    *,
    labels=None,
    pos_label=1,
    average='binary',
    sample_weight=None,
    zero_division='warn',
)
F-мера — sklearn.metrics.f1_score
sklearn.metrics.f1_score(
    y_true,
    y_pred,
    *,
    labels=None,
    pos_label=1,
    average='binary',
    sample_weight=None,
    zero_division='warn',
)

In [5]:
accuracy = sklearn.metrics.accuracy_score(y_true, y_pred)

precision = sklearn.metrics.precision_score(y_true, y_pred)

recall = sklearn.metrics.recall_score(y_true, y_pred)

f_mera = sklearn.metrics.f1_score(y_true, y_pred)

In [6]:
answer = f'%s %s %s %s' % (round(accuracy,2), round(precision,2), round(recall,2), round(f_mera,2))
print(answer)
with open('lab9_2.txt', 'w') as outfile:
    outfile.write(answer)

0.54 0.56 0.42 0.48


4. Имеется четыре обученных классификатора. В файле scores.csv записаны истинные классы и значения степени принадлежности положительному классу для каждого классификатора на некоторой выборке:

    для логистической регрессии — вероятность положительного класса (колонка score_logreg),

    для SVM — отступ от разделяющей поверхности (колонка score_svm),

    для метрического алгоритма — взвешенная сумма классов соседей (колонка score_knn),

    для решающего дерева — доля положительных объектов в листе (колонка score_tree).

Загрузите этот файл.

5. Посчитайте площадь под ROC-кривой для каждого классификатора. Какой классификатор имеет наибольшее значение метрики AUC-ROC (укажите название столбца)? Воспользуйтесь функцией sklearn.metrics.roc_auc_score.

Какой из классификаторов имеет наибольшее значение метрики AUC-ROC (укажите название столбца)?

In [7]:
df = pd.read_csv('scores.csv', sep=',')

In [8]:
df

Unnamed: 0,true,score_logreg,score_svm,score_knn,score_tree
0,0,0.683832,0.145976,0.787063,0.500000
1,1,0.801966,0.239511,1.000000,0.833333
2,0,0.382315,-0.245701,0.000000,0.000000
3,1,0.506797,-0.137058,0.000000,0.105263
4,1,0.488781,-0.154148,0.000000,0.105263
...,...,...,...,...,...
195,0,0.573801,-0.088203,0.284192,0.400000
196,0,0.624422,-0.012315,0.205437,0.400000
197,1,0.425538,-0.135673,0.382351,0.700000
198,0,0.905270,0.583806,1.000000,1.000000


In [9]:
sklearn.metrics.roc_auc_score?

sklearn.metrics.roc_auc_score(
    y_true,
    y_score,
    *,
    average='macro',
    sample_weight=None,
    max_fpr=None,
    multi_class='raise',
    labels=None,
)

In [23]:
score_list=[]
score_list.append([sklearn.metrics.roc_auc_score(df.true, df.score_logreg), "score_logreg"])
score_list.append([sklearn.metrics.roc_auc_score(df.true, df.score_svm), "score_svm"])
score_list.append([sklearn.metrics.roc_auc_score(df.true, df.score_knn), "score_knn"])
score_list.append([sklearn.metrics.roc_auc_score(df.true, df.score_tree), "score_tree"])
print(score_list)

[[0.719187675070028, 'score_logreg'], [0.7086834733893557, 'score_svm'], [0.6351540616246498, 'score_knn'], [0.6919267707082833, 'score_tree']]


In [28]:
#np.argmax?
score_list[np.argmax(score_list, axis=0)[0]][1]

'score_logreg'

In [30]:
answer = score_list[np.argmax(score_list, axis=0)[0]][1]
print(answer)
with open('lab9_3.txt', 'w') as outfile:
    outfile.write(answer)

score_logreg


6. Какой классификатор достигает наибольшей точности (Precision) при полноте (Recall) не менее 70% ? 

Чтобы получить ответ на этот вопрос, найдите все точки precision-recall-кривой с помощью функции sklearn.metrics.precision_recall_curve. Она возвращает три массива: precision, recall, thresholds. В них записаны точность и полнота при определенных порогах, указанных в массиве thresholds. Найдите максимальной значение точности среди тех записей, для которых полнота не меньше, чем 0.7.
Какой классификатор достигает наибольшей точности при полноте не менее 70% (укажите название столбца)?

In [32]:
sklearn.metrics.precision_recall_curve?
# sklearn.metrics.precision_recall_curve(
#     y_true,
#     probas_pred,
#     *,
#     pos_label=None,
#     sample_weight=None,
# )

In [41]:
#precision, recall, thresholds = sklearn.metrics.precision_recall_curve(df.true, df.score_logreg)

In [42]:
# pr_curve = pd.Series(sklearn.metrics.precision_recall_curve(df.true, df.score_logreg))
# pr_curve.index = ["precision", "recall", "thresholds"]
# pr_curve

precision     [0.49746192893401014, 0.49489795918367346, 0.4...
recall        [1.0, 0.9897959183673469, 0.9795918367346939, ...
thresholds    [0.0707387218281469, 0.074923336628734, 0.0866...
dtype: object

In [53]:
df_pr_curve_score_logreg = pd.DataFrame(sklearn.metrics.precision_recall_curve(df.true, df.score_logreg), 
                           ["precision", "recall", "thresholds"]).T
df_pr_curve_score_svm = pd.DataFrame(sklearn.metrics.precision_recall_curve(df.true, df.score_svm), 
                           ["precision", "recall", "thresholds"]).T
df_pr_curve_score_knn = pd.DataFrame(sklearn.metrics.precision_recall_curve(df.true, df.score_knn), 
                           ["precision", "recall", "thresholds"]).T
df_pr_curve_score_tree = pd.DataFrame(sklearn.metrics.precision_recall_curve(df.true, df.score_tree), 
                           ["precision", "recall", "thresholds"]).T

Найдите max precision среди тех записей, для которых recall>=0.7. 
Какой классификатор достигает наибольшей точности при полноте не менее 70% (укажите название столбца)?

In [62]:
score_list=[]
score_list.append([df_pr_curve_score_logreg[df_pr_curve_score_logreg.recall>=0.7].precision.max(), "score_logreg"])
score_list.append([df_pr_curve_score_svm[df_pr_curve_score_svm.recall>=0.7].precision.max(), "score_svm"])
score_list.append([df_pr_curve_score_knn[df_pr_curve_score_knn.recall>=0.7].precision.max(), "score_knn"])
score_list.append([df_pr_curve_score_tree[df_pr_curve_score_tree.recall>=0.7].precision.max(), "score_tree"])
print(score_list)

[[0.6302521008403361, 'score_logreg'], [0.6228070175438597, 'score_svm'], [0.6065573770491803, 'score_knn'], [0.6517857142857143, 'score_tree']]


In [63]:
answer = score_list[np.argmax(score_list, axis=0)[0]][1]
print(answer)
with open('lab9_4.txt', 'w') as outfile:
    outfile.write(answer)

score_tree
