# Измерение качества моделей

## Метрики качества

Это практическое задание посвящено ознакомлению с инструментами оценки качества моделей машинного обучения, которые предоставляет библиотека `scikit-learn`. Метрики качества, представленные различными функциями, находятся в модуле `sklearn.metrics`. Мы начнем с загрузки набора данных из файла `data.csv` при помощи функции `read_csv` из библиотеки `pandas`. Этот набор данных содержит информацию о предсказаниях различных алгоритмов машинного обучения для решения задачи классификации. Колонка `prediction` - это результаты работы одного из этих алгоритмов. Целевая переменная содержится в столбце `target` (класс 0 или 1). Подсчитайте значение `true negative`, `false negative`, `true positive` и `false positive`. Запишите эти значения через запятую, сохраняя приведенный порядок, в переменную `answer1`, которая будет являтся строкой. Далее, посчитайте для этих данных значение таких метрик как `precision`, `recall` и `f1 score` с точностью до двух знаков после запятой. Запишите результаты в строго заданном порядке через запятую в переменную `answer2`, которая так же будет являться строкой

### *РЕШЕНИЕ*

In [1]:
import pandas as pd
from sklearn.metrics import confusion_matrix

df = pd.read_csv('data.csv')
df.head()

Unnamed: 0,prediction,scores_1,scores_2,target
0,1,0.89,0.9,1
1,0,0.06,0.0,0
2,1,0.71,0.6,0
3,1,1.0,0.7,1
4,1,1.0,1.0,1


In [2]:
df.shape

(188, 4)

In [3]:
df.shape[0]

188

`true negative` - prediction=0 and target=0  
`false negative` - prediction=0 and target=1  
`true positive` - prediction=1 and target=1  
`false positive` - prediction=1 and target=0

In [4]:
true_negative = 0
false_negative = 0
true_positive = 0
false_positive = 0

for index, row in df.iterrows():
    if row['prediction'] == 0 and row['target'] == 0:
        true_negative += 1
    if row['prediction'] == 0 and row['target'] == 1:
        false_negative += 1
    if row['prediction'] == 1 and row['target'] == 1:
        true_positive += 1
    if row['prediction'] == 1 and row['target'] == 0:
        false_positive += 1

print(f'true_negative = {true_negative}\nfalse_negative = {false_negative}\ntrue_positive = {true_positive}\nfalse_positive = {false_positive}')

true_negative = 63
false_negative = 4
true_positive = 114
false_positive = 7


In [5]:
df.shape[0] == true_negative + false_negative + true_positive + false_positive 

True

In [6]:
answer1 = f'{true_negative},{false_negative},{true_positive},{false_positive}'
print(answer1)

63,4,114,7


In [7]:
tp = true_negative
fn = false_negative
tn = true_positive
fp = false_positive

In [8]:
from sklearn.metrics import precision_score, recall_score, f1_score

y_prediction = df['prediction']
y_target = df['target']


precision_score_value = round(precision_score(y_target, y_prediction), 2)
print(f'tp / (tp + fp) = {tp / (tp + fp)}')
print(f'precision_score_value = {precision_score_value}\n')

recall_score_value = round(recall_score(y_target, y_prediction), 2)
print(f'tp / (tp + fn) = {tp / (tp + fn)}')
print(f'recall_score_value = {recall_score_value}\n')

f1_score_value = round(f1_score(y_target, y_prediction), 2)
print(f'2*(precision_score_value * recall_score_value) / (precision_score_value + recall_score_value) = {2*(precision_score_value * recall_score_value) / (precision_score_value + recall_score_value)}')
print(f'f1_score_value = {f1_score_value}\n')

answer2 = f'{precision_score_value},{recall_score_value },{f1_score_value }'
print(answer2)

tp / (tp + fp) = 0.9
precision_score_value = 0.94

tp / (tp + fn) = 0.9402985074626866
recall_score_value = 0.97

2*(precision_score_value * recall_score_value) / (precision_score_value + recall_score_value) = 0.9547643979057592
f1_score_value = 0.95

0.94,0.97,0.95


В столбцах `scores_1` и `scores_2` содержаться оценки вероятности пренадлежности объектов к классу 1 для двух разных алгоритмов машинного обучения. Рассчитайте площадь под ROC-кривой для каждого алгоритма и сравните их. В качестве ответа `answer3` приведите большее из двух значений, округленное до трех знаков после запятой.

### *РЕШЕНИЕ*

In [9]:
from sklearn.metrics import roc_auc_score

In [10]:
df.head()

Unnamed: 0,prediction,scores_1,scores_2,target
0,1,0.89,0.9,1
1,0,0.06,0.0,0
2,1,0.71,0.6,0
3,1,1.0,0.7,1
4,1,1.0,1.0,1


In [11]:
round(roc_auc_score(df['target'], df['scores_1']), 3)

0.993

In [12]:
round(roc_auc_score(df['target'], df['scores_2']), 3)

0.985

In [13]:
answer3 = 0.993

## Метод скользящего контроля

Во второй части данного практического задания мы изучать различные методы оценки моделей машинного обучения. Загрузите набор данных `Breast Cancer Wisconsin (Diagnostic)`, используя функцию `load_breast_cancer` из модуля `sklearn.datasets`. Этот датасет позволяет решать задачу предсказания рака груди по различным характеристикам опухоли. В данном случае, целевая переменная принимает два значения, соответствующие доброкачественной и злокачественной опухоли. Проверьте, является ли данная выборка сбалансированной.

In [14]:
from sklearn.datasets import load_breast_cancer

X, y = load_breast_cancer(return_X_y=True)
counts = pd.value_counts(y)
print("Is this a balanced dataset? {}".format(counts[1] == counts[0]))

Is this a balanced dataset? False


Первый метод, который мы будем использовать, - это случайное разбиение датасета на тренировочную и тестовую выборку с помощью функции `train_test_split` из `sklearn.model_selection` с параметрами `random_state=3` и `test_size=0.33`. Если выборка является несбалансированной передайте целевую переменную в эту функцию в качестве аргумента `stratify`.

Обучите логистическую регрессию (класс `LogisticRegression` из модуля `sklearn.linear_model`) с параметром конструктора `random_state=42` и метод K ближайших соседей (класс `KNeighborsClassifier` из модуля `sklearn.neighbors`) на тренировочной выборке. Оцените качество на тестовой выборке для каждой из моделей. В качестве метрики качества используйте `recall`. Какая из моделей показывает лучший результат? Ответом на это задание `answer4` является этот результат, округленный до трех знаков после запятой.

### *РЕШЕНИЕ*

In [15]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import recall_score
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression


In [16]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=3, stratify=y)
log_reg = LogisticRegression(random_state=42, max_iter=10000).fit(X_train, y_train)
print(f'log_reg={round(recall_score(y_test, log_reg.predict(X_test)), 3)}')
neigh = KNeighborsClassifier(n_neighbors=3).fit(X_train, y_train)
print(f'neigh={round(recall_score(y_test, neigh.predict(X_test)), 3)}')
answer4 = 0.975

log_reg=0.975
neigh=0.975


Далее мы проведем оценку каждой из этих моделей в соответствии с методом скользящего контроля с помощью функции `cross_val_score` из модуля `sklearn.model_selection`. В качестве параметра кросс-валидации `cv` в этой функции используйте экземпляр класса `StratifiedKFold` из `sklearn.model_selection` с тремя разбиениями. 

Функция `cross_val_score` возвращает количество оценок, соответствующие числу разбиений.
В качестве итогового результата используете среднее значение полученных оценок с помощью метрики `recall`. Какая модель работает лучше в это случае? Какие выводы можно из этого сделать? Ответом на это задание `answer5` является лучший итоговый результат, округленный до трех знаков после запятой.

### *РЕШЕНИЕ*

In [29]:
from sklearn.model_selection import cross_val_score, StratifiedKFold
import numpy as np

log_reg = LogisticRegression(random_state=42, max_iter=10000).fit(X, y)
neigh = KNeighborsClassifier(n_neighbors=3).fit(X, y)

res_log_reg = cross_val_score(log_reg, X, y, cv=StratifiedKFold(n_splits=3), scoring='recall')
res_neigh = cross_val_score(neigh, X, y, cv=StratifiedKFold(n_splits=3), scoring='recall')

print(f'res_log_reg={res_log_reg}')
print(f'res_neigh={res_neigh}')

print('Recall', round(np.mean(res_log_reg),3), res_log_reg)
print('Recall', round(np.mean(res_neigh),3), res_neigh)


res_log_reg=[0.98319328 0.99159664 0.93277311]
res_neigh=[0.95798319 0.98319328 0.94117647]
Recall 0.969 [0.98319328 0.99159664 0.93277311]
Recall 0.961 [0.95798319 0.98319328 0.94117647]


# Строка с ответами

In [30]:
output = """TN,FN,TP,FP = {0}
Precision,Recall,F1 Score = {1}
Best ROC AUC Score {2:.3f}
Random Split {3:.3f}
Cross Val Score {4:.3f}"""
print(output.format(answer1, answer2, answer3, answer4, answer5))

NameError: name 'answer5' is not defined