# Измерение качества моделей

## Метрики качества

Это практическое задание посвящено ознакомлению с инструментами оценки качества моделей машинного обучения, которые предоставляет библиотека `scikit-learn`. Метрики качества, представленные различными функциями, находятся в модуле `sklearn.metrics`. Мы начнем с загрузки набора данных из файла `data.csv` при помощи функции `read_csv` из библиотеки `pandas`. Этот набор данных содержит информацию о предсказаниях различных алгоритмов машинного обучения для решения задачи классификации. Колонка `prediction` - это результаты работы одного из этих алгоритмов. Целевая переменная содержится в столбце `target` (класс 0 или 1). Подсчитайте значение `true negative`, `false negative`, `true positive` и `false positive`. Запишите эти значения через запятую, сохраняя приведенный порядок, в переменную `answer1`, которая будет являтся строкой. Далее, посчитайте для этих данных значение таких метрик как `precision`, `recall` и `f1 score` с точностью до двух знаков после запятой. Запишите результаты в строго заданном порядке через запятую в переменную `answer2`, которая так же будет являться строкой

### *РЕШЕНИЕ*

In [25]:
import pandas as pd
from sklearn.metrics import confusion_matrix


In [2]:
from sklearn.metrics import precision_score, recall_score, f1_score


In [3]:
data = pd.read_csv('data-3.2.2.csv')

In [4]:
data.head()

Unnamed: 0,prediction,scores_1,scores_2,target
0,1,0.89,0.9,1
1,0,0.06,0.0,0
2,1,0.71,0.6,0
3,1,1.0,0.7,1
4,1,1.0,1.0,1


In [8]:
TN = data[(data['prediction'] == 0)  &  (data['target'] == 0)]

In [14]:
TN = TN.shape[0]

In [16]:
FN = data[(data['prediction'] == 0) & (data['target'] == 1)]
FN = FN.shape[0]

In [17]:
TP = data[(data['prediction'] == 1) & (data['target'] == 1)]
TP = TP.shape[0]

In [19]:
FP = data[(data['prediction'] == 1) & (data['target'] == 0)]
FP = FP.shape[0]

In [22]:
answer1 = ",".join(map(str, [TN,FN,TP,FP]))

In [23]:
answer1 

'63,4,114,7'

In [28]:
P = TP / (TP + FP)
R = TP / (TP + FN)
F1 = (2 * P * R) / (P + R)
scores = [round(s, 2) for s in [P, R, F1]]

In [29]:
answer2 = ",".join(map(str, scores))

In [30]:
answer2

'0.94,0.97,0.95'

В столбцах `scores_1` и `scores_2` содержаться оценки вероятности пренадлежности объектов к классу 1 для двух разных алгоритмов машинного обучения. Рассчитайте площадь под ROC-кривой для каждого алгоритма и сравните их. В качестве ответа `answer3` приведите большее из двух значений, округленное до трех знаков после запятой.

### *РЕШЕНИЕ*

In [32]:
from sklearn.metrics import roc_auc_score


In [37]:
y_true = data.target
score1 = data.scores_1
score2 = data.scores_2

In [38]:
ROC1 = roc_auc_score(y_true, score1)
ROC2 = roc_auc_score(y_true, score2)
max_ROC = round(max(ROC1, ROC2), 3)

In [39]:
answer3 = max_ROC

In [40]:
answer3

0.993

## Метод скользящего контроля

Во второй части данного практического задания мы изучать различные методы оценки моделей машинного обучения. Загрузите набор данных `Breast Cancer Wisconsin (Diagnostic)`, используя функцию `load_breast_cancer` из модуля `sklearn.datasets`. Этот датасет позволяет решать задачу предсказания рака груди по различным характеристикам опухоли. В данном случае, целевая переменная принимает два значения, соответствующие доброкачественной и злокачественной опухоли. Проверьте, является ли данная выборка сбалансированной.

In [41]:
from sklearn.datasets import load_breast_cancer

X, y = load_breast_cancer(return_X_y=True)
counts = pd.value_counts(y)
print("Is this a balanced dataset? {}".format(counts[1] == counts[0]))

Is this a balanced dataset? False


Первый метод, который мы будем использовать, - это случайное разбиение датасета на тренировочную и тестовую выборку с помощью функции `train_test_split` из `sklearn.model_selection` с параметрами `random_state=3` и `test_size=0.33`. Если выборка является несбалансированной передайте целевую переменную в эту функцию в качестве аргумента `stratify`.

Обучите логистическую регрессию (класс `LogisticRegression` из модуля `sklearn.linear_model`) с параметром конструктора `random_state=42` и метод K ближайших соседей (класс `KNeighborsClassifier` из модуля `sklearn.neighbors`) на тренировочной выборке. Оцените качество на тестовой выборке для каждой из моделей. В качестве метрики качества используйте `recall`. Какая из моделей показывает лучший результат? Ответом на это задание `answer4` является этот результат, округленный до трех знаков после запятой.

### *РЕШЕНИЕ*

In [42]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import recall_score
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression


In [43]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=3, test_size=0.33, stratify=y)

In [45]:
model_log_reg = LogisticRegression(random_state=42)

In [46]:
model_kn = KNeighborsClassifier()

In [47]:
model_log_reg.fit(X_train, y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=42, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

In [48]:
model_kn.fit(X_train, y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=5, p=2,
           weights='uniform')

In [49]:
y_pred_lg = model_log_reg.predict(X_test)

In [51]:
y_pred_kn = model_kn.predict(X_test)

In [52]:
R_lg = recall_score(y_test, y_pred_lg)

In [53]:
R_kn = recall_score(y_test, y_pred_kn)

In [54]:
print(R_lg, R_kn)

0.9661016949152542 0.9745762711864406


In [55]:
answer4 = round(max(R_lg, R_kn), 3)

Далее мы проведем оценку каждой из этих моделей в соответствии с методом скользящего контроля с помощью функции `cross_val_score` из модуля `sklearn.model_selection`. В качестве параметра кросс-валидации `cv` в этой функции используйте экземпляр класса `StratifiedKFold` из `sklearn.model_selection` с тремя разбиениями. 

Функция `cross_val_score` возвращает количество оценок, соответствующие числу разбиений.
В качестве итогового результата используете среднее значение полученных оценок с помощью метрики `recall`. Какая модель работает лучше в это случае? Какие выводы можно из этого сделать? Ответом на это задание `answer5` является лучший итоговый результат, округленный до трех знаков после запятой.

### *РЕШЕНИЕ*

In [57]:
from sklearn.model_selection import cross_val_score, StratifiedKFold

In [58]:
cv = StratifiedKFold(n_splits=3)

In [62]:
cv_recall_lg = cross_val_score(model_log_reg, X, y, cv=cv, scoring='recall')

In [63]:
cv_recall_lg.mean()

0.9663865546218489

In [64]:
cv_recall_kn = cross_val_score(model_kn, X, y, cv=cv, scoring='recall')

In [65]:
cv_recall_kn.mean()

0.957983193277311

In [66]:
answer5 = round(max(cv_recall_lg.mean(), cv_recall_kn.mean()), 3)

# Строка с ответами

In [67]:
output = """TN,FN,TP,FP = {0}
Precision,Recall,F1 Score = {1}
Best ROC AUC Score {2:.3f}
Random Split {3:.3f}
Cross Val Score {4:.3f}"""
print(output.format(answer1, answer2, answer3, answer4, answer5))

TN,FN,TP,FP = 63,4,114,7
Precision,Recall,F1 Score = 0.94,0.97,0.95
Best ROC AUC Score 0.993
Random Split 0.975
Cross Val Score 0.966
