# Измерение качества моделей

## Метрики качества

Это практическое задание посвящено ознакомлению с инструментами оценки качества моделей машинного обучения, которые предоставляет библиотека `scikit-learn`. Метрики качества, представленные различными функциями, находятся в модуле `sklearn.metrics`. Мы начнем с загрузки набора данных из файла `data.csv` при помощи функции `read_csv` из библиотеки `pandas`. Этот набор данных содержит информацию о предсказаниях различных алгоритмов машинного обучения для решения задачи классификации. Колонка `prediction` - это результаты работы одного из этих алгоритмов. Целевая переменная содержится в столбце `target` (класс 0 или 1). Подсчитайте значение `true negative`, `false negative`, `true positive` и `false positive`. Запишите эти значения через запятую, сохраняя приведенный порядок, в переменную `answer1`, которая будет являтся строкой. Далее, посчитайте для этих данных значение таких метрик как `precision`, `recall` и `f1 score` с точностью до двух знаков после запятой. Запишите результаты в строго заданном порядке через запятую в переменную `answer2`, которая так же будет являться строкой

### *РЕШЕНИЕ*

In [1]:
import pandas as pd
from sklearn.metrics import confusion_matrix, classification_report

ds = pd.read_csv('data.csv')
ds.head(100)

Unnamed: 0,prediction,scores_1,scores_2,target
0,1,0.89,0.9,1
1,0,0.06,0.0,0
2,1,0.71,0.6,0
3,1,1.00,0.7,1
4,1,1.00,1.0,1
...,...,...,...,...
95,1,0.99,1.0,1
96,0,0.00,0.0,0
97,0,0.00,0.0,0
98,1,1.00,1.0,1


In [2]:
y_pred = [ds.prediction[i] for i in range(len(ds.prediction))]
y_pred[:10]

[1, 0, 1, 1, 1, 1, 1, 1, 0, 0]

In [3]:
y_target = [ds.target[i] for i in range(len(ds.target))]
y_target[:10]

[1, 0, 0, 1, 1, 1, 1, 1, 0, 0]

[TN, FP]

[FN, TP]

Подсчитайте значение true negative, false negative, true positive и false positive

In [4]:
tn, fp, fn, tp = confusion_matrix(y_target, y_pred).ravel()

In [5]:
tn

63

In [6]:
fp

7

In [7]:
fn

4

In [8]:
tp

114

In [9]:
answer1 = '63,4,114,7'

In [10]:
from sklearn.metrics import precision_score, recall_score, f1_score

print(round(precision_score(y_target, y_pred), 2))
print(round(recall_score(y_target, y_pred), 2))
print(round(f1_score(y_target, y_pred), 2))

0.94
0.97
0.95


In [11]:
answer2 = '0.94,0.97,0.95'

В столбцах `scores_1` и `scores_2` содержаться оценки вероятности принадлежности объектов к классу 1 для двух разных алгоритмов машинного обучения. Рассчитайте площадь под ROC-кривой для каждого алгоритма и сравните их. В качестве ответа `answer3` приведите большее из двух значений, округленное до трех знаков после запятой.

### *РЕШЕНИЕ*

In [12]:
from sklearn.metrics import roc_auc_score


y_score1 = [(ds.scores_1[i]) for i in range(len(ds.scores_1))]
y_score2 = [(ds.scores_2[i]) for i in range(len(ds.scores_2))]


roc1 = roc_auc_score(y_target, y_score1)
roc2 = roc_auc_score(y_target, y_score2)
print(roc1)
print(roc2)
answer3 = round(max(roc1, roc2), 3)
print(answer3)


0.9934624697336562
0.9854116222760291
0.993


## Метод скользящего контроля

Во второй части данного практического задания мы изучать различные методы оценки моделей машинного обучения. Загрузите набор данных `Breast Cancer Wisconsin (Diagnostic)`, используя функцию `load_breast_cancer` из модуля `sklearn.datasets`. Этот датасет позволяет решать задачу предсказания рака груди по различным характеристикам опухоли. В данном случае, целевая переменная принимает два значения, соответствующие доброкачественной и злокачественной опухоли. Проверьте, является ли данная выборка сбалансированной.

In [13]:
from sklearn.datasets import load_breast_cancer

X, y = load_breast_cancer(return_X_y=True)
counts = pd.value_counts(y)
print("Is this a balanced dataset? {}".format(counts[1] == counts[0]))

Is this a balanced dataset? False


Первый метод, который мы будем использовать, - это случайное разбиение датасета на тренировочную и тестовую выборку с помощью функции `train_test_split` из `sklearn.model_selection` с параметрами `random_state=3` и `test_size=0.33`. Если выборка является несбалансированной передайте целевую переменную в эту функцию в качестве аргумента `stratify`.

Обучите логистическую регрессию (класс `LogisticRegression` из модуля `sklearn.linear_model`) с параметром конструктора `random_state=42` и метод K ближайших соседей (класс `KNeighborsClassifier` из модуля `sklearn.neighbors`) на тренировочной выборке. Оцените качество на тестовой выборке для каждой из моделей. В качестве метрики качества используйте `recall`. Какая из моделей показывает лучший результат? Ответом на это задание `answer4` является этот результат, округленный до трех знаков после запятой.

### *РЕШЕНИЕ*

In [14]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import recall_score
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression

x_train, x_test, y_train, y_test = train_test_split(X, y, test_size = 0.33, random_state = 3, stratify = y)

lr = LogisticRegression(random_state = 42)
knn = KNeighborsClassifier()

model1 = lr.fit(x_train, y_train)
model2 = knn.fit(x_train, y_train)

pred1 = model1.predict(x_test)
pred2 = model2.predict(x_test)

score1 = recall_score(y_test, pred1)
score2 = recall_score(y_test, pred2)

print(score1)
print(score2)

answer4 = round(max(score1, score2), 3)
print(answer4)

0.9661016949152542
0.9745762711864406
0.975


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


Далее мы проведем оценку каждой из этих моделей в соответствии с методом скользящего контроля с помощью функции `cross_val_score` из модуля `sklearn.model_selection`. В качестве параметра кросс-валидации `cv` в этой функции используйте экземпляр класса `StratifiedKFold` из `sklearn.model_selection` с тремя разбиениями. 

Функция `cross_val_score` возвращает количество оценок, соответствующие числу разбиений.
В качестве итогового результата используете среднее значение полученных оценок с помощью метрики `recall`. Какая модель работает лучше в это случае? Какие выводы можно из этого сделать? Ответом на это задание `answer5` является лучший итоговый результат, округленный до трех знаков после запятой.

### *РЕШЕНИЕ*

In [15]:
from sklearn.model_selection import cross_val_score, StratifiedKFold

cv = StratifiedKFold(n_splits = 3) # StratifiedFold


cv_score1 = cross_val_score(
    lr, X, y,
    scoring = 'recall', cv = cv)

cv_score2 = cross_val_score(
    knn, X, y,
    scoring = 'recall', cv = cv)

print('Cross val score: {}'.format(cv_score1))
print('Cross val score: {}'.format(cv_score2))

print('Mean cross val score: {:.2f}'.format(cv_score1.mean()))
print('Mean cross val score: {:.2f}'.format(cv_score2.mean()))

answer5 = round(max(cv_score1.mean(), cv_score2.mean()), 3)

Cross val score: [0.97478992 0.99159664 0.92436975]
Cross val score: [0.96638655 0.96638655 0.94117647]
Mean cross val score: 0.96
Mean cross val score: 0.96


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logist

# Строка с ответами

In [16]:
output = """TN,FN,TP,FP = {0}
Precision,Recall,F1 Score = {1}
Best ROC AUC Score {2:.3f}
Random Split {3:.3f}
Cross Val Score {4:.3f}"""
print(output.format(answer1, answer2, answer3, answer4, answer5))

TN,FN,TP,FP = 63,4,114,7
Precision,Recall,F1 Score = 0.94,0.97,0.95
Best ROC AUC Score 0.993
Random Split 0.975
Cross Val Score 0.964
