# Измерение качества моделей

## Метрики качества

Это практическое задание посвящено ознакомлению с инструментами оценки качества моделей машинного обучения, которые предоставляет библиотека `scikit-learn`. Метрики качества, представленные различными функциями, находятся в модуле `sklearn.metrics`. Мы начнем с загрузки набора данных из файла `data.csv` при помощи функции `read_csv` из библиотеки `pandas`. Этот набор данных содержит информацию о предсказаниях различных алгоритмов машинного обучения для решения задачи классификации. Колонка `prediction` - это результаты работы одного из этих алгоритмов. Целевая переменная содержится в столбце `target` (класс 0 или 1). Подсчитайте значение `true negative`, `false negative`, `true positive` и `false positive`. Запишите эти значения через запятую, сохраняя приведенный порядок, в переменную `answer1`, которая будет являтся строкой. Далее, посчитайте для этих данных значение таких метрик как `precision`, `recall` и `f1 score` с точностью до двух знаков после запятой. Запишите результаты в строго заданном порядке через запятую в переменную `answer2`, которая так же будет являться строкой

### *РЕШЕНИЕ*

In [1]:
import pandas as pd
from sklearn.metrics import confusion_matrix

# table
t = pd.read_csv( "task-3.2.2/data.csv" )
t

Unnamed: 0,prediction,scores_1,scores_2,target
0,1,0.89,0.9,1
1,0,0.06,0.0,0
2,1,0.71,0.6,0
3,1,1.00,0.7,1
4,1,1.00,1.0,1
...,...,...,...,...
183,1,0.98,1.0,1
184,1,1.00,1.0,1
185,1,0.99,1.0,1
186,1,1.00,1.0,1


In [2]:
# confusion_matrix(y_true, y_pred)
# Returns
#    -------
#    C : ndarray of shape (n_classes, n_classes)
#        Confusion matrix whose i-th row and j-th      i- строка, j-столбец
#        column entry indicates the number of
#        samples with true label being i-th class
#        and predicted label being j-th class.
#      Предсказание
# И     | 0    1
# с   __|________
# т   0 | TN  FP
# и   1 | FN  TP
# н
# а
# Returns C
#    the count of true negatives is :math:`C_{0,0}`, 
#                false negatives is :math:`C_{1,0}`, 
#                 true positives is :math:`C_{1,1}` 
#                false positives is :math:`C_{0,1}`

cm = confusion_matrix(t["target"], t["prediction"])
cm

array([[ 63,   7],
       [  4, 114]], dtype=int64)

In [3]:
tn = cm[0,0]
fn = cm[1,0]
tp = cm[1,1]
fp = cm[0,1]

## or
#tn, fp, fn, tp = cm.ravel()

answer1 = f"{tn},{fn},{tp},{fp}"
answer1

'63,4,114,7'

In [4]:
from sklearn.metrics import precision_score, recall_score, f1_score

# precision_score
pr_my = tp / (tp + fp)
pr = precision_score(t["target"], t["prediction"])

# recall
re_my = tp / (tp + fn)
re = recall_score(t["target"], t["prediction"])

# f1
f1_my = 2 * (pr * re) / (pr + re)
f1 = f1_score(t["target"], t["prediction"])

print("my precision_score: {:.4f}".format(pr_my))
print("precision_score:    {:.4f}".format(pr))
print("my recall:          {:.4f}".format(re_my))
print("recall:             {:.4f}".format(re))
print("my f1:              {:.4f}".format(f1_my))
print("f1:                 {:.4f}".format(f1))

answer2 = f"{pr:.2f},{re:.2f},{f1:.2f}"
answer2

my precision_score: 0.9421
precision_score:    0.9421
my recall:          0.9661
recall:             0.9661
my f1:              0.9540
f1:                 0.9540


'0.94,0.97,0.95'

В столбцах `scores_1` и `scores_2` содержаться оценки вероятности пренадлежности объектов к классу 1 для двух разных алгоритмов машинного обучения. Рассчитайте площадь под ROC-кривой для каждого алгоритма и сравните их. В качестве ответа `answer3` приведите большее из двух значений, округленное до трех знаков после запятой.

### *РЕШЕНИЕ*

In [5]:
t.head(5)

Unnamed: 0,prediction,scores_1,scores_2,target
0,1,0.89,0.9,1
1,0,0.06,0.0,0
2,1,0.71,0.6,0
3,1,1.0,0.7,1
4,1,1.0,1.0,1


In [6]:
from sklearn.metrics import roc_auc_score

roc_auc_1 = roc_auc_score(t["target"], t["scores_1"])
roc_auc_2 = roc_auc_score(t["target"], t["scores_2"])

print("roc_auc_1:", roc_auc_1)
print("roc_auc_2:", roc_auc_2)

answer3 = max(roc_auc_1,roc_auc_2)
answer3

roc_auc_1: 0.9934624697336562
roc_auc_2: 0.9854116222760291


0.9934624697336562

## Метод скользящего контроля

Во второй части данного практического задания мы изучать различные методы оценки моделей машинного обучения. Загрузите набор данных `Breast Cancer Wisconsin (Diagnostic)`, используя функцию `load_breast_cancer` из модуля `sklearn.datasets`. Этот датасет позволяет решать задачу предсказания рака груди по различным характеристикам опухоли. В данном случае, целевая переменная принимает два значения, соответствующие доброкачественной и злокачественной опухоли. Проверьте, является ли данная выборка сбалансированной.

In [7]:
from sklearn.datasets import load_breast_cancer

X, y = load_breast_cancer(return_X_y=True)
counts = pd.value_counts(y)
print("Is this a balanced dataset? {}".format(counts[1] == counts[0]))
counts

Is this a balanced dataset? False


1    357
0    212
dtype: int64

In [8]:
data = load_breast_cancer()

print("feature_names:", data.feature_names)
print("target_names:", data.target_names)
# features = data.data
# target = data.target


feature_names: ['mean radius' 'mean texture' 'mean perimeter' 'mean area'
 'mean smoothness' 'mean compactness' 'mean concavity'
 'mean concave points' 'mean symmetry' 'mean fractal dimension'
 'radius error' 'texture error' 'perimeter error' 'area error'
 'smoothness error' 'compactness error' 'concavity error'
 'concave points error' 'symmetry error' 'fractal dimension error'
 'worst radius' 'worst texture' 'worst perimeter' 'worst area'
 'worst smoothness' 'worst compactness' 'worst concavity'
 'worst concave points' 'worst symmetry' 'worst fractal dimension']
target_names: ['malignant' 'benign']


Первый метод, который мы будем использовать, - это случайное разбиение датасета на тренировочную и тестовую выборку с помощью функции `train_test_split` из `sklearn.model_selection` с параметрами `random_state=3` и `test_size=0.33`. Если выборка является несбалансированной передайте целевую переменную в эту функцию в качестве аргумента `stratify`.

Обучите логистическую регрессию (класс `LogisticRegression` из модуля `sklearn.linear_model`) с параметром конструктора `random_state=42` и метод K ближайших соседей (класс `KNeighborsClassifier` из модуля `sklearn.neighbors`) на тренировочной выборке. Оцените качество на тестовой выборке для каждой из моделей. В качестве метрики качества используйте `recall`. Какая из моделей показывает лучший результат? Ответом на это задание `answer4` является этот результат, округленный до трех знаков после запятой.

### *РЕШЕНИЕ*

In [9]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import recall_score
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression

# датасет достаточно сбалансирован, на мой взгляд.
# Тем не менее, для надежности указываю  stratify=y, чтобы сохранять пропорции классов
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=3, stratify=y)

for d , name in zip([y, y_train, y_test],['изначально','тренировочная выборка','тестовая выборка']):
    counts = pd.value_counts(d)
    ration = counts[0]/counts[1]
    print("Баланс классов,", name, ":\n", counts)
    print("Отношение '1' / '0':", ration)
    print("-------------------------------------------")




Баланс классов, изначально :
 1    357
0    212
dtype: int64
Отношение '1' / '0': 0.5938375350140056
-------------------------------------------
Баланс классов, тренировочная выборка :
 1    239
0    142
dtype: int64
Отношение '1' / '0': 0.5941422594142259
-------------------------------------------
Баланс классов, тестовая выборка :
 1    118
0     70
dtype: int64
Отношение '1' / '0': 0.5932203389830508
-------------------------------------------


In [10]:
logistic_regres = LogisticRegression(random_state=42, max_iter = 10000)
kneighbors_clas = KNeighborsClassifier()

# train
logistic_regres.fit(X_train, y_train)
kneighbors_clas.fit(X_train, y_train)

# predictions
log_regres_pred = logistic_regres.predict(X_test)
kneighbers_pred = kneighbors_clas.predict(X_test)
#print(log_regres_pred == kneighbers_pred)


recall_log_regres = recall_score(y_test, log_regres_pred)
recall_kneighbors = recall_score(y_test, kneighbers_pred)

print("\n???",recall_log_regres, recall_kneighbors)

answer4 = max(recall_log_regres,recall_kneighbors)
answer4


??? 0.9745762711864406 0.9745762711864406


0.9745762711864406

Далее мы проведем оценку каждой из этих моделей в соответствии с методом скользящего контроля с помощью функции `cross_val_score` из модуля `sklearn.model_selection`. В качестве параметра кросс-валидации `cv` в этой функции используйте экземпляр класса `StratifiedKFold` из `sklearn.model_selection` с тремя разбиениями. 

Функция `cross_val_score` возвращает количество оценок, соответствующие числу разбиений.
В качестве итогового результата используете среднее значение полученных оценок с помощью метрики `recall`. Какая модель работает лучше в это случае? Какие выводы можно из этого сделать? Ответом на это задание `answer5` является лучший итоговый результат, округленный до трех знаков после запятой.

### *РЕШЕНИЕ*

In [11]:
from sklearn.model_selection import cross_val_score, StratifiedKFold

# разбивщик на n кросс-датасетов
cv = StratifiedKFold(n_splits=3)

for split_idx, (train_idx, test_idx) in enumerate(cv.split(X, y)):
    x_train, x_test = X[train_idx], X[test_idx]
    y_train, y_test = y[train_idx], y[test_idx]
    
    # обучаем
    logistic_regres.fit(x_train, y_train)
    kneighbors_clas.fit(x_train, y_train)
    
    # проверяем
    score_1 = logistic_regres.score(x_test, y_test)
    score_2 = kneighbors_clas.score(x_test, y_test)
    
    print("Split {}, score_1: {}, score_2: {}".format(split_idx, score_1, score_2))
    
cv_score_1 = cross_val_score(
    logistic_regres, X, y,
    scoring="recall", cv=cv)
cv_score_2 = cross_val_score(
    kneighbors_clas, X, y,
    scoring="recall", cv=cv)

print("\nLogistic regression")
print("Cross value score (recall)", cv_score_1)
print("Mean cross val score", cv_score_1.mean())

print("\nKNeighbors classification")
print("Cross value score (recall)", cv_score_2)
print("Mean cross val score", cv_score_2.mean())

answer5 = max(cv_score_1.mean(),cv_score_2.mean())

Split 0, score_1: 0.9421052631578948, score_2: 0.9
Split 1, score_1: 0.9631578947368421, score_2: 0.9473684210526315
Split 2, score_1: 0.9417989417989417, score_2: 0.9206349206349206

Logistic regression
Cross value score (recall) [0.98319328 0.99159664 0.93277311]
Mean cross val score 0.9691876750700281

KNeighbors classification
Cross value score (recall) [0.96638655 0.96638655 0.94117647]
Mean cross val score 0.957983193277311


# Строка с ответами

In [12]:
output = """TN,FN,TP,FP = {0}
Precision,Recall,F1 Score = {1}
Best ROC AUC Score {2:.3f}
Random Split {3:.3f}
Cross Val Score {4:.3f}"""
print(output.format(answer1, answer2, answer3, answer4, answer5))

TN,FN,TP,FP = 63,4,114,7
Precision,Recall,F1 Score = 0.94,0.97,0.95
Best ROC AUC Score 0.993
Random Split 0.975
Cross Val Score 0.969
