# Метрики эффективности моделей машинного обучения
## Цель работы
Научиться измерять эффективность моделей машинного обучения с помощью метрик, вибирать метрики исходя из задачи, разбивать датасет на обучающую и тестовую подвыборки.

## Содержание работы
1. Загрузите данные о вероятности развития сердечного приступа, прилагающийся к этой работе (heart.csv).
2. Обучите на этих данных простую модель логистической регрессии и выведите метрику точности (accuracy).
3. Разделите датасет на две части - первую половину используйте для обучения, а вторую - для оценки точности. Сравните значения метрик.
4. Разделите датасет на две части случайным образом. Повторите анализ.
5. Разделите датасет с помощью библиотечной функции. Повторите анализ несколько раз.
6. Постройте матрицу классификации и отчет о классификации для обученной модели для обучающей и тестовой выборок. Проинтерпретируйте полученные значения.
7. Подсчитайте для построенной модели значение всех метрик эффективности классификации на тестовой и обучающей выборках. Нужно использовать следующие метрики: accuracy, precision, recall, f1.

In [1]:
import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt

### 1. Загрузите данные о вероятности развития сердечного приступа, прилагающийся к этой работе (heart.csv).

In [2]:
data = pd.read_csv('data/heart.csv')
data.head()

Unnamed: 0,age,sex,cp,trtbps,chol,fbs,restecg,thalachh,exng,oldpeak,slp,caa,thall,output
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1


### 2. Обучите на этих данных простую модель логистической регрессии и выведите метрику точности (accuracy).

In [3]:
from sklearn.linear_model import LinearRegression

In [4]:
X = data.drop('output', axis=1)
y = data['output']

In [5]:
lr_model = LinearRegression()
lr_model.fit(X, y)

In [6]:
lr_model.score(X, y)

0.5175499644256842

### 3. Разделите датасет на две части - первую половину используйте для обучения, а вторую - для оценки точности. Сравните значения метрик.

In [7]:
x_train, y_train = X[:200], y[:200]

In [8]:
x_train.shape, y_train.shape

((200, 13), (200,))

In [9]:
x_test, y_test = X[200:], y[200:]
x_test.shape, y_test.shape

((103, 13), (103,))

In [10]:
lr_model.fit(x_train, y_train)

In [11]:
lr_model.score(x_train, y_train)

0.45405804018236195

In [12]:
lr_model.predict(x_test)

array([ 0.75194431,  0.1589634 ,  0.45760619,  0.6185906 , -0.20536379,
        0.63463611,  0.34723006,  0.31155265,  0.4546555 ,  0.6752418 ,
        0.73309023,  0.14842541,  0.56768794,  0.55630577,  0.44877022,
        0.26813972,  0.73318975,  0.10733601,  0.21077554,  0.44121948,
        0.01226233, -0.07190108,  0.8527078 ,  0.00574668,  0.21386137,
        0.33361744,  0.41562629,  0.44133546,  0.95184152,  0.61487406,
        1.0651674 ,  0.23974811,  0.39561276,  0.22404809,  0.14463121,
        0.53857414,  0.54039987,  0.37441532,  0.49652804,  0.59427433,
        0.40497086,  0.88486639,  0.45384374,  0.33911121,  0.40688837,
        0.6005157 ,  0.25104764,  0.70110343,  0.79235655,  0.38460263,
       -0.13155312,  0.21930841,  0.39190055,  0.35642161,  1.05394538,
        0.3062811 ,  0.03386762,  0.45263146,  0.73724523,  0.57409542,
        0.55453266,  0.8048266 ,  0.15974414,  0.53138964,  0.53636692,
        0.61174202,  0.49997098,  0.63558869,  0.0727705 ,  0.26

In [13]:
lr_model.score(x_test, y_test)

0.0

### 4. Разделите датасет на две части случайным образом. Повторите анализ.

In [14]:
N = int(X.shape[0] * 0.8)

x_train, y_train, x_test, y_test = X[:N], y[:N], X[N:], y[N:]
x_train.shape, y_train.shape, x_test.shape, y_test.shape

((242, 13), (242,), (61, 13), (61,))

In [15]:
lr_model_fn = LinearRegression()

In [16]:
lr_model_fn.fit(x_train, y_train)  

In [17]:
lr_model_fn.score(x_train, y_train)

0.5452486098240781

In [18]:
lr_model_fn.score(x_test, y_test)

0.0

### 5. Разделите датасет с помощью библиотечной функции. Повторите анализ несколько раз.

In [19]:
from sklearn.model_selection import train_test_split

In [20]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

In [21]:
lr_model_fn.fit(X_train, y_train)

In [22]:
lr_model_fn.predict(X_test)

array([ 1.32179158,  1.19477161,  0.71645329,  0.63743962,  0.91262173,
        0.54888245,  0.66933212,  0.83588865,  0.95048538, -0.26705247,
        0.11028693, -0.11056576,  0.23166492,  0.942467  ,  0.99207524,
        0.73789798, -0.09406923, -0.02137141,  1.18983071,  0.93234258,
       -0.16954472,  0.670336  ,  0.34695843,  0.58389687,  0.7030671 ,
        0.23614922,  0.67056927,  0.92999815,  0.45347425,  0.55445035,
        0.22021721,  0.71952709,  0.71654185,  1.20284371, -0.36284914,
       -0.15699921,  0.24644713,  0.14438632,  0.68218631,  1.03052403,
        0.93646045,  0.80587742,  0.18707164,  0.64307745,  0.37692801,
       -0.08342637,  0.86453354, -0.06349002,  0.4042134 ,  0.42064541,
        0.11119312,  0.39487171,  0.39895658,  0.07505306,  0.57637243,
        0.39690111,  0.47407902,  1.13261715, -0.0718162 ,  0.70225725,
        0.20037691])

In [23]:
lr_model_fn.score(X_train, y_train)

0.5183621560078144

In [24]:
lr_model_fn.score(X_test, y_test)

0.4783129293727758

### 6. Постройте матрицу классификации и отчет о классификации для обученной модели для обучающей и тестовой выборок. Проинтерпретируйте полученные значения.

In [25]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, classification_report

In [26]:
y_test_pred = lr_model.predict(x_test)
y_train_pred = lr_model.predict(x_train)

In [27]:
y_train_pred_binary = (y_train_pred >= 0.5).astype(int)
confusion_matrix(y_train, y_train_pred_binary)

array([[ 23,  83],
       [ 30, 106]])

In [28]:
y_test_pred_binary = (y_test_pred >= 0.5).astype(int)
confusion_matrix(y_test, y_test_pred_binary)

array([[13, 19],
       [14, 15]])

In [29]:
print(classification_report(y_test, y_test_pred_binary))

              precision    recall  f1-score   support

           0       0.48      0.41      0.44        32
           1       0.44      0.52      0.48        29

    accuracy                           0.46        61
   macro avg       0.46      0.46      0.46        61
weighted avg       0.46      0.46      0.46        61



### 7. Подсчитайте для построенной модели значение всех метрик эффективности классификации на тестовой и обучающей выборках. Нужно использовать следующие метрики: accuracy, precision, recall, f1.

In [30]:
metrics = pd.DataFrame({
    "Train": [
        accuracy_score(y_train, y_train_pred_binary),
        precision_score(y_train, y_train_pred_binary),
        recall_score(y_train, y_train_pred_binary),
        f1_score(y_train, y_train_pred_binary),
    ],
    "Test": [
        accuracy_score(y_test, y_test_pred_binary),
        precision_score(y_test, y_test_pred_binary),
        recall_score(y_test, y_test_pred_binary),
        f1_score(y_test, y_test_pred_binary),
    ],
}, index = ["Accuracy", "Precision", "Recall", "F1"])

metrics

Unnamed: 0,Train,Test
Accuracy,0.533058,0.459016
Precision,0.560847,0.441176
Recall,0.779412,0.517241
F1,0.652308,0.47619
