В этом занятии:

* Потренируемся обучать модели

* Подробнее посмотрим на метрики в задачах регрессии

* Разберемся, в каком случае какие метрики стоит использовать


---




# Метрики в задачах регрессии




Метрики в области машинного обучения играют ключевую роль при работе с задачами классификации и регрессии, так как они дают возможность оценить эффективность моделей и провести их сравнение.

В случае классификации метрики помогают установить, насколько точно модель способна разделить объекты по категориям. Примерами таких метрик являются **точность (accuracy)**, **полнота (recall)** и **F1-мера**, которые демонстрируют правильность определения классов объектов моделью. Эти метрики становятся особенно ценными при работе с несбалансированными классами, где один из них значительно превалирует.

В контексте регрессии метрики важны для оценки точности предсказаний модели в числовом выражении. К примеру, метрики такие, как **средняя абсолютная ошибка (MAE)** и **среднеквадратичная ошибка (MSE)**, позволяют измерить разницу между фактическими и спрогнозированными значениями. Метрика **R-квадрат (R^2)** отражает объем дисперсии зависимой переменной, который модель способна объяснить. Их применение помогает установить насколько хорошо модель подходит для данных и ее применимость для прогнозирования новых значений.

В обеих ситуациях метрики машинного обучения необходимы для анализа качественных характеристик моделей, сравнения их между собой и для определения наиболее подходящей модели для решения определенной задачи. Эти метрики дают представление об эффективности модели и точности ее прогнозов, что является существенным этапом в машинном обучении.

В предлагаемом ноутбуке вам предстоит обучить базовую модель, вычислить метрики и проанализировать полученные результаты.

### **[Задание 1]**

Сразу в бой! Сегодня вы сами разрабатываете модель:)

Импортируйте библиотеки, запустив код ниже.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

### **[Задание 2]**

Сегодня для работы вам потребуется датасет [Salary data](https://www.kaggle.com/datasets/karthickveerakumar/salary-data-simple-linear-regression) из Kaggle. Загрузите его и выведите для него `head()`, `info()`, `describe()`

### **[Задание 3]**

Выведите график зависимости зарплаты от количества лет для нашего датасета. Мы верим, что будет классно смотреться график типа `scatterplot`.

### **[Задание 4]**

Разделим датасет на две части:


1.   Столбец `YearsExperience` сохраним в переменную `X`.
2.   Столбец `Salary` сохраним в переменную `y`.


### **[Задание 5]**

А теперь модельную часть нашего датасета разделим на трейн и тест в соотношении `0.7` к `0.3`, а `random_state` зафиксируем в значении `100`.



In [None]:
from sklearn.model_selection import train_test_split

### **[Задание 6]**

Импортируйте модуль `LinearRegression` из библиотеки `sklearn.linearmodel`. Создайте объект `LinearRegression` и присвойте ему имя `lr`. Обучите модель на выборках `X_train` и `y_train`.




In [None]:
from sklearn.linear_model import LinearRegression

### **[Задание 7]**

Получите прогноз `y_pred` на основе данных `X_test`.


### **[Задание 8]**

Напишите код, который строит два графика. Первый график должен отображать динамику значений переменной `y_test` с использованием красной линии. Второй график должен отображать динамику значений переменной `y_pred` с использованием синей линии. Также необходимо добавить подписи осей: `Salary` для оси x и `index` для оси y. Название графика должно быть `Prediction`.


### **[Задание 9]**

Используя функцию `scatter`, постройте график, где по оси $x$ будут значения из переменной `y_test`, а по оси $y$ - значения из переменной `y_pred`. Цвет точек должен быть красным. В конце кода необходимо вывести полученный график.

Помимо этого, выведите коэффициенты линейной зависимости, построенной с помощью нашей модели и отрисуйте график для нее.


In [None]:
print('Intercept of the model:',lr.intercept_)
print('Coefficient of the line:',lr.coef_)

Таким образом модель выглядит:
# $y = 25202.8 + 9731.2x$

## Теперь перейдем к метрикам для задачи линейной регрессии

С некоторыми метриками мы уже знакомы из предыдущих заданий. Теперь же мы попробуем чуть подробнее с ними познакомиться, а также изучить новые методы оценки качества наших моделей.

### MSE — mean squared error

MSE, или среднеквадратичное отклонение, является одной из наиболее распространенных метрик в задачах регрессии.
    
$$MSE = \frac{1}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2$$

MSE квадратично штрафует за большие ошибки на объектах. Это свойство было замечено при обучении моделей методом минимизации квадратичных ошибок, где модель стремилась хорошо подстроиться под выбросы.

Если планируется использовать MSE для оценки наших регрессионных моделей и большие ошибки являются неприемлемыми, то квадратичный штраф за эти ошибки становится очень полезным свойством (и даже может быть усилен путем возведения в более высокую степень). Однако, если в тестовых данных присутствуют выбросы, то сравнение моделей становится сложным: ошибки на выбросах будут замаскировать различия в ошибках на основном наборе объектов.

Таким образом, при сравнении двух моделей с использованием MSE, победит та, у которой меньше ошибка на объектах-выбросах, что, скорее всего, не соответствует требованиям нашей бизнес-задачи.

[Документация](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html#sklearn.metrics.mean_squared_error) по MSE из `scikit-learn`

**Nota Bene:**
С другой стороны, MSE также может использоваться в качестве функционала при обучении модели. В этом случае, MSE служит целевой функцией, которая минимизируется в процессе обучения модели. Она используется для настройки параметров модели алгоритмами оптимизации, чтобы достичь наименьшей ошибки между предсказаниями и реальными значениями.

Таким образом, разница между MSE как метрикой и функционалом заключается в том, что метрика **используется для оценки качества** модели, а функционал **служит целевой функцией при обучении**.

In [None]:
from sklearn.metrics import mean_squared_error

In [None]:
mse = mean_squared_error(y_test,y_pred)

In [None]:
mse

30310299.043402452

### RMSE - root mean squared error

Иногда для приведения значения MSE к размерности исходных данных, из него извлекают квадратный корень и получают метрику RMSE (иногда ее называют r2-score), которая вычисляется по формуле:

$$RMSE = \sqrt{\frac{1}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2}$$

Корень из среднеквадратичной ошибки (RMSE) представляет собой аналог MSE, но с извлечением квадратного корня из итогового значения. RMSE — это еще одна фундаментальная метрика, которая сильнее штрафует за большие ошибки.

[Документация](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html#sklearn.metrics.r2_score) по RMSE из `scikit-learn`

In [None]:
from sklearn.metrics import r2_score

In [None]:
rsq = r2_score(y_test,y_pred)

In [None]:
rsq

0.9627668685473267

In [None]:
print('mean squared error :',mse)
print('r square :',rsq)

mean squared error : 30310299.043402452
r square : 0.9627668685473267



MSE не имеет верхнюю границу, поэтому иногда бывает сложно определить, насколько "хорошим" или "плохим" является значение этой метрики. Чтобы иметь некоторые ориентиры, используют следующий подход:

1. Для начала, вычисляют наилучшее константное предсказание, которое минимизирует MSE. Это просто среднее арифметическое значения целевых меток *y*, но с расчетом на обучающей выборке, чтобы не потерять информацию из тестовых данных.

2. Затем, вводят показатель ошибки *R^2*, который определяется следующим образом:
  
  *R^2 = 1 - (сумма квадратов отклонений предсказаний от истинных значений) / (сумма квадратов отклонений истинных значений от среднего значения)*

У идеальной модели (модели, наиболее приближенной к реальности) значение *R^2* равно 1, а для наилучшего константного предсказания оно равно 0 на обучающей выборке.


### MAE — mean absolute error

Использовать RMSE для сравнения моделей на выборках с большим количеством выбросов может быть неудобно. В таких случаях прибегают к также знакомой вам в качестве функции потери метрике MAE (mean absolute error):

$$MAE = \frac{1}{N} \sum_{i=1}^{N} |y_i - \hat{y}_i|$$

Как MSE, так и MAE вычисляются путем суммирования абсолютных ошибок на объектах.

Давайте рассмотрим следующую ситуацию: мы хотим прогнозировать спрос на товары в следующем месяце. У нас есть два товара:

*   товар A продается в количестве 100 штук
*   товар B — в количестве 10 штук.

Предположим, базовая модель предсказывает продажи товара A в количестве 98 штук, а товара B — в количестве 8 штук. Эти ошибки на объектах приводят к добавлению 4 штрафных единиц в MAE.

У нас есть две модели-кандидата для улучшения.

1.  Первая модель предсказывает, что товар A будет продан в количестве 99 штук, а товар B — в количестве 8 штук
2.  Вторая модель предсказывает, что товар A будет продан в количестве 98 штук, а товар B — в количестве 9 штук.

Обе модели улучшают MAE базовой модели на 1 единицу. Однако с точки зрения заказчика, вторая модель может быть предпочтительнее, так как предсказание продаж редких товаров может быть интереснее бизнесу(например, в задачах увеличении размера среднего чека). Один из способов учесть такое требование - рассмотреть не абсолютную, а относительную ошибку на объектах.


[Документация](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_absolute_error.html#sklearn.metrics.mean_absolute_error) по MAE из `scikit-learn`

In [None]:
from sklearn.metrics import mean_absolute_error

In [None]:
mae = mean_absolute_error(y_test,y_pred)

In [None]:
mae

5010.529885004953

### MAPE — Mean Absolute Percentage Error




Mean Absolute Percentage Error (MAPE) пытается решить проблему, связанную с MAE. В MAE ошибка становится относительной в зависимости от масштаба остатков. MAPE преобразует ошибки в проценты, и здесь мы стремимся, чтобы значение MAPE было как можно ближе к нулю. Существуют и другие метрики, использующие абсолютные значения и проценты (например, APE, взвешенный MAPE, симметричный MAPE и т. д.).

Формула для вычисления MAPE:

$$MAPE = \frac{1}{N} \sum{i=1}^{N} |\frac{yi - \hat{y}i}{yi}|$$


[Документация](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_absolute_percentage_error.html#sklearn.metrics.mean_absolute_percentage_error) по MAPE из `scikit-learn`

In [None]:
from sklearn.metrics import mean_absolute_percentage_error

In [None]:
mape = mean_absolute_percentage_error(y_test,y_pred)

In [None]:
mape

0.07124480626568891

Мы познакомились с основными метриками, однако, это далеко не полный бестиарий.

Мы собрали небольшой список с частоиспользуемыми метриками для задачи регрессии:

*   [Explained variance regression score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.explained_variance_score.html#sklearn.metrics.explained_variance_score)
*   [d2_pinball_score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.d2_pinball_score.html#sklearn.metrics.d2_pinball_score)
*   [d2_absolute_error_score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.d2_absolute_error_score.html#sklearn.metrics.d2_absolute_error_score)
*   [mean_squared_log_error](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_log_error.html#sklearn-metrics-mean-squared-log-error)
*   [Самая простая метрика: максимальная ошибка](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.max_error.html#sklearn.metrics.max_error)
