# Метрики регрессии

In [4]:
from sklearn import metrics
from sklearn import linear_model
from sklearn.model_selection import train_test_split
import numpy as np
# возьмем данные о домах в Калифорнии
from sklearn.datasets import fetch_california_housing

In [5]:
data = fetch_california_housing(as_frame=True)

housing_data = data['frame']
housing_data.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422


In [6]:
# признаки
X = housing_data.drop(['MedHouseVal'], axis=1)
# целевой признак
y = housing_data['MedHouseVal']

# разделяем на тренировочную и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

# создаём объект класса LinearRegression
lr_model = linear_model.LinearRegression()

# обучаем модель
lr_model.fit(X_train, y_train) 

# получаем предсказание
y_pred = lr_model.predict(X_test)

> **Метрика** — это численное выражение качества моделирования.

## Средняя абсолютная ошибка — MAE (Mean Absolute Error)

$$ MAE = \frac{\sum_{i=1}^{n}\left | y_{i} - \hat{y_{i}} \right |}{n} $$

Показывает, насколько в среднем модель ошибается.\
Чем меньше значение метрики, тем лучше.

- Функция для расчета `mean_absolute_error()`

In [7]:
mae_score = metrics.mean_absolute_error(y_test, y_pred)

print('MAE score: {:.4f}'.format(mae_score))

MAE score: 0.5297


## Средняя абсолютная ошибка в процентах — MAPE (Mean Absolute Percent Error)

$$ MAPE = \sum_{i=1}^{n} \frac{\left | y_{i} - \hat{y_{i}} \right |}{\left | y_{i} \right |} \frac{100\%}{n} $$

Делим модуль разницы между предсказанием алгоритма и истинным значением на истинное значение. \
Затем складываем все результаты (для каждого объекта), \
делим на количество и умножаем на 100 %.

Показывает, на сколько процентов в среднем предсказание отклоняется от реального значения.

- Функция для расчета `mean_absolute_percentage_error()`\
Возвращает результат не в процентах, а в долях. \
Чтобы отобразить результат в процентах, нужно умножить его на 100.

In [8]:
mape_score = metrics.mean_absolute_percentage_error(y_test, y_pred)

print('MAPE score: {:.4f}'.format(mape_score))

MAPE score: 0.3198


## Средняя квадратическая ошибка — MSE (Mean Square Error)

$$ MSE = \frac{\sum_{i=1}^{n}(y_{i} - \hat{y_{i}})^{2}}{n} $$

> Используется в линейной регрессии в качестве функции потерь для аналитического решения по методу наименьших квадратов (МНК)

Также используется в качестве метрики.\
Перед использованием необходимо удалить выбросы.

- Функция для расчета `mean_squared_error()`

In [9]:
mse_score = metrics.mean_squared_error(y_test, y_pred)

print('MSE score: {:.4f}'.format(mse_score))

MSE score: 0.5411


## Корень из средней квадратической ошибки — RMSE (Root Mean Squared Error)

$$ RMSE = \sqrt{MSE} = \sqrt{\frac{\sum_{i=1}^{n}(y_{i} - \hat{y_{i}})^{2}}{n}} $$

Для получения RMSE извлекается квадратный корень из MSE:

- Отдельной функции нет, но можно взять корень из `mean_squared_error()`

In [10]:
rmse_score = np.sqrt(metrics.mean_squared_error(y_test, y_pred))

print('RMSE score: {:.4f}'.format(rmse_score))

RMSE score: 0.7356


## Коэффициент детерминации ($R^2$)

$$ R^{2} = 1 - \frac{MSE}{MSE_{mean}}, $$
где
$$ MSE_{mean} = \frac{\sum_{i=1}^{n}(y_{i} - \bar{y})^{2}}{n}, $$
где $ \bar y $ — среднее по вектору правильных ответов.

$R^2$ всегда находится в промежутке между $ - \infty $ и 1.

$R^2$ показывает, насколько модель лучше, \
чем если бы все предсказания были средним по правильным ответам.

Статистически показатель $R^2$ описывает, какую долю информации о зависимости (дисперсии) смогла уловить модель.

Удовлетворительным $R^2$ считается показатель выше 0.5: \
чем ближе к 1, тем лучше. \
Отрицательные значения $R^2$ говорят о том, что построенная модель настолько плоха, \
что лучше было бы присвоить всем ответам среднее значение.

- Функция для расчета `r2_score()`

In [11]:
r2_score = np.sqrt(metrics.r2_score(y_test, y_pred))

print('R2 score: {:.4f}'.format(r2_score))

R2 score: 0.7688


[Описание метрик регрессии в документации](https://scikit-learn.ru/3-3-metrics-and-scoring-quantifying-the-quality-of-predictions/#regression-metrics)