# <center> Метрика — это численное выражение качества моделирования.

Для оценки качества решения задачи регрессии существует множество метрик. Давайте рассмотрим самые основные и часто используемые.

### <center> МЕТРИКИ РЕГРЕССИИ

**Средняя абсолютная ошибка — MAE (Mean Absolute Error)**

Это самый простой и уже знакомый вам показатель. Чтобы посчитать данную метрику, нужно найти все остатки (разницы между предсказанным значением и реальным), взять от каждого из них модуль, сложить их и поделить на количество. Иными словами, нам нужно найти среднее арифметическое модуля отклонения предсказанного значения от реального.
$$MAE = \frac{\sum_{i=1}^{n}\left | y_{i} - \hat{y_{i}} \right |}{n}$$

Данная метрика интерпретируется очень легко: это число показывает, насколько в среднем наша модель ошибается. Чем меньше значение метрики, тем лучше.

$$MAE = \frac{\left | 24.0-29.82 \right |+\left | 21.6-25.87 \right |+\left | 4.7-30.73 \right |+\left | 33.4-31.76 \right |+\left | 36.2-29.49 \right |}{5} = 4.482 \left [ тыс. \$ \right ]$$

То есть для нашего примера из пяти наблюдений в среднем модель ошибается на 4.482 тысячи долларов.

Много ли это? Хороший вопрос, на который без эксперта-оценщика недвижимости будет сложно дать ответ. Однако можно попробовать посчитать ошибку в процентах, ведь в процентах всё воспринимается легче, и для этого нам пригодится следующая метрика — MAPE.

**Средняя абсолютная ошибка в процентах — MAPE (Mean Absolute Percent Error)**

Для её вычисления мы делим модуль разницы между предсказанием алгоритма и истинным значением на истинное значение. Затем складываем все результаты (для каждого объекта), делим на количество и умножаем на 100 %.

$$MAPE = \sum_{i=1}^{n} \frac{\left | y_{i} - \hat{y_{i}} \right |}{\left | y_{i} \right |} \frac{100\%}{n}$$

Эта метрика показывает, на сколько процентов в среднем наше предсказание отклоняется от реального значения. Эта метрика отлично показывает себя в задачах, когда неизвестно, какое значение целевого показателя считать приемлемым.

Например, средняя ошибка — 2 тысячи долларов. Это много или мало? Смотря для чего... А вот средняя ошибка, равная 80 % — это много или мало? Определённо много.

$$M A P E=\left(\frac{|24.0-29.82|}{|24.0|}+\frac{|21.6-25.87|}{|21.6|}+\frac{|34.7-30.73|}{|34.7|}+\frac{|33.4-31.76|}{|33.4|}+\frac{|36.2-29.49|}{|36.2|}\right) \frac{100 \%}{5}=15.781 \%$$

Таким образом, на первых пяти наблюдениях модель в среднем ошибается на 15.781 %. Это довольно неплохой результат.

**Средняя квадратическая ошибка — MSE**

Данный показатель мы используем в линейной регрессии в качестве функции потерь, но ничто не мешает нам также использовать его и в качестве метрики.

Логика вычисления данной ошибки очень похожа на предыдущую. Разница лишь в том, что вместо модуля разности между предсказанным и реальным значениями мы берём квадрат этого модуля:
$$MSE = \frac{\sum_{i=1}^{n}(y_{i} - \hat{y_{i}})^{2}}{n}$$

Данная метрика хуже поддаётся интерпретации, чем предыдущая, так как измеряется не в единицах, а в квадратах единиц. Она чаще используется для внутреннего обсуждения между дата-сайентистами, заказчику такая метрика может быть непонятна.
$$M S E=\frac{(24.0-29.82)^{2}+(21.6-25.87)^{2}+(34.7-30.73)^{2}+(33.4-31.76)^{2}+(36.2-29.49)^{2}}{5}=22.116\left[(\text { тыс. } \$)^{2}\right]$$

Таким образом, для нашего примера квадрат отклонения составляет 22.116 тысяч долларов в квадрате.

Согласитесь, не очень понятно, о чём идет речь. Однако данная метрика является популярной, так как позволяет «штрафовать» модель за очень большие ошибки.

**Что значит «штрафовать»?** 

Например, расхождение в 200 единиц в метрике MSE воспринимается как , а в метрике MAE это расхождение воспринимается как 200. Поэтому, если у нас есть две модели, но одна из них допускает большие ошибки, эти ошибки становятся ещё больше при расчёте метрики MSE, и нам легче сравнить модели между собой.

Но в то же время это и проклятие MSE. Если в данных присутствуют выбросы, метрика может быть необъективной. Если модель будет утверждать, что цена здания — 30 тысяч долларов, а в наборе данных ему соответствует цена в 3 миллиона долларов, то при возведении такой ошибки в квадрат получится 9 миллионов, что может сбить с толку исследователя. **Необходимо скептически относиться к данной метрике**, если вы не проводили исследование данных на предмет **наличия выбросов**.

**Корень из средней квадратической ошибки — RMSE (Root Mean Squared Error)**

Для получения RMSE надо просто извлечь квадратный корень из MSE:
$$RMSE = \sqrt{MSE} = \sqrt{\frac{\sum_{i=1}^{n}(y_{i} - \hat{y_{i}})^{2}}{n}}$$

Корень извлекается для того, чтобы привести размерности ответов и ошибок в соответствие и сделать метрику более понятной.
$$RMSE = \sqrt{22.116} = 4.702 \left [ тыс. \$ \right ]$$

Преимущества и недостатки этой метрики такие же, как и у MSE, к преимуществам добавляется только понятная размерность.

**Коэффициент детерминации ($R^{2}$)**

Все рассматриваемые ранее метрики имели масштаб от 0 до +∞. Чем это плохо?

А что если нам скажут, что MSE для модели составляет 32? Должны ли мы улучшить модель, или она достаточно хороша? А что если MSE = 0.4?

На самом деле, трудно понять, хороша модель или нет, не сравнив её показатели с теми же показателями других моделей.

Коэффициент детерминации, или $R^{2}$, является ещё одним показателем, который мы можем использовать для оценки модели. Он тесно связан с MSE, но его преимущество в том, что $R^{2}$ всегда находится в промежутке между -∞ и 1.
$$R^{2} = 1 - \frac{MSE}{MSE_{mean}},$$
где
$$MSE_{mean} = \frac{\sum_{i=1}^{n}(y_{i} - \bar{y})^{2}}{n},$$
где $\bar{y}$ — среднее по вектору правильных ответов.

То есть $R^{2}$ показывает, насколько наша модель лучше, чем если бы все предсказания были средним по правильным ответам.

Посмотрим, как считается $R^{2}$. Сначала рассчитаем среднее по правильным ответам:
$$\bar{y} = \frac{24.0+21.6+34.7+33.4+36.2}{5} = 29.98$$

Теперь рассчитаем $MSE_{mean}$:
$$M S E_{\text {mean }}=\frac{(24.0-29.98)^{2}+(21.6-29.98)^{2}+(34.7-29.98)^{2}+(33.4-29.98)^{2}+(36.2-29.98)^{2}}{5}=35.72$$
И, наконец, сам $R^{2}$:
$$R^{2} = 1 - \frac{22.116}{35.72} = 0.38$$

Есть ещё одна интерпретация данной метрики. Статистически показатель $R^{2}$ описывает, какую долю информации о зависимости (дисперсии) смогла уловить модель.

**Удовлетворительным $R^{2}$ считается показатель выше 0.5: чем ближе к 1, тем лучше. Отрицательные значения $R^{2}$ говорят о том, что построенная модель настолько плоха, что лучше было бы присвоить всем ответам среднее значение.**

MAE mean_absolute_error()

MAPE mean_absolute_percentage_error()

MSE	mean_square_error()

RMSE Отдельная функция отсутствует, но можно извлечь корень из результата функции mean_square_error()

$R^{2}$  r2_score()


### <center> РАСЧЁТ МЕТРИК НА PYTHON

Настало время проверить качество построенных нами ранее моделей линейной регрессии: lr_lstat и lr_full.

Весь набор функций для вычисления метрик в sklearn находится в модуле [metrics](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics). Давайте его импортируем:

In [1]:
from sklearn import metrics

In [2]:
# mean_absolute_error() — расчёт MAE;
# mean_square_error() — расчёт MSE;
# mean_absolute_percentage_error() — расчёт MAPE;
# r2_score() — расчёт коэффициента детерминации .

*Примечание. Для расчёта метрики RMSE нет специальной функции, однако мы знаем, что для её расчёта достаточно извлечь квадратный корень из MSE.

Из-за особенностей реализации функция mean_absolute_percentage_error() возвращает результат не в процентах, а в долях. Чтобы отобразить результат в процентах, необходимо умножить его на 100.*

*Давайте вычислим метрики и выведем их на экран, округлив до третьего знака после запятой. Начнём с модели lr_lstat: сделаем предсказание на основании признака LSTAT и передадим истинные и предсказанные медианные цены в функции для расчёта метрик:*

In [6]:
import numpy as np
import pandas as pd
from sklearn import linear_model
from sklearn.datasets import load_boston 
boston = load_boston()

#создаём DataFrame из загруженных numpy-матриц
boston_data = pd.DataFrame(
    data=boston.data, #данные
    columns=boston.feature_names #наименования столбцов
)
#добавляем в таблицу столбец с целевой переменной
boston_data['MEDV'] = boston.target


    The Boston housing prices dataset has an ethical problem. You can refer to
    the documentation of this function for further details.

    The scikit-learn maintainers therefore strongly discourage the use of this
    dataset unless the purpose of the code is to study and educate about
    ethical issues in data science and machine learning.

    In this special case, you can fetch the dataset from the original
    source::

        import pandas as pd
        import numpy as np

        data_url = "http://lib.stat.cmu.edu/datasets/boston"
        raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
        data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
        target = raw_df.values[1::2, 2]

    Alternative datasets include the California housing dataset (i.e.
    :func:`~sklearn.datasets.fetch_california_housing`) and the Ames housing
    dataset. You can load the datasets as follows::

        from sklearn.datasets import fetch_california_ho

In [7]:
X = boston_data[['LSTAT']] #матрица наблюдений
y = boston_data['MEDV'] #вектор правильных ответов

lr_lstat = linear_model.LinearRegression()
#Обучаем модель — ищем параметры по МНК
lr_lstat.fit(X, y)

In [8]:
#Делаем предсказание по признаку LSTAT
y_predict_lstat = lr_lstat.predict(boston_data[['LSTAT']])
#Рассчитываем MAE
print('MAE score: {:.3f} thou. $'.format(metrics.mean_absolute_error(y, y_predict_lstat)))
#Рассчитываем RMSE
print('RMSE score: {:.3f} thou. $'.format(np.sqrt(metrics.mean_squared_error(y, y_predict_lstat))))
#Рассчитываем MAPE
print('MAPE score: {:.3f} %'.format(metrics.mean_absolute_percentage_error(y, y_predict_lstat) * 100))
#Рассчитываем коэффициент детерминации
print('R2 score: {:.3f}'.format(metrics.r2_score(y, y_predict_lstat)))

MAE score: 4.505 thou. $
RMSE score: 6.203 thou. $
MAPE score: 21.352 %
R2 score: 0.544


**Проделываем ту же самую операцию для второй модели линейной регрессии, lr_full:**

In [9]:
#Составляем список факторов (исключили целевой столбец)
features = boston_data.drop('MEDV', axis=1).columns
#Составляем матрицу наблюдений X и вектор ответов y
X = boston_data[features]
y = boston_data['MEDV']
#Создаём объект класса LinearRegression
lr_full = linear_model.LinearRegression()
#Обучаем модель — ищем параметры по МНК
lr_full.fit(X, y)

In [10]:
#Делаем предсказание по всем признакам
y_predict_full = lr_full.predict(boston_data[features])
#Рассчитываем MAE
print('MAE score: {:.3f} thou. $'.format(metrics.mean_absolute_error(y, y_predict_full)))
#Рассчитываем RMSE
print('RMSE score: {:.3f} thou. $'.format(np.sqrt(metrics.mean_squared_error(y, y_predict_full))))
#Рассчитываем MAPE
print('MAPE score: {:.3f} %'.format(metrics.mean_absolute_percentage_error(y, y_predict_full) * 100))
#Рассчитываем коэффициент детерминации
print('R2 score: {:.3f}'.format(metrics.r2_score(y, y_predict_full)))

MAE score: 3.271 thou. $
RMSE score: 4.679 thou. $
MAPE score: 16.417 %
R2 score: 0.741


Сравним полученные результаты:

MAE: в среднем первая модель ошибается на  4.505 тыс. долларов, а вторая — на 3.271 тыс. долларов.
RMSE : среднеквадратичное отклонение первой модели от истинных ответов составляет 6.203 тыс. долларов, а второй — 4.679.
MAPE : первая модель ошибается на 21.352 %, а вторая — на 16.417 %.
R2 : доля объясняемой информации (дисперсии), которую улавливает первая модель, — 0.544, а вторая — 0.741.
Очевидно, что по всем метрикам вторая модель, построенная на основе всех признаков в данных, превосходит первую.

✍ Следует отметить, что для задач регрессии существует множество метрик, и мы рассмотрели только наиболее распространённые из них. Весь список метрик и их расчёт в [sklearn](https://scikit-learn.ru/3-3-metrics-and-scoring-quantifying-the-quality-of-predictions/#regression-metrics) вы можете найти здесь.

In [12]:
# Задание 3.2
# У вас есть истинные ответы y_true = [1.23, 2.35, 2.75] и предсказания модели y_pred = [1.01, 12.3, 2.74]. Посчитайте метрику RMSE, ответ округлите до двух знаков после точки-разделителя.
y_true = [1.23, 2.35, 2.75]
y_pred = [1.01, 12.3, 2.74]
print('RMSE score: {:.2f}'.format(np.sqrt(metrics.mean_squared_error(y_true, y_pred))))

RMSE score: 5.75


In [13]:
# Задание 3.3

# Чему равен коэффициент детерминации на следующих данных?
# Истинные ответы: y_true = [22.4, 20.6, 23.9, 22.0, 11.9]
# Предсказанные ответы: y_pred = [20.5, 20.2, 20.3, 19.0, 11.0]
# Ответ округлите до двух знаков после точки-разделителя.
y_true = [22.4, 20.6, 23.9, 22.0, 11.9]
y_pred = [20.5, 20.2, 20.3, 19.0, 11.0]

print('R2 score: {:.2f}'.format(metrics.r2_score(y_true, y_pred)))

R2 score: 0.71


### <center> НЕДОСТАТКИ АНАЛИТИЧЕСКОГО РЕШЕНИЯ

→ Существует теорема [Гаусса-Маркова](https://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D0%BE%D1%80%D0%B5%D0%BC%D0%B0_%D0%93%D0%B0%D1%83%D1%81%D1%81%D0%B0_%E2%80%94_%D0%9C%D0%B0%D1%80%D0%BA%D0%BE%D0%B2%D0%B0), которая говорит о том, что, если выполнены все условия теоремы, МНК всегда находит оптимальные оценки параметров. Мы ещё вернемся к этой теореме, когда будем говорить об МНК в модулях по линейной алгебре.

Надо всего лишь перемножить матрицы между собой и получить ответ
**Оказывается, у такого простого подхода есть один большой минус — это работа с большим количеством признаков.**

**Второй недостаток МНК — это невозможность инкрементального обучения, или обучения в режиме реального времени.**

Третий недостаток МНК больше теоретический и заключается в том, что матрица $Q = (X^{T}X)^{-1}$ в результате вычислений может не существовать. Это связано с математическими особенностями вычисления обратной матрицы, которые мы рассмотрим далее в курсе. 

Причина этой проблемы — мультиколлинеарность факторов (сильная корреляционная связь). Из-за этого коэффициенты линейной регрессии становятся слишком большими и модель становится неустойчивой. 

Проблема решается с помощью регуляризации.