Есть несколько способов посчитать ошибку, один из них — средняя квадратичная ошибка (mean squared error, MSE). Если  —  набор значений зависимой переменной, которые вернула линейная модель,  — набор истинных значений зависимой переменной, то MSE считается как:

\frac{1}{n}\sum_{i=1}^{n}(\hat{y_i} - y_i)^{2}

MSE = \frac{1}{n}\sum_{i=1}^{n}(\hat{y_i} - y_i)^{2} , где  — количество предсказанных значений.

Итак, для каждого значения переменной Х мы имеет реальное значение и предсказанное. Для того, чтобы оценить качество алгоритма, нам надо научиться определять, насколько предсказанное значения отличается от реального. Есть несколько способов это сделать.

MAE (Mean Absolute Error). Чтобы посчитать данную метрику, нужно найти все остатки (разницы между предсказанным значением и реальным), взять от каждого из них модуль, сложить их и поделить на количество. Иными словами, нам нужно найти среднее арифметическое модуля отклонения предсказанного значения от реального.

\begin{equation}\mathrm{MAE}=\frac{1}{m} \sum_{i=1}^{m}\left|a_{i}-y_{i}\right|\end{equation}



MSE (Mean Squared Error). Логика вычисления данной ошибки очень похожа на предыдущую. Разница лишь в том, что вместо модуля разности между предсказанным значением и реальным мы берем квадрат этого модуля:

\begin{equation}\mathrm{MSE}=\frac{1}{m} \sum_{i=1}^{m}\left|a_{i}-y_{i}\right|^{2}\end{equation}

Данная метрика является более популярной.

Также можно встретить ее аналог, RMSE (Root Mean Squared Error). Для получения RMSE надо просто извлечь квадратный корень из MSE:

\begin{equation}\mathrm{RMSE}=\sqrt{\mathrm{MSE}}=\sqrt{\frac{1}{m} \sum_{i=1}^{m}\left|a_{i}-y_{i}\right|^{2}}\end{equation}


MAPE (Mean Absolute Percent Error) — реже используемая, но все равно важная метрика. Для ее вычисления модуль разницы между предсказанием алгоритма и истинным значением мы делим на истинное значение. Потом складываем все результаты (для каждого объекта), делим на количество и умножаем на 100 %. Итак, эта метрика показывает, на сколько процентов в среднем наше предсказание отклоняется от реального значения.

\begin{equation}\mathrm{MAPE}=100 \% \cdot \frac{1}{m} \sum_{i=1}^{m} \frac{\left|y_{i}-a_{i}\right|}{\left|y_{i}\right|}\end{equation}


In [7]:
import pandas as pd               # библиотека для работы с таблицами
import numpy as np                # библиотека для работы с матрицами


# Рассмотрим очень простой пример. Предположим, что у нас есть показатели уровня счастья для пяти человек:
y_happy = [4,20,110,15,23]

# Допустим, у нас есть показатели счастья для этих же пяти человек, но предсказанные некоторым алгоритмом:
y_happy_pred = [5,15,100,9,21]

# Давайте вычислим метрики для этих данных!
from sklearn import metrics  # подгружаем метрики

In [5]:
#Вычисляем MAE:
MAE = metrics.mean_absolute_error(y_happy, y_happy_pred)

print(MAE)

4.8


In [6]:
#Вычисляем коэффициент детерминации:

R_2 = metrics.r2_score(y_happy, y_happy_pred)
print(R_2)

0.9774247946472284


# Задание 3.3.1

Чему равна MSE на этих данных ?

Предсказанное значение	1	3	2	5
Истинное значение	2	3	-1	4



In [13]:
y_happy = [1,3,2,5]
y_happy_pred = [2,3,-1,4]

MSE = metrics.mean_squared_error(y_happy, y_happy_pred)

print(MSE)


2.75
