# Тетрадь №4: Метрики моделей регрессии

В предыдущей тетради мы обсудили метрики классификации. А темой данной тетради являются методы
оценки регрессионных моделей по различным критериям. Мы изучим: чем они отличаются от методов,
применяемых к моделям классификации; как и когда которые из них применять.

## Содержание

* [Теория](#Теория)
* [Примеры](#Примеры)
* [Задача](#Задача)

***

## Теория

Метрики регрессии используются для оценки производительности моделей регрессии, которые
предсказывают непрерывные числовые значения. Эти метрики помогают количественно оценить, насколько
хорошо предсказания модели соответствуют фактическим наблюдаемым значениям. Ниже приведены
некоторые часто используемые метрики регрессии, а также их описания и формулы.

### Средняя абсолютная ошибка (MAE — Mean Absolute Error)

MAE измеряет среднюю абсолютную разницу между предсказанными значениями и фактическими значениями.
Она менее чувствительна к выбросам по сравнению с MSE.

**Формула**:
$$ \textrm{MAE} = \frac{1}{n} \sum_{i = 1}^n |y_i - \hat{y}_i|, $$

где:
- $n$ — Количество точек данных;
- $y_i$ — Фактическое значение для \( i \)-го элемента данных;
- $\hat{y}_i$ — Предсказанное значение для \( i \)-го элемента данных.

### Среднеквадратичная ошибка (MSE — Mean Squared Error)

MSE измеряет среднее значение квадратов разностей между предсказанными значениями и фактическими
значениями. Она сильнее штрафует большие ошибки из-за операции возведения в квадрат.

**Формула**:
$$ \textrm{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2, $$

где:
- $n$ — Количество данных;
- $y_i$ — Фактическое значение для $i$-го элемента данных;
- $\hat{y}_i$ — Предсказанное значение для $i$-го элемента данных.

### Среднеквадратичная ошибка (RMSE — Root Mean Squared Error)

RMSE — это квадратный корень из MSE. Он имеет ту же единицу измерения, что и целевая переменная,
что упрощает интерпретацию.

**Формула**:
$$ \textrm{RMSE} = \sqrt{\frac{1}{n} \sum_{i = 1}^{n} (y_i - \hat{y}_i)^2} $$

где:
- $n$ — Количество данных;
- $y_i$ — Фактическое значение для $i$-го элемента данных;
- $\hat{y}_i$ — Предсказанное значение для $i$-го элемента данных.

### Средняя абсолютная процентная ошибка (MAPE — Mean Absolute Percentage Error)

MAPE измеряет среднюю процентную разницу между предсказанными значениями и фактическими значениями.
Она полезна для понимания относительной ошибки.

**Формула**:
$$
\textrm{MAPE} =
    \frac{1}{n} \sum_{i = 1}^{n} \left| \frac{y_i - \hat{y}_i}{y_i} \right| \times 100,
$$

где:
- $n$ — Количество данных;
- $y_i$ — Фактическое значение для $i$-го элемента данных
- $\hat{y}_i$ — Предсказанное значение для $i$-го элемента данных

### R-квадрат (R-squared)

R-квадрат, также известный как коэффициент детерминации, измеряет долю дисперсии зависимой переменной,
которая предсказуема из независимых переменных. Он варьируется от 0 до 1, причем более высокие
значения указывают на лучшее соответствие.

**Формула**:
$$
\textrm{R}^2 = 1 - \frac{\sum_{i = 1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i = 1}^{n} (y_i - \bar{y})^2}
$$

где:
- $n$ — Количество данных;
- $y_i$ — Фактическое значение для $i$-го элемента данных;
- $\hat{y}_i$ — Предсказанное значение для $i$-го элемента данных;
- $\bar{y}$ — Среднее значение фактических значений.

### Скорректированный R-квадрат (Adjusted R-squared)

Скорректированный R^2 — это модифицированная версия R^2, которая учитывает количество предикторов в
модели. Он штрафует добавление нерелевантных предикторов.

**Формула**:
$$
\textrm{R}^2_{\textrm{Adj}} = 1 - \left( \frac{(1 - \textrm{R}^2)(n - 1)}{n - k - 1} \right),
$$

где:
- $n$ — Количество данных;
- $k$ — Количество предикторов;
- $\textrm{R}^2$ — Значение R-квадрат.

### Средняя ошибка смещения (MBE — Mean Bias Error)

MBE измеряет среднюю разницу между предсказанными значениями и фактическими значениями. Он
указывает, систематически ли модель переоценивает или недооценивает.

**Формула**:
$$ \textrm{MBE} = \frac{1}{n} \sum_{i = 1}^{n} (y_i - \hat{y}_i), $$

где:
- $n$ — Количество данных;
- $y_i$ — Фактическое значение для $i$-го элемента данных;
- $\hat{y}_i$ — Предсказанное значение для $i$-го элемента данных.

Каждая из этих метрик предоставляет разные сведения о производительности модели регрессии:
- **MAE** и **MSE** измеряют среднюю ошибку, причем MSE сильнее штрафует большие ошибки.
- **RMSE** — это квадратный корень из MSE и имеет ту же единицу измерения, что и целевая
переменная.
- **MAPE** предоставляет процентную ошибку, полезную для понимания относительной
производительности.
- **R-squared** и **Adjusted R-squared** измеряют долю объясненной дисперсии моделью, причем
Скорректированный $\textrm{R}^2$ штрафует добавление нерелевантных предикторов.
- **MBE** указывает, систематически ли модель переоценивает или недооценивает.

Выбор подходящей метрики зависит от конкретных требований задачи и природы данных.

***

## Примеры

### Средняя абсолютная ошибка

Определим функцию для вычисления средней абсолютной ошибки.

In [32]:
import numpy as np
from numpy import ndarray


def compute_mean_absolute_error(actual: ndarray, predicted: ndarray) -> float:
    error = float(np.mean(np.abs(actual - predicted)))
    return error

И посмотрим на принцип её действия относительно конкретных числовых (пускай, и случайных) данных.

In [33]:
import random


y_actual = np.array([random.random() for _ in range(100)])
y_pred = np.array([
    x if random.random() < 0.5 else random.random() for x in y_actual
])
mean_absolute_error = compute_mean_absolute_error(y_actual, y_pred)

print(mean_absolute_error)

0.1843764863200156


### Средняя квадратичная ошибка и корень СКО

Выполним те же манипуляции с СКО и корнем СКО.

In [34]:
def compute_mean_squared_error(actual: ndarray, predicted: ndarray) -> float:
    error = float(np.mean(np.power(actual - predicted, 2)))
    return error


def compute_root_mean_squared_error(
    actual: ndarray, predicted: ndarray
) -> float:
    error = np.sqrt(compute_mean_squared_error(actual, predicted))
    return error


mean_squared_error = compute_mean_squared_error(y_actual, y_pred)
root_mean_squared_error = compute_root_mean_squared_error(y_actual, y_pred)

print(mean_squared_error, root_mean_squared_error, sep="\n")

0.09028100715033459
0.30046798024138044


***

## Задание

Рассмотрев примеры выше, выполним задание для закрепления материала. Выполните реализацию функций
R-squared и Adjusted R-squared. Пользуйтесь формулами из [теории](#Теория).

In [None]:
def compute_r_squared_error(actual: ndarray, predicted: ndarray) -> float: ...

def compute_adjusted_r_squared_error(
    actual: ndarray, predicted: ndarray, n_predictors: int
) -> float: ...

По готовности кода в ячейке выше, запустите следующий блок кода, чтобы проверить, выполняется ли
ваш код. R-квадрат иногда может возвращать отрицательные значения, и это нормально.

In [36]:
y_actual = np.array([random.random() for _ in range(100)])
y_pred = np.array([
    x if random.random() < 0.5 else random.random() for x in y_actual
])
n_preds = 3
r_squared_error = compute_r_squared_error(y_actual, y_pred)
adjusted_r_squared_error = compute_adjusted_r_squared_error(
    y_actual, y_pred, n_preds
)

print(r_squared_error, adjusted_r_squared_error, sep="\n")

-0.27365239787719875
2.286648850916762


***

## Выводы

Эта тетрадь суть логическое продолжение предыдущей. Она дополняет содержание тетради о метриках
классификации и проясняет нюансы работы с континуальными значениями. Мы изучили метрики моделей
регрессии: их виды и строгие определния; реализовали две функции оценки.