# REGRESSION METRICS
В этой задаче погрузимся в одну из ключевых тем, с которой начинается изучение машинного обучения - метрики регрессии. Метрики регрессии являются основополагающими инструментами для оценки и сравнения регрессионных моделей. Они часто встречаются на собеседованиях и являются важной частью аналитического арсенала ML-инженера. Поэтому, даже если вы уже знакомы с основными метриками, повторение будет полезным, а тем, кто впервые сталкивается с этой темой, поможет лучше понять их суть и применение.

## Задача регрессии
Задача регрессии в машинном обучении заключается в прогнозировании непрерывных значений на основе одной или нескольких входных переменных. Регрессия ищет взаимосвязь между переменными и используется для прогнозирования одной зависимой (целевой) переменной на основе значений одной или нескольких независимых переменных.

MSE и RMSE
MSE (Mean Squared Error) измеряет среднее квадратичное различие между фактическими и предсказанными значениями. Эта метрика широко используется для оценки общей точности модели и особенно полезна, когда нужно уделить больше внимания большим ошибкам (из-за квадратичной природы ошибки). Такие большие ошибки еще называют выбросами.


RMSE (Root Mean Squared Error) - это квадратный корень из MSE. Она позволяет оценивать величину ошибки в величинах того же порядка, что и исходная целевая переменная.

Например, если мы прогнозируем период в днях, то оценивать величину ошибки в днях намного удобнее, чем в квадратах дней. В остальном эта точно такая же MSE и обладает такими же свойствами.

MAE
MAE (Mean Absolute Error) измеряет среднее абсолютное различие между фактическими и прогнозируемыми значениями. Эта метрика дает меру точности в тех же единицах, что и данные, что облегчает интерпретацию. MAE менее чувствительна к выбросам, чем MSE (RMSE).


MAE vs MSE
Важное отличие между MAE и MSE (RMSE), которое стоит учитывать - это чувствительность к выбросам. В зависимости от задачи такое свойство может быть как полезным, так и вредным.

Рассмотрим пример:

Фактические значения для 5 наблюдений составляют:  [4, 5, 8, 7, 5]

Модель предсказывает следующие значения: [3, 6, 1, 7, 4]

MAE = 2.0

RMSE = 3.2

Значение ошибки отличается в 1.6 раза.

Модели, качество которых оцениваем по MAE, будут стремиться в среднем предсказывать точные значения. Даже если на 10 хороших примеров будет одна очень большая ошибка, она не сильно повлияет на итоговую метрику.

Модели, которые мы оцениваем по MSE (RMSE) будут наоборот стремиться минимизировать предсказания с большими ошибками. Потому что каждая большая ошибка будет квадратично увеличивать среднее значение метрики.

Предположим мы разрабатываем модель  предсказания оценки фильма, которую поставит пользователь, чтобы решить показывать ему фильм в рекомендациях или нет. Не так страшно, если для некоторых пользователей мы сильно ошибемся и покажем нерелевантные рекомендации. Главное, чтобы в среднем наши оценки были максимально точными. Здесь выбор MAE будет уместным.

Или второй пример. В системе автопилота самолета мы разрабатываем модель, которая предсказывает угол наклона крыла. Даже 1 ошибка из 100 может быть критичной. Теперь нам не подходит просто точная модель в среднем. Намного важнее, чтобы она не делала сильно больших ошибок в отдельных случаях. Здесь выбор MSE будет более уместным, чем MAE.

MAPE
MAPE (Mean Absolute Percentage Error) показывает среднее абсолютное процентное различие между фактическими и прогнозируемыми значениями. Эта метрика особенно полезна, когда мы хотим понять ошибку в процентном выражении, что делает ее легко интерпретируемой.

MAPE особенно полезна в задачах, где важно учитывать относительные ошибки, а не абсолютные значения. Это часто встречается в экономике и финансах, например, при прогнозировании продаж.

Предположим, компания прогнозирует продажи продуктов. Если фактическая продажа составляет 1000 единиц, а прогноз составляет 900, ошибка в 100 единиц может показаться значительной. Однако, если речь идет о продукте с продажами в 10000 единиц, ошибка в 100 единиц уже не будет казаться столь существенной. MAPE, показывая ошибку в процентном соотношении от фактического значения, помогает лучше оценить значимость ошибки в разных масштабах.

У этой метрики есть недостатки. Например, она не симметричная. Подробнее об этом в задаче SMAPE. Рекомендуем решить ее после этой задачи.

  - это мера, показывающая, какая доля изменчивости зависимой переменной может быть объяснена независимыми переменными модели. Этот коэффициент дает представление о том, насколько хорошо данные подходят под нашу модель.


Давайте рассмотрим пример, в котором использование коэффициента детерминации R2
  будет особенно полезно. Независимые переменные могут включать площадь недвижимости, расположение, возраст здания, близость к общественному транспорту и другие факторы. Зависимая переменная — это цена недвижимости.

После обучения модели на основе доступных данных мы получаем значение R2, например, 0.85. Это означает, что 85% вариации цен на недвижимость можно объяснить используемыми в модели переменными.

Таким образом, R2 является ключевым показателем в ситуациях, где нам нужно оценить, насколько хорошо наша модель отражает действительность, и насколько мы можем доверять её прогнозам на основе имеющихся данных.

# Задание №1
Многие библиотеки уже содержат эти метрики. Но в этом задании вам необходимо будет реализовать функции для расчета этих метрик самостоятельно.

Напишите функции для расчета:

MSE
RMSE
MAE
MAPE
R2
 

In [6]:
from typing import Any

import numpy as np
from numpy import floating


def mean_squared_error(actual: np.ndarray, predicted: np.ndarray) -> float:
    """Returns the mean squared error"""
    return np.mean((actual - predicted)**2)


def root_mean_squared_error(actual: np.ndarray, predicted: np.ndarray) -> float:
    """Returns the root squared error"""
    return (np.mean((actual - predicted)**2))**0.5


def mean_absolute_error(actual: np.ndarray, predicted: np.ndarray) -> float:
    """ Return the mean absolute error"""
    return np.mean(np.abs((actual - predicted)))


def mean_absolute_percentage_error(actual: np.ndarray, predicted: np.ndarray) -> float:
    """Return the mean absolute percentage error"""
    return np.mean(np.abs((actual - predicted) / actual)) * 100


def r_squared(actual: np.ndarray, predicted: np.ndarray) -> float:
    """ Return the r_squared"""
    return 1 - ((np.sum((actual - predicted)**2))/(np.sum((actual - np.mean(actual))**2)))


def test():
    actual = np.array([3, -0.5, 2, 7])
    predicted = np.array([2.5, 0.0, 2, 8])

    assert np.allclose(mean_squared_error(actual, predicted), 0.375)
    assert np.allclose(root_mean_squared_error(actual, predicted), 0.6123724356957945)
    assert np.allclose(mean_absolute_error(actual, predicted), 0.5)
    assert np.allclose(
        mean_absolute_percentage_error(actual, predicted), 32.73809523809524
    )
    assert np.allclose(r_squared(actual, predicted), 0.9486081370449679)

    print("All tests passed.")


if __name__ == "__main__":
    test()


All tests passed.


## Задание №2
В этом задании вам предстоит обучить модель регрессии и посчитать несколько метрик.

Многие функции расчета метрик уже реализованы в популярных библиотеках. В этой задаче воспользуйтесь функциями mean_absolute_error, mean_squared_error, r2_score из библиотеке Scikit-learn.

In [9]:
from typing import Dict, Tuple

import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.datasets import make_regression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from sklearn.model_selection import train_test_split


def prepare_data():
    X, y = make_regression(n_samples=1000, n_features=10, noise=0.2, random_state=42)
    return X, y


def solution(data: Tuple[np.ndarray, np.ndarray]) -> Dict[str, np.ndarray]:
    """
    Function to train a regression model and calculate metrics.

    Returns:
        dict: Dictionary with metrics.

    Examples:
        >>> solution()
        {
            'y_pred': array([  2.309,  -0.654,  -0.288,   1.237]),
            'mse': 0.039,
            'mae': 0.152,
            'r2': 0.948
        }
    """

    X, y = data
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=0.2, random_state=42
    )

    # YOUR CODE HERE
    model = LinearRegression()
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)

    mse = mean_squared_error(y_test, y_pred)
    mae = mean_absolute_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)

    return {
        "y_pred": y_pred,
        "y_test": y_test,
        "mse": mse,
        "mae": mae,
        "r2": r2,
    }


if __name__ == "__main__":
    data = prepare_data()
    metrics = solution(data)
    print("MSE:", metrics["mse"])
    print("MAE:", metrics["mae"])
    print("R2:", metrics["r2"])


MSE: 0.038047659641672914
MAE: 0.15546656260193287
R2: 0.9999977445402571
