Среднеквадратичная ошибка (RMSE) и средняя абсолютная ошибка (MAE) — это метрики, используемые для оценки работы модели регрессии. Эти показатели говорят нам, насколько точны наши прогнозы и какова величина отклонения от фактических значений.

Технически, RMSE — это корень среднего квадрата ошибок, а MAE — это среднее абсолютное значение ошибок. Здесь ошибки — это различия между предсказанными значениями (значениями, предсказанными нашей регрессионной моделью) и фактическими значениями переменной. По своей сути разница лишь в том, что RMSE из-за квадрата в формуле будет сильнее наказывать нас за ошибку, т.е. будет увеличивать вес / значение самой ошибки.

In [1]:
import numpy as np
# чтобы рассчитать RMSE и MAE средствами numpy
np.sqrt(np.mean(np.square(y-yp)))
np.mean(abs(y-yp))

NameError: name 'y' is not defined

In [18]:
# полиномиальная регрессия
# подготовка данных
import pandas as pd
from sklearn.linear_model import LinearRegression
data = pd.read_csv('/Users/olgazdanova/IDE/Skillfactory/HW/unconv.csv')
data.drop(['Well', 'Perm', 'TOC'], axis=1, inplace=True)
X = data[['Por', 'AI', 'Brittle','VR']]
y = data[['Prod']]
new_model = LinearRegression().fit(X, y)
print('R^2: ', round(new_model.score(X, y), 2))
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
X_train.shape, y_train.shape


R^2:  0.95


((160, 4), (160, 1))

In [8]:
# создание полиномиальных признаков
from sklearn.preprocessing import PolynomialFeatures
poly = PolynomialFeatures(degree=3, include_bias=False)
X_poly_train = poly.fit_transform(X_train)
X_poly_test = poly.fit_transform(X_test)

In [17]:
#обучение модели
model = LinearRegression().fit(X_poly_train, y_train)
print('R^2: ', round(model.score(X_poly_train, y_train), 2))

R^2:  0.99


In [10]:
# оценка модели
from sklearn.metrics import mean_squared_error, r2_score
y_pred = model.predict(X_poly_test)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f'Mean Squared Error: {mse}')
print(f'R^2 Score: {r2}')

Mean Squared Error: 26680.894340114115
R^2 Score: 0.968470030165188


# Метрики эффективности

Метрики эффективности - это способ показать, насколько точно модель отражает реальный мир

Метрики эффективности должны выбираться исходя из задачи, ктр решает модель

Функция ошибки и метрика эффективности - разные вещи

В задаче можно (и зачастую, нужно) применять несколько метрик эффективности

Наряду с метриками эффективности есть и другие характеристики моделей - скорость обучения, скорость работы, надежность, робастность, интерпретируемость

Метрики эффективности вычисляются из двух векторов - предсказанных (теоретических) значений целевой переменной и эмпирических (реальных) значений

Метрики эффективности для регрессий обычно анализируют отклонения предсказанных значений от реальных.

Большинство метрик пришло из математической статистики.

Обычно метрики сравнивают данную модель с тривиальной - моделью, ктр всегда предсказывает среднее реальное значение целевой перемнной.

Все метрики находятся в библиотеке sklearn.metrics

1. Коэффициент детерминации (r2_score). Он показывает силу связи между двумя случайными величинами. Если модель идеальная, то r^2 = 1 (100%), если плохая (тривиальная) = 0. Значение метрики мб отрицательным, если модель предсказывает хуже, чем тривиальная. Это несимметричная метрика (положение y и y_pred играет роль).

    from sklearn.linear_model import LinearRegression
    
    model = LinearRegression().fit(X, y)
    
    y_pred = model.predict(X)

Можно вызвать model.score(X, y), где мы указываем матрицу наблюдений и целевой (реальный) вектор 

А можно - r2_score(y, y_pred), где мы указываем сначала целевой вектор, а потом предсказанный (теоретический)

2. Средняя абсолютная ошибка (МАЕ). Показывает среднее абсолютное отклонение предсказанных значений от реальных. Чем выше значение МАЕ, тем модель хуже. У идеальной модели МАЕ=0

    y = [...]
    
    y_pred = [...]

mean_absolute_error(y, y_pred)

3. Средний квадрат ошибки (MSE). Чем выше значение, тем модель хуже; у идеальной модели метрика = 0. Более чувствительна к аномалиям. Главный недостаток в том, что выражает квадрат ошибки (то есть большие величины получаются).

mean_squared_error(y, y_pred, squared=False)

4. Среднеквадратичная ошибка (RMSE). Чувствительность к аномалиям!

5. Среднеквадратичная логарифмическая ошибка (MSLE). Логарифмическая ошибка будет сильно-сильно меньше МАЕ и тем более MSE

6. Среднее процентное отклонение (МАРЕ). 