Регрессия — класс задач обучения с учителем, когда по определённому набору признаков объекта нужно предсказать целевую переменную.

Задача регрессии — нахождение зависимостей между определяющими переменными и определяемой переменной, если она является непрерывным числом. Например, определить стоимость дома по его площади. Задача линейной регрессии — нахождение такой зависимости, если она линейная.

Давайте рассмотрим несколько  примеров задач регрессии, которые часто встречаются на практике.

Примеры задач регрессии
1. Прогнозирование стоимости недвижимости

В такой задаче в качестве объектов выступают квартиры, а в качестве признаков — характеристики квартиры (площадь, удаленность от метро, этаж и так далее). Признаки могут быть разные: бинарные (есть лифт или нет), количественные (площадь кухни), категориальные (район, тип дома).

Основные особенности такой задачи:

 стоимость меняется со временем, выборка неоднородна и изменчива;
 признаки разных типов, для многих требуется дополнительная предобработка.
2. Прогнозирование объема продаж

В задаче такого типа в качестве объекта выступает комбинация из дня, торговой точки и товара.

Чаще всего здесь встречаются признаки двух типов: бинарные (акционный товар или нет, выходной день или нет, торговая точка отдельная или в ТРЦ и так далее) и количественные (объем продаж в предыдущие дни).

Основная проблема в задачах такого типа — очень разреженные данные. Поэтому в модели сложнее оценить её качество.

3. Поиск оптимального места для открытия точки общепита и прогнозирование прибыли через год.

В такой задаче мы рассматриваем разные возможные точки для открытия (например, здание или блок под аренду в ТРЦ), которые являются объектами.  Для каждого объекта мы можем предсказать прибыль на год вперед (или другой срок).

Для такой задачи собирается огромное количество признаков всех типов: харатеристики географического расположения точки (метро, транспортная доступность, средняя цена на недвижимость рядом), демографические данные жителей близлежащей территории, данные об объектах, где могут быть потенциальные посетители (вузы и офисы поблизости).

Проблема решения такой задачи заключается в том, что мы имеем мало объектов (вряд ли для расположения точки рассматривается тысяча альтернатив), но при этом у нас много признаков и есть выбросы.

Эти три примера задач можно решить с помощью регрессии. Объединяющая особенность состоит в том, что мы каждый раз предсказываем числовое значение (прибыль, объем продаж, цену).



Итак, если вам необходимо предсказать числовую переменную, и вы имеете данные для обучения модели (регрессия — задача с учителем), то необходимо для решения задачи выбирать регрессионный анализ.

В простом виде задача линейной регрессии означает, что для набора пар  необходимо найти зависимость вида , при этом  — линейная функция.

Предполагается, что случайная ошибка  распределена нормально с нулевым матожиданием и фиксированной дисперсией , которая не зависит от переменных  и .

Построение регрессионной модели — это поиск такой функции, которая отражает зависимость одного признака от других.

Например, ваше настроение зависит от самочувствия, количества работы и погоды за окном. Значит, мы можем построить регрессионную модель, с помощью которой с той или иной точностью можно предсказать ваше настроение — конечно, если у нас будет информация о вашем самочувствии, количестве работы и погоде в вашем населенном пункте.

Попробуем  в качестве знакомства с линейной регрессией обучим совсем простую модель, которая будет предсказывать тормозной путь автомобиля в зависимости от скорости.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [2]:
myData = pd.read_csv('mycar.csv')

In [4]:
X = myData.iloc[:,:-1].values # Speed - определяющая величина
Y = myData.iloc[:,1].values # Stopping_dist - определяемая величина

Для начала нам необходимо разделить выборку (то есть все наши объекты) на обучающую и тестовую. Дело в том, что нам не столько важно, насколько успешно будет алгоритм давать предсказания на наших данных, сколько важно, чтобы он показывал хорошие результаты на реальных данных, «в бою». Можно привести следующую аналогию: обучающая выборка — это тренировочные примеры для нашего алгоритма, а тестовая — экзаменационные. Обычно выборка делится на обучающую и тестовую не в равных долях: на обучающую  мы берем 70-80 % наблюдений, а на тестовую — 20-30 % наблюдений.

In [8]:
from sklearn.model_selection import train_test_split

In [9]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size= 0.3)

Обучим модель

In [10]:
from sklearn.linear_model import LinearRegression
myModel = LinearRegression() # Обозначаем, что наша модель - линейная регрессия
myModel.fit(X_train,Y_train) # обучаем модель на обучающих данных

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

Теперь можем попробовать предсказать значения зависимой переменной для тестовой выборки:

In [11]:
y_pred = myModel.predict(X_test)
y_pred

array([58.60295488, 20.33209104, 58.60295488, 23.81126048, 13.37375216,
       72.51963264, 48.16544656, 30.76959936, 51.644616  , 34.2487688 ,
       41.20710768, 58.60295488, 41.20710768, 23.81126048, 72.51963264])

Есть несколько способов посчитать ошибку, один из них — средняя квадратичная ошибка (mean squared error, MSE). Если  —  набор значений зависимой переменной, которые вернула линейная модель,  — набор истинных значений зависимой переменной, то MSE считается как

Как правило, при увеличении сложности модели увеличивается дисперсия (разброс) оценки, но уменьшается смещение. Если модель слабая, то она не в состоянии выучить закономерность, в результате выучивается что-то другое, смещённое относительно правильного решения.

Построить модель регрессии не так уж и сложно. Но после ее построения возникает логичный вопрос: насколько хорошо она предсказывает нужный нам признак и можно ли улучшить его качество? Для этого надо уметь измерять какие-то показатели, по которым можно судить о качестве модели

У нас есть некоторые значения независимой переменной Х (х1,х2,х3…) и для них — значения зависимой переменной Y в этих точках.После построения модели мы получаем другие пары значений  - вместо зависимой переменной Y переменная А - предсказанные значения зависимой переменной. Итак, для каждого значения переменной Х мы имеет реальное значение и предсказанное. Для того, чтобы оценить качество алгоритма, нам надо научиться определять, насколько предсказанное значения отличается от реального. Есть несколько способов это сделать.

MAE (Mean Absolute Error). Чтобы посчитать данную метрику, нужно найти все остатки (разницы между предсказанным значением и реальным), взять от каждого из них модуль, сложить их и поделить на количество. Иными словами, нам нужно найти среднее арифметическое модуля отклонения предсказанного значения от реального.

MSE (Mean Squared Error). Логика вычисления данной ошибки очень похожа на предыдущую. Разница лишь в том, что вместо модуля разности между предсказанным значением и реальным мы берем квадрат этого модуля

Также можно встретить ее аналог, RMSE (Root Mean Squared Error). Для получения RMSE надо просто извлечь квадратный корень из MSE

MAPE (Mean Absolute Percent Error) — реже используемая, но все равно важная метрика. Для ее вычисления модуль разницы между предсказанием алгоритма и истинным значением мы делим на истинное значение. Потом складываем все результаты (для каждого объекта), делим на количество и умножаем на 100 %. Итак, эта метрика показывает, на сколько процентов в среднем наше предсказание отклоняется от реального значения.

In [13]:
import pandas as pd               # библиотека для работы с таблицами
import numpy as np                # библиотека для работы с матрицами

In [14]:
y_happy = [4,20,110,15,23]

In [15]:
y_happy_pred = [5,15,100,9,21]

In [16]:
from sklearn import metrics  # подгружаем метрики

In [17]:
#Вычисляем MAE:
MAE = metrics.mean_absolute_error(y_happy, y_happy_pred)
print(MAE)

4.8


In [18]:
#Вычисляем MSE:
MSE = metrics.mean_squared_error(y_happy, y_happy_pred)
print(MSE)

33.2


In [19]:
#Вычисляем коэффициент детерминации:
R_2 = metrics.r2_score(y_happy, y_happy_pred)
print(R_2)

0.9774247946472284


In [21]:
a = [2,3,-1,4]
a_pred = [1,3,2,5]
MSE_a = metrics.mean_squared_error(a, a_pred)
print(MSE_a)

2.75


R_2 (коэффициент детерминации)  — это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью зависимости. Коэффициент можно рассматривать как универсальную меру зависимости одной случайной величины от множества других.

Коэффициент детерминации принимает значения от 0 до 1.
Для приемлемых моделей коэффициент должен быть не меньше 50 %.
Модели с коэффициентом детерминации выше 80 % можно признать достаточно хорошими.
Коэффициент может быть отрицательным, это говорит о крайней неадекватности модели: простое среднее приближает лучше.
Стоит отметить, что коэффициент детерминации довольно часто используется в научных исследованиях (особенно в социальных науках), однако в практических бизнес-задачах он часто бывает несостоятелен для оценки качества модели, и об этом необходимо помнить. Он может принимать очень низкие значения при полностью верной модели. И, наоборот, приближаться к единице при неверной модели. 