# Метод наименьших квадратов

Рассмотрим переменные:

* $y$ – зависимая переменная, отклик, __target__  (количественная!)
* $\begin{pmatrix} x_1 &\cdots & x_k \end{pmatrix}$ – объясняющие/влияющие переменные, регрессоры, предикторы, __features__ (количественные/категориальные)

для которых имеем серию $n$ наблюдений: 

$$\{y_i, x_{i1},\ldots, x_{ik} \}_{i=1}^n$$

## Задача прогнозирования

Рассмотрим функцию/модель $a(x_1,\ldots,x_k)$, которую будем использовать для прогнозирования $y$ при заданных 
$\begin{pmatrix} x_1 &\cdots & x_k \end{pmatrix}$.

Обычно модель зависит то нескольких параметров $a(x_1,\ldots,x_k)=a(x_1,\ldots,x_k,\beta)$.

Прогноз обозначим $\hat{y}=a(x_1,\ldots,x_k)=a(x_1,\ldots,x_k,\beta)$

__Задача__: на данных обучить выбранную модель, чтобы использовать её для прогнозирования на новых наблюдениях.

Что нужно?

1. Выбрать модель $a(x_1,\ldots,x_k)$
2. Выбрать функцию потерь $L(y,\hat{y})$, показывающую точность прогнозирования

__Подгонка модели__: решаем задачу оптимизации

$$
	\min_{\beta} \frac{1}{n}\sum_{i=1}^n L(y_i,\hat{y}_i)
$$

Параметры подогнанной модели обозначим $\hat{\beta}$

Базовые метрики подгонки

$$
\begin{aligned}
	MSE&=\frac{1}{n}\sum_{i=1}^n |y_i-\hat{y}_i|^2 & L(y,\hat{y})=|y-\hat{y}|^2 \\
	MAE&=\frac{1}{n}\sum_{i=1}^n |y_i-\hat{y}_i| & L(y,\hat{y})=|y-\hat{y}| \\
	MAPE&=\frac{1}{n}\sum_{i=1}^n \frac{|y_i-\hat{y}_i|}{|y_i|} & L(y,\hat{y})=\frac{|y-\hat{y}|}{|y|}
\end{aligned}
$$

## Метод наименьших квадратов (OLS) для линейной регрессии

В качестве модели для прогнозирования выборем __линейную регрессию__ (с константой)

$$
	a(x_1,\ldots,x_k)=\beta_0+\beta_1x_1+\cdots+\beta_kx_k
$$

Функция потерь возьмём$L(y,\hat{y})=|y-\hat{y}|^2$ (метрика подгонки MSE)

Для удобства обозначим 
* $\beta=\begin{pmatrix} \beta_0 & \beta_1 & \cdots & \beta_k \end{pmatrix}^\top$
* $x=\begin{pmatrix} 1 & x_1 & \cdots & x_k \end{pmatrix}^\top$

Тогда $a(x_1,\ldots,x_k)=x^\top \beta=\langle x, \beta\rangle$

__Подгонка модели (выбор коэффициентов)__: решаем задачу оптимизации

$$
\begin{aligned}
	\min_{\beta}&\, MSE & MSE&=\frac{1}{n}\sum_{i=1}^n |y_i-\hat{y}_i|^2
\end{aligned}
$$

или

$$
	\min_{\beta} \frac{1}{n}\sum_{i=1}^n |y_i-\beta_0-\beta_1x_{i1}-\cdots-\beta_kx_{ik}|^2
$$

## Метод наименьших квадратов для линейной регрессии 2D

Рассмотрим случай одного предиктора, т.е. $a(x)=\beta_0+\beta_1x$ (геометрически прямая на плоскости $(x,y)$). 

Для метрики подгонки

$$
	MSE=\frac 1n\sum_{i=1}^n |y_i-\hat{y}_i|^2=\frac 1n\sum_{i=1}^n (y_i-\beta_0-\beta_1 x_i)^2
$$


Коэффициенты подогнанной модели находятся как решение задачи (безусловной) оптимизации

$$
	\min_{\beta_0,\beta_1}MSE
$$
(на плоскости подгоняем прямую под наблюдения)

Необходимые условия

$$
	\left\{\begin{aligned} 
		\frac{\partial MSE}{\partial \beta_0} &=0 \\ 
		\frac{\partial MSE}{\partial \beta_1} &=0
	\end{aligned}\right.
$$

Имеем

$$
\begin{aligned}
	\frac{\partial MSE}{\partial \beta_0} &=\frac{1}{n}\sum_{i=1}^n 2(y_i-\beta_0-\beta_1 x_i)(-1)=
	(-2)\left(\frac{1}{n}\sum_{i=1}^n y_i-\frac{1}{n}\sum_{i=1}^n \beta_0-\frac{1}{n}\sum_{i=1}^n \beta_1x_i\right)=
	(-2)(\bar{y}-\beta_0-\beta_1 \bar{x})=0\\
	\frac{\partial MSE}{\partial \beta_1} &=\frac{1}{n}\sum_{i=1}^n 2(y_i-\beta_0-\beta_1 x_i)(-x_i)=
	(-2)\left(\frac{1}{n}\sum_{i=1}^n x_iy_i-\frac{1}{n}\sum_{i=1}^n \beta_0x_i-\frac{1}{n}\sum_{i=1}^n \beta_1x_i^2\right)=
	(-2)(\overline{xy}-\beta_0\bar{x}-\beta_1\overline{x^2})=0
\end{aligned}
$$

Получаем систему

$$
	\left\{\begin{aligned} 
		\beta_0+\beta_1\bar{x} &=\bar{y} \\
		\beta_0\bar{x}+\beta_1\overline{x^2} &= \overline{xy}
	\end{aligned}\right.
$$

Решение системы 

$$
\begin{aligned}
	\hat{\beta}_1 &= \frac{\overline{xy}-\bar{x}\cdot\bar{y}}{\overline{x^2}-\left(\bar{x}\right)^2}=
	\frac{cov(x,y)}{Var(x)} & \hat{\beta}_0&=\bar{y}-\hat{\beta}_1\cdot\bar{x}
\end{aligned}
$$

__Замечание__: оптимальная прямая $\hat{y}=\hat{a}(x)=\hat{\beta}_0+\hat{\beta}_1x$ проходит через "центр масс" 
наблюдений $(\bar{x}, \bar{y})$

# Численные примеры

Подключим необходимые библиотеки

In [None]:
import numpy as np
import pandas as pd

from statsmodels.formula.api import ols

import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go

# Не показывать Warnings
import warnings
warnings.simplefilter(action='ignore', category=Warning)

In [None]:
# импорт данных из файла как DataFrame
df = pd.read_csv('../datasets/sleep75.csv')
# размер датафрейма
df.shape

In [None]:
# напечатаем датафрейм
df

## Пример 1 2D

Рассмотрим регрессию `sleep на totwrk`. Визуализируем данные с оптимальной прямой (библиотека `seaborn`)

In [None]:
sns.set_theme(style='darkgrid')
sns.regplot(data=df, x='totwrk', y='sleep', ci=None, scatter_kws={'s':5}, line_kws={'linestyle':'dashed', 'color':'r', 'linewidth':1})

Параметры оптимальной прямой

In [None]:
# спецификация модели через формулу
mod = ols(formula='sleep~1+totwrk', data=df)
# подгонка модели
res = mod.fit()
# параметры оптимальной прямой
res.params

Альтернативная визуализация (библиотека `plotly`). Цвет определяется параметром [trendline_color_override](https://www.w3schools.com/cssref/css_colors.php)

In [None]:
fig = px.scatter(df, x='totwrk', y='sleep', trendline='ols', trendline_color_override='#8B0000')
fig.show()

## Пример 2 3D

Рассмотрим регрессию `sleep на totwrk, age`. Результаты подгонки

In [None]:
# спецификация модели через формулу
mod = ols(formula='sleep~1+totwrk+age', data=df)
# подгонка модели
res = mod.fit()
# параметры подогнанной модели регрессии
res.params

визуализируем данные по переменным модели как 3D диаграмму рассеяния (библиотека `plotly`)

In [None]:
fig = px.scatter_3d(data_frame=df, x='totwrk', y='age', z='sleep')
fig.update_traces(marker_size=3) # размер точки
fig.show()

визуализируем данные по переменным модели как 3D диаграмму рассеяния с подогнанной плоскостью

In [None]:
# коэффициенты оптимальной плоскости
beta0, beta1, beta2 = ols(formula='sleep~1+totwrk+age', data=df).fit().params

# Визуализируем данные и плоскость
# данные для оптимальной плоскости
X = np.arange(start=df['totwrk'].min(), stop=df['totwrk'].max(), step=1)
Y = np.arange(start=df['age'].min(), stop=df['age'].max(), step=1)
X, Y = np.meshgrid(X, Y)
Z = beta0+beta1*X+beta2*Y

fig = px.scatter_3d(data_frame=df, x='totwrk', y='age', z='sleep', opacity=0.5)
fig.update_traces(marker_size=3) # размер точки
fig.add_trace(go.Surface(x=X, y=Y, z=Z))
fig.show()

## Пример 3 Парабола

Рассмотрим регрессию `sleep на totwrk, totwrk^2`. Результаты подгонки

In [None]:
# спецификация модели через формулу
mod = ols(formula='sleep~1+totwrk+I(totwrk**2)', data=df)
# подгонка модели
res = mod.fit()
# параметры подогнанной модели регрессии
res.params

In [None]:
# визуализация
sns.set_theme(style='darkgrid')
sns.regplot(data=df, x='totwrk', y='sleep', order=2, ci=None, scatter_kws={'s':5}, line_kws={'linestyle':'dashed', 'color':'r', 'linewidth':2})