**Процедура стандартизации данных**

In [1]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from statsmodels.tools.tools import add_constant

# 1. Определение

Пусть имеется множество измерений определенного признака $x_i, i=\overline{1,n}$. Тогда стандартизацией такого ряда называется преобразование по формуле:

$$\tilde{x}_{i} = \frac{x_{i} - \bar{x}}{\sigma_x}. \tag{1.1}$$

Где:
- $\bar{x}$ - среднее арифметческое рассматртваемого ряда;
- $\sigma_x$ - стандартное отклонение.

Получется, что выражение $(1.1)$ может быть переписано следующим образом:

$$\tilde{x}_{i} = \frac{x_{i} - \bar{x}}{\sqrt{\frac{1}{n} \sum_{i=1}^n(x_i - \bar{x})^2}}.$$

Иногда предпочитают не отнимать среднее арифметическое в числителе, тогда формула $(1.1)$ принимает вид:

$$\tilde{x}_i  = \frac{x_i}{\sigma}.$$

# 2. Свойсва результата

Величина получаемая в результате применения формулы $(1.1)$ получает следующие свойсва:

1. **Среднее артиaметисеское результата равняется нулю:**

$$\frac{\sum_{i=1}^n\tilde{x_i}}{n} = \frac{1}{n}\sum_{i=1}^n \frac{x_i - \bar{x}}{\sigma} = \frac{1}{n\sigma}\left[\sum_{i=1}^n x_i - \sum_{i=1}^n\bar{x}\right] = \frac{1}{n\sigma}\left[\sum_{i=1}^n x_i - n\bar{x} \right] =
\frac{1}{n\sigma}\left[ \sum_{i=1}^n x_i - n \sum_{i=1}^n\frac{x_i}{n} \right] = 0.$$

2. **Стандаратное отклонение равняется единице:**

Запишем стандартное отлонение $\tilde{x}_i$:

$$\sum_{i=1}^n \frac{\tilde{x}_i - \bar{\tilde{x}}_i}{n}$$

Но читвая результаты пункта 1 ($\bar{\tilde{x}}_i = 0$), получаем:


$$\sum_{i=1}^n \frac{\tilde{x}_i}{n} = 
\frac{1}{n}\sum_{i=1}^n\left[ \frac{x_i-\bar{x}}{\sqrt{\frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2}} \right]^2 = 
\frac{1}{n}\sum_{i=1}^n\left[ \frac{(x_i-\bar{x})^2}{\frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2} \right] = 
\frac{1}{n}\left[ \frac{\sum_{i=1}^n(x_i-\bar{x})^2}{\frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2} \right] = \frac{n}{n} = 1.$$

# 3. Влияние на коээфициенты моделей

## *Линейная регрессия*

### **Введение**

Модель на исходнынх данных в матричных обозначениях примет вид:

$$\hat{y} = b X. \tag{3.1}$$

Где:
- $X$ - факторная матрица;
- $\hat{y}$ - вектор столбец предсказаний модели;
- $b$ - вектор строка оценк коэффициентов модели.

Тогда модель на стандартизированных данных примет вид:

$$\hat{y} = \tilde{b} \tilde{X}. \tag{3.2}$$

Где:
- $\tilde{X}$ - стандартизированная матрица предикоторов;
- $\tilde{b}$ - оценки коэффициентов полученные при использовании стантатицованной фактороной матрицы.

Уточним, что факторную матрицу можно переписать:
$$\tilde{X} = \left(\begin{array}\\
    x_{11}/\sigma_{x_1}&x_{12}/\sigma_{x_2} & \cdots & x_{1p}/\sigma_{x_p}\\
    x_{21}/\sigma_{x_1}&x_{22}/\sigma_{x_2} & \cdots & x_{2p}/\sigma_{x_p}\\
    \vdots & \vdots & \ddots & \vdots\\
    x_{n1}/\sigma_{x_1}&x_{n2}/\sigma_{x_2} & \cdots & x_{np}/\sigma_{x_p}\\
\end{array}\right)$$

Где:
- $p$ - число переменных модели;
- $\sigma_{x_j}$ - стандартное отклоненение $j$-й переменной.

Такая матрица раскладывается:

$$\tilde{X} = X*\Sigma'. \tag{3.3}$$

Где:
- $\Sigma' = diag(1/\sigma_{x_1}, 1/\sigma_{x_2}, \cdots, 1/\sigma_{x_p})$.

### **Влияние стандартизации на коэффициенты**

#### *Теория*

Теоритически можно доказать, что предсказания линейной регрессии на исходных данных и на стандартизированных данных не отличаются. Далее представлено доказательсво.

Предсзакания модели $(3.1)$ для $i$-го наблюдения формируются так:

$$\hat{y}_i = \sum_{j=1}^p b_jx_{ij}$$

А модели $(3.2)$:

$$\hat{y}_i = \sum_{j=1}^p \tilde{b}_j\tilde{x}_{ij}$$

Главный вопрос этого раздела, `дают ли эти две модели одинаковое предсказание`? Поработаем с последним выражением:

$$\hat{y}_i = \sum_{j=1}^p \tilde{b}_j \frac{x_{ij}}{\sigma_j}.$$

Таким образом, если $b_j = \tilde{b}_j/\sigma_j, \forall j$ - то получается, что предсказания моделей одинаковые. Покажем это.

Для нахождения коэффициентов в $(2.1)$ можно воспользоваться матричной формулой:

$$b=\left[X^TX\right]^{-1}X^TY\tag{3.4}$$

Для нахождения коэффициентов в $(2.2)$ можно воспользоваться формулой:

$$\tilde{b}=\left[\tilde{X}^T\tilde{X}\right]^{-1}\tilde{X}^TY$$

Используя $(3.3)$:

$$\tilde{b} = 
\left[\left(X\Sigma'\right)^T\left(X\Sigma'\right)\right]^{-1}\left(X\Sigma'\right)^TY
=\left[\Sigma^TX^TX\Sigma'\right]^{-1}\Sigma'^TX^TY$$

Далее используя свойсва обращения произведения $(AB)^{-1} = B^{-1}A^{-1}$:

$$\tilde{b} = \left[X^TX\Sigma'\right]^{-1}\left[\Sigma^T\right]^{-1}\Sigma'^TX^TY$$

$$\tilde{b}=\Sigma'^{-1}\left[X^TX\right]^{-1}X^TY$$

Тогда:

$$\Sigma'\tilde{b} = \left[X^TX\right]^{-1}X^TY$$

Подставляя $(3.4)$ получим, что:

$$\Sigma'^{-1}\tilde{b}=b.$$

Расписывая выражение подробнее:

$$\left(\begin{array}\\
    1/\sigma_1 & 0 & \cdots & 0 \\
    0 & 1/\sigma_2 & \cdots & 0 \\
    \vdots & \vdots & \ddots & \vdots \\
    0 & 0 & \cdots & 1/\sigma_p
\end{array}\right)
\left(\begin{array}\\
    \tilde{b}_1 \\
    \tilde{b}_2 \\
    \vdots \\
    \tilde{b}_p
\end{array}\right) = 
\left(\begin{array}\\
    b_1 \\
    b_2 \\
    \vdots \\
    b_p
\end{array}\right)
$$

От куда следует, что:

$$
\left(\begin{array}\\
    \tilde{b}_1/\sigma_1 \\
    \tilde{b}_2/\sigma_2 \\
    \vdots \\
    \tilde{b}_p/\sigma_p
\end{array}\right) = 
\left(\begin{array}\\
    b_1 \\
    b_2 \\
    \vdots \\
    b_p
\end{array}\right)
$$

Тогда $b_j = \tilde{b}_j/\sigma_j, \forall j$, что и требовалось доказать $\boxtimes$.

#### *Численный эксперимент*

Однако, на числах, рассуждения, представленные выше, не выполняются. Далее представлен эксперимент это подтверждающий.

Формирование данных.

In [2]:
n = 200
np.random.seed(15)

x = pd.DataFrame({
    "x1":np.random.normal(0, 0.3, n),
    "x2":np.random.normal(0, 3, n)
})

y = x["x1"]*3 + x["x2"]*2 + (np.random.rand(n)-0.5) + 3

Коэффициенты на исходных данных примут вид:

In [5]:
basic_model = LinearRegression(fit_intercept = False).fit(
    add_constant(x), y)
basic_model.coef_

array([2.95566332, 3.13373587, 2.00359775])

Коэффициент при использованнии стандатризированных данных примет вид:

In [6]:
# стандартизованная модель
x_stand = (x-x.mean())/np.std(x)

stand_model = LinearRegression(fit_intercept = False).fit(
    add_constant(x_stand), y
)

stand_model.coef_

array([2.60710742, 0.95731566, 5.8421477 ])

Или, приводя коэффициент к использованию на исходных данных.

In [7]:
stand_model.coef_/np.concatenate([[1], x.std().to_numpy()])

array([2.60710742, 3.12589172, 1.99858248])

**Как видно, коэффициенты на стандартизорованных данных достаточно заметно отличаются от коэффициентов на исходных данных.** Следовательно и предсказания должны отличаться в чем мы удостоверимся.

In [45]:
pd.set_option("display.precision", 50)
pred_df = pd.DataFrame({
    "basic predict" : basic_model.predict(add_constant(x)),
    "stand predict" : stand_model.predict(add_constant(x_stand))
})

pred_df

Unnamed: 0,basic predict,stand predict
0,3.53475496739942940394030301831662654876708984...,3.53475496739942940394030301831662654876708984...
1,-0.47040250288071661088906694203615188598632812...,-0.47040250288071527862143739184830337762832641...
2,1.19065003861016061037503277475479990243911743...,1.19065003861016149855345247488003224134445190...
3,-5.00032926914154529640654800459742546081542968...,-5.00032926914154263187128890422172844409942626...
4,7.54930929882019441379270574543625116348266601...,7.54930929882019441379270574543625116348266601...
...,...,...
195,5.73269150865232113289948756573721766471862792...,5.73269150865232024472106786561198532581329345...
196,-2.20031285504599605218345459434203803539276123...,-2.20031285504599383173740534402895718812942504...
197,-4.44552414243254645498382160440087318420410156...,-4.44552414243254467862698220415040850639343261...
198,2.16478039072416539312371241976507008075714111...,2.16478039072416583721292226982768625020980834...


**Но оказалось, предсказания почити отличаются - различие в рамках погрешности!!!**

Появлялась мысль, что данное различие обусровлено особенностями `sklearn`. Но при использовании формул привычной матричной алгебры, результат тот-же самый.

Обычные данные

In [10]:
np_y = y.to_numpy().reshape([n,1])
np_x = add_constant(x).to_numpy()
np.dot(
    np.linalg.inv(
        np.dot(np.transpose(np_x), np_x)
    ),
    np.dot(np.transpose(np_x), np_y)
).ravel()

array([2.95566332, 3.13373587, 2.00359775])

Стандартизированные данные

In [13]:
np_x_stand = add_constant(x_stand).to_numpy()
np.dot(
    np.linalg.inv(
        np.dot(np.transpose(np_x_stand), np_x_stand)
    ),
    np.dot(np.transpose(np_x_stand), np_y)
).ravel()

array([2.60710742, 0.95731566, 5.8421477 ])

# 4. Направления развития

Очевидно, я не до конца раскрыл свойства этого преобразования, потому намечу возможные направления развития этого notebook:

- Изучить свойсва целевых функций в задачах оптимизации при подборе коэффициентов для стандартизованных и не стандартизованных данных для раздела 3;
- Рассмотреть как стандартизация влияет на модели других идентификационных форм.