**Процедура стандартизации данных**

In [1]:
import numpy as np

import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

# Определение

Пусть имеется множество измерений определенного признака $x_i, i=\overline{1,n}$. Тогда стандартизацией такого ряда называется преобразование по формуле:

$$\tilde{x}_{i} = \frac{x_{i} - \bar{x}}{\sigma_x}. \tag{1}$$

Где:
- $\bar{x}$ - среднее арифметческое рассматртваемого ряда;
- $\sigma_x$ - стандартное отклонение.

Получется, что выражение $(1)$ может быть переписано следующим образом:

$$\tilde{x}_{i} = \frac{x_{i} - \bar{x}}{\sqrt{\frac{1}{n} \sum_{i=1}^n(x_i - \bar{x})^2}}. \tag{2}$$

Иногда предпочитают не отнимать среднее арифметическое в числителе, тогда формула $(1)$ принимает вид:

$$\tilde{x}_i  = \frac{x_i}{\sigma}. \tag{3}$$

# Свойсва результата

Величина получаемая в результате применения формулы $(1)$ получает следующие свойсва:

1. **Среднее артиaметисеское результата равняется нулю:**

$$\frac{\sum_{i=1}^n\tilde{x_i}}{n} = \frac{1}{n}\sum_{i=1}^n \frac{x_i - \bar{x}}{\sigma} = \frac{1}{n\sigma}\left[\sum_{i=1}^n x_i - \sum_{i=1}^n\bar{x}\right] = \frac{1}{n\sigma}\left[\sum_{i=1}^n x_i - n\bar{x} \right] =
\frac{1}{n\sigma}\left[ \sum_{i=1}^n x_i - n \sum_{i=1}^n\frac{x_i}{n} \right] = 0.$$

2. **Стандаратное отклонение равняется единице:**

Запишем стандартное отлонение $\tilde{x}_i$:

$$\sum_{i=1}^n \frac{\tilde{x}_i - \bar{\tilde{x}}_i}{n}$$

Но читвая результаты пункта 1 ($\bar{\tilde{x}}_i = 0$), получаем:


$$\sum_{i=1}^n \frac{\tilde{x}_i}{n} = 
\frac{1}{n}\sum_{i=1}^n\left[ \frac{x_i-\bar{x}}{\sqrt{\frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2}} \right]^2 = 
\frac{1}{n}\sum_{i=1}^n\left[ \frac{(x_i-\bar{x})^2}{\frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2} \right] = 
\frac{1}{n}\left[ \frac{\sum_{i=1}^n(x_i-\bar{x})^2}{\frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2} \right] = \frac{n}{n} = 1.$$

# Влияние на коээфициенты моделей

Рассмотрим линейную регрессию с одной объясняющей переменной.

Модель на исходных данных примет вид:

$$\hat{y}_i = b + ax_i$$

$$\tilde{x_i}\tilde{b}$$

Рассмотрим линейную взаимосвязь без свободного члена.

In [2]:
n = 200
np.random.seed(15)

x = np.random.normal(0 , 0.3 , n)
y = x*3 + (np.random.rand(n)-0.5) + 3

Коэффициент при использовании исходных данных примет вид:

In [3]:
# базовая модель
basic_model = LinearRegression().fit(x.reshape([n,1]), y)

basic_model.coef_

array([3.10599648])

Коэффициент при использованнии стандатризированных данных примет вид:

In [4]:
# стандартизованная модель
x_stand = (x-np.mean(x))/np.std(x)

stand_model = LinearRegression().fit(x_stand.reshape([n,1]), y)

stand_model.coef_

array([0.94884164])

Или, приводя коэффициент к использованию на исходных данных.

In [5]:
stand_model.coef_/np.std(x)

array([3.10599648])

Коэффициенты очень близки!