## NORMALIZE DATA

Количественные данные что-то измеряют – будь то размер класса,
ежемесячные продажи или оценки учащихся. Естественным способом
представления этих величин является численным (например, 150 студентов,
$529 392 продаж).

Нормализация данных — это общепринятая задача предобработки в
машинном обучении. Многие алгоритмы предполагают, что все признаки
находятся в единой шкале, как правило, от 0 до 1 или от -1 до 1.

Существует множество способов нормализации значений признаков,
чтобы масштабировать их к единому диапазону и использовать в различных
моделях машинного обучения. В зависимости от используемой функции, их
можно разделить на 2 большие группы: линейные и нелинейные. При
нелинейной нормализации в расчетных соотношениях используются
функции логистической сигмоиды или гиперболического тангенса. В
линейной нормализации изменение переменных осуществляется
пропорционально, по линейному закону.

На практике наиболее распространены следующие методы
нормализации признаков:

Минимакс – линейное преобразование данных в диапазоне [0..1], где
минимальное и максимальное масштабируемые значения соответствуют 0 и 1 соответственно; 

x_norm = (X-Xmin)/(Xmax-Xmin)

Z-масштабирование данных на основе среднего значения и
стандартного отклонения: производят деление разницы между
переменной и средним значением на стандартное отклонение. 

z = (x-μ)/σ

https://pythonist.ru/normalizacziya-dannyh-v-python/

https://habr.com/ru/articles/527334/

In [20]:
import numpy as np
from sklearn import preprocessing
import pandas as pd

In [7]:
# признак
feature = np.array([[-500.5], [-100.1], [0], [100.1], [900.9]])
# shkalirovshik
minmax_scale = preprocessing.MinMaxScaler(feature_range = (0,1))
# scale feature 
scaled_feature = minmax_scale.fit_transform(feature)
# show scaled feature
scaled_feature

array([[0.        ],
       [0.28571429],
       [0.35714286],
       [0.42857143],
       [1.        ]])

In [16]:
x = np.array([[-1000.1], [-200.2], [500.5], [600.6], [9000.9]])
scaler = preprocessing.StandardScaler()
standard = scaler.fit_transform(x)
print(standard)
print(standard.mean())
print(round(standard.mean())) # среднее
print(standard.std()) # стандартное отклонение

[[-0.76058269]
 [-0.54177196]
 [-0.35009716]
 [-0.32271504]
 [ 1.97516685]]
4.4408920985006264e-17
0
1.0


In [27]:
scaler = preprocessing.MinMaxScaler()
dfTest = pd.DataFrame({'A':[14.00,90.20,90.95,96.27,91.21],
'B':[103.02,107.26,110.35,114.23,114.68],
'C':['big','small','big','small','small']})
dfTest[['A','B']] = scaler.fit_transform(dfTest[['A','B']])
dfTest

Unnamed: 0,A,B,C
0,0.0,0.0,big
1,0.926219,0.363636,small
2,0.935335,0.628645,big
3,1.0,0.961407,small
4,0.938495,1.0,small


In [61]:
# 3.3.2
url = "https://raw.githubusercontent.com/akmand/datasets/master/iris.csv"
df = pd.read_csv(url)

In [62]:
# min max
scaler1 = preprocessing.MinMaxScaler(feature_range = (0,1))
scaled_feature1 = scaler1.fit_transform(df[["sepal_length_cm"]])
print(scaled_feature1)

[[0.22222222]
 [0.16666667]
 [0.11111111]
 [0.08333333]
 [0.19444444]
 [0.30555556]
 [0.08333333]
 [0.19444444]
 [0.02777778]
 [0.16666667]
 [0.30555556]
 [0.13888889]
 [0.13888889]
 [0.        ]
 [0.41666667]
 [0.38888889]
 [0.30555556]
 [0.22222222]
 [0.38888889]
 [0.22222222]
 [0.30555556]
 [0.22222222]
 [0.08333333]
 [0.22222222]
 [0.13888889]
 [0.19444444]
 [0.19444444]
 [0.25      ]
 [0.25      ]
 [0.11111111]
 [0.13888889]
 [0.30555556]
 [0.25      ]
 [0.33333333]
 [0.16666667]
 [0.19444444]
 [0.33333333]
 [0.16666667]
 [0.02777778]
 [0.22222222]
 [0.19444444]
 [0.05555556]
 [0.02777778]
 [0.19444444]
 [0.22222222]
 [0.13888889]
 [0.22222222]
 [0.08333333]
 [0.27777778]
 [0.19444444]
 [0.75      ]
 [0.58333333]
 [0.72222222]
 [0.33333333]
 [0.61111111]
 [0.38888889]
 [0.55555556]
 [0.16666667]
 [0.63888889]
 [0.25      ]
 [0.19444444]
 [0.44444444]
 [0.47222222]
 [0.5       ]
 [0.36111111]
 [0.66666667]
 [0.36111111]
 [0.41666667]
 [0.52777778]
 [0.36111111]
 [0.44444444]
 [0.5 

In [63]:
# Z масштабирование
ndf = df["sepal_width_cm"]
print(ndf.mean()) # cреднее значение
print(ndf.std()) # стандартное отклонение 
res = (ndf - ndf.mean()) / ndf.std()
print(res)

3.0540000000000003
0.4335943113621737
0      1.028611
1     -0.124540
2      0.336720
3      0.106090
4      1.259242
         ...   
145   -0.124540
146   -1.277692
147   -0.124540
148    0.797981
149   -0.124540
Name: sepal_width_cm, Length: 150, dtype: float64
