## 데이터 표준화, 정규화
sklearn에서는 다양한 종류의 스케일러를 제공함 

* <b>데이터 변환이 필요한 이유 </b>
- 데이터의 단위와 평균과 표준편차가 모두 다르다면, 우리가 학습시키는 머신이 그 단위를 인지하지 못함 
- 즉, 우리는 머신에 학습을 시킬 때, 유사한 단위를 맞춰 줘야 합니다. 
- 또한 통계는 표본집단의 평균과 분산으로 모집단의 분산을 설명하는 학문인데, 차원마다 범위가 다르면, 스케일이 큰 집단의 영향을 많이 받습니다. 그렇기 때문에 차원의 스케일을 맞춰줄 필요가 있습니다. 

In [4]:
import pandas as pd 
import numpy as np 


### StandardScaler	
* 기본 스케일. 평균과 표준편차 사용 
* 평균을 0, 분산을 1로 모든 데이터를 변환하는 방법 

      z = (x - u) / s
    
      from sklearn.preprocessing import StandardScaler
      scaler = StandardScaler()
      scaler.fit(data) : 모델 학습 

In [5]:
from sklearn.preprocessing import StandardScaler
data = [[0, 0], [0, 0], [1, 1], [1, 1]]
scaler = StandardScaler()

print(scaler.fit(data))

StandardScaler()


In [6]:
print(scaler.mean_)

[0.5 0.5]


In [7]:
scaler.var_

array([0.25, 0.25])

In [8]:
print(scaler.transform(data))

[[-1. -1.]
 [-1. -1.]
 [ 1.  1.]
 [ 1.  1.]]


In [9]:
print(scaler.transform([[2, 2]]))

[[3. 3.]]


In [10]:
import pandas as pd 
df_iris = pd.read_csv("../../data/iris.csv")

In [11]:
scaler = StandardScaler()

In [12]:
df_iris

Unnamed: 0,sepal length,sepal width,petal length,petal width,target
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [13]:
scaler.fit(df_iris.iloc[:,0:4])

StandardScaler()

In [14]:
scaler.mean_

array([5.84333333, 3.054     , 3.75866667, 1.19866667])

In [14]:
scaler.var_

array([0.68112222, 0.18675067, 3.09242489, 0.57853156])

In [15]:
scaler.transform(df_iris.iloc[:,0:4])

array([[-9.00681170e-01,  1.03205722e+00, -1.34127240e+00,
        -1.31297673e+00],
       [-1.14301691e+00, -1.24957601e-01, -1.34127240e+00,
        -1.31297673e+00],
       [-1.38535265e+00,  3.37848329e-01, -1.39813811e+00,
        -1.31297673e+00],
       [-1.50652052e+00,  1.06445364e-01, -1.28440670e+00,
        -1.31297673e+00],
       [-1.02184904e+00,  1.26346019e+00, -1.34127240e+00,
        -1.31297673e+00],
       [-5.37177559e-01,  1.95766909e+00, -1.17067529e+00,
        -1.05003079e+00],
       [-1.50652052e+00,  8.00654259e-01, -1.34127240e+00,
        -1.18150376e+00],
       [-1.02184904e+00,  8.00654259e-01, -1.28440670e+00,
        -1.31297673e+00],
       [-1.74885626e+00, -3.56360566e-01, -1.34127240e+00,
        -1.31297673e+00],
       [-1.14301691e+00,  1.06445364e-01, -1.28440670e+00,
        -1.44444970e+00],
       [-5.37177559e-01,  1.49486315e+00, -1.28440670e+00,
        -1.31297673e+00],
       [-1.26418478e+00,  8.00654259e-01, -1.22754100e+00,
      

In [16]:
pd.DataFrame(scaler.transform(df_iris.iloc[:,0:4]),columns=df_iris.columns[0:4]+"_scaled")

Unnamed: 0,sepal length_scaled,sepal width_scaled,petal length_scaled,petal width_scaled
0,-0.900681,1.032057,-1.341272,-1.312977
1,-1.143017,-0.124958,-1.341272,-1.312977
2,-1.385353,0.337848,-1.398138,-1.312977
3,-1.506521,0.106445,-1.284407,-1.312977
4,-1.021849,1.263460,-1.341272,-1.312977
...,...,...,...,...
145,1.038005,-0.124958,0.819624,1.447956
146,0.553333,-1.281972,0.705893,0.922064
147,0.795669,-0.124958,0.819624,1.053537
148,0.432165,0.800654,0.933356,1.447956



### MinMaxScaler	
* 최대/최소값이 각각 1, 0이 되도록 스케일링
      
      X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
      X_scaled = X_std * (max - min) + min
      
      sklearn.preprocessing.MinMaxScaler(feature_range=(0, 1), *, copy=True, clip=False)
    


In [17]:
from sklearn.preprocessing import MinMaxScaler
data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]
scaler = MinMaxScaler()
print(scaler.fit(data))

print(scaler.data_max_)

MinMaxScaler()
[ 1. 18.]


In [18]:
scaler.data_min_

array([-1.,  2.])

In [19]:
print(scaler.transform(data))

[[0.   0.  ]
 [0.25 0.25]
 [0.5  0.5 ]
 [1.   1.  ]]


In [20]:
scaler = MinMaxScaler()
print(scaler.fit(df_iris.iloc[:,0:4]))


MinMaxScaler()


In [21]:
scaler.data_min_

array([4.3, 2. , 1. , 0.1])

In [22]:
scaler.data_max_

array([7.9, 4.4, 6.9, 2.5])

In [23]:
scaler.transform(df_iris.iloc[:,0:4])

array([[0.22222222, 0.625     , 0.06779661, 0.04166667],
       [0.16666667, 0.41666667, 0.06779661, 0.04166667],
       [0.11111111, 0.5       , 0.05084746, 0.04166667],
       [0.08333333, 0.45833333, 0.08474576, 0.04166667],
       [0.19444444, 0.66666667, 0.06779661, 0.04166667],
       [0.30555556, 0.79166667, 0.11864407, 0.125     ],
       [0.08333333, 0.58333333, 0.06779661, 0.08333333],
       [0.19444444, 0.58333333, 0.08474576, 0.04166667],
       [0.02777778, 0.375     , 0.06779661, 0.04166667],
       [0.16666667, 0.45833333, 0.08474576, 0.        ],
       [0.30555556, 0.70833333, 0.08474576, 0.04166667],
       [0.13888889, 0.58333333, 0.10169492, 0.04166667],
       [0.13888889, 0.41666667, 0.06779661, 0.        ],
       [0.        , 0.41666667, 0.01694915, 0.        ],
       [0.41666667, 0.83333333, 0.03389831, 0.04166667],
       [0.38888889, 1.        , 0.08474576, 0.125     ],
       [0.30555556, 0.79166667, 0.05084746, 0.125     ],
       [0.22222222, 0.625     ,

In [26]:
## model에 fit 된 데이터를 기반으로 학습되며, 추가 데이터에는 비율이 적용됨 
print(scaler.transform([[2, 2,40,450]]))

[[ -0.63888889   0.           6.61016949 187.45833333]]


In [27]:
scaler.fit_transform(df_iris.iloc[:,0:4])

array([[0.22222222, 0.625     , 0.06779661, 0.04166667],
       [0.16666667, 0.41666667, 0.06779661, 0.04166667],
       [0.11111111, 0.5       , 0.05084746, 0.04166667],
       [0.08333333, 0.45833333, 0.08474576, 0.04166667],
       [0.19444444, 0.66666667, 0.06779661, 0.04166667],
       [0.30555556, 0.79166667, 0.11864407, 0.125     ],
       [0.08333333, 0.58333333, 0.06779661, 0.08333333],
       [0.19444444, 0.58333333, 0.08474576, 0.04166667],
       [0.02777778, 0.375     , 0.06779661, 0.04166667],
       [0.16666667, 0.45833333, 0.08474576, 0.        ],
       [0.30555556, 0.70833333, 0.08474576, 0.04166667],
       [0.13888889, 0.58333333, 0.10169492, 0.04166667],
       [0.13888889, 0.41666667, 0.06779661, 0.        ],
       [0.        , 0.41666667, 0.01694915, 0.        ],
       [0.41666667, 0.83333333, 0.03389831, 0.04166667],
       [0.38888889, 1.        , 0.08474576, 0.125     ],
       [0.30555556, 0.79166667, 0.05084746, 0.125     ],
       [0.22222222, 0.625     ,

### MaxAbsScaler	
* 이 추정기는 훈련 세트에 있는 각 기능의 최대 절대값이 1이 되도록 각 기능을 개별적으로 확장하고 변환합니다. 데이터를 이동/중앙에 배치하지 않으므로 희소성을 파괴하지 않습니다.

      class sklearn.preprocessing.MaxAbsScaler(*, copy=True)

In [6]:
from sklearn.preprocessing import MaxAbsScaler
X = [[ 1., -1.,  2.],
     [ 2.,  0.,  0.],
     [ 0.,  1., -1.]]
transformer = MaxAbsScaler().fit(X)
transformer
MaxAbsScaler()
transformer.transform(X)


array([[ 0.5, -1. ,  1. ],
       [ 1. ,  0. ,  0. ],
       [ 0. ,  1. , -0.5]])

### RobustScaler	
* 중앙값(median)과 IQR(interquartile range) 사용. 아웃라이어의 영향을 최소화
* 이상값에 대해 강력한 통계를 사용하여 기능을 확장합니다.
* 이 스케일러는 중앙값을 제거하고 분위수 범위(기본값은 IQR: 사분위수 범위)에 따라 데이터를 조정합니다. 
* IQR은 1사분위수(25분위수)와 3사분위수(75분위수) 사이의 범위입니다.


* 데이터 세트의 표준화는 많은 기계 학습 추정기의 공통 요구 사항입니다. 일반적으로 이것은 평균을 제거하고 단위 분산으로 스케일링하여 수행됩니다. 그러나 이상치는 종종 표본 평균/분산에 부정적인 영향을 미칠 수 있습니다. 이러한 경우 중앙값과 사분위수 범위가 더 나은 결과를 제공하는 경우가 많습니다.

In [23]:
from sklearn.preprocessing import RobustScaler
X = [[ 1., -2.,  2.],
    [ -2.,  1.,  3.],
    [ 4.,  1., -2.]]
transformer = RobustScaler().fit(X)
transformer

RobustScaler()

In [24]:
transformer.transform(X)

array([[ 0. , -2. ,  0. ],
       [-1. ,  0. ,  0.4],
       [ 1. ,  0. , -1.6]])