
## Feature Scaling and Normalization
- 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업을 **피처 스케일링**
- 피처 스케일링 대표적인 방법 **표준화**, **정규화**<br>
<br>
- 표준화(Standardization)
    x(new) = x-mean(x) / std(x)

- 정규화(Normalization)
    x(new) = x-min(x) / max(x)-min(x)
    
- 사이킷런 정규화
    x(new) = x / np.root(x^2 + y^2 + z^2)

## StandardScaler
- 개별 피처를 평균이 0이고 분산이 1인 값으로 변환 : **가우시안 정규 분포**
- 가우시안 정규 분포 변환은 여러 알고리즘에 중요<br>
    예) RBF커널을 이용하는 SVM<Br>
    예) 선형회귀, 로지스틱회귀

In [1]:
from sklearn.datasets import load_iris
import pandas as pd

# iris 데이터 세트를 로딩하고 DF로 변환
iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)

print('feature들의 평균값')
print(iris_df.mean())
print('\nfeature들의 분산값')
print(iris_df.var())

feature들의 평균값
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

feature들의 분산값
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [3]:
# StandardScaler 이용하여 한번에 표준화 변환

from sklearn.preprocessing import StandardScaler

# StandardScaler 객체 생성
scaler = StandardScaler()
# StandardScaler로 데이터 세트 변환.
# fit(), transform()호출
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)
#print(iris_scaled)

# transform() 시 스케일 변환된 데이터 세트가 Numpy, ndarray로 반환돼 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
print('feature들의 평균값')
print(iris_df_scaled.mean())
print('\nfeature들의 분산값')
print(iris_df_scaled.var())

feature들의 평균값
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

feature들의 분산값
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


## MinMaxScaler
- 데이터값을 0~1사이의 범위 값으로 변환(음수값이 있으면 -1 ~ 1)
- 데이터의 분포가 가우시안 분포가 아닐 경우 Min, Max scale로 적용

In [4]:
from sklearn.preprocessing import MinMaxScaler

# MinMaxScaler객체 생성
scaler = MinMaxScaler()
# MinMaxScaler로 데이터 세트 변환.
# fit(), transform() 호출
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

# transform() 시 스케일 변환된 데이터 세트가 Numpy, ndarray로 반환돼 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
print('feature들의 최솟값')
print(iris_df_scaled.min())
print('\nfeature들의 최댓값')
print(iris_df_scaled.max())

feature들의 최솟값
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

feature들의 최댓값
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64
