# 피쳐 스케일링과 정규화

서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업을 피처 스케일링이라고 합니다.

대표적인 방법으로 표준화와 정규화가 있습니다.

사이킷런의 전처리에서 제공하는 Normalizer 모듈과 일반적인 정규화는 약간의 차이가 있습니다. 개별 벡터를 모든 피처 벡터의 ㅋ크기로 나눠줍니다.

## StandardScaler 

개별 피처를 평균이 0이고 분산이 1인 값으로 변환해줍니다.

In [1]:
from sklearn.datasets import load_iris
import pandas as pd

In [3]:
iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(iris_data, columns=iris.feature_names)

In [4]:
print('feature 들의 평균 값')
print(iris_df.mean())
print("\nfeature들의 분산값")
print(iris_df.var())

feature 들의 평균 값
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

feature들의 분산값
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [5]:
from sklearn.preprocessing import StandardScaler

### StandardScaler  객체 생성 

In [6]:
scaler = StandardScaler()

### StandardScaler로 데이터 세트 변환. fit()과 transform() 호출 

In [7]:
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

### transform() 시 스케일 변환된 데이터 세트가 ndarry로 반환돼 이를 Dataframe으로 변환 

In [8]:
iris_df_scaled = pd.DataFrame(iris_scaled, columns=iris.feature_names)

In [9]:
print('feature 들의 평균 값')
print(iris_df_scaled.mean())
print("\nfeature들의 분산값")
print(iris_df_scaled.var())

feature 들의 평균 값
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

feature들의 분산값
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


모든 칼럼 값의 평균이 0에 아주 가까운 값으로, 그리고 분산은 1에 아주 가까운 값으로 변환됐음을 알 수 있습니다.

## MinMaxScaler 

MinMaxScaler는 데이터값을 0과 1사이의 범위 값으로 변환합니다. (음수값이 있으면 -1에서 1)

데이터의 분포가 가우시안 분포가 아닐 경우에 적용해 볼 수 있습니다.

In [10]:
from sklearn.preprocessing import MinMaxScaler

### MinMaxScaler 객체 생성 

In [11]:
scaler = MinMaxScaler()

### MinMaxScaler로 데이터 세트 변환. fit()과 transform() 호출 

In [12]:
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

### Dataframe 변환 

In [13]:
iris_df_scaled = pd.DataFrame(iris_scaled, columns=iris.feature_names)

In [14]:
print('feature 들의 최솟값')
print(iris_df_scaled.min())
print("\nfeature들의 최댓값")
print(iris_df_scaled.max())

feature 들의 최솟값
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

feature들의 최댓값
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


모든 피처에 0에서 1 사이의 값으로 변환되는 스케일링이 적용됐음을 알 수 있습니다.

## 학습 데이터와 테스트 데이터의 스케일링 변환 시 유의점 

In [15]:
from sklearn.preprocessing import MinMaxScaler
import numpy as np

### 학습 데이터는 0부터 10까지, 테스트 데이터는 0부터 5까지 값을 가지는 데이터 세트로 생성

### Scaler 클래스의 fit(), transform()은 2차원 이상 데이터만 가능하므로 차원 변경 

In [16]:
train_array = np.arange(0, 11).reshape(-1, 1)
test_array = np.arange(0, 6).reshape(-1, 1)

### MinMaxScaler 객체에 별도의 feature_range 값을 지정하지 않으면 0~1 값으로 변환 

In [17]:
scaler = MinMaxScaler()

### fit()하게 되면 train_array 데이터의 최솟값이 0, 최댓값이 10으로 설정

In [18]:
scaler.fit(train_array)

MinMaxScaler()

### 1/10 scale로 train_array 데이터 변환. 원본 10 -> 1로 변환됨

In [19]:
train_scaled = scaler.transform(train_array)

In [21]:
print('원본 train_array 데이터:', np.round(train_array.reshape(-1), 2))
print('Scale된 train_array 데이터:', np.round(train_scaled.reshape(-1), 2))

원본 train_array 데이터: [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


### MinMaxScaler에 test_array를 fit()하게 되면 원본 데이터의 최솟값이 0, 최댓값이 5로 설정됨 

In [22]:
scaler.fit(test_array)

MinMaxScaler()

### 1/5 scale로 test_array 데이터 변환. 원본 5->1로 변환 

In [23]:
test_scaled = scaler.transform(test_array)

### test_array의 scale 변환 출력 

In [24]:
print('원본 test_array 데이터:', np.round(test_array.reshape(-1), 2))
print('Scale된 test_array 데이터:', np.round(test_scaled.reshape(-1), 2))

원본 test_array 데이터: [0 1 2 3 4 5]
Scale된 test_array 데이터: [0.  0.2 0.4 0.6 0.8 1. ]


학습 데이터에서 10이 1로 변환되고, 테스트 데이터의 5가 1로 변환됐습니다. 서로 다른 원본 값이 동일한 값으로 변환된 결과를 가져오게 됩니다.

머신러닝 모델은 학습 데이터를 기반으로 학습되기 때문에 반드시 테스트 데이터는 학습 데이터의 스케일링 기준에 따라야 하며, 테스트 데이터의 1 값은 학습 데이터와 동일하게 0.1 값으로 변환돼야 합니다.

따라서 테스트 데이터에 다시 fit()을 적용해서는 안 되며 학습 데이터로 이미 fit()이 적용된 Scaler 객체를 이용해 transform()으로 변환해야 합니다.

In [25]:
scaler = MinMaxScaler()

In [26]:
scaler.fit(train_array)

MinMaxScaler()

In [27]:
train_scaled = scaler.transform(train_array)

In [21]:
print('원본 train_array 데이터:', np.round(train_array.reshape(-1), 2))
print('Scale된 train_array 데이터:', np.round(train_scaled.reshape(-1), 2))

원본 train_array 데이터: [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


### test_array에 Scale 변환을 할 때는 반드시 fit()을 호출하지 않고 transform()만으로 변환해야함. 

In [28]:
test_scaled = scaler.transform(test_array)

In [29]:
print('원본 test_array 데이터:', np.round(test_array.reshape(-1), 2))
print('Scale된 test_array 데이터:', np.round(test_scaled.reshape(-1), 2))

원본 test_array 데이터: [0 1 2 3 4 5]
Scale된 test_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5]


학습 데이터, 테스트 데이터 모두 동일하게 1/10 수준으로 스케일링됐습니다.