# 피처 스케일링
> 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업
* 표준화(Standardization) : 데이터의 피처 각각의 평균이 0이고 분산이 1인 가우시안 정규 분포를 가진 값으로 변환하는 것
* 정규화(Normalization) : 서로 다른 피처의 크기를 통일하기 위해 크기를 변환해 주는 것

## 1. StandardScaler


> StandardScaler는 표준화를 쉽게 해주는 클래스이다. 이 클래스를 사용하는 목적은 서포트 벡터 머신(Suppert Vector Machine), 선형 회귀(Linear Regression), 로지스틱 회귀(Logistic Regression) 알고리즘은 가우시안 분포를 가지고 있다는 가정하에 구현되었기 때문에 사전에 표준화를 적용하는 것은 예측 성능 향상에 중요한 요소가 될 수 있다.

## 1.1 가우시안 분포

> 정규분포(正規分布)라고도 한다. 연속 확률 분포의 하나로 평균과 표준편차라는 두 가지의 매개 변수를 통해 모양이 정해지며, 대개는 도수 분포 곡선이 평균점을 중심으로 좌우 대칭인 종 모양을 나타낸다. 독일의 수학자이자 물리학자, 천문학자였던 가우스(Karl Friedrich Gauss)가 측정 오차의 분포를 나타내는 데 대한 중요성을 강조하였기 때문에 이를 가우스 분포라고 한다.

## 1.2 붓꽃 데이터 평균 및 분산

In [2]:
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()
iris_df = pd.DataFrame(iris.data, columns=iris.feature_names)

In [3]:
print('평균 ')
print(iris_df.mean())
print('\n분산')
print(iris_df.var())

평균 
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

분산
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


> 붓꽃 정보를 읽어 들여 평균과 분산을 확인해 보면 위와 같이 나타난다.

>데이터의 크기가 크면 클수록 하드웨어 적인 자원(RAM, register, CPU 등)을 많이 사용해야 함으로 처리 속도가 느려지게 된다. 따라서 수치를 작게 표현하게 되면 이러한 문제를 해결할 수 있다.

## 1.3 StandardScaler를 이용한 표준화

In [4]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)
iris_scaled[:5]

array([[-0.90068117,  1.01900435, -1.34022653, -1.3154443 ],
       [-1.14301691, -0.13197948, -1.34022653, -1.3154443 ],
       [-1.38535265,  0.32841405, -1.39706395, -1.3154443 ],
       [-1.50652052,  0.09821729, -1.2833891 , -1.3154443 ],
       [-1.02184904,  1.24920112, -1.34022653, -1.3154443 ]])

>이 정보를 표준화 하기 위해 StandardScaler 클래스를 로드하고 fit함수를 이용하여 크기를 조절한 후 transform함수를 이용하여 데이터를 표준화 한다.

## 1.4 표준화 데이터의 평균과 분산

In [5]:
iris_df_scaled = pd.DataFrame(iris_scaled, columns=iris.feature_names)

print('평균 ')
print(iris_df_scaled.mean())
print('\n분산')
print(iris_df_scaled.var())

평균 
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

분산
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


> 표준화한 결과를 확인해 보면 평균은 0에 가까워 졌고 분산은 1에 가까워 진것을 볼 수 있다.

## 2. MinMaxScaler


> 데이터를 0 ~ 1사이의 값으로 변환한다.

## 2.1 붓꽃 데이터의 최대값, 최소값

In [6]:
print('최소 ')
print(iris_df.min())
print('\n최대')
print(iris_df.max())

최소 
sepal length (cm)    4.3
sepal width (cm)     2.0
petal length (cm)    1.0
petal width (cm)     0.1
dtype: float64

최대
sepal length (cm)    7.9
sepal width (cm)     4.4
petal length (cm)    6.9
petal width (cm)     2.5
dtype: float64


>위와 같이 최소값과 최대값을 확인해 보면 각 데이터별로 범위가 다른 것을 알 수 있다. 이런 경우 각 데이터별로 비교연산을 하게 되면 수치가 달라 문제가 발생할 수 있다.

## 2.2 MinMaxScaler를 이용한 정규화

In [7]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)
iris_scaled[:5]

array([[0.22222222, 0.625     , 0.06779661, 0.04166667],
       [0.16666667, 0.41666667, 0.06779661, 0.04166667],
       [0.11111111, 0.5       , 0.05084746, 0.04166667],
       [0.08333333, 0.45833333, 0.08474576, 0.04166667],
       [0.19444444, 0.66666667, 0.06779661, 0.04166667]])

In [8]:
iris_scaled = pd.DataFrame(iris_scaled, columns=iris.feature_names)
print('최소 ')
print(iris_scaled.min())
print('\n최대')
print(iris_scaled.max())

최소 
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

최대
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


>위처럼 간단하게 0 ~ 1사이의 값으로 변환하여 범위를 통일 하면 더 정확한 모델을 만들 수 있다.

## 3. 학습 데이터와테스트 데이터의 스케일링 변환 시 유의점


> 스케일링 변환 시 fit과 transform 함수를 이용한다. 
* fit : 데이터 변환을 위한 기준 정보 설정
* transform : 데이터 변환

## 3.1 샘플 데이터 만들기

In [9]:
import numpy as np

train_array = np.arange(0, 11).reshape(-1, 1)
test_array = np.arange(0, 6).reshape(-1, 1)

train_array, test_array

(array([[ 0],
        [ 1],
        [ 2],
        [ 3],
        [ 4],
        [ 5],
        [ 6],
        [ 7],
        [ 8],
        [ 9],
        [10]]),
 array([[0],
        [1],
        [2],
        [3],
        [4],
        [5]]))

>arange(시작값, 개수)로 train_array에 0부터 11개의 값을 만들고 reshape을 통해 1열짜리 2차원 배열을 만든다. 같은 방법으로 test_array0에 0부터 6개의 2차원 배열을 만든다. scaler 클래스의 fit과 transform 함수는 2차원 이상의 데이터만 가능하다.

## 3.2 잘못된 스케일링

In [10]:
scaler = MinMaxScaler()
scaler.fit(train_array)
train_scaled = scaler.transform(train_array)
print('원본 train_array 데이터:', np.round(train_array.reshape(-1), 2))
print('Scale된 train_array 데이터:', np.round(train_scaled.reshape(-1), 2))

원본 train_array 데이터: [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


In [11]:
scaler = MinMaxScaler()
scaler.fit(test_array)
test_scaled = scaler.transform(test_array)
print('원본 test_array 데이터:', np.round(test_array.reshape(-1), 2))
print('Scale된 test_array 데이터:', np.round(test_scaled.reshape(-1), 2))

원본 test_array 데이터: [0 1 2 3 4 5]
Scale된 test_array 데이터: [0.  0.2 0.4 0.6 0.8 1. ]


>MinMaxScaler는 수의 범위를 0 ~ 1로 표현한다. 훈련데이터는 0 ~ 10범위의 수를 표현한 것이고 테스트 데이터는 0 ~ 5를 표현한 것이다. 이렇게 표현하면 5라는 수의 의미가 훈련데이터에서는 중간값이 되지만 테스트 데이터에서는 최대값이 되어 테스트를 할 수 없게 된다. 따라서 fit은 훈련데이터에서만 진행해야 한다.

## 3.3 정상 스케일링

In [12]:
scaler = MinMaxScaler()
scaler.fit(train_array)
train_scaled = scaler.transform(train_array)
print('원본 train_array 데이터:', np.round(train_array.reshape(-1), 2))
print('Scale된 train_array 데이터:', np.round(train_scaled.reshape(-1), 2))

test_scaled = scaler.transform(test_array)
print('원본 test_array 데이터:', np.round(test_array.reshape(-1), 2))
print('Scale된 test_array 데이터:', np.round(test_scaled.reshape(-1), 2))

원본 train_array 데이터: [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]
원본 test_array 데이터: [0 1 2 3 4 5]
Scale된 test_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5]


> 위와 같이 한번만 진행하여 5의 의미가 똑같이 중간값으로 정상적인 수치가 된 것을 볼 수 있다.

> 정확히 스케일링하기 위해서는 훈련데이터와 테스트 데이터를 나누기 전 모든 데이터가 있을 때 fit을 처리한 후 훈련데이터와 테스트 데이터를 transform 해야 한다.

In [13]:
test = scaler.inverse_transform(test_scaled)
test

array([[0.],
       [1.],
       [2.],
       [3.],
       [4.],
       [5.]])