# 피처 스케일링
> 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업
 - 표준화(Standardization):데이터의 피처 각각의 평균 0이고 분산이 1인 가우시안 정규 분포를 가진 값으로 변환하는 것
 - 정규화(Normalization) : 서로 다른 피처의 크기를 통일하기 위해 크기를 변환해 주는 것

#1. StandardScaler
> StandardScaler는 표준화를 쉽게 해주는 클래스이다.
이 클래스를| 사용하는 목적은 서포트 벡터 머신(Support Vector Machine), 선형 회귀(Linear Regreesion), 로지스틱 회귀(Logistic Regresstion) 알고리즘은 가우시안 분포를 가지고 있다는 가정하에 구현되었기 떄문에 사전에 표준화를 작용하는 것이 예측 성능 향상에 중요한 요소가 될 수 있다.

In [None]:
from sklearn.datasets import load_iris
import pandas as pd 

iris = load_iris()
df_iris = pd.DataFrame(data=iris.data, columns=iris.feature_names)


print('평균')
print(df_iris.mean())
print('분산')
print(df_iris.var())

평균
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64
분산
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


>데이터의 크기가 크면 클수록 하드웨어 적인 자원(RAM,register,CPU 등)을 많이 사용해야 함으로 처리 속도가 느려지게 된다. 따라서 수치를 작게 표현하게 되면 이러한 문제를 해결할 수 있다.

In [None]:
from sklearn.preprocessing import StandardScaler

# 표준화 클래스 로드
scaler = StandardScaler()
# 표준화 클래스를 이용하여 데이터 변환 위해 구조 맞추기
scaler.fit(df_iris)
# 변경된 구조에 맞추어 데이터 변환
iris_scaled = scaler.transform(df_iris)
# 결과 확인
iris_scaled[:3]

array([[-0.90068117,  1.01900435, -1.34022653, -1.3154443 ],
       [-1.14301691, -0.13197948, -1.34022653, -1.3154443 ],
       [-1.38535265,  0.32841405, -1.39706395, -1.3154443 ]])

In [None]:
df_iris_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)


print('평균')
print(df_iris_scaled.mean())
print('분산')
print(df_iris_scaled.var())

평균
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64
분산
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


> 실행 결과 평균은 0에 가까운 수가 되고 분산은 1에 가까운 수가 된것을 확인했다. 이것을 이용하여 필요한 알고리즘에 적용하면 된다.

#2.MinMaxScaler
> 데이터를 0~1 사이의 값으로 변환한다.

In [None]:
print('최소값')
print(df_iris.min())
print('최대값')
print(df_iris.max())

최소값
sepal length (cm)    4.3
sepal width (cm)     2.0
petal length (cm)    1.0
petal width (cm)     0.1
dtype: float64
최대값
sepal length (cm)    7.9
sepal width (cm)     4.4
petal length (cm)    6.9
petal width (cm)     2.5
dtype: float64


> 실행 결과 각 feature의 데이터 범위가 다르게 나타난 것을 볼 수 있다. 이를 0~1사이의 데이터로 변환하여 예측 성능 및 처리 속도를 향상시켜 보도록 하자.

In [None]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit(df_iris)
iris_scaled = scaler.transform(df_iris)

In [None]:
df_iris_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)


print('평균')
print(df_iris_scaled.min())
print('분산')
print(df_iris_scaled.max())

평균
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64
분산
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


#3. 학습 데이터와 테스트데이터의 스케일링 변환시 유의점 
> 스케일링 변호나 시 fit과 transform 함수를 이용한다.
 - fit : 데이터 변환을 위한 기준 정보 설정
 - transform: 데이터 변환 

In [None]:
import numpy as np

train_array = np.arange(0,11).reshape(-1,1)
test_array = np.arange(0,6).reshape(-1,1)
xㅋㅋ
train_array

array([[ 0],
       [ 1],
       [ 2],
       [ 3],
       [ 4],
       [ 5],
       [ 6],
       [ 7],
       [ 8],
       [ 9],
       [10]])

> arange(시작값,개수)로 train_array는 0부터 11개의 값을 만들고 reshape을 이용하여 1열짜리 2차원 배열을 만들었다. 같은 방법으로 test_Array에 0부터 6개의 데이터를 만들고 2차원 배열로 변환시켰다. scaler 클래스의 fit과 transform 함수는 2차원 이상의 데이터만 가능하다.

In [None]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()

scaler.fit(train_array)
train_scaled = scaler.transform(train_array)

print(train_array.reshape(-1))
print(train_scaled.reshape(-1))

[ 0  1  2  3  4  5  6  7  8  9 10]
[0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


In [None]:
scaler.fit(test_array)
test_scaled = scaler.transform(test_array)

print(test_array.reshape(-1))
print(test_scaled.reshape(-1))


[0 1 2 3 4 5]
[0.  0.2 0.4 0.6 0.8 1. ]


> MinMaxScaler는 0 ~ 1사이의 수를 표현한다. 훈련데이터는 0 ~ 10사이의 수이고 테스트 데이터는 0 ~ 5사이의 수이다. 변환 결과 두 수의 범위는 0 ~ 1사이의 값으로 나타나게 된다. 하지만 훈련데이터 기준으로 테스트데이터의 5는 중간수이기 때문에 같은 범위로 나타나게 되면 문제가 발생된다.

In [None]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()

scaler.fit(train_array)
train_scaled = scaler.transform(train_array)

print(train_array.reshape(-1))
print(train_scaled.reshape(-1))

test_scaled = scaler.transform(test_array)

print(test_array.reshape(-1))
print(test_scaled.reshape(-1))


[ 0  1  2  3  4  5  6  7  8  9 10]
[0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]
[0 1 2 3 4 5]
[0.  0.1 0.2 0.3 0.4 0.5]


> 결국 fit은 크기를 지정하는 것임으로 한번만 실행하여 훈련데이터에 맞는 테스트데이터 변환이 이루어지게 되어야 한다.