In [1]:
from sklearn.datasets import load_iris
import pandas as pd


iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)

print('feature 들의 평균 값')
print(iris_df.mean())
print('\nfeature 들의 분산 값')
print(iris_df.var())

feature 들의 평균 값
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

feature 들의 분산 값
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


## StandardScaler 

StandardScaler는 표준화를 쉽게 지원하기 위한 클래스. 즉, 개별 피처를 평균이 0이고 분산이 1인 값으로 변환함. 
이렇게 가우시안 정규 분포를 가질 수 있도록 데이터를 변환하는 것은 매우 중요함.
서포트 벡터 머신, 선형 회귀, 로지스틱 회귀는 데이터가 가우시안 분포를 가지고 있다고 가정하고 구현했기 때문에 사전에 표준화를 적용하는 것은 예측 성능 향상에 중요한 요소가 됌.

#### scaler 클래스의 fit(), transform()은 2차원 이상 데이터만 가능.

In [2]:
from sklearn.preprocessing import StandardScaler

# StandardScaler 객체 생성 

scaler = StandardScaler()

# StandardScalrer 로 데이터 세트 변환. fit()과 transform() 호출

scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

# transform() 시 스케일 변환된 데이터세트가 NumPy ndarray로 반환돼 이를 DataFrame으로 변환.

iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)

print('feature 들의 평균 값')
print(iris_df_scaled.mean())
print('\nfeature 들의 분산 값')
print(iris_df_scaled.var())

feature 들의 평균 값
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

feature 들의 분산 값
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


## MinMaxScaler

MinMaxScaler 은 데이터값을 0~1 사이의 범위 값으로 변환. 데이터 분포가 가우시안 분포가 아닐 경우 min,max scale 적용 가능.

In [3]:
from sklearn.preprocessing import MinMaxScaler

# MinMaxScaler 객체 생성 
scaler = MinMaxScaler()

# MinMaxScaler로 데이터 세트 변환. fit() transform() 호출 
scaler.fit(iris_df)

iris_scaled = scaler.transform(iris_df)

# transform()시 스케일 변환된 데이터 세트가 numpy ndarray로 반환돼 이를 df로 변환 

iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)

print('feature들의 최솟값')
print(iris_df_scaled.min())
print('\nfeautre 들의 최대값')
print(iris_df_scaled.max())


feature들의 최솟값
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

feautre 들의 최대값
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


## 학습 데이터와 테스트 데이터의 스케일링 변환 시 유의점

학습 데이터로 fit()이 적용된 스케일링 기준 정보를 그대로 테스트 데이터에 적용해야함.
테스트 데이터로 다시 새로운 스케일링 기준 정보를 만들게 되면 학습 데이터와 테스트 데이터의 스케일링 기준 정보가 서로 달라지기 때문에 올바른 
예측 결과를 도출할 수 xx.

반드시 학습 데이터의 스케일링 기준에 따라 테스트 데이터를 transform()해야함. 테스트 데이터에 fit()사용 xx

fit_transform() 역시 학습 데이터에는 상관없지만 테스트 데이터에 절대 사용 xx

## 요약

### 1. 가능하다면 전체 데이터의 스케일링 변환을 적용한 뒤 학습과 테스트 데이터로 분리
### 2. 1이 여의치 않다면 테스트 데이터 변환 시에는 fit()이나 fit_transform()을 적용하지 않고 학습 데이터로 이미 fill()이 된 Scaler 객체를 이용해 transform() 으로 변환. 

