# 7. 데이터 전처리-스케일링

## 2) 데이터 스케일링 (피처 스케일링)
1) 표준화: 데이터의 피처 각각을 평균0, 분산1인 가우시안 정규분포를 가진 값으로 변환
> StandardScaler: 평균0, 분산1인 정규 분포 형태로 변환

2) 정규화: 서로 다른 피처의 크기를 통일하기 위해 크기 변환
> MinMaxScaler: 데이터 값을 0과 1사이의 값으로 변환 (음수가 있으면 -1~1 사이)

### (2-1) 피처 스케일링과 표준화
+ StandardScaler

In [4]:
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data = iris_data, columns = iris.feature_names)

print('feature 들의 평균 값')
print(iris_df.mean())
print('\nfeature 들의 분산 값')
print(iris_df.var())

feature 들의 평균 값
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

feature 들의 분산 값
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [7]:
# 1. 모듈 임포트
from sklearn.preprocessing import StandardScaler

# 2. StandardScaler 객체 생성
scaler = StandardScaler()

# 3. fit() 으로 mean, var 구하기 
scaler.fit(iris_df) # dataframe, ndarray 모두 들어올수있다.

# 4. transform으로 데이터셋 변환. 
iris_scaled = scaler.transform(iris_df)

# 5. transform()하면 scale변환된 데이터 셋이 numpy array로 반환되어 이것을 DF로 변환
iris_df_scaled = pd.DataFrame(data = iris_scaled, columns = iris.feature_names)
print('feature 들의 평균 값')
print(iris_df_scaled.mean())
print('\nfeature 들의 분산 값')
print(iris_df_scaled.var())

feature 들의 평균 값
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

feature 들의 분산 값
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


### (2-2) 피처 스케일링과 정규화
+ MinMaxScaler

In [10]:
# 1. 모듈임포트
from sklearn.preprocessing import MinMaxScaler

# 2. MinMaxScaler 객체 생성
scaler = MinMaxScaler()

# 3. fit()으로 max와 mean 구하기 
scaler.fit(iris_df)

# 4. transform()으로 데이터셋 변환 
iris_scaled = scaler.transform(iris_df)

# 5. transform()하면 scale 변환된 데이터 셋이 numpy ndarray로 반환되어 이를 DF로 변환
iris_df_scaled = pd.DataFrame(data = iris_scaled, columns = iris.feature_names)

print('feature 들의 최소 값')
print(iris_df_scaled.min())
print('\nfeature 들의 최대 값')
print(iris_df_scaled.max())

feature 들의 최소 값
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

feature 들의 최대 값
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


##### 2-3) Scaler를 이용하여 학습 데이터와 테스트 데이터에 fit(), transform(), fit_transform() 적용 시 유의사항. 
+ train, test 데이터 세트에 각각 표준화, 정규화하면 이슈 발생

##### > train dataset, test dataset에 각각 fit(), transform() 

In [23]:
from sklearn.preprocessing import MinMaxScaler
import numpy as np

# 학습 데이터는 0부터 10까지, 테스트 데이터는 0부터 5까지 값을 가지는 데이터 세트로 생성한다. 
# Scaler클래스의 fit(), transform()은 2차원 이상 데이터만 가능하므로 reshape(-1,1)로 차원 변경
train_array = np.arange(0,11).reshape(-1,1)
test_array = np.arange(0,6).reshape(-1,1)

train_array1 = np.arange(0,11)
train_array2 = np.arange(0,11).reshape(-1,1)
test_array1 = np.arange(0,6)
test_array2 = np.arange(0,6).reshape(-1,1)

print('train_array1 형태: ', train_array1.shape)
print('train_array2 형태: ', train_array2.shape)
print('test_array1 형태: ', test_array1.shape)
print('test_array2 형태: ', test_array2.shape)

train_array1 형태:  (11,)
train_array2 형태:  (11, 1)
test_array1 형태:  (6,)
test_array2 형태:  (6, 1)


In [20]:
# 최소값 0, 최대값 1로 변환하는 MinMaxScaler객체 생성
scaler = MinMaxScaler()

# fit()하게 되면 train_array 데이터의 최소값이 0, 최대값이 10으로 설정.  
scaler.fit(train_array)

# 1/10 scale로 train_array 데이터 변환함. 원본 10-> 1로 변환됨.
train_scaled = scaler.transform(train_array)

print('원본 train_array 데이터:', np.round(train_array.reshape(-1), 2))
print('Scale된 train_array 데이터:', np.round(train_scaled.reshape(-1), 2))

원본 train_array 데이터: [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


In [22]:
# 앞에서 생성한 MinMaxScaler에 test_array를 fit()하게 되면 원본 데이터의 최소값이 0, 최대값이 5으로 설정됨 
scaler.fit(test_array)

# 1/5 scale로 test_array 데이터 변환함. 원본 5->1로 변환.  
test_scaled = scaler.transform(test_array)

print('원본 test_array 데이터:', np.round(test_array.reshape(-1), 2))
print('Scale된 test_array 데이터:', np.round(test_scaled.reshape(-1), 2))

원본 test_array 데이터: [0 1 2 3 4 5]
Scale된 test_array 데이터: [0.  0.2 0.4 0.6 0.8 1. ]


##### => train에서는 5가 0.5 로 변환되었는데 test에서는 5가 1.0으로 변환되면서 척도가 달라졌기 때문에 문제 발생! 

##### > 올바른 Scaling
+ train과 test 모두 동일한 기준에서 scaling 되어야하기 때문에 <br/>
  test 데이터에서는 fit() 하지 않고 transform()만 해준다. train의 fit을 따른다!

In [24]:
scaler = MinMaxScaler()
scaler.fit(train_array)
train_scaled = scaler.transform(train_array)
print('원본 train_array 데이터:', np.round(train_array.reshape(-1), 2))
print('Scale된 train_array 데이터:', np.round(train_scaled.reshape(-1), 2))

# test_array에 Scale 변환을 할 때는 반드시 fit()을 호출하지 않고 transform() 만으로 변환해야 함. 
test_scaled = scaler.transform(test_array)
print('\n원본 test_array 데이터:', np.round(test_array.reshape(-1), 2))
print('Scale된 test_array 데이터:', np.round(test_scaled.reshape(-1), 2))

원본 train_array 데이터: [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]

원본 test_array 데이터: [0 1 2 3 4 5]
Scale된 test_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5]
