# 피처 스케일링과 정규화
## 피처 스케일링(feature scaling) : 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업
   -> 표준화와 정규화가 있음

In [1]:
# 표준화는 데이터의 피처 각각이 평균이 0이고 분산이 1인 가우시안 정규분포를 가진 값으로 변환하는 것을 의미. 
# 표준화를 통해 변환될 피처 x의 새로운 i번째 데이터는 xi_new라고 하면,
## xi_new = xi-mean(x) / stdev(x)


In [2]:
# 정규화는 서로 다른 피처의 크기를 통일하기 위해 크기를 변환. 모든 값을 최소 0 ~ 최대 1로 변환
## xi_new = xi-min(x) / max(x) - min(x)

In [3]:
# 사이킷런의 전처리 normalizer 모듈은 선형대수에서의 정규화 개념이며, 개별 벡터의 크기를 맞추기 위해 변환하는 것.
# 개별 벡터를 모든 피처 벡터의 크기로 나눠줌
## xi_new = xi / 전부루트 xi^2 + yi^2 + zi^2

# Standard Scaler 스케일링
## 개별 피처를 평균이 0이고, 분산이 1인 값으로 변환해 줌.
### 서포트벡터머신, 선형회귀, 로지스틱 회귀가 데이터가 가우시안 분포를 가지고 있다고 가정하고 구현됐으므로, 
### 사전에 표준화를 적용하는 것은 예측 성능 향상에 중요한 요소가 된다.

In [12]:
# Standard Scaler
from sklearn.datasets import load_iris
import pandas as pd

# 붓꽃 데이터 세트를 로딩하고 DataFrame으로 변환
iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
print(iris_df)

# 평균, 분산을 구함
print('feature 들의 평균 값')
print(iris_df.mean())
print('\nfeature 들의 분산 값')
print(iris_df.var())

# Standard Scaler를 이용해 각 피처를 한 번에 표준화 해 변환
from sklearn.preprocessing import StandardScaler

# StandardScaler 객체 생성
scaler = StandardScaler()

# StandardScaler로 데이터 세트 변환. fit()와 transform() 호출. 
 # 해당 메서드에 변환 대상 피처 데이터 세트를 입력하고 호출하며 간단하게 변환
scaler.fit(iris_df) # 위에서 호출한 데이터프레임
iris_scaled = scaler.transform(iris_df)

# transform()시 스케일 변환된 데이터 세트가 NumPy ndarray로 반환돼 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
print(iris_df_scaled)    # 값을 위의 계산식대로 계산함. xi_new = xi-mean(x) / stdev(x)
print('\nfeature 들의 평균 값')
print(iris_df_scaled.mean())
print('\nfeature 들의 분산 값')
print(iris_df_scaled.var())

# 평균이 0에 가깝게 됐고, 분산이 1에 가까운 값으로 변환 완료.

     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0                  5.1               3.5                1.4               0.2
1                  4.9               3.0                1.4               0.2
2                  4.7               3.2                1.3               0.2
3                  4.6               3.1                1.5               0.2
4                  5.0               3.6                1.4               0.2
..                 ...               ...                ...               ...
145                6.7               3.0                5.2               2.3
146                6.3               2.5                5.0               1.9
147                6.5               3.0                5.2               2.0
148                6.2               3.4                5.4               2.3
149                5.9               3.0                5.1               1.8

[150 rows x 4 columns]
feature 들의 평균 값
sepal length (cm)    5.8

# MinMax Scaler 스케일링
## 데이터 값을 0과 1사의 범위 값으로 변환 
## 음수 값이 있으면 -1에서 1값으로 변환
### 데이터의 분포가 가우시안 분포가 아닐 경우에 Min, Max Scaler를 적용해 볼 수 있다.

In [11]:
from sklearn.preprocessing import MinMaxScaler

# MinMaxScaler 생성
scaler = MinMaxScaler()

# MinMaxScaler로 데이터 세트 변환. fit()과 transform() 호출
 # 마찬가지로, 해당 메서드에 변환 대상 피처 데이터 세트를 입력하고 호출하며 간단하게 변환
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

# transform() 시 스케일 변환된 데이터 세트가 NumPy ndarray로 반환돼 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
print(iris_df_scaled)   # 위의 식대로 변환함. xi_new = xi-min(x) / max(x) - min(x)
print('feature들의 최솟값')
print(iris_df_scaled.min())      # 전부다 0으로 만들어버림
print('\nfeature들의 최댓값')
print(iris_df_scaled.max())       # 전부다 1로 만들어버림

     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0             0.222222          0.625000           0.067797          0.041667
1             0.166667          0.416667           0.067797          0.041667
2             0.111111          0.500000           0.050847          0.041667
3             0.083333          0.458333           0.084746          0.041667
4             0.194444          0.666667           0.067797          0.041667
..                 ...               ...                ...               ...
145           0.666667          0.416667           0.711864          0.916667
146           0.555556          0.208333           0.677966          0.750000
147           0.611111          0.416667           0.711864          0.791667
148           0.527778          0.583333           0.745763          0.916667
149           0.444444          0.416667           0.694915          0.708333

[150 rows x 4 columns]
feature들의 최솟값
sepal length (cm)    0.0
s

In [None]:
ㄴㅁ
