### 피쳐 스케일링과 정규화
* 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업 : feature scaling  
→ 표준화(Standardization)와 정규화(Normalization)

#### 표준화(Standardization)
* 평균이 0이고 분산이 1인 Gaussian distribution으로 변화
* x` = (x - m(x)) / s(x)

#### 정규화(Normaliztion)
* 서로 다른 피쳐의 크기를 통일하기 위해 크기를 변환하는 개념
* x` = x - min(x) / max(x) - min(x)
* 사이킷 런의 Normalizer 모듈은 선형대수에서의 정규화개념이 적용,   
개별벡터의 크기를 맞추기 위해 변환
* x` = x / √(x²+y²+z²)

### 사이킷런 피쳐 스케일링 지원
#### StandardScaler
* 평균이 0, 분산이 1인 정규분포 형태로 변환
#### MinMaxScaler
* 데이터 값을 0과 1사이의 범위 값으로 변환(음수값이 있으면 -1~1)

In [None]:
from sklearn.datasets import load_iris
import pandas as pd

# 붓꽃 데이터 셋을 로딩하고 DataFrame으로 변환

iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data = iris_data, columns = iris.feature_names)

print(f"featrue들의 평균 값 : \n{iris_df.mean()}")
print(f"feature들의 분산 값 : \n{iris_df.var()}")

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.scatter(iris.target, iris_df.iloc[:, 0], alpha=0.2)
plt.scatter(iris.target, iris_df.iloc[:, 1], alpha=0.2)
plt.scatter(iris.target, iris_df.iloc[:, 2], alpha=0.2)
plt.scatter(iris.target, iris_df.iloc[:, 3], alpha=0.2)
plt.show()

X_train의 경우 fit 시키고(학습), transform   /  X_test 는 그냥 transform만

In [None]:
from sklearn.preprocessing import StandardScaler

# StandardScaler 객체 생성
scaler = StandardScaler()
# StandardScaler로 데이터 셋 변환. fit()과 transform() 호출.
scaler.fit(iris_df) # 평균, 분산 계산이 fit
iris_scaled = scaler.transform(iris_df) # 찾아낸 평균, 분산으로 변환수행

# transform()시 scale 변환된 데이터 셋이 numpy ndarray로 반환되어 이를 DF로 변환.
iris_df_scaled = pd.DataFrame(data = iris_scaled, columns = iris.feature_names)
print(f"feature 평균 : \n{iris_df_scaled.mean()}")
print(f"feature 분산 : \n{iris_df_scaled.var()}")

In [None]:
iris_df_scaled.describe()

In [None]:
plt.figure(figsize=(10,10))
plt.subplot(4,2,1)
plt.scatter(iris.target, iris_df_scaled.iloc[:, 0])
plt.subplot(4,2,2)
plt.hist(iris_df_scaled.iloc[:, 0], bins=50)
plt.subplot(4,2,3)
plt.scatter(iris.target, iris_df_scaled.iloc[:, 1])
plt.subplot(4,2,4)
plt.hist(iris_df_scaled.iloc[:, 1], bins=50)
plt.subplot(4,2,5)
plt.scatter(iris.target, iris_df_scaled.iloc[:, 2])
plt.subplot(4,2,6)
plt.hist(iris_df_scaled.iloc[:, 2], bins=50)
plt.subplot(4,2,7)
plt.scatter(iris.target, iris_df_scaled.iloc[:, 3])
plt.subplot(4,2,8)
plt.hist(iris_df_scaled.iloc[:, 3], bins=50)
plt.tight_layout()
plt.show()