# 표준화 (Standardization)

표준화는 데이터의 평균을 0 분산 및 표준편차를 1로 만들어 줍니다.

표준화를 하는 이유

서로 다른 통계 데이터들을 비교하기 용이하기 때문입니다.

표준화를 하면 평균은 0, 분산과 표준편차는 1로 만들어 데이터의 분포를
 단순화 시키고, 비교를 용이

In [None]:
from sklearn.datasets import load_iris


In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:

iris = load_iris()


In [None]:
# 코드를 입력해 주세요
df = pd.DataFrame(iris['data'], columns=iris['feature_names'])
df['target'] = iris['target']
df.head()


In [None]:
X = df.iloc[:, 0]

표준화 코드

In [None]:
X_ = (X - X.mean()) / X.std()

In [None]:
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
sns.distplot(X, bins=5, color='b')
plt.title('Original', fontsize=16)

plt.subplot(1, 2, 2)
sns.distplot(X_, bins=5, color='r')
plt.title('Standardization', fontsize=16)
plt.show()


분포

In [None]:
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
sns.scatterplot(x=df['sepal length (cm)'], y=df['sepal width (cm)'], hue=df['target'], palette='Set1')
plt.title('Sepal', fontsize=16)

plt.subplot(1, 2, 2)
sns.scatterplot(x=df['petal length (cm)'], y=df['petal width (cm)'], hue=df['target'], palette='Set1')
plt.title('Petal', fontsize=16)
plt.show()

# 정규화 (Normalization)

정규화 (Normalization)
정규화 (Normalization)도 표준화와 마찬가지로 데이터의 스케일을 조정합니다.

정규화가 표준화와 다른 가장 큰 특징은 모든 데이터가 0 ~ 1 사이의 값을 가집니다.

즉, 최대값은 1, 최소값은 0으로 데이터의 범위를 조정합니다.

In [None]:
X = df.iloc[:, 0]

In [None]:
X_ = (X - X.min()) / (X.max() - X.min())

In [None]:
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
sns.distplot(X, bins=5, color='b')
plt.title('Original', fontsize=16)

plt.subplot(1, 2, 2)
sns.distplot(X_, bins=5, color='r')
plt.title('Normalization', fontsize=16)
plt.show()


# MinMaxScaler

In [None]:
from sklearn.preprocessing import MinMaxScaler


In [None]:
minmax_scaler = MinMaxScaler()

feature 4개를 모두 변환

변환된 결과는 scaled_data2에 대입

In [None]:
scaled_data2 = minmax_scaler.fit_transform(df.drop('target', axis=1))

In [None]:
scaled_data2[:5]


In [None]:
scaled_data2.min(), scaled_data2.max()

Scale 전, 후 비교

In [None]:
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
sns.scatterplot(x=df['sepal length (cm)'], y=df['sepal width (cm)'], hue=df['target'], palette='Set1')
plt.title('Sepal (Original)', fontsize=16)

plt.subplot(1, 2, 2)
sns.scatterplot(x=scaled_data2[:, 0], y=scaled_data2[:, 1], hue=df['target'], palette='Set1')
plt.title('Sepal (Scaled)', fontsize=16)
plt.show()

In [None]:
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
sns.scatterplot(x=df['petal length (cm)'], y=df['petal width (cm)'], hue=df['target'], palette='Set1')
plt.title('Petal (Original)', fontsize=16)

plt.subplot(1, 2, 2)
sns.scatterplot(x=scaled_data2[:, 2], y=scaled_data2[:, 3], hue=df['target'], palette='Set1')
plt.title('Petal (Scaled)', fontsize=16)
plt.show()