### 전처리(Preprocessing)
* 원본 raw 데이터의 품질이 좋지 않아서 가공하여 데이터의 품질을 향상 시키는 과정

(1) 표준화(Standardization) : 데이터가 평균으로 부터 얼마나 떨어져 있는지를 나타내는 값으로, 특정 범위를 벗어난 데이터를 
    이상치(outlier)로 간주하여 제거한다, StandardScaler사용, Z = ( X - mean())/std()

(2) 정규화(Normalization) : 데이터를 범위를 일치시키거나 분포를 유사하게 만들어 주는 기능, 데이터 범위를 0 ~ 1 사이의 값으로 변환
    MinMaxScaler사용,  Z = (X - min())/(max() - min())

#### 데이터 분석 절차
데이터 표준화를 통해 outlier를 제거하고, 그 다음에 데이터 정규화를 하여 상대적 크기의 영향력을 줄인 다음 분석을 시작한다

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

### 표준화(Standardization)

In [16]:
# (1) Numpy를 이용한 표준화
# Z = ( X - mean())/std()

data = np.random.randint(1000, size=(3,4))  # 0 ~ 999 까지의 정수
print('raw_data:\n',data)

data_stand_np = ( data - np.mean(data,axis = 0))/np.std(data,axis = 0) #  행방향, 수직방향 평균
print('numpy standardized data:\n',data_stand_np)

raw_data:
 [[221   2 400 680]
 [ 38  64 701 518]
 [426 296 991 163]]
numpy standardized data:
 [[-0.04627141 -0.93780378 -1.23227225  1.04827148]
 [-1.20095343 -0.44782765  0.01519618  0.29796229]
 [ 1.24722484  1.38563143  1.21707607 -1.34623377]]


In [18]:
# (2) scipy.stats 를 이용한 표준화 : zscore()
import scipy.stats as ss
data_stand_ss = ss.zscore(data)
# print('raw_data:\n',data)
print('scipy standardized data:\n',data_stand_ss)

scipy standardized data:
 [[-0.04627141 -0.93780378 -1.23227225  1.04827148]
 [-1.20095343 -0.44782765  0.01519618  0.29796229]
 [ 1.24722484  1.38563143  1.21707607 -1.34623377]]


In [19]:
# (3) sklearn.preprocessing 를 이용한 표준화
# StandardScaler().fit_transform()
from sklearn.preprocessing import StandardScaler
data_stand_skl = StandardScaler().fit_transform(data)
print('sklearn standardized data:\n',data_stand_skl)

sklearn standardized data:
 [[-0.04627141 -0.93780378 -1.23227225  1.04827148]
 [-1.20095343 -0.44782765  0.01519618  0.29796229]
 [ 1.24722484  1.38563143  1.21707607 -1.34623377]]


In [25]:
# 정규화
# (1) Numpy를 이용한 정규화
# Z = (X - min()) / (max() - min())
data_minmax_np = ( data - np.min(data, axis=0))/(np.max(data,axis=0) - np.min(data,axis=0))
print('numpy minmax data:\n',data_minmax_np)

numpy minmax data:
 [[0.47164948 0.         0.         1.        ]
 [0.         0.21088435 0.50930626 0.68665377]
 [1.         1.         1.         0.        ]]


In [26]:
# (2) sklearn.preprocessing 를 이용한 정규화
# MinMaxScaler().fit_transform()
from sklearn.preprocessing import MinMaxScaler
data_minmax_skl = MinMaxScaler().fit_transform(data)
print('sklearn minmax data:\n',data_minmax_skl)

sklearn minmax data:
 [[0.47164948 0.         0.         1.        ]
 [0.         0.21088435 0.50930626 0.68665377]
 [1.         1.         1.         0.        ]]


In [None]:
# 이상치를 제거하여 표준화하기