# 데이터 전처리
* 표준화
* 인코딩
* 결측값 처리
* 단순 데이터 분리

## 표준화(정규화)
* 데이터를 정해진 구간 사이의 값으로 표준화 한다.
* sklearn.preprocessing 모듈의 함수 사용
    * scale(x) : 표준 정규분포를 사용해 표준화, 많이씀
    * robust_scale(x): 중위수와 사분위범위를 사용하여 표준화
    * minmax_scale(x): 최댓값과 최솟값을 사용하여 표준화, 0~1, 많이씀
    * maxabs_scale(x): 최대 절댓값을 사용하여 표준화. -1~1

In [1]:
#scale() : 평균을 0, 표준편차가 1이 되도록 표준화함

import seaborn as sns
iris = sns.load_dataset('iris')
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [2]:
x = iris.iloc[:,:-1] #전체행과 레이블(species)를 제외한 나머지 까지 슬라이싱
x

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [6]:
from sklearn.preprocessing import scale

x_scaled = scale(x)
x_scaled.mean(axis=0)

array([-4.73695157e-16, -7.81597009e-16, -4.26325641e-16, -4.73695157e-16])

In [8]:
for scaled_mean in x_scaled.mean(axis=0):
    print('{:10.9f}'.format(scaled_mean))

-0.000000000
-0.000000000
-0.000000000
-0.000000000


In [9]:
from sklearn.preprocessing import robust_scale #robust_scale 사용

iris_robust_scaled = robust_scale(x)
iris_robust_scaled[:5,:]

array([[-0.53846154,  1.        , -0.84285714, -0.73333333],
       [-0.69230769,  0.        , -0.84285714, -0.73333333],
       [-0.84615385,  0.4       , -0.87142857, -0.73333333],
       [-0.92307692,  0.2       , -0.81428571, -0.73333333],
       [-0.61538462,  1.2       , -0.84285714, -0.73333333]])

In [11]:
from sklearn.preprocessing import minmax_scale #minmax_scale 사용

iris_minmax_scaled = minmax_scale(x)
iris_minmax_scaled[:5,:]

array([[0.22222222, 0.625     , 0.06779661, 0.04166667],
       [0.16666667, 0.41666667, 0.06779661, 0.04166667],
       [0.11111111, 0.5       , 0.05084746, 0.04166667],
       [0.08333333, 0.45833333, 0.08474576, 0.04166667],
       [0.19444444, 0.66666667, 0.06779661, 0.04166667]])

In [13]:
from sklearn.preprocessing import maxabs_scale #maxabs_scale

iris_maxabs_scaled = maxabs_scale(x)
iris_maxabs_scaled[:5,:]

array([[0.64556962, 0.79545455, 0.20289855, 0.08      ],
       [0.62025316, 0.68181818, 0.20289855, 0.08      ],
       [0.59493671, 0.72727273, 0.1884058 , 0.08      ],
       [0.58227848, 0.70454545, 0.2173913 , 0.08      ],
       [0.63291139, 0.81818182, 0.20289855, 0.08      ]])

## 스케일과 스케일 백
* 표준화 메서드들을 이용해서 표준화를 할 수도 있지만 StandardScaler, MinMaxScaler, MaxAbsScaler 클래스를 이용해서 표준화를 할 수 있다.
* 이들 클래스를 이용하면 표준화 후 표준화한 값을 원래의 값 범위로 되돌릴 수 있다.(스케일 백 가능)
* 이들 클래스의 표준화 방법은 scale(), minmax_scale(), maxabs_scale() 함수와 같다.

In [18]:
# standardscaler 객체를 이용해 표준화

import seaborn as sns

iris = sns.load_dataset('iris')
iris.iloc[:5,:-1]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [15]:
from sklearn.preprocessing import StandardScaler

sc = StandardScaler()
iris_scaled = sc.fit_transform(iris.iloc[:,:-1])
iris_scaled[:5,:]

array([[-0.90068117,  1.01900435, -1.34022653, -1.3154443 ],
       [-1.14301691, -0.13197948, -1.34022653, -1.3154443 ],
       [-1.38535265,  0.32841405, -1.39706395, -1.3154443 ],
       [-1.50652052,  0.09821729, -1.2833891 , -1.3154443 ],
       [-1.02184904,  1.24920112, -1.34022653, -1.3154443 ]])

In [22]:
iris_origin = sc.inverse_transform(iris_scaled)
iris_origin[:5,:]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2]])

In [24]:
from sklearn.preprocessing import MinMaxScaler

ms = MinMaxScaler()
iris_minmax_scaled = ms.fit_transform(iris.iloc[:,:-1])
iris_minmax_scaled[:5,:]

array([[0.22222222, 0.625     , 0.06779661, 0.04166667],
       [0.16666667, 0.41666667, 0.06779661, 0.04166667],
       [0.11111111, 0.5       , 0.05084746, 0.04166667],
       [0.08333333, 0.45833333, 0.08474576, 0.04166667],
       [0.19444444, 0.66666667, 0.06779661, 0.04166667]])

In [27]:
iris_minmax_origin = ms.inverse_transform(iris_minmax_scaled)
iris_minmax_origin[:5,:]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2]])