# 데이터전처리
* 머신러닝 알고리즘을 익히는 것 못치 않게
데이터 전처리 역시 중요한 과정 중에 하나
* 무엇보다 머신러닝 알고리즘을 적용하기 전에
데이터에 대해 미리 처리해야 하는 기본사항이 존재

* 결측치 처리 
  + NaN, Null은 허용되지 않음
* 원핫인코딩 
  + 머신러닝 알고리즘들은 문자열값을 데이터의 입력값으로 허용하지 않음
  + 따라서, 모든 문자열값은 인코딩해서 숫자형으로 변환해둬야 함
  + 한편, 텍스트 데이터들은 벡터화해서 처리
  + 머신러닝을 위한 인코딩은 레이블인코딩과 원핫인코딩등이 있음


In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import sklearn

# 레이블 인코딩
+ 범주형 -> 숫자형

In [2]:
from sklearn.preprocessing import LabelEncoder
items = ['티비', '냉장고', '가스렌지', '에어콘', '컴퓨터']

In [3]:
encoder = LabelEncoder()
# encoder.fit(items)
# lables = encoder.transform(items)

lables = encoder.fit_transform(items)


In [4]:
# 변환된 레이블
lables

array([4, 1, 0, 2, 3])

In [6]:
# 변환된 클래스
encoder.classes_

array(['가스렌지', '냉장고', '에어콘', '컴퓨터', '티비'], dtype='<U4')

# LabelEncoder 시용시 문제점
* 문자열값을 숫자형으로 변환시켰을때 발생할 수 있는 문제는 
각 값의 대소 관계를 통해 중요도 여부가 존재할 수 있음
* 즉, 인코딩 된 값에 서수척도가 생길수 있음
* 따라서, 대소관계가 있는 데이터를 분석할 경우 정확도에 영향을 미칠수있음
  + => 원핫인코딩을 사용함으로써 문제해결

'티비','냉장고','가스렌지','에어콘','컴퓨터'   
1	0	0	0	0   
0	1	0	0	0   
0	0	1	0	0   
0	0	0	1	0   
0	0	0	0	1  

In [7]:
from sklearn.preprocessing import OneHotEncoder

# 먼저, LabelEncoder로 문자열을 숫자값으로 변환해야함
# 그런 다음, 1차원 데이터를 2차원 데이터로 변환
lables = lables.reshape(-1,1)  # -1: 행->열(가로->세로)
lables

array([[4],
       [1],
       [0],
       [2],
       [3]])

In [8]:
onehot = OneHotEncoder()
onehot.fit(lables)
ohlables = onehot.transform(lables)
ohlables.toarray()

array([[0., 0., 0., 0., 1.],
       [0., 1., 0., 0., 0.],
       [1., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.]])

### pandas의 원핫 인코딩
+ get_dummies 함수 사용
+ 단, 변환대상은 반드시 데이터프레임

In [9]:
df = pd.DataFrame({'':items})
pd.get_dummies(df)

Unnamed: 0,_가스렌지,_냉장고,_에어콘,_컴퓨터,_티비
0,0,0,0,0,1
1,0,1,0,0,0
2,1,0,0,0,0
3,0,0,1,0,0
4,0,0,0,1,0


# 특성 스케일링과 표준화/정규화
* 서로 다른 범위, 단위의 변수값을 일정수준으로 맞추는 작업을 ``특성feature 스케일링`` 이라 함

- 어떤 데이터의 값이 정수와 실수가 혼용되어 있거나
- 값의 범위가 1 ~ 100, 0 ~ 0.001, 1 ~ 10000 등등의 경우
- 데이터 분석시 많은 cpu 파워/메모리가 필요하고
- 학습시 느려질수 있으며 제대로 된 결과가 나오지 않을 수 있음
- 이것을 제대로 변환하는 방법은 ``정규화`` 와 ``표준화``가 있음



### 표준화
+ 특성값을 평균이 0이고 표준편차가1인 정규분포를 가진값으로 변환하는 것

In [6]:
X = np.arange(9) - 3
X

array([-3, -2, -1,  0,  1,  2,  3,  4,  5])

In [3]:
X = X.reshape(-1, 1)  # 2차원으로 변환
pd.DataFrame(X).describe()

Unnamed: 0,0
count,9.0
mean,1.0
std,2.738613
min,-3.0
25%,-1.0
50%,1.0
75%,3.0
max,5.0


In [17]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(X)
xx = scaler.transform(X)

pd.DataFrame(xx).describe()

Unnamed: 0,0
count,9.0
mean,0.0
std,1.06066
min,-1.549193
25%,-0.774597
50%,0.0
75%,0.774597
max,1.549193


In [18]:
xx

array([[-1.54919334],
       [-1.161895  ],
       [-0.77459667],
       [-0.38729833],
       [ 0.        ],
       [ 0.38729833],
       [ 0.77459667],
       [ 1.161895  ],
       [ 1.54919334]])

## boston 데이터 표준화

### 정규화
+ 특성값을 최소0, 최대 1사이의 값으로 변환하는 것
+ 데이터 분포가 정규분포를 따르지 않을때 적용

In [19]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scaler.fit(X)
xx = scaler.transform(X)

pd.DataFrame(xx).describe()  # 최소: 0 , 최대: 1

Unnamed: 0,0
count,9.0
mean,0.5
std,0.342327
min,0.0
25%,0.25
50%,0.5
75%,0.75
max,1.0


In [20]:
xx

array([[0.   ],
       [0.125],
       [0.25 ],
       [0.375],
       [0.5  ],
       [0.625],
       [0.75 ],
       [0.875],
       [1.   ]])

## boston 데이터 정규화