<a href="https://colab.research.google.com/github/ouguro3/Study/blob/main/ML_Guide/chapter_2/02_Data_preprocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 데이터 전처리

데이터 전처리는 ML 알고리즘만큼 중요하다  

ML 알고리즘은 데이터에 기반하고 있기 때문에 어떤 데이터를 입력으로 가지느냐에 따라 결과도 달라질 수 있다  

사이킷런의 ML 알고리즘을 적용하기 전에 데이터에 미리 처리해야 할 기본사항이 있다

결손값, 즉 NaN, Null 값은 허용되지 않고, 이러한 Null 값은 고정된 다른 값으로 변환해야 한다  

Null 값을 어떻게 처리해야 할지는 경우에 따라 다르다  

Null 값이 얼마 되지 않는 경우,  피처의 평균값 등으로 간단하게 대체할 수 있고  
대부분이 Null 값이라면 해당 피처는 drop 하는게 더 좋다  

가장 힘든경우가 Null 값이 일정 수준 이상 되는 경우인데  
해당 피처가 중요도가 높은 피처이고 Null을 단순히 피처의 평균값으로 대체할 경우  
예측 왜곡이 심할 수 있다면 업무 로직 등을 상세하게 검토해 더 정밀한 대체 값을 선정해야 한다  

사이킷런의 ML 알고리즘은 문자열 값을 입력 값으로 허용하지 않고, 그래서 모든 문자열 값은  
인코딩돼서 숫자 형으로 변환해야 한다

### 데이터 인코딩

ML을 위한 데이터 인코딩 방식은 두가지가 있다  
- 레이블 인코딩 (Label encoding)
- 원-핫 인코딩 (One Hot encoding)



#### 레이블 인코딩
카테고리 피처를 코드형 숫자 값으로 변환하는 것

주의점 : '01', '02' 와 같은 코드 값 역시 문자열이므로 1, 2 와 같은 숫자형 값으로 변환돼야 한다



In [1]:
# 레이블 인코딩의 예

from sklearn.preprocessing import LabelEncoder

items = ['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']

# LabelEncoder를 객체로 생성한 후, fit()과 transform()으로 레이블 인코딩 수행
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
print('인코딩 변환값 :', labels)

인코딩 변환값 : [0 1 4 5 3 3 2 2]


데이터가 너무 많아 문자열 값이 어떤 숫자 값으로 인코딩됐는지 모를 때,  
확인하는 방법
LabelEncoder 객체의 `classes_` 속성 값으로 확인

In [2]:
print('인코딩 클래스 :', encoder.classes_)

인코딩 클래스 : ['TV' '냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터']


0부터 순서대로 변환된 인코딩 값에 대한 원본값이 출력된다

또한 `inverse_transform()` 을 통해 인코딩된 값을 다시 디코딩할 수 있다

In [3]:
print('디코딩 원본값 :',encoder.inverse_transform([4,5,2,0,1,1,3,3]))

디코딩 원본값 : ['전자레인지' '컴퓨터' '믹서' 'TV' '냉장고' '냉장고' '선풍기' '선풍기']


문제점은 몇몇 ML 알고리즘에서는 예측 성능이 떨어지는 경우가 발생할 수 있다  

왜냐하면 숫자 값의 경우 크고 작음에 대한 특성이 작용하기 때문이다  

즉, 냉장고가 1, 믹서가 2로 변환되면 1보다 2가 큰 값이므로  
가중치가 더 부여되거나 더 중요하게 인식할 가능성이 생긴다  

이런 가능성 때문에 선형회귀와 같은 ML 알고리즘에는 적용하지 말아야 한다  

트리계열은 숫자의 이런 특성을 반영하지 않기 때문에 문제없이 사용가능하다

#### 원-핫 인코딩

원-핫 인코딩은 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 칼럼에만  
1을 표시하고 나머지 칼럼에는 0을 표시하는 방식이다  

즉, 행 형태로 돼 있는 피처의 고유 값을 열 형태로 차원을 변환한 뒤,  
고유 값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시한다

In [5]:
# 원핫 인코딩의 예
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items = ['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']

# 먼저 숫자 값으로 변환을 위해 LabelEncoder로 변환
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)

# 2차원 데이터로 변환
labels = labels.reshape(-1,1)

# 원-핫 인코딩 적용
oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)
print('원-핫 인코딩 데이터')
print(oh_labels.toarray())
print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원-핫 인코딩 데이터 차원
(8, 6)


판다스에 원-핫 인코딩을 더 쉽게 지원하는 API가 있다  
`get_dummies()`를 이용하면 된다  

사이킷런의 OneHotEncoder과 다르게 문자열 카테고리 값을 숫자 형으로 변환할 필요 없이  
바로 변환할 수 있다  

In [6]:
import pandas as pd

df = pd.DataFrame({'item':['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']})
pd.get_dummies(df)

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자레인지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0
