<a href="https://colab.research.google.com/github/Da-Heon/MachineLearning/blob/main/01_%EB%8D%B0%EC%9D%B4%ED%84%B0_%EC%A0%84%EC%B2%98%EB%A6%AC.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 데이터 전처리

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


## 데이터 인코딩

- 머신러닝을 위한 대표적인 인코딩 방식은 레이블 인코딩과 원-핫 인코딩이 있습니다.
- 레이블 인코딩
    - 카테고리 피처를 코드형 숫자 값으로 변환하는 것
    - 예를 들어 상품 데이터의 상품 구분이 tv, 냉장고, 전자레인지, 컴퓨터, 선풍기, 믹서 값으로 돼 있다면
    - tv:1, 냉장고:2, 전자레인지:3, 컴퓨터:4, 선풍기:5, 믹서:6 과 같은 숫자형 값으로 변환하는 것 입니다.

- 사이킷런의 레이블 인코딩은 LabelEncoder 클래스로 구현합니다.
- LabelEncoder를 객체로 생성한 후 fit()과 transform()을 호출해 레이블 인코딩을 수행합니다

In [None]:
from sklearn.preprocessing import LabelEncoder

items = ['TV','냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

# LabelEncoder를 객체로 생성한 후, fit()과 transform()으로 레이블 인코딩 수행
encoder = LabelEncoder()
encoder.fit(items)  # 모델 학습
labels = encoder.transform(items)
labels

array([0, 1, 4, 5, 3, 3, 2, 2])

- 위 예제는 데이터가 작아서 문자열 값이 어떤 숫자 값으로 인코딩됐는지 직관적으로 알 수 있지만,
- 많은 경우에 이를 알지 못하는데 이 때 classes_ 속성값으로 확인합니다

In [None]:
print(f'인코딩 클래스:', encoder.classes_)

인코딩 클래스: ['TV' '냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터']


- 레이블 인코딩은 간단하게 문자열 값을 숫자형 카테고리 값으로 변환합니다
- 숫자에 크고 작음이 있기 때문에 이러한 특성 때문에 레이블 인코딩은 선형 회귀와 같은 ML 알고리즘에는 적용하지 않습니다.
- 트리 계열의 ML 알고리즘은 숫자의 이러한 특성을 반영하지 않으므로 레이블 인코딩도 별문제가 없습니다
- 원-핫 인코딩은 레이블 인코딩의 이러한 문제점을 해결하기 위한 인코딩 방식입니다

## 원-핫 인코딩

- 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 컬럼에만 1을 표시하고 나머지 컬럼에는 0을 표시하는 방식입니다
- 즉, 형태로 돼 있는 피처의 고유 값을 열 형태로 차원을 변환한 뒤, 고유 값에 해당하는 컬럼에만 1을 표시하고 나머지 컬럼에는 0을 표시합니다

In [None]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items = ['TV','냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

# 2차원 배열로 변환
items = np.array(items).reshape(-1,1)

# 원-핫 인코딩을 적용합니다
on_encoder = OneHotEncoder()
on_encoder.fit(items)
on_labels = on_encoder.transform(items)

# OneHotEncoder로 변환한 결과는 희소행렬이므로 toraay()를 이용해 밀집 행렬로 변환
print('원-핫 인코딩 데이터')
print(on_labels.toarray())
print('원-핫 인코딩 데이터 차원')
print(on_labels.shape)

원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원-핫 인코딩 데이터 차원
(8, 6)


In [None]:
on_labels

<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 8 stored elements and shape (8, 6)>

In [None]:
on_encoder

- 판다스에서는 원-핫 인코딩을 더 쉽게 지원합니다
- get_dummies()를 이용합니다

In [None]:
import pandas as pd

df = pd.DataFrame({
    'item' : ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서',' 믹서']
})

In [None]:
df

Unnamed: 0,item
0,TV
1,냉장고
2,전자레인지
3,컴퓨터
4,선풍기
5,선풍기
6,믹서
7,믹서


In [None]:
pd.get_dummies(df).astype('int')

Unnamed: 0,item_ 믹서,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자레인지,item_컴퓨터
0,0,1,0,0,0,0,0
1,0,0,1,0,0,0,0
2,0,0,0,0,0,1,0
3,0,0,0,0,0,0,1
4,0,0,0,0,1,0,0
5,0,0,0,0,1,0,0
6,0,0,0,1,0,0,0
7,1,0,0,0,0,0,0


- 더미를 이용하면 숫자형 값으로 변환 없이도 바로 변환이 가능함을 알 수 있습니다