### 인코딩하는 이유
- 사이킷런의 머신러닝 알고리즘은 문자열 값을 입력 값으로 허락하지 x
- 모든 문자열 값들을 숫자형으로 인코딩하는 전처리 작업 후 머신러닝 모델에 학습
- 종류
    - 레이블 인코딩(Label Encoding)
        - LabelEncoder로 객체 생성 후, fit()과 transform()으로 label 인코딩 수행
        - 단점: 
            - 일괄적인 숫자 값으로 변환되면서 예측 성능이 떨어질 수 있다
            - (숫자의 크고 작음에 대한 특성이 작용)
            - 선형 회귀와 같은 ML 알고리즘에는 적용하지 않아야 함
            - (트리 계열의 ML 알고리즘은 숫자의 이러한 특성을 반영하지 않으므로 괜찮음)
    - 원핫인코딩(One Hot Encoding)
        - 문자형 데이터인 범주형 데이터 등을 컴퓨터가 처리할 수 있도록 0, 1로 구분. 
        - 피처 값의 유형에 따라 새로운 피처를 추가해 고윳값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시하는 방법. 
        - 범주가 7개이면 총 7개의 개수 중 해당하는 곳만 1로 치환

### OneHotEncoding 1 : sklearn 사용(상대적으로 복잡)

In [4]:
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items=['트와이스', 'BTS', '레드벨벳', '신화', 'GOD', 'GOD']


In [7]:
# 먼저 숫자값으로 변환을 위해 LabelEncoder로 변환
# LabelEncoder로 객체 생성 후, fit()과 transform()으로 label 인코딩 수행

encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)

print('인코딩 변환값: ', labels)

# 인코딩 전 원래의 값을 확인할 수 있는 방법
print('인코딩 클래스: ', encoder.classes_) #0번부터 순서대로 속성값을 알 수 있다



인코딩 변환값:  [4 0 2 3 1 1]
인코딩 클래스:  ['BTS' 'GOD' '레드벨벳' '신화' '트와이스']


In [None]:
# 2차원 데이터로 변환
labels = labels.reshape(-1, 1)

In [9]:
# 원핫인코딩 적용

oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)

print('원-핫 인코딩 데이터')
print(oh_labels.toarray())
print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

원-핫 인코딩 데이터
[[0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 1. 0. 0. 0.]
 [0. 1. 0. 0. 0.]]
원-핫 인코딩 데이터 차원
(6, 5)


### OneHotEncoding 2 : pandas 사용(get_dummies() 함수 사용)

In [10]:
import pandas as pd

df = pd.DataFrame({'items':['트와이스', 'BTS', '레드벨벳', '신화', 'GOD', 'GOD']})

df

Unnamed: 0,items
0,트와이스
1,BTS
2,레드벨벳
3,신화
4,GOD
5,GOD


In [11]:
# 원핫인코딩 실행`
pd.get_dummies(df) 

Unnamed: 0,items_BTS,items_GOD,items_레드벨벳,items_신화,items_트와이스
0,0,0,0,0,1
1,1,0,0,0,0
2,0,0,1,0,0
3,0,0,0,1,0
4,0,1,0,0,0
5,0,1,0,0,0


참조) https://medium.com/@john_analyst/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%A0%84%EC%B2%98%EB%A6%AC-%EB%A0%88%EC%9D%B4%EB%B8%94-%EC%9D%B8%EC%BD%94%EB%94%A9%EA%B3%BC-%EC%9B%90%ED%95%AB-%EC%9D%B8%EC%BD%94%EB%94%A9-f0220df21df1