### 데이터 인코딩
* 데이터 전처리는 알고리즘 만큼 중요 (Garbage in, Garbage out)
* 데이터는 문자열을 입력 값으로 허용 하지 않음  
따라서 문자열을 인코딩하여 숫자로 변환 → feature vectorization 기법
* Label Encoding과 One-Hot Encoding

#### sklearn.preprocessing.LabelEncoder
* class sklearn.preprocessing.LabelEncoder

In [7]:
from sklearn.preprocessing import LabelEncoder
# 레이블 인코딩 이용  /  각 레이블에 숫자 순서대로 하나씩 붙여줌

In [3]:
items = ["TV", "냉장고", "전자렌지", "컴퓨터", "선풍기", "선풍기", "믹서", "믹서"]

# LabelEncoder 를 객체로 생성한 후, fit() 과 transform() 으로 label 인코딩 수행.
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
print("인코딩 변환값:", labels)

# 넘버 붙여줌

인코딩 변환값: [0 1 4 5 3 3 2 2]


In [6]:
print("인코딩 클래스:", encoder.classes_)
# 넘버 순서대로 보여줌

인코딩 클래스: ['TV' '냉장고' '믹서' '선풍기' '전자렌지' '컴퓨터']


In [5]:
print("디코딩 원본 값:", encoder.inverse_transform([4,5,2,0,1,1,3,3]))
# 넘버를 원래 인덱스 값으로 재변환

디코딩 원본 값: ['전자렌지' '컴퓨터' '믹서' 'TV' '냉장고' '냉장고' '선풍기' '선풍기']


#### sklearn.preprocessing.OneHotEncoder
* class sklearn.preprocessing.OneHotEncoder(*, categories='auto', drop=None, sparse=True, dtype=<class 'numpy.float64'>, handle_unknown='error')

In [14]:
from sklearn.preprocessing import OneHotEncoder
# One-Hot 인코딩은 숫자값으로 나타낸 인덱스를 0,1 어레이로 나타내줌

In [19]:
items = ["TV", "냉장고", "전자렌지", "컴퓨터", "선풍기", "선풍기", "믹서", "믹서"]

# 먼저 숫자값으로 변환을 위해 LabelEncoder로 변환합니다.
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)   # 요소 8개짜리 시리즈
# 2차원 데이터로 변환
labels = labels.reshape(-1, 1)      # .T 안됨, 8행 1열로 변환
print(labels.shape)

# 라벨 인코딩 대신, items에 직접 튜플로 번호 붙여줘도 가능
# items = [("TV", 1), ("냉장고", 2)] 등

# One-Hot 인코딩 적용
oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)
print("One-Hot Encoding Data\n", oh_labels.toarray())   # array 형태로 출력
print("Dimensions of One-Hot Encoding Data\n", oh_labels.shape)

(8, 1)
One-Hot Encoding Data
 [[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
Dimensions of One-Hot Encoding Data
 (8, 6)


#### 판다스에서지원하는 원 핫 인코딩 API get_dummies()

In [22]:
import pandas as pd

df = pd.DataFrame({"item" : items})
pd.get_dummies(df)

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자렌지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0
