인코딩 -> 레이블인코딩 / 원핫인코딩
1) Label Encoding (레이블인코딩) : 카테고리 피처를 코드형 숫자 값으로 변환\
숫자로 되어 있어 잘못하면 가중치로 인식하여 값에 왜곡이 생기게 된다.\
레이블 인코딩은 선형 회귀와 같은 ML알고리즘에는 적용하지 않는다. \
트리 계열의 ML 알고리즘은 숫자의 이러한 특성을 반영하지 않으므로 레이블 인코딩도 별문제가 없다.\

2) One-Hot Encoding ,get_dummies() (원핫인코딩) : 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0 표시\
행 형태로 돼 있는 피처의 고유 값을 열 형태로 차원을 변환한 뒤, 고유 값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0 표시\
사이킷런에서 OneHotEncoder클래스 사용가능\
pandas에서 get_dummies() 사용가능

In [1]:
# LabelEncoder import
from sklearn.preprocessing import LabelEncoder
import numpy as np

items=['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '믹서', '믹서']

# Encoding 모형을 Label Encoding으로 설정
encoder = LabelEncoder()

# 학습 및 변환
labels = encoder.fit_transform(items)

print(labels)

[0 1 4 5 3 2 2]


In [2]:
# 변환된 숫자(코드)에 대응되는 범주형 변수값 출력하기
print(encoder.classes_)

['TV' '냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터']


In [3]:
# 숫자(코드)를 범주형 변수로 역변환
print(encoder.inverse_transform([0,1,4,5,3,2,2]))

['TV' '냉장고' '전자레인지' '컴퓨터' '선풍기' '믹서' '믹서']


In [4]:
# OneHotEncoder import
from sklearn.preprocessing import OneHotEncoder

# One-hot encoding을 준비하기 위해 열이 하나인 2차원 배열로 구조 변환
labels = labels.reshape(-1, 1)
labels

array([[0],
       [1],
       [4],
       [5],
       [3],
       [2],
       [2]])

In [5]:
# Encoding 모형을 One-hot encoding으로 설정
oh_encoder = OneHotEncoder()
oh_labels = oh_encoder.fit_transform(labels)
print(oh_labels)

  (0, 0)	1.0
  (1, 1)	1.0
  (2, 4)	1.0
  (3, 5)	1.0
  (4, 3)	1.0
  (5, 2)	1.0
  (6, 2)	1.0


In [6]:
# Encoding 결과를 2차원 배열로 변환
print(oh_labels.toarray())

[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]


In [7]:
# get_dummies() 사용
import pandas as pd
items = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '믹서', '믹서']
df = pd.DataFrame({'item':items})

In [8]:
df

Unnamed: 0,item
0,TV
1,냉장고
2,전자레인지
3,컴퓨터
4,선풍기
5,믹서
6,믹서


In [9]:
print(pd.get_dummies(df))

   item_TV  item_냉장고  item_믹서  item_선풍기  item_전자레인지  item_컴퓨터
0        1         0        0         0           0         0
1        0         1        0         0           0         0
2        0         0        0         0           1         0
3        0         0        0         0           0         1
4        0         0        0         1           0         0
5        0         0        1         0           0         0
6        0         0        1         0           0         0
