#### 데이터 전처리 : 레이블 인코딩과 원핫 인코딩
* 기본적으로 사이킷런의 머신러닝 알고리즘은 문자열 값을 입력 값으로 허락하지 않는다.

그렇기 때문에 모든 문자열 값들을 숫자 형으로 인코딩하는 전처리 작업 후에 머신러닝 모델에 학습을 시켜야한다.
이렇게 인코딩 하는 방식에는 크게 레이블 인코딩(Lable encoding)과 원-핫 인코딩(One Hot Encoding)이 있다.

#### sklearn.preprocessing.LabelEncoder
* class sklearn.preprocessing.LabelEncoder

In [1]:
from sklearn.preprocessing import LabelEncoder
items = ['TV','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']
# LabelEncoder를 객체로 생성한 후, fit과 transform으로 label 인코딩 수행
encoder = LabelEncoder()

labels = encoder.fit_transform(items)
print(f'인코딩 변환값 : {labels}')
print('인코딩 클래스 : ', encoder.classes_)

인코딩 변환값 : [0 3 4 2 2 1 1]
인코딩 클래스 :  ['TV' '믹서' '선풍기' '전자렌지' '컴퓨터']


#### sklearn.preprocessing.OneHotEncoder
* class sklearn.preprocessing.OneHotEncoder(*, categories='auto', drop=None, sparse=True, dtype=<class 'numpy.float64'>, handle_unknown='error', min_frequency=None, max_categories=None)[source]

#### OneHotEncoding
* 간단하게 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시하는 방법

In [3]:
 from sklearn.preprocessing import OneHotEncoder

In [4]:
import numpy as np
items = ['TV','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']
items = np.array(items).reshape(-1,1)

oh_encoder = OneHotEncoder()
oh_encoder.fit(items)
oh_labels = oh_encoder.transform(items)
print('원 - 핫 인코딩 데이터 : ', oh_labels.toarray())
print('원 - 핫 인코딩 데이터 차원 : ', oh_labels.shape)

원 - 핫 인코딩 데이터 :  [[1. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]
 [0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 1. 0. 0. 0.]]
원 - 핫 인코딩 데이터 차원 :  (7, 5)


In [5]:
encoder.inverse_transform([1,1,1,2,3,4,])

array(['믹서', '믹서', '믹서', '선풍기', '전자렌지', '컴퓨터'], dtype='<U4')

In [6]:
from sklearn.preprocessing import LabelEncoder , OneHotEncoder
import numpy as np

# items = [1,2,3,4,4,5,5]
# items = ['TV','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']
items = [['TV' , 1],['전자렌지' , 2],['컴퓨터',3],['선풍기',4],['선풍기', 4],['믹서',5],['믹서',5]]
items_1 = [['TV' , 1],['전자렌지' , 2],['컴퓨터',3],['선풍기', 4],['믹서',5]]
# items = np.array(items).reshape(-1,1)
oh_encoder = OneHotEncoder()
oh_encoder.fit(items_1)
oh_labels = oh_encoder.transform(items)
print('원 - 핫 인코딩 데이터 : ', oh_labels.toarray())
print('원 - 핫 인코딩 데이터 차원 : ', oh_labels.shape)

원 - 핫 인코딩 데이터 :  [[1. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0. 1. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 1.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 1.]]
원 - 핫 인코딩 데이터 차원 :  (7, 10)


In [7]:
from sklearn.preprocessing import LabelEncoder , OneHotEncoder
import numpy as np

items = ['TV','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']

encoder = LabelEncoder()

encoder.fit(items)
labels = encoder.transform(items)
labels = labels.reshape(-1,1)
# type(labels)

oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)
print('원 - 핫 인코딩 데이터 : ', oh_labels.toarray())
print('원 - 핫 인코딩 데이터 차원 : ', oh_labels.shape)

원 - 핫 인코딩 데이터 :  [[1. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]
 [0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 1. 0. 0. 0.]]
원 - 핫 인코딩 데이터 차원 :  (7, 5)


In [8]:
import pandas as pd

df = pd.DataFrame({'items': ['TV','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']})

df

Unnamed: 0,items
0,TV
1,전자렌지
2,컴퓨터
3,선풍기
4,선풍기
5,믹서
6,믹서


In [10]:
from sklearn.preprocessing import LabelEncoder , OneHotEncoder
import numpy as np

encoder = LabelEncoder()

encoder.fit(df['items'])
labels = encoder.transform(df['items'])
labels = labels.reshape(-1,1)
labels

array([[0],
       [3],
       [4],
       [2],
       [2],
       [1],
       [1]])

In [11]:
oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)
print('원 - 핫 인코딩 데이터 : ', oh_labels.toarray())
print('원 - 핫 인코딩 데이터 차원 : ', oh_labels.shape)

원 - 핫 인코딩 데이터 :  [[1. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]
 [0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 1. 0. 0. 0.]]
원 - 핫 인코딩 데이터 차원 :  (7, 5)


In [12]:
import pandas as pd

df = pd.DataFrame({'items': ['TV','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']})

pd.get_dummies(df['items'])

Unnamed: 0,TV,믹서,선풍기,전자렌지,컴퓨터
0,1,0,0,0,0
1,0,0,0,1,0
2,0,0,0,0,1
3,0,0,1,0,0
4,0,0,1,0,0
5,0,1,0,0,0
6,0,1,0,0,0
