# label encoding

### sklearn.preprocessing.LabelEncoder
* class sklearn.preprocessing.LabelEncoder
> https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html?highlight=labelencoding

##### Attributes::
##### classes : ndarray of shape (n_classes,) \
    Holds the label for each class.

In [1]:
from sklearn.preprocessing import LabelEncoder

items = ['TV', '냉장고', '전자렌지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

# LabelEncoder를 객체로 생성한 후, fit()과 transform()으로 label 인코딩 수행
encoder = LabelEncoder()

encoder.fit(items) 
labels = encoder.transform(items)

# 위 두 줄을 한 줄로 이렇게 쓸 수도 있음
labels = encoder.fit_transform(items)

print(labels) # 인코딩 반환 값 출력 # [0 1 4 5 3 3 2 2]
print(encoder.classes_) # 인코딩 클래스 값 출력 # ['TV' '냉장고' '믹서' '선풍기' '전자렌지' '컴퓨터']
print(encoder.inverse_transform([4, 5, 2, 0, 1, 1, 3, 3])) # 디코딩 원본 값 출력
# inverse_transform : Transform labels back to original encoding.
# label_encoding 해준 것을 decoding 해주는 것
# inverse_transform(y)
# y : ndarray of shape (n_samples,)

[0 1 4 5 3 3 2 2]
['TV' '냉장고' '믹서' '선풍기' '전자렌지' '컴퓨터']
['전자렌지' '컴퓨터' '믹서' 'TV' '냉장고' '냉장고' '선풍기' '선풍기']


In [12]:
encoder.inverse_transform([1, 1, 1, 2, 3, 4, ])
# decoding을 해주는 것
# -> label encoding은 label도 해줘야함
# label encoding해서 0, 1, 2,,,로 바꾸고ㅇㅇ
# 예측하면 숫자로 나오는데 이걸 decoding 해줌으로 해당 항목이 뭔지 볼 수 있는 것

array(['냉장고', '냉장고', '냉장고', '믹서', '선풍기', '전자렌지'], dtype='<U4')

# one hot encoding

### sklearn.preprocessing.OneHotEncoder
* class sklearn.preprocessing.OneHotEncoder(*, categories='auto', drop=None, sparse=True, dtype=<class 'numpy.float64'>, handle_unknown='error', min_frequency=None, max_categories=None)
> https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html?highlight=onehotenco#sklearn.preprocessing.OneHotEncoder

In [10]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items = ['TV', '냉장고', '전자렌지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

oh_encoder = OneHotEncoder()
oh_encoder.fit(items) # 이 데이터가 single feature거나 array면 reshape를 써줘라 라는 오류가 났음
oh_labels = oh_encoder.transform(items)
print('원 - 핫 인코딩 데이터 : ', oh_labels.toarray())
print('원 - 핫 인코딩 데이터 차원 : ', oh_labels.shape)

ValueError: Expected 2D array, got 1D array instead:
array=['TV' '냉장고' '전자렌지' '컴퓨터' '선풍기' '선풍기' '믹서' '믹서'].
Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.

In [1]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items = ['TV', '냉장고', '전자렌지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']
items = items.reshape(-1, 1) # 그래서 이 줄을 추가 해줬더니 list는 reshape가 안된대

oh_encoder = OneHotEncoder()
oh_encoder.fit(items)
oh_labels = oh_encoder.transform(items)
print('원 - 핫 인코딩 데이터 : ', oh_labels.toarray())
print('원 - 핫 인코딩 데이터 차원 : ', oh_labels.shape)

AttributeError: 'list' object has no attribute 'reshape'

In [2]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items = ['TV', '냉장고', '전자렌지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']
items = np.array(items).reshape(-1, 1) # 그래서 array로 바꿔줄거야 
                                        # 근데 이거 교수님은 원핫 인코딩으로 안나오던데 왜 나는 잘 나오지
                                        # 아 교수님이 이거 (1, -1)로 해서 오류가 나온듯

oh_encoder = OneHotEncoder()
oh_encoder.fit(items)
oh_labels = oh_encoder.transform(items)
print('원 - 핫 인코딩 데이터 : ', oh_labels.toarray())
print('원 - 핫 인코딩 데이터 차원 : ', oh_labels.shape)

원 - 핫 인코딩 데이터 :  [[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원 - 핫 인코딩 데이터 차원 :  (8, 6)


In [2]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items = [1, 2, 3, 4, 4, 5, 5]
# items = ['TV', '냉장고', '전자렌지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']
# items = [['TV', 1], ['냉장고', 2], ['전자렌지', 3], ['컴퓨터', 4], ['선풍기', 5], ['선풍기', 5], ['믹서', 6], ['믹서', 6]]

items = np.array(items).reshape(-1, 1) # -1, 1은 잘나옴

oh_encoder = OneHotEncoder()
oh_encoder.fit(items)
oh_labels = oh_encoder.transform(items)
print('원 - 핫 인코딩 데이터 : ', oh_labels.toarray())
print('원 - 핫 인코딩 데이터 차원 : ', oh_labels.shape)

원 - 핫 인코딩 데이터 :  [[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원 - 핫 인코딩 데이터 차원 :  (8, 6)


In [9]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items = [1, 2, 3, 4, 4, 5, 5]
# items = ['TV', '냉장고', '전자렌지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']
# items = [['TV', 1], ['냉장고', 2], ['전자렌지', 3], ['컴퓨터', 4], ['선풍기', 5], ['선풍기', 5], ['믹서', 6], ['믹서', 6]]

items = np.array(items).reshape(1, -1) # 1, -1은 잘 안나옴

oh_encoder = OneHotEncoder()
oh_encoder.fit(items)
oh_labels = oh_encoder.transform(items)
print('원 - 핫 인코딩 데이터 : ', oh_labels.toarray())
print('원 - 핫 인코딩 데이터 차원 : ', oh_labels.shape)

원 - 핫 인코딩 데이터 :  [[1. 1. 1. 1. 1. 1. 1.]]
원 - 핫 인코딩 데이터 차원 :  (1, 7)


In [7]:
# 위와 같이 items = [['TV', 1], ['냉장고', 2], ['전자렌지', 3], ['컴퓨터', 4], ['선풍기', 5], ['선풍기', 5], ['믹서', 6], ['믹서', 6]]
# 이렇게 바꿔주는 게 너무 귀찮은 과정이니까 
# encoder의 과정을 거치면 원-핫 인코딩을 편하게 할 수 있다.

from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import LabelEncoder
import numpy as np

items = ['TV', '냉장고', '전자렌지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']
#items = [['TV', 1], ['냉장고', 2], ['전자렌지', 3], ['컴퓨터', 4], ['선풍기', 5], ['선풍기', 5], ['믹서', 6], ['믹서', 6]]

# >> 여기 부분이 encoder의 과정
# 먼저 숫자값으로 변환을 위해 LabelEncoder로 변환
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
# 2차원 데이터로 변환
labels = labels.reshape(-1, 1) # reshape는 행과 열을 바꿔주는 것, 의미 없음
# <<

# 원-핫 인코딩을 적용
oh_encoder = OneHotEncoder()
oh_encoder.fit(labels) # fit에 labels를 넣었음, fit하면 0, 1로 바뀜
oh_labels = oh_encoder.transform(labels)
print('원 - 핫 인코딩 데이터 : ', oh_labels.toarray())
print('원 - 핫 인코딩 데이터 차원 : ', oh_labels.shape)

원 - 핫 인코딩 데이터 :  [[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원 - 핫 인코딩 데이터 차원 :  (8, 6)


In [7]:
# 이거 왜 하셨는지 모르겠음 
# fit과 transfom 보여주려고 하신 것 같은데 내가 이해 못함 

# fit(y) : Fit label encoder.
# transform(y) : Transform labels to normalized encoding.

from sklearn.preprocessing import OneHotEncoder
import numpy as np

# items = [1, 2, 3, 4, 4, 5, 5]
# items = ['TV', '냉장고', '전자렌지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']
items = [['TV', 1], ['냉장고', 2], ['전자렌지', 3], ['컴퓨터', 4], ['선풍기', 5], ['선풍기', 5], ['믹서', 6], ['믹서', 6]]
items_1 = [['TV', 1], ['냉장고', 2], ['전자렌지', 3], ['컴퓨터', 4], ['선풍기', 5], ['믹서', 6]]

# items = np.array(items).reshape(-1, 1)

oh_encoder = OneHotEncoder()
oh_encoder.fit(items_1)
oh_labels = oh_encoder.transform(items)
print('원 - 핫 인코딩 데이터 : ', oh_labels.toarray())
print('원 - 핫 인코딩 데이터 차원 : ', oh_labels.shape)

원 - 핫 인코딩 데이터 :  [[1. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 1.]]
원 - 핫 인코딩 데이터 차원 :  (8, 12)
OneHotEncoder()


In [11]:
# 판다스에서 지원하는 원-핫 인코딩 API get_dummies()

import pandas as pd

df = pd.DataFrame({'item' : ['TV', '냉장고', '전자렌지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']})
df

Unnamed: 0,item
0,TV
1,냉장고
2,전자렌지
3,컴퓨터
4,선풍기
5,선풍기
6,믹서
7,믹서


In [12]:
pd.get_dummies(df)

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자렌지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


In [13]:
pd.get_dummies(df['item'])

Unnamed: 0,TV,냉장고,믹서,선풍기,전자렌지,컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


In [19]:
pd.get_dummies(df['item']).iloc[:, 0] # 첫번째 가져와서 보는 중

0    1
1    0
2    0
3    0
4    0
5    0
6    0
7    0
Name: TV, dtype: uint8

In [26]:
# 위 방법을 sklearn의 onehot encoding을 이용해서 할 수도 있음
from sklearn.preprocessing import OneHotEncoder
import numpy as np

encoder = LabelEncoder()

encoder.fit(df['item'])
labels = encoder.transform(df['item'])
labels = labels.reshape(-1,1)
print(labels)

oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)
print('원 - 핫 인코딩 데이터 : ', oh_labels.toarray())
print('원 - 핫 인코딩 데이터 차원 : ', oh_labels.shape)

[[0]
 [1]
 [4]
 [5]
 [3]
 [3]
 [2]
 [2]]
원 - 핫 인코딩 데이터 :  [[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원 - 핫 인코딩 데이터 차원 :  (8, 6)


In [None]:
# 원칙은 문자를 입력받으면 숫자로 변환해야 한다. 
# sklearn에선 label, onehot으로 바꾼대
# pandas에선?
# pytorch에선?
# tensor flow에선?
# 이렇게 생각을 해보는 것

# OneHotEncoing은 하나의 벡터행렬로 만들어주는 것