# One-hot encoding

## scikit-learn OneHotEncoder 사용
- 입력 값으로 2차원 데이터가 필요하다.
- 원-핫 인코딩의 결과는 밀집 행렬(Dense Matrix)이기 때문에 다시 희소 행렬(Parse Matrix)로 변환해야된다.

In [4]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

maker = ['Samsung','LG','Apple','SK']
maker = np.array(maker).reshape(-1,1)
print(maker)
encoder = OneHotEncoder()
encoder.fit(maker) #인코딩을 위한 준비
one_hot = encoder.transform(maker) # fit에 의해 취압된 정보를 바탕으로 인코딩 실행
# fit_transform() 함수를 이용해 fit 과 transform을 동시에 실행할 수도 있다.

print('원-핫 인코딩 결과(밀집행렬)')
print(one_hot)
print()
print('원-핫 인코딩 결과(희소행렬)')
print(one_hot.toarray())

[['Samsung']
 ['LG']
 ['Apple']
 ['SK']]
원-핫 인코딩 결과(밀집행렬)
  (0, 3)	1.0
  (1, 1)	1.0
  (2, 0)	1.0
  (3, 2)	1.0

원-핫 인코딩 결과(희소행렬)
[[0. 0. 0. 1.]
 [0. 1. 0. 0.]
 [1. 0. 0. 0.]
 [0. 0. 1. 0.]]


### OneHotEncoder 데이터 프레임에 적용

In [12]:
import pandas as pd
df = pd.DataFrame({'maker':['Samsung','LG','Apple','SK']})
encoder = OneHotEncoder()
encoded = encoder.fit_transform(df['maker'].values.reshape(-1,1))
encoded = encoded.toarray().astype(int)
print(encoded)
col_list = np.sort(df['maker'].unique())
col_list = ['maker-' + col for col in col_list]
print(col_list)
df[col_list] = encoded
df.drop('maker',axis=1,inplace= True)
df

[[0 0 0 1]
 [0 1 0 0]
 [1 0 0 0]
 [0 0 1 0]]
['maker-Apple', 'maker-LG', 'maker-SK', 'maker-Samsung']


Unnamed: 0,maker-Apple,maker-LG,maker-SK,maker-Samsung
0,0,0,0,1
1,0,1,0,0
2,1,0,0,0
3,0,0,1,0


## Pandas를 이용한 원-핫 인코딩

In [13]:
import pandas as pd
df = pd.DataFrame({'maker':['Samsung','LG','Apple','SK']})
pd.get_dummies(df)

Unnamed: 0,maker_Apple,maker_LG,maker_SK,maker_Samsung
0,False,False,False,True
1,False,True,False,False
2,True,False,False,False
3,False,False,True,False


# Label Encoding

## scikit-learn LabelEncoder 사용

In [14]:
from sklearn.preprocessing import LabelEncoder

language = ['Java','Python','C#','Pascal']
encoder = LabelEncoder()
labels = encoder.fit_transform(language)
print('라벨 인코딩 결과')
print(labels)

라벨 인코딩 결과
[1 3 0 2]


### Label encoding 데이터 프레임에 적용

In [18]:
language = ['Java','Python','C#','Pascal']
df = pd.DataFrame({'language':language})
display(df)
df['language'] = LabelEncoder().fit_transform(df['language'])
df

Unnamed: 0,language
0,Java
1,Python
2,C#
3,Pascal


Unnamed: 0,language
0,1
1,3
2,0
3,2


## Pandas를 이용한 라벨 인코딩

In [22]:
language = ['Java','Python','C#','Pascal']
df = pd.DataFrame({'language': language})
map_data = { 'Java':0, 'Python':1, 'C#':2 , 'Pascal':3 }
map_data = { col: i for i,col in enumerate(df['language']) }
df['language'] = df['language'].map(map_data)
df


Unnamed: 0,language
0,0
1,1
2,2
3,3
