In [1]:
# 라벨 인코딩(Label Encoding)
# - 문자열 데이터를 숫자형 데이터로 변환
# - map() / scikit-learn preprocessing 모듈의 LabelEncoder 클래스 사용
import pandas as pd
data = {'Class':['A','B','C','D']}
df = pd.DataFrame(data)
df

Unnamed: 0,Class
0,A
1,B
2,C
3,D


In [2]:
df['Class'] = df['Class'].map({'A':1, 'B':2, 'C':3, 'D':4})
df

Unnamed: 0,Class
0,1
1,2
2,3
3,4


In [3]:
from sklearn.preprocessing import LabelEncoder
items = ['A','B','C','D']
encoder = LabelEncoder() # 객체 생성

In [4]:
# fit(): 데이터 변환을 위한 기준 정보 설정
# transform(): fit을 기준으로 데이터 변환
encoder.fit(items)
labels = encoder.transform(items)

In [5]:
labels

array([0, 1, 2, 3])

In [6]:
# 디코딩
orgins = encoder.inverse_transform([0,1,2,3])
orgins

array(['A', 'B', 'C', 'D'], dtype='<U1')

In [7]:
# 원-핫 인코딩(One-Hot Ecoding):
# - 행 형태로 되어 있는 값들을 열 형태로 차원을 변환한 뒤, 각 값에 해당하는
# 컬럼에만 1을 표시하고 나머지 컬럼에는 0을 표시(더미 변수)
# get_dummise() / scikit-learn preprocessing 모듈의 OneHotEncoder
# 먼저 숫자로 변환해야 하고, 2차원 레이블로 만들어야 사용할 수 있다.
# 배열 형
from sklearn.preprocessing import LabelEncoder
import numpy as np
items = ['A','B','C','D']
encoder = LabelEncoder() # 객체 생성
encoder.fit(items)
labels = encoder.transform(items).reshape(-1,1)
labels

array([[0],
       [1],
       [2],
       [3]])

In [8]:
print(labels.ndim,labels.shape)

2 (4, 1)


In [10]:
# 원-핫 인코딩 적용
# 스펠링 암기 필수
from sklearn.preprocessing import OneHotEncoder
oh_encoder = OneHotEncoder() # sparse = False 배열 확인 옵션

In [11]:
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)

In [12]:
oh_labels

<4x4 sparse matrix of type '<class 'numpy.float64'>'
	with 4 stored elements in Compressed Sparse Row format>

In [13]:
# pandas의 get_dummies() 함수 사용
# 데이터프레임 형태
import pandas as pd
items = ['A','B','C','D']
items_df = pd.DataFrame({'item':items})
items_df

Unnamed: 0,item
0,A
1,B
2,C
3,D


In [14]:
pd.get_dummies(items_df)

Unnamed: 0,item_A,item_B,item_C,item_D
0,True,False,False,False
1,False,True,False,False
2,False,False,True,False
3,False,False,False,True


In [15]:
pd.get_dummies(items_df,drop_first = True)

Unnamed: 0,item_B,item_C,item_D
0,False,False,False
1,True,False,False
2,False,True,False
3,False,False,True
