In [41]:
""" 순서가 있는 특성과 순서가 없는 특성 데이터셋 만들기 """
import pandas as pd

df = pd.DataFrame([
    ['green', 'M', 10.1, 'class1'],
    ['red', 'L', 13.5, 'class2'],
    ['blue', 'XL', 15.3, 'class1']])
df.columns = ['color', 'size', 'price', 'classlabel']
df
# 순서가 없는 color 특성과
# 순서가 있는 size 특성, 수치형 특성 price가 있다.

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,class1
1,red,L,13.5,class2
2,blue,XL,15.3,class1


In [42]:
""" size 특성 순서 매핑하기 """
size_mapping = {
    'XL' : 3,
    'L' : 2,
    'M' : 1}
df['size'] = df['size'].map(size_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,class1
1,red,2,13.5,class2
2,blue,3,15.3,class1


In [43]:
""" size 특성 순서 매핑 되돌리기"""
inv_size_mapping = {v: k for k, v in size_mapping.items()}
# 중괄호 안에 포함된 for 반복문을 딕셔너리 내포라고 한다.
df['size'] = df['size'].map(inv_size_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,class1
1,red,L,13.5,class2
2,blue,XL,15.3,class1


In [44]:
""" 클래스 레이블 인코딩 """
import numpy as np

df['size'] = df['size'].map(size_mapping)
class_mapping = {label : idx for idx, label in
                enumerate(np.unique(df['classlabel']))}
# enumerate는 반복 가능한 객체(문자열, 리스트, 넘파이 배열 등)를 입력으로 받아 인덱스와 값의 튜플을
# 차례대로 반환하는 파이썬 내장함수이다.
print(class_mapping)

df['classlabel'] = df['classlabel'].map(class_mapping)
df

{'class1': 0, 'class2': 1}


Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,0
1,red,2,13.5,1
2,blue,3,15.3,0


In [45]:
""" 클래스 레이블 인코딩 되돌리기 """

inv_class_mapping = {v : k for k, v in class_mapping.items()}
df['classlabel'] = df['classlabel'].map(inv_class_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,class1
1,red,2,13.5,class2
2,blue,3,15.3,class1


In [46]:
""" 사이킷런 LabelEncoder로 클래스 레이블 인코딩 """
from sklearn.preprocessing import LabelEncoder

class_le = LabelEncoder()
y = class_le.fit_transform(df['classlabel'].values)
# fit_transform은 fit과 transform을 합쳐 놓은 단축 메서드이다.
# class_le.inverse_transform(y)를 통해 원본으로 되돌릴 수 있다.
y

array([0, 1, 0])

In [47]:
""" 순서가 없는 특성에 원-핫 인코딩 적용 """

"""
LabelEncoder는 타깃 레이블을 인코딩하기 위한 클래스로,
입력 데이터로 1차원 배열을 기대한다. <= color 열만 추출해서 LabelEncoder 객체에 주입하는 이유
"""

X = df[['color', 'size', 'price']].values
color_le = LabelEncoder()
X[:, 0] = color_le.fit_transform(X[:,0])
X

array([[1, 1, 10.1],
       [2, 2, 13.5],
       [0, 3, 15.3]], dtype=object)

In [48]:
""" ColumnmTransformer로 한번에 적용하기 """
# 판다스 데이터 프레임의 열마다 다른 변환을 적용하게 도와주는 ColumnTransformer
# 범주형 데이터를 정수로 인코딩하는 OrdinalEncoder (순서가 없는 범주형 특성을 정수로 변환하는 클래스임을 주의)
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OrdinalEncoder

ord_enc = OrdinalEncoder(dtype = np.int)
col_trans = ColumnTransformer([('ord_enc', ord_enc, ['color'])])
X_trans = col_trans.fit_transform(df)
# col_trans.named_transformers_['ord_enc'].inverse_transform(X_tran) 
# 되돌리기
X_trans

array([[1],
       [2],
       [0]])

In [49]:
""" OneHotEncoder로 더미값 만들기 """
from sklearn.preprocessing import OneHotEncoder

oh_enc = OneHotEncoder(categories = 'auto')
col_trans = ColumnTransformer([('oh_enc', oh_enc, [0])], remainder = 'passthrough')
col_trans.fit_transform(X)
# OneHotEncoder는 데이터 셋에 있는 고유한 정수 또는 문자열을 카테고리로 사용한다.
# OneHotEncoder의 transform 메소드는 기본적으로 희소 행렬 (Sparse matrix, 값이 대부분 0)을 반환한다.

array([[0.0, 1.0, 0.0, 1, 10.1],
       [0.0, 0.0, 1.0, 2, 13.5],
       [1.0, 0.0, 0.0, 3, 15.3]], dtype=object)

In [50]:
""" pandas의 get_dummies로 더미값 만들기 """

pd.get_dummies(df[['price', 'color', 'size']])

Unnamed: 0,price,size,color_blue,color_green,color_red
0,10.1,1,0,1,0
1,13.5,2,0,0,1
2,15.3,3,1,0,0


In [51]:
""" get_dummies에서 변수 간의 상관관계 감소시키기 """

pd.get_dummies(df[['price', 'color', 'size']], drop_first = True)

Unnamed: 0,price,size,color_green,color_red
0,10.1,1,1,0
1,13.5,2,0,1
2,15.3,3,0,0


In [56]:
""" OneHotEncoder로 변수 간의 상관관계 감소시키기 """

ohe = OneHotEncoder(categories = 'auto')
ohe.fit_transform(X).toarray()[:, 1:]
# 그냥 슬라이싱 해버린다.

array([[1., 0., 1., 0., 0., 1., 0., 0.],
       [0., 1., 0., 1., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1., 0., 0., 1.]])