In [1]:
import pandas as pd

df = pd.DataFrame([['green', 'M', 10.1, 'class2'],
                   ['red', 'L', 13.5, 'class1'],
                   ['blue', 'XL', 15.3, 'class2']])

df.columns = ['color', 'size', 'price', 'classlabel']
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,class2
1,red,L,13.5,class1
2,blue,XL,15.3,class2


---
### 순서가 있는 특성 매핑
>1) 학습 알고리즘이 순서 특성을 올바르게 인식하려면, 범주형의 문자열 값 ==> 정수로 변환

>2) 매핑 함수를 직접 만들어야 한다.

In [2]:
size_mapping = {'XL': 3,
                'L': 2,
                'M': 1}

df['size'] = df['size'].map(size_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,class2
1,red,2,13.5,class1
2,blue,3,15.3,class2


### 나중에 정수값을 다시 원래 문자열 표현으로 변경 ==> 거꾸로 매핑하는 딕셔너리

In [3]:
inv_size_mapping = {v:k for k, v in size_mapping.items()}
print(inv_size_mapping)

df['size'].map(inv_size_mapping)
print(df)

df['size'] = df['size'].map(inv_size_mapping)
df

{3: 'XL', 2: 'L', 1: 'M'}
   color  size  price classlabel
0  green     1   10.1     class2
1    red     2   13.5     class1
2   blue     3   15.3     class2


Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,class2
1,red,L,13.5,class1
2,blue,XL,15.3,class2


### 클래스 레이블 인코딩
>1) enumerate 이용: 반복 가능한 객체(문자열, 리스트, 넘파이 배열) 입력으로 받아 인덱스와 값의 튜플을 차례로 반환.

In [4]:
import numpy as np
class_mapping = {label:idx for idx, label in enumerate(np.unique(df['classlabel']))}
class_mapping

df['classlabel'] = df['classlabel'].map(class_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,1
1,red,L,13.5,0
2,blue,XL,15.3,1


### 나중에 정수값을 다시 원래 문자열 표현으로 변경 ==> 거꾸로 매핑하는 딕셔너리

In [5]:
inv_class_mapping = {v:k for k,v in class_mapping.items()}
df['classlabel'] = df['classlabel'].map(inv_class_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,class2
1,red,L,13.5,class1
2,blue,XL,15.3,class2


### 사이킷런에 구현된 LabelEncoder 클래스를 사용
>1) fit_transform: fit 메서드 + transform 메서드

>2) inverse_transform: 정수 클래스 레이블 ==> 원본 문자열 

In [8]:
from sklearn.preprocessing import LabelEncoder
class_le = LabelEncoder()
y = class_le.fit_transform(df['classlabel'])
print(y)
inverse = class_le.inverse_transform(y)
print(inverse)

[1 0 1]
['class2' 'class1' 'class2']


## 순서가 없는 특성에 원-핫 인코딩 적용
>1) LabelEncoder: 입력 데이터로 1차원 배열을 기대

>2) 데이터셋에 변경해야 할 열이 많다면 ==> OrdinalEncoder & ColumnTransformer 을 이용하면 여러 개의 열을 한번에 정수로 변환 가능

>3) 정수로 인코딩된 값을 다시 문자열로 변환 ==> named_transformers_

In [10]:
x = df[['color', 'size', 'price' ]].values
color_le = LabelEncoder()
x[:,0] = color_le.fit_transform(x[:,0])
print(x)

[[1 'M' 10.1]
 [2 'L' 13.5]
 [0 'XL' 15.3]]


In [22]:
from sklearn.preprocessing import OrdinalEncoder
from sklearn.compose import ColumnTransformer
ord_enc = OrdinalEncoder(dtype=np.int)  ## np.int error 발생: 실수값이 포함.
x = ord_enc.fit_transform(df)
print(x)

## 변경하고자하는 열의 리스트
## ColumnTransformer(트랜스포머의 이름, 변환기, 변환할 열의 리스트)
col_trans = ColumnTransformer([('ord_enc', ord_enc, ['color', 'size', 'classlabel'])])
x_trans = col_trans.fit_transform(df)
print(x_trans)

## 정수로 인코딩된 값을 다시 문자열로 변환
col_trans.named_transformers_['ord_enc'].inverse_transform(x_trans)

[[1 1 0 1]
 [2 0 1 0]
 [0 2 2 1]]
[[1 1 1]
 [2 0 0]
 [0 2 1]]


Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  ord_enc = OrdinalEncoder(dtype=np.int)  ## np.int error 발생: 실수값이 포함.


array([['green', 'M', 'class2'],
       ['red', 'L', 'class1'],
       ['blue', 'XL', 'class2']], dtype=object)