In [33]:
import pandas as pd

df = pd.DataFrame([['green', 'M', 10.1, 'class2'],
                   ['red', 'L', 13.5, 'class1'],
                   ['blue', 'XL', 15.3, 'class2']])

df.columns = ['color', 'size', 'price', 'classlabel']
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,class2
1,red,L,13.5,class1
2,blue,XL,15.3,class2


---
### 순서가 있는 특성 매핑
>1) 학습 알고리즘이 순서 특성을 올바르게 인식하려면, 범주형의 문자열 값 ==> 정수로 변환

>2) 매핑 함수를 직접 만들어야 한다.

In [34]:
size_mapping = {'XL': 3,
                'L': 2,
                'M': 1}

df['size'] = df['size'].map(size_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,class2
1,red,2,13.5,class1
2,blue,3,15.3,class2


### 나중에 정수값을 다시 원래 문자열 표현으로 변경 ==> 거꾸로 매핑하는 딕셔너리

In [18]:
inv_size_mapping = {v:k for k, v in size_mapping.items()}
print(inv_size_mapping)

df['size'].map(inv_size_mapping)
print(df)

df['size'] = df['size'].map(inv_size_mapping)
df

{3: 'XL', 2: 'L', 1: 'M'}
   color  size  price classlabel
0  green     1   10.1     class2
1    red     2   13.5     class1
2   blue     3   15.3     class2


Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,class2
1,red,L,13.5,class1
2,blue,XL,15.3,class2


### 클래스 레이블 인코딩
>1) enumerate 이용: 반복 가능한 객체(문자열, 리스트, 넘파이 배열) 입력으로 받아 인덱스와 값의 튜플을 차례로 반환.

In [35]:
import numpy as np
class_mapping = {label:idx for idx, label in enumerate(np.unique(df['classlabel']))}
class_mapping

df['classlabel'] = df['classlabel'].map(class_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,1
1,red,2,13.5,0
2,blue,3,15.3,1


### 나중에 정수값을 다시 원래 문자열 표현으로 변경 ==> 거꾸로 매핑하는 딕셔너리

In [36]:
inv_class_mapping = {v:k for k,v in class_mapping.items()}
df['classlabel'] = df['classlabel'].map(inv_class_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,class2
1,red,2,13.5,class1
2,blue,3,15.3,class2


### 사이킷런에 구현된 LabelEncoder 클래스를 사용

In [None]:
from