In [13]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

### 범주형 > 수치형 : 라벨인코딩

In [14]:
df2 = pd.DataFrame([
                    ['green', 'M', 10.1, 'class1'],
                    ['red', 'L', 13.5, 'class2'],
                    ['blue', 'XL', 15.3, 'class1'],
                ])
df2.columns = ['color', 'size', 'price', 'classlabel']
df2

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,class1
1,red,L,13.5,class2
2,blue,XL,15.3,class1


In [15]:
# np.unique(df2['classlabel'], return_counts = True)
# df2['classlabel'].unique()

# class_mapping = { 'class1' : 0, 'class2' : 1, 'class3' : 2} # 순위형 범주 데이터
class_mapping = {
                    label : idx for idx, label
                    in enumerate(np.unique(df2['classlabel']))
                }
class_mapping

df2['classlabel2'] = df2['classlabel'].map(class_mapping)
df2

Unnamed: 0,color,size,price,classlabel,classlabel2
0,green,M,10.1,class1,0
1,red,L,13.5,class2,1
2,blue,XL,15.3,class1,0


In [16]:
# v, k 순서 주의
# 수치형으로 바꿨던 범주형의 값을 다시 원상태(범주형)으로 쓰기
inv_class_mapping = { v : k for k, v in class_mapping.items() }
print(inv_class_mapping)
df2['classlabel2'] = df2['classlabel2'].map(inv_class_mapping)
df2

{0: 'class1', 1: 'class2'}


Unnamed: 0,color,size,price,classlabel,classlabel2
0,green,M,10.1,class1,class1
1,red,L,13.5,class2,class2
2,blue,XL,15.3,class1,class1


범주형 데이터 처리

In [17]:
from sklearn.preprocessing import LabelEncoder  # 범주형 -> 순위형 변경 도구
# 사이킷런의 라벨인코더가 범주형 > 수치형으로 바꿔주는 도구

class_le = LabelEncoder()
print( df2['classlabel'].values )
# y = class_le.fit_transform(df2['classlabel'].values)  # fit + transform
class_le.fit(df2['classlabel'].values)      # fit만
y = class_le.transform(df2['classlabel'].values)    # transform만
y

['class1' 'class2' 'class1']


array([0, 1, 0])

In [18]:
df2['classlabel'] = class_le.fit_transform(df2['classlabel'].values)
df2

Unnamed: 0,color,size,price,classlabel,classlabel2
0,green,M,10.1,0,class1
1,red,L,13.5,1,class2
2,blue,XL,15.3,0,class1


In [None]:
# class_le.inverse_transform(df2['classlabel'].values)

df2['classlabel'] = class_le.inverse_transform(df2['classlabel'].values)
df2

Unnamed: 0,color,size,price,classlabel,classlabel2
0,green,M,10.1,class1,class1
1,red,L,13.5,class2,class2
2,blue,XL,15.3,class1,class1


### 범주형 > 수치형 : 원핫인코딩

In [20]:
from sklearn.preprocessing import OneHotEncoder

In [None]:
X = df2[['color', 'price']].values
X
# color는 범주형이지만, 순위형이 아니므로 labelEncoding하면 안됌

array([['green', 10.1],
       ['red', 13.5],
       ['blue', 15.3]], dtype=object)

In [None]:
color_le = LabelEncoder()   # LabelEncoder는 색상에 적절하게 인코딩 되지 않음을 확인 > 1, 2, 0 순위 값
X[:, 0] = color_le.fit_transform(X[:, 0])
X

array([[1, 10.1],
       [2, 13.5],
       [0, 15.3]], dtype=object)

In [None]:
ohe = OneHotEncoder()   # 3개이므로, 3컬럼을 생성한 뒤 0으로 채우고, 1, 2, 0 번째를 1로 바꿈 > 순위가 없음
encoded = ohe.fit_transform(X[:, [0]]).toarray()    # 모든 행의 0번째 컬럼만 Encoding
print(encoded)

[[0. 1. 0.]
 [0. 0. 1.]
 [1. 0. 0.]]


In [28]:
# 판다스에 get_dummies로도 원핫 인코딩 가능함
pd.get_dummies(df2[['price', 'color']])
# price는 숫자라서 바꾸지 않고, color는 문자라서 이 것 만 T/F로 표시하는데, 이게 1/0인 원핫인코딩임

Unnamed: 0,price,color_blue,color_green,color_red
0,10.1,False,True,False
1,13.5,False,False,True
2,15.3,True,False,False
