# ✅범주형 데이터 다루기

> * 머신러닝 알고리즘은 문자열 값을 입력 값으로 받아들이지 않음

>  => **문자열 값들을 숫자 형으로 인코딩한 이후 머신러닝 학습 진행해야함**

In [45]:
import pandas as pd
import numpy as np

df = pd.DataFrame([
                    ['pink','M',14,'class1'],
                    ['orange','S',8,'class2'],
                    ['skyblue','L',19,'class1']
                ])
df.columns = ['color','size','price','classlabel']
df

Unnamed: 0,color,size,price,classlabel
0,pink,M,14,class1
1,orange,S,8,class2
2,skyblue,L,19,class1


## 1️⃣ 순서가 있는 특성 매핑

> * size특성을 순서대로 정수형으로 인코딩하는 함수는 없음

> => **인코딩 함수 직접 정의 필요**

In [46]:
encoding_1 = {
            'S':1,
            'M':2,
            'L':3,
            }

df['size']=df['size'].map(encoding_1)
df

Unnamed: 0,color,size,price,classlabel
0,pink,2,14,class1
1,orange,1,8,class2
2,skyblue,3,19,class1


## 2️⃣ 클래스 레이블 인코딩

> * 머신러닝 알고리즘은 클래스 레이블이 인코딩되었을 거라고 가정함

> * => 순서 특성 매핑과 동일한 방식 적용
    
> * => 클래스 레이블은 순서 없음

### 📌METHOD_1) 매핑 딕셔너리 사용한 인코딩

In [47]:
encoding_2 = {label:idx for idx,label in
             enumerate(np.unique(df['classlabel']))}

encoding_2

{'class1': 0, 'class2': 1}

In [48]:
df['classlabel'] = df['classlabel'].map(encoding_2)
df

Unnamed: 0,color,size,price,classlabel
0,pink,2,14,0
1,orange,1,8,1
2,skyblue,3,19,0


### 📌METHOD_2)사이킷런의 LabelEncoder클래스 사용


In [49]:
from sklearn.preprocessing import LabelEncoder

#객체 생성
target = LabelEncoder()

#멤버함수 fit_transform 사용
result = target.fit_transform(df['classlabel'].values)
result

array([0, 1, 0], dtype=int64)

## 3️⃣ 순서가 없는 특성에 원-핫 인코딩 적용

### 📌METHOD_1)get_dummies 메서드 사용(간편함)


In [50]:
pd.get_dummies(df[['price','color','size']],
              columns = ['color'])

Unnamed: 0,price,size,color_orange,color_pink,color_skyblue
0,14,2,0,1,0
1,8,1,1,0,0
2,19,3,0,0,1


### 📌METHOD_2)사이킷런의 OneHotEncoder 사용(복잡함)

In [58]:
from sklearn.preprocessing import OneHotEncoder

X = df[['color','size','price']].values

oh_encoding = OneHotEncoder()
oh_encoding.fit_transform(X[:, 0].reshape(-1, 1)).toarray()

array([[0., 1., 0.],
       [1., 0., 0.],
       [0., 0., 1.]])