# 범주형 데이터 다루기

범주형 데이터 데이터 인코딩 기능

* 레이블 인코딩(label encoding) : 말 그대로 레이블링을 한다. ex) 자동차 : 1, TV : 2
* 원-핫 인코딩(one hot encoding) : 원핫은 [0,0,1], [0, 1, 0], [1, 0, 0]과 같이 벡터 안에 하나의 값만 1이고 나머지는 0으로 표현하는 방법

## 순서가 있는 특성과 순서가 없는 특성

In [1]:
import pandas as pd

df = pd.DataFrame([['green', 'M', 10.1, 'class1'],
                   ['red', 'L', 13.5, 'class2'],
                   ['blue', 'XL', 15.3, 'class1']])

df.columns = ['color', 'size', 'price', 'classlabel']
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,class1
1,red,L,13.5,class2
2,blue,XL,15.3,class1


## 순서 특성 매핑하기

In [3]:
size_mapping = {'XL': 3,
                'L': 2,
                'M': 1}

df['size'].map(size_mapping)

0    1
1    2
2    3
Name: size, dtype: int64

## 클래스 레이블 인코딩

In [2]:
import numpy as np

# 문자열 클래스 레이블을 정수로 변환하기 위해
# 매핑 딕셔너리를 만듭니다.
class_mapping = {label: idx for idx, label in enumerate(np.unique(df['classlabel']))}
class_mapping

{'class1': 0, 'class2': 1}

In [4]:
# 문자열 클래스 레이블을 정수로 변환합니다.
df['classlabel'] = df['classlabel'].map(class_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,0
1,red,L,13.5,1
2,blue,XL,15.3,0


In [5]:
# 클래스 레이블 매핑을 거꾸로 수행합니다.
inv_class_mapping = {v: k for k, v in class_mapping.items()}
df['classlabel'] = df['classlabel'].map(inv_class_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,class1
1,red,L,13.5,class2
2,blue,XL,15.3,class1


### 사이킷런의 LabelEncoder를 사용하기

In [6]:
from sklearn.preprocessing import LabelEncoder

# 사이킷런의 LabelEncoder를 사용하여 레이블을 인코딩합니다.
class_le = LabelEncoder()
y = class_le.fit_transform(df['classlabel'].values)
y

array([0, 1, 0])

In [7]:
# 거꾸로 매핑합니다.
class_le.inverse_transform(y)

array(['class1', 'class2', 'class1'], dtype=object)

### 판다스 원-핫 인코딩 사용하기

In [8]:
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,class1
1,red,L,13.5,class2
2,blue,XL,15.3,class1


In [9]:
# 판다스의 원-핫 인코딩
pd.get_dummies(df['color'])

Unnamed: 0,blue,green,red
0,False,True,False
1,False,False,True
2,True,False,False


In [10]:
pd.get_dummies(df['color'], drop_first=True)

Unnamed: 0,green,red
0,True,False
1,False,True
2,False,False


In [11]:
pd.get_dummies(df[['price', 'color', 'size']], columns=['size'])

Unnamed: 0,price,color,size_L,size_M,size_XL
0,10.1,green,False,True,False
1,13.5,red,True,False,False
2,15.3,blue,False,False,True


### 사이킷런의 원-핫 인코딩
사이킷런의 OneHotEncoder 사용

In [12]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items = np.array([['TV'],['냉장고'],['세탁기'],['냉장고'],['TV']])

In [13]:
one_hot = OneHotEncoder()
one_hot.fit(items)
onehot_labels = one_hot.transform(items)

print('one hot encoding\n',onehot_labels.toarray())

one hot encoding
 [[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [0. 1. 0.]
 [1. 0. 0.]]


## 실습하기

1. 다음과 같이 실습데이터를 읽어 들이시오.
```
import pandas as pd
titanic = pd.read_csv('https://raw.githubusercontent.com/aonekoda/reference/main/data/titanic.csv')
titanic.info()
```
2. 읽어들인 데이터 'Embarked' 컬럼을 원-핫 인코딩으로 변환해 보시오. (hint. pd.get_dummies, sklearn.preprocessing.OneHotEncoder)

In [14]:
import pandas as pd
titanic = pd.read_csv('https://raw.githubusercontent.com/aonekoda/reference/main/data/titanic.csv')
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [20]:
titanic.Embarked.values

array(['S', 'C', 'S', 'S', 'S', 'Q', 'S', 'S', 'S', 'C', 'S', 'S', 'S',
       'S', 'S', 'S', 'Q', 'S', 'S', 'C', 'S', 'S', 'Q', 'S', 'S', 'S',
       'C', 'S', 'Q', 'S', 'C', 'C', 'Q', 'S', 'C', 'S', 'C', 'S', 'S',
       'C', 'S', 'S', 'C', 'C', 'Q', 'S', 'Q', 'Q', 'C', 'S', 'S', 'S',
       'C', 'S', 'C', 'S', 'S', 'C', 'S', 'S', 'C', nan, 'S', 'S', 'C',
       'C', 'S', 'S', 'S', 'S', 'S', 'S', 'S', 'C', 'S', 'S', 'S', 'S',
       'S', 'S', 'S', 'S', 'Q', 'S', 'S', 'S', 'S', 'S', 'S', 'S', 'S',
       'S', 'S', 'S', 'S', 'S', 'C', 'C', 'S', 'S', 'S', 'S', 'S', 'S',
       'S', 'S', 'S', 'S', 'S', 'Q', 'S', 'C', 'S', 'S', 'C', 'S', 'Q',
       'S', 'C', 'S', 'S', 'S', 'C', 'S', 'S', 'C', 'Q', 'S', 'C', 'S',
       'C', 'S', 'S', 'S', 'S', 'C', 'S', 'S', 'S', 'C', 'C', 'S', 'S',
       'Q', 'S', 'S', 'S', 'S', 'S', 'S', 'S', 'S', 'S', 'S', 'S', 'C',
       'Q', 'S', 'S', 'S', 'S', 'S', 'S', 'S', 'S', 'S', 'S', 'S', 'S',
       'S', 'S', 'Q', 'S', 'S', 'C', 'S', 'S', 'C', 'S', 'S', 'S

In [22]:
from sklearn.preprocessing import OneHotEncoder

one_hot = OneHotEncoder()
items = titanic.Embarked.values.reshape(-1,1)
one_hot.fit(items)
one_hot_labels = one_hot.transform(items)

In [26]:
items

array([['S'],
       ['C'],
       ['S'],
       ['S'],
       ['S'],
       ['Q'],
       ['S'],
       ['S'],
       ['S'],
       ['C'],
       ['S'],
       ['S'],
       ['S'],
       ['S'],
       ['S'],
       ['S'],
       ['Q'],
       ['S'],
       ['S'],
       ['C'],
       ['S'],
       ['S'],
       ['Q'],
       ['S'],
       ['S'],
       ['S'],
       ['C'],
       ['S'],
       ['Q'],
       ['S'],
       ['C'],
       ['C'],
       ['Q'],
       ['S'],
       ['C'],
       ['S'],
       ['C'],
       ['S'],
       ['S'],
       ['C'],
       ['S'],
       ['S'],
       ['C'],
       ['C'],
       ['Q'],
       ['S'],
       ['Q'],
       ['Q'],
       ['C'],
       ['S'],
       ['S'],
       ['S'],
       ['C'],
       ['S'],
       ['C'],
       ['S'],
       ['S'],
       ['C'],
       ['S'],
       ['S'],
       ['C'],
       [nan],
       ['S'],
       ['S'],
       ['C'],
       ['C'],
       ['S'],
       ['S'],
       ['S'],
       ['S'],
       ['S'],
      

In [24]:
print('one hot encoding\n',one_hot_labels.toarray())

one hot encoding
 [[0. 0. 1. 0.]
 [1. 0. 0. 0.]
 [0. 0. 1. 0.]
 ...
 [0. 0. 1. 0.]
 [1. 0. 0. 0.]
 [0. 1. 0. 0.]]
