## Encoding

#### 1. Label Encoding
- 범주형 변수를 정수로 변환합니다. 범주 간 순서가 의미 없을 때 사용합니다.
- 주로 트리 기반 모델에서 사용되며, 단순하고 빠르게 구현할 수 있습니다.
- ["a", "b", "c"] -> [0, 1, 2]

In [1]:
import pandas as pd

# 샘플 데이터 생성
data = {
    'color': ['red', 'blue', 'green', 'blue', 'green', 'red', 'red', 'blue'],
    'size': ['S', 'M', 'L', 'M', 'S', 'L', 'S', 'M'],
    'target': [1, 0, 0, 1, 0, 1, 0, 1]
}
df = pd.DataFrame(data)
print(df)

   color size  target
0    red    S       1
1   blue    M       0
2  green    L       0
3   blue    M       1
4  green    S       0
5    red    L       1
6    red    S       0
7   blue    M       1


In [2]:
## Label Encoding -> 각 카테고리 값을 숫자형으로 변환

df['color_label'] = df['color'].astype('category').cat.codes
print(df)

   color size  target  color_label
0    red    S       1            2
1   blue    M       0            0
2  green    L       0            1
3   blue    M       1            0
4  green    S       0            1
5    red    L       1            2
6    red    S       0            2
7   blue    M       1            0


In [6]:
## factorize 함수 사용

df['factorize'] = df['color'].factorize()[0]

df

Unnamed: 0,color,size,target,color_label,factorize
0,red,S,1,2,0
1,blue,M,0,0,1
2,green,L,0,1,2
3,blue,M,1,0,1
4,green,S,0,1,2
5,red,L,1,2,0
6,red,S,0,2,0
7,blue,M,1,0,1


In [3]:
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
df['color_label_sklearn'] = le.fit_transform(df['color'])
print(df)

   color size  target  color_label  color_label_sklearn
0    red    S       1            2                    2
1   blue    M       0            0                    0
2  green    L       0            1                    1
3   blue    M       1            0                    0
4  green    S       0            1                    1
5    red    L       1            2                    2
6    red    S       0            2                    2
7   blue    M       1            0                    0


#### 2. One-Hot Encoding
- 범주형 변수를 이진 변수의 배열로 변환합니다. 범주 간 순서가 없는 경우 사용합니다.
- 각 범주가 서로 독립적일 때 유용하며, 회귀나 SVM 모델에서 많이 사용됩니다.
- ["a", "b", "c"] -> [[1, 0, 0], [0, 1, 0], [0, 0, 1]]

In [10]:
## One-Hot Encoding -> 각 카테고리 값을 이진 변수(dummy 변수)로 변환

# df_one_hot = pd.get_dummies(df, columns=['color'])
df_one_hot = pd.get_dummies(df, columns=['color', 'size'])
print(df_one_hot)

   target  color_blue  color_green  color_red  size_L  size_M  size_S
0       1       False        False       True   False   False    True
1       0        True        False      False   False    True   False
2       0       False         True      False    True   False   False
3       1        True        False      False   False    True   False
4       0       False         True      False   False   False    True
5       1       False        False       True    True   False   False
6       0       False        False       True   False   False    True
7       1        True        False      False   False    True   False


In [15]:
from sklearn.preprocessing import OneHotEncoder

ohe = OneHotEncoder()
encoded = ohe.fit_transform(df[['color', 'size']])
df_one_hot_sklearn = pd.DataFrame(encoded.toarray(), columns=ohe.get_feature_names_out(['color', 'size']))
print(df_one_hot_sklearn)

   color_blue  color_green  color_red  size_L  size_M  size_S
0         0.0          0.0        1.0     0.0     0.0     1.0
1         1.0          0.0        0.0     0.0     1.0     0.0
2         0.0          1.0        0.0     1.0     0.0     0.0
3         1.0          0.0        0.0     0.0     1.0     0.0
4         0.0          1.0        0.0     0.0     0.0     1.0
5         0.0          0.0        1.0     1.0     0.0     0.0
6         0.0          0.0        1.0     0.0     0.0     1.0
7         1.0          0.0        0.0     0.0     1.0     0.0


#### 3. Ordinal Encoding
- 범주형 변수를 정수로 변환합니다. 범주 간 순서가 의미 있을 때 사용합니다.
- 범주의 순서가 중요한 경우에 유용하며, 특히 순위형 데이터에서 많이 사용됩니다.
- ["low", "medium", "high"] -> [0, 1, 2]

In [16]:
## Ordinal Encoding -> 순서가 있는 카테고리 값을 숫자형으로 변환

size_mapping = {'S': 1, 'M': 2, 'L': 3}
df['size_ordinal'] = df['size'].map(size_mapping)
print(df)

   color size  target  size_ordinal
0    red    S       1             1
1   blue    M       0             2
2  green    L       0             3
3   blue    M       1             2
4  green    S       0             1
5    red    L       1             3
6    red    S       0             1
7   blue    M       1             2


In [17]:
from sklearn.preprocessing import OrdinalEncoder

size_mapping = {'S': 1, 'M': 2, 'L': 3}
ordinal_encoder = OrdinalEncoder(categories=[['S', 'M', 'L']])
df['size_ordinal_sklearn'] = ordinal_encoder.fit_transform(df[['size']])
print(df)

   color size  target  size_ordinal  size_ordinal_sklearn
0    red    S       1             1                   0.0
1   blue    M       0             2                   1.0
2  green    L       0             3                   2.0
3   blue    M       1             2                   1.0
4  green    S       0             1                   0.0
5    red    L       1             3                   2.0
6    red    S       0             1                   0.0
7   blue    M       1             2                   1.0


#### 4. Target Encoding
- 범주형 변수를 해당 범주의 타겟 평균값으로 변환합니다. 데이터의 통계 정보를 활용합니다.
- 범주가 많은 경우나 타겟 변수와의 관계를 반영하고자 할 때 사용됩니다.
- ["a", "b", "a", "c"] -> [0.3, 0.7, 0.3, 0.9]

In [19]:
## Target Encoding -> 각 카테고리 값에 대해 목표 변수의 평균을 사용

target_mean = df.groupby('color')['target'].mean()
df['color_target'] = df['color'].map(target_mean)
print(df)
target_mean

   color size  target  size_ordinal  size_ordinal_sklearn  color_target
0    red    S       1             1                   0.0      0.666667
1   blue    M       0             2                   1.0      0.666667
2  green    L       0             3                   2.0      0.000000
3   blue    M       1             2                   1.0      0.666667
4  green    S       0             1                   0.0      0.000000
5    red    L       1             3                   2.0      0.666667
6    red    S       0             1                   0.0      0.666667
7   blue    M       1             2                   1.0      0.666667


color
blue     0.666667
green    0.000000
red      0.666667
Name: target, dtype: float64