참고: https://pbpython.com/categorical-encoding.html


# Data Set
[UCI Machine Learning Repository](http://mlr.cs.umass.edu/ml/index.html)에 있는 Automobile Dataset을 사용한다.

In [1]:
import pandas as pd
import numpy as np

# Define the headers since the data does not have any
headers = ["symboling", "normalized_losses", "make", "fuel_type", "aspiration",
           "num_doors", "body_style", "drive_wheels", "engine_location",
           "wheel_base", "length", "width", "height", "curb_weight",
           "engine_type", "num_cylinders", "engine_size", "fuel_system",
           "bore", "stroke", "compression_ratio", "horsepower", "peak_rpm",
           "city_mpg", "highway_mpg", "price"]

# Read in the CSV file and convert "?" to NaN
df = pd.read_csv("http://mlr.cs.umass.edu/ml/machine-learning-databases/autos/imports-85.data",
                  header=None, names=headers, na_values="?" )
df.head()

Unnamed: 0,symboling,normalized_losses,make,fuel_type,aspiration,num_doors,body_style,drive_wheels,engine_location,wheel_base,...,engine_size,fuel_system,bore,stroke,compression_ratio,horsepower,peak_rpm,city_mpg,highway_mpg,price
0,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111.0,5000.0,21,27,13495.0
1,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111.0,5000.0,21,27,16500.0
2,1,,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154.0,5000.0,19,26,16500.0
3,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102.0,5500.0,24,30,13950.0
4,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115.0,5500.0,18,22,17450.0


데이터타입을 살펴본다

In [2]:
df.dtypes

symboling              int64
normalized_losses    float64
make                  object
fuel_type             object
aspiration            object
num_doors             object
body_style            object
drive_wheels          object
engine_location       object
wheel_base           float64
length               float64
width                float64
height               float64
curb_weight            int64
engine_type           object
num_cylinders         object
engine_size            int64
fuel_system           object
bore                 float64
stroke               float64
compression_ratio    float64
horsepower           float64
peak_rpm             float64
city_mpg               int64
highway_mpg            int64
price                float64
dtype: object

우리는 categorical variables를 인코딩하는 것을 다를 것이므로 `object` 컬럼들만 선택한다.

In [3]:
obj_df = df.select_dtypes(include=['object']).copy()
obj_df.head()

Unnamed: 0,make,fuel_type,aspiration,num_doors,body_style,drive_wheels,engine_location,engine_type,num_cylinders,fuel_system
0,alfa-romero,gas,std,two,convertible,rwd,front,dohc,four,mpfi
1,alfa-romero,gas,std,two,convertible,rwd,front,dohc,four,mpfi
2,alfa-romero,gas,std,two,hatchback,rwd,front,ohcv,six,mpfi
3,audi,gas,std,four,sedan,fwd,front,ohc,four,mpfi
4,audi,gas,std,four,sedan,4wd,front,ohc,five,mpfi


데이터를 본격적으로 다루기 전에 null 값을 먼저 clean up한다.

In [4]:
obj_df[obj_df.isnull().any(axis=1)]

Unnamed: 0,make,fuel_type,aspiration,num_doors,body_style,drive_wheels,engine_location,engine_type,num_cylinders,fuel_system
27,dodge,gas,turbo,,sedan,fwd,front,ohc,four,mpfi
63,mazda,diesel,std,,sedan,fwd,front,ohc,four,idi


단순함을 위해 null값을 4로 채운다. (4가 가장 일반적인 값이므로)

In [5]:
obj_df['num_doors'].value_counts()

four    114
two      89
Name: num_doors, dtype: int64

In [6]:
obj_df = obj_df.fillna({"num_doors": "four"})

이제 null 값이 없으므로 범주형 값을 인코딩할 수 있다. 

# Approach #1 - Find and Replace
문자가 숫자를 나타내는 값을 갖고 있는 컬럼이 두개가 있다. 이 값들을 동일한 숫자로 replace한다.

In [7]:
obj_df["num_cylinders"].value_counts()

four      159
six        24
five       11
eight       5
two         4
twelve      1
three       1
Name: num_cylinders, dtype: int64

매핑 dictionary를 만들어서 변환하는 방법을 사용한다.

In [8]:
cleanup_nums = {"num_doors": {"four": 4, "two": 2},
                "num_cylinders": {"four": 4, "six": 6, "five": 5, "eight": 8,
                                 "two": 2, "twelve": 12, "three": 3}
               }

In [9]:
obj_df.replace(cleanup_nums, inplace=True)
obj_df.head()

Unnamed: 0,make,fuel_type,aspiration,num_doors,body_style,drive_wheels,engine_location,engine_type,num_cylinders,fuel_system
0,alfa-romero,gas,std,2,convertible,rwd,front,dohc,4,mpfi
1,alfa-romero,gas,std,2,convertible,rwd,front,dohc,4,mpfi
2,alfa-romero,gas,std,2,hatchback,rwd,front,ohcv,6,mpfi
3,audi,gas,std,4,sedan,fwd,front,ohc,4,mpfi
4,audi,gas,std,4,sedan,4wd,front,ohc,5,mpfi


pandas에서 좋은 점은 컬럼 값의 타입을 안다는 것이고 그래서 `object`가 이제는 `int64`이다.

In [10]:
obj_df.dtypes

make               object
fuel_type          object
aspiration         object
num_doors           int64
body_style         object
drive_wheels       object
engine_location    object
engine_type        object
num_cylinders       int64
fuel_system        object
dtype: object

비록 이 방법은 특정한 시나리오에서만 동작 하지만 사람이 쉽게 인지할 수 있는 문자 값을 어떻게 숫자로 변환할 수 있는지 보여주는 유용한 예이다.

# Approach #2 - Label Encoding

Label encoding은 단순히 컬럼의 각 값을 숫자로 변경하는 기법이다. `body_style` 컬럼은 5가지 다른 값을 갖고 각각을 아래와 같이 encode하도록 선택할 수 있다.

- convertible -> 0
- hardtop -> 1
- hatchback -> 2
- sedan -> 3
- wagon -> 4

이 방법은 Ralphie가 "A Christmas Story"에서 사용한 비밀 디코더 링을 연상시킨다. 
![Alt text](https://pbpython.com/images/ralphie-datascientist.png)

pandas에서 사용할 수 있는 한가지 트릭은 컬럼을 category로 변환하고 이 category values를 label encoding에 사용하는 것이다. 

In [11]:
obj_df["body_style"] = obj_df["body_style"].astype('category')
obj_df.dtypes

make                 object
fuel_type            object
aspiration           object
num_doors             int64
body_style         category
drive_wheels         object
engine_location      object
engine_type          object
num_cylinders         int64
fuel_system          object
dtype: object

그런다음 이 encoded된 변수를 `cat.codes` accessor를 사용해 새로운 컬럼을 만드는 것이다.

In [12]:
obj_df["body_style_cat"] = obj_df["body_style"].cat.codes
obj_df.head()

Unnamed: 0,make,fuel_type,aspiration,num_doors,body_style,drive_wheels,engine_location,engine_type,num_cylinders,fuel_system,body_style_cat
0,alfa-romero,gas,std,2,convertible,rwd,front,dohc,4,mpfi,0
1,alfa-romero,gas,std,2,convertible,rwd,front,dohc,4,mpfi,0
2,alfa-romero,gas,std,2,hatchback,rwd,front,ohcv,6,mpfi,2
3,audi,gas,std,4,sedan,fwd,front,ohc,4,mpfi,3
4,audi,gas,std,4,sedan,4wd,front,ohc,5,mpfi,3


이 방법의 좋은 점은 panda의 categories의 다양한 장점들 (compact data size, ability to order, plotting support)을 사용할 수 있고 쉽게 숫자로 변환하여 향후에 사용이 가능하다는 것이다.

# Approach #3 - One Hot Encoding

Label encoding은 복잡하지 않은 장점이 있지만 숫자 값이 알고리즘에서 잘못 이해될 수 있다는 단점이 있다. 예를 들어 0값은 명백하게 4보다 작다. 그러나 그렇다고해서 현실 세계의 값과 일치한다고 볼 수는 없다. wage은 계산시 convertible보다 4배 더 중요한가? 그렇다고 보기는 어렵다.

일반적인 대안은 `one hot encoding`이라는 기법을 사용하는 것이다. 기본적인 전략은 각 category value를 새로운 컬럼으로 변환하고 1 또는 0 (True/False)값을 할당하는 것이다. 그러면 값에 잘못된 가중치를 부여하지 않게 되지만 데이터셋에 컬럼들을 추가하는 단점은 있다. 

Pandas에서는 `get_dummies`라는 기능을 제공한다. 이 함수는 dummy/indicator값 (aka 1 도는 0)을 생성하기 때문에 이렇게 이름지어졌다. 

`drive_wheels` 컬럼을 보면 `4wd`, `fwd` 또는 `rwd`값을 갖는데 `get_dummies`를 사용하면 이들을 1 또는 0을 갖는 세개의 컬럼으로 변환한다. 

In [14]:
pd.get_dummies(obj_df, columns=["drive_wheels"]).head()

Unnamed: 0,make,fuel_type,aspiration,num_doors,body_style,engine_location,engine_type,num_cylinders,fuel_system,body_style_cat,drive_wheels_4wd,drive_wheels_fwd,drive_wheels_rwd
0,alfa-romero,gas,std,2,convertible,front,dohc,4,mpfi,0,0,0,1
1,alfa-romero,gas,std,2,convertible,front,dohc,4,mpfi,0,0,0,1
2,alfa-romero,gas,std,2,hatchback,front,ohcv,6,mpfi,2,0,0,1
3,audi,gas,std,4,sedan,front,ohc,4,mpfi,3,0,1,0
4,audi,gas,std,4,sedan,front,ohc,5,mpfi,3,1,0,0


여러개 컬럼을 한번에 변환할 수도 있고 `prefix`를 사용하면 어떻게 컬럼 label을 할 건지는 정할 수 있다. 적절히 네이밍을 하면 분석작업이 더 쉬워진다. 

In [15]:
pd.get_dummies(obj_df, columns=["body_style", "drive_wheels"], prefix=["body", "drive"]).head()

Unnamed: 0,make,fuel_type,aspiration,num_doors,engine_location,engine_type,num_cylinders,fuel_system,body_style_cat,body_convertible,body_hardtop,body_hatchback,body_sedan,body_wagon,drive_4wd,drive_fwd,drive_rwd
0,alfa-romero,gas,std,2,front,dohc,4,mpfi,0,1,0,0,0,0,0,0,1
1,alfa-romero,gas,std,2,front,dohc,4,mpfi,0,1,0,0,0,0,0,0,1
2,alfa-romero,gas,std,2,front,ohcv,6,mpfi,2,0,0,1,0,0,0,0,1
3,audi,gas,std,4,front,ohc,4,mpfi,3,0,0,0,1,0,0,1,0
4,audi,gas,std,4,front,ohc,5,mpfi,3,0,0,0,1,0,1,0,0


`get_dummies`를 사용할 때 유의할 점은 모든 dataframe을 반환하기 때문에 마지막 분석을 할 때 `select_dtypes`를 사용해 filter out하는 것이 필요하다. 

One hot encoding은 매우 유용하지만 Unique value가 많을 때 컬럼 수를 급격하게 늘리기 때문에 관리가 어려울 수 있다.

# Approach #4 - Custom Binary Encoding
데이터셋에따라 label encoding과 one hot encoding을 조합해서 향후 분석에 필요한 binary 컬럼을 생성할 수 있다.  
`engine_type`은 몇가지 다른 값을 갖고 있다. 

In [20]:
obj_df["engine_type"].value_counts()

ohc      148
ohcf      15
ohcv      13
l         12
dohc      12
rotor      4
dohcv      1
Name: engine_type, dtype: int64

토론을 위해 우리가 관심을 가져야하는 것이 엔진이 Overheat Cam(OHC)인지 아닌지라고 하자. 다른말로 다양한 버전의 OHC가 분석을 위해서는 모두 갖다고하면 우리는 `str` accessor와 `np.where`를 사용해서 OHC 엔진을 가진 차인지 아닌지를 나타내는 새로운 컬럼을 생성할 수 있다. 

In [23]:
obj_df["OHC_Code"] = np.where(obj_df["engine_type"].str.contains("ohc"), 1, 0)

결과는 아래와 같다.

In [24]:
obj_df[["make", "engine_type", "OHC_Code"]].head()

Unnamed: 0,make,engine_type,OHC_Code
0,alfa-romero,dohc,1
1,alfa-romero,dohc,1
2,alfa-romero,ohcv,1
3,audi,ohc,1
4,audi,ohc,1


컬럼 값을 단순하게 Y/N으로 통합할 때 상당히 유용한 방법이다. 또한 중요한 도메인 정보가 가장 효율적인 방법으로 문제를 해결할 수 있도록 한다.

# Scikit-Learn
pandas 방법외에 scikit-learn도 비슷한 기능을 제공한다. 개인적으로 pandas를 사용하는 것이 더 간단하지만 scikit-learn에서 어떻게 처리하는 지를 아는 것도 중요하다고 생각한다.

예를들어 만약 make에 label encoding을 하기를 원하면 `LabelEncoder`의 `fit_transform`을 사용할 수 있다. 

In [26]:
from sklearn.preprocessing import LabelEncoder

lb_make = LabelEncoder()
obj_df["make_code"] = lb_make.fit_transform(obj_df["make"])
obj_df[["make", "make_code"]].head(11)

Unnamed: 0,make,make_code
0,alfa-romero,0
1,alfa-romero,0
2,alfa-romero,0
3,audi,1
4,audi,1
5,audi,1
6,audi,1
7,audi,1
8,audi,1
9,audi,1


Scikit-learn은 `LabelBinarizer`를 사용해 binary encoding을 할 수도 있다. 위에서 데이터를 변형한 것과 비슷한 프로세를 사용하지만 pandas DataFrame을 생성하는 프로세스는 추가적인 한개 스텝을 진행해야 한다. 

In [27]:
from sklearn.preprocessing import LabelBinarizer

lb_style = LabelBinarizer()
lb_results = lb_style.fit_transform(obj_df["body_style"])
pd.DataFrame(lb_results, columns=lb_style.classes_).head()

Unnamed: 0,convertible,hardtop,hatchback,sedan,wagon
0,1,0,0,0,0
1,1,0,0,0,0
2,0,0,1,0,0
3,0,0,0,1,0
4,0,0,0,1,0


# Advanced Approaches
categorical encoding을 위한 고급 알로리즘이 많이 있다. 상세기술들에 대한 내용은 [여기](http://www.willmcginnis.com/2015/11/29/beyond-one-hot-an-exploration-of-categorical-variables/)서 찾아볼 수 있다. 좋은 점은 작가가 [categorical-encoding](http://contrib.scikit-learn.org/categorical-encoding/)이라는 scikit-learn contrib package를 만들었다는 것인데 다른 관점으로 문제를 접근하는데 상당히 좋은 툴이다. 

여기서는 이 라이브러리를 사용하는 간단한 소개만 하도록 하겠다. 먼저 [Backward Difference encoding](http://www.ats.ucla.edu/stat/sas/webbooks/reg/chapter5/sasreg5.htm#backward)을 시도해볼 것이다. 

우선 dataframe을 새로 만들고 `BackwardDifferenceEncoder`를 셋업해보자

In [33]:
import category_encoders as ce

# Get a new clean dataframe
obj_df = df.select_dtypes(include=['object']).copy()

# Specify the columns to encode then fit and transform
encoder = ce.backward_difference.BackwardDifferenceEncoder(cols=['engine_type'])
encoder.fit(obj_df, verbose=1)

# Only display the first 8 columns for brevity
encoder.transform(obj_df).filter(regex='engine').head()

Unnamed: 0,engine_location,engine_type_0,engine_type_1,engine_type_2,engine_type_3,engine_type_4,engine_type_5
0,front,-0.857143,-0.714286,-0.571429,-0.428571,-0.285714,-0.142857
1,front,-0.857143,-0.714286,-0.571429,-0.428571,-0.285714,-0.142857
2,front,0.142857,-0.714286,-0.571429,-0.428571,-0.285714,-0.142857
3,front,0.142857,0.285714,-0.571429,-0.428571,-0.285714,-0.142857
4,front,0.142857,0.285714,-0.571429,-0.428571,-0.285714,-0.142857


흥미롭게도 결과가 이전에 보았단 1 또는 0값이 아니다.

[polynomial encoding](http://www.ats.ucla.edu/stat/sas/webbooks/reg/chapter5/sasreg5.htm#ORTHOGONAL)을 사용하면 다른 값이 사용된 것을 볼 수 있다.

In [34]:
encoder = ce.polynomial.PolynomialEncoder(cols=['engine_type'])
encoder.fit(obj_df, verbose=1)
encoder.transform(obj_df).filter(regex='engine').head()

Unnamed: 0,engine_location,engine_type_0,engine_type_1,engine_type_2,engine_type_3,engine_type_4,engine_type_5
0,front,-0.566947,0.5455447,-0.408248,0.241747,-0.109109,0.032898
1,front,-0.566947,0.5455447,-0.408248,0.241747,-0.109109,0.032898
2,front,-0.377964,9.521795000000001e-17,0.408248,-0.564076,0.436436,-0.197386
3,front,-0.188982,-0.3273268,0.408248,0.080582,-0.545545,0.493464
4,front,-0.188982,-0.3273268,0.408248,0.080582,-0.545545,0.493464
