# Encoding

## Encoding

대부분의 머신 러닝 알고리즘은  
`target` 값을 문자열로 받지 않습니다.  

우리는 이를 예측하기 위해  
문자를 숫자와 대응시켜 변환해줍니다.  

이와 같은 방식을 __Encoding__ 이라고 합니다.  

__Encoding__ 은  

3가지로 구분 됩니다. 
1. One Hot Encoding  
2. Label Encoding (Target Encoding 또는 Likelihood Encoding)  
3. Mean Encoding  

## 1. One Hot Encoding
수치화 된 범주형 변수는 각 수준에 대해  
`target` 데이터에 동일한 영향을 주지 못합니다.  

예를 들어,  
범주가 4개인 데이타의 경우  
A, B, C, D인 문자형 변수를  
0, 1, 2, 3로 대응해 나타낼 수 있습니다.  
이는 의미를 갖고 있지 않는 변수들이지만,  
수치화로 변환 후엔 C의 관계는 B와 D의 평균으로 나타낼 수 있게 됩니다.  

또한, 0과 1의 관계는  
0과 3의 사이보다 가깝다고 계산 될 수 있습니다.  
즉, 서로의 관계를 동등하게 비교할 수 없게 됩니다.  

이를 막기위해 사용하는 방식이  
__원핫인코딩__ 입니다.  

__원핫인코딩__ 은  

변수|label_A|label_B|label_C|label_D
---|---|---|---|---
A|1|0|0|0
B|0|1|0|0
C|0|0|1|0
D|0|0|0|1

위와 같은 형식으로  
각 변수에 해당하는 값을 0과 1로 지정해줘  
`target`변수에 동일한 효과를 줄 수 있습니다.  

### __원핫인코딩__ 
> __장점__
> 1. 범주들을 서로 분리시켜 `target`에 대한 효과를 동일하게 줄 수 있음
> 2. 구현하기 쉬움
>
> __단점__
> 1. 범주의 수 만큼 변수의 수를 증가시켜 모델 학습이 오래 걸림
> 2. 변수 수가 증가해 차원의 저주에 빠질 수 있음
> 3. 다른 변수들보다 원핫인코딩 된 변수가 모델에 더 많이 쓰임  

## 2. Label Encoding  
__라벨 인코딩은__ 문자열 변수의 범주들을 각각의 정수에 대입해 나타내는 방식입니다.  

변수|label
---|---
A|0|
B|1|
C|2|
D|3|

### __라벨 인코딩__ 
> __장점__
> 1. 원핫인코딩과 달리 새로운 변수들을 만들어 내지 않음  
> 2. 원핫인코딩 보다 학습 속도가 빠름  
> 3. 구현하기 쉬움  
>
> __단점__
> 1. 각 수준이 순서형 변수로 해석 됨  
> 2. 선형 회귀 모델에 적합하지 않음  


## 3. Mean Encoding  
위 방식의 인코딩은  
각 값을 정수에 대응시켜 나타낸 값입니다.  

즉, 값 자체만으로 아무런 의미를 가질 수 없습니다.  

__평균 인코딩__ 의 경우  
변수의 각 범주들에게 `target`과 관련 있는 정보를  
부여해 `target`을 잘 예측할 수 있도록 도와주는 방식입니다.  

변수|target|mean
---|---|---
A|0|0.5
C|1|0.75
C|0|0.75
B|0|0.33
A|1|0.5
B|0|0.33
B|1|0.33
C|1|0.75
C|1|0.75

__편균 인코딩은__
각 범주들의 `target` 값을 더한 후 그 수만큼 나눠줍는 방식입니다.  

### 평균 인코딩  
> __장점__
> 1. 생성되는 변수의 수가 적음
> 2. target 변수에 대해 잘 예측함
>
> __단점__
> 1. Overfitting의 위험이 존재

`target` 값을 예측 하는 변수들은  
각 값들이 `target`의 정보를 갖고 있지 않습니다.  
하지만, __평균 인코딩__ 의 경우 `target` 을 활용해 만들었기 때문에  
변수 자체에 `target`의 정보를 갖게 됩니다.  
이를 `Data Leakage` 문제라고 합니다.

또한, `target`과 밀접한 관련이 있어,  
모델 적합 시 해당 변수의 의존도가 높아지고  
이는 과적합을 일으키기 쉽게 만듭니다.  

이를 방지하고자 나온 것이 
1. Smoothing
2. CV Loop
3. Expanding Mean

입니다. 

### Smoothing 
편중 된 데이터의 경우  
적은 수의 샘플이 전체를 대표하긴 힘듭니다.  

이를 해결하고자  
다음과 같은 방법을 사용합니다.    

<img src="./image/Encoding/prob.png" width="300" height="450">

$alpha$ 값은 하이퍼 파라미터로  
0을 넣었을 경우 __평균 인코딩__ 과 동일합니다.  

### CV Loop
데이터의 개수를 여러개로 나눠  
처음 한 그룹을 검증용 나머지는 훈련용으로 사용헤 평균 계산
이 후 다음 한 그룹을 검증용 나머지는 훈련용으로 사용해 평균 계산
모든 그룹이 검증용 데이터로 사용될 때 까지 반복합니다.  

결측치가 존재할 경우에는 전체 데이터의 평균값을 넣어 계산합니다.  

### Expanding Mean
보통의 __평균 인코딩__ 의 경우 각 라벨당 하나의 값을 갖습니다.  
이를 보완하고자  
누적 합과 누적 개수를 활용하여 평균을 구하는 방식입니다.  

하나의 범주에서 여러개의 다양한 값을 생성해 내게 합니다.  


Reference
- [Categorical Value Encoding 과 Mean Encoding](https://dailyheumsi.tistory.com/120)
- [A Preprocessing Scheme fro High-Cardinality Categorical Attributes in Classfication and Perdiction Problems](http://helios.mm.di.uoa.gr/~rouvas/ssi/sigkdd/sigkdd.vol3.1/barreca.pdf)
- [Advanced Feature Engineering with Kaggle](https://zzsza.github.io/data/2018/09/08/feature-engineering/)