<a href="https://colab.research.google.com/github/sssanghn/Machinelearning-Problem-Solve/blob/main/Data_Encoding.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 데이터 인코딩

> 범주형 데이터를 숫자 형태로 바꾸는 작업을 **데이터 인코딩**이라고 한다.

* 레이블 인코딩
* 원-핫 인코딩

**레이블 인코딩**
> 레이블 인코딩은 범주형 데이터를 숫자로 일대일 매핑해주는 인코딩 방식이다.

In [2]:
from sklearn.preprocessing import LabelEncoder

fruits = ['사과', '블루베리', '바나나', '귤', '블루베리', '바나나', '바나나', '사과']

# 레이블 인코더 생성
label_encoder = LabelEncoder()
# 레이블 인코딩 적용
fruits_label_encoded = label_encoder.fit_transform(fruits)

print('레이블 인코딩 적용 후 데이터:', fruits_label_encoded)

레이블 인코딩 적용 후 데이터: [3 2 1 0 2 1 1 3]


> 레이블 인코딩은 간단하지만 단점이 있다. </br>
명목형 데이터를 레이블 인코딩하면 모델 성능이 떨어질 수 있다. </br>
머신러닝 모델이 서로 가까운 숫자를 비슷한 데이터라고 판단하기 때문이다. </br>
<mark>이 문제는 원-핫 인코딩으로 해결할 수 있다.</mark>

**원-핫 인코딩**
> 원-핫 인코딩은 여러 값 중 하나만 활성화하는 인코딩이다. 실행 절차는 다음과 같다. </br>
1. 인코딩하려는 피처의 고윳값 개수를 구한다.
2. 피처의 고윳값 개수만큼 열을 추가한다.
3. 각 고윳값에 해당하는 열에 1을 표시하고 나머지 열에는 0을 표시한다.

> 원-핫 인코딩은 레이블 인코딩의 문제**(서로 가까운 숫자를 비슷한 데이터로 판단하는 문제)**를 해결한다. </br>
그렇지만 원-핫 인코딩도 열 개수가 지나치게 많아진다는 단점이 있다. </br>
모델 훈련 속도가 느려질 우려가 있다.

In [5]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

fruits = ['사과', '블루베리', '바나나', '귤', '블루베리', '바나나', '바나나', '사과']

# 레이블 인코더, 원-핫 인코더 생성
label_encoder = LabelEncoder()
onehot_encoder = OneHotEncoder()

# 레이블 인코딩 적용(문자 데이터 -> 숫자 데이터)
fruits_label_encoded = label_encoder.fit_transform(fruits)

# 원-핫 인코딩 적용
fruits_onehot_encoded = onehot_encoder.fit_transform(fruits_label_encoded.reshape(-1, 1))

print('원-핫 인코딩 적용 후 데이터:\n', fruits_onehot_encoded.toarray())

원-핫 인코딩 적용 후 데이터:
 [[0. 0. 0. 1.]
 [0. 0. 1. 0.]
 [0. 1. 0. 0.]
 [1. 0. 0. 0.]
 [0. 0. 1. 0.]
 [0. 1. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 0. 1.]]


> 레이블 인코딩된 데이터는 1차원이기 때문에 <mark>reshape(-1, 1)메서드를 이용해 2차원으로 바꿔야 한다.</mark> </br>
원-핫 인코딩은 대부분 값이 0인 희소행렬을 만들어낸다. </br>
희소행렬은 메모리 낭비가 심하기 때문에 OneHotEncoder는 변환 결과를 압축된 형태인 CSR 행렬로 돌려준다. </br>
마지막으로 호출한 .toarray()는 CSR 형태의 행렬을 일반 배열로 바꿔주는 역할을 한다.

판다스의 **get_dummies()** 함수를 사용하면 다음과 같이 더 간단하게 구현할 수도 있다.

In [7]:
import pandas as pd

pd.get_dummies(fruits)

Unnamed: 0,귤,바나나,블루베리,사과
0,0,0,0,1
1,0,0,1,0
2,0,1,0,0
3,1,0,0,0
4,0,0,1,0
5,0,1,0,0
6,0,1,0,0
7,0,0,0,1
