# 목적

- 문자데이터 => 수치 데이터 변경
- 머신러닝 모델은 수치 데이터만 가지고 학습한다

In [1]:
from sklearn.preprocessing import LabelEncoder, OrdinalEncoder, OneHotEncoder

# Label encoder

- 범주형 데이터를 숫자로 일대일 대응하여 단순 매핑
- 1차원 데이터에 적합
- 단점
  - 구분용인데, ML은 1,2,3인 경우 1과 2는 가깝다고 느끼고, 1과 3은 상대적으로 멀다고 인식한다
  - 이를 위해 원-핫 인코딩으로 해결가능

In [2]:
# 범주형 데이터
datas = list('ABCDECCF')
datas

['A', 'B', 'C', 'D', 'E', 'C', 'C', 'F']

In [3]:
# 위 데이터를 레이블인코딩 처리
LabelEncoder().fit_transform( datas )

array([0, 1, 2, 3, 4, 2, 2, 5])

# Ordinal encoder

- 2차원 데이터 처리 적합
- 순서를 유지하는 **순서형 데이터**에 적합

In [4]:
import pandas as pd

# 범주형 데이터 준비 (원래 순서는 A->B->C) 이런 순서를 가지고 있다
df = pd.DataFrame({
    'ord_0':list('ACBBAC')
})
df.T

Unnamed: 0,0,1,2,3,4,5
ord_0,A,C,B,B,A,C


In [7]:
df.ord_0
# 원래 순서형으로 준비한 데이터인데 현재 명목형으로 표현되고 있다 -> 인코딩을 통해 순서형으로 변경

0    A
1    C
2    B
3    B
4    A
5    C
Name: ord_0, dtype: object

In [9]:
# 인코딩
ord_encoder = OrdinalEncoder()
ord_encoder.fit( df[ ['ord_0'] ] )
ord_encoder.categories_
# 데이터가 알파벳순으로 카데고리가 자동 정리되었다 => 순서가 정리되었다
# 만약 , 다르면 지정을 해줘야하다 => 문제풀이서 다시 확인

[array(['A', 'B', 'C'], dtype=object)]

In [10]:
df[ ['ord_0'] ] = ord_encoder.transform( df[ ['ord_0'] ] )
df.ord_0

0    0.0
1    2.0
2    1.0
3    1.0
4    0.0
5    2.0
Name: ord_0, dtype: float64

# One Hot encoder

- 여러개의 값중 하나(one)만 활성화(hot)
- 절차
  - 대상 피처의 고유걊의 개수를 구한다
  - 고유값의 개수만큼 피처가 추가됨
  - 실제값이 해당 고유값 피처에 해당되면 1, 아니면 0
- 레이블인코딩의 문제를 해결, 단, 고유값이 많으면 피처가 비례적으로 늘어난다 => 메모리 많이 차지, 연산비용증 => 학습 느려진다 => 데이터를 처리하는 방식을 변경 => CSR 포멧으로 변경처리

In [12]:
import numpy as np
np.array( datas ).reshape(-1, 1)

array([['A'],
       ['B'],
       ['C'],
       ['D'],
       ['E'],
       ['C'],
       ['C'],
       ['F']], dtype='<U1')

In [13]:
# Compressed Sparse Row format : CSR 포멧으로 처리됨
OneHotEncoder().fit_transform( np.array( datas ).reshape(-1, 1) )

<8x6 sparse matrix of type '<class 'numpy.float64'>'
	with 8 stored elements in Compressed Sparse Row format>

In [14]:
OneHotEncoder().fit_transform( np.array( datas ).reshape(-1, 1) ).toarray()

array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1.]])

# 서드 파트 : Category Encoder (생략)

- 다양한 인코더 제공
- sklearn에 완벽하게 호환된다