##### 【 데이터 전처리 - 1 : 인코딩 & 디코딩 】
- 범주형 => 수치형 : 인코딩(Encoding)
- 수치형 => 범주형 : 디코딩(Decoding)
- scikit-learn의 preprocessing 서브 패키지에 제공
    * LabelEncoder   : 타겟/라벨/클래스 컬럼 전용 => 0 ~ 클래스개수-1
    * OrdinalEncoder : 범주형 피쳐에 대한 인코딩 => 정수값 변환. 순서가 중요한 피쳐
        - 예: 만족도, 석차, 등급, ...
    * OneHotEncoder  : 범주형 피쳐에 대한 인코딩 => 값의 의미가 없고 데이터의미가 중요한 피쳐
        - 예: 성별, 혈액형, 도시명, ...
    * TargetEncoder  : OneHotEncoder에 대한 대안. 타겟/라벨/클래스 컬럼의 데이터 타입에 따른 인코딩 진행
        - 예: 이진, 다중, 수치형, 연속형, ...

[1] LabelEncoder <hr>

In [None]:
## 관련 모듈 로딩
from sklearn.preprocessing import LabelEncoder

## 인스턴스 생성
lencoder = LabelEncoder()

## 학습 진행 : 인코딩 대상 적용
lencoder.fit(["paris", "paris", "tokyo", "amsterdam"])

## 모델 파라미터 확인
print(f'classes_ : {lencoder.classes_}, {lencoder.get_params()}')

## 변형 => ndarray
data = ["paris", "paris", "tokyo"]
encoding = lencoder.transform(data)

## 복원/디코딩 => ndarray
lencoder.inverse_transform(encoding)

classes_ : ['amsterdam' 'paris' 'tokyo'], {}


array(['paris', 'paris', 'tokyo'], dtype='<U9')

[2] OrdinalEncoder <hr>

In [None]:
## 관련 모듈 로딩
from sklearn.preprocessing import OrdinalEncoder
import pandas as pd

## 테스트용 데이터
data = pd.DataFrame({'gender':['F', 'F', 'M', 'F', 'M', 'UN']})

## 인스턴스 생성
ordEncoder = OrdinalEncoder()

## 데이터에 대한 인코딩 설정
ordEncoder.fit(data)

## 설정된 인코딩 정보 확인
print(f'feature_names_in_ : {ordEncoder.feature_names_in_}')
print(f'categories_       : {ordEncoder.categories_}')
print(f'n_features_in_    : {ordEncoder.n_features_in_}')

## 인코딩 진행
encoding = ordEncoder.transform(data)
print('인코딩 결과 : ', encoding)

## 복원/디코딩
print('복원/디코딩 결과 :', ordEncoder.inverse_transform(encoding))

feature_names_in_ : ['gender']
categories_       : [array(['F', 'M', 'UN'], dtype=object)]
n_features_in_    : 1
인코딩 결과 :  [[0.]
 [0.]
 [1.]
 [0.]
 [1.]
 [2.]]
