##### 【 데이터 전처리 - 1 : 인코딩 & 디코딩 】
- 범주형 => 수치형 : 인코딩 (Encoding)
- 수치형 => 범주형 : 디코딩 (Decoding)
- scikit-learn의 preprocessing 서브 패키지에 제공
    * LabelEncoder   : 타겟/라벨/클래스 컬럼 전용 => 0 ~ 클래스개수 - 1

    * OrdinalEncoder : 범주형 피쳐에 대한 인코딩 => 정수값 변환, 순서가 중요한 피쳐 
        - 예: 만족도, 석차, 등급, ...
    * OneHotEncoder  : 범주형 피쳐에 대한 인코딩 => 값의 의미가 없고 데이터의미가 중요한 피쳐
        - 예: 성별, 혈액형, 도시명, ...
    * TargetEncoder  : OnehotEncoder에 대한 대안. 타겟/라벨/클래스 컬럼의 데이터 타입에 따른 인코딩 진행 
        - 예: 이진, 다중, 수치형, 연속형 ...

[1] LabelEncoder <hr>

In [7]:
## 관련 모듈 로딩
from sklearn.preprocessing import LabelEncoder

## 인스턴스 생성
lencoder = LabelEncoder()

## 학습 진행 : 인코딩 대상 적용
lencoder.fit(["paris", "paris", "tokyo", "amsterdam"])

## 모델 파라미터
print(f'classes_ : {lencoder.classes_}, {lencoder.get_params()}')

## 변형
data = ["paris", "paris", 'tokyo']
encoding = lencoder.transform(data)

## 복원/디코딩 => ndarray
lencoder.inverse_transform(encoding)

classes_ : ['amsterdam' 'paris' 'tokyo'], {}


array(['paris', 'paris', 'tokyo'], dtype='<U9')

[2] OrdinalEncoder <hr>

In [13]:
## 관련 모듈 오딩
from sklearn.preprocessing import OrdinalEncoder
import pandas as pd

## 테스트용 데이터
data = pd.DataFrame({'gender':['F','F','M','F','M', 'UN' ]})

## 인스턴스 생성
ordEncoder = OrdinalEncoder()

## 데이터에 대한 인코딩 서렂ㅇ
ordEncoder.fit(data)

## 설정된 인코딩 정보 확인
print(f'feature_names_in_ : {ordEncoder.feature_names_in_}')
print(f'categories : {ordEncoder.categories_}')
print(f'n_features_in_ : {ordEncoder.n_features_in_}')

## 인코딩 진행
encoding = ordEncoder.transform(data)
print('인코딩 결과 :', encoding)

## 복원/디코딩
print('복원/디코딩 결과:', ordEncoder.inverse_transform(encoding))

feature_names_in_ : ['gender']
categories : [array(['F', 'M', 'UN'], dtype=object)]
n_features_in_ : 1
인코딩 결과 : [[0.]
 [0.]
 [1.]
 [0.]
 [1.]
 [2.]]
복원/디코딩 결과: [['F']
 ['F']
 ['M']
 ['F']
 ['M']
 ['UN']]


[3] OneHotEncoder <hr>

In [14]:
## 관련 모듈 오딩
from sklearn.preprocessing import OneHotEncoder
import pandas as pd

## 테스트용 데이터
data = pd.DataFrame({'gender':['F','F','M','F','M', 'UN' ]})

## 인스턴스 생성 : 압축 출력 설정 sparse_output : [기본] True
ohEncoder = OneHotEncoder(sparse_output=False)

## 데이터에 대한 인코딩 설정
ohEncoder.fit(data)

## 설정된 인코딩 정보 확인
print(f'categories        : {ohEncoder.categories_}')
print(f'feature_names_in_ : {ohEncoder.feature_names_in_}')

## 인코딩 진행
encoding = ohEncoder.transform(data)
print('인코딩 결과 :', encoding)

## 복원/디코딩
print('복원/디코딩 결과:', ohEncoder.inverse_transform(encoding))

categories        : [array(['F', 'M', 'UN'], dtype=object)]
feature_names_in_ : ['gender']
인코딩 결과 : <Compressed Sparse Row sparse matrix of dtype 'float64'
	with 6 stored elements and shape (6, 3)>
  Coords	Values
  (0, 0)	1.0
  (1, 0)	1.0
  (2, 1)	1.0
  (3, 0)	1.0
  (4, 1)	1.0
  (5, 2)	1.0
복원/디코딩 결과: [['F']
 ['F']
 ['M']
 ['F']
 ['M']
 ['UN']]


[4] TargetEncoder <hr>

In [32]:
## 관련 모듈 로딩
from sklearn.preprocessing import TargetEncoder

## 테스트 데이터
df = pd.DataFrame({
    "city" : ["Seoul", 'Busan', 'Seoul', 'Daegu', 'Busan', 'Seoul', 'Incheon', 'Daegu', 'Busan', 'Seoul'],
    'age' : [25,32,41,23,37,29,33,45,28,40],
    'y' : [1,0,1,0,0,1,1,0,0,1]
})
df

Unnamed: 0,city,age,y
0,Seoul,25,1
1,Busan,32,0
2,Seoul,41,1
3,Daegu,23,0
4,Busan,37,0
5,Seoul,29,1
6,Incheon,33,1
7,Daegu,45,0
8,Busan,28,0
9,Seoul,40,1


In [50]:
## 피처컬럼 : city, age / 타겟 컬럼 : y
## 피처 컬럼 중 텍스트 데이터의 city ==> 수치화 즉, 인코딩
import numpy as np

## -> OneHot
ohEncoder = OneHotEncoder(sparse_output=False)
display(df[['city']])
cityArr = ohEncoder.fit_transform(df[['city']]) ## city를 원핫인코딩으로 바꿈
ageArr = df[df.columns[1:-1]].values            ## age의 값임

display(np.concatenate((cityArr,ageArr), axis=1))   ## city랑 age를 합침
df

Unnamed: 0,city
0,Seoul
1,Busan
2,Seoul
3,Daegu
4,Busan
5,Seoul
6,Incheon
7,Daegu
8,Busan
9,Seoul


array([[ 0.,  0.,  0.,  1., 25.],
       [ 1.,  0.,  0.,  0., 32.],
       [ 0.,  0.,  0.,  1., 41.],
       [ 0.,  1.,  0.,  0., 23.],
       [ 1.,  0.,  0.,  0., 37.],
       [ 0.,  0.,  0.,  1., 29.],
       [ 0.,  0.,  1.,  0., 33.],
       [ 0.,  1.,  0.,  0., 45.],
       [ 1.,  0.,  0.,  0., 28.],
       [ 0.,  0.,  0.,  1., 40.]])

Unnamed: 0,city,age,y
0,Seoul,25,1
1,Busan,32,0
2,Seoul,41,1
3,Daegu,23,0
4,Busan,37,0
5,Seoul,29,1
6,Incheon,33,1
7,Daegu,45,0
8,Busan,28,0
9,Seoul,40,1
