<a href="https://colab.research.google.com/github/johyunkang/MLwithPythonCookbook/blob/main/5_1_encoding.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 5.1 순서가 없는 범주형 특성 인코딩하기 

`LabelBinarizer`는 문자열 타깃 데이터를 원-핫 인코딩으로 변환할 때 사용

`LabelEncoder`는 문자열 타깃 데이터를 정수 레이블로 변환

특성 배열을 **원-핫 인코딩** 할 때는 `OneHotEncoder`를 사용하는게 좋음

`OneHotEncoder`는 기본적으로 **희소배열**을 반환. `sparse=False`로 지정 시 밀집배열을 얻을 수 있음

In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelBinarizer, MultiLabelBinarizer

feature = np.array([["texas"], ["california"], ["texas"], ["delaware"], ["texas"]])

# 원핫 인코더
one_hot = LabelBinarizer()

# 특성 인코딩
encoding_result = one_hot.fit_transform(feature)
print('인코딩 결과:\n', encoding_result)

print('인코딩 결과 확인:', one_hot.classes_)

# help(one_hot)
# 인코딩 결과 디코딩
decoding_result = one_hot.inverse_transform(one_hot.transform(feature))
print('\n\n디코딩 결과:\n', decoding_result)

# 더미를 이용한 인코딩
display(pd.get_dummies(feature[:, 0]))

인코딩 결과:
 [[0 0 1]
 [1 0 0]
 [0 0 1]
 [0 1 0]
 [0 0 1]]
인코딩 결과 확인: ['california' 'delaware' 'texas']


디코딩 결과:
 ['texas' 'california' 'texas' 'delaware' 'texas']


Unnamed: 0,california,delaware,texas
0,0,0,1
1,1,0,0
2,0,0,1
3,0,1,0
4,0,0,1


In [2]:

# 다중 클래스 특성
multi_feature = [("texas", "florida"), ("california", "alabama"),
                 ("texas", "florida"), ("delware", "florida"),
                 ("texas", "alabama")]
# 다중 원핫 인코더
one_hot_multi = MultiLabelBinarizer()

multi_encod_result = one_hot_multi.fit_transform(multi_feature)
print('다중 멀티 인코딩 결과:\n', multi_encod_result)

print('\n\n클래스 확인:', one_hot_multi.classes_)

다중 멀티 인코딩 결과:
 [[0 0 0 1 1]
 [1 1 0 0 0]
 [0 0 0 1 1]
 [0 0 1 1 0]
 [1 0 0 0 1]]


클래스 확인: ['alabama' 'california' 'delware' 'florida' 'texas']


In [3]:
from sklearn.preprocessing import OneHotEncoder

# 여러 개의 열이 있는 특성 배열
feature = np.array( [ ["texas", 1],
                      ["california", 1],
                      ["texas", 3],
                      ["delaware", 1],
                      ["texas", 1] ] )
one_hot_enc = OneHotEncoder(sparse=False) # sparse=False : 밀집배열 리턴, True: 희소배열 리턴
print("One-Hot encoing 결과:")
print(one_hot_enc.fit_transform(feature))

# 카테고리 확인
print('\n카테고리 확인:', one_hot_enc.categories_)

One-Hot encoing 결과:
[[0. 0. 1. 1. 0.]
 [1. 0. 0. 1. 0.]
 [0. 0. 1. 0. 1.]
 [0. 1. 0. 1. 0.]
 [0. 0. 1. 1. 0.]]

카테고리 확인: [array(['california', 'delaware', 'texas'], dtype='<U21'), array(['1', '3'], dtype='<U21')]


## 5.2 순서가 있는 범주형 특성 인코딩하기

`replace`를 이용하여 문자열 레이블을 수치값으로 변환

In [4]:
import pandas as pd

df = pd.DataFrame({'score':['low', 'low', 'medium', 'medium', 'high']})

print('원본 DF')
display(df)
# 매핑 딕셔너리 생성
scale_mapper = {'low':1, 'medium':2, 'high':3}

print('\n\nreplace 후 DF')
df_replaced = df['score'].replace(scale_mapper)
display(df_replaced)

원본 DF


Unnamed: 0,score
0,low
1,low
2,medium
3,medium
4,high




replace 후 DF


0    1
1    1
2    2
3    2
4    3
Name: score, dtype: int64

사이킷런 **0.20** 버전에 범주형 데이터를 정수로 인코딩하는 `OrdinalEncoder`가 추가되었음

`OrdinalEncoder`는 클래스 범주를 순서대로 변환함. 정수 데이터도 범주형으로 인식하여 변환함

In [5]:
from sklearn.preprocessing import OrdinalEncoder

features = np.array( [ ['Low', 10],
                       ['High', 50],
                       ['Medium', 3] ] )

ordinal_encoder = OrdinalEncoder()
print('OrdinalEncoder fit transform 결과')
print(ordinal_encoder.fit_transform(features))

print('\n\ncategories_ 속성 확인')
print(ordinal_encoder.categories_)

OrdinalEncoder fit transform 결과
[[1. 0.]
 [0. 2.]
 [2. 1.]]


categories_ 속성 확인
[array(['High', 'Low', 'Medium'], dtype='<U21'), array(['10', '3', '50'], dtype='<U21')]


## 5.3 특성 딕셔너리를 인코딩하기

In [6]:
from sklearn.feature_extraction import DictVectorizer

# 딕셔너리 생성
data_dict = [{'red':2, 'blue':4},
             {'red':4, 'blue':3},
             {'red':1, 'yellow':2},
             {'red':2, 'yellow':2}]
            
# DictVectorizer 객체 생성
dv = DictVectorizer(sparse=False) # sparse=False: 밀집행렬 반환, True : 희소행렬 반환

# 딕셔너리를 행렬로 변환
features = dv.fit_transform(data_dict)

print('밀집행렬 반환값')
print(features)
print('\n밀집행렬 feature Name')
print(dv.get_feature_names())


# DictVectorizer 객체 생성
dvt = DictVectorizer(sparse=True) # sparse=False: 밀집행렬 반환, True : 희소행렬 반환

# 딕셔너리를 행렬로 변환
features_t = dvt.fit_transform(data_dict)
print('\n\n희소행렬 반환값')
print(features_t)
print('\n희소행렬 feature Name')
print(dvt.get_feature_names())

밀집행렬 반환값
[[4. 2. 0.]
 [3. 4. 0.]
 [0. 1. 2.]
 [0. 2. 2.]]

밀집행렬 feature Name
['blue', 'red', 'yellow']


희소행렬 반환값
  (0, 0)	4.0
  (0, 1)	2.0
  (1, 0)	3.0
  (1, 1)	4.0
  (2, 1)	1.0
  (2, 2)	2.0
  (3, 1)	2.0
  (3, 2)	2.0

희소행렬 feature Name
['blue', 'red', 'yellow']




## 5.4 누락된 클래스 값 대체하기

이상적인 훈련은 알고리즘 훈련하여 누락된 값을 예측
- KNN

In [7]:
import numpy as np
from sklearn.neighbors import KNeighborsClassifier

# 범주형 특성을 가진 특성 행렬 생성
x = np.array( [ [0, 2.10, 1.45],
               [1, 1.18, 1.33],
               [0, 1.22, 1.27],
               [1, -0.21, -1.19],] )

# 범주형 특성에 누락된 값이 있는 특성 행렬을 만들기
x_with_nan = np.array([ [np.nan, 0.87, 1.31], [np.nan, -0.67, -0.22] ])

# KNN 학습기 훈련
knn = KNeighborsClassifier(n_neighbors=3, weights='distance') # uniform (ma) | distance (ewma)
trained_model = knn.fit(x[:, 1:], x[:, 0])

# 누락된 값의 클래스를 예측
imputed_values = trained_model.predict(x_with_nan[:, 1:])

print('imputed values')
print(imputed_values)

print('\nreshape')
print(imputed_values.reshape(-1, 1))

# 예측값을 원본 특성과 합치기
x_with_imputed = np.hstack((imputed_values.reshape(-1, 1), x_with_nan[:, 1:]))
print('\n\n예측값 합친 결과 (hstack)')
print(x_with_imputed)

# 투 특성 행렬 합치기
x_result = np.vstack( (x, x_with_imputed) )
print('\n\n모두 합친 최종 결과')
print(x_result)

imputed values
[0. 1.]

reshape
[[0.]
 [1.]]


예측값 합친 결과 (hstack)
[[ 0.    0.87  1.31]
 [ 1.   -0.67 -0.22]]


모두 합친 최종 결과
[[ 0.    2.1   1.45]
 [ 1.    1.18  1.33]
 [ 0.    1.22  1.27]
 [ 1.   -0.21 -1.19]
 [ 0.    0.87  1.31]
 [ 1.   -0.67 -0.22]]


**위 결과를 KNNImputer**로 다시 한 번 해봐라


아래는 `SimpleImputer`를 이용한 방

In [8]:
from sklearn.impute import SimpleImputer

x_complete = np.vstack((x, x_with_nan))

print('x complete')
print(x_complete)

imputer = SimpleImputer(strategy='most_frequent') # mean | median | most_frequent | constant
x_comp_rslt = imputer.fit_transform(x_complete)
print('\n\nSimpleImputer 결과')
print(x_comp_rslt)

x complete
[[ 0.    2.1   1.45]
 [ 1.    1.18  1.33]
 [ 0.    1.22  1.27]
 [ 1.   -0.21 -1.19]
 [  nan  0.87  1.31]
 [  nan -0.67 -0.22]]


SimpleImputer 결과
[[ 0.    2.1   1.45]
 [ 1.    1.18  1.33]
 [ 0.    1.22  1.27]
 [ 1.   -0.21 -1.19]
 [ 0.    0.87  1.31]
 [ 0.   -0.67 -0.22]]


## 5.5 불균형한 클래스 다루기

In [17]:
import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris

iris = load_iris()

features = iris.data
print('shape:', features.shape)
print(features[:5])

# 타겟 벡터 생성
target = iris.target
print('\n\ntarget shape:', target.shape)
print(target[:5])

# 처음 40개 샘플 삭제
features = features[40:, :]
target = target[40:]

print('\n\n처음 40개 샘플 삭제 데이터')
print('target shape:', target.shape)
print(target)
# 클래스 0을 음성 클래스로 하는 이진 타겟 벡터 생성
target = np.where((target == 0), 0, 1) # condition 이 true면 0, 아니면 1
print(target)

shape: (150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]


target shape: (150,)
[0 0 0 0 0]


처음 40개 샘플 삭제 데이터
target shape: (110,)
[0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]
[0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]


In [18]:
# 가중치 생성
weights = {0 : 0.9, 1 : 0.1}

# 가중치를 부여한 랜덤 포레스트 분류기를 만듭니다.
RandomForestClassifier(class_weight=weights) 

RandomForestClassifier(class_weight={0: 0.9, 1: 0.1})