#### 06_순서가 있는 범주형 특성 인코딩
- 순서가 있는 클래스는 순서 개념을 가진 수치값으로 변환
- 딕셔러리 사용해서 -> 특성

In [7]:
import pandas as pd
import numpy as np

##### 1-1 순서가 있는 범주형 특성 인코딩 : Scale Mapper

In [4]:
# 특성 데이터 생성
dataframe = pd.DataFrame({
    'Score' : ['Low','Low','Medium','Medium','High']
})

print(dataframe)

    Score
0     Low
1     Low
2  Medium
3  Medium
4    High


In [5]:
# 매핑 딕셔러니 생성
scale_mapper = {
    'Low' : 1,
    'Medium' : 2,
    'High' : 3,
}

print(scale_mapper)

{'Low': 1, 'Medium': 2, 'High': 3}


In [6]:
data = dataframe['Score'].replace(scale_mapper)
print(data)

0    1
1    1
2    2
3    2
4    3
Name: Score, dtype: int64


##### 1-2 순서가 있는 범주형 특성 인코딩 : Ordinal Encoder


In [8]:
from sklearn.preprocessing import OrdinalEncoder
feature_array = np.array((
    ['Low',10],
    ['High',30],
    ['Medium',3],
                          ))

ordinal_encoder = OrdinalEncoder()
ordinal_encoder.fit_transform(feature_array)
print(ordinal_encoder.categories_)

[array(['High', 'Low', 'Medium'], dtype='<U21'), array(['10', '3', '30'], dtype='<U21')]


#### 1-3 순서가 있는 범주형 특성 인코딩 : Dict Vectorizer
- 특성 딕셔너리 인코딩

In [9]:
from sklearn.feature_extraction import DictVectorizer

In [16]:
# 딕셔너리 생성
data_dict = [
    {'Red' : 2, 'Blue' : 4},
    {'Red' : 4, 'Blue' : 3},
    {'Red' : 1, 'Yellow' : 2},
    {'Red' : 1, 'Yellow' : 2}
    ]

dictVectorizer = DictVectorizer(sparse=False)

feature_dict = dictVectorizer.fit_transform(data_dict)
print(feature_dict)

feature_dict_name = dictVectorizer.get_feature_names_out()
print(feature_dict_name)

dict_data = pd.DataFrame(feature_dict, columns=feature_dict_name)
print(dict_data)

[[4. 2. 0.]
 [3. 4. 0.]
 [0. 1. 2.]
 [0. 1. 2.]]
['Blue' 'Red' 'Yellow']
   Blue  Red  Yellow
0   4.0  2.0     0.0
1   3.0  4.0     0.0
2   0.0  1.0     2.0
3   0.0  1.0     2.0


#### 02 - 범주형 데이터

##### 2-1 누락된 클래스 값 대처하기 : KNN

In [17]:
from sklearn.neighbors import KNeighborsClassifier

In [19]:
x = np.array([
    [0,2.10,1.48],
    [1,1.19,1.33],
    [0,1.22,1.27],
    [1,-0.20,-1.15]
              ])

x_with_nan = np.array([[np.nan, 0.87, 1.33], [np.nan, -0.67, -0.22]])
clf =KNeighborsClassifier(3, weights='distance')

print(x[:,1:])
print(x[:,0])

[[ 2.1   1.48]
 [ 1.19  1.33]
 [ 1.22  1.27]
 [-0.2  -1.15]]
[0. 1. 0. 1.]


In [20]:
train_model = clf.fit(x[:,1:],x[:,0])
imputer_values = train_model.predict(x_with_nan[:,1:])  # 누락된 값의 클래스 예측

x_with_imputer = np.hstack((imputer_values.reshape(-1,1),x_with_nan[:,1:]))
data = np.vstack((x_with_imputer, x))   # 두 특성 행렬을 연결
print(data)

[[ 0.    0.87  1.33]
 [ 1.   -0.67 -0.22]
 [ 0.    2.1   1.48]
 [ 1.    1.19  1.33]
 [ 0.    1.22  1.27]
 [ 1.   -0.2  -1.15]]


#### 2-2 누락된 클래스 값 대처하기 : SimpleImputer
- 누락된 값을 특성에서 가장 자주 등장하는 값으로 채우기

In [21]:
from sklearn.impute import SimpleImputer

In [23]:
x_complete = np.vstack((x_with_nan, x))
print('전')
print(x_complete)

impute = SimpleImputer(strategy='most_frequent')
data_impute = impute.fit_transform(x_complete)

print('후')
print(data_impute)

전
[[  nan  0.87  1.33]
 [  nan -0.67 -0.22]
 [ 0.    2.1   1.48]
 [ 1.    1.19  1.33]
 [ 0.    1.22  1.27]
 [ 1.   -0.2  -1.15]]
후
[[ 0.    0.87  1.33]
 [ 0.   -0.67 -0.22]
 [ 0.    2.1   1.48]
 [ 1.    1.19  1.33]
 [ 0.    1.22  1.27]
 [ 1.   -0.2  -1.15]]
