# 순서가 없는 범주형 데이터 처리

In [37]:
import numpy as np
from sklearn.preprocessing import LabelBinarizer, MultiLabelBinarizer

In [38]:
feature = np.array((['가나다라'],
                    ['가나다라'],
                    ['아바하자'],
                    ['카나다사']))

print(feature)

#원-핫 인코더 생성
ont_hot = LabelBinarizer()
ont_hot.fit_transform(feature)  #특성을 원-핫 인코딩 변환
#특성 클래스 확인
print(ont_hot.classes_)

[['가나다라']
 ['가나다라']
 ['아바하자']
 ['카나다사']]
['가나다라' '아바하자' '카나다사']


원-핫 인코딩은 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식입니다

# 다중 클래스 특성에 대한 처리

In [39]:
multiclass_feature = [('가나다라마','아자바하나'),
                      ('자나다나마','자다바타나'),
                      ('가나다라마','아자바하나'),
                      ('아마자나마','아카나다하'),
                      ('가나다라마','아자바하나')
                      ]

one_hot_mult = MultiLabelBinarizer()
one_hot_mult.fit_transform(multiclass_feature)
print(one_hot_mult.classes_)

['가나다라마' '아마자나마' '아자바하나' '아카나다하' '자나다나마' '자다바타나']


# 문자열 타깃 데이터 원-핫 인코딩

In [40]:
from sklearn.preprocessing import OneHotEncoder

str_feature = ([['안녕', 1],
                ['저녁', 2],
                ['안녕', 3],
                ['점심', 3],
                ['노래', 4]
                ])

one_hot_encoder = OneHotEncoder(sparse=False)

# One hot encoder -> 입력 특성 배열을 모두 범주형
one_hot_encoder.fit_transform(str_feature)
print(one_hot_encoder.categories_)

[array(['노래', '안녕', '저녁', '점심'], dtype=object), array([1, 2, 3, 4], dtype=object)]




# 순서가 있는 범주형 특성 인코딩
- 순서가 있는 클래스는 순서 개념을 가진 수치값으로 변환
- 딕셔너리 사용해서  -> 특성

In [41]:
pip install pandas

Note: you may need to restart the kernel to use updated packages.


In [42]:
import pandas as pd

In [43]:
#특성 데이터 생성
dataframe = pd.DataFrame({
    'Score' : ["Low", "Low", "Medium", "Medium" ,"High"]
})

print(dataframe)

    Score
0     Low
1     Low
2  Medium
3  Medium
4    High


In [44]:
# 매핑 딕셔너리 생성
scale_mapper = {
    "Low" : 1,
    "Medium" : 2,
    "High" : 3
}

print(scale_mapper)


{'Low': 1, 'Medium': 2, 'High': 3}


In [45]:
data = dataframe["Score"].replace(scale_mapper)
print(data)

0    1
1    1
2    2
3    2
4    3
Name: Score, dtype: int64


# 1-2 순서가 있는 범주형 특성 인코딩 (2)

In [46]:
from sklearn.preprocessing import OrdinalEncoder

feature_array = np.array((['Low', 10],
                          ['High', 40],
                          ['Medium', 3]))

ordinal_encoder = OrdinalEncoder()
ordinal_encoder.fit_transform(feature_array)
print(ordinal_encoder.categories_)

[array(['High', 'Low', 'Medium'], dtype='<U11'), array(['10', '3', '40'], dtype='<U11')]


# 1-3 순서가 있는 범주형 특성 인코딩 (3)
- 특성 딕셔너리 인코딩

In [47]:
from sklearn.feature_extraction import DictVectorizer

In [48]:
#딕셔너리 생성
data_dict = [{"Red" : 2, "Blue" : 4},
             {"Red" : 2, "Blue" : 3},
             {"Red" : 1, "Yellow" : 2},
             {"Red" : 1, "Yellow" : 2}]

dictvectorizer = DictVectorizer(sparse=False)

feature_dict = dictvectorizer.fit_transform(data_dict)
print(feature_dict)

feature_dict_name = dictvectorizer.get_feature_names_out()
print(feature_dict_name)

dict_data = pd.DataFrame(feature_dict, columns=feature_dict_name)
print(dict_data)

[[4. 2. 0.]
 [3. 2. 0.]
 [0. 1. 2.]
 [0. 1. 2.]]
['Blue' 'Red' 'Yellow']
   Blue  Red  Yellow
0   4.0  2.0     0.0
1   3.0  2.0     0.0
2   0.0  1.0     2.0
3   0.0  1.0     2.0


# 범주형 데이터 - 누락된 클래스 값 대처하기 01

In [49]:
from sklearn.neighbors import KNeighborsClassifier

In [50]:
x = np.array([[0, 2.10, 1.48],
              [1,1.18,1.33],
              [0,1.22,1.27],
              [1, -0.20, -1.15]])

x_with_nan = np.array([[np.nan, 0.87, 1.33], [np.nan, -0.67, -0.22]])
clf = KNeighborsClassifier(3, weights='distance')

print(x[:,1:])
print(x[:,0])

[[ 2.1   1.48]
 [ 1.18  1.33]
 [ 1.22  1.27]
 [-0.2  -1.15]]
[0. 1. 0. 1.]


In [51]:
train_model = clf.fit(x[:,1:], x[:,0])
imputer_values = train_model.predict(x_with_nan[:,1:])  #누락된 값의 클래스 예측

x_with_imputer = np.hstack((imputer_values.reshape(-1,1), x_with_nan[:,1:]))
print(data)

0    1
1    1
2    2
3    2
4    3
Name: Score, dtype: int64


# 누락된 클래스 값 대처하기 -02
- 누락된 값을 특성에서 가장 자주 등장하는 값으로 채우기

In [52]:
from sklearn.impute import SimpleImputer

In [55]:
x_complete = np.vstack((x_with_nan, x))
print("전")
print(x_complete)

impute = SimpleImputer(strategy='most_frequent')
data_impute = impute.fit_transform(x_complete)

print("후")
print(data_impute)

전
[[  nan  0.87  1.33]
 [  nan -0.67 -0.22]
 [ 0.    2.1   1.48]
 [ 1.    1.18  1.33]
 [ 0.    1.22  1.27]
 [ 1.   -0.2  -1.15]]
후
[[ 0.    0.87  1.33]
 [ 0.   -0.67 -0.22]
 [ 0.    2.1   1.48]
 [ 1.    1.18  1.33]
 [ 0.    1.22  1.27]
 [ 1.   -0.2  -1.15]]


fit 메서드는 학습이 완료된 모델을 반환하고, fit_transform 메서드는 학습이 완료된 변환기 객체와 변환된 데이터를 반환합니다.