# 범주형 데이터 처리 방법
범주형 데이터 : 연속적인 값을 갖지 않고 명목상으로 분류되는 값들을 의미한다. 이러한 데이터는 숫자로 표현되지 않는다.<br>
범주형 데이터는 수치적인 의미를 갖지 않기 때문에 머신러닝 모델에서는 이를 처리하는데 어려움을 겪게된다. 따라서, 범주형 데이터를 모델에 효과적으로 사용하려면 이를 처리할 수 있는 방법을 사용해야 한다.

In [1]:
# 순서가 없는 범주형 데이터 처리 방법
# 사이킷런의 LabelBinarizer를 사용해 문자열 타깃 데이터 원-핫 인코딩

import numpy as np
from sklearn.preprocessing import LabelBinarizer, MultiLabelBinarizer

# 특성 데이터 생성
# feature = np.array((['Texas'],
#                    ['California'],
#                    ['Texas'],
#                    ['Delaware'],
#                    ['Texas']))

feature = np.array((['가나다라'],
                   ['가나다라'],
                   ['아바하자'],
                   ['카나다사']))

one_hot = LabelBinarizer()   # 원-핫 인코더 생성
one_hot.fit_transform(feature)    # 특성을 원-핫 인코딩 변환
one_hot.classes_     # 특성 클래스 확인

print('특성 클래스 확인', one_hot.classes_)

# 데이터를 되돌리는 방법
one_hot_data = one_hot.inverse_transform(one_hot.transform(feature))
print('one hot >> ', one_hot_data)

특성 클래스 확인 ['가나다라' '아바하자' '카나다사']
one hot >>  ['가나다라' '가나다라' '아바하자' '카나다사']


## 문자열 타깃 데이터 원-핫 인코딩

In [16]:
from sklearn.preprocessing import OneHotEncoder
# 여러 개 열이 있는 특성 배열 생성
str_feature = np.array([['안녕', 1],
                       ['저녁', 3],
                       ['안녕', 1],
                       ['점심', 1]])

# 희소배열을 반환이 기본값이면 sparse = False로 지정하면 밀집 배열 변환
one_hot_encoder = OneHotEncoder(sparse=False)

# OneHotencoder -> 입력 특성 배열을 모두 범주형으로 인식
one_hot_encoder.fit_transform(str_feature)
one_hot_encoder_data = one_hot_encoder.categories_    # categories   # categories_ 속성으로 클래스를 확인 가능
print("one hot encoder data >> ", one_hot_encoder_data)

one hot encoder data >>  [array(['안녕', '저녁', '점심'], dtype='<U11'), array(['1', '3'], dtype='<U11')]




In [2]:
# 순서가 없는 범주형 데이터 처리
# 다중 클래스 특성에 대한 처리 방법 실습

multiclass_feature = [("가나다라마", "아자바하나"),
                     ("자다가나라", "자다나타하"),
                     ("가나다라마", "아자바하나"),
                     ("아마자나가", "아카나다하"),
                     ("가나다라마", "아자바하나"),
                     ]

one_hot_multiclass = MultiLabelBinarizer()     # 다중 클래스 원-핫 인코더 객체 생성
one_hot_multiclass.fit_transform(multiclass_feature)        # 다중 클래스 특성을 원-핫 인코딩 변환
one_hot_data = one_hot_multiclass.classes_              # 특성 클래스 확인
print("특성 클래스 확인 >> ", one_hot_data)

특성 클래스 확인 >>  ['가나다라마' '아마자나가' '아자바하나' '아카나다하' '자다가나라' '자다나타하']


## 1-1 순서가 있는 범주형 특성 인코딩
- 순서가 있는 클래스는 순서 개념을 가진 수치값으로 변환해야 한다.
- 클래스 레이블을 문자열을 정수로 매핑하는 딕셔너리를 만들고 이를 필요한 특성에 적용한다.

In [3]:
# 순서가 있는 범주형 특성 인코딩
# 판다스 데이터프레임의 replace()를 사용하여 문자열 레이블을 수치값으로 변환합니다.
import pandas as pd

# data frame
# 특성 데이터 생성
dataframe = pd.DataFrame({
    'Score' : ["Low", "Low", "Medium", "Medium", "High"]
})

# 매핑 딕셔너리 생성
scale_mapper = {
    "Low" : 1,
    "Medium" : 2,
    "High" : 3
}

data =dataframe["Score"].replace(scale_mapper)    # 특성을 정수로 변환
print(data)

0    1
1    1
2    2
3    2
4    3
Name: Score, dtype: int64


- 사이킷런 0.20 이상부터는 범주형 데이터를 정수로 인코딩하는 OrdinalEncoder가 추가 되었음
- OrdinalEncoder는 클래스 범주를 순서대로 반환

In [4]:
from sklearn.preprocessing import OrdinalEncoder

feature_array = np.array((['Low', 10],
                         ['High', 40],
                         ['Medium', 3],))

ordinal_encoder = OrdinalEncoder()
ordinal_encoder.fit_transform(feature_array)
print(ordinal_encoder.categories_)

[array(['High', 'Low', 'Medium'], dtype='<U11'), array(['10', '3', '40'], dtype='<U11')]


## 1-2 순서가 있는 범주형 특성 인코딩
- 특성 딕셔너리 인코딩

In [5]:
from sklearn.feature_extraction import DictVectorizer

In [8]:
# 문서에서 단어의 사용 빈도를 나타내는 딕셔너리 정보를 입력받아 BOW 인코딩한 수치 벡터로 변환한다.
# 딕셔너리 생성
data_dict=[{"Red" : 2, "Blue" : 4},
          {"Red" : 4, "blue" : 3},
          {"Red" : 1, "Yellow" : 2},
          {"Red" : 1, "Yellow" : 2}]

# DictVectorizer 객체 생성
dictVectorizer = DictVectorizer(sparse=False)

feature_dict = dictVectorizer.fit_transform(data_dict)   # 딕셔너리를 특성 행렬로 변환
print(feature_dict)

feature_dict_name = dictVectorizer.get_feature_names_out()
print(feature_dict_name)

dict_data = pd.DataFrame(feature_dict, columns=feature_dict_name)
print(dict_data)

[[4. 2. 0. 0.]
 [0. 4. 0. 3.]
 [0. 1. 2. 0.]
 [0. 1. 2. 0.]]
['Blue' 'Red' 'Yellow' 'blue']
   Blue  Red  Yellow  blue
0   4.0  2.0     0.0   0.0
1   0.0  4.0     0.0   3.0
2   0.0  1.0     2.0   0.0
3   0.0  1.0     2.0   0.0


## 범주형 데이터 - 누락된 클래스 값 대처하기 01

In [9]:
from sklearn.neighbors import KNeighborsClassifier

In [10]:
# 범주형 특성을 가진 특성 행렬 생성
x = np.array([[0, 2.10, 1.48],
             [1, 1.18, 1.33],
             [0, 1.22, 1.27],
             [1, -0.20, -1.15]])

# 범주형 특성에 누락된 값이 있는 특성 행렬을 만든다.
x_with_nan = np.array([[np.nan, 0.87, 1.33], [np.nan, -0.67, -0.22]])
clf = KNeighborsClassifier(3, weights = 'distance')
#  k =3, 예측 수행을 하면서 가장 가까운 3개를 찾으 거리에 따라 가중치를 부여하여 예측

print(x[:, 1:])   # 데이터
print(x[:, 0])    # 라벨

[[ 2.1   1.48]
 [ 1.18  1.33]
 [ 1.22  1.27]
 [-0.2  -1.15]]
[0. 1. 0. 1.]


In [11]:
train_model = clf.fit(x[:, 1:], x[:, 0])   # 훈련
imputer_values = train_model.predict(x_with_nan[:, 1:])   # 누락된 값의 클래스 예측

# 예측된 클래스와 원본 특성을 열로 합침
x_with_imputer = np.hstack((imputer_values.reshape(-1, 1), x_with_nan[:, 1:]))
data = np.vstack((x_with_imputer, x))   # 두 특성 행렬을 연결
print(data)

[[ 0.    0.87  1.33]
 [ 1.   -0.67 -0.22]
 [ 0.    2.1   1.48]
 [ 1.    1.18  1.33]
 [ 0.    1.22  1.27]
 [ 1.   -0.2  -1.15]]


k-최근접 이웃 : 머신러닝에서 사용되는 분류 알고리즘
유사한 특성을 가진 데이터는 유사한 범주에 속하는 경향이 있다는 가정하에 사용한다.
<br>
- K 개수 선택
k가 너무 작을 때 : overfitting(과적합) -> 분류 정확도가 낮아짐
k가 너무 클 때 Underfitting(과소적합) -> 모든 점이 동일한 방식으로 분류되거나 함

## 누락된 클래스 값 대처하기 - 02
- 누락된 값을 측성에서 가장 자주 등장하는 값으로 채우기

In [17]:
from sklearn.impute import SimpleImputer
# SimpleImputer : 결측값(missing value)을 대체할 값으로 채워주는 클래스

"""
strategy 들어갈 수 있는 값은 총 3개
mean, median, most_frequent

어떤 것을 선택할지는 데이터의 특성과 상황에 따라 다르다.
일반적으로는 수치형 데이터의 경우 mean이나 median을, 범주형 데이터의 경우 most_frequent을 사용
"""

In [14]:
x_complete = np.vstack((x_with_nan, x))
print(x_complete)

impute = SimpleImputer(strategy='most_frequent')
data_impute = impute.fit_transform(x_complete)

print(data_impute)

[[  nan  0.87  1.33]
 [  nan -0.67 -0.22]
 [ 0.    2.1   1.48]
 [ 1.    1.18  1.33]
 [ 0.    1.22  1.27]
 [ 1.   -0.2  -1.15]]
[[ 0.    0.87  1.33]
 [ 0.   -0.67 -0.22]
 [ 0.    2.1   1.48]
 [ 1.    1.18  1.33]
 [ 0.    1.22  1.27]
 [ 1.   -0.2  -1.15]]
