# Chapter 5. 범주형 데이터 다루기
## 5.0 소개

* 관측 대상을 양이 아니라 질로 측정하는 게 유용할 수 있다.
* 종류
    * 명목형 범주(nominal) : 순서가 없는 범주
    * 순서형 범주(ordinal) : 자연적인 순서를 가진다.
* 벡터나 문자열의 열로 표현된다.
    * 머신러닝은 수치값을 입력해야 하므로 문제가 된다.
    
* K-최근접 이웃 알고리즘 : 유클리드 거리 사용

$$\sqrt{\sum_{i=1}^n{(x_i-y_i)^2}}$$

## 5.1 순서가 없는 범주형 특성 인코딩하기
* 사이킷런의 LabelBinarizer : 원-핫 인코딩

In [1]:
import numpy as np
from sklearn.preprocessing import LabelBinarizer, MultiLabelBinarizer

feature = np.array([["Texas"],
                   ["California"],
                   ["Texas"],
                   ["Delaware"],
                   ["Texas"]])

one_hot = LabelBinarizer()

# 특성을 원핫 인코딩합니다.
one_hot.fit_transform(feature)

array([[0, 0, 1],
       [1, 0, 0],
       [0, 0, 1],
       [0, 1, 0],
       [0, 0, 1]])

In [2]:
# 클래스 확인
one_hot.classes_

array(['California', 'Delaware', 'Texas'], dtype='<U10')

In [3]:
one_hot.inverse_transform(one_hot.transform(feature))

array(['Texas', 'California', 'Texas', 'Delaware', 'Texas'], dtype='<U10')

* 판다스로 원-핫 인코딩

In [4]:
import pandas as pd

pd.get_dummies(feature[:,0])

  return f(*args, **kwds)


Unnamed: 0,California,Delaware,Texas
0,0,0,1
1,1,0,0
2,0,0,1
3,0,1,0
4,0,0,1


* 사이킷런 : 샘플이 여러 개의 클래스를 가지는 경우를 다룰 수 있다.

In [6]:
# 다중 클래스 특성 제작
multiclass_feature = [("텍사스","플로리다"),
                      ("캘리포니아","알바마"),
                      ("텍사스","플로리다"),
                      ("델라웨어","플로리다"),
                      ("텍사스","알바마")]

one_hot_multiclass = MultiLabelBinarizer()

one_hot_multiclass.fit_transform(multiclass_feature)

array([[0, 0, 0, 1, 1],
       [0, 1, 1, 0, 0],
       [0, 0, 0, 1, 1],
       [1, 0, 0, 0, 1],
       [0, 1, 0, 1, 0]])

In [8]:
one_hot_multiclass.classes_

array(['델라웨어', '알바마', '캘리포니아', '텍사스', '플로리다'], dtype=object)

* 하나의 수치값에 각 클래스 할당하게 되면 순서가 개입한다.
* 올바른 방법
    * 원본 특성인 클래스마다 이진 특성을 하나씩 제작 : 원-핫 인코딩 혹은 더미 인코딩(dummy encoding)
    * 원-핫 인코딩 후 선형 의존성을 피하고자 결과 행렬에서 **원-핫 인코딩된 특성 중 하나를 삭제**하는 게 좋다.

* LabelEncoder : 문자열 타깃 데이터를 정수 레이블로 변환(일차원 배열)
* OneHotEncoder(>0.20) : 정수형 특성만 원-핫 인코딩하다가 문자열 데이터도 인식 가능하다.
   * 특성 배열을 원-핫 인코딩할 때는 이 클래스를 사용하는 게 좋다.
   * 희소 배열을 반환한다. sparse=False 하면 Dense 배열 얻는다.

In [9]:
from sklearn.preprocessing import OneHotEncoder

# 여러 열이 있는 특성 배열(이차원 이상)
feature = np.array([["Texas",1],
                   ["California",1],
                   ["Texas",3],
                   ["Delaware",1],
                   ["Texas",1]])
one_hot_encoder = OneHotEncoder(sparse=False)
one_hot_encoder.fit_transform(feature)

array([[0., 0., 1., 1., 0.],
       [1., 0., 0., 1., 0.],
       [0., 0., 1., 0., 1.],
       [0., 1., 0., 1., 0.],
       [0., 0., 1., 1., 0.]])

In [10]:
# 처음 세 개의 열에 원-핫 인코딩, 나머지 1과 3도 두 개의 열에 원핫인코딩
# 클래스 확인 : categories_
one_hot_encoder.categories_

[array(['California', 'Delaware', 'Texas'], dtype='<U10'),
 array(['1', '3'], dtype='<U10')]

* OneHotEncoder : 모든 입력 특성 배열을 범주형 인식하여 변환
* **ColumnTransformer**와 함께 사용하여, 특정 열에만 적용할 수 있다.(4장)

## 5.2 순서가 있는 범주형 특성 인코딩하기
* 판다스 데이터프레임 replace 메서드 : 문자열 레이블을 수치값으로 변환

In [45]:
import pandas as pd

dataframe = pd.DataFrame({"Score": ["Low","Low","Medium","Medium","High"]})

scale_mapper = {"Low":1,
               "Medium":2,
               "High":3}

dataframe["Score"].replace(scale_mapperpper)

0    1
1    1
2    2
3    2
4    3
Name: Score, dtype: int64

* 리커트 척도 : 특성 클래스에 어떤 순서가 포함된 경우가 있다.
* 반드시 클래스 내재된 순서 정보에 기반하여 수치값을 택한다.
    * 주로 딕셔너리를 활용한다.

In [46]:
dataframe = pd.DataFrame({"Score": ["Low",
                                   "Low",
                                   "Medium",
                                   "Medium",
                                   "High",
                                   "Barely More Than Medium"]})

scale_mapper = {"Low":1,
                "Medium":2,
                "Barely More Than Medium":3,
                "High":4}

dataframe["Score"].replace(scale_mapper)

0    1
1    1
2    2
3    2
4    4
5    3
Name: Score, dtype: int64

In [47]:
# 클래스 간격이 일정하지 않은 경우
# 클래스 매핑하는 수치값에 주의를 기울인다.

scale_mapper = {"Low":1,
                "Medium":2,
                "Barely More Than Medium":2.1,
                "High":3}

dataframe["Score"].replace(scale_mapper)

0    1.0
1    1.0
2    2.0
3    2.0
4    3.0
5    2.1
Name: Score, dtype: float64

* OrdinalEncoder 추가(>0.20) : 클래스 범주를 순서대로 변환한다. 정수 데이터도 범주형으로 인식하여 변환
    * 특정 열만 범주형으로 변환하려면 ColumnTransformer와 함께 사용

In [48]:
import numpy as np
from sklearn.preprocessing import OrdinalEncoder

features = np.array([["Low",10],
                    ["High", 50],
                    ["Medium", 3]])

In [49]:
ordinal_encoder = OrdinalEncoder()
ordinal_encoder.fit_transform(features)

array([[1., 0.],
       [0., 2.],
       [2., 1.]])

In [50]:
# 카테고리
ordinal_encoder.categories_

[array(['High', 'Low', 'Medium'], dtype='<U6'),
 array(['10', '3', '50'], dtype='<U6')]

## 5.3 특정 딕셔너리를 인코딩하기
* DictVectorizer : 딕셔너리를 특성 행렬로 변환

In [51]:
from sklearn.feature_extraction import DictVectorizer

data_dict = [{"red":2, "blue":4},
            {"red":4, "blue":3},
            {"red":1, "yellow":2}]

In [55]:
dictvectorizer = DictVectorizer(sparse=False) # Dense 배열 반환

In [56]:
features = dictvectorizer.fit_transform(data_dict)

In [57]:
features

array([[4., 2., 0.],
       [3., 4., 0.],
       [0., 1., 2.]])

* DictVectorizer : 0이 아닌 값의 원소만 저장하는 희소 행렬 바환하며, 매우 큰 행렬을 다룰 때 도움이 된다.
    * 메모리 사용량 최소화
    * DictVectorizer + sparse=False : 밀집 벡터 출력 가능(0까지 다 넣기)

In [58]:
# 생성된 특성 이름 : get_feature_naems
feature_names = dictvectorizer.get_feature_names()

feature_names

['blue', 'red', 'yellow']

In [59]:
# 미려한 출력은 판다ㅣ스 데이터프레임
import pandas as pd

pd.DataFrame(features, columns=feature_names)

Unnamed: 0,blue,red,yellow
0,4.0,2.0,0.0
1,3.0,4.0,0.0
2,0.0,1.0,2.0


In [61]:
# 네 개의 문서에 대한 단어 카운트 딕셔너리 만든다.
doc_1_word_count = {"red":2, "blue":4}
doc_2_word_count = {"red":4, "blue":3}
doc_3_word_count = {"red":1, "yellow":2}
doc_4_word_count = {"red":2, "yellow":2}

# 리스트 제작
doc_word_counts = [doc_1_word_count,
                  doc_2_word_count,
                  doc_3_word_count,
                  doc_4_word_count]

# 단어 카운트 딕셔너리를 특성 행렬로 변환
dictvectorizer.fit_transform(doc_word_counts)

array([[4., 2., 0.],
       [3., 4., 0.],
       [0., 1., 2.],
       [0., 2., 2.]])

## 5.4 누락된 클래스 값 대체하기
* k-최근접 이웃(KNN)분류기 사용

In [63]:
import numpy as np
from sklearn.neighbors import KNeighborsClassifier

In [65]:
# 범주형 특성을 가진 특성 행렬 제작
X = np.array([[0, 2.10, 1.45],
            [1, 1.18, 1.33],
            [0, 1.22, 1.27],
            [1, -0.21, -1.19]])

# 범주형 특성에 결측값이 있는 특성 행렬 제작
X_with_nan = np.array([[np.nan, 0.87, 1.31],
                      [np.nan, -0.67, -0.22]])

clf = KNeighborsClassifier(3, weights='distance')
trained_model = clf.fit(X[:, 1:], X[:,0])

# 결측값 클래스 예측
imputed_values = trained_model.predict(X_with_nan[:, 1:])

# 예측 클래스와 원본 특성을 열로 합치기(hstack)
X_with_imputed = np.hstack((imputed_values.reshape(-1,1), X_with_nan[:, 1:]))

# 두 특성 행렬을 연결한다.
np.vstack((X_with_imputed, X))

array([[ 0.  ,  0.87,  1.31],
       [ 1.  , -0.67, -0.22],
       [ 0.  ,  2.1 ,  1.45],
       [ 1.  ,  1.18,  1.33],
       [ 0.  ,  1.22,  1.27],
       [ 1.  , -0.21, -1.19]])

In [66]:
X

array([[ 0.  ,  2.1 ,  1.45],
       [ 1.  ,  1.18,  1.33],
       [ 0.  ,  1.22,  1.27],
       [ 1.  , -0.21, -1.19]])

In [67]:
X_with_nan

array([[  nan,  0.87,  1.31],
       [  nan, -0.67, -0.22]])

In [68]:
X[:, 1:]

array([[ 2.1 ,  1.45],
       [ 1.18,  1.33],
       [ 1.22,  1.27],
       [-0.21, -1.19]])

In [69]:
X[:, 0]

array([0., 1., 0., 1.])

In [72]:
imputed_values.reshape(-1,1)

array([[0.],
       [1.]])

In [73]:
X_with_nan[:, 1:]

array([[ 0.87,  1.31],
       [-0.67, -0.22]])

In [77]:
# 이번에는 가장 많이 등장(최빈값)으로 채우기
from sklearn.impute import SimpleImputer

X_complete = np.vstack((X_with_nan, X))

imputer = SimpleImputer(strategy='most_frequent')

imputer.fit_transform(X_complete)

array([[ 0.  ,  0.87,  1.31],
       [ 0.  , -0.67, -0.22],
       [ 0.  ,  2.1 ,  1.45],
       [ 1.  ,  1.18,  1.33],
       [ 0.  ,  1.22,  1.27],
       [ 1.  , -0.21, -1.19]])

* 범주형 특성에 결측값
    * 머신러닝 알고리즘으로 누락된 값을 예측한다.(베스트)
    * 누락 값 특성을 타깃으로 하고 다른 특성을 특성 행렬로 사용한다.
    * KNN 가장 맣이 사용한다.
        * k 최근접 이웃의 다수 클래스를 누락된 값에 할당한다.
    * 대규모 데이터는 최빈값이 좋다.
    * 추가로 결측 채운 여부를 나타내는 이진 특성 하나 추가해주면 좋다.

## 5.5 불균형한 클래스 다루기
* 타깃 벡터가 매우 불균형 클래스
    * 더 많은 데이터 모으기
    * 모델 평가 지표 바꾸기
        * 모델에 내장된 클래스 가중치 매개변수 사용
        * 다운샘플링 혹은 업샘플링 고려

In [78]:
# Iris setosa 50개 중 40개 삭제
import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris

iris = load_iris()

features = iris.data

target = iris.target

# 40 개 삭제
features = features[40:,:]
target = target[40:]

# 클래스 0을 음성 클래스로 하는 이진 타깃 벡터 제작
target = np.where((target == 0), 0, 1)

# 불균형한 타깃 벡터 확인
target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

* RandomForestClassifier : class_weight = weights를 딕셔너리로 만들어 넣어볼 수 있습니다.(가중치)

In [80]:
# Randomforest class_weight 매개변수
weights = {0: .9, 1: 0.1}

# 가중치 부여한 랜덤 포레스트 분류기 제작
RandomForestClassifier(class_weight=weights)

RandomForestClassifier(bootstrap=True, ccp_alpha=0.0,
                       class_weight={0: 0.9, 1: 0.1}, criterion='gini',
                       max_depth=None, max_features='auto', max_leaf_nodes=None,
                       max_samples=None, min_impurity_decrease=0.0,
                       min_impurity_split=None, min_samples_leaf=1,
                       min_samples_split=2, min_weight_fraction_leaf=0.0,
                       n_estimators=100, n_jobs=None, oob_score=False,
                       random_state=None, verbose=0, warm_start=False)

* RandomForestClassifier : class_weight = balanced 지정해서 클래스 빈도에 반비례하게 자동으로 가중치 제작

In [81]:
# 균형잡힌 클래스 가중치로 랜덤 포레스트 모델 훈련한다.
RandomForestClassifier(class_weight="balanced") # 반드시 문자로 넣어줘야 합니다.

RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight='balanced',
                       criterion='gini', max_depth=None, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=100,
                       n_jobs=None, oob_score=False, random_state=None,
                       verbose=0, warm_start=False)

* 다운샘플링 : 다수 클래스의 샘플 줄이기
    * 다수 클래스에서 중복을 허용하지 않고 랜덤 선택하여 소수 클래스 크기로 맞춘다.
* 업샘플링 : 소수 클래스 샘플 늘리기
    * 소수 클래스에서 중복 허용해서 다수 클래스 크기로 맞춘다.

In [82]:
# 다운 샘플링
# 각 클래스의 샘플 인덱스 추출
i_class0 = np.where(target == 0)[0]
i_class1 = np.where(target == 1)[0]

# 각 클래스의 샘플 개수
n_class0 = len(i_class0)
n_class1 = len(i_class1)

In [85]:
print(n_class0, n_class1)

10 100


In [86]:
# 클래스 0의 샘플만큼 클래스 1에서 중복을 허용하지 않고 랜덤하게 샘플 추출
i_class1_downsampled = np.random.choice(i_class1, size=n_class0,
                                       replace=False)

# 클래스 0 타깃 벡터와 다운샘플링된 클래스 1 타깃 벡터 합치기
np.hstack((target[i_class0], target[i_class1_downsampled]))

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [87]:
# 클래스 0의 특성 행렬과 다운샘플링 클래스 1의 특성 행렬 합치기
np.vstack((features[i_class0, :], features[i_class1_downsampled, :]))[0:5]

array([[5. , 3.5, 1.3, 0.3],
       [4.5, 2.3, 1.3, 0.3],
       [4.4, 3.2, 1.3, 0.2],
       [5. , 3.5, 1.6, 0.6],
       [5.1, 3.8, 1.9, 0.4]])

In [88]:
# 소수 업샘플링
# 클래스 1의 샘플 개수만큼 클래스 0에서 중복 허용하여 랜덤하게 샘플을 선택한다.
i_class0_upsampled = np.random.choice(i_class0, size = n_class1, replace = True)

# 클래스 0 업샘플링 타겟 벡터와 클래스 1의 타깃 벡터 합치기
np.concatenate((target[i_class0_upsampled], target[i_class1]))

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1])

In [89]:
# 클래스 0의 업샘플링된 특성 행렬과 클래스 1의 특성 행렬 합치기
np.vstack((features[i_class0_upsampled, :], features[i_class1,:]))[0:5]

array([[4.5, 2.3, 1.3, 0.3],
       [5. , 3.5, 1.3, 0.3],
       [5.1, 3.8, 1.9, 0.4],
       [5.3, 3.7, 1.5, 0.2],
       [5.1, 3.8, 1.9, 0.4]])

* 실전에는 불균형한 클래스가 아주 많다.
    * 소수 클래스의 샘플을 더 많이 모으는 것이 가장 좋다.
    * 불균형한 클래스에 잘 맞는 모델 평가 지표를 사용한다.
        * 정확도 : 모델 성능 평가에 자주 사용하나, 클래스 불균형할 때는 맞지 않는다.
        * 오차 행렬, 정밀도, 재현율, F1 점수, ROC 곡선이 있다.
    * 일부 모델에서 제공하는 클래스 가중치 매개변수 사용
        * class_weight 매개변수
    * 다운샘플링, 업샘플링 : 둘 다 해보고 **더 나은 결과**가 내는 것을 선택한다.