## 순서가 없는 범주형 특성 인코딩 하기
#### 명목형 범주(Nominal)

In [1]:
import numpy as np
from sklearn.preprocessing import LabelBinarizer, MultiLabelBinarizer

In [2]:
# 특성 생성

feature=np.array([['Texas'],
                 ['California'],
                 ['Texas'],
                 ['Delaware'],
                 ['Texas']])

In [3]:
# 원핫 인코더 생성

one_hot=LabelBinarizer()

In [4]:
# 특성 인코딩

one_hot.fit_transform(feature)

array([[0, 0, 1],
       [1, 0, 0],
       [0, 0, 1],
       [0, 1, 0],
       [0, 0, 1]])

In [5]:
'''
특성의 클래스는 classes_ 속성으로 확인 가능
'''

one_hot.classes_

array(['California', 'Delaware', 'Texas'], dtype='<U10')

In [7]:
'''
원핫 인코딩을 되돌릴때는 inverse_transform 메소드를 사용한다
'''

one_hot.inverse_transform(one_hot.fit_transform(feature))

array(['Texas', 'California', 'Texas', 'Delaware', 'Texas'], dtype='<U10')

판다스 라이브러리를 활용해서 원핫 인코딩을 할 수 있다.

In [9]:
import pandas as pd

In [11]:
pd.get_dummies(feature[:,0])

Unnamed: 0,California,Delaware,Texas
0,0,0,1
1,1,0,0
2,0,0,1
3,0,1,0
4,0,0,1


In [12]:
# 다중 클래스 특성 생성

multiclass_feature=[('Texas','Florida'),
                   ('California','Alabama'),
                   ('Texas','Florida'),
                   ('Delware','Florida'),
                   ('Texas','Alabama')]

In [13]:
# 다중클래스 원핫 인코더 생성

multi_one_hot=MultiLabelBinarizer()

In [14]:
# 다중클래스 원핫 인코딩

multi_one_hot.fit_transform(multiclass_feature)

array([[0, 0, 0, 1, 1],
       [1, 1, 0, 0, 0],
       [0, 0, 0, 1, 1],
       [0, 0, 1, 1, 0],
       [1, 0, 0, 0, 1]])

In [15]:
# 클래스 확인

multi_one_hot.classes_

array(['Alabama', 'California', 'Delware', 'Florida', 'Texas'],
      dtype=object)

- LabelBinarizer 는 문자열 타깃 데이터를 원핫 인코딩으로 변환할때 사용한다.
- 문자열 타깃 데이터를 정수 레이블로 변환할 때는 LabelEncoder를 사용한다.

In [16]:
'''
특성 배열을 원핫 인코딩 할때는 OneHot Encoder 클래스를 사용하는 것이 좋다.
OneHot Encoder 클래스는 기본적으로 희소배열을 반환한다. sparse=False로 지정하면 밀집배열을 얻을 수 있다
'''

from sklearn.preprocessing import OneHotEncoder

In [17]:
# 특성배열 생성

feature=np.array([['Texas',1],
                 ['California',1],
                 ['Texas',3],
                 ['Delware',1],
                 ['Texas',1]])

In [18]:
# 인코더 생성

one_hot_encoder=OneHotEncoder(sparse=False)

In [22]:
# 배열 인코딩

one_hot_encoder.fit_transform(feature)

array([[0., 0., 1., 1., 0.],
       [1., 0., 0., 1., 0.],
       [0., 0., 1., 0., 1.],
       [0., 1., 0., 1., 0.],
       [0., 0., 1., 1., 0.]])

In [23]:
'''
OneHot Encoder는 입력 특성 배열을 모두 범주형으로 인식하여 변환한다.
위에서도 (1,3) 으로 받은 정수형 특성을 범주형으로 인식하여 변환한것을 확인할 수 있다.

위에서는 ['Texas','California','Delware'] 특성을 0,1,2 열에
[1,3] 정수형 특성을 3,4  열에 표현했음을 확인할 수 있다.
'''

one_hot_encoder.categories_

[array(['California', 'Delware', 'Texas'], dtype='<U10'),
 array(['1', '3'], dtype='<U10')]

## 순서가 있는 범주형 특성 인코딩하기
#### 순서형 범주(ordinal)

In [24]:
dataframe=pd.DataFrame({'Score':['Low','Low','Medium','Medium','High']})

In [25]:
# 매핑 디셔너리 생성

scale_mapper={'Low':1, 'Medium':2 , 'High' : 3}

In [26]:
# 특성을 정수로 변환

dataframe['Score'].replace(scale_mapper)

0    1
1    1
2    2
3    2
4    3
Name: Score, dtype: int64

머신러닝에 사용할 특성을 인코딩할 때 순서가 있는 클래스는 순서 개념을 가진 수치값으로 변환해야한다.

자주 사용하는 방법은 클래스 레이블 문자열을 정수로 매핑하는 딕셔너리를 만들고, 이를 필요한 특성에 적용하는 것이다.

In [28]:
dataframe=pd.DataFrame({'Score':['Low','Low','Medium','Medium','High','Barely More Than Medium']})

In [29]:
scale_mapper={'Low':1,'Medium':2,'Barely More Than Medium':3, 'High':4}

In [30]:
dataframe['Score'].replace(scale_mapper)

0    1
1    1
2    2
3    2
4    4
5    3
Name: Score, dtype: int64

In [33]:
'''
클래스 사이 간격이 동일하지 않을 경우, 클래스 매핑을 할때 주의가 필요하다

위의 경우 "Barely More Than Medium" 특성이 Medium보다 1 크게 설정이 되어있지만
실제로는 그렇지 않다는것을 유의해야한다.
'''

scale_mapper={'Low':1,'Medium':2,'Barely More Than Medium':2.1, 'High':3}

dataframe['Score'].replace(scale_mapper)

0    1.0
1    1.0
2    2.0
3    2.0
4    3.0
5    2.1
Name: Score, dtype: float64

In [34]:
'''
범주형 데이터를 정수로 인코딩해주는

OrdinalEncoder 클래스를 사용할 수 있다
'''

from sklearn.preprocessing import OrdinalEncoder

In [35]:
# 특성 배열 생성

feature=np.array([['Low',10],
                 ['High',50],
                 ['Medium',30]])

In [36]:
# 순서형범주 인코더 생성

ordinal_encoder=OrdinalEncoder()

In [37]:
# 인코딩

ordinal_encoder.fit_transform(feature)

array([[1., 0.],
       [0., 2.],
       [2., 1.]])

In [38]:
'''
클래스는 categories_ 속성으로 확인할 수 있다
'''

ordinal_encoder.categories_

[array(['High', 'Low', 'Medium'], dtype='<U6'),
 array(['10', '30', '50'], dtype='<U6')]

## 특성 딕셔너리를 인코딩하기
#### 딕셔너리를 특성 행렬로 변환하는 방법

In [39]:
from sklearn.feature_extraction import DictVectorizer

In [40]:
# 딕셔너리 생성

data_dict=[{'Red':2, 'Blue':4},
          {'Red':4, 'Blue':3},
          {'Red':1,'Yellow':2},
          {'Red':2, 'Yellow':2}]

기본적으로 DictVectorizer는 0이 아닌 값의 원소만 저장하는 희소 행렬을 반환한다. (자연어처리에 좋음)

DictVectorizer의 매개변수 sparse=False로 설정하면 밀집 벡터를 출력할 수 있다.

In [48]:
# DictVectorizer 객체 생성

dictVectorizer=DictVectorizer(sparse=False)

In [52]:
features=dictVectorizer.fit_transform(data_dict)

In [53]:
features

array([[4., 2., 0.],
       [3., 4., 0.],
       [0., 1., 2.],
       [0., 2., 2.]])

In [54]:
'''
get_feature_names 메소드를 사용하여 생성된 특성의 이름을 얻을 수 있다
'''

feature_names=dictVectorizer.get_feature_names()

In [55]:
feature_names

['Blue', 'Red', 'Yellow']

In [56]:
'''
판다스를 사용하여 미려한 출력이 가능하다
'''
pd.DataFrame(features, columns=feature_names)

Unnamed: 0,Blue,Red,Yellow
0,4.0,2.0,0.0
1,3.0,4.0,0.0
2,0.0,1.0,2.0
3,0.0,2.0,2.0


In [57]:
'''
DictVectorizer를 사용하여 각 문서에 등장한 단어 횟수를 특성으로 하는 특성 행렬을 만들 수 있다
'''

doc_1_word_count={'Red':2, 'Blue':4}
doc_2_word_count={'Red':4,'Blue':3}
doc_3_word_count={'Red':1,'Yellow':2}
doc_4_word_count={'Red':2,'Yellow':2}

In [58]:
# 리스트 생성

doc_word_counts=[doc_1_word_count, doc_2_word_count, doc_3_word_count, doc_4_word_count]

In [59]:
# 단어 카운트 딕셔너리를 특성 행렬로 변환

dictVectorizer.fit_transform(doc_word_counts)

array([[4., 2., 0.],
       [3., 4., 0.],
       [0., 1., 2.],
       [0., 2., 2.]])

## 누락된 클래스 값 대체하기
#### 범주형 특성에 있는 결측값을 대체하는 법

In [66]:
import numpy as np
from sklearn.neighbors import KNeighborsClassifier

In [67]:
x=np.array([[0,2.10,1.45],
           [1,1.18,1.33],
           [0,1.22,1.27],
           [1,-0.21,-1.19]])

In [70]:
# 누락된 값이 있는 특성행렬 생성
,
x_nan=np.array([[np.nan, 0.87 ,1.31],
               [np.nan, -0.67, -0.22]])

In [73]:
# KNN 학습기 훈련

clf=KNeighborsClassifier(3, weights='distance')
trained_model=clf.fit(x[:,1:], x[:,0])   # fit(x,y)

In [74]:
# 누락된 값의 클래스 예측

imputed_values=trained_model.predict(x_nan[:,1:])

In [77]:
imputed_values

array([0., 1.])

In [79]:
# 예측된 클래스와 원본 특성을 열로 합친다

x_with_imputed=np.hstack((imputed_values.reshape(-1,1), x_nan[:,1:]))

In [80]:
x_with_imputed

array([[ 0.  ,  0.87,  1.31],
       [ 1.  , -0.67, -0.22]])

In [81]:
np.vstack((x_with_imputed, x))

array([[ 0.  ,  0.87,  1.31],
       [ 1.  , -0.67, -0.22],
       [ 0.  ,  2.1 ,  1.45],
       [ 1.  ,  1.18,  1.33],
       [ 0.  ,  1.22,  1.27],
       [ 1.  , -0.21, -1.19]])

In [85]:
# 누락된 값을 최빈값으로 채우는방법

from sklearn.impute import SimpleImputer

x_complete=np.vstack((x_nan,x))

In [86]:
imputer=SimpleImputer(strategy='most_frequent')

In [87]:
imputer.fit_transform(x_complete)

array([[ 0.  ,  0.87,  1.31],
       [ 0.  , -0.67, -0.22],
       [ 0.  ,  2.1 ,  1.45],
       [ 1.  ,  1.18,  1.33],
       [ 0.  ,  1.22,  1.27],
       [ 1.  , -0.21, -1.19]])

범주형 특성에 누락된 값이 있을 때 가장 좋은 방법은 머신러닝 알고리즘으로 누락된 값을 예측하는 것이다.
누락된 값이 있는 특성을 타깃으로 하고 다른 특성을 특성 행렬로 사용할 수 있다.

많이 사용하는 알고리즘은 KNN으로, k 최근접 이웃의 다수 클래스를 누락된 값에 할당한다.

최빈값을 이용하여 결측값을 채우는 방법도 있는데, 이는 knn 보다는 덜 정교하지만 대규모 데이터에 적용하기 훨씬 쉽다.

## 불균형한 클래스 다루기
#### 타깃 벡터가 불균형한 경우

- 더 많은 데이터를 모은다
- 모델 평가 지표를 바꾼다
- 모델에 내장된 클래스 가중치 매개변수를 사용한다
- 다운샘플링/ 업샘플링을 고려한다

In [89]:
import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris

In [90]:
# 붓꽃 데이터 적재

iris=load_iris()

In [91]:
# 특성 행렬 생성

features=iris.data

In [92]:
# 타깃 벡터 생성

target=iris.target

In [93]:
# 불균형한 데이터셋을 위해 처음 40개 샘플 삭제

features=features[40:,:]
target=target[40:]

In [97]:
# 클래스 0을 음성클래스로 하는 이진 타깃 벡터 생성

target=np.where((target==0),0,1)

In [98]:
target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

### 다운샘플링

다수 클래스에서 중복을 허용하지 않고 랜덤하게 샘플을 선택하여 소수 클래스와 같은 크기의 샘플 부분집합 생성

In [99]:
# 각 클래스의 샘플 인덱스 추출

i_class0=np.where(target==0)[0]
i_class1=np.where(target==1)[0]

In [102]:
# 각 클래스의 샘플 개수

n_class0=len(i_class0)
n_class1=len(i_class1)

In [103]:
# 클래스 0의 샘플만큼 클래스 1에서 중복을 허용하지 않고 랜덤하게 샘플 추출

down_sample=np.random.choice(i_class1, size=n_class0, replace=False)

In [111]:
down_sample

array([107,  70,  15,  42,  89,  91,  98,  28,  25,  99], dtype=int64)

In [104]:
# 클래스 0의 타깃 벡터와 다운샘플링된 클래스 1의 타깃 벡터

np.hstack((target[i_class0], target[down_sample]))

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [107]:
# 클래스 0의 특성 행렬과 다운샘플링된 클래스 1의 특성 행렬

np.vstack((features[i_class0,:], features[down_sample,:]))[0:5]

array([[5. , 3.5, 1.3, 0.3],
       [4.5, 2.3, 1.3, 0.3],
       [4.4, 3.2, 1.3, 0.2],
       [5. , 3.5, 1.6, 0.6],
       [5.1, 3.8, 1.9, 0.4]])

### 업샘플링
다수 클래스의 샘플만큼 소수 클래스에서 중복을 허용하여 랜덤하게 샘플 선택

In [108]:
# 클래스 1의 샘플 개수만큼 클래스 0에서 중복을 허용하여 랜덤하게 샘플 선택

up_sample=np.random.choice(i_class0, size=n_class1, replace=True)

In [113]:
up_sample # 중복을 허용(raplace=True) 하여 소수의 클래스가 늘어난 모습을 확인할 수 있다

array([7, 9, 3, 0, 7, 5, 7, 5, 6, 1, 7, 9, 3, 4, 7, 0, 0, 1, 2, 0, 0, 7,
       5, 5, 2, 7, 5, 2, 0, 0, 2, 7, 7, 4, 8, 3, 9, 5, 0, 2, 4, 4, 3, 4,
       9, 6, 9, 6, 6, 7, 6, 4, 6, 5, 8, 7, 6, 0, 8, 5, 1, 6, 1, 2, 7, 7,
       8, 8, 9, 1, 6, 5, 6, 1, 6, 7, 6, 8, 1, 3, 5, 5, 0, 1, 4, 4, 1, 6,
       5, 5, 3, 6, 9, 8, 2, 6, 1, 5, 6, 2], dtype=int64)

In [109]:
# 클래스 0의 업생플링된 타깃 벡터와 클래스 1의 타깃 벡터

np.concatenate((target[up_sample], target[i_class1]))

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1])

In [110]:
# 클래스 0의 업샘플링된 특성 행렬과 클래스 1의 특성 행렬을 합침

np.vstack((features[up_sample,:], features[i_class1,:]))[0:5]

array([[4.6, 3.2, 1.4, 0.2],
       [5. , 3.3, 1.4, 0.2],
       [5. , 3.5, 1.6, 0.6],
       [5. , 3.5, 1.3, 0.3],
       [4.6, 3.2, 1.4, 0.2]])

일반적으로는 다운샘플링과 업샘플링 모두 시도하고, 둘중 더 나은 결과를 내는 것을 선택한다