### 이항변수화 변환(feature binarization)
- 성공확률이 p인 베르누이 시행을 n번 반복했을 때 성공하는 횟수를 X라 하면, 확률 변수 X는 모수 n과 p인 이항분포를 따른다고 함
- sklearn.preprocessing.Binarizer() 함수를 이용해서 특정 임계값을 기준으로 0,1로 변환


In [None]:
from sklearn.preprocessing import Binarizer, binarize
import numpy as np

np.random.seed(42)
x = np.array(np.random.randn(12).reshape(4, 3))

# (1) Binarizer()를 이용한 이항변수화
binarizer = Binarizer().fit(x.reshape(-1, 1))
binarizer.transform(x)

# threshold --> 2.0 으로 변환
binarizer = Binarizer(threshold = 2.0).fit(x.reshape(-1, 1))
binarizer.transform(x)

# (2) sklearn.preprocessing.binarize() 를 이용한 이항변수화
# --> trasform 함수가 없음
binarize(x)
binarize(x, threshold = 2.0)
binarize(x, threshold = 2.0, copy = False) # 원본 값 자체가 이항변수화됨

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

### 범주형 변수 oneHotEcoding

In [None]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np
data = np.array([[0, 0, 0], [0, 1, 1], [0, 2, 2], [1, 0, 3], [1, 1, 4]])
enc = OneHotEncoder()
enc.fit(data)
enc.transform(np.array([[1, 2, 4]])).toarray()

array([[0., 1., 0., 0., 1., 0., 0., 0., 0., 1.]])

### 연속형 변수의 이산형화 
- 이산형화는 2개 이상의 범주(category)를 가지는 변수로 변환하는 것을 말함
  - np.digitize(data, bins)
  - pd.get_dummies()
  - np.where()

In [None]:
import numpy as np
import pandas as pd
from pandas import DataFrame
np.random.seed(10)
df = DataFrame({
  'C1': np.random.randn(20),
  'C2': ['a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b']})

# (1) np.digitize function을 이용한 연속형 변수의 이산형화
bins = np.linspace(np.min(df['C1']), np.max(df['C1']), 10)
df['C1_bin'] = np.digitize(df['C1'], bins)

# 이산형화 시킨 변수의 활용
# - 이산형 데이터별 요약통계량 계산
df.groupby('C1_bin')['C1'].size()
df.groupby('C1_bin')['C1'].mean()
df.groupby('C1_bin')['C1'].std()
df.groupby('C1_bin')['C2'].value_counts()

# (2) pd.get_dummies()를 이용해 가변수(dummy var) 만들기
# - prefix     : add prefix
# - drop_first : avoid dummy trap 
pd.get_dummies(df['C1_bin'], prefix = 'C1')
pd.get_dummies(df['C1_bin'], prefix = 'C1', drop_first= True)

# (3) np.where 를 이용한 연속형 변수의 이산형화
# - 좀 더 복잡한 로직을 처리할 수 있게 해줌
df['high_low'] = np.where(df['C1'] >= df['C1'].mean(), 'high', 'low')

array(['high', 'high', 'low', 'low', 'high', 'low', 'high', 'low', 'low',
       'low', 'high', 'high', 'low', 'high', 'high', 'high', 'low',
       'high', 'high', 'low'], dtype='<U4')