# 연속형 수치 데이터의 이산형화(Discretize)

* 수치적 데이터를 개별적인 구간으로 나눈다.
* 이산형화를 통하여 수치 특성을 범주형 데이터로 변환할 수 있다.
* 이산형화(discretization)은 연속형 변수를 2개 이상의 범주(category)를 가지는 변수로 변환해주는 것을 말한다.


In [2]:
import numpy as np
import pandas as pd

In [3]:
age = np.array([[6],
                [12],
                [20],
                [36],
                [65]
               ])

### np.digitize()
수치적 특성을 여러 임계값에 따라 나누는 방법


In [4]:
np.digitize(age, bins=[20,30,64])

array([[0],
       [0],
       [1],
       [2],
       [3]], dtype=int64)

* bins 매개변수의 입력값은 각 구간의 왼쪽 경계값이다. 
* [~ 20), [20, 30), [30, 64) , [64 ~ ) 4개 구간으로 나뉜다.
* right = True를 설정하여 변경할 수 있다.

In [5]:
np.digitize(age, bins=[20,30,64], right=True)

array([[0],
       [0],
       [0],
       [2],
       [3]], dtype=int64)

### np.where(condition, factor1, factor2, ...)를 이용한 연속형 변수의 이산형화


In [23]:
x = np.arange(100)
np.where(x >= x.mean(), 'high', 'low')


array(['low', 'low', 'low', 'low', 'low', 'low', 'low', 'low', 'low',
       'low', 'low', 'low', 'low', 'low', 'low', 'low', 'low', 'low',
       'low', 'low', 'low', 'low', 'low', 'low', 'low', 'low', 'low',
       'low', 'low', 'low', 'low', 'low', 'low', 'low', 'low', 'low',
       'low', 'low', 'low', 'low', 'low', 'low', 'low', 'low', 'low',
       'low', 'low', 'low', 'low', 'low', 'high', 'high', 'high', 'high',
       'high', 'high', 'high', 'high', 'high', 'high', 'high', 'high',
       'high', 'high', 'high', 'high', 'high', 'high', 'high', 'high',
       'high', 'high', 'high', 'high', 'high', 'high', 'high', 'high',
       'high', 'high', 'high', 'high', 'high', 'high', 'high', 'high',
       'high', 'high', 'high', 'high', 'high', 'high', 'high', 'high',
       'high', 'high', 'high', 'high', 'high', 'high'], dtype='<U4')

### sklearn.preprocessing.Binarizer()
sklearn.preprocessing.Binarizer()를 사용해서 연속형 변수를 특정 기준값 이하(equal or less the threshold)이면 '0', 특정 기준값 초과(above the threshold)이면 '1'의 두 개의 값만을 가지는 변수로 변환하는 방법

In [6]:
from sklearn.preprocessing import Binarizer

In [9]:
# 20을 기준으로 데이터를 2개 범주로 나눈다.
binarizer = Binarizer(20)  
binarizer.fit_transform(age)

array([[0],
       [0],
       [0],
       [1],
       [1]])

### sklearn.preprocessing.KBinsDiscretizer()
연속적인 특성값을 여러 구간으로 나누어 준다. 나눌 구간 개수를 지정한다. 

* encode : 
    * 기본값은 'onehot'으로 one-hot encode된 희소행렬을 리턴한다. 
    * 'onehot-dense'는 밀집 배열을 리턴한다. 
    * 'ordinal'은 순차적 범주값을 리턴한다. 
* strategy :
    * 'quantile': 각 구간에 포함된 데이터 갯수가 서로 비슷하도록 만든다.
    * 'uniform': 구간의 폭이 동일하도록 만든다.
* 구간의 값은 bin_edges_ 속성으로 확인할 수 있다.

In [10]:
from sklearn.preprocessing import KBinsDiscretizer

In [16]:
kb = KBinsDiscretizer(4, encode='ordinal', strategy='quantile')

kb.fit_transform(age)

array([[0.],
       [1.],
       [2.],
       [3.],
       [3.]])

In [17]:
kb = KBinsDiscretizer(4, encode='onehot-dense', strategy='quantile')

kb.fit_transform(age)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.],
       [0., 0., 0., 1.]])

In [18]:
kb = KBinsDiscretizer(4, encode='onehot-dense', strategy='uniform')

kb.fit_transform(age)

array([[1., 0., 0., 0.],
       [1., 0., 0., 0.],
       [1., 0., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [20]:
# 구간의 값
kb.bin_edges_

array([array([ 6.  , 20.75, 35.5 , 50.25, 65.  ])], dtype=object)