# 연속형 수치 데이터의 이산형화(Discretize)

* 수치적 데이터를 개별적인 구간으로 나눈다.
* 이산형화를 통하여 수치 특성을 범주형 데이터로 변환할 수 있다.
* 이산형화(discretization)은 연속형 변수를 2개 이상의 범주(category)를 가지는 변수로 변환해주는 것을 말한다.


In [1]:
import numpy as np
import pandas as pd

In [2]:
age = np.array([[6],
                [12],
                [20],
                [36],
                [65]
               ])

### np.digitize()
수치적 특성을 여러 임계값에 따라 나누는 방법


In [3]:
np.digitize(age, bins=[20,30,64])

array([[0],
       [0],
       [1],
       [2],
       [3]], dtype=int64)

* bins 매개변수의 입력값은 각 구간의 왼쪽 경계값이다. 
* [~ 20), [20, 30), [30, 64) , [64 ~ ) 4개 구간으로 나뉜다.
* right = True를 설정하여 변경할 수 있다.

In [4]:
np.digitize(age, bins=[20,30,64], right=True)

array([[0],
       [0],
       [0],
       [2],
       [3]], dtype=int64)

### np.where(condition, factor1, factor2, ...)를 이용한 연속형 변수의 이산형화


In [5]:
x = np.arange(100)
np.where(x >= x.mean(), 'high', 'low')


array(['low', 'low', 'low', 'low', 'low', 'low', 'low', 'low', 'low',
       'low', 'low', 'low', 'low', 'low', 'low', 'low', 'low', 'low',
       'low', 'low', 'low', 'low', 'low', 'low', 'low', 'low', 'low',
       'low', 'low', 'low', 'low', 'low', 'low', 'low', 'low', 'low',
       'low', 'low', 'low', 'low', 'low', 'low', 'low', 'low', 'low',
       'low', 'low', 'low', 'low', 'low', 'high', 'high', 'high', 'high',
       'high', 'high', 'high', 'high', 'high', 'high', 'high', 'high',
       'high', 'high', 'high', 'high', 'high', 'high', 'high', 'high',
       'high', 'high', 'high', 'high', 'high', 'high', 'high', 'high',
       'high', 'high', 'high', 'high', 'high', 'high', 'high', 'high',
       'high', 'high', 'high', 'high', 'high', 'high', 'high', 'high',
       'high', 'high', 'high', 'high', 'high', 'high'], dtype='<U4')

### sklearn.preprocessing.Binarizer()
sklearn.preprocessing.Binarizer()를 사용해서 연속형 변수를 특정 기준값 이하(equal or less the threshold)이면 '0', 특정 기준값 초과(above the threshold)이면 '1'의 두 개의 값만을 가지는 변수로 변환하는 방법

In [6]:
from sklearn.preprocessing import Binarizer

In [7]:
# 20을 기준으로 데이터를 2개 범주로 나눈다.
binarizer = Binarizer(threshold=20)  
binarizer.fit_transform(age)

array([[0],
       [0],
       [0],
       [1],
       [1]])

### sklearn.preprocessing.KBinsDiscretizer() - New in version 0.20.
연속적인 특성값을 여러 구간으로 나누어 준다. 나눌 구간 개수를 지정한다. 

* encode : 
    * 기본값은 'onehot'으로 one-hot encode된 희소행렬을 리턴한다. 
    * 'onehot-dense'는 밀집 배열을 리턴한다. 
    * 'ordinal'은 순차적 범주값을 리턴한다. 
* strategy :
    * 'quantile': 각 구간에 포함된 데이터 갯수가 서로 비슷하도록 만든다.
    * 'uniform': 구간의 폭이 동일하도록 만든다.
* 구간의 값은 bin_edges_ 속성으로 확인할 수 있다.

In [8]:
from sklearn.preprocessing import KBinsDiscretizer

In [9]:
kb = KBinsDiscretizer(4, encode='ordinal', strategy='quantile')

kb.fit_transform(age)

array([[0.],
       [1.],
       [2.],
       [3.],
       [3.]])

In [10]:
kb = KBinsDiscretizer(4, encode='onehot-dense', strategy='quantile')

kb.fit_transform(age)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.],
       [0., 0., 0., 1.]])

In [11]:
kb = KBinsDiscretizer(4, encode='onehot-dense', strategy='uniform')

kb.fit_transform(age)

array([[1., 0., 0., 0.],
       [1., 0., 0., 0.],
       [1., 0., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [12]:
# 구간의 값
kb.bin_edges_

array([array([ 6.  , 20.75, 35.5 , 50.25, 65.  ])], dtype=object)

# 연속형 수치 데이터의 이산형화(Discretize)

* 수치적 데이터를 개별적인 구간으로 나눈다.
* 이산형화를 통하여 수치 특성을 범주형 데이터로 변환할 수 있다.
* 이산형화(discretization)은 연속형 변수를 2개 이상의 범주(category)를 가지는 변수로 변환해주는 것을 말한다.


## Binning

수치형 데이터를 범주형 데이터로 변환할 수 있다.  숫자데이터를 카테고리화 하는 기능을 가지고 있다.
* pd.cut() : 나누는 구간의 경계값을 지정하여 구간을 나눈다.
* pd.qcut() : 구간 경계선을 지정하지 않고 데이터 갯수가 같도록 지정한 수의 구간으로 나눈다. 



In [13]:
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]
bins = [18, 25, 35, 60, 100]

### pd.cut() - 동일 길이로 나누어서 범주 만들기(equal-length buckets categorization)

* pd.cut()함수는 인자로 (카테고리화 숫자데이터, 구간의 구분값)를 넣어 쉽게 카테고리화 할 수 있다.
* pd.cut()함수로 잘린 데이터는 카테고리 자료형 Series로 반환되게 된다.


ages가 5개의 구간 분값에 의해 4구간의 카테고리 자료형으로 반환된다.

In [14]:
# 18 ~ 25 / 25 ~ 35 / 35 ~ 60 / 60 ~ 100 이렇게 총 4구간
cats = pd.cut(ages,bins)
cats

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

cats.codes 를 통해, ages의 각 성분이 몇번째 구간에 속해있는지 정수index처럼 표시되는 것을 알 수 있다.  
 20은 0=첫번째 구간에, 27은 1=두번째 구간에 속한다는 것을 알 수 있다.

In [15]:
cats.codes

array([0, 0, 0, 1, 0, 0, 2, 1, 3, 2, 2, 1], dtype=int8)

cats.value_counts() 를 통해서, 값x 각 구간에 따른 성분의 갯수를 확인할 수 있다.  
value_counts()는 카테고리 자료형(Series)에서 각 구간에 속한 성분의 갯수도 파악할 수 있다.

In [16]:
cats.value_counts()

(18, 25]     5
(25, 35]     3
(35, 60]     3
(60, 100]    1
dtype: int64

 pd.cut()을 호출시, labes = [ 리스트]형식으로 인자를 추가하면 각 카테고리명을 직접 지정해 줄 수 있다.

In [17]:
group_names = ["Youth", "YoungAdult", "MiddleAged", "Senior"]

pd.cut(ages, bins, labels= group_names)

['Youth', 'Youth', 'Youth', 'YoungAdult', 'Youth', ..., 'YoungAdult', 'Senior', 'MiddleAged', 'MiddleAged', 'YoungAdult']
Length: 12
Categories (4, object): ['Youth' < 'YoungAdult' < 'MiddleAged' < 'Senior']

#### pd.cut() 구간의 개수로 나누기
2번째 인자에서 각 구간 구분값(bins)이 리스트형식으로 넣어줬던 것을 –>
나눌 구간의 갯수만 입력해준다.  
(성분의 최소값 ~ 최대값를 보고 동일 간격으로 구간을 나눈다.)

In [18]:
import numpy as np

data = np.random.rand(20)
data

array([0.3463356 , 0.38629938, 0.52789088, 0.89312664, 0.33197371,
       0.46034167, 0.78124045, 0.73946898, 0.38313085, 0.10994773,
       0.55423567, 0.44882211, 0.78206836, 0.8417825 , 0.34124806,
       0.03557312, 0.12084057, 0.30272669, 0.83070677, 0.28976503])

In [19]:
# 20개의 data성분에 대해, 동일한 길이의 구간으로 4개를 나누었고, 
# 기준은 소수2번째 자리까지를 기준으로 한다.
cat_data = pd.cut(data, 4, precision = 2 )
cat_data

[(0.25, 0.46], (0.25, 0.46], (0.46, 0.68], (0.68, 0.89], (0.25, 0.46], ..., (0.035, 0.25], (0.035, 0.25], (0.25, 0.46], (0.68, 0.89], (0.25, 0.46]]
Length: 20
Categories (4, interval[float64]): [(0.035, 0.25] < (0.25, 0.46] < (0.46, 0.68] < (0.68, 0.89]]

In [20]:
cat_data.value_counts()

(0.035, 0.25]    3
(0.25, 0.46]     9
(0.46, 0.68]     2
(0.68, 0.89]     6
dtype: int64

### pd.qcut() - 동일 개수로 나누어서 범주 만들기 (equal-size buckets categorization)

pandas에서는 qcut이라는 함수도 제공한다.  
* 지정한 갯수만큼 구간을 정의한다. 
* pd.cut() 함수는 최대값 쵯소값만 고려해서 구간을 나눈 것에 비해
* pd.qcut() 함수는 데이터 분포를 고려하여 각 구간에 동일한 양의 데이터가 들어가도록 분위 수를 구분값으로 구간을 나누는 함수다.

In [21]:
data2 = np.random.randn(100)
data2

array([-0.78373103,  1.57198385, -0.1223396 ,  0.34691014, -1.21160032,
        0.23595402, -0.23564747,  0.09770643, -2.54983367,  0.88919198,
        0.14410238, -0.62155561, -1.47261345, -1.15429031, -0.06778531,
       -0.11955689, -2.74493396, -0.22417253, -0.1622287 ,  1.13333272,
       -1.07169429,  0.46817944,  0.34034762, -1.13058459,  0.1189067 ,
        2.15689152,  0.97423639,  1.94108586,  0.98468544, -0.01542878,
       -0.34314777, -0.28268882,  0.60869939,  0.35857508, -1.14411813,
        0.04848711,  0.36604645, -0.66772031,  1.57106911, -0.66968903,
       -1.25031221,  0.79897651, -0.47013156,  0.74134636, -1.18402768,
        1.25273471,  0.08061023, -0.6007067 , -1.01757965,  0.94367978,
        1.02135386, -0.73136749,  1.05071561, -0.62400738,  0.27588308,
       -1.64274084, -0.53859754,  1.80680097, -0.84596752, -0.06622633,
        0.54962287, -0.7945461 , -0.6276337 , -0.69720489,  0.93439101,
       -0.85355872, -0.84211868, -1.98823336,  0.72273275, -1.45

In [22]:
cats = pd.qcut(data2, 4)

* cats = pd.qcut(data2, 4)를 통해 4개의 구간을 나눈다.
* 최소값<—>최대값 사이를 4등분 하는 것이 아니라, 분포까지 고려해서 4분위로 나눈 다음, 구간을 결정하게 된다.
* cut함수와 달리, 각 구간의 길이가 동일하다고 말할 수 없다.

In [23]:
cats

[(-0.786, -0.0724], (0.591, 2.157], (-0.786, -0.0724], (-0.0724, 0.591], (-2.746, -0.786], ..., (-0.0724, 0.591], (-0.0724, 0.591], (-2.746, -0.786], (0.591, 2.157], (0.591, 2.157]]
Length: 100
Categories (4, interval[float64]): [(-2.746, -0.786] < (-0.786, -0.0724] < (-0.0724, 0.591] < (0.591, 2.157]]

In [24]:
cats.value_counts()

(-2.746, -0.786]     25
(-0.786, -0.0724]    25
(-0.0724, 0.591]     25
(0.591, 2.157]       25
dtype: int64