# 연속형 수치 데이터의 이산형화(Discretize)

* 수치적 데이터를 개별적인 구간으로 나눈다.
* 이산형화를 통하여 수치 특성을 범주형 데이터로 변환할 수 있다.
* 이산형화(discretization)은 연속형 변수를 2개 이상의 범주(category)를 가지는 변수로 변환해주는 것을 말한다.


In [None]:
import numpy as np
import pandas as pd

In [None]:
age = np.array([[6],
                [12],
                [20],
                [36],
                [65]
               ])

### np.digitize()
수치적 특성을 여러 임계값에 따라 나누는 방법


In [None]:
np.digitize(age, bins=[20,30,64])

array([[0],
       [0],
       [1],
       [2],
       [3]], dtype=int64)

* bins 매개변수의 입력값은 각 구간의 왼쪽 경계값이다. 
* [~ 20), [20, 30), [30, 64) , [64 ~ ) 4개 구간으로 나뉜다.
* right = True를 설정하여 변경할 수 있다.

In [None]:
np.digitize(age, bins=[20,30,64], right=True)

array([[0],
       [0],
       [0],
       [2],
       [3]], dtype=int64)

### np.where(condition, factor1, factor2, ...)를 이용한 연속형 변수의 이산형화


In [None]:
x = np.arange(100)
np.where(x >= x.mean(), 'high', 'low')


array(['low', 'low', 'low', 'low', 'low', 'low', 'low', 'low', 'low',
       'low', 'low', 'low', 'low', 'low', 'low', 'low', 'low', 'low',
       'low', 'low', 'low', 'low', 'low', 'low', 'low', 'low', 'low',
       'low', 'low', 'low', 'low', 'low', 'low', 'low', 'low', 'low',
       'low', 'low', 'low', 'low', 'low', 'low', 'low', 'low', 'low',
       'low', 'low', 'low', 'low', 'low', 'high', 'high', 'high', 'high',
       'high', 'high', 'high', 'high', 'high', 'high', 'high', 'high',
       'high', 'high', 'high', 'high', 'high', 'high', 'high', 'high',
       'high', 'high', 'high', 'high', 'high', 'high', 'high', 'high',
       'high', 'high', 'high', 'high', 'high', 'high', 'high', 'high',
       'high', 'high', 'high', 'high', 'high', 'high', 'high', 'high',
       'high', 'high', 'high', 'high', 'high', 'high'], dtype='<U4')

### sklearn.preprocessing.Binarizer()
sklearn.preprocessing.Binarizer()를 사용해서 연속형 변수를 특정 기준값 이하(equal or less the threshold)이면 '0', 특정 기준값 초과(above the threshold)이면 '1'의 두 개의 값만을 가지는 변수로 변환하는 방법

In [None]:
from sklearn.preprocessing import Binarizer

In [None]:
# 20을 기준으로 데이터를 2개 범주로 나눈다.
binarizer = Binarizer(20)  
binarizer.fit_transform(age)

array([[0],
       [0],
       [0],
       [1],
       [1]])

### sklearn.preprocessing.KBinsDiscretizer() - New in version 0.20.
연속적인 특성값을 여러 구간으로 나누어 준다. 나눌 구간 개수를 지정한다. 

* encode : 
    * 기본값은 'onehot'으로 one-hot encode된 희소행렬을 리턴한다. 
    * 'onehot-dense'는 밀집 배열을 리턴한다. 
    * 'ordinal'은 순차적 범주값을 리턴한다. 
* strategy :
    * 'quantile': 각 구간에 포함된 데이터 갯수가 서로 비슷하도록 만든다.
    * 'uniform': 구간의 폭이 동일하도록 만든다.
* 구간의 값은 bin_edges_ 속성으로 확인할 수 있다.

In [None]:
from sklearn.preprocessing import KBinsDiscretizer

In [None]:
kb = KBinsDiscretizer(4, encode='ordinal', strategy='quantile')

kb.fit_transform(age)

array([[0.],
       [1.],
       [2.],
       [3.],
       [3.]])

In [None]:
kb = KBinsDiscretizer(4, encode='onehot-dense', strategy='quantile')

kb.fit_transform(age)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.],
       [0., 0., 0., 1.]])

In [None]:
kb = KBinsDiscretizer(4, encode='onehot-dense', strategy='uniform')

kb.fit_transform(age)

array([[1., 0., 0., 0.],
       [1., 0., 0., 0.],
       [1., 0., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [None]:
# 구간의 값
kb.bin_edges_

array([array([ 6.  , 20.75, 35.5 , 50.25, 65.  ])], dtype=object)

# 연속형 수치 데이터의 이산형화(Discretize)

* 수치적 데이터를 개별적인 구간으로 나눈다.
* 이산형화를 통하여 수치 특성을 범주형 데이터로 변환할 수 있다.
* 이산형화(discretization)은 연속형 변수를 2개 이상의 범주(category)를 가지는 변수로 변환해주는 것을 말한다.


## Binning

수치형 데이터를 범주형 데이터로 변환할 수 있다.  숫자데이터를 카테고리화 하는 기능을 가지고 있다.
* pd.cut() : 나누는 구간의 경계값을 지정하여 구간을 나눈다.
* pd.qcut() : 구간 경계선을 지정하지 않고 데이터 갯수가 같도록 지정한 수의 구간으로 나눈다. 



In [None]:
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]
bins = [18, 25, 35, 60, 100]

### pd.cut() - 동일 길이로 나누어서 범주 만들기(equal-length buckets categorization)

* pd.cut()함수는 인자로 (카테고리화 숫자데이터, 구간의 구분값)를 넣어 쉽게 카테고리화 할 수 있다.
* pd.cut()함수로 잘린 데이터는 카테고리 자료형 Series로 반환되게 된다.


ages가 5개의 구간 분값에 의해 4구간의 카테고리 자료형으로 반환된다.

In [None]:
# 18 ~ 25 / 25 ~ 35 / 35 ~ 60 / 60 ~ 100 이렇게 총 4구간
cats = pd.cut(ages,bins)
cats

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

cats.codes 를 통해, ages의 각 성분이 몇번째 구간에 속해있는지 정수index처럼 표시되는 것을 알 수 있다.  
 20은 0=첫번째 구간에, 27은 1=두번째 구간에 속한다는 것을 알 수 있다.

In [None]:
cats.codes

array([0, 0, 0, 1, 0, 0, 2, 1, 3, 2, 2, 1], dtype=int8)

cats.value_counts() 를 통해서, 값x 각 구간에 따른 성분의 갯수를 확인할 수 있다.  
value_counts()는 카테고리 자료형(Series)에서 각 구간에 속한 성분의 갯수도 파악할 수 있다.

In [None]:
cats.value_counts()

(18, 25]     5
(25, 35]     3
(35, 60]     3
(60, 100]    1
dtype: int64

 pd.cut()을 호출시, labes = [ 리스트]형식으로 인자를 추가하면 각 카테고리명을 직접 지정해 줄 수 있다.

In [None]:
group_names = ["Youth", "YoungAdult", "MiddleAged", "Senior"]

pd.cut(ages, bins, labels= group_names)

[Youth, Youth, Youth, YoungAdult, Youth, ..., YoungAdult, Senior, MiddleAged, MiddleAged, YoungAdult]
Length: 12
Categories (4, object): [Youth < YoungAdult < MiddleAged < Senior]

#### pd.cut() 구간의 개수로 나누기
2번째 인자에서 각 구간 구분값(bins)이 리스트형식으로 넣어줬던 것을 –>
나눌 구간의 갯수만 입력해준다.  
(성분의 최소값 ~ 최대값를 보고 동일 간격으로 구간을 나눈다.)

In [None]:
import numpy as np

data = np.random.rand(20)
data

array([0.01151654, 0.08489604, 0.13273552, 0.77069924, 0.30712367,
       0.52751617, 0.87232724, 0.06763211, 0.63793124, 0.46247029,
       0.42941492, 0.16516972, 0.41835361, 0.9408463 , 0.65019111,
       0.97424579, 0.60060685, 0.27364627, 0.15431855, 0.57369417])

In [None]:
# 20개의 data성분에 대해, 동일한 길이의 구간으로 4개를 나누었고, 
# 기준은 소수2번째 자리까지를 기준으로 한다.
pd.cut(data, 4, precision = 2 )

[(0.011, 0.25], (0.011, 0.25], (0.011, 0.25], (0.73, 0.97], (0.25, 0.49], ..., (0.73, 0.97], (0.49, 0.73], (0.25, 0.49], (0.011, 0.25], (0.49, 0.73]]
Length: 20
Categories (4, interval[float64]): [(0.011, 0.25] < (0.25, 0.49] < (0.49, 0.73] < (0.73, 0.97]]

### pd.qcut() - 동일 개수로 나누어서 범주 만들기 (equal-size buckets categorization)

pandas에서는 qcut이라는 함수도 제공한다.  
* 지정한 갯수만큼 구간을 정의한다. 
* pd.cut() 함수는 최대값 쵯소값만 고려해서 구간을 나눈 것에 비해
* pd.qcut() 함수는 데이터 분포를 고려하여 각 구간에 동일한 양의 데이터가 들어가도록 분위 수를 구분값으로 구간을 나누는 함수다.

In [None]:
data2 = np.random.randn(100)
data2

array([ 0.07095008, -0.28460341, -1.1113178 , -0.46064165,  0.29755175,
       -0.14465886, -0.38970629,  0.15637227,  0.0930421 , -0.64750559,
       -1.35338068, -0.87789751, -0.16446036, -1.2284163 ,  0.79399828,
       -0.0986112 , -0.53979637,  0.60120078,  0.84113324, -0.59075662,
       -2.63405623,  0.84687628,  0.3657227 , -1.30073757, -1.09361804,
        0.36392042, -0.7421156 , -0.07018914, -0.88991558,  0.35655254,
       -2.31540819,  1.30243755,  0.61987412,  0.31261493, -0.73515476,
       -0.06419485, -2.31949037,  0.64464294,  0.79415647,  0.71466014,
       -0.75980899,  1.60338082, -0.3107026 , -1.45908298,  1.820238  ,
        0.88263722, -0.62180006,  0.66719326,  0.40984178, -1.58485655,
        1.14359054, -1.79395456,  1.77910843, -0.66423495,  1.03885404,
       -0.31954981,  2.13922388,  0.51627027,  0.58441777, -0.9717766 ,
        0.9760148 , -1.01139416,  1.32686224,  0.6390049 , -0.4795768 ,
       -0.49000739, -1.99251677,  0.97939676, -0.90858316, -0.30

In [None]:
cats = pd.qcut(data2, 4)

* cats = pd.qcut(data2, 4)를 통해 4개의 구간을 나눈다.
* 최소값<—>최대값 사이를 4등분 하는 것이 아니라, 분포까지 고려해서 4분위로 나눈 다음, 구간을 결정하게 된다.
* cut함수와 달리, 각 구간의 길이가 동일하다고 말할 수 없다.

In [None]:
cats

[(-0.0905, 0.666], (-0.737, -0.0905], (-2.6439999999999997, -0.737], (-0.737, -0.0905], (-0.0905, 0.666], ..., (0.666, 2.139], (-0.737, -0.0905], (-0.0905, 0.666], (-0.0905, 0.666], (-0.0905, 0.666]]
Length: 100
Categories (4, interval[float64]): [(-2.6439999999999997, -0.737] < (-0.737, -0.0905] < (-0.0905, 0.666] < (0.666, 2.139]]