# 연속형 수치 데이터의 이산형화(Discretize)

* 수치적 데이터를 개별적인 구간으로 나눈다.
* 이산형화를 통하여 수치 특성을 범주형 데이터로 변환할 수 있다.
* 이산형화(discretization)은 연속형 변수를 2개 이상의 범주(category)를 가지는 변수로 변환해주는 것을 말한다.


In [2]:
import numpy as np
import pandas as pd

In [3]:
age = np.array([[6],
                [12],
                [20],
                [36],
                [65]
               ])

### np.digitize()
수치적 특성을 여러 임계값에 따라 나누는 방법


In [4]:
np.digitize(age, bins=[20,30,64])

array([[0],
       [0],
       [1],
       [2],
       [3]])

* bins 매개변수의 입력값은 각 구간의 왼쪽 경계값이다.
* [~ 20), [20, 30), [30, 64) , [64 ~ ) 4개 구간으로 나뉜다.
* right = True를 설정하여 변경할 수 있다.

In [5]:
np.digitize(age, bins=[20,30,64], right=True)

array([[0],
       [0],
       [0],
       [2],
       [3]])

### sklearn.preprocessing.Binarizer()
sklearn.preprocessing.Binarizer()를 사용해서 연속형 변수를 특정 기준값 이하(equal or less the threshold)이면 '0', 특정 기준값 초과(above the threshold)이면 '1'의 두 개의 값만을 가지는 변수로 변환하는 방법

In [6]:
from sklearn.preprocessing import Binarizer

In [7]:
# 20을 기준으로 데이터를 2개 범주로 나눈다.
binarizer = Binarizer(threshold=20)
binarizer.fit(age)
binarizer.transform(age)
#binarizer.fit_transform(age)

array([[0],
       [0],
       [0],
       [1],
       [1]])

In [8]:
import sklearn
sklearn.__version__

'1.7.2'

### sklearn.preprocessing.KBinsDiscretizer() - New in version 0.20.
연속적인 특성값을 여러 구간으로 나누어 준다. 나눌 구간 개수를 지정한다.

* encode :
    * 기본값은 'onehot'으로 one-hot encode된 희소행렬을 리턴한다.
    * 'onehot-dense'는 밀집 배열을 리턴한다.
    * 'ordinal'은 순차적 범주값을 리턴한다.
* strategy :
    * 'quantile': 각 구간에 포함된 데이터 갯수가 서로 비슷하도록 만든다.
    * 'uniform': 구간의 폭이 동일하도록 만든다.
* 구간의 값은 bin_edges_ 속성으로 확인할 수 있다.

In [9]:
from sklearn.preprocessing import KBinsDiscretizer

In [10]:
kb = KBinsDiscretizer(4, encode='ordinal', strategy='quantile')

kb.fit_transform(age)



array([[0.],
       [1.],
       [2.],
       [3.],
       [3.]])

In [11]:
kb = KBinsDiscretizer(4, encode='onehot', strategy='quantile')

x = kb.fit_transform(age)
x.toarray()



array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.],
       [0., 0., 0., 1.]])

In [12]:
kb = KBinsDiscretizer(4, encode='onehot-dense', strategy='uniform')

kb.fit_transform(age)

array([[1., 0., 0., 0.],
       [1., 0., 0., 0.],
       [1., 0., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [13]:
# 구간의 값
kb.bin_edges_

array([array([ 6.  , 20.75, 35.5 , 50.25, 65.  ])], dtype=object)

# 연속형 수치 데이터의 이산형화(Discretize)

* 수치적 데이터를 개별적인 구간으로 나눈다.
* 이산형화를 통하여 수치 특성을 범주형 데이터로 변환할 수 있다.
* 이산형화(discretization)은 연속형 변수를 2개 이상의 범주(category)를 가지는 변수로 변환해주는 것을 말한다.


## Binning

수치형 데이터를 범주형 데이터로 변환할 수 있다.  숫자데이터를 카테고리화 하는 기능을 가지고 있다.
* pd.cut() : 나누는 구간의 경계값을 지정하여 구간을 나눈다.
* pd.qcut() : 구간 경계선을 지정하지 않고 데이터 갯수가 같도록 지정한 수의 구간으로 나눈다.



In [14]:
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]
bins = [18, 25, 35, 60, 100]

### pd.cut() - 동일 길이로 나누어서 범주 만들기(equal-length buckets categorization)

* pd.cut()함수는 인자로 (카테고리화 숫자데이터, 구간의 구분값)를 넣어 쉽게 카테고리화 할 수 있다.
* pd.cut()함수로 잘린 데이터는 카테고리 자료형 Series로 반환되게 된다.


ages가 5개의 구간 분값에 의해 4구간의 카테고리 자료형으로 반환된다.

In [15]:
# 18 ~ 25 / 25 ~ 35 / 35 ~ 60 / 60 ~ 100 이렇게 총 4구간
cats = pd.cut(ages,bins)
cats

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64, right]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

cats.codes 를 통해, ages의 각 성분이 몇번째 구간에 속해있는지 정수index처럼 표시되는 것을 알 수 있다.  
 20은 0=첫번째 구간에, 27은 1=두번째 구간에 속한다는 것을 알 수 있다.

In [16]:
cats.codes # 범주의 label값을 확인

array([0, 0, 0, 1, 0, 0, 2, 1, 3, 2, 2, 1], dtype=int8)

cats.value_counts() 를 통해서, 값x 각 구간에 따른 성분의 갯수를 확인할 수 있다.  
value_counts()는 카테고리 자료형(Series)에서 각 구간에 속한 성분의 갯수도 파악할 수 있다.

In [17]:
cats.value_counts()

(18, 25]     5
(25, 35]     3
(35, 60]     3
(60, 100]    1
Name: count, dtype: int64

 pd.cut()을 호출시, labes = [ 리스트]형식으로 인자를 추가하면 각 카테고리명을 직접 지정해 줄 수 있다.

In [18]:
group_names = ["Youth", "YoungAdult", "MiddleAged", "Senior"]

pd.cut(ages, bins, labels= group_names)

['Youth', 'Youth', 'Youth', 'YoungAdult', 'Youth', ..., 'YoungAdult', 'Senior', 'MiddleAged', 'MiddleAged', 'YoungAdult']
Length: 12
Categories (4, object): ['Youth' < 'YoungAdult' < 'MiddleAged' < 'Senior']

#### pd.cut() 구간의 개수로 나누기
2번째 인자에서 각 구간 구분값(bins)이 리스트형식으로 넣어줬던 것을 –>
나눌 구간의 갯수만 입력해준다.  
(성분의 최소값 ~ 최대값를 보고 동일 간격으로 구간을 나눈다.)

In [19]:
import numpy as np

data = np.random.rand(20)
data

array([0.51149044, 0.2884332 , 0.51957198, 0.81789246, 0.71665538,
       0.50072358, 0.32079722, 0.09097908, 0.08535128, 0.28393631,
       0.11131665, 0.24299256, 0.40010612, 0.64729059, 0.7864104 ,
       0.34242921, 0.43659873, 0.12331544, 0.13756375, 0.20620231])

In [20]:
# 20개의 data성분에 대해, 동일한 길이의 구간으로 4개를 나누었고,
# 기준은 소수2번째 자리까지를 기준으로 한다.
cat_data = pd.cut(data, 4, precision = 2 )
cat_data

[(0.45, 0.63], (0.27, 0.45], (0.45, 0.63], (0.63, 0.82], (0.63, 0.82], ..., (0.27, 0.45], (0.27, 0.45], (0.085, 0.27], (0.085, 0.27], (0.085, 0.27]]
Length: 20
Categories (4, interval[float64, right]): [(0.085, 0.27] < (0.27, 0.45] < (0.45, 0.63] < (0.63, 0.82]]

In [21]:
cat_data.value_counts()

(0.085, 0.27]    7
(0.27, 0.45]     6
(0.45, 0.63]     3
(0.63, 0.82]     4
Name: count, dtype: int64

### pd.qcut() - 동일 개수로 나누어서 범주 만들기 (equal-size buckets categorization)

pandas에서는 qcut이라는 함수도 제공한다.  
* 지정한 갯수만큼 구간을 정의한다.
* pd.cut() 함수는 최대값 쵯소값만 고려해서 구간을 나눈 것에 비해
* pd.qcut() 함수는 데이터 분포를 고려하여 각 구간에 동일한 양의 데이터가 들어가도록 분위 수를 구분값으로 구간을 나누는 함수다.

In [22]:
data2 = np.random.randn(100)
data2

array([-0.34628771,  1.19613283, -0.34168397, -0.40101689, -0.05538845,
        1.28005049,  0.50684323,  0.70376845, -1.57059085, -1.01155779,
        0.59046001, -1.36819112,  1.19803099,  0.05005299, -0.4749669 ,
        1.07963364, -0.27792403,  0.5460859 , -1.36258028, -1.7864699 ,
        0.57862746, -0.91815145,  1.29250318, -1.38754009, -0.17418351,
       -0.60285223, -1.44095319,  0.47707075,  0.53877859,  0.3248372 ,
        0.90239258, -1.19014817, -0.82356224,  0.88464415, -0.27640785,
       -1.17278822,  0.87908703,  0.12867557,  0.10761168, -0.99155449,
        0.01153811,  0.49963852,  1.05122184, -1.86691423, -0.21199783,
       -1.60339844,  0.50135678,  0.26201319,  0.27427553,  1.43393662,
       -0.17821262, -0.03019385, -0.72848074, -2.04486291,  2.19432532,
       -2.85704764, -0.92096275,  0.83977336,  0.07762891, -0.17249902,
       -0.10490721,  0.0836031 , -0.38321323,  0.6529049 ,  1.28122025,
       -0.41281962, -0.98743284, -0.58874673,  0.4056431 , -2.05

In [23]:
cats = pd.qcut(data2, 4)

* cats = pd.qcut(data2, 4)를 통해 4개의 구간을 나눈다.
* 최소값<—>최대값 사이를 4등분 하는 것이 아니라, 분포까지 고려해서 4분위로 나눈 다음, 구간을 결정하게 된다.
* cut함수와 달리, 각 구간의 길이가 동일하다고 말할 수 없다.

In [24]:
cats

[(-0.646, -0.0513], (0.582, 2.194], (-0.646, -0.0513], (-0.646, -0.0513], (-0.646, -0.0513], ..., (0.582, 2.194], (-0.0513, 0.582], (0.582, 2.194], (0.582, 2.194], (-0.646, -0.0513]]
Length: 100
Categories (4, interval[float64, right]): [(-2.858, -0.646] < (-0.646, -0.0513] < (-0.0513, 0.582] < (0.582, 2.194]]

In [25]:
cats.value_counts()

(-2.858, -0.646]     25
(-0.646, -0.0513]    25
(-0.0513, 0.582]     25
(0.582, 2.194]       25
Name: count, dtype: int64

## 실습하기

1. 다음과 같이 실습데이터를 읽어 들이시오.
```
import pandas as pd
titanic = pd.read_csv('https://raw.githubusercontent.com/aonekoda/reference/main/data/titanic.csv')
titanic.info()
```

2. 읽어들인 데이터의 "Age" 컬럼을 적절히 3개의 구간으로 나누어 보시오. (pd.cut(), pd.qcut(), sklearn.preprocessing.KBinsDiscretizer 등)

In [26]:
import pandas as pd
titanic = pd.read_csv('https://raw.githubusercontent.com/aonekoda/reference/main/data/titanic.csv')
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [37]:
titanic.Age.info

<bound method Series.info of 0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: Age, Length: 891, dtype: float64>

In [39]:
ages = pd.qcut(titanic.Age, 3,)
ages.value_counts

<bound method IndexOpsMixin.value_counts of 0      (0.419, 23.0]
1       (34.0, 80.0]
2       (23.0, 34.0]
3       (34.0, 80.0]
4       (34.0, 80.0]
           ...      
886     (23.0, 34.0]
887    (0.419, 23.0]
888              NaN
889     (23.0, 34.0]
890     (23.0, 34.0]
Name: Age, Length: 891, dtype: category
Categories (3, interval[float64, right]): [(0.419, 23.0] < (23.0, 34.0] < (34.0, 80.0]]>