연속성 데이터는 종종 개별로 분할하거나 분석을 위해 그룹별로 나누기도 하는데, 수업에 참여하는 학생 그룹 데이터가 있고, 나이대에 따라 분류한다고 가정하자.

In [1]:
import numpy as np
import pandas as pd

In [6]:
ages=[20,22,25,27,21,23,37,31,61,45,41,32]

이 데이터를 pandas의 `cut` 함수를 사용해서 `18-25`, `26-35`, `35-60`, `60-` 인 그룹으로 나누어 보자.

In [7]:
bins = [18,25,35,60,100]

In [8]:
cats = pd.cut(ages, bins)

In [9]:
cats

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

여기서 cats 객체는 Categorical 객체라는 특수한 객체인데, 이 객체는 그룹 이름이 담긴 배열이라고 생각하면 된다.<br/>
이 Categorical 객체는 codes 속성에 있는 ages 데이터에 대한 카테고리 이름을 categories 라는 배열에 내부적으로 담고 있다.,

In [10]:
cats.codes

array([0, 0, 0, 1, 0, 0, 2, 1, 3, 2, 2, 1], dtype=int8)

In [11]:
cats.categories

IntervalIndex([(18, 25], (25, 35], (35, 60], (60, 100]]
              closed='right',
              dtype='interval[int64]')

In [12]:
pd.value_counts(cats)

(18, 25]     5
(35, 60]     3
(25, 35]     3
(60, 100]    1
dtype: int64

`labels` 옵션으로 그룹의 이름을 직접 넘겨줄 수도 있다.

In [13]:
group_names=['Youth','YoungAdult','MiddleAged','Senior']

In [14]:
pd.cut(ages,bins,labels=group_names)

[Youth, Youth, Youth, YoungAdult, Youth, ..., YoungAdult, Senior, MiddleAged, MiddleAged, YoungAdult]
Length: 12
Categories (4, object): [Youth < YoungAdult < MiddleAged < Senior]

In [16]:
pd.value_counts(pd.cut(ages,bins,labels=group_names))

Youth         5
MiddleAged    3
YoungAdult    3
Senior        1
dtype: int64

만약 `cut` 함수에 명시적으로 그룹의 경계 값을 넘기지 않고 그룹의 개수를 넘겨주면 데이터에서 최소 값과 최대 값을 기준으로 균등한 길이의 그룹을 자동으로 계산한다. 어떤 균등분포 내에서 4개의 그룹을 나눠보자.

In [17]:
data = np.random.rand(20)

In [18]:
data

array([0.83645178, 0.15530217, 0.65517998, 0.56793871, 0.62445621,
       0.20482371, 0.21557314, 0.94451773, 0.80733274, 0.04228154,
       0.4313918 , 0.46504722, 0.7068877 , 0.21961393, 0.5802372 ,
       0.82358037, 0.50633888, 0.25411393, 0.32161243, 0.39562829])

In [21]:
pd.cut(data,4,precision=2)

[(0.72, 0.94], (0.041, 0.27], (0.49, 0.72], (0.49, 0.72], (0.49, 0.72], ..., (0.72, 0.94], (0.49, 0.72], (0.041, 0.27], (0.27, 0.49], (0.27, 0.49]]
Length: 20
Categories (4, interval[float64]): [(0.041, 0.27] < (0.27, 0.49] < (0.49, 0.72] < (0.72, 0.94]]

In [22]:
pd.cut(data,4,precision=3)

[(0.719, 0.945], (0.0414, 0.268], (0.493, 0.719], (0.493, 0.719], (0.493, 0.719], ..., (0.719, 0.945], (0.493, 0.719], (0.0414, 0.268], (0.268, 0.493], (0.268, 0.493]]
Length: 20
Categories (4, interval[float64]): [(0.0414, 0.268] < (0.268, 0.493] < (0.493, 0.719] < (0.719, 0.945]]

In [23]:
pd.cut(data,4,precision=4)

[(0.719, 0.9445], (0.04138, 0.2678], (0.4934, 0.719], (0.4934, 0.719], (0.4934, 0.719], ..., (0.719, 0.9445], (0.4934, 0.719], (0.04138, 0.2678], (0.2678, 0.4934], (0.2678, 0.4934]]
Length: 20
Categories (4, interval[float64]): [(0.04138, 0.2678] < (0.2678, 0.4934] < (0.4934, 0.719] < (0.719, 0.9445]]

이를 위한 가장 적합한 함수로 `qcut`이 있는데, 이는 표본 변위치를 기반으로 데이터를 나눠준다. cut함수를 사용하게되면 데이터의 분산에 따라 각각의 그룹마다 데이터의 개수가 다르게 나누어 지는 경우가 많다. qcut은 표준 변위치를 사용하기 때문에 적당히 같은 크기의 그룹으로 나눌 수 있다.

In [25]:
data = np.random.rand(1000) # 정규분포

In [26]:
cats = pd.qcut(data,4)

In [27]:
cats

[(0.00018000000000000004, 0.222], (0.737, 1.0], (0.737, 1.0], (0.485, 0.737], (0.222, 0.485], ..., (0.737, 1.0], (0.222, 0.485], (0.485, 0.737], (0.485, 0.737], (0.222, 0.485]]
Length: 1000
Categories (4, interval[float64]): [(0.00018000000000000004, 0.222] < (0.222, 0.485] < (0.485, 0.737] < (0.737, 1.0]]

In [28]:
pd.value_counts(cats)

(0.737, 1.0]                       250
(0.485, 0.737]                     250
(0.222, 0.485]                     250
(0.00018000000000000004, 0.222]    250
dtype: int64

`cut` 함수와 비슷하게 변위치를 직접 지정해 줄 수 있다. (변위치 값은 0부터 1까지다.)

In [30]:
cats2 = pd.qcut(data,[0,0.1,0.5,0.9,1])

In [31]:
pd.value_counts(cats2)

(0.485, 0.891]                      400
(0.0857, 0.485]                     400
(0.891, 1.0]                        100
(0.00018000000000000004, 0.0857]    100
dtype: int64