# Pandas.cut

- 카테고리로 범주화 할 때 사용된다.

- 동일한 길이로 나누어서 범주를 만들때 사용

- 동일한 개수로 나누어서 범주를 만드는 pd.qcut()도 있다.

In [30]:
import pandas as pd

## pd.cut() 사용하기

### 나이 데이터

In [12]:
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 100]
ages

[0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 100]

- `cut` 명령을 사용하면 카테고리 값으로 바꿀 수 있다.

- `bins` 인수는 카테고리를 나누는 기준값이 된다.

- 영역을 넘는 값은 NaN 으로 처리가 된다.

In [13]:
bins = [1, 15, 25, 35, 60, 99]
labels = ['미성년자', '청년', '중년', '장년', '노년']
cats = pd.cut(ages, bins, labels=labels)
cats

[NaN, 미성년자, 미성년자, 청년, 청년, ..., 노년, 청년, 장년, 중년, NaN]
Length: 12
Categories (5, object): [미성년자 < 청년 < 중년 < 장년 < 노년]

In [15]:
type(cats)

pandas.core.arrays.categorical.Categorical

- `cut` 명령이 반환하는 값은 Categorical 클래스 객체이다.

- 이 객체는 `categories` 속성으로 라벨 문자열을, `codes` 속성으로 정수로 인코딩한 카테고리 값을 가진다.

In [16]:
cats.categories

Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')

In [17]:
cats.codes

array([-1,  0,  0,  1,  1,  3,  2,  4,  1,  3,  2, -1], dtype=int8)

In [21]:
df_age = pd.DataFrame(ages, columns=['ages'])
df_age['age_cut'] = pd.cut(df_age.ages, bins, labels=labels)

In [22]:
df_age

Unnamed: 0,ages,age_cut
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,장년
6,31,중년
7,61,노년
8,20,청년
9,41,장년


### 단순 구간 나누기

- 5개의 동일한 길이로 범주 나누기

In [28]:
cats = pd.cut(ages, 5)

cats

[(-0.1, 20.0], (-0.1, 20.0], (-0.1, 20.0], (20.0, 40.0], (20.0, 40.0], ..., (60.0, 80.0], (-0.1, 20.0], (40.0, 60.0], (20.0, 40.0], (80.0, 100.0]]
Length: 12
Categories (5, interval[float64]): [(-0.1, 20.0] < (20.0, 40.0] < (40.0, 60.0] < (60.0, 80.0] < (80.0, 100.0]]

In [29]:
# 구간 확인하기
cats.value_counts()

(-0.1, 20.0]     4
(20.0, 40.0]     5
(40.0, 60.0]     1
(60.0, 80.0]     1
(80.0, 100.0]    1
dtype: int64

<br/>

------

### Reference

- https://datascienceschool.net/view-notebook/aa62265f02fc429aa636ef343c3b1fda/

- https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.cut.html