# 데이터값을 카테고리 값으로 변환
### 값의 크기를 기준으로하여 카테고리 값으로 변환하고 싶을때
### 1. cut(data,bins,labels) - 경계값을 기준으로 나눔
### - data : 구간 나눌 실제 값,
### - bins : 구간 경계값
### - labels: 카테고리값
### 2. qcut(data,구간수,labels) - 구간 수를 지정하면 그대로 나눠짐.
### - ex)1000개 데이터를 가진 데이터셋에 구간수를 4로 하면 250개씩 4개로 나눠짐


In [12]:
import pandas as pd

In [None]:
ages=[0,0.5,4,6,4,5,2,10,21,23,37,15,38,31,61,20,41,31,100]

In [8]:
# 데이터
# data : 구간 나눌 실제 값, bins : 구간 경계값, label: 카테고리값
data = ages


# 구간 경계값
# 구간 최소값 < 구간 <= 구간 최대값
bins = [0,4,18,25,35,60,100]


# 0~4 구간 : 영유아 0살 < 영유아 <=4
# 각 구간의 이름 : labels - 카테고리명
# 순서는 구간(bins)의 순서와 동일해야 함
labels = ['영유아','미성년자','청년','중년','장년','노년']

In [16]:
# 설정해준 값들로 cut 해줌
cats = pd.cut(data,bins,labels = labels)
cats

[NaN, '영유아', '영유아', '미성년자', '영유아', ..., '노년', '청년', '장년', '중년', '노년']
Length: 19
Categories (6, object): ['영유아' < '미성년자' < '청년' < '중년' < '장년' < '노년']

In [17]:
# cats의 타입 확인
type(cats)

pandas.core.arrays.categorical.Categorical

In [19]:
# 리스트로 변경
cat_list = list(cats)
cat_list

[nan,
 '영유아',
 '영유아',
 '미성년자',
 '영유아',
 '미성년자',
 '영유아',
 '미성년자',
 '청년',
 '청년',
 '장년',
 '미성년자',
 '장년',
 '중년',
 '노년',
 '청년',
 '장년',
 '중년',
 '노년']

In [20]:
# 나이와 연령대로 매칭시켜 데이터프레임 생성
test = pd.DataFrame({"나이":ages,"연령대":cat_list})
test

Unnamed: 0,나이,연령대
0,0.0,
1,0.5,영유아
2,4.0,영유아
3,6.0,미성년자
4,4.0,영유아
5,5.0,미성년자
6,2.0,영유아
7,10.0,미성년자
8,21.0,청년
9,23.0,청년


In [25]:
# 연령대별 인원수 파악
pd.DataFrame(test["연령대"].value_counts())

Unnamed: 0,연령대
미성년자,4
영유아,4
장년,3
청년,3
중년,2
노년,2


In [26]:
type(cats)

pandas.core.arrays.categorical.Categorical

In [32]:
cats.categories

Index(['영유아', '미성년자', '청년', '중년', '장년', '노년'], dtype='object')

In [30]:
# 인덱스 위치 정수값이 -1이면 NaN으로 결정되어 결측치가 됨
cats.codes

array([-1,  0,  0,  1,  0,  1,  0,  1,  2,  2,  4,  1,  4,  3,  5,  2,  4,
        3,  5], dtype=int8)

# 구간 경계선을 지정하지 않고 데이터 개수가 같도록 지정한 수의 구간으로 분할하기 : qcut()
### 형식 : pd.qcut(data,구간수,labels=[d1,d2....])
### - 예)1000개의 데이터를 4구간으로 나누려고 한다면
###  - qcut 명령어를 사용 한 구간마다 250개씩 나누게 된다.
###  - 예외)같은 숫자인 경우에는 같은 구간으로 처리한다.


In [38]:
# 랜덤정수 20개를 생성하고 생성된 정수를 4개의 구간으로 나누시오.
# 각 구간의 label은 Q1,Q2,Q3,Q4 로 설정하시오.
#랜덤정수 생성 : 범위 0-19, size =20
#seed 설정해서 재 실행해도 랜덤정수가 변하지 않도록 생성
import numpy as np
np.random.seed(2)
data = np.random.randint(20,size=20)
data

# 데이터를 4개 구간으로 나눔
# 각 구간의 이름은 Q1, Q2, Q3, Q4
qcat = pd.qcut(data,4,labels=['Q1','Q2','Q3','Q4'])

# 각 값의 해당 범주를 리스트형으로 반환
qcat

['Q2', 'Q4', 'Q4', 'Q2', 'Q3', ..., 'Q1', 'Q1', 'Q1', 'Q3', 'Q3']
Length: 20
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']

In [39]:
np.sort(data)

array([ 2,  3,  4,  5,  6,  7,  7,  8,  8,  8, 10, 11, 11, 11, 11, 13, 15,
       15, 17, 18])

In [40]:
# 20개의 데이터를 4구간으로 나눴으니 각각 5개씩 할당되었음
pd.value_counts(qcat)

Q4    5
Q3    5
Q2    5
Q1    5
dtype: int64

In [41]:
df0 = pd.DataFrame(data, columns=['관측수'])
# df0
df0['범주']=qcat
df0

Unnamed: 0,관측수,범주
0,8,Q2
1,15,Q4
2,13,Q4
3,8,Q2
4,11,Q3
5,18,Q4
6,11,Q3
7,8,Q2
8,7,Q2
9,2,Q1
