<a href="https://colab.research.google.com/github/weepingwillow2001/data_analysis_practice/blob/main/7%EC%9E%A5/7_2_5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [10]:
import pandas as pd
import numpy as np

ages = np.array([20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32])

# 나이를 다양한 그룹으로 나누기
bins = [18, 25, 35, 60, 100]
age_categories = pd.cut(ages, bins)
# pd.cut() 함수에서 구간은 기본적으로 "초과-이하"

# right=True (기본값): 구간은 (a, b]
# right=False: 구간은 [a, b) 형태

# 첫 번째 구간: (18, 25] → 18 초과 25 "이하"
# 두 번째 구간: (25, 35] → 25 초과 35 "이하"
# 세 번째 구간: (35, 60] → 35 초과 60 "이하"
# 네 번째 구간: (60, 100] → 60 초과 100 "이하"

print(age_categories)

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64, right]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]


In [11]:
# 카테고리 코드와 인터벌 확인
print("\n카테고리 코드:")
print(age_categories.codes)

print("\n카테고리 인터벌:")
print(age_categories.categories)

print("\n첫 번째 카테고리:")
print(age_categories.categories[0])


카테고리 코드:
[0 0 0 1 0 0 2 1 3 2 2 1]

카테고리 인터벌:
IntervalIndex([(18, 25], (25, 35], (35, 60], (60, 100]], dtype='interval[int64, right]')

첫 번째 카테고리:
(18, 25]


In [3]:
# 각 카테고리별 빈도수 계산
print("\n빈도수 계산:")
print(pd.value_counts(age_categories))


빈도수 계산:
(18, 25]     5
(25, 35]     3
(35, 60]     3
(60, 100]    1
Name: count, dtype: int64


  print(pd.value_counts(age_categories))


In [4]:
# right=False 옵션 사용 (구간의 오른쪽 경계가 열린 구간)
print("\nright=False 옵션 사용:")
print(pd.cut(ages, bins, right=False))


right=False 옵션 사용:
[[18, 25), [18, 25), [25, 35), [25, 35), [18, 25), ..., [25, 35), [60, 100), [35, 60), [35, 60), [25, 35)]
Length: 12
Categories (4, interval[int64, left]): [[18, 25) < [25, 35) < [35, 60) < [60, 100)]


In [5]:
# 사용자 지정 라벨 사용: labels
group_names = ["Youth", "YoungAdult", "MiddleAged", "Senior"]

labeled_age_categories = pd.cut(ages, bins, labels=group_names)

print("\n사용자 지정 라벨 사용:")
print(labeled_age_categories)


사용자 지정 라벨 사용:
['Youth', 'Youth', 'Youth', 'YoungAdult', 'Youth', ..., 'YoungAdult', 'Senior', 'MiddleAged', 'MiddleAged', 'YoungAdult']
Length: 12
Categories (4, object): ['Youth' < 'YoungAdult' < 'MiddleAged' < 'Senior']


In [6]:
# 균일 분포 데이터로 실습: uniform

data = np.random.uniform(size=20)
print(pd.cut(data, 4, precision=2))

# 4는 데이터를 나눌 구간(bin)의 수를 의미합니다. 데이터를 4개의 동일한 크기 구간으로 나누라는 의미입니다.
# bins 매개변수에 정수를 넣으면 pandas는 데이터의 최소값부터 최대값까지 해당 개수의 균등한 간격의 구간을 자동으로 생성합니다.

# precision=2는 출력되는 구간의 경계값의 소수점 자릿수를 지정하는 매개변수입니다. 여기서 2는 소수점 이하 두 자리까지 표시하라는 의미입니다.

[(0.5, 0.75], (0.0076, 0.26], (0.26, 0.5], (0.5, 0.75], (0.0076, 0.26], ..., (0.26, 0.5], (0.0076, 0.26], (0.5, 0.75], (0.5, 0.75], (0.26, 0.5]]
Length: 20
Categories (4, interval[float64, right]): [(0.0076, 0.26] < (0.26, 0.5] < (0.5, 0.75] < (0.75, 0.99]]


In [7]:
# 표준 정규 분포 데이터로 실습

data = np.random.standard_normal(1000)
quartiles = pd.cut(data, 4, precision=2)
print(quartiles)

[(-0.17, 1.33], (-0.17, 1.33], (-0.17, 1.33], (-3.18, -1.67], (-1.67, -0.17], ..., (-0.17, 1.33], (-0.17, 1.33], (-3.18, -1.67], (-0.17, 1.33], (-0.17, 1.33]]
Length: 1000
Categories (4, interval[float64, right]): [(-3.18, -1.67] < (-1.67, -0.17] < (-0.17, 1.33] <
                                           (1.33, 2.83]]


In [8]:
print("\n사분위수 빈도수:")
print(pd.value_counts(quartiles))


사분위수 빈도수:
(-0.17, 1.33]     459
(-1.67, -0.17]    404
(1.33, 2.83]       89
(-3.18, -1.67]     48
Name: count, dtype: int64


  print(pd.value_counts(quartiles))


In [9]:
# 사용자 지정 구간 나누기: qcut(quantile: 분위수)
print("\n사용자 지정 구간 나누기:")
print(pd.qcut(data, [0, 0.1, 0.5, 0.9, 1.]).value_counts())


# pd.cut()과 pd.qcut()의 차이를 분위수 관점에서 보면:

# pd.cut():

# 값(value) 기반 분할
# 구간의 너비가 균등함
# 분포를 고려하지 않고 단순히 값의 범위를 동일한 크기로 나눔


# pd.qcut():

# 분위수(quantile) 기반 분할
# 각 구간에 속하는 데이터 개수가 균등함
# 데이터 분포를 고려하여 구간 경계를 자동으로 조정



# 금융 데이터 분석에서 예를 들면:

# pd.cut()은 수익률을 "0-5%", "5-10%", "10-15%"와 같이 균등한 범위로 나눌 때 사용
# pd.qcut()은 투자자들을 "하위 25%", "25%-50%", "50%-75%", "상위 25%"와 같이 동일한 인원수로 나눌 때 사용


사용자 지정 구간 나누기:
(-3.175, -1.276]     100
(-1.276, -0.0727]    400
(-0.0727, 1.268]     400
(1.268, 2.832]       100
Name: count, dtype: int64
