In [1]:
import pandas as pd
import numpy as np

In [2]:
#Giả sử ta có dữ liệu về một nhóm người trong một nghiên cứu
#và muốn nhóm họ thành các nhóm tuổi riêng biệt

In [3]:
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]

In [4]:
#Hãy chia chúng thành các nhóm từ 18 đến 25, 26 đến 35, 
#36 đến 60 và cuối cùng là 61 trở lên. Để làm như vậy, 
#chúng ta phải sử dụng cut trong pandas

# định nghĩa khoảng giá trị các nhóm
bins = [18, 25, 35, 60, 100]

In [6]:
# thực hiện rời rạc hóa
cats = pd.cut(ages, bins)
cats

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64, right]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

In [7]:
# lấy ra index của nhóm tương ứng với các phần tử
cats.codes


array([0, 0, 0, 1, 0, 0, 2, 1, 3, 2, 2, 1], dtype=int8)

In [8]:
# lấy ra các nhóm
cats.categories

IntervalIndex([(18, 25], (25, 35], (35, 60], (60, 100]], dtype='interval[int64, right]')

In [9]:
# thống kê số lượng phần tử ở mỗi nhóm
pd.value_counts(cats)

(18, 25]     5
(25, 35]     3
(35, 60]     3
(60, 100]    1
dtype: int64

In [11]:
#ĐỒng nhất với ký hiệu toán học cho các khoảng, 
#dấu ngoặc đơn có nghĩa là cạnh đó mở, trong khi dấu ngoặc vuông có nghĩa là cạnh đó bị đóng (bao gồm). 
#Chúng ta có thể thay đổi phía bị đóng bằng cách truyền vào tham số right = False:

pd.cut(ages, [18, 26, 36, 61, 100], right=False)

[[18, 26), [18, 26), [18, 26), [26, 36), [18, 26), ..., [26, 36), [61, 100), [36, 61), [36, 61), [26, 36)]
Length: 12
Categories (4, interval[int64, left]): [[18, 26) < [26, 36) < [36, 61) < [61, 100)]

In [12]:
#Chúng ta cũng có thể chuyển các tên nhóm của riêng mình bằng cách truyền vào một danh sách các nhãn:

# danh sách nhãn
group_names = ['Youth', 'YoungAdult', 'MiddleAged', 'Senior']

pd.cut(ages, bins, labels=group_names)

['Youth', 'Youth', 'Youth', 'YoungAdult', 'Youth', ..., 'YoungAdult', 'Senior', 'MiddleAged', 'MiddleAged', 'YoungAdult']
Length: 12
Categories (4, object): ['Youth' < 'YoungAdult' < 'MiddleAged' < 'Senior']

In [13]:
# sinh dữ liệu ngẫu nhiên gồm 20 phần tử
data = np.random.rand(20)

In [14]:
#Tùy chọn precision = 2 sẽ giới hạn độ chính xác thập phân ở hai chữ số.

cut_data = pd.cut(data, 4, precision=2)
cut_data

[(0.75, 0.98], (0.75, 0.98], (0.52, 0.75], (0.52, 0.75], (0.75, 0.98], ..., (0.28, 0.52], (0.048, 0.28], (0.52, 0.75], (0.52, 0.75], (0.28, 0.52]]
Length: 20
Categories (4, interval[float64, right]): [(0.048, 0.28] < (0.28, 0.52] < (0.52, 0.75] < (0.75, 0.98]]

In [15]:
pd.value_counts(cut_data)

(0.52, 0.75]     7
(0.75, 0.98]     6
(0.28, 0.52]     4
(0.048, 0.28]    3
dtype: int64

In [17]:
# sinh ngẫu nhiễn 1000 điểm dữ liệu
data = np.random.randn(1000)

In [18]:
#việc sử dụng cut thường không dẫn đến việc mỗi nhóm có cùng số lượng dữ liệu. 
#Vì qcut sử dụng các lượng tử mẫu thay thế, nên chúng sẽ nhận được các nhóm có kích thước gần bằng nhau

# thực hiện hàm qcut trên dữ liệu vừa sinh ra
cats = pd.qcut(data, 4)
cats

[(-2.533, -0.67], (0.0271, 0.684], (0.0271, 0.684], (0.0271, 0.684], (-2.533, -0.67], ..., (0.684, 3.098], (-2.533, -0.67], (0.0271, 0.684], (-0.67, 0.0271], (0.684, 3.098]]
Length: 1000
Categories (4, interval[float64, right]): [(-2.533, -0.67] < (-0.67, 0.0271] < (0.0271, 0.684] < (0.684, 3.098]]

In [19]:
#thống kê số lượng phần tử
pd.value_counts(cats)

(-2.533, -0.67]    250
(-0.67, 0.0271]    250
(0.0271, 0.684]    250
(0.684, 3.098]     250
dtype: int64

In [20]:
#chuyển các lượng tử (các số từ 0 đến 1):
pd.qcut(data, [0, 0.1, 0.5, 0.9, 1.])

[(-1.285, 0.0271], (0.0271, 1.263], (0.0271, 1.263], (0.0271, 1.263], (-1.285, 0.0271], ..., (0.0271, 1.263], (-1.285, 0.0271], (0.0271, 1.263], (-1.285, 0.0271], (0.0271, 1.263]]
Length: 1000
Categories (4, interval[float64, right]): [(-2.533, -1.285] < (-1.285, 0.0271] < (0.0271, 1.263] < (1.263, 3.098]]