In [1]:
import pandas as pd
import numpy as np
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]

# định nghĩa khoảng giá trị các nhóm
bins = [18, 25, 35, 60, 100]

# thực hiện rời rạc hóa
cats = pd.cut(ages, bins)
cats

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64, right]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

In [2]:
# Đối tượng mà pandas trả về là một đối tượng Categorical đặc biệt.
# Đầu ra mô tả các nhóm được tính toán bởi pandas.cut. Có thể coi nó như một mảng chuỗi chỉ ra tên nhóm
# lấy ra index của nhóm tương ứng với các phần tử
cats.codes

array([0, 0, 0, 1, 0, 0, 2, 1, 3, 2, 2, 1], dtype=int8)

In [3]:
# lấy ra các nhóm
cats.categories

IntervalIndex([(18, 25], (25, 35], (35, 60], (60, 100]], dtype='interval[int64, right]')

In [4]:
# thống kê số lượng phần tử ở mỗi nhóm
pd.value_counts(cats)

(18, 25]     5
(25, 35]     3
(35, 60]     3
(60, 100]    1
dtype: int64

In [5]:
# Đồng nhất với ký hiệu toán học cho các khoảng, dấu ngoặc đơn có nghĩa là cạnh đó mở, trong khi dấu ngoặc vuông có nghĩa là cạnh đó bị đóng (bao gồm).
# Chúng ta có thể thay đổi phía bị đóng bằng cách truyền vào tham số right = False:
pd.cut(ages, [18, 26, 36, 61, 100], right=False)

[[18, 26), [18, 26), [18, 26), [26, 36), [18, 26), ..., [26, 36), [61, 100), [36, 61), [36, 61), [26, 36)]
Length: 12
Categories (4, interval[int64, left]): [[18, 26) < [26, 36) < [36, 61) < [61, 100)]

In [6]:
# Chúng ta cũng có thể chuyển các tên nhóm của riêng mình bằng cách truyền vào một danh sách các nhãn:
# danh sách nhãn
group_names = ['Youth', 'YoungAdult', 'MiddleAged', 'Senior']

pd.cut(ages, bins, labels=group_names)

['Youth', 'Youth', 'Youth', 'YoungAdult', 'Youth', ..., 'YoungAdult', 'Senior', 'MiddleAged', 'MiddleAged', 'YoungAdult']
Length: 12
Categories (4, object): ['Youth' < 'YoungAdult' < 'MiddleAged' < 'Senior']

In [7]:
# Nếu truyền một số nguyên nhóm để thực hiện hàm cut thay vì các khoảng giá trị rõ ràng, nó sẽ tính toán các nhóm có chiều dài bằng nhau dựa trên các giá trị tối thiểu và lớn nhất trong dữ liệu.
# sinh dữ liệu ngẫu nhiên gồm 20 phần tử
data = np.random.rand(20)

In [8]:
# Tùy chọn precision = 2 sẽ giới hạn độ chính xác thập phân ở hai chữ số.
cut_data = pd.cut(data, 4, precision=2)
cut_data

[(0.016, 0.26], (0.016, 0.26], (0.51, 0.75], (0.51, 0.75], (0.51, 0.75], ..., (0.51, 0.75], (0.26, 0.51], (0.75, 1.0], (0.016, 0.26], (0.75, 1.0]]
Length: 20
Categories (4, interval[float64, right]): [(0.016, 0.26] < (0.26, 0.51] < (0.51, 0.75] < (0.75, 1.0]]

In [9]:
pd.value_counts(cut_data)

(0.016, 0.26]    6
(0.51, 0.75]     6
(0.75, 1.0]      6
(0.26, 0.51]     2
dtype: int64

# Một hàm có liên quan chặt chẽ, qcut, chứa dữ liệu dựa trên các lượng tử mẫu. Tùy thuộc vào sự phân bố của dữ liệu, việc sử dụng cut thường không dẫn đến việc mỗi nhóm có cùng số lượng dữ liệu. Vì qcut sử dụng các lượng tử mẫu thay thế, nên chúng sẽ nhận được các nhóm có kích thước gần bằng nhau:

In [13]:
 # sinh ngẫu nhiễn 1000 điểm dữ liệu
data = np.random.randn(1000)
# thực hiện hàm qcut trên dữ liệu vừa sinh ra
cats = pd.qcut(data, 4)
cats

[(-3.332, -0.652], (-3.332, -0.652], (-3.332, -0.652], (0.676, 3.001], (0.676, 3.001], ..., (0.676, 3.001], (-0.652, 0.00996], (0.00996, 0.676], (-3.332, -0.652], (-3.332, -0.652]]
Length: 1000
Categories (4, interval[float64, right]): [(-3.332, -0.652] < (-0.652, 0.00996] < (0.00996, 0.676] < (0.676, 3.001]]

In [14]:
#thống kê số lượng phần tử
pd.value_counts(cats)

(-3.332, -0.652]     250
(-0.652, 0.00996]    250
(0.00996, 0.676]     250
(0.676, 3.001]       250
dtype: int64

In [15]:
# Tương tự như cut, chúng ta có thể chuyển các lượng tử của riêng mình (các số từ 0 đến 1):
pd.qcut(data, [0, 0.1, 0.5, 0.9, 1.])

[(-1.218, 0.00996], (-1.218, 0.00996], (-3.332, -1.218], (1.252, 3.001], (0.00996, 1.252], ..., (0.00996, 1.252], (-1.218, 0.00996], (0.00996, 1.252], (-3.332, -1.218], (-1.218, 0.00996]]
Length: 1000
Categories (4, interval[float64, right]): [(-3.332, -1.218] < (-1.218, 0.00996] < (0.00996, 1.252] < (1.252, 3.001]]