## 9. 数据分箱

#### 1. 数据分箱的概念
1. 数据分箱（Data Binning）是将连续型数据划分为离散的区间（箱子）的过程。
2. 通过将数据分箱，可以简化数据的表示，减少噪音，提高模型的稳定性。

In [4]:
import pandas as pd
age = pd.Series([18, 22, 25, 30, 35, 40, 45, 50, 55, 60])
score = pd.Series([55, 60, 65, 70, 75, 80, 85, 90, 95, 100])

#### 2. 等宽分箱
1. 等宽分箱是将数据范围划分为若干个宽度相等的区间。
2. 使用`pandas.cut()`函数实现等宽分箱。
3. 方法参数：
   - `bins`：指定分箱的数量或具体的分箱边界。
   - `labels`：为每个箱子指定标签。
   - `right`：是否包含右边界，默认为True。

##### 2.1 直接指定箱的数量(自动等宽)

In [3]:
age_bins_1 = pd.cut(age, bins=3)
print(age_bins_1)

0    (17.958, 32.0]
1    (17.958, 32.0]
2    (17.958, 32.0]
3    (17.958, 32.0]
4      (32.0, 46.0]
5      (32.0, 46.0]
6      (32.0, 46.0]
7      (46.0, 60.0]
8      (46.0, 60.0]
9      (46.0, 60.0]
dtype: category
Categories (3, interval[float64, right]): [(17.958, 32.0] < (32.0, 46.0] < (46.0, 60.0]]


In [5]:
# 添加 labels 参数，添加标签，使得输出不是区间而是标签
age_bins_labeled = pd.cut(age, bins = 3, labels=['Young', 'Middle-aged', 'Old'])
print(age_bins_labeled)

0          Young
1          Young
2          Young
3          Young
4    Middle-aged
5    Middle-aged
6    Middle-aged
7            Old
8            Old
9            Old
dtype: category
Categories (3, object): ['Young' < 'Middle-aged' < 'Old']


##### 2.2 指定具体的分箱边界

In [6]:
bins = [15, 25, 35, 45, 60]
# 表示分为4个箱子：[15, 25)、[25, 35)、[35, 45)、[45, 60]
age_bins_2 = pd.cut(age, bins=bins)
print(age_bins_2)

0    (15, 25]
1    (15, 25]
2    (15, 25]
3    (25, 35]
4    (25, 35]
5    (35, 45]
6    (35, 45]
7    (45, 60]
8    (45, 60]
9    (45, 60]
dtype: category
Categories (4, interval[int64, right]): [(15, 25] < (25, 35] < (35, 45] < (45, 60]]


#### 3. 等频分箱
1. 等频分箱是将数据划分为若干个包含相同数量数据点的区间。
2. 使用`pandas.qcut()`函数实现等频分箱。
3. 方法参数：
    - `q`：指定分箱的数量或具体的分位数。
        - 整数表示分箱数量。
        - 列表表示具体的分位数。
    - `labels`：为每个箱子指定标签。

##### 3.1 直接指定箱的数量

In [7]:
score_bins_1 = pd.qcut(score, q=4)
print(score_bins_1)

0    (54.999, 66.25]
1    (54.999, 66.25]
2    (54.999, 66.25]
3      (66.25, 77.5]
4      (66.25, 77.5]
5      (77.5, 88.75]
6      (77.5, 88.75]
7     (88.75, 100.0]
8     (88.75, 100.0]
9     (88.75, 100.0]
dtype: category
Categories (4, interval[float64, right]): [(54.999, 66.25] < (66.25, 77.5] < (77.5, 88.75] < (88.75, 100.0]]


##### 3.2 指定具体的分位数
分位数列表 `[0, 0.25, 0.5, 0.75, 1]` 表示将数据分为四个箱子，每个箱子包含25%的数据点。

In [8]:
score_bins_labeled = pd.qcut(score, q=[0, 0.25, 0.5, 0.75, 1], labels=['Low', 'Medium', 'High', 'Very High'])
print(score_bins_labeled)

0          Low
1          Low
2          Low
3       Medium
4       Medium
5         High
6         High
7    Very High
8    Very High
9    Very High
dtype: category
Categories (4, object): ['Low' < 'Medium' < 'High' < 'Very High']
