# 连续型变量的分组

对于连续型数值类型，有时需要进行离散化，即把连续型特征变换为类别类型。数值类型离散化就是数据化为到若干个离散的区间，常称为分组或分箱操作。Pandas 提供有如下方法实现分组操作：
- `pd.cut()`
- `pd.qcut()`

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity='all'

## `pd.cut()`

`pd.cut()`函数通过指定一个区间实现数据分组，其使用语法为：
```python
pd.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates='raise')
```
主要参数
- `x`，数据。
- `bins`，可以为整数或类数组对象，必须是一维。
- `right`，右侧是否为闭区间。
- `labels`，类数组对象，表示离散化后类别名称。
- `retbins`，是否返回区间标签。
- `precision`，显示标签精度。
- `include_lowest`，`right`优先级高，但不能与`include_lowest`同时为`False`。

当`bins`为整数时，会将数据的至于分成具有相同宽度的区间，即对数据进行等宽离散化。例如：

In [None]:
x = [0, 2, 6, 3, 9, 4]
# 指定离散标签
pd.cut(x, 3, labels=['k1', 'k2', 'k3'], right=True, retbins=True)

Pandas 会返回一个类别（Categories）数据类型。

通过传入类数组的对象，可以指定一个区间。例如把一个年龄序列，按照不同年龄段进行分组：

In [None]:
x = [3, 11, 12, 14, 18, 19, 20, 21, 24, 30, 33, 35, 40, 42, 45, 59, 53, 60, 70, 80]
bins = [0, 7, 16, 40, 60, 100]
# 指定离散标签
pd.cut(x, bins, labels=['幼儿', '少年', '青年', '中年', '老年'])

在指定区间之外的数据，会作为缺失值处理。

在前面章节介绍过用电需求数据集`demand_profile.csv`，其有两个字段： `date_time` 与 `energy_kwh`。在不同时间段上电费费率不同，使用`df.apply()`来可以用电费用。不过可以看出，使用`pd.cut()`函数可以矢量化运算，其性能显然会更高。下面先导入数据，然后用`pd.cut()`来进行处理：

In [None]:
import os

# 导入数据
df = pd.read_csv(os.path.join('..', 'data', 'demand_profile.csv'))
# 转换日期
df['date_time'] = pd.to_datetime(df['date_time'], format='%d/%m/%y %H:%M')
# 分组
cents_per_kwh = pd.cut(df.date_time.dt.hour, bins=[0, 7, 17, 24], include_lowest=True, labels=[12, 20, 28])
# 计算电费
df['cost_cents'] = df['energy_kwh'] = cents_per_kwh.astype(int)

注意，其中`df.date_time.dt.hour`为 Pandas 日期数据的小时。

## `pd.qcut()`

与 `pd.cut` 函数功能类似，`pd.qcut()` 函数根据样本的分位数对数据进行分组，其使用语法为：
```python
pd.qcut(x, q, labels=None, retbins=False, precision=3, duplicates='raise')
```
 主要参数
 - `x`，数据数组
 - `q`，分位数个数或列表

In [None]:
x = [0, 2, 6, 3, 9, 4]
# 指定分位数个数
pd.qcut(x, 3, labels=['q1', 'q2', 'q3'])

In [None]:
x = [0, 2, 6, 3, 9, 4]
# 指定分位数列表
pd.qcut(x, [0.1, 0.5, 0.9, 1], labels=['q1', 'q2', 'q3'])

In [None]:
pd.qcut?