# 使用 Apriori 算法进行关联分析

内容安排
1. 关联分析相关概念
2. Apriori 算法原理和实现
3. 两个示例

## 1. 关联分析

**关联分析**：一种在大规模数据集中寻找隐含的有趣关系的任务。这些关系有两种形式：**频繁项集**和**关联规则**

### 1.1 用示例对概念进行说明

给出一个商店的交易清单，如下表显示

|交易编号|商品|
|--|--|
|0|豆奶，莴苣|
|1|莴苣，尿布，葡萄酒，甜菜|
|2|豆奶，尿布，葡萄酒，橙汁|
|3|莴苣，豆奶，葡萄酒，尿布|
|4|莴苣，豆奶，尿布，橙汁|

- **物品列表**：代表商店出售的所有商品的列表。\['豆奶','莴苣','尿布','葡萄酒','甜菜','橙汁'\]
- **频繁项集**：经常出现在一块的物品的集合。例子中，其中一个频繁项集是 {'豆奶','尿布','葡萄酒'}
- **关联规则**：两种物品之间可能存在很强的关系，一般从频繁项集中挖掘物品的关联规则。从上述的频繁项集和交易清单中，可以挖掘出一条 "尿布-->葡萄酒" 的关联规则，即如果有人买了尿布，那么他很可能也会买葡萄酒。

一些量化指标：

- **支持度**：某个项集在数据集中出现的频率，即在数据集中包含该项集的记录所占的比例。如下表有5条交易记录，其中有3条记录包含{'豆奶','尿布'}这项集。故此项集{'豆奶','尿布'}的支持度为3/5
- **可信度/置信度**：指某条关联规则的可信程度。如 "尿布-->葡萄酒" 的可信度为75%，说明这条规则对其中 75% 的记录都适用。计算公式就是条件概率的计算公式。

### 1.2 关联分析的过程：即从交易清单到物品列表，再到频繁项集、再到关联规则的过程

1. **从交易清单到物品列表的过程**；
2. **从物品列表到频繁项集**：将物品进行全组合形成候选项集（如{'豆奶','尿布'},{'豆奶','葡萄酒'},{'豆奶','尿布','葡萄酒'},...）,当某个候选项集的支持度超过一定的阈值，就称为频繁项集
3. **从频繁项集到关联规则**：对每个频繁项集挖掘关联规则（如{'豆奶','尿布','葡萄酒'}的关联规则有 "尿布-->葡萄酒", "豆奶,尿布-->葡萄酒", "葡萄酒-->尿布",...），对每个关联规则计算可信度。

### 1.3 引出 Apriori

在第 2 步中，首先要对物品列表中的物品进行全组合，如果一共有 4 种商品，全组合得到的候选项集有 $2^4-1=15$ 个，然后计算每个候选项集的支持度，选出频繁项集。如果有 N 种商品，那么候选项集有 $2^N-1$ 个。候选项集的指数式增长，如果不采用一些策略，关联分析就没法实现了。

有一种基于**Apriori原理**的算法解决了候选项集的指数式增长带来计算时间的增长。

## 2. Apriori

注：Apriori 算法原理很容易理解，但实现起来很难。

### 2.1 Apriori 原理：理解为剪枝

**Apriori 原理**：如果某个项集的支持度高于阈值（即该项集是频繁的），那么它的所有子集的支持度也高于阈值。如 {0,1} 的支持度高，那么它子集 {0},{1} 的支持度一定高。实际中，我们将 Apriori 原理反过来说：**「某个项集支持度低于阈值（即该项集非频繁），那么它的超集支持度一定低于阈值」**。

**运用 Apriori 原理**：计算出 {0,1} 的支持度低于阈值，那么根据原理知道它的超集 {0,1,2},{0,1,3} 支持度一定很低，就不再计算 {0,1,2},{0,1,3} 及其超集的支持度。从而降低了计算量，避免了指数式的增长。可以理解为剪枝

举个例子，物品列表为 \[0,1,2,3\] , 先构建第一层的候选项集 {01,02,03,12,13,23}。假设 {23} 的支持度低于阈值，即 {23} 是非频繁的；那么就删除候选项集再构建下一层候选项集 {012,013} , 而不构建 {023,123} 的原因是其子集 {23} 是非频繁的，那么他俩肯定也是非频繁的，所以就没必要构建。从而避免了候选项集的指数式增长。下图是例子的示意图（其中，每个圆形代表一个候选项集；黑色填充的代表非频繁项集，其超集也是非频繁的。）

![生成频繁项集](./生成频繁项集的示例图.png)

**运用场景**：有两个运用 Apriori 的场景
1. 生成频繁项集
2. 对每个频繁项集生成关联规则：如某个频繁项集 {0123} 可生成的关联规则如下图：![一个频繁项集生成关联规则的示例图](./一个频繁项集生成关联规则的示例图.png)

### 2.2 Apriori 算法过程


**总体思路**：
1. 从数据集中得到物品列表
2. 从物品列表构建候选项集，根据支持度选出频繁项集，并使用 Apriori 进行剪枝
3. 对每个频繁项集生成关联规则，根据可信度选择高于阈值的关联规则

### 2.2.1 构建频繁项集

**总体思路**：图一的构建过程是一层一层的向下构建的。
1. 构建物品列表 C1，其中 C1 也是大小为 1 的所有候选项集（即只有一个元素的项集）的集合
2. 计算每个候选项集的支持度，将高于阈值的待选项集构成频繁项集的集合 L1 （运用了 Apriori 进行剪枝）
3. L1 中每个待选项集两两组合形成大小为 2 的所有候选项集的集合 C2
4. 再计算支持度，过滤掉低于阈值的待选项集，形成频繁项集的集合 L2
5. 重复构建过滤操作，直到 Ck 没有候选项集结束

**Ck 生成 Lk 的算法伪代码**：

```
对数据集中的每条交易记录 tran：
    对每个候选项集 can：
        如果 can 是 tran 一个子集：增加 can 的计数
对于每个候选项集：
    计算其支持度
    如果其支持度高于阈值，则将该项集添加到频繁项集列表中
return 频繁项集的列表
```

In [6]:
def createC1(dataset):
    '''
    从数据集中构建物品列表，即构建 C1 的过程
    :param dataset: [list] 数据集，是个二维列表，每行存一条交易记录。如[[1,2,3],[2,4],[1,4],...]
    :return : [list] 物品列表 C1，也是大小为 1 的所有候选项集的集合
    '''
    C1 = []
    for tran in dataset:  # 遍历每条交易记录
        for item in tran:  # 遍历每条交易记录中的物品
            if not [item] in C1:
                C1.append([item])
    C1.sort()
    return list(map(frozenset, C1))  # 将每个物品冻结，不可改变


def scanD(D, Ck, min_support):
    '''
    Ck 生成 Lk 的算法，即从待选项集的集合 Ck 生成频繁项集的集合 Lk
    :param D: [list] 数据集，是个二维列表，每行存一条交易记录。如[[1,2,3],[2,4],[1,4],...]
    :param Ck: [list] 大小为 k 的候选项集的集合
    :parma min_support: [int] 最小支持度，用于高于最小支持度则为频繁项集
    :return : [list] Lk 大小为 k 的频繁项集的集合
              [dict] support_data 每个候选项集的支持度 key:候选项集，value：其支持度
    '''
    # 1. 统计每个候选项集在数据集出现的次数
    count = {} 
    for tran in D:  # 遍历每条交易记录
        for can in Ck:  # 遍历每个候选项集
            if can.issubset(tran):  # 当前候选项集是不是当前交易记录的子集，即当前候选项集是不是出现在当前交易记录
                count[can] = count.get(can, 0) + 1
    
    # 2. 计算每个候选项集的支持度，并生成 Lk
    Lk = []
    support_data = {}  # 每个候选项集的支持度
    m = len(D)
    for can in Ck:
        can_support = count[can] / m
        if can_support >= min_support:
            Lk.append(can)
        support_data[can] = can_support
    return Lk, support_data

dataset = [[1,3,4],[2,3,5],[1,2,3,5],[2,5]]
C1 = createC1(dataset)
D = list(map(set, dataset))  # 每条交易记录去重，我们不关心物品的数量
L1, support_data = scanD(D, C1, 0.5)
print('dataset :',dataset)
print('C1 :', C1)
print('L1 :', L1)
print('C1 support data : ', support_data)

dataset : [[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 5]]
C1 : [frozenset({1}), frozenset({2}), frozenset({3}), frozenset({4}), frozenset({5})]
L1 : [frozenset({1}), frozenset({2}), frozenset({3}), frozenset({5})]
C1 support data :  {frozenset({1}): 0.5, frozenset({2}): 0.75, frozenset({3}): 0.75, frozenset({4}): 0.25, frozenset({5}): 0.75}


上面是一次 "从待选项集的集合 Ck 生成频繁项集的集合 Lk" 的过程。Apriori 算法构建频繁项集是重复该过程，直至 Lk 没有频繁项集

**完整 Apriori 算法**：
```
当集合中项的个数大于 0 时：
    构建一个大小为 k 的候选项集的集合
    检查数据以确认每个项集都是频繁的
    保留频繁项集并构建大小为 k+1 的候选项集的集合
```

In [None]:
def apriori_gen(Lk, k):
    '''
    根据上一层的频繁项集的集合构建 Ck
    将频繁项集两两组合，形成新的候选项集的项集
    :param Lk: [list] 频繁项集的集合
    :param k: [int] 
    '''