# Chapter 11 Apriori

关联分析是一种在大规模数据集中寻找关系的任务。这些关系有两种形式：
- 频繁项集（frequent item sets）：经常同时出现的项目的集合
- 关联规则（association rules）：两种项目间的强相关性

对于以上两种关系，有两种相应的指标量化这些关系，分别是：
- 支持度（support）：数据集中某项目所占的比例
- 置信度（confidence）：两个项目间的关联性的量化指标，例如 ${A --> B}$的置信度为 ${support(A \cup B)/support(A)}$

## Apriori 原理

Apriori原理：如果一个项目是频繁集，那么它的所有子集都是频繁集；反过来说，如果一个项目是非频繁集，那么它的所有超集都是非频繁集。

应用Apriori原理可以避免关联分析时，分析项集数目的指数增长。

## 使用Apriori算法发现频繁集

关联分析的目标包括：发现频繁集和发现关联规则。首先需要先找到频繁集，才能获得关联规则。

Apriori算法发现购物记录的频繁集的工作流程：
1. 生成所有单个物品的集合
2. 扫描交易记录查看哪些项集满足最小支持度要求，去掉不满足的项集
3. 对余下的集合进行组合生成包含两个的项集，重复步骤2
4. 合并余下集合生成n+1的集合，再重复步骤2，直到所有集合都去掉



In [1]:
import apriori
dataSet = apriori.loadDataSet()
dataSet

[[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 5]]

In [2]:
# 创建第一个候选集合C1
C1 = apriori.createC1(dataSet)
C1

[frozenset({1}),
 frozenset({2}),
 frozenset({3}),
 frozenset({4}),
 frozenset({5})]

In [3]:
D = list(map(set, dataSet))
D

[{1, 3, 4}, {2, 3, 5}, {1, 2, 3, 5}, {2, 5}]

In [4]:
L1, suppData0 = apriori.scanD(D=D, Ck=C1, minSupport=0.5)
L1

[frozenset({5}), frozenset({2}), frozenset({3}), frozenset({1})]

L1 列表中的每个包含单一物品的项目出现在50%以上的记录中。


In [6]:
from importlib import reload
reload(apriori)
L, suppData = apriori.apriori(dataSet=dataSet, minSupport=0.5)
L

[[frozenset({5}), frozenset({2}), frozenset({3}), frozenset({1})],
 [frozenset({2, 3}), frozenset({3, 5}), frozenset({2, 5}), frozenset({1, 3})],
 [frozenset({2, 3, 5})],
 []]

L 包含了出现在50%以上记录的项目

## 使用Apriori算法发现关联规则



In [7]:
rules = apriori.generateRules(L, suppData, 0.7)

frozenset({5}) --> frozenset({2}) conf: 1.0
frozenset({2}) --> frozenset({5}) conf: 1.0
frozenset({1}) --> frozenset({3}) conf: 1.0


`generateRules()` 函数输出了项集之间的关联规则，其中

如果出现5，也会出现2

  出现2，也会出现5
  
  出现1，也会出现3
  

# 小结

- 关联分析是发现大数据集中元素间关系的工具。
- Apriori算法可以降低发现元素项间不同的组合所需的时间
