# 关联分析：Apriori算法

Apriori算法是常用于挖掘不同数据之间关联关系的经典算法。

关联分析是数据挖掘中一种简单而实用的技术，它通过深入分析数据集，寻找事物间的关联性，挖掘频繁出现的组合，并描述组合内对象同时出现的模式和规律。例如，对超市购物的数据进行关联分析，通过发现顾客所购买的不同商品之间的关系，分析顾客的购买习惯，设计商品的组合摆放位置，制定相应的营销策略，从而制造需求，提高销售额，创造额外收入。关联分析技术也可以应用于智能推荐系统，当我们挖掘出频繁出现的组合和强关联规则之后，就可以通过强关联规则为顾客推荐商品。

## 一、关联分析的基本概念
**关联分析示例表**: 一组购物篮数据，其中第1列为用户信息，第2列为用户所购买的商品信息，我们的目的就是通过该表来挖掘不同商品间的关联关系。
![关联分析示例表](image/关联分析示例表.png)

### 关联分析的一些基本概念
* **事务库**：上表中的购物篮数据就是一个事务库，该事务库记录的是用户行为的数据。
* **事务**：事务库中的每一条记录称为一笔事务。在上表的购物篮事务库中，一笔事务就是一次购物行为。例如，第1行数据“用户1购买商品A，B，C”即为一笔事务。
* **项和项集**：在购物篮事务库中，每样商品为一个项，项的集合称为项集。例如，“A，B”“A，C”“B，C”“A，B，C”都是项集，即不同商品的组合。

### 关联分析中的核心概念
* **关联规则**：关联规则是形如A→B的表达式，A称为前件，B称为后件，即一个用户如果购买了商品A，则也会购买商品B。这里的A和B不是指单一的商品，而是指项集，例如，{A，B}→{C}的含义就是一个用户如果购买了商品A和商品B，则也会购买商品C。
* **支持度（support）**：项集的支持度定义为包含该项集的事务在所有事务中所占的比例。例如，项集{A，B}在购物篮事务库中共出现3次（第1、2、4条数据），而整个事务库一共有5笔事务（即5条数据），因此它的支持度为3÷5＝60%。
* **频繁项集**：支持度大于等于人为设定的阈值（该阈值称为最小支持度）的项集为频繁项集。例如，假设将最小支持度设为50%，因为上面得到项集{A，B}的支持度为60%，所以它是频繁项集，也就是说，该项集在所有事务中出现得较为频繁。
* **置信度（confidence）**：置信度的含义是项集Y在包含项集X的事务中出现的频繁程度。在购物篮事务库中，关联规则X→Y的置信度为在购买项集X的基础上购买项集Y的概率P（Y|X），计算规则如下：

$P(Y|X) = P(XY)/P(X)$

以上述的购物篮事务库为例，关联规则{A，B}→{C}的置信度计算公式如下:

$P({C}|{A, B}) = P({A,B,C})/P({A,B})$

项集{A，B，C}在所有5笔事务中共出现2次（第1、4笔事务），所以P（{A，B，C}）＝2/5；项集{A，B}在所有5笔事务中共出现3次（第1、2、4笔事务），所以P（{A，B}）＝3/5。代入上述公式可得：

$P({C}|{A, B}) = P({A,B,C})/P({A,B}) = (2/5)/(3/5) = 0.67$

这个结果说明购买了商品A和商品B的人中有67%的人也购买了商品C，该概率还是较高的，因此，商场可以向购买了商品A和商品B的人推荐商品C，如可以将这3种商品放得较近。
* **强关联规则**：在实际应用中，通常是先寻找满足最小支持度的频繁项集，然后在频繁项集中寻找满足最小置信度的关联规则，这样的关联规则称为强关联规则，即我们需要的关联规则。

## 二、Apriori算法的数学演示
### 1、基本思路
关联分析的最终目标是要找出强关联规则，以针对目标客户推荐商品。Apriori算法是最著名的关联规则的挖掘算法之一，其核心是一种递推算法。Apriori算法的步骤如下。
* 步骤1：设定最小支持度和最小置信度；
* 步骤2：根据最小支持度找出所有的频繁项集；
* 步骤3：根据最小置信度发现强关联规则。

### 2、案例演示
![关联分析示例表](image/关联分析示例表.png)

#### 步骤1：设定最小支持度和最小置信度
首先设定最小支持度为2/5，即40%；最小置信度为4/5，即80%。

#### 步骤2：根据最小支持度找出所有的频繁项集
这一步骤是关联分析中较为重要的一个环节，我们需要找到所有的频繁项集，因为强关联规则都是从频繁项集中产生的。

#### 步骤3：根据最小置信度发现强关联规则
找到所有长度大于1的频繁项集后，强关联规则就很有可能就从这些频繁项集中产生，此时最后一个步骤就是从各个频繁项集中推导出所有可能的关联规则，再利用最小置信度来检验这些关联规则是否为强关联规则。
![强关联规则](image/强关联规则.png)


## 三、Apriori算法的代码实现
### 1、通过apyori库实现Apriori算法

In [1]:
# 安装 apyori库
!pip install apyori

Collecting apyori
  Downloading apyori-1.1.2.tar.gz (8.6 kB)
Building wheels for collected packages: apyori
  Building wheel for apyori (setup.py) ... [?25ldone
[?25h  Created wheel for apyori: filename=apyori-1.1.2-py3-none-any.whl size=5974 sha256=305850213eb5bf3f941392794d7b18d890edb82f784e6a1a631dff62cd4696e1
  Stored in directory: /Users/dayao/Library/Caches/pip/wheels/32/2a/54/10c595515f385f3726642b10c60bf788029e8f3a1323e3913a
Successfully built apyori
Installing collected packages: apyori
Successfully installed apyori-1.1.2


In [12]:
# 创建购物篮事务库，代码如下，每个子列表的内容就是一条购物记录。
transactions = [['A', 'B', 'C'], ['A', 'B'], ['B', 'C'], ['A', 'B', 'C', 'D'], ['B', 'C', 'D']]

from apyori import apriori # 引入apyori库中的apriori()函数
rules = apriori(transactions, min_support=0.4, min_confidence=0.8) # 用apriori()函数进行关联分析，其中min_support参数为最小支持度，这里设置为0.4，即之前设定的40%，min_confidence参数为最小置信度，这里设置为0.8，即之前设定的80%，将获取到的关联规则赋给变量rules
results = list(rules) # 用list()函数将获得的关联规则rules转为列表
for i in results:
    print(i)
    print('-----------------------')

RelationRecord(items=frozenset({'B'}), support=1.0, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'B'}), confidence=1.0, lift=1.0)])
-----------------------
RelationRecord(items=frozenset({'C'}), support=0.8, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'C'}), confidence=0.8, lift=1.0)])
-----------------------
RelationRecord(items=frozenset({'B', 'A'}), support=0.6, ordered_statistics=[OrderedStatistic(items_base=frozenset({'A'}), items_add=frozenset({'B'}), confidence=1.0, lift=1.0)])
-----------------------
RelationRecord(items=frozenset({'B', 'C'}), support=0.8, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'B', 'C'}), confidence=0.8, lift=1.0), OrderedStatistic(items_base=frozenset({'B'}), items_add=frozenset({'C'}), confidence=0.8, lift=1.0), OrderedStatistic(items_base=frozenset({'C'}), items_add=frozenset({'B'}), confidence=1.0, lift=1.0)])
-----------------------
Relati