# 关联分析：Apriori算法

Apriori算法是常用于挖掘不同数据之间关联关系的经典算法。

关联分析是数据挖掘中一种简单而实用的技术，它通过深入分析数据集，寻找事物间的关联性，挖掘频繁出现的组合，并描述组合内对象同时出现的模式和规律。例如，对超市购物的数据进行关联分析，通过发现顾客所购买的不同商品之间的关系，分析顾客的购买习惯，设计商品的组合摆放位置，制定相应的营销策略，从而制造需求，提高销售额，创造额外收入。关联分析技术也可以应用于智能推荐系统，当我们挖掘出频繁出现的组合和强关联规则之后，就可以通过强关联规则为顾客推荐商品。

## 一、关联分析的基本概念
**关联分析示例表**: 一组购物篮数据，其中第1列为用户信息，第2列为用户所购买的商品信息，我们的目的就是通过该表来挖掘不同商品间的关联关系。
![关联分析示例表](image/关联分析示例表.png)

### 关联分析的一些基本概念
* **事务库**：上表中的购物篮数据就是一个事务库，该事务库记录的是用户行为的数据。
* **事务**：事务库中的每一条记录称为一笔事务。在上表的购物篮事务库中，一笔事务就是一次购物行为。例如，第1行数据“用户1购买商品A，B，C”即为一笔事务。
* **项和项集**：在购物篮事务库中，每样商品为一个项，项的集合称为项集。例如，“A，B”“A，C”“B，C”“A，B，C”都是项集，即不同商品的组合。

### 关联分析中的核心概念
* **关联规则**：关联规则是形如A→B的表达式，A称为前件，B称为后件，即一个用户如果购买了商品A，则也会购买商品B。这里的A和B不是指单一的商品，而是指项集，例如，{A，B}→{C}的含义就是一个用户如果购买了商品A和商品B，则也会购买商品C。
* **支持度（support）**：项集的支持度定义为包含该项集的事务在所有事务中所占的比例。例如，项集{A，B}在购物篮事务库中共出现3次（第1、2、4条数据），而整个事务库一共有5笔事务（即5条数据），因此它的支持度为3÷5＝60%。
* **频繁项集**：支持度大于等于人为设定的阈值（该阈值称为最小支持度）的项集为频繁项集。例如，假设将最小支持度设为50%，因为上面得到项集{A，B}的支持度为60%，所以它是频繁项集，也就是说，该项集在所有事务中出现得较为频繁。
* **置信度（confidence）**：置信度的含义是项集Y在包含项集X的事务中出现的频繁程度。在购物篮事务库中，关联规则X→Y的置信度为在购买项集X的基础上购买项集Y的概率P（Y|X），计算规则如下：

$P(Y|X) = P(XY)/P(X)$

以上述的购物篮事务库为例，关联规则{A，B}→{C}的置信度计算公式如下:

$P({C}|{A, B}) = P({A,B,C})/P({A,B})$

项集{A，B，C}在所有5笔事务中共出现2次（第1、4笔事务），所以P（{A，B，C}）＝2/5；项集{A，B}在所有5笔事务中共出现3次（第1、2、4笔事务），所以P（{A，B}）＝3/5。代入上述公式可得：

$P({C}|{A, B}) = P({A,B,C})/P({A,B}) = (2/5)/(3/5) = 0.67$

这个结果说明购买了商品A和商品B的人中有67%的人也购买了商品C，该概率还是较高的，因此，商场可以向购买了商品A和商品B的人推荐商品C，如可以将这3种商品放得较近。
* **强关联规则**：在实际应用中，通常是先寻找满足最小支持度的频繁项集，然后在频繁项集中寻找满足最小置信度的关联规则，这样的关联规则称为强关联规则，即我们需要的关联规则。

## 二、Apriori算法的数学演示
### 1、基本思路
关联分析的最终目标是要找出强关联规则，以针对目标客户推荐商品。Apriori算法是最著名的关联规则的挖掘算法之一，其核心是一种递推算法。Apriori算法的步骤如下。
* 步骤1：设定最小支持度和最小置信度；
* 步骤2：根据最小支持度找出所有的频繁项集；
* 步骤3：根据最小置信度发现强关联规则。

### 2、案例演示
![关联分析示例表](image/关联分析示例表.png)

#### 步骤1：设定最小支持度和最小置信度
首先设定最小支持度为2/5，即40%；最小置信度为4/5，即80%。

#### 步骤2：根据最小支持度找出所有的频繁项集
这一步骤是关联分析中较为重要的一个环节，我们需要找到所有的频繁项集，因为强关联规则都是从频繁项集中产生的。

#### 步骤3：根据最小置信度发现强关联规则
找到所有长度大于1的频繁项集后，强关联规则就很有可能就从这些频繁项集中产生，此时最后一个步骤就是从各个频繁项集中推导出所有可能的关联规则，再利用最小置信度来检验这些关联规则是否为强关联规则。
![强关联规则](image/强关联规则.png)


## 三、Apriori算法的代码实现
### 1、通过apyori库实现Apriori算法

In [1]:
# 安装 apyori库
!pip install apyori

Collecting apyori
  Downloading apyori-1.1.2.tar.gz (8.6 kB)
Building wheels for collected packages: apyori
  Building wheel for apyori (setup.py) ... [?25ldone
[?25h  Created wheel for apyori: filename=apyori-1.1.2-py3-none-any.whl size=5974 sha256=305850213eb5bf3f941392794d7b18d890edb82f784e6a1a631dff62cd4696e1
  Stored in directory: /Users/dayao/Library/Caches/pip/wheels/32/2a/54/10c595515f385f3726642b10c60bf788029e8f3a1323e3913a
Successfully built apyori
Installing collected packages: apyori
Successfully installed apyori-1.1.2


In [1]:
# 创建购物篮事务库，代码如下，每个子列表的内容就是一条购物记录。
transactions = [['A', 'B', 'C'], ['A', 'B'], ['B', 'C'], ['A', 'B', 'C', 'D'], ['B', 'C', 'D']]

from apyori import apriori # 引入apyori库中的apriori()函数
rules = apriori(transactions, min_support=0.4, min_confidence=0.8) # 用apriori()函数进行关联分析，其中min_support参数为最小支持度，这里设置为0.4，即之前设定的40%，min_confidence参数为最小置信度，这里设置为0.8，即之前设定的80%，将获取到的关联规则赋给变量rules
results = list(rules) # 用list()函数将获得的关联规则rules转为列表
for i in results:
    print(i)
    print('-----------------------')

RelationRecord(items=frozenset({'B'}), support=1.0, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'B'}), confidence=1.0, lift=1.0)])
-----------------------
RelationRecord(items=frozenset({'C'}), support=0.8, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'C'}), confidence=0.8, lift=1.0)])
-----------------------
RelationRecord(items=frozenset({'B', 'A'}), support=0.6, ordered_statistics=[OrderedStatistic(items_base=frozenset({'A'}), items_add=frozenset({'B'}), confidence=1.0, lift=1.0)])
-----------------------
RelationRecord(items=frozenset({'C', 'B'}), support=0.8, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'C', 'B'}), confidence=0.8, lift=1.0), OrderedStatistic(items_base=frozenset({'B'}), items_add=frozenset({'C'}), confidence=0.8, lift=1.0), OrderedStatistic(items_base=frozenset({'C'}), items_add=frozenset({'B'}), confidence=1.0, lift=1.0)])
-----------------------
Relati

此时的results就是符合条件的各个频繁项集的支持度和置信度。

提取results中的关联规则，并通过字符串拼接来更好地呈现关联规则

In [2]:
for i in results: # 遍历results中每一个频繁项集
    for j in i.ordered_statistics: # 获取频繁项集中的关联规则
        X = j.items_base # 关联规则的前件
        Y = j.items_add # 关联规则的后件
        x = ','.join([item for item in X]) # 连接前件中的元素
        y = ','.join([item for item in Y]) # 连接后件中的元素
        if x != '': # 防止出现关联规则中前件为空的情况
            print(x + '——>' + y) # 通过字符串拼接来更好地呈现结果

A——>B
B——>C
C——>B
D——>B
D——>C
C,A——>B
D——>C,B
D,B——>C
D,C——>B


### 2．通过mlxtend库实现Apriori算法
先来安装mlxtend库

In [5]:
!pip install mlxtend -i https://pypi.tuna.tsinghua.edu.cn/simple 

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple


In [7]:
# 创建购物篮事务库，代码如下，每个子列表的内容就是一条购物记录。
transactions = [['A', 'B', 'C'], ['A', 'B'], ['B', 'C'], ['A', 'B', 'C', 'D'], ['B', 'C', 'D']]

因为mlxtend库中的apriori()函数可接受的数据类型为由布尔值（又称bool型数据，内容为True或Flase）或0/1值构成的DataFrame，所以需要先使用mlxtend库中的TransactionEncoder()函数对数据进行预处理，代码如下。

In [8]:
from mlxtend.preprocessing import TransactionEncoder # 从mlxtend库的preprocessing模块中引入TransactionEncoder()函数
TE = TransactionEncoder() # 构造转换模型
data = TE.fit_transform(transactions) # 将原始数据转换为布尔值

利用pandas库将转换后的布尔值以DataFrame格式存储

In [9]:
import pandas as pd
df = pd.DataFrame(data, columns=TE.columns_) 
df

Unnamed: 0,A,B,C,D
0,True,True,True,False
1,True,True,False,False
2,False,True,True,False
3,True,True,True,True
4,False,True,True,True


将数据处理为mlxtend库可接受的特定格式后，我们从mlxtend库的frequent_patterns模块中引入apriori()函数来挖掘购物篮事务库中的频繁项集，代码如下

In [11]:
from mlxtend.frequent_patterns import apriori
items = apriori(df, min_support=0.4, use_colnames=True)

将处理好的数据传入apriori()函数，设置min_support参数为0.4，代表最小支持度为0.4，设置use_colnames参数为True，代表使用变量df的列名作为返回的频繁项集中项的名称，最后将挖掘出的频繁项集赋给变量items，此时items为所有符合最小支持度要求的频繁项集

In [12]:
items

Unnamed: 0,support,itemsets
0,0.6,(A)
1,1.0,(B)
2,0.8,(C)
3,0.4,(D)
4,0.6,"(B, A)"
5,0.4,"(C, A)"
6,0.8,"(C, B)"
7,0.4,"(D, B)"
8,0.4,"(D, C)"
9,0.4,"(B, C, A)"


通过如下代码可以查看长度大于等于2的频繁项集，其中主要利用的是pandas库中的apply()函数，其作用于itemsets列上并获取该列每一个项集的长度，即元素个数，然后判断该长度是否大于等于2并进行筛选。

In [14]:
items[items['itemsets'].apply(lambda x: len(x)) >= 2]

Unnamed: 0,support,itemsets
4,0.6,"(B, A)"
5,0.4,"(C, A)"
6,0.8,"(C, B)"
7,0.4,"(D, B)"
8,0.4,"(D, C)"
9,0.4,"(B, C, A)"
10,0.4,"(D, C, B)"


根据最小置信度在频繁项集中挖掘强关联规则，代码如下

In [15]:
from mlxtend.frequent_patterns import association_rules
rules = association_rules(items, min_threshold=0.8)

将得到的频繁项集数据传入association_rules()函数，设置min_threshold参数为0.8，代表将最小置信度设置为0.8，最后将挖掘出的强关联规则赋给变量rules，其结果如下图所示

In [16]:
rules

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,(A),(B),0.6,1.0,0.6,1.0,1.0,0.0,inf
1,(C),(B),0.8,1.0,0.8,1.0,1.0,0.0,inf
2,(B),(C),1.0,0.8,0.8,0.8,1.0,0.0,1.0
3,(D),(B),0.4,1.0,0.4,1.0,1.0,0.0,inf
4,(D),(C),0.4,0.8,0.4,1.0,1.25,0.08,inf
5,"(C, A)",(B),0.4,1.0,0.4,1.0,1.0,0.0,inf
6,"(D, C)",(B),0.4,1.0,0.4,1.0,1.0,0.0,inf
7,"(D, B)",(C),0.4,0.8,0.4,1.0,1.25,0.08,inf
8,(D),"(C, B)",0.4,0.8,0.4,1.0,1.25,0.08,inf


以第1条关联规则{A}→{B}为例讲解各列的含义。antecedents列代表关联规则中的前件，如关联规则{A}→{B}中的{A}；consequents列代表关联规则中的后件，如关联规则{A}→{B}中的{B}；antecedent support列代表前件的支持度，例如，A共出现3次（共5笔事务），所以关联前件支持度为3/5＝0.6；consequent support列代表后件的支持度，例如，B共出现5次，所以关联后件支持度为5/5＝1；support列代表该关联规则的支持度，例如，{A，B}共出现3次，所以关联规则的支持度为3/5＝0.6；confidence列代表该关联规则的置信度，除了用15.1.1小节中的公式计算外，还可以用“关联规则支持度/前件支持度”来计算，如下所示，代入数值为（3/5）÷（3/5）＝1。

通过如下代码提取results中的关联规则，并通过字符串拼接来更好地呈现关联规则。

In [21]:
for i, j in rules.iterrows(): # 遍历DataFrame的每一行
    X = j['antecedents'] # 关联规则前件
    Y = j['consequents'] # 关联规则后件
    x = ','.join([item for item in X]) # 连接前件中的元素
    y = ','.join([item for item in Y]) # 连接后件中的元素
    if x != '': # 防止出现关联规则中前件为空的情况
        print(x + '——>' + y) # 通过字符串拼接来更好地呈现结果

A——>B
C——>B
B——>C
D——>B
D——>C
C,A——>B
D,C——>B
D,B——>C
D——>C,B


9条强关联规则都捕捉到了。

**总体来说，通过apyori库和mlxtend库都能方便地进行关联规则分析，在实际应用中，两者的差别并不大。如果追求简便性，推荐使用apyori库；如果想获得更严谨的结果，则推荐使用mlxtend库。**