# 关联规则

关联规则(Association Rules)是反映一个事物与其他事物之间的相互依存性和关联性，是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。

常见的购物篮分析，如果一个消费者购买了产品A，那么他有多大几率会购买产品B？

该过程通过发现顾客放人其购物篮中的不同商品之间的联系，分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买，这种关联的发现可以帮助零售商制定营销策略。其他的应用还包括价目表设计、商品促销、商品的排放和基于购买模式的顾客划分。

可从数据库中关联分析出形如“由于某些事件的发生而引起另外一些事件的发生”之类的规则。

## 基本概念

1. 项集的定义

    项集是指所包含的数据项数量大于或等于1的集合，用 `{ }` 表示。

    例如，2项集`{ a , b } `，3项集`{ c , d , e }` 。

2. 频繁集的定义
   
    如果某项集出现的频数或频率大于等于某一个规定数据，则该项集称为频繁集。
    
    频繁集有两条性质：

        1. 频繁集的子集还是频繁集
   
        2. 非频繁集的超集还是非频繁集

## 频繁项集评估标准

常用的频繁项集的评估标准有支持度，置信度和提升度三个。

- 支持度：几个关联的数据在数据集中出现的次数占总数据集的比重。
$$
\operatorname{support}(X, Y) = P(X,Y) = \frac{|X \cap Y|} {|\Omega|}
$$
- 置信度：一个数据出现后，另一个数据出现的概率，或者说数据的条件概率。
$$
\operatorname{confidence}(X \Rightarrow Y) = P(Y \mid X) = \frac{P(X,Y)}{P(X)}
$$
- 提升度：表示含有 $Y$ 的条件下，同时含有 $X$ 的概率，与 $X$ 总体发生的概率之比。
$$
\operatorname{lift}(X \Rightarrow Y) = \frac{P(Y \mid X)}{P(Y)} = \frac{\operatorname{confidence}(X \Rightarrow Y)}{P(Y)}
$$


## 关联规则算法

算法 | 描述
|:--:|:--|
Apriori | 关联规则最常用也是最经典的挖掘频繁项集的算法，其核心思想是通过连接产生候选项及其支持度然后通过剪枝生成频繁项集。
FP-Tree | 针对Apriori算法的固有的多次扫面事务数据集的缺陷，提出的不产生候选频繁项集的方法。Apriori和FP-Tree都是寻找频繁项集的算法。
Eclat算法 | Eclat算法是一种深度优先算法，采用垂直数据表示形式，在概念格理论的基础上利用基于前缀的等价关系将搜索空间划分为较小的子空间。

## Apriori算法

提取关联规则的最大困难在于当存在很多商品时，可能的商品的组合（规则的前项与后项）的数目会达到一种令人望而却步的程度。因而各种关联规则分析的算法从不同方面入手减小可能的搜索空间的大小以及减小扫描数据的次数。

`Apriori`算法是最经典的挖掘频繁项集的算法，第一次实现了在大数据集上可行的关联规则提取，其核心思想是通过连接产生候选项与其支持度然后通过剪枝生成频繁项集。`Apriori`算法利用频繁项集性质的先验知识，通过逐层搜索的迭代方法，即将$k-$项集用于探察 $(k+1)$ 项集，来穷尽数据集中的所有频繁项集。先找到频繁项集1-项集集合 $L_1$， 然后用 $L_1 $ 找到频繁2-项集集合$L_2$，接着用 $L_2$ 找 $L_3$，直到找不到频繁 $k-$项集，找到每个 $L_k$ 需要一次数据库扫描。注意：频繁项集的所有非空子集也必须是频繁的。`Apriori`性质通过减少搜索空间，来提高频繁项集逐层产生的效率。`Apriori`算法由连接和剪枝两个步骤组成。

下图是一个交易单，I1至I5可看作5种商品。下面通过频繁项集合来找出关联规则。

假设我们的最小支持度阈值为2，即支持度计数小于2的都要删除。

|Tid |	items |
|:--|:--|
T1 | I1, I2, I5
T2 | I2, I4
T3 | I2, I3
T4 | I1, I2, I4
T5 | I1, I3
T6 | I2, I3
T7 | I1, I3
T8 | I1, I2, I3, I5
T9 | I1, I2, I3

找到1-项集 $L_1$

<table> 
<tr><th>C1 </th><th>L1(Support > 2)</th></tr> 
<tr><td> 

|Items | Support|
|:--:|:--:|
{I1} | 6
{I2} | 7
{I3} | 6
{I4} | 2
{I5} | 2

</td><td> 

|Items | Support|
|:--:|:--:|
{I1} | 6
{I2} | 7
{I3} | 6
{I4} | 2
{I5} | 2

</td></tr> </table> 

`C1`至`L1`的过程： 只需查看支持度是否高于阈值2，然后取舍。`C1`中所有阈值都大于2，故`L1`中都保留。

L1至C2的过程，遍历产生L1中所有可能性组合，即`{{I1,I2), (I1,I3), (I1,I4), ..., (I4,I5)}`，对便利产生的每个组合进行拆分，以保证频繁项集的所有非空子集也必须是频繁的。即对于`{I1,I2}`来说进行拆分为`I1`和`I2`。由于`I1`和`I2`在`L1`中都为频繁项，所以这一组合保留。对于剩下的`C2`根据原数据集中进行支持度计数。

<table> 
<tr> <th> L1 </th> <th> C2  </th> </tr> 
<tr><td> 

|Items | Support|
|:--:|:--:|
{I1} | 6
{I2} | 7
{I3} | 6
{I4} | 2
{I5} | 2

</td><td> 

|Items | Support|
|:--:|:--:|
{I1, I2} | 4
{I1, I3} | 4
{I1, I4} | 1
{I1, I5} | 2
{I2, I3} | 4
{I2, I4} | 2
{I2, I5} | 2
{I3, I4} | 0
{I3, I5} | 1
{I4, I5} | 0

</td></tr> </table> 

<table> 
<tr> <th> C2 </th> <th> L2(Support > 2) </th> </tr> 
<tr><td> 

|Items | Support|
|:--:|:--:|
{I1, I2} | 4
{I1, I3} | 4
{I1, I4} | 1
{I1, I5} | 2
{I2, I3} | 4
{I2, I4} | 2
{I2, I5} | 2
{I3, I4} | 0
{I3, I5} | 1
{I4, I5} | 0

</td><td> 

|Items | Support|
|:--:|:--:|
{I1, I2} | 4
{I1, I3} | 4
{I1, I5} | 2
{I2, I3} | 4
{I2, I4} | 2
{I2, I5} | 2

</td></tr> </table> 

L2至C3的过程：

首先生成 `{I1，I2，I3}、{I1，I2，I4}、 {I1，I2，I5} ...{I3, I4, I5}`，但并不是所有的组合都需要，因为 `{I1，I2，I4}` 拆分为 `{I1, I2}` 和`{I1, I4}` 和 `{I2，I4}`，然而 `{I1, I4}` 在`L2`中不存在，即非频繁项，所有剪枝删除。然后对`C3`中剩下的组合进行计数。发现 `{1，2，3}`和 `{1，2，5}` 的支持度2。

<table> 
<tr> <th> L2 </th> <th> C3 </th> </tr> 
<tr><td> 

|Items | Support|
|:--:|:--:|
{I1, I2} | 4
{I1, I3} | 4
{I1, I5} | 2
{I2, I3} | 4
{I2, I4} | 2
{I2, I5} | 2

</td><td> 

|Items | Support|
|:--:|:--:|
{I1, I2, I3} | 2
{I1, I2, I5} | 2

</td></tr> </table> 

<table> 
<tr> <th> C2 </th> <th> L3(Support>2) </th> </tr> 
<tr><td> 

|Items | Support|
|:--:|:--:|
{I1, I2, I3} | 2
{I1, I2, I5} | 2

</td><td> 

|Items | Support|
|:--:|:--:|
{I1, I2, I3} | 2
{I1, I2, I5} | 2

</td></tr> </table> 

算法流程

输入：数据集合 $D$，支持度阈值 $\alpha$

输出：最大的频繁 $k-$项集

1. 扫描整个数据集，得到所有出现过的数据，作为候选频繁1-项集。$k=1$，频繁0项集为空集。

2. 挖掘频繁 $k-$项集

     a. 扫描数据计算候选频繁 $k-$项集的支持度

     b. 去除候选频繁 $k-$项集中支持度低于阈值$\alpha$的数据集,得到频繁 $k-$项集。如果得到的频繁 $k-$项集为空，则直接返回频繁 $(k-1)-$项集的集合作为算法结果，算法结束。如果得到的频繁 $k-$项集只有一项，则直接返回频繁 $k-$项集的集合作为算法结果，算法结束。

     c. 基于频繁 $k-$项集，连接生成候选频繁 $(k+1)-$项集。

3. 令$k=k+1$，转入步骤2。


In [113]:
import numpy as np
import pandas as pd


In [127]:
items = [['I1', 'I2', 'I5'], ['I2', 'I4'], ['I2', 'I3'], ['I1', 'I2', 'I4'], ['I1', 'I3'], ['I2', 'I3'], ['I1', 'I3'], ['I1', 'I2', 'I3', 'I5'], ['I1', 'I2', 'I3']]
print(items)


[['I1', 'I2', 'I5'], ['I2', 'I4'], ['I2', 'I3'], ['I1', 'I2', 'I4'], ['I1', 'I3'], ['I2', 'I3'], ['I1', 'I3'], ['I1', 'I2', 'I3', 'I5'], ['I1', 'I2', 'I3']]


In [115]:
def flatten(nest_list):
    flat_list = []
    for lst in nest_list:
        flat_list.extend(lst)
    return flat_list

def encoder(X):
    columns = sorted(set(flatten(X)))
    columns_mapping = {item: col_idx for col_idx, item in enumerate(columns)}
    
    array = np.zeros((len(X), len(columns)), dtype=bool)
    
    for row_idx, transaction in enumerate(X):
        for item in transaction:
            col_idx = columns_mapping[item]
            array[row_idx, col_idx] = True
            
    return pd.DataFrame(array, columns=columns)
    

In [116]:
items_code = encoder(items)
items_code

Unnamed: 0,I1,I2,I3,I4,I5
0,True,True,False,False,True
1,False,True,False,True,False
2,False,True,True,False,False
3,True,True,False,True,False
4,True,False,True,False,False
5,False,True,True,False,False
6,True,False,True,False,False
7,True,True,True,False,True
8,True,True,True,False,False


In [125]:
items_code.sum()

I1    6
I2    7
I3    6
I4    2
I5    2
dtype: int64

In [132]:
items_code[['I1', 'I3']].all(axis=1).sum()

4

In [103]:
from itertools import combinations

def get_support(items_code):
    freques_pattern = []
    K = len(items_code.columns) + 1
    # k-items
    for k in range(1, K):
        for pattern in combinations(items_code.columns, k):
            support = items_code[list(pattern)].all(axis=1).sum()
            freques_pattern.append([", ".join(pattern), support])

    return pd.DataFrame(freques_pattern, columns=["ItermSets", "Support"])


In [105]:
freques_pattern = get_support(items_code)
freques_pattern

Unnamed: 0,ItermSets,Support
0,I1,6
1,I2,7
2,I3,6
3,I4,2
4,I5,2
5,"I1, I2",4
6,"I1, I3",4
7,"I1, I4",1
8,"I1, I5",2
9,"I2, I3",4


In [112]:
freques_pattern[freques_pattern['Support'] >= 2]

Unnamed: 0,ItermSets,Support
0,I1,6
1,I2,7
2,I3,6
3,I4,2
4,I5,2
5,"I1, I2",4
6,"I1, I3",4
8,"I1, I5",2
9,"I2, I3",4
10,"I2, I4",2


In [131]:
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import  association_rules

TE = TransactionEncoder()
datas = TE.fit_transform(items)

df = pd.DataFrame(datas, columns=TE.columns_)

print(df)

item = apriori(df, min_support=0.1, use_colnames=True)
item[item['itemsets'].apply(lambda x: len(x))>=2]
print(item)


rules = association_rules(item, min_threshold=0.1)
print(rules)

for i, j in rules.iterrows():
    X = j['antecedents']
    Y = j['consequents']
    x = ','.join(X)
    y = ','.join(Y)
    print(f'{x}->{y}')


      I1     I2     I3     I4     I5
0   True   True  False  False   True
1  False   True  False   True  False
2  False   True   True  False  False
3   True   True  False   True  False
4   True  False   True  False  False
5  False   True   True  False  False
6   True  False   True  False  False
7   True   True   True  False   True
8   True   True   True  False  False
     support          itemsets
0   0.666667              (I1)
1   0.777778              (I2)
2   0.666667              (I3)
3   0.222222              (I4)
4   0.222222              (I5)
5   0.444444          (I2, I1)
6   0.444444          (I1, I3)
7   0.111111          (I1, I4)
8   0.222222          (I1, I5)
9   0.444444          (I2, I3)
10  0.222222          (I2, I4)
11  0.222222          (I2, I5)
12  0.111111          (I3, I5)
13  0.222222      (I2, I1, I3)
14  0.111111      (I2, I1, I4)
15  0.222222      (I2, I1, I5)
16  0.111111      (I5, I1, I3)
17  0.111111      (I2, I3, I5)
18  0.111111  (I5, I2, I1, I3)
     antec