# Association Rule Learning

在数据挖掘与机器学习中，关联规则（Association Rules）是一种较为常用的无监督学习算法，与我们前面所学习的分类、聚类等算法的不同的是，这一类算法的主要目的在于——发掘数据内在结构特征（即变量）之间的关联性。

简单一点来说，就是在大规模的数据集中寻找一些有意义有价值的关系。有了这些关系，一方面，可以帮助我们拓宽对数据及其特征的理解；另一方面，则可以实现推荐系统的构建与应用（例如购物篮分析等）。

在对关联规则有了基本的认识后，我们对其进行进一步的细分，以日常生活中的关联性举例，在逛超市的顾客中，购买面包的人很大程度上会购买牛奶，这一类的关联性被称为<b>简单关联规则</b>；再例如，购买汽车遮阳板的很多顾客会在近期内购买零度玻璃水，这样的事例不仅反映了事物间的关联关系， 而且还具有时间上的先后顺序，因此这一类的关联性则被称为<b>序列关联规则</b>。

广义上的关联规则包含了简单关联和序列关联

## Apriori

实际上，在数据中使用关联分析进行探索时，我们可以找出很多关联规则，但并非所有的关联规则都是有效的，有的可能令人信服的程度并不高，也有的可能适用范围很有限，带有这些特征的所谓的“关联规则”，我们则称之为不具有<b>“有效性”</b>。

判断一条关联规则是否有效，需要用到以下两大测度指标，即<b>规则支持度</b>与<b>规则置信度</b>。

**规则支持度 (Support)**<br>
支持度测量了简单关联规则应用的普适性，定义为项目$A$与项目$B$同时出现的概率，数学表述为：$Support(A \rightarrow B) = P(A ∩ B)$<br>
假设某天共有100个顾客到商场购买物品，其中有10个顾客同时购买了电脑和杀毒软件，那么上述关联规则的支持度就为10％。同样，支持度越高，表明某一关联规则的适用性越大

**规则置信度 (Confidence)**<br>
置信度是对简单关联规则准确度的测量，定义为包含项目$A$的事务中同时也包含项目$B$的概率，数学表述为：$Confidence(A \rightarrow B) = P(B|A) = \frac{P(A ∩ B)}{P(A)}$<br>
置信度的本质就是我们所学过的条件概率，置信度越高，则说明$A$出现则$B$出现的可能性也就越高。假设在电脑$\rightarrow$杀毒软件的关联规则中，置信度$C = 60$%，表示购买电脑的顾客中有$60$%的顾客也购买了杀毒软件。

一个有效的简单关联规则，势必同时具有较高的置信度与支持度。因为，如果支持度较高而置信度较低，则证明规则的可信度差；而相反，如果支持度较低而置信度较高，则说明规则的应用范围较小。

举例来讲，假设在1000个顾客购买行为的事务中，只有1个顾客购买了烧烤炉，同时也只有他购买了碳，虽然规则“烧烤炉$\rightarrow$碳”的置信度很高，为$100$%，但其支持度仅有$0.1$%，说明这条规则缺乏普遍性，应用价值不高。

所以，一个有效的关联规则，必须具有较高的置信度与支持度。那么在实际应用中，我们就需要给定最小的置信度$C_{min}$与支持度$S_{min}$，只有同时大于$C_{min}$和$S_{min}$的规则，我们才可以将其定义为是“**有效**”的。

如何衡量关联规则具有实用性呢？这里我们就需要借助规则的提升度了。

**规则提升度 (Lift)** 定义为：置信度与后项支持度之比，数学表述为：<br>
$Lift(A \rightarrow B) = \frac{Confidence(A \rightarrow B)}{P(B)} = \frac{P(A ∩ B)}{P(A)P(B)}$

提升度反映了项目$A$的出现对项目$B$出现的影响程度。从统计角度来看，如果$A$的出现对项$B$的出现没有影响，即$A$与$B$相互独立的话，$P(A ∩ B) = P(A)P(B)$，此时规则提升度为1。所以，具有实用性的关联规则应该是提升度大于1的规则，即$A$的出现对$B$的出现有促进作用。同样，提升度越大，证明规则实用性越强。


**STEP 1:** Set a minimum support and confidence<br>
**STEP 2:** Take all the subsets in transcations having higher support than minimum support<br>
**STEP 3:** Take all the rules of these subsets having higher confidence than minimum confidence<br>
**STEP 4:** Sort the rules by decreasing lift


## Eclat