## Apriori 关联分析

关联分析（Association Rule Learning）分为两个部分：

- 发现频繁项集(frequent item sets)
- 发现关联规则(Associtation rules)。

频繁项集的两个衡量标准：

- 支持度(support) ：定义为数据集中包含该项集的记录所点的比例。
- 可信度(confidence)：两个项集的支持度之比。

### Apriori 原理

包含 N 种物品的数据集共有 $2^N - 1$ 种项集组合。生成这些项集是一种非常耗时的工作。使用 Apriori 原理可以降低计算时间。

Apriori 原理，先验原理：如果某个项集是频繁的，那么它的所有子集也是频繁的。该原理的**逆反原理**是：如果一个项集是非频繁集，那么它的所有超集也是非频繁的。该原理可以避免项集数目的指数增长，从而在合理的时间内计算出频繁项集。


### 使用 Apriori 算法发现频繁集

In [79]:
def loadData():
    return [[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 5]]

def createC1(dataset):
    '''
        生成基本项集
    '''
    C1 = []
    for tran in dataset:
        for item in tran:
            if not [item] in C1:
                C1.append([item])
    C1.sort()
    return list(map(frozenset, C1))

def scanDataset(dataset, Ck, minSupport):
    '''
        找出在数据集中超过最小支持度 minSupport 的 k 阶项集。
        dataset: 交易记录数据集。
        Ck: k 阶项集。
        minSupport: 最小支持度
    '''
    ssCnt = {}
    for tran in dataset:
        for candidate in Ck:
            if candidate.issubset(tran):
                ssCnt[candidate] = ssCnt.get(candidate, 0) + 1
                
    numItems = float(len(dataset))
    retList = []
    supportData = {}
    for key in ssCnt:
        support = ssCnt[key] / numItems
        if support >= minSupport:
            retList.insert(0, key)
        supportData[key] = support
    return retList, supportData

In [85]:
data = loadData()
# print(data)
C1 = createC1(data)
# print(list(C1))

dataset = list(map(set, data))
L0, supportData = scanDataset(dataset, C1, 0.5)
print(L0)
print(list(L0[0])[:2-2], list(L0[1])[:2-2], list(L0[0])[:2-2] == list(L0[1])[:2-2])
print(L0[0] | L0[1])



[frozenset({5}), frozenset({2}), frozenset({3}), frozenset({1})]
[] [] True
frozenset({2, 5})
