In [1]:
# default_exp rs.associated_rules

%reload_ext autoreload
%autoreload 2

# 关联分析
关联分析，主要是通过算法在大规模数据集中寻找频繁项集和关联规则。

    频繁项集：经常出现在一起的物品或者属性的集合
    关联规则：物品或者属性之间存在的内在关系（统计学上的关系）

# Apriori算法
Apriori算法中的主要包含两大模块内容，一块是寻找频繁项集的函数模块，一块是探索关联规则的函数模块。


## Apriori算法基本概念
https://blog.csdn.net/qq_38375282/article/details/81093934


    项与项集：设itemset={item1, item_2, …, item_m}是所有项的集合，其中，item_k(k=1,2,…,m)成为项。项的集合称为项集（itemset），包含k个项的项集称为k项集(k-itemset)。
    事务与事务集：一个事务T是一个项集，它是itemset的一个子集，每个事务均与一个唯一标识符Tid相联系。不同的事务一起组成了事务集D，它构成了关联规则发现的事务数据库。
    支持度：一个项集或者规则在所有事物中出现的频率。如果一个项目的频繁度大于最小支持度sup_min则将其称之为频繁项，所有频繁项的集合称之为频繁项集。
    置信度：确定T2在包含T1的事务中出现的频繁程度，也就是由T1推出T2的可信度 conf(T1\rightarrow T2)=sup(T1\cup T2)/\left ( T1 \right )。如果计算得出的conf（T1-->T2）大于最小信任度conf_min则说明T1-->T2规则是可靠的。

## Apriori算法效率
Apriori算法的运行时间取决于很多因素，比如数据量、最小支持度（但是跟最小置信度没什么关系）、候选项个数等，以购物篮分析为例，
* 首先，运行的时间当然直接取决于购物记录的条数N，但是跟N的关系仅仅是线性的。
* 其次，最小支持度是几乎具有决定性的，它对运行时间很有影响，但是其影响又得具体问题具体分析，此外它很大程度上也决定了最终产生的规则数目。
* 最后是候选项的数目k，也就是所有购物车记录中，总共出现了多少种商品，这个也是决定性的，如果k本身比较大，后面依次连接，那么项数将是k2、k3...（近似），对速度的的影响是致命的。

因此，Apriori算法思路是简单了，但是效率却不高。

# 用Pandas实现高效的Apriori算法
https://kexue.fm/archives/3380

In [6]:
import pandas as pd
import time
import os

In [30]:
BASE_DIR = '../data'
fp = os.path.join(BASE_DIR, 'apriori.txt')

In [18]:
d = pd.read_csv(fp, header=None, dtype = object)
d.head(2)

Unnamed: 0,0,1,2,3,4,5,6
0,A2,B1,C3,D3,E1,F1,H1
1,A2,B1,C3,D3,E1,F1,H1


In [19]:
d.shape

(930, 7)

In [21]:
d.values

array([['A2', 'B1', 'C3', ..., 'E1', 'F1', 'H1'],
       ['A2', 'B1', 'C3', ..., 'E1', 'F1', 'H1'],
       ['A2', 'B1', 'C3', ..., 'E1', 'F1', 'H1'],
       ...,
       ['A4', 'B3', 'C4', ..., 'E1', 'F4', 'H2'],
       ['A4', 'B3', 'C4', ..., 'E1', 'F4', 'H2'],
       ['A4', 'B3', 'C4', ..., 'E1', 'F4', 'H2']], dtype=object)

In [20]:
list( map(ct, d.values))

[A2    1
 B1    1
 C3    1
 D3    1
 E1    1
 F1    1
 H1    1
 dtype: int64, A2    1
 B1    1
 C3    1
 D3    1
 E1    1
 F1    1
 H1    1
 dtype: int64, A2    1
 B1    1
 C3    1
 D3    1
 E1    1
 F1    1
 H1    1
 dtype: int64, A2    1
 B1    1
 C3    1
 D3    1
 E1    1
 F1    1
 H1    1
 dtype: int64, A2    1
 B2    1
 C3    1
 D3    1
 E1    1
 F1    1
 H1    1
 dtype: int64, A1    1
 B2    1
 C1    1
 D1    1
 E1    1
 F1    1
 H1    1
 dtype: int64, A1    1
 B1    1
 C1    1
 D1    1
 E1    1
 F1    1
 H1    1
 dtype: int64, A1    1
 B2    1
 C1    1
 D1    1
 E1    1
 F1    1
 H1    1
 dtype: int64, A1    1
 B2    1
 C1    1
 D1    1
 E1    1
 F1    1
 H1    1
 dtype: int64, A1    1
 B2    1
 C1    1
 D1    1
 E1    1
 F1    1
 H1    1
 dtype: int64, A1    1
 B2    1
 C1    1
 D3    1
 E2    1
 F1    1
 H2    1
 dtype: int64, A3    1
 B2    1
 C1    1
 D2    1
 E3    1
 F1    1
 H2    1
 dtype: int64, A2    1
 B2    1
 C1    1
 D3    1
 E1    1
 F1    1
 H2    1
 dtype: int64

In [23]:
pd.DataFrame(list(map(ct, d.values)))

Unnamed: 0,A2,B1,C3,D3,E1,F1,H1,B2,A1,C1,...,B4,E4,H4,D4,A4,B3,F2,C4,F3,F4
0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,,,,...,,,,,,,,,,
1,1.0,1.0,1.0,1.0,1.0,1.0,1.0,,,,...,,,,,,,,,,
2,1.0,1.0,1.0,1.0,1.0,1.0,1.0,,,,...,,,,,,,,,,
3,1.0,1.0,1.0,1.0,1.0,1.0,1.0,,,,...,,,,,,,,,,
4,1.0,,1.0,1.0,1.0,1.0,1.0,1.0,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
925,,,,,1.0,,,,,,...,,,,1.0,1.0,1.0,,1.0,,1.0
926,,,,,1.0,,,,,,...,,,,1.0,1.0,1.0,,1.0,,1.0
927,,,,,1.0,,,,,,...,,,,1.0,1.0,1.0,,1.0,,1.0
928,,,,,1.0,,,,,,...,,,,1.0,1.0,1.0,,1.0,,1.0


In [24]:
print(u'\n转换原始数据至0-1矩阵...')
start = time.clock()
ct = lambda x : pd.Series(1, index = x)
b = map(ct, d.values)
d = pd.DataFrame(list(b)).fillna(0)

del b
d = (d==1)
end = time.clock()
print(u'\n转换完毕，用时：%0.2f秒' %(end-start))


转换原始数据至0-1矩阵...


  



转换完毕，用时：0.23秒


  import sys


In [14]:
d

Unnamed: 0,A2,B1,C3,D3,E1,F1,H1,B2,A1,C1,...,B4,E4,H4,D4,A4,B3,F2,C4,F3,F4
0,True,True,True,True,True,True,True,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,True,True,True,True,True,True,True,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,True,True,True,True,True,True,True,False,False,False,...,False,False,False,False,False,False,False,False,False,False
3,True,True,True,True,True,True,True,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4,True,False,True,True,True,True,True,True,False,False,...,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
925,False,False,False,False,True,False,False,False,False,False,...,False,False,False,True,True,True,False,True,False,True
926,False,False,False,False,True,False,False,False,False,False,...,False,False,False,True,True,True,False,True,False,True
927,False,False,False,False,True,False,False,False,False,False,...,False,False,False,True,True,True,False,True,False,True
928,False,False,False,False,True,False,False,False,False,False,...,False,False,False,True,True,True,False,True,False,True


In [28]:
print(u'\n开始搜索关联规则...')

support = 0.06 #最小支持度
confidence = 0.75 #最小置信度
ms = '--' #连接符，用来区分不同元素，如A--B。需要保证原始表格中不含有该字符
#自定义连接函数，用于实现L_{k-1}到C_k的连接
def connect_string(x, ms):
    x = list(map(lambda i:sorted(i.split(ms)), x))
    l = len(x[0])
    r = []
    for i in range(len(x)):
        for j in range(i,len(x)):
            if x[i][:l-1] == x[j][:l-1] and x[i][l-1] != x[j][l-1]:
                r.append(x[i][:l-1]+sorted([x[j][l-1],x[i][l-1]]))
    return r

#寻找关联规则的函数
def find_rule(d, support, confidence):
    import time
    start = time.clock()
    result = pd.DataFrame(index=['support', 'confidence']) #定义输出结果

    support_series = 1.0*d.sum()/len(d) #支持度序列
    column = list(support_series[support_series > support].index) #初步根据支持度筛选
    k = 0

    while len(column) > 1:
        k = k+1
        print(u'\n正在进行第%s次搜索...' %k)
        column = connect_string(column, ms)
        print(u'数目：%s...' %len(column))
        sf = lambda i: d[i].prod(axis=1, numeric_only = True) #新一批支持度的计算函数

        #创建连接数据，这一步耗时、耗内存最严重。当数据集较大时，可以考虑并行运算优化。
        d_2 = pd.DataFrame(list(map(sf,column)), index = [ms.join(i) for i in column]).T

        support_series_2 = 1.0*d_2[[ms.join(i) for i in column]].sum()/len(d) #计算连接后的支持度
        column = list(support_series_2[support_series_2 > support].index) #新一轮支持度筛选
        support_series = support_series.append(support_series_2)
        column2 = []
        
        for i in column: #遍历可能的推理，如{A,B,C}究竟是A+B-->C还是B+C-->A还是C+A-->B？
            i = i.split(ms)
            for j in range(len(i)):
                column2.append(i[:j]+i[j+1:]+i[j:j+1])
        
        cofidence_series = pd.Series(index=[ms.join(i) for i in column2]) #定义置信度序列
        
        for i in column2: #计算置信度序列
            cofidence_series[ms.join(i)] = support_series[ms.join(sorted(i))]/support_series[ms.join(i[:len(i)-1])]
        
        for i in cofidence_series[cofidence_series > confidence].index: #置信度筛选
            result[i] = 0.0
            result[i]['confidence'] = cofidence_series[i]
            result[i]['support'] = support_series[ms.join(sorted(i.split(ms)))]

    result = result.T.sort_values(['confidence','support'], ascending = False) #结果整理，输出
    end = time.clock()
    print(u'\n搜索完成，用时：%0.2f秒' %(end-start))
    print(u'\n结果为：')
    print(result)
    
    return result

dfr = find_rule(d, support, confidence)


开始搜索关联规则...

正在进行第1次搜索...
数目：276...





正在进行第2次搜索...
数目：947...

正在进行第3次搜索...
数目：41...

搜索完成，用时：3.55秒

结果为：
                 support  confidence
A3--F4--H4      0.078495    0.879518
C3--F4--H4      0.075269    0.875000
B2--F4--H4      0.062366    0.794521
C2--E3--D2      0.092473    0.754386
D2--F3--H4--A2  0.062366    0.753247




# 用Numpy实现高效的Apriori算法
https://kexue.fm/archives/5525

In [29]:
#export
import numpy as np


class Apriori:

    def __init__(self, min_support, min_confidence):
        self.min_support = min_support # 最小支持度
        self.min_confidence = min_confidence # 最小置信度

    def count(self, filename='apriori.txt'):
        self.total = 0 # 数据总行数
        items = {} # 物品清单

        # 统计得到物品清单
        with open(filename) as f:
            for l in f:
                self.total += 1
                for i in l.strip().split(','): # 以逗号隔开
                    if i in items:
                        items[i] += 1.
                    else:
                        items[i] = 1.

        # 物品清单去重，并映射到ID
        self.items = {i:j/self.total for i,j in items.items() if j/self.total > self.min_support}
        self.item2id = {j:i for i,j in enumerate(self.items)}

        # 物品清单的0-1矩阵
        self.D = np.zeros((self.total, len(items)), dtype=bool)

        # 重新遍历文件，得到物品清单的0-1矩阵
        with open(filename) as f:
            for n,l in enumerate(f):
                for i in l.strip().split(','):
                    if i in self.items:
                        self.D[n, self.item2id[i]] = True

    def find_rules(self, filename='apriori.txt'):
        self.count(filename)
        rules = [{(i,):j for i,j in self.items.items()}] # 记录每一步的频繁项集
        l = 0 # 当前步的频繁项的物品数

        while rules[-1]: # 包含了从k频繁项到k+1频繁项的构建过程
            rules.append({})
            keys = sorted(rules[-2].keys()) # 对每个k频繁项按字典序排序（核心）
            num = len(rules[-2])
            l += 1
            for i in range(num): # 遍历每个k频繁项对
                for j in range(i+1,num):
                    # 如果前面k-1个重叠，那么这两个k频繁项就可以组合成一个k+1频繁项
                    if keys[i][:l-1] == keys[j][:l-1]:
                        _ = keys[i] + (keys[j][l-1],)
                        _id = [self.item2id[k] for k in _]
                        support = 1. * sum(np.prod(self.D[:, _id], 1)) / self.total # 通过连乘获取共现次数，并计算支持度
                        if support > self.min_support: # 确认是否足够频繁
                            rules[-1][_] = support

        # 遍历每一个频繁项，计算置信度
        result = {}
        for n,relu in enumerate(rules[1:]): # 对于所有的k，遍历k频繁项
            for r,v in relu.items(): # 遍历所有的k频繁项
                for i,_ in enumerate(r): # 遍历所有的排列，即(A,B,C)究竟是 A,B -> C 还是 A,B -> C 还是 A,B -> C ？
                    x = r[:i] + r[i+1:]
                    confidence = v / rules[n][x] # 不同排列的置信度
                    if confidence > self.min_confidence: # 如果某种排列的置信度足够大，那么就加入到结果
                        result[x+(r[i],)] = (confidence, v)

        return sorted(result.items(), key=lambda x: -x[1][0]) # 按置信度降序排列

In [32]:
from pprint import pprint
fp = os.path.join(BASE_DIR, 'apriori1.txt')
# 测试文件来自 https://kexue.fm/archives/3380
model = Apriori(0.06, 0.75)
pprint(model.find_rules(fp))

[(('A3', 'F4', 'H4'), (0.8795180722891566, 0.07849462365591398)),
 (('C3', 'F4', 'H4'), (0.875, 0.07526881720430108)),
 (('B2', 'F4', 'H4'), (0.7945205479452054, 0.06236559139784946)),
 (('C2', 'E3', 'D2'), (0.7543859649122807, 0.09247311827956989)),
 (('D2', 'F3', 'H4', 'A2'), (0.7532467532467533, 0.06236559139784946))]


结果的含义是前n-1项推出第n项，也就是A3 + F4 --> H4、 D2 + F3 + H4 --> A2等。

# nb_export

In [4]:
from nbdev.export import *
notebook2script()

Converted 00_core.ipynb.
Converted engineering_nbdev.ipynb.
Converted index.ipynb.


In [7]:
!nbdev_build_docs

No notebooks were modified
converting /Users/luoyonggui/PycharmProjects/nbdevlib/index.ipynb to README.md
