## Apriori 算法原理

关联规则的挖掘是一个两步的过程：

1. 找出所有的频繁项集：根据相对支持度，置信度的定义可知，任意两个实体之间如果存在强关联规则，那么一定存在于频繁项集之中，反之，如果这两个实体不存在于频繁项集，则一定不会产生强关联规则

2. 由频繁项集产生强关联规则：计算支持度和置信度，找到实体间的强规则

**定理1**：先验性质：频繁项集的所有非空子集也一定是频繁的。

**定理2**：反单调性：一个项集，如果有至少一个非空子集是非频繁的，那么这个项集一定是非频繁的。

**定理3**：任何频繁k项集都是由频繁k−1项集组合生成的

**定理4**：频繁k项集的所有k−1项子集一定全部都是频繁k−1项集



### Reference: 

机器学习：Apriori算法（实践篇），https://blog.csdn.net/qq_43634001/article/details/93367907

Apriori算法解析， https://blog.csdn.net/guoziqing506/article/details/60882713



### 算法的实现步骤
（1）算法（大方面）的实现步骤：

- 找出所有频繁项集
- 由频繁项集产生强关联规则

（2）挖掘频繁项集的步骤：

- 先搜索出候选 1 项集及对应的支持度，剪枝去掉低于最小支持度的项集，得到频繁 1 项集。
- 搜索出候选 2 项集及对应的支持度，再剪枝去掉低于最小支持度的项集，得到频繁 2 项集。
- 以此类推，一直迭代下取，直到频繁 k+1 项集位置。对应的 k 项集即为算法的输出结果。


（3）由频繁项集产生关联规则的步骤：

- 对于每个频繁项集，产生该项集的所有非空子集（这些非空子集一定是频繁项集）
- 对于每一个非空子集，如果 confidence(A=>B)>=confmin（最小置信度）则输出 A=>B。称为强关联规则。


### 函数的功能说明

1. `loadDataSet()`：读入数据，并将数据转换成数字
2. `createC1()`: 构建初始候选项集的列表，即所有候选集只包含一个元素
3. `scanD()`:计算 Ck 中项集在数据集的支持度，返回满足最小支持度的集合和所有支持度信息的字典
4. `aprioriGen()`:由初始候选集的集合生成新的候选集，k参数表示生成新项集中所含有的元素的个数
5. `apriori()`: Apriori 算法重要函数，重要目的是返回所有满足条件的频繁项集的列表和所有选项集的支持度信息。
6. `generateRules()`:根据频繁项集和最小可信度生成规则
7. `calcConf()`:计算规则的可信度，返回满足最小可信度的规则

### 所用数据集：

1. 网址：http://archive.ics.uci.edu/ml/index.php
2. 内容：mushroom 数据集, http://archive.ics.uci.edu/ml/datasets/Mushroom

### 数据集说明：

该数据集包括与23种菌类（the Agaricus and Lepiota Family (pp. 500-525)）相对应的假设样本的描述。每种被鉴定为绝对可食用、绝对有毒、或未知食用性、不推荐。后一类与有毒的结合在一起。指南明确指出，确定蘑菇的食用性没有简单的规则；对于有毒的橡树(Oak)和常春藤(Ivy)，没有类似“leaflets three, let it be”的规则。

In [6]:
# -*- coding:utf-8 -*-
import warnings
import numpy as np
import pandas as pd
from time import time
import matplotlib.pyplot as plt

warnings.filterwarnings('ignore')   #忽略警告
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号

In [7]:
def loadDataSet():
    #读入文件
    dataSet = pd.read_csv('./datasets/apriori/agaricus-lepiota.data', ',', header=None)
    #加上列名，便于操作
    dataSet = pd.DataFrame(data=np.array(dataSet),columns=['classes', 'cap-shape', 'cap-surface', 'cap-color', 'bruises', 'odor', 'gill-attachment', 'gill-spacing', 'gill-size', 'gill-color', 'stalk-shape','stalk-root', 'stalk-surface-above-ring', 'stalk-surface-below-ring', 'stalk-color-above-ring', 'stalk-color-below-ring', 'veil-type', 'veil-color', 'ring-number', 'ring-type', 'spore-print-color', 'population', 'habitat'], index=range(8124))

    model_label01 = dataSet["classes"].replace({"e": '1', "p":'2' })
    model_label02 = dataSet["cap-shape"].replace({"b":'3', "c":'4', "x":'5', "f":'6', "k":'7', "s":'8'})
    model_label03 = dataSet["cap-surface"].replace({"f":'9', "g":'10', "y":'11', "s":'12'})
    model_label04 =  dataSet["cap-color"].replace({"n":'13', "b":'14', "c":'15', "g":'16', "r":'17', "p":'18', "u":'19', "e":'20', "w":'21', "y":'22'})
    model_label05 =  dataSet["bruises"].replace({"t":'23', "f":'24'})
    model_label06 =  dataSet["odor"].replace({"a":'25', "l":'26', "c":'27', "y":'28', "f":'29', "m":'30', "n":'31', "p":'32', "s":'33'})
    model_label07 =  dataSet['gill-attachment'].replace({"a":'34', "d":'35', "f":'36', "n":'37'})
    model_label08 =  dataSet["gill-spacing"].replace({"c":'38', "w":'39', "d":'40'})
    model_label09 =  dataSet["gill-size"].replace({"b":'41', "n":'42'})
    model_label10 =  dataSet["gill-color"].replace({"k":'43', "n":'44', "b":'45', "h":'46', "g":'47', "r":'48', "o":'49', "p":'50', "u":'51', "e":'52', "w":'53', "y":'54'})
    model_label11 =  dataSet['stalk-shape'].replace({"e":'55', "t":'56'})
    model_label12 =  dataSet["stalk-root"].replace({"b":'57', "c":'58', "u":'59', "e":'60', "z":'61', "r":'62', "?":'63'})
    model_label13 =  dataSet["stalk-surface-above-ring"].replace({"f":'64', "y":'65', "k":'66', "s":'67'})
    model_label14 =  dataSet["stalk-surface-below-ring"].replace({"f": '68', "y": '69', "k": '70', "s": '71'})
    model_label15 =  dataSet["stalk-color-above-ring"].replace({"n":'72', "b":'73', "c":'74', "g":'75', "o":'76', "p":'77', "e":'78', "w":'79', "y":'80'})
    model_label16 =  dataSet["stalk-color-above-ring"].replace({"n": '81', "b": '82', "c": '83', "g": '84', "o": '85', "p": '86', "e": '87', "w": '88', "y": '89'})
    model_label17 =  dataSet["veil-type"].replace({"p":'90', "u":'91'})
    model_label18 =  dataSet["veil-color"].replace({"n":'92', "o":'93', "w":'94', "y":'95'})
    model_label19 =  dataSet["ring-number"].replace({"n":'96', "o":'97', "t":'98'})
    model_label20 =  dataSet["ring-type"].replace({"c":'99', "e":'100', "f":'101', "l":'102', "n":'103', "p":'104', "s":'105', "z":'106'})
    model_label21 =  dataSet["spore-print-color"].replace({"k":'107', "n":'108', "b":'109', "h":'110', "r":'101', "o":'102', "u":'103', "w":'104', "y":'105'})
    model_label22 =  dataSet["population"].replace({"a":'106', "c":'107', "n":'108', "s":'109', "v":'110', "y":'111'})
    model_label23 =  dataSet["habitat"].replace({"g":'112', "l":'113', "m":'114', "p":'115', "u":'116', "w":'117', "d":'118'})
    model_label = pd.concat([model_label01, model_label02, model_label03, model_label04, model_label05, model_label06, model_label07, model_label08, model_label09, model_label10, model_label11, model_label12, model_label13, model_label14, model_label15, model_label16, model_label17, model_label18, model_label19, model_label20, model_label21, model_label22, model_label23],axis = 1,  ignore_index=False)
    return model_label

In [8]:
def createC1(dataSet):
    """
    构建初始候选项集的列表，即所有候选项集只包含一个元素，
    C1是大小为1的所有候选项集的集合
    :param dataSet:数据集
    :return:
    """
    #定义候选集列表C1
    C1 = []
    #遍历数据集合，并且遍历每一个集合中的每一项，创建只包含一个元素的候选项集集合
    for transaction in dataSet:
        for item in transaction:
            # 如果没有在C1列表中，则将该项的列表形式添加进去
            if not [item] in C1:
                C1.append([item])
    # 对列表进行排序
    C1.sort()
    # 固定列表C1，使其不可变
    return list(map(frozenset, C1))

def scanD(D,Ck,minSupport):
    """
    函数说明:创建满足支持度要求的候选键集合
    """
    # 定义存储每个项集在消费记录中出现的次数的字典
    ssCnt={}
    # 遍历这个数据集，并且遍历候选项集集合，判断候选项是否是一条记录的子集
    for tid in D:
        for can in Ck:
            if can.issubset(tid):
                # 如果是则累加其出现的次数
                if not can in ssCnt:
                    ssCnt[can]=1
                else: ssCnt[can]+=1
    # 计算数据集总及记录数
    numItems=float(len(D))
    # 定义满足最小支持度的候选项集列表
    retList = []
    # 用于所有项集的支持度
    supportData = {}
    # 遍历整个字典
    for key in ssCnt:
        # 计算当前项集的支持度
        support = ssCnt[key]/numItems
        # 如果该项集支持度大于最小要求，则将其头插至L1列表中
        if support >= minSupport:
            retList.insert(0,key)
        # 记录每个项集的支持度
        supportData[key] = support
    return retList, supportData

def aprioriGen(Lk, k):
    """
    函数说明：#上述函数创建了L1，则现在需要创建由L1->C2的函数，也就是说需要将每个项集集合元素加1
    :param Lk: 频繁项集列表
    :param k: 项集元素个数
    """
    # 存储Ck的列表
    retList = []
    # 获取lkPri长度，便于在其中遍历
    lenLk = len(Lk)
    # 两两遍历候选项集中的集合
    for i in range(lenLk):
        for j in range(i+1, lenLk):
            # 因为列表元素为集合，所以在比较前需要先将其转换为list,选择集合中前k-2个元素进行比较，如果相等，则对两个集合进行并操作
            # 这里可以保证减少遍历次数，并且可保证集合元素比合并前增加一个
            L1 = list(Lk[i])[:k-2]; L2 = list(Lk[j])[:k-2]
            # 对转化后的列表进行排序，便于比较
            L1.sort(); L2.sort()
            if L1==L2: #若两个集合的前k-2个项相同时,则将两个集合合并
                retList.append(Lk[i] | Lk[j]) #set union
    return retList


def apriori(dataSet, minSupport = 0.5):
    """
    函数说明：生成所有频繁项集函数
    """
    # 创建C1
    C1 = createC1(dataSet)
    # 对数据集进行转换，并调用函数筛选出满足条件的项集
    D = list(map(set, dataSet))
    L1, supportData = scanD(D, C1, minSupport)#单项最小支持度判断 0.5，生成L1
    # 定义存储所有频繁项集的列表
    L = [L1]
    k = 2
    # 迭代开始，生成所有满足条件的频繁项集（每次迭代项集元素个数加1）
    # 迭代停止条件为，当频繁项集中包含了所有单个项集元素后停止
    while (len(L[k-2]) > 0):#创建包含更大项集的更大列表,直到下一个大的项集为空
        Ck = aprioriGen(L[k-2], k)#Ck
        Lk, supK = scanD(D, Ck, minSupport)
        supportData.update(supK)
        # 更新supportData
        # 不断的添加以项集为key，以项集的支持度为value的元素
        # 将此次迭代产生的频繁集集合加入L中
        L.append(Lk)
        k += 1
    return L, supportData

#生成关联规则
def generateRules(L, supportData, minConf=0.7):
    #频繁项集列表、包含那些频繁项集支持数据的字典、最小可信度阈值
    bigRuleList = [] #存储所有的关联规则
    for i in range(1, len(L)):  #只获取有两个或者更多集合的项目，从1,即第二个元素开始，L[0]是单个元素的
        # 两个及以上的才可能有关联一说，单个元素的项集不存在关联问题
        for freqSet in L[i]:
            H1 = [frozenset([item]) for item in freqSet]
            #该函数遍历L中的每一个频繁项集并对每个频繁项集创建只包含单个元素集合的列表H1
            if (i > 1):
            #如果频繁项集元素数目超过2,那么会考虑对它做进一步的合并
                rulesFromConseq(freqSet, H1, supportData, bigRuleList, minConf)
            else:#第一层时，后件数为1
                calcConf(freqSet, H1, supportData, bigRuleList, minConf)# 调用函数2
    return bigRuleList

#生成候选规则集合：计算规则的可信度以及找到满足最小可信度要求的规则
def calcConf(freqSet, H, supportData, brl, minConf=0.7):
    #针对项集中只有两个元素时，计算可信度
    prunedH = []#返回一个满足最小可信度要求的规则列表
    for conseq in H:#后件，遍历 H中的所有项集并计算它们的可信度值
        conf = supportData[freqSet]/supportData[freqSet-conseq] #可信度计算，结合支持度数据
        if conf >= minConf:
            print (freqSet-conseq,'-->',conseq,'conf:',conf)
            #如果某条规则满足最小可信度值,那么将这些规则输出到屏幕显示
            brl.append((freqSet-conseq, conseq, conf))#添加到规则里，brl 是前面通过检查的 bigRuleList
            prunedH.append(conseq)#同样需要放入列表到后面检查
    return prunedH

#合并
def rulesFromConseq(freqSet, H, supportData, brl, minConf=0.7):
    #参数:一个是频繁项集,另一个是可以出现在规则右部的元素列表 H
    m = len(H[0])
    if (len(freqSet) > (m + 1)): #频繁项集元素数目大于单个集合的元素数
        Hmp1 = aprioriGen(H, m+1)#存在不同顺序、元素相同的集合，合并具有相同部分的集合
        Hmp1 = calcConf(freqSet, Hmp1, supportData, brl, minConf)#计算可信度
        if (len(Hmp1) > 1):
        #满足最小可信度要求的规则列表多于1,则递归来判断是否可以进一步组合这些规则
            rulesFromConseq(freqSet, Hmp1, supportData, brl, minConf)

In [9]:
if __name__ == '__main__':
    dataSet = loadDataSet()
    dataSet = dataSet.values
    dataSet = dataSet.tolist()
    t1 = time()
    L, suppData = apriori(dataSet, minSupport=0.7)
    rules = generateRules(L, suppData, minConf=0.7)
    t2 = time()
    time = t2 - t1
    print(f"耗时：{time}秒")

frozenset({'104'}) --> frozenset({'36'}) conf: 0.9650698602794411
frozenset({'36'}) --> frozenset({'104'}) conf: 0.733131159969674
frozenset({'38'}) --> frozenset({'36'}) conf: 0.9691720493247211
frozenset({'36'}) --> frozenset({'38'}) conf: 0.834217841799343
frozenset({'90'}) --> frozenset({'104'}) conf: 0.740029542097489
frozenset({'104'}) --> frozenset({'90'}) conf: 1.0
frozenset({'90'}) --> frozenset({'36'}) conf: 0.9741506646971935
frozenset({'36'}) --> frozenset({'90'}) conf: 1.0
frozenset({'90'}) --> frozenset({'38'}) conf: 0.8385032003938946
frozenset({'38'}) --> frozenset({'90'}) conf: 1.0
frozenset({'94'}) --> frozenset({'104'}) conf: 0.7334679454820798
frozenset({'104'}) --> frozenset({'94'}) conf: 0.9667332002661344
frozenset({'94'}) --> frozenset({'36'}) conf: 0.997728419989904
frozenset({'36'}) --> frozenset({'94'}) conf: 0.9989891331817033
frozenset({'94'}) --> frozenset({'38'}) conf: 0.8354366481574962
frozenset({'38'}) --> frozenset({'94'}) conf: 0.9718144450968879
fro

### Apriori algorithm

https://github.com/guoziqingbupt/Apriori

**算法流程:**

第1步： 生成1项集的集合C1。

第2步： 寻找频繁1项集。

第3步： 连接，作用就是用两个频繁k−1项集，组成一个k项集。

第4步： 剪枝。剪枝的原理就是定理4，经过剪枝，现在Ck进一步缩减，这个过程也叫**子集测试**。

第5步： 扫描事务数据库。做进一步筛选。扫描事务数据库D，找到所有事务中的项集的所有子集，找出在现在的Ck里面的子集，计数，这样能统计出来目前Ck当中的所有项集的频数，删去小于min_sup的，得到频繁k项集组成的集合Lk。

第6步： 重复进行3，4，5步，直到找出的k项集Ck=∅.

**函数的功能说明:**

- `find_frequent_1_itemsets(D, min_sup)`:
遍历D，根据min_sup找出所有的频繁1项集，结果记为L1，L1是列表型，且其每个元素都是一个长度为1的列表。用于上面第1，2步，找出频繁1项集。

- `isLinkable(l1, l2)`:
l1, l2为列表型，这个函数的作用是判断两个排好序的项集l1, l2是否是可连接的，用于上面第3步，连接的前提判断。

- `gen_ksub1_subsets(s)`:
生成集合s的所有长度为k - 1的子集，s为列表型，生成的结果为列表型，且结果的每个元素为列表型。这个函数用于上面第4步——剪枝，判断是否一个k项集的所有k - 1项子集都是频繁的

- `subsets(S)`:
求出集合S的所有子集，S为列表型，求出的结果result是一个列表，result的每个元素也是列表型，代表S的一个子集。这个函数用于上面第5步的筛选，求出每个事务的子集时用。

- `apriori_gen(L_k_subtract_1)`:
实现连接和剪枝两步，参数 `L_k_subtract_1`表示频繁k−1项集的集合

- `subSetTest`:
做子集测试，也就是剪枝的过程，调用了函数`has_infrequent_subset`检查每个子集的频繁与否

- `subsets()`:
求子集的函数

In [16]:
## aprioriGen.py

import copy

def apriori_gen(L_k_subtract_1):
    """
    There are 2 steps in apriori_gen:
    1. link: execute l1 x l2, generate original Ck;
    2. prune: delete the candidate in Ck who has infrequent subset
    :param L_k_subtract_1: a list, each element is k-1 frequent itemset
    :return: a semi-finished k itemset candidates Lk
    """

    index1 = 0
    k = len(L_k_subtract_1[0]) + 1
    Ck = []

    # while: link process
    while index1 < len(L_k_subtract_1):

        # the itemset l1 that to be linked: l1 x l2
        l1 = L_k_subtract_1[index1]

        # traverse L(k - 1), find the other itemset l2
        for l2 in L_k_subtract_1[index1 + 1:]:

            if isLinkable(l1, l2):

                newItemSet = [item for item in l1[:k - 2]]

                # add tail element with order
                if l1[k - 2] < l2[k - 2]:
                    newItemSet.append(l1[k - 2])
                    newItemSet.append(l2[k - 2])
                else:
                    newItemSet.append(l2[k - 2])
                    newItemSet.append(l1[k - 2])

                Ck.append(newItemSet)

        index1 += 1

    # subSetTest: prune process
    return subSetTest(Ck, L_k_subtract_1)


def isLinkable(l1, l2):
    """
    :param l1: a list
    :param l2: a list
    :return: if l1 and l2 is linkable
    """

    n = len(l1)

    for index in range(n - 1):
        if l1[index] != l2[index]:
            return False
    return True


def subSetTest(Ck, L_k_subtract_1):
    """
    prune process: according to apriori, test if every itemset in Ck is possible frequent
    :param Ck: a list, and each element is also a list
    :param L_k_subtract_1: a list, and each element is also a list
    :return: a semi-finished Lk
    """

    # the cur itemset that to be tested.
    cur = 0
    n = len(Ck)

    semi_finished_Lk = []
    while cur < n:

        # testItemSet: a list
        testItemSet = Ck[cur]

        if not has_infrequent_subset(testItemSet, L_k_subtract_1):
            semi_finished_Lk.append(testItemSet)

        cur += 1

    return semi_finished_Lk


def has_infrequent_subset(testItemSet, L_k_subtract_1):
    """
    :param testItemSet: the candidate k itemset, is a list
    :param L_k_subtract_1: a list
    :return: testItemSet has a infrequent subset or not
    """

    for testSubSet in gen_ksub1_subsets(testItemSet):
        if testSubSet not in L_k_subtract_1:
            return True
    return False


def gen_ksub1_subsets(s):
    """
    get all k - 1 subsets of s
    :param s: a list, represents a itemset
    :return: a list, represents k - 1 subsets
    """

    index = 0
    k = len(s)

    result = []
    while index < k:

        exceptEle = s[index]
        temp = copy.deepcopy(s)
        temp.remove(exceptEle)

        result.append(temp)

        index += 1

    return result

In [12]:
## frequentCount.py

##import copy

def find_frequent_1_itemsets(D, min_sup):
    """
    :param D: a dictionary, represents the whole transaction database
    :param min_sup: the minimum support count
    :return: a list L1, the collection of frequent 1 sets, and each element is a list
    """

    L1 = []
    C1 = {}

    for TID in D:

        for item in D[TID]:
            if item not in C1:
                C1[item] = 1
            else:
                C1[item] += 1

    for itemset in C1:
        if C1[itemset] >= min_sup:
            L1.append([itemset])

    return L1


def subsets(S):
    """
    find all subsets of set S, each subset is ordered
    :param S: a list
    :return: a list, and each element is a list
    """
    S.sort()

    path = []
    step = 0
    result = []

    dfs(S, path, step, result)
    return result


def dfs(S, path, step, result):
    n = len(S)
    if step == n:
        temp = copy.deepcopy(path)
        result.append(temp)
        return

    dfs(S, path, step + 1, result)
    path.append(S[step])
    dfs(S, path, step + 1, result)
    path.pop()


def scanDataBase(D, min_sup, semi_finished_Lk):
    """
    scan the transaction database, filter the infrequent itemset
    :param D: a dictionary, represents the whole transaction database
    :param min_sup:
    :param semi_finished_Lk: a list, represents semi_finished itemset Lk
    :return: the final frequent itemset Lk
    """

    Lk = []
    k = len(semi_finished_Lk)
    counts = [0 for i in range(len(semi_finished_Lk))]

    for TID in D:

        subSets = subsets(D[TID])

        for subSet in subSets:

            if subSet in semi_finished_Lk:
                counts[semi_finished_Lk.index(subSet)] += 1

    index = 0
    while index < k:
        if counts[index] >= min_sup:
            Lk.append(semi_finished_Lk[index])
        index += 1
    return Lk

In [13]:
## readData.py

import csv


def readData(fileName):
    """
    read the csv data into a dictionary
    :param fileName:
    :return: a dictionary, as form as {TID: [items list]}
    """

    with open(fileName) as csvFile:

        reader = csv.reader(csvFile)

        transactions = {}

        for line in reader:

            ID = line[0]
            itemList = []

            for item in line[1:]:
                itemList.append(item)

            transactions[ID] = itemList

    return transactions

D:事务数据库，用字典的形式表示。键为TID，值为事务中出现的项的集合，这个集合以列表的形式存储。形式如`{TID: [I1, I2]}`

`min_sup`:最小支持度计数阈值，int型，代码中，设定为2

In [17]:
## main.py

#import readData
#from frequentCount import *
#from aprioriGen import *

min_sup = 2
D = readData("./datasets/apriori/shoppingList.csv")


def miningFrequentItemSet(D, min_sup):

    # initialized
    frequentItemSets = []
    L1 = find_frequent_1_itemsets(D, min_sup)
    frequentItemSets.extend(L1)

    # find frequent itemset Lk, until it is empty
    Lk = L1
    while len(Lk) != 0:

        # here, Ck is also a semi-finished Lk which processed by link and prune
        Ck = apriori_gen(Lk)

        # obtain final frequent itemset Lk
        Lk = scanDataBase(D, min_sup, Ck)

        frequentItemSets.extend(Lk)

    return frequentItemSets

if __name__ == "__main__":
    print(miningFrequentItemSet(D, min_sup))

[['I1'], ['I2'], ['I5'], ['I4'], ['I3'], ['I1', 'I2'], ['I1', 'I5'], ['I1', 'I3'], ['I2', 'I5'], ['I2', 'I4'], ['I2', 'I3'], ['I1', 'I2', 'I5'], ['I1', 'I2', 'I3']]
