# 关联挖掘算法概述

选择物品间的关联规则也就是要寻找物品之间的潜在关系。要寻找这种关系，有两步，以超市为例  
1. 找出频繁一起出现的物品集的集合，我们称之为频繁项集。比如一个超市的频繁项集可能有{{啤酒,尿布},{鸡蛋,牛奶},{香蕉,苹果}}  
2. 在频繁项集的基础上，使用关联规则算法找出其中物品的关联结果。  
简单点说，就是先找频繁项集，再根据关联规则找关联物品。



# Apriori算法基础概念

比如一部分超市购买记录   


交易编号|购买商品       
--|:--   
0 |牛奶，洋葱，肉豆蔻，鸡蛋，酸奶   
1 |萝卜，洋葱，肉豆蔻，鸡蛋，酸奶     
2 |牛奶，苹果，芸豆，鸡蛋  
3 |牛仔，独角兽，玉米，芸豆，酸奶  
4 |玉米，洋葱，芸豆，冰淇淋，鸡蛋  


## 支持度 （Support）

支持度可以理解为物品当前流行程度。计算方式是：  
**支持度 = （包含物品A的记录数量） / （总的记录数量）**
以上边的例子，一共有五个交易，  
牛奶出现在三个交易中，故而{牛奶}的支持度为3/5。  
{鸡蛋}的支持度是4/5。  
牛奶和鸡蛋同时出现的次数是2，故而{牛奶，鸡蛋}的支持度为2/5。

## 置信度 （Confidence）

置信度是指如果购买物品A，有较大可能购买物品B。计算方式是这样：  
**置信度( A -> B) = （包含物品A和B的记录数量） / （包含 A 的记录数量）**  
分子是A和B的并集，分子是A的，也就是说，如果这个数字越大，B就越在这个A和B的并集中。

## 提升度 (Lift)

提升度指当销售一个物品时，另一个物品销售率会增加多少。计算方式是：  
**提升度( A -> B) = 置信度( A -> B) / (支持度 A)**  
举例：上面我们计算了牛奶和鸡蛋的置信度Confidence(牛奶->鸡蛋)=2 / 4。牛奶的支持度Support(牛奶)=3 / 5，那么我们就能计算牛奶和鸡蛋的支持度Lift(牛奶->鸡蛋)=0.83  
**当提升度(A->B)的值大于1的时候，说明物品A卖得越多，B也会卖得越多。**  
**而提升度等于1则意味着产品A和B之间没有关联。**  
**最后，提升度小于1那么意味着购买A反而会减少B的销量。**


# Apriori 算法介绍

Apriori的作用是根据物品间的支持度找出物品中的频繁项集。  
通过上面我们知道，支持度越高，说明物品越受欢迎。那么支持度怎么决定呢？这个是我们主观决定的，我们会给Apriori提供一个最小支持度参数，然后Apriori会返回比这个最小支持度高的那些频繁项集。    
说到这里，有人可能会发现，既然都知道了支持度的计算公式，那直接遍历所有组合计算它们的支持度不就可以了吗？    
是的，没错。确实可以通过遍历所有组合就能找出所有频繁项集。  
但问题是遍历所有组合花的时间太多，效率太低，假设有N个物品，那么一共需要计算2^N-1次。每增加一个物品，数量级是成指数增长。  
而Apriori就是一种找出频繁项集的高效算法。它的核心就是下面这句话：  

**某个项集是频繁的，那么它的所有子集也是频繁的。**  
这句话看起来是没什么用，但是反过来就很有用了。  
**如果一个项集是 非频繁项集，那么它的所有超集也是非频繁项集。**    
![Apriori 算法图示](./Apriori关联规则实战/640.png "算法图示")  
如图所示，我们发现{A,B}这个项集是非频繁的，那么{A,B}这个项集的超集，{A,B,C},{A,B,D}等等也都是非频繁的，这些就都可以忽略不去计算。  
运用Apriori算法的思想，我们就能去掉很多非频繁的项集，大大简化计算量。

# Apriori算法流程

要使用Apriori算法，我们需要提供两个参数，数据集和最小支持度。  
我们从前面已经知道了Apriori会遍历所有的物品组合，怎么遍历呢？答案就是递归。先遍历1个物品组合的情况，剔除掉支持度低于最小支持度的数据项，然后用剩下的物品进行组合。
遍历2个物品组合的情况，再剔除不满足条件的组合。不断递归下去，直到不再有物品可以组合。  
下面我们来用Apriori算法实战一下吧。

# 实战

In [1]:
# 因为我这个是学习算法，所以我不用现成的算法计算，文中用的是 "mlxtend",我这里用python自己的，
#设置数据集，小票上就是类似这种吧，列表的每一项是每个顾客的购买清单，这个要想办法转化成类似逻辑数组的东西，这个用c语言更高效一些吧，
# 我这里用pandas这种
dataset = [['牛奶','洋葱','肉豆蔻','芸豆','鸡蛋','酸奶'],
        ['莳萝','洋葱','肉豆蔻','芸豆','鸡蛋','酸奶'],
        ['牛奶','苹果','芸豆','鸡蛋'],
        ['牛奶','独角兽','玉米','芸豆','酸奶'],
        ['玉米','洋葱','洋葱','芸豆','冰淇淋','鸡蛋']]

In [2]:
# 这里首先转化成类似逻辑数组之类的东西，我这里实现，然后下一步封装在函数中吧。
_list_columns_name=[]
for i in dataset:
    for j in i:
        _list_columns_name.append(j)
_columns_name=list(set(_list_columns_name))
_columns_name

['肉豆蔻', '玉米', '酸奶', '苹果', '牛奶', '莳萝', '芸豆', '鸡蛋', '洋葱', '独角兽', '冰淇淋']

In [3]:
# 这个是生成一个二维逻辑数组
[[False]*len(_columns_name)]*len(dataset)

[[False, False, False, False, False, False, False, False, False, False, False],
 [False, False, False, False, False, False, False, False, False, False, False],
 [False, False, False, False, False, False, False, False, False, False, False],
 [False, False, False, False, False, False, False, False, False, False, False],
 [False, False, False, False, False, False, False, False, False, False, False]]

In [4]:
# 
import pandas
_dt=pandas.DataFrame([[False]*len(_columns_name)]*len(dataset),columns=_columns_name)
_dt

Unnamed: 0,肉豆蔻,玉米,酸奶,苹果,牛奶,莳萝,芸豆,鸡蛋,洋葱,独角兽,冰淇淋
0,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False


In [5]:
# 用一个循环来
i = 0 # 因为我需要这个i这个小标，所以没有用for循环。
while(i<len(dataset)):
    for item in dataset[i]: # 这里用for循环，我只是需要得到每一项而已
        _dt.at[i,item]=True
    i = i+1         
_dt

Unnamed: 0,肉豆蔻,玉米,酸奶,苹果,牛奶,莳萝,芸豆,鸡蛋,洋葱,独角兽,冰淇淋
0,True,False,True,False,True,False,True,True,True,False,False
1,True,False,True,False,False,True,True,True,True,False,False
2,False,False,False,True,True,False,True,True,False,False,False
3,False,True,True,False,True,False,True,False,False,True,False
4,False,True,False,False,False,False,True,True,True,False,True


In [6]:
# 接下来就是根据这个pandas判断支持度
# 我这里用value_counts来进行计数。
_dt['苹果'].value_counts()

False    4
True     1
Name: 苹果, dtype: int64

In [7]:
# 我还是用这个选取来实现吧。

In [8]:
len(_dt["鸡蛋"][_dt['鸡蛋']==True])

4

In [9]:
# 我这里计算里边每一项的支持度
for _column in _dt.columns.values:
    print("{0}的出现次数是：{1}，\t支持度是：{2}".format(
        _column,
        len(_dt[_column][_dt[_column]==True]),
        len(_dt[_column][_dt[_column]==True])/len(_dt)))

肉豆蔻的出现次数是：2，	支持度是：0.4
玉米的出现次数是：2，	支持度是：0.4
酸奶的出现次数是：3，	支持度是：0.6
苹果的出现次数是：1，	支持度是：0.2
牛奶的出现次数是：3，	支持度是：0.6
莳萝的出现次数是：1，	支持度是：0.2
芸豆的出现次数是：5，	支持度是：1.0
鸡蛋的出现次数是：4，	支持度是：0.8
洋葱的出现次数是：3，	支持度是：0.6
独角兽的出现次数是：1，	支持度是：0.2
冰淇淋的出现次数是：1，	支持度是：0.2


In [53]:
from itertools import combinations,permutations # 这个是排列组合的。
def create_next_columns(pre_columns_names:list)->list:
    """这个会根据上一层的列名生成下一层的列名
    """
    # 我首先随便选择第一项，取得这一层级的层数
    # 然后将所有列名拆分，比如 “苹果|啤酒”这个，我要根据“|”拆分，生成所有列都包含的单个的列
    # 然后根据这个做排列组合啦。
    _cengshu = len(pre_columns_names[0].split('|')) # 取得层数。
    _set_1 =set()
    for item in pre_columns_names:
        for item_2 in item.split("|"):
            _set_1.add(item_2)
    # 然后就是排列组合啦
    _lst_1 = list(_set_1)
    # 这里要考虑一个特殊情况，就是没有下一层了
    if len(_lst_1) < _cengshu:
        return []
    # 生成组合
    _lst_return=[]
    # 我这里要对关键词排序，以便后边处理
    for i in list(combinations(_lst_1,_cengshu+1)):
        _l = list(i)
        _l.sort()
        _lst_return.append("|".join(_l))
    return _lst_return
    return ["|".join(i) for i in list(combinations(_lst_1,_cengshu+1))]
    
    

In [54]:
# 这个是测试是否可以用的。
create_next_columns(_dt.columns.values)

['玉米|肉豆蔻',
 '肉豆蔻|酸奶',
 '肉豆蔻|苹果',
 '牛奶|肉豆蔻',
 '肉豆蔻|莳萝',
 '肉豆蔻|芸豆',
 '肉豆蔻|鸡蛋',
 '洋葱|肉豆蔻',
 '独角兽|肉豆蔻',
 '冰淇淋|肉豆蔻',
 '玉米|酸奶',
 '玉米|苹果',
 '牛奶|玉米',
 '玉米|莳萝',
 '玉米|芸豆',
 '玉米|鸡蛋',
 '洋葱|玉米',
 '独角兽|玉米',
 '冰淇淋|玉米',
 '苹果|酸奶',
 '牛奶|酸奶',
 '莳萝|酸奶',
 '芸豆|酸奶',
 '酸奶|鸡蛋',
 '洋葱|酸奶',
 '独角兽|酸奶',
 '冰淇淋|酸奶',
 '牛奶|苹果',
 '苹果|莳萝',
 '芸豆|苹果',
 '苹果|鸡蛋',
 '洋葱|苹果',
 '独角兽|苹果',
 '冰淇淋|苹果',
 '牛奶|莳萝',
 '牛奶|芸豆',
 '牛奶|鸡蛋',
 '洋葱|牛奶',
 '牛奶|独角兽',
 '冰淇淋|牛奶',
 '芸豆|莳萝',
 '莳萝|鸡蛋',
 '洋葱|莳萝',
 '独角兽|莳萝',
 '冰淇淋|莳萝',
 '芸豆|鸡蛋',
 '洋葱|芸豆',
 '独角兽|芸豆',
 '冰淇淋|芸豆',
 '洋葱|鸡蛋',
 '独角兽|鸡蛋',
 '冰淇淋|鸡蛋',
 '洋葱|独角兽',
 '冰淇淋|洋葱',
 '冰淇淋|独角兽']

In [40]:
def Transaction_support(dt,lst_columns_name:str,min_support):
    """Apriori算法实现
        参数：
            dt: 表，
            lst_columns_name : 要检查的列,支持用"|"分割的多个列同时存在。
            min_support : 最小支持度"""
    _dict_return={} # 这个字典保存的是经过检查，支持度大于最小值的。键名为列名的组合，键值为支持度。
    # 对每个列名进行检查
    _len_dt = len(dt) # 记录的数量
    # 我这里先取得第一列的名字吧
    _first_column=dt.columns.values[0]
    for _column_name in lst_columns_name:
        # 先取得列名，因为是用|分割的
        # 由这个列名的列表组成一个字符串。
        _lst_bool = " & ".join( ["(dt['{0}']==True)".format(s) for s in _column_name.split('|')])
        _str_support = "len(dt['{0}'][{1}])/{2}".format(_first_column,_lst_bool,_len_dt) # 这个就是用来计算支持度的
        _support = eval(_str_support)
        # 判断这个支持度
        if _support >= min_support:
            # 如果大于支持度，就加进去啦
            _dict_return[_column_name]=_support
        pass
    # 接下来要判断这个字典是否为空，如果为空，就不想用递归了
    if not _dict_return:
        return {}
    else:
        # 如果不为空，就生成这个自己的超级吧。
        # 然后递归判断。
        _tmp=Transaction_support(dt,create_next_columns(list(_dict_return.keys())),min_support)
        # 然后字典合并啦
        _dict_return = dict(_dict_return,**_tmp)
        pass
    
    return _dict_return
    pass

In [42]:
Transaction_support(_dt,_dt.columns.values,0.5)

{'酸奶': 0.6,
 '牛奶': 0.6,
 '芸豆': 1.0,
 '鸡蛋': 0.8,
 '洋葱': 0.6,
 '酸奶|芸豆': 0.6,
 '牛奶|芸豆': 0.6,
 '芸豆|鸡蛋': 0.8,
 '芸豆|洋葱': 0.6,
 '鸡蛋|洋葱': 0.6,
 '芸豆|鸡蛋|洋葱': 0.6}

In [59]:
# 接下来计算置信度和提升度吧。
# 其实有了前面的提升度字典，就可以求了，
# 置信度( A -> B) = （包含物品A和B的记录数量） / （包含 A 的记录数量）
# 其置信度分子分母都可以除以总数，也就是A和B的支持度/A的支持度。而提升度就是置信度再诚意一遍支持度
# 我要遍历符合最低支持度的字典
# 然后用一个字典来保存提升度吧
def get_confidence(support:dict):
    _lst_confidence={}
    for key,value in support.items():
        # 先解析这个key
        _lst_columns_name = key.split('|')
        # 如果这个只有一层，就不计算了，
        if len(_lst_columns_name) == 1:
            continue
        # 然后对每一个子集计算提升度啦
        # 比如这个key 是 "A|B" ，我分解成[A,B]列表，分别相对于A和B的提升度，而这个提升度是除了AB的
        for _item in _lst_columns_name:
            # 比如计算 A->B ，这里AB并集的支持度就是value，
            # 而_item是B，这要求的是A，也就是说在这个列表中，不属于B的全是A，
            _lst_A = [i for i in _lst_columns_name if i != _item]
            _lst_A.sort() # 排序
            str_A= "|".join(_lst_A)
            _lst_confidence["{0}->{1}".format(str_A,_item)]=value/support[str_A]
    return _lst_confidence

dict_confidence=get_confidence(Transaction_support(_dt,_dt.columns.values,0.5))

for i in dict_confidence:
    print("{0}:{1}".format(i,dict_confidence[i]))
    

酸奶->芸豆:1.0
芸豆->酸奶:0.6
芸豆->牛奶:0.6
牛奶->芸豆:1.0
鸡蛋->芸豆:1.0
芸豆->鸡蛋:0.8
芸豆->洋葱:0.6
洋葱->芸豆:1.0
鸡蛋->洋葱:0.7499999999999999
洋葱->鸡蛋:1.0
芸豆|鸡蛋->洋葱:0.7499999999999999
洋葱|鸡蛋->芸豆:1.0
洋葱|芸豆->鸡蛋:1.0


# 参考资料
> [深入浅出Apriori关联分析算法](https://mp.weixin.qq.com/s/yCGUSVB-vA3p5Vtc88GPZg)  
> [利用mlxtend进行数据关联分析](https://blog.csdn.net/qq_36523839/article/details/83960195)  
> [数据挖掘十大算法之Apriori详解](https://blog.csdn.net/baimafujinji/article/details/53456931)