### 关联

In [1]:
# 关联规则：反应一个事物与其他事物之间的相互依存性和关联性  案例：沃尔玛中啤酒与尿布
    # 项目：一个字段，对交易来说一般是指一次交易中的一个物品，如：尿布
    # 事务：某客户在一次交易中，发生的所有项目的集合：如{尿布，啤酒}
    # 项集：包含若干个项集的集合（一次事务中）
    # 频繁项集：某个项集的支持度大于设定的阈值（人为设定或值根据数据分布和经验来设定），即称这个项集为频繁项集
        # 支持度：项集{X, Y}在总项集中出项的概率（Support）
        # 置信度：在先决条件X发生的条件下，由关联规则{X->Y}推出Y的概率（Confidence）
        # 提升度：表示含有X的条件下同时含有Y的概率，与无论含不含X,只要含有Y的概率之比（Confidence({X}->{Y})/Support({Y})） 置信度>1,表明X对Y有提升作用
    # 常用算法：
        # Apriori:先指定一个支持度的阈值，如果一个项集的支持度大于等于这个阈值，那么就认为是频繁项集，如果小于则不是。两个频繁项集组合在一起，可以是一个频繁项集，也可能不是。来两个非频繁相项集或一频繁一不频繁组合在一起一定不是一个频繁项集。
# 序列规则：将时间的因素考虑进来，剔除关联规则中时间点靠后的项对时间点靠前的项的支持
    # 算法
        # Apriori-All
            # 1.Forward:Apriori
            # 2.Backward:去掉时间序列之后的项对之前的项的支持
    # 使用场景：例如预测一个用户在购买了某产品之后，下次购物还会购买其他的什么东西作为搭配

In [None]:
from itertools import combinations
# 通过combinations 获取所有项集组合 包括1、2、3、4...项集
def comb(lst):
    ret=[]
    # i 项集中项目的个数
    for i in range(1,len(lst)+1):
        ret+=list(combinations(lst,i))
    return ret
# 项目数量相同的项集集合
class AprLayer(object):
    d=dict()
    def __init__(self):
        self.d=dict()
# AprNode 项集 
class AprNode(object):
    def __init__(self,node):
        self.s=set(node)
        # 项集的数量
        self.size=len(self.s)
        self.lnk_nodes=dict()
        self.num=0
    # 映射的方式：将项集中的所有项目进行排序，然后用__将其连接起来，建立一个hash索引
    def __hash__(self):
        return hash("__".join(sorted([str(itm) for itm in list(self.s)])))
    # 比较
    def __eq__(self, other):
        if "__".join(sorted([str(itm) for itm in list(self.s)]))=="__".join(sorted([str(itm) for itm in list(other.s)])):
            return True
        return False
    def isSubnode(self,node):
        return self.s.issubset(node.s)
    # 加 1
    def incNum(self,num=1):
        self.num+=num
    
    # 加 node
    def addLnk(self,node):
        self.lnk_nodes[node]=node.s
# 所有项集组成的集合体
class AprBlk():
    def __init__(self,data):
        cnt=0
        self.apr_layers = dict()
        # 数据的长度
        self.data_num=len(data)
        for datum in data:
            # 计数器
            cnt+=1
            # 获取项集
            datum=comb(datum)
            # da 项集的组合
            nodes=[AprNode(da) for da in datum]
            for node in nodes:
                # 根据项集的数量建立相同的项集集合，（1，2，3...项集）
                if not node.size in self.apr_layers:
                    self.apr_layers[node.size]=AprLayer()
                # 如果没有就直接加入
                if not node in self.apr_layers[node.size].d:
                    self.apr_layers[node.size].d[node]=node
                # 将node数量加1
                self.apr_layers[node.size].d[node].incNum()
            # 建立低价与高阶之间的联系
            for node in nodes:
                if node.size==1:
                    continue
                for sn in node.s:
                    sub_n=AprNode(node.s-set([sn]))
                    # addLnk 建立联系
                    self.apr_layers[node.size-1].d[sub_n].addLnk(node)
    # 获取频繁项集 thd 阈值
    def getFreqItems(self,thd=1,hd=1):
        freq_items=[]
        # 先遍历layer
        for layer in self.apr_layers:
            for node in self.apr_layers[layer].d:
                # 判断数量是否小于阈值，是的话跳出本次循环
                if self.apr_layers[layer].d[node].num<thd:
                    continue
                # 如果大于则加入项集   （频繁项集本身的node, node中项集一共出现的次数）
                freq_items.append((self.apr_layers[layer].d[node].s,self.apr_layers[layer].d[node].num))
        # 排序的依据是项集的次数，顺序从高到d
        freq_items.sort(key=lambda x:x[1], reverse = True)
        return freq_items[:hd]
    # 置信度
    # h_thd 高阈值
    # l_thd 底阈值
    def getConf(self,low=True, h_thd=10, l_thd=1, hd=1):
        confidence = []
        # 项集集合
        for layer in self.apr_layers:
            for node in self.apr_layers[layer].d:
                if self.apr_layers[layer].d[node].num < h_thd:
                    continue
                for lnk_node in node.lnk_nodes:
                    if lnk_node.num < l_thd:
                        continue
                    # 置信度    高阶频繁项集的数量/低阶频繁项集的数量
                    conf = float(lnk_node.num) / float(node.num)
                    # 输出             [项集，数量，连接，连接数量，置信度]
                    confidence.append([node.s, node.num, lnk_node.s, lnk_node.num, conf])
        # 根据置信度进行排序
        confidence.sort(key=lambda x: x[4])
        if low:
            return confidence[:hd]
        else:
            return confidence[-hd::-1]
# 关联规则的类
class AssctAnaClass():
    def fit(self,data):
        # 建立集合体
        self.apr_blk=AprBlk(data)
        return self
    # 获取频繁项集
    # thd 阈值的数量 
    # hd 取出前几个
    def get_freq(self,thd=1,hd=1):
        return self.apr_blk.getFreqItems(thd=thd,hd=hd)
    # 取出高置信度的项集组合
    def get_conf_high(self,thd,h_thd=10):
        return self.apr_blk.getConf(low=False, h_thd=h_thd, l_thd=thd)
    # 取出低置信度的项集组合
    def get_conf_low(self,thd,hd,l_thd=1):
        return self.apr_blk.getConf(h_thd=thd,l_thd=l_thd,hd=hd)


def main():
    data=[
        ["牛奶","啤酒","尿布"],
        ["牛奶","啤酒","咖啡","尿布"],
        ["香肠","牛奶","饼干"],
        ["尿布","果汁","啤酒"],
        ["钉子","啤酒"],
        ["尿布","毛巾","香肠"],
        ["啤酒","毛巾","尿布","饼干"]
    ]
    # 频繁项集
    print("Freq",AssctAnaClass().fit(data).get_freq(thd=3,hd=10))
    # 置信度
    print("Conf",AssctAnaClass().fit(data).get_conf_high(thd=3,h_thd=3))
if __name__=="__main__":
    main()