# 一、sklearn 工具包中没有关联规则挖掘 Apriori算法，需要别安装工具包。可以选用efficient-apriori 或 mlxtend

（1）efficient-apriori 和 mlxtend 都可以与 sklearn 结合使用，但它们在功能上各有侧重

（2）efficient-apriori 则专注于高效的关联规则挖掘，适用于特定的市场篮分析和推荐系统场景

（3）mlxtend 通过提供额外的特征选择、集成学习方法、模型评估工具等，对 sklearn 进行了有效的补充

### 1.1、若选用 efficient-apriori 工具包的方法，则先安装 efficient-apriori 工具包
（1）打开 Anaconda Prompt，在命令窗口输入命令

（2）pip install efficient-apriori

### 1.2、若选用mlxtend的方法，则先安装mlxtend

（1） 打开 Anaconda Prompt，在命令窗口输入命令

（2）pip install mlxtend


# 二、关联规则中常见概念

支持度：项集A、B同时发生的概率称为关联规则的支持度。

置信度：项集A发生，则项集B发生的概率为关联规则的置信度

最小支持度（min_support）：用户定义的衡量支持度的一个阈值；

最小置信度（min_confidence）：用户定义的衡量置信度的一个阈值，表示关联规则的最低可靠性。

同时满足最小支持度阈值和最小置信度阈值的规则称作强规则。

###
### 例1：挖掘关联规则

In [1]:
from efficient_apriori import apriori                            #导入apriori函数
#举例，列表中元素是元组
data = [('A', 'B', 'C'),                                #数据必须放在列表中：每一条交易是一个元组（或集合），所有交易放在一个列表中
        ('B', 'A'),
        ('C'),
        ('B')]

In [2]:
#举例，列表中元素可以是集合
data = [{'A', 'B', 'C'},                                #数据必须放在列表中：每一条交易是一个元组（或集合），所有交易放在一个列表中
        {'B', 'A'},
        {'C'},
        {'B'}]

In [3]:
#apriori函数求支持度>=0.5并置信度>=0.6的频繁项集与关联规则，item_sets保存频繁项集，rules保存规则
item_sets, rules = apriori(data, min_support=0.5, min_confidence=0.6)    

In [4]:
item_sets                                                           #满足最小支持度的频繁项集

{1: {('A',): 2, ('C',): 2, ('B',): 3}, 2: {('A', 'B'): 2}}

In [5]:
rules                                                                 #满足最小置信度的规则

[{B} -> {A}, {A} -> {B}]

###

### 例2 挖掘顾客菜单中各菜品的关联关系

In [6]:
from efficient_apriori import apriori                            #导入apriori

data = [('上海青', '碳烧茄子', '啤酒'),                                #数据必须放在列表中：每一条交易是一个元组，所有交易放在一个列表中
        ('可乐', '碳烧茄子', '炝炒土豆丝', '西兰花'),
        ('上海青', '炝炒土豆丝', '可乐', '鸡蛋'),
        ('碳烧茄子', '上海青', '炝炒土豆丝', '可乐'),
        ('碳烧茄子', '西兰花', '炝炒土豆丝', '可乐')]

item_sets, rules = apriori(data, min_support=0.5, min_confidence=1)    #求频繁项集与关联规则

In [7]:
item_sets                                                           #满足最小支持度的频繁项集

{1: {('上海青',): 3, ('碳烧茄子',): 4, ('可乐',): 4, ('炝炒土豆丝',): 4},
 2: {('可乐', '炝炒土豆丝'): 4, ('可乐', '碳烧茄子'): 3, ('炝炒土豆丝', '碳烧茄子'): 3},
 3: {('可乐', '炝炒土豆丝', '碳烧茄子'): 3}}

In [8]:
rules                                                              #满足最小置信度的规则

[{炝炒土豆丝} -> {可乐},
 {可乐} -> {炝炒土豆丝},
 {炝炒土豆丝, 碳烧茄子} -> {可乐},
 {可乐, 碳烧茄子} -> {炝炒土豆丝}]

## 三、考虑提升度

In [9]:
#提升度阈值
lift_threshold = 1.2

# 筛选出提升度大于阈值的规则
filtered_rules = [rule for rule in rules if rule.lift > lift_threshold]
filtered_rules

[{炝炒土豆丝} -> {可乐},
 {可乐} -> {炝炒土豆丝},
 {炝炒土豆丝, 碳烧茄子} -> {可乐},
 {可乐, 碳烧茄子} -> {炝炒土豆丝}]

In [10]:
# 打印筛选后的规则
for rule in filtered_rules:
    print(f"Rule: {rule} with lift: {rule.lift}")

#conv 通常指的是 置信度提升（Conviction），在规则的后件（consequent）不发生时，规则的前件（antecedent）发生的概率。
#Conviction > 1：规则 A→B 是一个强规则，即规则的前件 A 发生时，后件 B 有很大概率发生。

Rule: {炝炒土豆丝} -> {可乐} (conf: 1.000, supp: 0.800, lift: 1.250, conv: 200000000.000) with lift: 1.25
Rule: {可乐} -> {炝炒土豆丝} (conf: 1.000, supp: 0.800, lift: 1.250, conv: 200000000.000) with lift: 1.25
Rule: {炝炒土豆丝, 碳烧茄子} -> {可乐} (conf: 1.000, supp: 0.600, lift: 1.250, conv: 200000000.000) with lift: 1.25
Rule: {可乐, 碳烧茄子} -> {炝炒土豆丝} (conf: 1.000, supp: 0.600, lift: 1.250, conv: 200000000.000) with lift: 1.25
