In [1]:
#conda install -c conda-forge mlxtend
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules
import pandas as pd

# 创建示例数据集                                                                                                                                                                                                   
data = {'ID': [1, 2, 3, 4, 5],
        '商品': ['牛奶, 面包', '面包, 黄油', '牛奶, 黄油', '牛奶, 面包', '牛奶, 面包, 黄油']}
df = pd.DataFrame(data)

# 对数据进行独热编码

# 这行代码的作用是对 DataFrame 中的某一列进行独热编码。
# 独热编码是将分类数据转换为二进制向量的一种常用方法。在这个例子中，df['商品'] 是一个包含商品信息的列，每个条目表示一笔交易购买的商品。例如，一行数据可能包含多个商品，用逗号分隔。
# str.get_dummies(', ') 的作用是将这些商品数据进行独热编码。它会将每个不同的商品名称作为一个新的列，并且对每一行中出现的商品进行标记（1 表示包含该商品，0 表示不包含）。
# 例如，如果有三种商品：牛奶、面包和黄油。对于一笔交易包含了牛奶和面包，编码后的结果可能如下：
# 牛奶	面包	    黄油
# 1   	1	     0
# 这种编码方式可以方便地用于后续的关联规则挖掘，因为关联规则算法通常需要输入数据是二进制格式。
df_encoded = df['商品'].str.get_dummies(', ')

# 使用Apriori算法找出频繁项集
# 1.df_encoded：DataFrame，表示经过独热编码后的数据集，每一行代表一笔交易，每一列代表一个商品，每个单元格的值为 1 或 0，表示该交易是否包含对应的商品。
# 2.min_support：float，支持度的阈值，用于确定哪些项集是频繁的。支持度（support）定义为包含某个项集的事务的比例。如果项集的支持度高于或等于此阈值，则认为该项集是频繁的。支持度的取值范围通常在 0 到 1 之间，表示百分比。在这个例子中，设置为 0.2 表示只有在至少出现在 20% 的事务中的项集才被认为是频繁的。
# 3.use_colnames：bool，指定是否使用列名作为项集的标签。如果设置为 True，则返回的 DataFrame 将包含具有列名的项集，否则将使用整数索引。在这个例子中，设置为 True，因此返回的 DataFrame 中的项集标签将使用原始列的名称。
frequent_itemsets = apriori(df_encoded, min_support=0.2, use_colnames=True)


# 根据频繁项集生成关联规则
# frequent_itemsets：DataFrame，表示频繁项集及其支持度的数据集，通常是通过 apriori 函数找到的。DataFrame 的每一行代表一个频繁项集，包含两列：itemsets 列包含了频繁项集本身，support 列包含了对应的支持度。
# metric：str，用于衡量关联规则质量的指标。常见的指标包括：
#       'support'：支持度，表示规则的出现频率。
#       'confidence'：置信度，表示规则的可信程度。
#       'lift'：提升度，表示规则的提升程度。
#       'leverage'：杠杆度，表示规则的影响程度。
#       'conviction'：确信度，表示规则中的因果关系。
# min_threshold：float，关联规则的最小阈值。只有满足该阈值的规则才会被返回。阈值的具体含义取决于所选择的度量标准。例如，如果度量标准是 'lift'，则该阈值表示最小提升度。在这个例子中，设置为 1，表示只返回提升度大于等于1的关联规则。
rules = association_rules(frequent_itemsets, metric='lift', min_threshold=1)

print("频繁项集：")
print(frequent_itemsets)
print("\n关联规则：")
print(rules)                                     



                                                                                                     

频繁项集：
   support      itemsets
0      0.8          (牛奶)
1      0.8          (面包)
2      0.6          (黄油)
3      0.6      (牛奶, 面包)
4      0.4      (牛奶, 黄油)
5      0.4      (面包, 黄油)
6      0.2  (牛奶, 面包, 黄油)

关联规则：
Empty DataFrame
Columns: [antecedents, consequents, antecedent support, consequent support, support, confidence, lift, leverage, conviction, zhangs_metric]
Index: []


