In [14]:
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori, association_rules

# 读取CSV文件
def read_csv(file_name):
    return pd.read_csv(file_name)

# 将DataFrame转换为交易记录的列表，确保正确解析列表
def create_transactions(df, column_name='高频词'):
    transactions = []
    for index, row in df.iterrows():
        # 正确解析列表，去除可能的引号和逗号
        words = eval(row[column_name])  # 使用eval将字符串转换为列表
        transactions.append(words)
    return transactions

# 分析分区并生成关联规则
def analyze_partitions(transactions, min_support=0.5, min_confidence=0.7):
    te = TransactionEncoder()
    te_ary = te.fit(transactions).transform(transactions)
    df_transactions = pd.DataFrame(te_ary, columns=te.columns_)
    frequent_itemsets = apriori(df_transactions, min_support=min_support, use_colnames=True)
    rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=min_confidence, num_itemsets=len(frequent_itemsets))
    return rules

# 主函数
def main():
    # 读取CSV文件
    df = read_csv('word_frequency.csv') 

    # 遍历每个分区的前三个视频
    for partition in df['分区'].unique()[:3]:  # 只取前三个分区
        print(f"\n关联规则 for 分区 {partition}:")
        partition_df = df[df['分区'] == partition].head(3)  # 每个分区取前三个视频
        transactions = create_transactions(partition_df)
        rules = analyze_partitions(transactions)
        print(rules)

if __name__ == "__main__":
    main()


关联规则 for 分区 douga:
   antecedents consequents  antecedent support  consequent support   support  \
0          (年)         (做)            0.666667            1.000000  0.666667   
1          (想)         (做)            0.666667            1.000000  0.666667   
2         (感觉)         (做)            0.666667            1.000000  0.666667   
3         (真的)         (做)            0.666667            1.000000  0.666667   
4         (视频)         (做)            0.666667            1.000000  0.666667   
5         (感觉)         (年)            0.666667            0.666667  0.666667   
6          (年)        (感觉)            0.666667            0.666667  0.666667   
7          (想)        (真的)            0.666667            0.666667  0.666667   
8         (真的)         (想)            0.666667            0.666667  0.666667   
9      (感觉, 做)         (年)            0.666667            0.666667  0.666667   
10     (感觉, 年)         (做)            0.666667            1.000000  0.666667   
11      (做, 年)      

  cert_metric = np.where(certainty_denom == 0, 0, certainty_num / certainty_denom)
  cert_metric = np.where(certainty_denom == 0, 0, certainty_num / certainty_denom)
