###关联分析，筛选强关联规则

In [None]:
import os
import pandas as pd
from mlxtend.frequent_patterns import apriori, association_rules
from mlxtend.preprocessing import TransactionEncoder


# 设定文件路径
#directory = "D:/研究生论文/小论文2/代码/02质量特征识别/02质量特征匹配结果/无限世界4.8_每集/"

directory = "D:/研究生论文/小论文2/代码/02RAG_质量特征匹配阶段/RAG代码/01输出数据/桃花马上请长缨_每集/"

# 循环遍历文件
for episode in range(1, 92):
    # 构造文件路径
    file_path = os.path.join(directory, f"mapped_info_episode_{episode}.xlsx")
    
    # 读取数据
    data = pd.read_excel(file_path)
    
    # 合并三列为一列，并使用 '|' 连接
    merged_features = data[['Feature_1', 'Feature_2', 'Feature_3']].astype(str).apply(lambda x: '|'.join(x), axis=1)
    
    # 将合并后的列添加到原始数据框中
    data['Merged_Features'] = merged_features
    
    # 对合并后的数据进行处理，转换成适合关联分析的格式
    transaction_list = data['Merged_Features'].apply(lambda x: x.split('|')).tolist()
    
    # 使用 TransactionEncoder 进行编码
    te = TransactionEncoder()
    te_ary = te.fit(transaction_list).transform(transaction_list)
    df = pd.DataFrame(te_ary, columns=te.columns_)
    
    # 使用 Apriori 算法找出频繁项集
    frequent_itemsets = apriori(df, min_support=0.01, use_colnames=True)
    
    # 根据频繁项集生成关联规则
    rules = association_rules(frequent_itemsets, metric="lift", min_threshold=1)
    
    # 排序
    rules = rules.sort_values(by=['support', 'confidence', 'lift'], ascending=[False, False, False])
    
    # 提取关联规则中的项并合并到一列
    rules['merged_items'] = rules.apply(lambda row: '|'.join(row['antecedents']) + '|' + '|'.join(row['consequents']), axis=1)
    
    # 保存结果
    output_file_path = f"D:/研究生论文/小论文2/代码/03网络图/00关联分析_强关联规则/输出结果/01关联规则结果/桃花马上请长缨RAG/第{episode}集.xlsx"
    rules.to_excel(output_file_path, index=False)
    
    # 打印关联规则
    print(f"第{episode}集关联规则：")
    print(rules)


  cert_metric = np.where(certainty_denom == 0, 0, certainty_num / certainty_denom)
  cert_metric = np.where(certainty_denom == 0, 0, certainty_num / certainty_denom)


第73集关联规则：
        antecedents      consequents  antecedent support  consequent support  \
6           (剧情合理性)           (角色表现)            0.857143            1.000000   
7            (角色表现)          (剧情合理性)            1.000000            0.857143   
11           (台词质量)           (角色表现)            0.571429            1.000000   
10           (角色表现)           (台词质量)            1.000000            0.571429   
28    (剧情合理性, 台词质量)           (角色表现)            0.428571            1.000000   
29           (角色表现)    (剧情合理性, 台词质量)            1.000000            0.428571   
1             (nan)          (剧情合理性)            0.285714            0.857143   
18      (nan, 角色表现)          (剧情合理性)            0.285714            0.857143   
21            (nan)    (剧情合理性, 角色表现)            0.285714            0.857143   
3             (nan)           (角色表现)            0.285714            1.000000   
17     (剧情合理性, nan)           (角色表现)            0.285714            1.000000   
0           (剧情合理性)           

  cert_metric = np.where(certainty_denom == 0, 0, certainty_num / certainty_denom)
  cert_metric = np.where(certainty_denom == 0, 0, certainty_num / certainty_denom)


第78集关联规则：
        antecedents      consequents  antecedent support  consequent support  \
8           (剧情合理性)           (角色表现)            0.666667            1.000000   
14           (文化深度)           (角色表现)            0.666667            1.000000   
9            (角色表现)          (剧情合理性)            1.000000            0.666667   
15           (角色表现)           (文化深度)            1.000000            0.666667   
3             (nan)           (角色表现)            0.444444            1.000000   
2            (角色表现)            (nan)            1.000000            0.444444   
18      (文化深度, nan)           (角色表现)            0.333333            1.000000   
36    (剧情合理性, 文化深度)           (角色表现)            0.333333            1.000000   
1             (nan)           (文化深度)            0.444444            0.666667   
20      (角色表现, nan)           (文化深度)            0.444444            0.666667   
22            (nan)     (文化深度, 角色表现)            0.444444            0.666667   
0            (文化深度)           

  cert_metric = np.where(certainty_denom == 0, 0, certainty_num / certainty_denom)
  cert_metric = np.where(certainty_denom == 0, 0, certainty_num / certainty_denom)


在关联规则中，支持度（Support）指的是包含某个项集（或者规则）的事务数与总事务数之间的比率。它衡量了一个项集在所有事务中出现的频率。支持度高表示该项集经常出现，支持度低则表示该项集出现的频率较低。

###考虑支持度

In [3]:
import pandas as pd
import os

# 设置工作目录
os.chdir('D:/研究生论文/小论文2/代码/03网络图/00关联分析_强关联规则/输出结果')

# 循环遍历处理第1集到第10集的文件
for episode in range(1, 92):
    # 读取数据
    data = pd.read_excel(f"./01关联规则结果/桃花马上请长缨RAG/第{episode}集.xlsx")

    # 将 support 列的值乘以 100 并取整，保存在 weight 列
    data['weight'] = (data['support'] * 100).astype(int)

    # 创建一个新的 DataFrame，每行重复 weight 列中的值次数
    repeated_data = data.loc[data.index.repeat(data['weight'])].reset_index(drop=True)

    # 保存结果
    repeated_data.to_excel(f"./02加入权重的关联规则/桃花马上请长缨RAG/第{episode}集_考虑support.xlsx", index=False)

    # 打印结果
    print(f"第{episode}集处理完成")

print("所有集处理完成")


第1集处理完成
第2集处理完成
第3集处理完成
第4集处理完成
第5集处理完成
第6集处理完成
第7集处理完成
第8集处理完成
第9集处理完成
第10集处理完成
第11集处理完成
第12集处理完成
第13集处理完成
第14集处理完成
第15集处理完成
第16集处理完成
第17集处理完成
第18集处理完成
第19集处理完成
第20集处理完成
第21集处理完成
第22集处理完成
第23集处理完成
第24集处理完成
第25集处理完成
第26集处理完成
第27集处理完成
第28集处理完成
第29集处理完成
第30集处理完成
第31集处理完成
第32集处理完成
第33集处理完成
第34集处理完成
第35集处理完成
第36集处理完成
第37集处理完成
第38集处理完成
第39集处理完成
第40集处理完成
第41集处理完成
第42集处理完成
第43集处理完成
第44集处理完成
第45集处理完成
第46集处理完成
第47集处理完成
第48集处理完成
第49集处理完成
第50集处理完成
第51集处理完成
第52集处理完成
第53集处理完成
第54集处理完成
第55集处理完成
第56集处理完成
第57集处理完成
第58集处理完成
第59集处理完成
第60集处理完成
第61集处理完成
第62集处理完成
第63集处理完成
第64集处理完成
第65集处理完成
第66集处理完成
第67集处理完成
第68集处理完成
第69集处理完成
第70集处理完成
第71集处理完成
第72集处理完成
第73集处理完成
第74集处理完成
第75集处理完成
第76集处理完成
第77集处理完成
第78集处理完成
第79集处理完成
第80集处理完成
第81集处理完成
第82集处理完成
第83集处理完成
第84集处理完成
第85集处理完成
第86集处理完成
第87集处理完成
第88集处理完成
第89集处理完成
第90集处理完成
第91集处理完成
所有集处理完成


##将关联规则转换为共线关系所需数据

In [4]:
import os
import pandas as pd

# 设置工作目录
os.chdir("D:/研究生论文/小论文2/代码/03网络图/00关联分析_强关联规则/输出结果/02加入权重的关联规则/桃花马上请长缨RAG")

# 循环处理第1集到第10集的文件
for episode in range(1, 92):
    # 读取数据
    file_path = f"第{episode}集_考虑support.xlsx"
    data = pd.read_excel(file_path)

    # 创建新列，根据 '|' 符号拆分 merged_items 列，并命名新列
    split_columns = data['merged_items'].str.split('|', expand=True)
    split_columns.columns = [f"SFeature_{i+1}" for i in range(split_columns.shape[1])]

    # 将拆分后的列添加到原始数据框中
    data = pd.concat([data, split_columns], axis=1)

    # 保存结果
    output_file_path = f"D:/研究生论文/小论文2/代码/03网络图/00关联分析_强关联规则/输出结果/03共线关系预备数据/桃花马上请长缨RAG/第{episode}集_拆分.xlsx"
    data.to_excel(output_file_path, index=False)

    # 打印处理完毕信息
    print(f"处理第{episode}集完成。")

print("所有集处理完成。")


处理第1集完成。
处理第2集完成。
处理第3集完成。
处理第4集完成。
处理第5集完成。
处理第6集完成。
处理第7集完成。
处理第8集完成。
处理第9集完成。
处理第10集完成。
处理第11集完成。
处理第12集完成。
处理第13集完成。
处理第14集完成。
处理第15集完成。
处理第16集完成。
处理第17集完成。
处理第18集完成。
处理第19集完成。
处理第20集完成。
处理第21集完成。
处理第22集完成。
处理第23集完成。
处理第24集完成。
处理第25集完成。
处理第26集完成。
处理第27集完成。
处理第28集完成。
处理第29集完成。
处理第30集完成。
处理第31集完成。
处理第32集完成。
处理第33集完成。
处理第34集完成。
处理第35集完成。
处理第36集完成。
处理第37集完成。
处理第38集完成。
处理第39集完成。
处理第40集完成。
处理第41集完成。
处理第42集完成。
处理第43集完成。
处理第44集完成。
处理第45集完成。
处理第46集完成。
处理第47集完成。
处理第48集完成。
处理第49集完成。
处理第50集完成。
处理第51集完成。
处理第52集完成。
处理第53集完成。
处理第54集完成。
处理第55集完成。
处理第56集完成。
处理第57集完成。
处理第58集完成。
处理第59集完成。
处理第60集完成。
处理第61集完成。
处理第62集完成。
处理第63集完成。
处理第64集完成。
处理第65集完成。
处理第66集完成。
处理第67集完成。
处理第68集完成。
处理第69集完成。
处理第70集完成。
处理第71集完成。
处理第72集完成。
处理第73集完成。
处理第74集完成。
处理第75集完成。
处理第76集完成。
处理第77集完成。
处理第78集完成。
处理第79集完成。
处理第80集完成。
处理第81集完成。
处理第82集完成。
处理第83集完成。
处理第84集完成。
处理第85集完成。
处理第86集完成。
处理第87集完成。
处理第88集完成。
处理第89集完成。
处理第90集完成。
处理第91集完成。
所有集处理完成。


#单集-关联规则获取

In [20]:
import os
import pandas as pd
from mlxtend.frequent_patterns import apriori, association_rules


# 读取数据
data = pd.read_excel("D:/研究生论文/小论文2/代码/02质量特征识别/百妖谱_每集/mapped_info_episode_1.xlsx")


# 合并三列为一列，并使用'|'连接
merged_features = data[['Feature_1', 'Feature_2', 'Feature_3']].astype(str).apply(lambda x: '|'.join(x), axis=1)

# 将合并后的列添加到原始数据框中
data['Merged_Features'] = merged_features

# 对合并后的数据进行处理，转换成适合关联分析的格式
transaction_list = data['Merged_Features'].apply(lambda x: x.split('|')).tolist()

# 使用 TransactionEncoder 进行编码
te = TransactionEncoder()
te_ary = te.fit(transaction_list).transform(transaction_list)
df = pd.DataFrame(te_ary, columns=te.columns_)

# 使用 Apriori 算法找出频繁项集
frequent_itemsets = apriori(df, min_support=0.05, use_colnames=True)

# 根据频繁项集生成关联规则
rules = association_rules(frequent_itemsets, metric="lift", min_threshold=1)

# 排序
rules = rules.sort_values(by=['support', 'confidence', 'lift'], ascending=[False, False, False])

# 提取关联规则中的项并合并到一列
rules['merged_items'] = rules.apply(lambda row: '|'.join(row['antecedents']) + '|' + '|'.join(row['consequents']), axis=1)


# 保存结果
rules.to_excel("D:/研究生论文/小论文2/代码/03网络图/00关联分析_强关联规则/输出结果/百妖谱/关联规则结果/第1集.xlsx", index=False)

# 打印关联规则
print(rules)




          antecedents        consequents  antecedent support  \
3                (人物)               (剧情)            0.517312   
2                (剧情)               (人物)            0.678208   
1                (主题)               (剧情)            0.311609   
0                (剧情)               (主题)            0.678208   
8     (整体适应性与创新性, 人物)               (剧情)            0.230143   
9                (剧情)    (整体适应性与创新性, 人物)            0.678208   
5              (声音设计)             (画面质量)            0.299389   
4              (画面质量)             (声音设计)            0.327902   
6            (主题, 人物)               (剧情)            0.130346   
7                (剧情)           (主题, 人物)            0.678208   
11  (整体适应性与创新性, 声音设计)             (画面质量)            0.150713   
10  (画面质量, 整体适应性与创新性)             (声音设计)            0.164969   
13             (声音设计)  (画面质量, 整体适应性与创新性)            0.299389   
12             (画面质量)  (整体适应性与创新性, 声音设计)            0.327902   

    consequent support   support  confi

###考虑support

In [None]:
import pandas as pd
import os
os.chdir('D:/研究生论文/小论文2/代码/03网络图/00关联分析_强关联规则/输出结果')
# 读取数据
data = pd.read_excel("./01关联规则结果/百妖谱/第1集.xlsx")

# 将 support 列的值乘以 100 并取整，保存在 weight 列
data['weight'] = (data['support'] * 100).astype(int)

# 创建一个新的 DataFrame，每行重复 weight 列中的值次数
repeated_data = data.loc[data.index.repeat(data['weight'])].reset_index(drop=True)

# 保存结果
repeated_data.to_excel("./02加入权重的关联规则/百妖谱/第1集_考虑support.xlsx", index=False)

# 打印结果
print(repeated_data)


In [None]:
import os
import pandas as pd

# 读取数据
data = pd.read_excel("D:/研究生论文/小论文2/代码/03网络图/00关联分析_强关联规则/输出结果/0202加入权重的关联规则/百妖谱/第1集_考虑support.xlsx")

# 创建新列，根据 '|' 符号拆分 merged_items 列，并命名新列
split_columns = data['merged_items'].str.split('|', expand=True)
split_columns.columns = [f"SFeature_{i+1}" for i in range(split_columns.shape[1])]

# 将拆分后的列添加到原始数据框中
data = pd.concat([data, split_columns], axis=1)

# 保存结果
data.to_excel("D:/研究生论文/小论文2/代码/03网络图/00关联分析_强关联规则/输出结果/03共线关系预备数据/百妖谱/第1集_拆分.xlsx", index=False)

# 打印结果
print(data)
