In [1]:
# 分析MovieLens 电影分类中的频繁项集和关联规则
import pandas as pd
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules

In [2]:
# 数据加载
movies = pd.read_csv('movie_actors.csv')
# print(movies.head())
# 将genres进行one-hot编码(离散特征有多少取值,就用多少维来表示这个特征)
movies_hot_encoded = movies.drop('actors',1).join(movies.actors.str.get_dummies('/'))
pd.options.display.max_columns=100
print(movies_hot_encoded.head())

title  GangZhao  LukeZhiGangLiu  PengZhenZhong  YuanFang  一纳  \
0       囧妈‎ (2020)         0               0              0         0   0   
1    我不是药神‎ (2018)         0               0              0         0   0   
2   我和我的祖国‎ (2019)         0               0              0         0   0   
3   疯狂的外星人‎ (2019)         0               0              0         0   0   
4  人再囧途之泰囧‎ (2012)         0               0              0         0   0   

   丁嘉丽  丁志城  丁志诚  丁黑  万弘杰  严敏  严晓频  中孝介  丹尼尔·海尼  乔任梁  九孔  于和伟  于波  于荣光  于谦  \
0    0    0    0   0    0   0    0    0       0    0   0    0   0    0   0   
1    0    0    0   0    0   0    0    0       0    0   0    0   0    0   0   
2    0    0    0   0    0   0    0    0       0    0   0    0   0    0   0   
3    0    0    0   0    0   0    0    0       0    0   0    1   0    0   0   
4    0    0    0   0    0   0    0    0       0    0   0    0   0    0   0   

   仁龙  付连智  任达华  任静  任鹏远  伊一  伊春德  伊能静  伊莎贝尔·于佩尔  优恵  何念  何炅  何琳  余彬  余文乐  余男  \


In [3]:
# 将movieId, title设置为index
movies_hot_encoded.set_index(['title'],inplace=True)
# print(movies_hot_encoded.head())
# 挖掘频繁项集,最小支持度为0.02
itemsets = apriori(movies_hot_encoded,use_colnames=True,min_support=0.05)
# 按照支持度从大到小进行排序
itemsets = itemsets.sort_values(by='support',ascending=False)
print('-'*20,'频繁项集','-'*20)
print(itemsets)
# 根据频繁项集计算关联规则,设置最小提升度为2
rules = association_rules(itemsets,metric='lift',min_threshold=2)
# 按照提升度从大到小进行排序
rules = rules.sort_values(by="lift" , ascending=False) 
rules.to_csv('./rules.csv',encoding='gbk')
print('-'*20, '关联规则', '-'*20)
print(rules)

-------------------- 频繁项集 --------------------
     support      itemsets
2   0.742268          (徐峥)
7   0.154639          (黄渤)
11  0.092784      (黄渤, 徐峥)
1   0.072165          (宁浩)
0   0.061856         (于和伟)
6   0.061856          (陶虹)
8   0.061856      (徐峥, 宁浩)
9   0.061856      (黄渤, 宁浩)
13  0.061856  (黄渤, 徐峥, 宁浩)
3   0.051546         (王宝强)
4   0.051546          (王迅)
5   0.051546         (陈凯歌)
10  0.051546      (陶虹, 徐峥)
12  0.051546      (黄渤, 王迅)
-------------------- 关联规则 --------------------
  antecedents consequents  antecedent support  consequent support   support  \
2    (黄渤, 徐峥)        (宁浩)            0.092784            0.072165  0.061856   
5        (宁浩)    (黄渤, 徐峥)            0.072165            0.092784  0.061856   
3    (徐峥, 宁浩)        (黄渤)            0.061856            0.154639  0.061856   
4        (黄渤)    (徐峥, 宁浩)            0.154639            0.061856  0.061856   
6        (黄渤)        (王迅)            0.154639            0.051546  0.051546   
7        (王迅)        (黄渤)  