In [4]:
# 分析MovieLens 电影分类中的频繁项集和关联规则
import pandas as pd
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules

In [5]:
# 数据加载
movies = pd.read_csv('./movie_actors.csv')
#print(movies.head())
# 将genres进行one-hot编码（离散特征有多少取值，就用多少维来表示这个特征）
movies_hot_encoded = movies.drop('actors',1).join(movies.actors.str.get_dummies('/'))
pd.options.display.max_columns=100
print(movies_hot_encoded.head())


             title  GangZhao  LukeZhiGangLiu  PengZhenZhong  YuanFang  一纳  \
0       囧妈‎ (2020)         0               0              0         0   0   
1    我不是药神‎ (2018)         0               0              0         0   0   
2   我和我的祖国‎ (2019)         0               0              0         0   0   
3   疯狂的外星人‎ (2019)         0               0              0         0   0   
4  人再囧途之泰囧‎ (2012)         0               0              0         0   0   

   丁嘉丽  丁志城  丁志诚  丁黑  万弘杰  严敏  严晓频  中孝介  丹尼尔·海尼  乔任梁  九孔  于和伟  于波  于荣光  于谦  \
0    0    0    0   0    0   0    0    0       0    0   0    0   0    0   0   
1    0    0    0   0    0   0    0    0       0    0   0    0   0    0   0   
2    0    0    0   0    0   0    0    0       0    0   0    0   0    0   0   
3    0    0    0   0    0   0    0    0       0    0   0    1   0    0   0   
4    0    0    0   0    0   0    0    0       0    0   0    0   0    0   0   

   仁龙  付连智  任达华  任静  任鹏远  伊一  伊春德  伊能静  伊莎贝尔·于佩尔  优恵  何念  何炅  何琳  余彬

In [6]:
# 将movieId, title设置为index
movies_hot_encoded.set_index(['title'],inplace=True)
#print(movies_hot_encoded.head())
# 挖掘频繁项集，最小支持度为0.02
itemsets = apriori(movies_hot_encoded,use_colnames=True, min_support=0.05)
# 按照支持度从大到小进行时候粗
itemsets = itemsets.sort_values(by="support" , ascending=False) 
print('-'*20, '频繁项集', '-'*20)
print(itemsets)
# 根据频繁项集计算关联规则，设置最小提升度为2
rules =  association_rules(itemsets, metric='lift', min_threshold=2)
# 按照提升度从大到小进行排序
rules = rules.sort_values(by="lift" , ascending=False) 
#rules.to_csv('./rules.csv')
print('-'*20, '关联规则', '-'*20)
print(rules)

-------------------- 频繁项集 --------------------
     support      itemsets
2   0.760417          (徐峥)
7   0.156250          (黄渤)
11  0.093750      (黄渤, 徐峥)
1   0.072917          (宁浩)
0   0.062500         (于和伟)
6   0.062500          (陶虹)
8   0.062500      (宁浩, 徐峥)
9   0.062500      (宁浩, 黄渤)
13  0.062500  (宁浩, 黄渤, 徐峥)
3   0.052083         (王宝强)
4   0.052083          (王迅)
5   0.052083         (陈凯歌)
10  0.052083      (陶虹, 徐峥)
12  0.052083      (王迅, 黄渤)
-------------------- 关联规则 --------------------
  antecedents consequents  antecedent support  consequent support   support  \
3    (黄渤, 徐峥)        (宁浩)            0.093750            0.072917  0.062500   
4        (宁浩)    (黄渤, 徐峥)            0.072917            0.093750  0.062500   
2    (宁浩, 徐峥)        (黄渤)            0.062500            0.156250  0.062500   
5        (黄渤)    (宁浩, 徐峥)            0.156250            0.062500  0.062500   
6        (王迅)        (黄渤)            0.052083            0.156250  0.052083   
7        (黄渤)        (王迅)  