# 使用 apriori 算法分析春晚主持人名单

本案例选取了 1983 年至 2019 年一共 37 年春晚的主持人列表，从 [这里](https://baike.baidu.com/item/%E4%B8%AD%E5%A4%AE%E5%B9%BF%E6%92%AD%E7%94%B5%E8%A7%86%E6%80%BB%E5%8F%B0%E6%98%A5%E8%8A%82%E8%81%94%E6%AC%A2%E6%99%9A%E4%BC%9A/23286677?fromtitle=%E4%B8%AD%E5%A4%AE%E7%94%B5%E8%A7%86%E5%8F%B0%E6%98%A5%E8%8A%82%E8%81%94%E6%AC%A2%E6%99%9A%E4%BC%9A&fromid=7622174&fr=aladdin) 得到。

下面使用 apriori 算法分析一起出现的主持人名单，并得到关联规则

In [7]:
import csv

data = []

with open('春晚主持人名单.csv') as f:
    f_csv = csv.reader(f)
    header = next(f_csv)
    # print(header)
    for row in f_csv:
        data.append(row[1:])

In [6]:
data

[['马季', '姜昆', '王景愚', '刘晓庆'],
 ['姜昆', '赵忠祥', '卢静', '黄阿原', '\xa0姜黎黎', '\xa0陈思思'],
 ['马季', '姜昆', '张瑜', '朱苑宜', '斑斑'],
 ['姜昆', '赵忠祥', '刘晓庆', '王刚', '方舒', '顾永菲'],
 ['李默然', '姜昆', '王刚', '李小玢'],
 ['孙道临', '姜昆', '王刚', '侯耀文', '薛飞', '卫华', '鞠萍'],
 ['李默然', '姜昆', '赵忠祥', '阚丽君', '李扬'],
 ['赵忠祥'],
 ['赵忠祥', '倪萍', '张宏民', '李瑞英'],
 ['赵忠祥', '倪萍', '杨澜'],
 ['梁雁翎', '李庆安', '张永权', '赵忠祥', '倪萍', '杨澜'],
 ['倪萍', '程前'],
 ['赵忠祥', '倪萍', '许戈辉'],
 ['赵忠祥', '倪萍', '程前', '袁鸣', '张晓', '周涛'],
 ['赵忠祥', '倪萍', '程前', '周涛', '朱军', '亚宁'],
 ['赵忠祥', '倪萍', '朱军', '周涛', '亚宁', '王雪纯', '刘纯燕', '曾媛', '何炅'],
 ['赵忠祥', '倪萍', '周涛', '朱军'],
 ['姜昆',
  '赵忠祥',
  '倪萍',
  '赵薇',
  '温兆伦',
  '王思懿',
  '濮存昕',
  '牛群',
  '冯巩',
  '杨澜',
  '周涛',
  '朱军',
  '白岩松',
  '曹颖',
  '文清',
  '赵琳',
  '李小萌',
  '崔永元',
  '文兴宇',
  '鞠萍'],
 ['朱军', '周涛', '张政', '曹颖'],
 ['倪萍', '朱军', '周涛', '李咏', '文清', '王小丫', '曹颖', '张政'],
 ['倪萍', '周涛', '朱军', '李咏', '张政', '文清'],
 ['倪萍', '周涛', '朱军', '李咏', '赵保乐', '文清'],
 ['朱军', '周涛', '李咏', '文清', '张泽群', '董卿'],
 ['朱军', '周涛', '李咏', '董卿', '刘芳菲', '张泽群'],
 ['朱军', '周涛',

In [8]:
from efficient_apriori import apriori

设置 `min_confidence=1` ，表示 $A$ 出现的前提下 $B$ 出现的概率至少是 $100\%$ ，就认为是强关联规则。

In [39]:
itemsets, rules = apriori(data, min_support=0.3, min_confidence=1)

for item_counter, item_frequency in itemsets.items():
    print('{}-项集有：'.format(item_counter))
    for item, fre in item_frequency.items():
        print('、'.join(item), '\t主持春晚 {} 次'.format(fre))
    print()

for rule in rules:
    print(rule)

1-项集有：
倪萍 	主持春晚 13 次
周涛 	主持春晚 17 次
朱军 	主持春晚 21 次
董卿 	主持春晚 13 次
赵忠祥 	主持春晚 13 次

2-项集有：
周涛、朱军 	主持春晚 16 次
朱军、董卿 	主持春晚 13 次

{董卿} -> {朱军} (conf: 1.000, supp: 0.351, lift: 1.762, conv: 432432432.432)


我们把最小支持度改成 $0.2$，即主持超过过 $7.4$ 届春晚就认为是频繁项集，我们看看结果。

In [42]:
itemsets, rules = apriori(data, min_support=0.2, min_confidence=1)

for item_counter, item_frequency in itemsets.items():
    print('{}-项集有：'.format(item_counter))
    for item, fre in item_frequency.items():
        print('、'.join(item), '\t主持春晚 {} 次'.format(fre))
    print()

for rule in rules:
    print(rule)

1-项集有：
倪萍 	主持春晚 13 次
周涛 	主持春晚 17 次
姜昆 	主持春晚 8 次
张泽群 	主持春晚 9 次
朱军 	主持春晚 21 次
李咏 	主持春晚 10 次
董卿 	主持春晚 13 次
赵忠祥 	主持春晚 13 次

2-项集有：
倪萍、周涛 	主持春晚 8 次
倪萍、赵忠祥 	主持春晚 9 次
周涛、朱军 	主持春晚 16 次
周涛、李咏 	主持春晚 8 次
周涛、董卿 	主持春晚 8 次
朱军、李咏 	主持春晚 10 次
朱军、董卿 	主持春晚 13 次

3-项集有：
周涛、朱军、李咏 	主持春晚 8 次
周涛、朱军、董卿 	主持春晚 8 次

{李咏} -> {朱军} (conf: 1.000, supp: 0.270, lift: 1.762, conv: 432432432.432)
{董卿} -> {朱军} (conf: 1.000, supp: 0.351, lift: 1.762, conv: 432432432.432)
{周涛, 李咏} -> {朱军} (conf: 1.000, supp: 0.216, lift: 1.762, conv: 432432432.432)
{周涛, 董卿} -> {朱军} (conf: 1.000, supp: 0.216, lift: 1.762, conv: 432432432.432)
