# 31、关联规则挖掘:导演如何选择演员

关联规则挖掘在生活中有很多使用的场景，不仅仅是商品的捆绑销售，甚至在导演挑选演员的决策上，我们也能通过关联规则挖掘看出来某个导演选择演员的倾向。

我们需要掌握下面几点：
- 1、必须熟悉几个重要的概念：支持度、置信度和提升度。
- 2、熟悉与掌握Apriori工具包的使用
- 3、在实际问题中，灵活运用。包括数据集的准备等。

## 如何使用Apriori工具包

Apriori虽然是十大算法之一，但是sklearn工具包中并没有它，也没有FP-Growth算法。我们可以在https://pypi.org/ 搜索工具包。

这里使用的工具包是efficient-apriori。我这里的环境是Ubuntu18.04，所以使用下面命令安装：

```bash
 sudo pip3 install efficient-apriori
```
然后看下该如何使用它，核心的代码就是这么一行：


In [None]:
itemsets, rules = apriori(data, min_support, min_confidence)

其中data是我们要提供的数据集，它是一个list数组类型。min_support参数为最小支持度，在efficient-apriori工具包中使用到0到1的数值代表百分比，比如0.5代表最小的支持度为50%。min_confidence是最小置信度，数值也代表百分比，比如1代表100%。

回顾支持度、置信度和提升度的概念：
- 支持度：指的是某个商品组合出现的次数与总次数之间的比例。支持度越高，代表这个组合出现的概率越大。
- 置信度：是一个条件概念，就是在A发生的情况下，B发生的概率是多少。
- 提升度：代表的是“商品A出现，对商品B的出现的概率提升了多少”。

那么如何使用这个工具包，我们可以跑一下之前的超市的购物篮例子。下面是客户购买的商品列表：


|订单编号|购买的商品|
|--|--|
|1|牛奶、面包、尿布|
|2|可乐、面包、尿布、啤酒|
|3|牛奶、尿布、啤酒、鸡蛋|
|4|面包、牛奶、尿布、啤酒|
|5|面包、牛奶、尿布、可乐|

具体的实现代码如下：

In [2]:
from efficient_apriori import apriori
# 设置数据集
data = [('牛奶','面包','尿布'),
        ('可乐','面包','尿布','啤酒'),
        ('牛奶','尿布','啤酒','鸡蛋'),
        ('面包','牛奶','尿布','啤酒'),
        ('面包','牛奶','尿布','可乐')]
# 挖掘频繁项集和频繁规则
itemsets, rules = apriori(data, min_support=0.5, min_confidence=1)
print(itemsets)
print(rules)

{1: {('啤酒',): 3, ('尿布',): 5, ('牛奶',): 4, ('面包',): 4}, 2: {('啤酒', '尿布'): 3, ('尿布', '牛奶'): 4, ('尿布', '面包'): 4, ('牛奶', '面包'): 3}, 3: {('尿布', '牛奶', '面包'): 3}}
[{啤酒} -> {尿布}, {牛奶} -> {尿布}, {面包} -> {尿布}, {牛奶, 面包} -> {尿布}]


我们能够从代码中看出来，data是个List数组类型，其中每个值都可以是一个集合。实际上你也可以把data数组中的每个值设置为List类型，比如：

In [3]:
from efficient_apriori import apriori
# 设置数据集
data = [['牛奶','面包','尿布'],
        ['可乐','面包','尿布','啤酒'],
        ['牛奶','尿布','啤酒','鸡蛋'],
        ['面包','牛奶','尿布','啤酒'],
        ['面包','牛奶','尿布','可乐']]
# 挖掘频繁项集和频繁规则
itemsets, rules = apriori(data, min_support=0.5, min_confidence=1)
print(itemsets)
print(rules)

{1: {('啤酒',): 3, ('尿布',): 5, ('牛奶',): 4, ('面包',): 4}, 2: {('啤酒', '尿布'): 3, ('尿布', '牛奶'): 4, ('尿布', '面包'): 4, ('牛奶', '面包'): 3}, 3: {('尿布', '牛奶', '面包'): 3}}
[{啤酒} -> {尿布}, {牛奶} -> {尿布}, {面包} -> {尿布}, {牛奶, 面包} -> {尿布}]


两者的运行结果都是一样的，efficient_apriori工具包把每一条数据集里面的项式都放到了一个集合中进行云运算，并没有考虑他们之间的先后顺序。因为在实际情况下，同一个购物篮中的物品也是不需要考虑先后顺序的。

而其他的Apriori算法可能会因为考虑了先后顺序，出现了计算频繁项集结果不对的情况。所以这里采用的是efficient-apriori这个工具包。

## 挖掘导演是如何选择演员的

实际工作中，数据集都是需要自己来准备的，我们要挖掘导演如何选择演员的数据，但是没有公开的数据源可以使用，因此我们可以使用Python爬虫进行数据采集。不同的演员选择演员的规则是不同的。数据源采用的是豆瓣电影：https://movie.douban.com/subject_search?search_text=宁浩&cat=1002&start=0

要抓取的电影导演宁浩的数据：我们对页面的信息进行观察得到信息：

1、理解HTML文档结构，分析需要抓取的页面内容。

2、分析不同元素之间内在相同的规则，编写对应的xpath抓取规则。

抓取代码如下：

In [None]:
# -*- coding:utf-8 -*-
# 下载某个导演的电影数据
from efficient_apriori import apriori
from lxml import etree
import time
from selenium import webdriver
import csv
driver = webdriver.Chrome("/home/toohoo/Desktop/chromedriver_linux64/chromedriver")
# 设置想要下载的导演数据集
director = u'宁浩'
# 写数据到CSV文件
file_name = './' + director + '.csv'
base_url = 'https://movie.douban.com/subject_search?search_text=' + director + '&cat=1002&start='
out = open(file_name, 'w', newline='', encoding='utf-8-sig')
csv_write = csv.writer(out, dialect='excel')
flags=[]
# 下载指定的页面的数据
def download(request_url):
    driver.get(request_url)
    time.sleep(5)
    html = driver.find_element_by_xpath("//*").get_attribute("outerHTML")
    html = etree.HTML(html)
    # 设置电影名称，导演演员的XPATH(其实不用那么长的)
    movie_lists = html.xpath("/html/body/div[@id='wrapper']/div[@id='root']/div[1]//div[@class='item-root']/div[@class='detail']/div[@class='title']/a[@class='title-text']")
    name_lists = html.xpath("/html/body/div[@id='wrapper']/div[@id='root']/div[1]//div[@class='item-root']/div[@class='detail']/div[@class='meta abstract_2']")
    # 获取返回的数据个数
    num = len(movie_lists)
    if num > 15: # 第一页会有16条数据
        # 默认第一个不是，所以需要去掉
        movie_lists = movie_lists[1:]
        name_lists = name_lists[1:]
    for (movie, name_list) in zip(movie_lists, name_lists):
        # 会存在数据为空的情况
        if name_list.text is None:
            continue
        # 显示下演员名称
        print(name_list.text)
        names = name_list.text.split('/')
        # 判断导演是否为指定的 director
        if names[0].strip() == director and movie.text not in flags:
            # 将第一个字段设置为电影名称
            names[0] = movie.text
            flags.append(movie.text)
            csv_write.writerow(names)
    print('OK') # 代表这页数据下载成功
    print(num)
    if num >= 14: # 有可能一页会有14个电影
        # 继续下一页
        return True
    else:
        # 没有下一页
        return False
    
# 开始的ID为0， 每页增加15
start = 0
while start < 10000:
    request_url = base_url + str(start)
    # 下载数据，并返回是否有下一页
    flag = download(request_url)
    if flag:
        start = start + 15
    else:
        break
out.close()
print('finished')
            

现在的服务器已经可以检测出是使用selenium来模拟控制浏览器爬取数据了，所以只能抓取到第一页的数据，其实使用源生的requests，携带请求信息还是可以进行的。直接在jupyter notebook里面运行不行，必须要使用终端运行文件。

在引用包这一段，我们使用csv工具包读取csv文件，用efficient_apriori完成Apriori算法，使用lxml进行XPath解析，time工具包可以让我们在模拟后有个适当的停留，代码中可以设置1秒钟（其实没有什么用，还是被对方服务器识别出来了），等HTML数据完全返回之后再进行HTML内容的获取。使用selenium的webdriver来模拟浏览器的行为（然而被识别出来了，还没有找到破解）

在读写文件这一块，我们需要事先告诉Python的open函数，文件的编码是utf-8-sig（对应代码：encoding=UTF-8-sig），这是因为我们会用到中文，为了避免编码混乱

编写download函数，参数传入我们要采集的页面地址（request_url）。针对返回的HTML。我们需要用到之前讲到的Chrome浏览器的Xpath Helper工具，来获取电影名称以及演出人员的XPath。用页面返回的数据个数来判断当前所处的页面序号。如果数据个数大于15，也就是第一页，第一页的第一条数据是广告，我们需要忽略。如果数据个数=15，代表的是中间页，需要点击“下一页”，也就是翻页。如果数据个数<15,代表最后一页，没有下一页。

在程序的主体部分，我们设置start代表抓取的ID，从0开始最多抓取1万部电影数据（一个导演不会有超过一万部的电影），每次翻页start自动增加15，直到flag=False为止，也就是不存在下一页的情况。

下面的是抓取到的宁浩的部分数据，基本够用：

![image.png](attachment:image.png)

有了数据之后，我们就可以用Apriori算法来挖掘频繁项集和关联规则，代码如下：

In [8]:
# -*- coding:utf-8 -*-
# 下载某个导演的电影数据
from efficient_apriori import apriori
import csv
director = u'宁浩'
file_name = './' + director + '.csv'
lists = csv.reader(open(file_name, 'r', encoding='utf-8-sig'))
# 数据加载
data = []
for names in lists:
    name_new = []
    for name in names:
        # 去掉演员数据中的空格
        name_new.append(name.strip())
    data.append(name_new[1:])
# 挖掘频繁项集和关联规则,这里的最小支持度是0.5，最小置信度为1
itemsets, rules = apriori(data, min_support=0.5, min_confidence=1)
print(itemsets)
print(rules)


{1: {('刘桦',): 3, ('徐峥',): 5, ('黄渤',): 5}, 2: {('徐峥', '黄渤'): 5}}
[{黄渤} -> {徐峥}, {徐峥} -> {黄渤}]


代码中使用的Apriori方法和开头中使用的Apriori获取购物篮的方法类似，比如代码中都设定了最小支持度和最小的置信系数，这样我们就可以找到支持度大于50%，置信系数为1的频繁项集和关联规则。

从上面的代码中可以看出，宁浩喜欢用徐峥和黄渤，在有徐峥的情况下，一般都会用黄渤，反过来也一样。

## 总结
1、注意知识点
- APriori算法的核心是理解频繁项集和关联规则。
- 在算法的运算的过程中，还要重点掌握支持度和置信度和提升度的理解。
- 在工具的使用上，可以使用efficient_apriori这个工具包，它会把每一条数据中的项（item）放到一个集合（篮子）里面来处理，不考虑（item）之间的先后顺序。

2、在实际的运用中需要灵活处理，比如导演如何选择演员的这个案例，虽然工具的使用会很方便，但是重要的还是数据挖掘前的数据准备过程，也就是获取某个导演的电影数据集。

3、Apriori实战
- 工具包
    - efficient_apriori工具包
        - itemsets,rules = apriori(data, min_support, min_confidence)
        - 每一条数据中的项，不考虑其先后顺序，按照集合的方式来处理
    - 如何找到工具包：https://pypi.org
- 导演如何选择演员
    - 数据采集
        - CSV文件读取：CSV工具包
        - Xpath解析：lxml工具包
        - 浏览器模拟：selenium和webdriver工具包
    - 关联规则挖掘
        - Apriori算法：efficient-apriori工具包

![](Apriori实战.png)