# Selenium 简易教程

[上次](https://github.com/hongtaoh/webscraping-tutorial/blob/master/tutorials/douban_movie_250.ipynb)我们讲到如何用 BeautifulSoup 来抓取豆瓣电影数据。那次我们首先分析了页面 url 的规则，我们看到 `https://movie.douban.com/top250?start=0&filter=` 变化的只有 `start = ` 后面的数字，所以我们用了一个 for 循环把这个问题解决了。但有的时候如果页面网址没有规则或者有规则但你无法用 for 循环解决，比如，我让你在第二页单独打开一个电影的信息，这时候就需要用到 Selenium。

简单来说，Selenium 的作用是，根据你的指令，他会像真人一样进行浏览器操作，比如，在搜索框输入内容、点击某一按钮等。

下面的教程参考了 [wistbean](https://github.com/wistbean) 的 [python爬虫 11](https://vip.fxxkpython.com/?p=4699) 以及 [Mars_Loo](https://blog.csdn.net/a464057216) 的[这篇博客](https://blog.csdn.net/a464057216/article/details/52717464)。

Selenium 稍复杂一点的地方在于，在下载了 `selenium` 这个 `python` 包之后，你需要下载相应的浏览器驱动器。我用的是 Mac FireFox。关于驱动器我在这里不讲了，网上应该能找到相应的帖子。

首先，第一步，点明要用的包：

In [1]:
import pandas as pd
import time
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC 
from selenium.common.exceptions import TimeoutException

## 第一步：打开 B 站

In [2]:
"""
- 我们首先让 selenium 打开一个浏览器页面
- 如果你用的是 Chrome, 那你要用 `webdriver.Chrome()`
- 你可以用别的名字，比如 `browser`，不一定非要用 `driver` 这个名字
- 这行代码运行后，你会看到浏览器打开
"""

driver = webdriver.Firefox()

In [3]:
"""
我们还需要 `Waits`。这是因为有时候页面加载比较慢。Waits 可以让 selenium 等一段时间，确保
我们需要的元素加载出来后再进行操作。这里，`10` 代表最多等 10 秒钟。

官方文档关于 Waits 的介绍：https://selenium-python.readthedocs.io/waits.html

我这里用了 `wait` 这个名字，你可以用任何你想用的。
"""

wait = WebDriverWait(driver, 10)

In [4]:
"""
接下来，我们要让浏览器打开某一网址。运行后，你应该看到浏览器自己打开了 Bilibili 网站。
"""

driver.get("https://www.bilibili.com/")

## 第二步：搜索 “蔡徐坤 打球”

B 站已经打开，我们现在需要让 Selenium 在搜索栏输入 “蔡徐坤 打球”。

像上次用 BeautifulSoup 抓取豆瓣一样，在浏览器中右键，然后打开 Insepct，我们能看到网站的 HTML 源代码。你能看到，搜索框在 `div.nav-search > form > input`。这个 `input` 的类是 `nav-search-keyword`，所以我们可以直接：

In [5]:
input = wait.until(EC.presence_of_element_located((
    By.CSS_SELECTOR, "input.nav-search-keyword"
)))

关于上面这行代码，我想说几点。

1. `input.nav-search-keyword` 中，`input` 可以不要。

2. 更稳妥的方法是用 `By.CSS_SELECTOR, ".nav-search > form > input"`。这样之所以稳妥，是因为，如果 `input` 没有“类”，那么我们就无法用 `input.nav-search-keyword` 来定位这个搜索框。用 `.nav-search > form > input` 的好处是，就算 `input` 没有类，或者类的名字过于复杂，那么只要 `.nav-search > form` 之下只有一个 `input`，那么我们也可以定位这个搜索框。
   
3. 我们也可以用以下两种方法中的任何一种。但我推荐用上面的方法，因为，还是我们提到的，用到 Waits 更保险。
   1. `input = driver.find_element(By.CSS_SELECTOR, ".nav-search-keyword")`
   2. `input = driver.find_element(By.CLASS_NAME, "nav-search-keyword")`
   

现在我们定位到了搜索框，接下来就是在搜索框中输入关键字：

In [6]:
input.send_keys("蔡徐坤 打球")

上面这行代码运行结束后，你会看到搜索框中出现了“蔡徐坤 打球”这几个字。

接下来就是点击搜索按钮。首先，我们要定位到那个按钮，然后点击它。

In [7]:
"""
我们看到，搜索按钮的类名字很长：bilifont bili-icon_dingdao_sousuo nav-search-submit
这种情况下，用我们上面提到的一步一步往下移的方法更合适，也更方便
"""

submit = wait.until(EC.presence_of_element_located((
    By.CSS_SELECTOR, "div.nav-search > form > div > button"
)))

In [8]:
"""
这行代码点击后，你会看到出现了新窗口
"""

submit.click()

针对上面的 `submit` 那行代码，也有几点想提一下：

1. 你可以用 `EC.element_to_be_clickable`;
2. 你可以用 `By.XPATH, '//*[@class="nav-search"]/form/div/button'`

## 第三步：转换句柄

这里有一个重要的操作。`submit.click()` 运行结束后，一个新窗口出现，但是 Selenium 还停在之前的窗口，我们需要让 Selenium 知道，我们下面的操作，是针对新窗口，而不是旧窗口。因此，我们需要转换句柄。

我们先来看一下现在有几个窗口，不出意外的话，是两个：

In [9]:
all_handles = driver.window_handles

In [10]:
all_handles

['bc6aa173-428e-4c24-93b6-8b847b7f5d1a',
 '1b9e3e51-ff77-4bf6-b93f-ca3626c9824c']

In [11]:
"""
转到新窗口，需要用到 `switch_to.window()`函数
"""

driver.switch_to.window(all_handles[1])

## 第四步：获取单一页面视频信息

我们看到，视频都被包裹在一个 `ul` 里，这个 `ul` 的类名是 `video-list clearfix`。它下面是一个个 `li`，每一个 `li` 都是一个视频。

打开 `li` 之后，我们看到，有一个 `a`，有一个 `div.info`。

`a` 里面包含了视频链接和视频标题等信息，`div.info` 里包含了观看人数，上传时间，Up 主等信息。其实，在 `div.info` 里也有一个 `a`，和上面个 `a` 里的信息一模一样，有视频链接，也有视频标题。我们待会儿就爬取这些信息。

我们在爬取豆瓣时，用的是

```
html = response.text
soup = BeautifulSoup(html, 'html.parser')
```

这里也差不多：

In [12]:
"""
- `page.source` 函数获取本页 HTML 代码
- BeautifulSoup 解析
"""

html = driver.page_source
soup = BeautifulSoup(html, 'lxml')

In [13]:
# html
# soup

# 好奇的话，你可以分别看看 html 和 soup 分别是什么结果

In [14]:
"""
先找到所有的 `div.info` ，也就是本页所有视频的信息
"""

videoinfo_list = soup.find(
        'ul', attrs={'class': 'video-list clearfix'}).find_all(
        class_="info")

接下来的步骤就和上次爬取豆瓣一样了。我就直接贴代码了。

首先，我们先弄一个空的 `df`:

In [15]:
columns = ['title', 'link', 'view', 'uploader', 'upload time']
df = pd.DataFrame(columns = columns)

In [16]:
"""
对于本页所有视频，获取其视频标题、视频链接、观看人数、Up 主、上传时间
"""

for i in videoinfo_list:
    title = i.find('a').get('title')
    link = i.find('a').get('href')
    view = i.find(class_="so-icon watch-num").text
    uploader = i.find(class_="up-name").text
    upload_time = i.find(class_="so-icon time").text
    df.loc[df.shape[0]] = [title, link, view, uploader, upload_time]

In [17]:
"""
看下 df 是否更新。

我们看到，搜索结果页第一页上 20 个视频的信息，我们全部都抓取到了
"""

df

Unnamed: 0,title,link,view,uploader,upload time
0,蔡徐坤打球很菜？喷子们都来看看吧,//www.bilibili.com/video/BV1vb411U75m?from=sea...,\n 1083.3万\n,红烧肉块,\n 2019-02-14\n
1,蔡徐坤打球原版 万恶之源,//www.bilibili.com/video/BV1ub411T7mW?from=sea...,\n 6.4万\n,年少finding,\n 2019-04-13\n
2,黑子可以闭嘴了，蔡徐坤真的会打球，坤坤和鹿晗篮球较量，鹿晗对不起,//www.bilibili.com/video/BV1pb411n7X5?from=sea...,\n 14.5万\n,浅戈灬,\n 2019-03-17\n
3,蔡徐坤打球菜？这才是坤坤的真正实力！,//www.bilibili.com/video/BV1eb411L7Pt?from=sea...,\n 1845\n,坏掉的街灯,\n 2019-04-14\n
4,这才是蔡徐坤打球的真实水平 黑子们都闭嘴！！,//www.bilibili.com/video/BV1mb411T7Cj?from=sea...,\n 9.8万\n,性感的公牛,\n 2019-04-09\n
5,抖音看见北美训练时致敬蔡徐坤打球！火到美国了。,//www.bilibili.com/video/BV1mb411n7LR?from=sea...,\n 97.5万\n,魔法师小学徒,\n 2019-03-18\n
6,打球还不如只鸡？,//www.bilibili.com/video/BV1C5411T7FR?from=sea...,\n 117.2万\n,励志少女派,\n 2021-06-22\n
7,蔡徐坤打球原视频,//www.bilibili.com/video/BV17741147Ga?from=sea...,\n 2088\n,ROG-343,\n 2020-02-09\n
8,蔡徐坤打球鬼畜版，蔡徐坤小姐姐你太可爱啦！视频结尾5秒有？？？,//www.bilibili.com/video/BV1ab411W7ah?from=sea...,\n 186.0万\n,轨迹saber,\n 2019-03-29\n
9,【蔡徐坤】近期打球视频曝光，鸡你太美,//www.bilibili.com/video/BV1uV411y7i7?from=sea...,\n 367\n,Pluto普鲁特,\n 2020-10-09\n


## 第五步：依次点击“下一页”，并获取每页上的视频信息

总共有 50 页的视频，我们只获取了一页。如何获取全部页面的信息？

在豆瓣那个练习中，我们是根据页面网址规则来实现的，但我们现在用 Selenium, 可以直接让浏览器自动点击下一页，然后按照上面获取单个页面视频信息的方法来获取每一页的信息。

方便起见，我们把上面的代码封装一下：

In [18]:
"""
这里，我首先用了 wait.until，这样可以在确保页面加载缓慢的情况下，等页面找到视频信息后再运行代码。
"""

def save_to_df():
    wait.until(EC.presence_of_element_located((
        By.CSS_SELECTOR, "ul.video-list.clearfix"
    )))
    html = driver.page_source
    soup = BeautifulSoup(html, 'lxml')
    videoinfo_list = soup.find(
        'ul', attrs={'class': 'video-list clearfix'}).find_all(
        class_="info")
    for i in videoinfo_list:
        title = i.find('a').get('title')
        link = i.find('a').get('href')
        view = i.find(class_="so-icon watch-num").text
        uploader = i.find(class_="up-name").text
        upload_time = i.find(class_="so-icon time").text
        df.loc[df.shape[0]] = [title, link, view, uploader, upload_time]

如果第四步的代码你都理解了的话，上面这段代码应该很好理解，不用我过多解释。我只是把之前的代码弄到了一起而已。

接下里的代码，是让浏览器依次点击下一页，然后运行上面的 `save_to_df()` 函数，抓取当页视频信息，并写入 `df` 中。

In [19]:
def next_page(page_num):
    try:
        print('开始前往第 ' + str(page_num) + " 页")
        next_btn = wait.until(EC.element_to_be_clickable((
            By.CSS_SELECTOR, "li.page-item.next > button"
        )))
        time.sleep(5)
        next_btn.click()
        save_to_df()
        print('第 ' + str(page_num) + ' 页已抓取结束')
        
    except TimeoutException:
        driver.refresh()
        print('第 ' + str(page_num) + ' 页有错误')
        return next_page(page_num)

In [20]:
def main():
    try:
        for i in range(2, 51):
            next_page(i)
    finally:
        driver.close()
        driver.quit()

In [22]:
if __name__ == '__main__':
    main()

如果一切顺利，你会看到：

```
开始前往第 2 页
第 2 页已抓取结束
开始前往第 3 页
第 3 页已抓取结束
开始前往第 4 页
第 4 页已抓取结束
开始前往第 5 页
第 5 页已抓取结束
开始前往第 6 页
第 6 页已抓取结束
开始前往第 7 页
第 7 页已抓取结束
开始前往第 8 页
第 8 页已抓取结束
开始前往第 9 页
第 9 页已抓取结束
开始前往第 10 页
第 10 页已抓取结束
...
...
第 49 页已抓取结束
开始前往第 50 页
第 50 页已抓取结束

```

In [74]:
"""
我们看下 df 是否更新
"""

df

Unnamed: 0,title,link,view,uploader,upload time
0,蔡徐坤打球很菜？喷子们都来看看吧,//www.bilibili.com/video/BV1vb411U75m?from=sea...,\n 1083.3万\n,红烧肉块,\n 2019-02-14\n
1,蔡徐坤打球原版 万恶之源,//www.bilibili.com/video/BV1ub411T7mW?from=sea...,\n 6.4万\n,年少finding,\n 2019-04-13\n
2,蔡徐坤打球菜？这才是坤坤的真正实力！,//www.bilibili.com/video/BV1eb411L7Pt?from=sea...,\n 1845\n,坏掉的街灯,\n 2019-04-14\n
3,这才是蔡徐坤打球的真实水平 黑子们都闭嘴！！,//www.bilibili.com/video/BV1mb411T7Cj?from=sea...,\n 9.8万\n,性感的公牛,\n 2019-04-09\n
4,抖音看见北美训练时致敬蔡徐坤打球！火到美国了。,//www.bilibili.com/video/BV1mb411n7LR?from=sea...,\n 97.5万\n,魔法师小学徒,\n 2019-03-18\n
...,...,...,...,...,...
995,只因为你太美网易云评论,//www.bilibili.com/video/BV1Hb411j7UK?from=sea...,\n 2591\n,老诚子,\n 2019-04-15\n
996,蔡徐坤出来打球啦！！！,//www.bilibili.com/video/BV1N4411c7zv?from=sea...,\n 135\n,皮丢麻,\n 2019-07-08\n
997,小爱同学，蔡徐坤出来打球！好的,//www.bilibili.com/video/BV1Lb41147UY?from=sea...,\n 228\n,鲲吃星,\n 2019-03-24\n
998,（蔡徐坤最新打球視頻！！！）蔡徐坤打爆麻批性得分手獨砍22分！！！,//www.bilibili.com/video/BV1gb411E7YA?from=sea...,\n 290\n,Primebig根,\n 2019-03-18\n


In [76]:
"""
把 df 写入 CSV
"""

df.to_csv("../data/basketball_videos.csv")

## 改进

有几个我们可以改进的点：

1. 刚开始访问 B 站，然后搜索、点击、转换句柄的那些代码，我们可以组装起来。
2. 我们看到总共有 50 页，所以直接用了 `for i in range(2, 51)`，但这样比较容易出错，我们可以把总页数弄成一个变量，比如，`total`。先检查一共多少页，再把这个信息写入 `total`。

In [86]:
"""
把上面的代码组装起来。顺便看下结果总共有多少页。下面这个函数返回的结果是总页数
"""

def search():
    try:
        print('开始访问 b 站')
        driver.get('https://www.bilibili.com/')
        input = wait.until(
            EC.presence_of_element_located(
                (By.CSS_SELECTOR, ".nav-search > form > input")
            ))
        submit = wait.until(
            EC.presence_of_element_located(
                (By.CSS_SELECTOR, "div.nav-search > form > div > button")
            ))
        input.send_keys('蔡徐坤 打球')
        submit.click()
        print('跳转到新窗口')
        all_handles = driver.window_handles
        driver.switch_to.window(all_handles[1])
        save_to_df()
        total = wait.until(
            EC.presence_of_element_located((
                By.CSS_SELECTOR, "li.page-item.last > button"))
        )
        return int(total.text)
    except TimeoutException:
        return search()   

In [89]:
def main():
    try:
        total = search()
        for i in range(2, int(total+1)):
            next_page(i)
    finally:
        driver.close()
        driver.quit()

In [1]:
if __name__ == '__main__':
    main()

## 附录

- 完整代码在 [scripts/selenium-bilibili-script.py](https://github.com/hongtaoh/webscraping-tutorial/blob/master/scripts/selenium-bilibili-script.py)
- 数据在 []()