
## 4.1 Selenium库进阶知识

### 4.1.1. 浏览器窗口最大化

``` maximize_window()```函数可将模拟浏览器窗口最大化

### 4.1.2. 定位元素并模拟鼠标和键盘操作


#### (1) XPath法

XPath可以理解为网页元素的名字或ID。find_element_by_xpath()函数可根据XPath表达式定位网页元素，其基本语法格式如下：
```browser.find_element_by_xpath('XPath表达式')```   
利用开发者工具可获取网页元素的XPath表达式。按【F12】键打开开发者工具，❶单击元素选择工具按钮，❷在网页中选中搜索框，❸再在“Elements”选项卡中右击搜索框对应的那一行源代码，❹在弹出的快捷菜单中执行“Copy>Copy XPath”命令，即可把搜索框的XPath表达式复制到剪贴板，在编写代码时就可以粘贴到函数中作为参数。   
用上述方法获取的搜索框的XPath表达式是``` “//*[@id="kw"]”```，由此可编写出自动在搜索框里。   
如果搜索框里有默认文本，可使用如下代码清空默认文本，再通过send_keys()输入内容。
``` browser.find_element_by_xpath('//*[@id="kw"]').clear() ```   
用同样的方法获取“百度一下”按钮的XPath表达式为“//*[@id="su"]”，那么要模拟单击该按钮，在之前的代码后面继续输入如下代码即可：
``` browser.find_element_by_xpath('//*[@id="su"]').click() ```
这一行代码先用browser.find_element_by_xpath('//*[@id="su"]')定位“百度一下”按钮，再通过.click()模拟鼠标单击的操作。
最后的运行结果是，它实现了自动打开一个浏览器并访问百度首页，在搜索框里输入“python”并单击“百度一下”按钮进行搜索。

In [4]:
# 打开浏览器，输入网址，输入搜索词，enter，关闭
# selenium Xpath选择器
from selenium import webdriver  # 导入Selenium库中的webdriver功能
import time
browser = webdriver.Edge()  # 声明要模拟的浏览器是edge
browser.maximize_window()   # 将模拟浏览器窗口最大化
browser.get('https://www.baidu.com/')   # 在模拟浏览器中打开指定网址
browser.find_element_by_xpath('//*[@id="kw"]').send_keys('python')
browser.find_element_by_xpath('//*[@id="su"]').click()
time.sleep(2)
browser.quit()  # 关闭模拟浏览器

  browser.find_element_by_xpath('//*[@id="kw"]').send_keys('python')
  browser.find_element_by_xpath('//*[@id="su"]').click()



#### (2) CSS选择器法

CSS选择器是另一种定位网页元素的手段。find_element_by_css_selector()函数可以根据CSS选择器定位网页元素，其基本语法如下：
```
browser.find_element_by_css_selector('CSS选择器')
```
与XPath表达式类似，CSS选择器也可通过开发者工具获取。右击网页元素对应的源代码，在弹出的快捷菜单中执行“Copy>Copy selector”命令即可复制CSS选择器。

用上述方法获取搜索框和“百度一下”按钮的CSS选择器分别为“#kw”和“#su”，由此编写出完整代码如下：

In [3]:
from selenium import webdriver
import time
browser = webdriver.Edge()
browser.get('https://www.baidu.com')
browser.find_element_by_css_selector('#kw').send_keys('python')
browser.find_element_by_css_selector('#su').click()
time.sleep(2)
browser.quit()

  browser.find_element_by_css_selector('#kw').send_keys('python')
  browser.find_element_by_css_selector('#su').click()


### 4.1.3. 无界面浏览器模式

如果希望运行代码时不弹出模拟浏览器窗口，就要启用无界面浏览器（Chrome Headless）模式，把浏览器转到后台运行而不显示出来。方法也很简单，把browser = webdriver.Chrome()替换成如下代码：
```
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
browser = webdriver.Chrome(options=chrome_options)
```   
用这个设置来获取百度首页的网页源代码，代码如下：

In [None]:
from selenium import webdriver
edge_options = webdriver.EdgeOptions()
edge_options.add_argument('--headless')
browser = webdriver.Edge(options=edge_options)
browser.get('https://www.baidu.com/')
data = browser.page_source
print(data)

###  4.1.4. 其他知识点
Selenium库的以下3个知识点，虽然用得不多，但也很重要，将在之后的章节逐步讲解。


-  切换子页面（网页中的网页），将在4.5节结合案例详细讲解。
- 切换浏览器同级页面，将在4.5节的“补充知识点”中详细讲解。
- 控制滚动条滚动，将在《零基础学Python网络爬虫案例实战全流程详解（高级进阶篇）》3.3节的综合案例中详细讲解。

```python
browser.switch_to.frame('子页面的name属性值')
handless = browser.window_handles   # 获取浏览器所有窗口的句柄
browser.switch_to.window(handless[0])    # 切换到第一个窗口，即最开始打开的窗口
browser.switch_to.window(handles[-1])   # 切换到倒数第一个窗口，即最新打开的窗口
```

## 4.2 新浪财经股票行情数据爬取

### 4.2.1 用Selenium库爬取股票行情数据

1. 获取网页源代码

In [None]:
from selenium import webdriver
browser = webdriver.Edge()
browser.get('http://finance.sina.com.cn/realstock/company/sh600519/nc.shtml')
data = browser.page_source
browser.quit()
print(data)

2.解析网页源代码并提取数据

经过观察可以发现，包含股价的网页源代码有如下规律：   
```<div id="price" class="up/down">股价</div>``` 
     
```该<div>标签的id属性为“price”，之前讲过，id属性类似于身份证号，一个网页中各个元素的id属性一般不会重复，因此，可以用这个<div>标签作为一个强定位条件。```
```
此外，该<div>标签的class属性表示股价是上涨还是下跌，上图中的“down”表示下跌。如果是上涨的话，class属性则为“up”，感兴趣的读者可以找一只上涨的股票进行验证。```
根据找到的规律，编写出用正则表达式提取股价的代码如下： 

In [None]:
import re
p_price = '<div id="price" class=".*?">(.*?)</div>'
price = re.findall(p_price, data)

完整代码如下：

In [7]:
from selenium import webdriver
import re
browser = webdriver.Edge()
browser.get('http://finance.sina.com.cn/realstock/company/sh600519/nc.shtml')
data = browser.page_source
browser.quit()
p_price = '<div id="price" class=".*?">(.*?)</div>'
price = re.findall(p_price, data)
print(price)

['1849.97']


### 4.2.2 用新浪财经API爬取股票行情数据

除了用Selenium库爬取网页上的数据，还可以通过新浪财经API（数据接口）快速爬取股票行情实时数据。同样以“贵州茅台”（股票代码600519）为例，访问网址http://hq.sinajs.cn/list=sh600519，即可获得该股票的实时行情数据。先用浏览器访问该网址，获得的内容如下图所示。

In [2]:
import requests
url = 'http://hq.sinajs.cn/list=sh600519'
res = requests.get(url).text
print(res)

Kinsoku jikou desu!


### 4.2.3 用Tushare库获取股票行情数据

前面讲解了如何获取股票行情的实时数据，如果想获取股票行情的历史数据，可以使用Python的第三方库Tushare。用命令“pip install tushare”安装该库，如果安装失败，可尝试从镜像服务器安装。


下面简单演示一下Tushare库的用法。先获取“贵州茅台”（股票代码600519）的行情历史数据，代码如下：

In [3]:
import tushare as ts
df = ts.get_hist_data('600519', start = '2018-01-01', end = '2022-02-15')   # 返回历史数据DataFrame格式的表格

本接口即将停止更新，请尽快使用Pro版接口：https://tushare.pro/document/2


其中，open为开盘价，high为最高价，close为收盘价，low为最低价，volume为成交量，price_change为价格变化（今日收盘价－昨日收盘价），p_change为价格涨跌幅（price_change/昨日收盘价），ma5为5日均线价格，v_ma5为5日均线成交量，turnover为换手率（成交量/总股数）。注意，如果不写start和end参数，直接写ts.get_hist_data('600519')，会默认调取从当天往前3年的数据。

## 4.3 东方财富网数据爬取

### 4.3.1 上市公司股吧帖子爬取

首先用Selenium库请求网页并获取网页源代码，代码如下：

In [None]:
from selenium import webdriver
browser = webdriver.Edge()
browser.get('https://guba.eastmoney.com/list,600519.html')
data = browser.page_source
browser.quit()
print(data)

无界面浏览器模式:

In [None]:
from selenium import webdriver
edge_options = webdriver.EdgeOptions()
edge_options.add_argument('--headless')
browser = webdriver.Edge(options=edge_options)
browser.get('https://guba.eastmoney.com/list,600519.html')
data = browser.page_source
print(data)

打印输出网页源代码data，通过观察，发现包含帖子标题的网页源代码有如下规律：
\<a href="帖子网址" title="帖子标题全称"\>帖子标题简称\</a\>
这里只需要提取标题全称，编写出用正则表达式提取标题的代码，完整代码如下：

In [9]:
from selenium import webdriver
edge_options = webdriver.EdgeOptions()
edge_options.add_argument('--headless')
browser = webdriver.Edge(options=edge_options)
browser.get('https://guba.eastmoney.com/list,600519.html')
data = browser.page_source
import re
p_title = '<a href=".*?" title="(.*?)"'
title = re.findall(p_title, data)
for i in range(len(title)):
    print(str(i + 1) + '.' + title[i])

1.连续6日净买入 贵州茅台获沪股通净买入10.01亿元
2.丁雄军虎年大动作：时隔24年后 茅台营销体系迎来大变革！
3.茅台董事长：把“美”作为营销核心理念 与消费者形成情感共同体
4.巴菲特：优秀的投资者，第一追求的是正确，其次才是赚钱
5.理财自媒体“基少成多”
6.新能源的灾难，买股票，常识最重要
7.茅台马上要变茅坑了，白酒都在打折卖，以前过春节房地产行业要送掉好多茅台，今年都没
8.白酒还是估值太高，过早入场将步平安和医药的后尘！
9.基金反着买，别墅靠大海
10.知名财经自媒体
11.注册金融分析师（一级）
12.散户宣言：宁不炒股也不接宁王和茅台的盘，拉的越高摔的越惨，散户大笑一声，你也有今
13.鲁酒之痛，酒量NO.1的山东为什么跑不出“酒王”？
14.如果是基金拼命买贵州茅台、宁德时代、比亚迪等高价高位股，这些股大概已经透支了未来
15.白菜价买特大金山～3.4元栖霞建设
16.对于元宇宙行业发展后市，彭博研究预计市场规模将在2024年达到8000亿美元。
17.林园采访问答干货2022年2月14日
18.$贵州茅台(SH600519)$茅台一涨，后面准没好事。
19.炒茅台的是不是傻？华北制药十倍大牛股！
20.炒作骗局破灭。会跌到2块钱或退市
21.要瓦解跌到2块钱或退市吗。现在家家户户公司可以定价比贵州茅台高炒作骗局被揭穿了。
22.远离基金重仓股！
23.林园采访问答干货2022年2月14日
24.收藏！2022年投什么？环保中的高科技！——————————————为何说掘金“
25.$贵州茅台(SH600519)$1905.99mt防作反，立即切换，扫盘吃进3.
26.A股陷入补跌行情中！指数继续下行，到底该何时出手？
27.独立财经评论员
28.$贵州茅台(SH600519)$王者就是王者，几年了，没有辜负我！
29.$贵州茅台(SH600519)$1905茅台防作反，立即切换，扫盘吃进栖霞建设
30.基金放开限额，有钱了，拉了？可怜的基民
31.市场大乱修复中，但大伙集体预期还有一条大长腿没出来，创业板在宁王大返4%的配合下
32.必看｜黄世霖减持27倍牛股宁德时代 进焦点就是为了把焦点打造成第二个数字宁德
33.$贵州茅台(SH600519)$关键时刻还得看我毛哥
34.已卖，你们都跑了么
35.茅台不涨大盘难涨，茅台A股的希望

### 4.3.2 上市公司新闻爬取

#### 4.3.2.1 获取网页源代码

In [None]:
from selenium import webdriver
edge_options = webdriver.EdgeOptions()
edge_options.add_argument('--headless')
browser = webdriver.Edge(options=edge_options)
browser.get('https://so.eastmoney.com/news/s?keyword=格力电器')
data = browser.page_source

#### 4.3.2.2 用正则表达式提取数据

在浏览器中用开发者工具定位或者在Python打印输出的网页源代码中用快捷键【Ctrl+F】搜索，可以较容易地找到包含新闻标题和来源的网页源代码的规律
   
日期的提取稍微有点难度。先用开发者工具进行分析。

提取新闻标题、网址、日期的完整代码如下：

In [None]:

p_title = '<div class="news_item_t"><a href=.*?>(.*?)</a>'
p_href = '<div class="news_item_t"><a href=(.*?)>.*?</a>'
p_date = '<span class="news_item_time">(.*?)</span>'
title = re.findall(p_title, data)
href = re.findall(p_href, data)
date = re.findall(p_date, data, re.S)

需要注意的是，其中提取日期的“(.*?)”可能包括换行，所以在对应的findall()函数中要添加re.S修饰符来自动考虑换行的影响，否则提取的日期数量会不正确。
<br>可以利用print()函数检查提取到的内容，或者利用len()函数检查各个列表的元素数量是否一致。

#### 4.3.2.3 数据清洗及打印输出

数据清洗相对容易。标题里有一些类似<em>的字符串，可以用sub()函数清除；日期需要利用split()函数拆分出来。代码如下：

In [None]:
for i in range(len(title)):
    title[i] = re.sub('<.*?>', '', title[i])
    date[i] = date[i].split(' ')[0]
    print(str(i+1) + '.' + title[i] + ' - ' + date[i])
    print(href[i])

#### 4.3.2.4 利用自定义函数实现批量爬取多家公司的新闻

函数的定义和调用主要是在网址上做文章，把网址```“https://so.eastmoney.com/news/s?keyword=格力电器”```中的```“格力电器”```换成其他上市公司名称即可。具体来说，只需对原来的代码做如下调整：

In [None]:
url = 'https://so.eastmoney.com/news/s?keyword=' + company
browser.get(url)

再补上异常处理模块，完整代码如下：

In [6]:
from selenium import webdriver
import re
edge_options = webdriver.EdgeOptions()
edge_options.add_argument('--headless')
browser = webdriver.Edge(options=edge_options)
def dongfang(company):
    
    url = 'https://so.eastmoney.com/news/s?keyword=' + company
    browser.get(url)
    data = browser.page_source
    p_title = '<div class="news_item_t"><a href=.*?>(.*?)</a>'
    p_href = '<div class="news_item_t"><a href=(.*?)>.*?</a>'
    p_date = '<span class="news_item_time">(.*?)</span>'
    title = re.findall(p_title, data)
    href = re.findall(p_href, data)
    date = re.findall(p_date, data, re.S)
    for i in range(len(title)):
        title[i] = re.sub('<.*?>', '', title[i])
        date[i] = date[i].split(' ')[0]
        print(str(i+1) + '.' + title[i] + ' - ' + date[i])
        print(href[i])

companies = ['格力电器', '阿里巴巴', '腾讯', '京东']
for i in companies:
    try:
        dongfang(i)
        print(i + ':该公司东方财富网爬取成功')
    except:
        print(i + ':该公司东方财富网爬取失败')


1.超55亿元大手笔分红 对股东格外大方的格力电器员工待遇如何？ - 2022-02-15
"http://finance.eastmoney.com/a/202202152276561336.html" target="_blank"
2.格力电器拟派现超55亿 - 2022-02-15
"http://finance.eastmoney.com/a/202202152276065376.html" target="_blank"
3.董小姐发红包 格力电器阔绰派发55亿元 - 2022-02-15
"http://finance.eastmoney.com/a/202202152276062656.html" target="_blank"
4.派发2021年中期现金红包 格力电器一年两分或成常态 - 2022-02-15
"http://finance.eastmoney.com/a/202202152276062314.html" target="_blank"
5.格力电器公布高分红预案 拟派现金股利超55亿元 - 2022-02-15
"http://finance.eastmoney.com/a/202202152276055789.html" target="_blank"
6.新一轮董事会换届前夕 格力电器再派中期“现金红包” “一年两分”或成常态？ - 2022-02-14
"http://finance.eastmoney.com/a/202202142275998128.html" target="_blank"
7.格力情人节前夜发55亿大红包！董明珠连任“板上钉钉”？ - 2022-02-14
"http://finance.eastmoney.com/a/202202142275985231.html" target="_blank"
8.屡次分红股价疲软 董事会换届前格力再发55亿分红大礼包 - 2022-02-14
"http://finance.eastmoney.com/a/202202142275857441.html" target="_blank"
9.格力电器拟分红超55亿元 占当期净利润70% - 2022-02-14
"http://finance.eastmoney.com/a/202202142275677337

### 4.3.3 上市公司研报PDF文件下载

在东方财富网首页的搜索框中输入“格力电器”，在搜索结果中选择“研报”频道，即可看到格力电器相关的研报，搜索结果页面的网址为https://so.eastmoney.com/Yanbao/s?keyword=格力电器。
<br>
单击第1个研报的链接，打开其详情页面，可以看到页面中并没有直接显示研报内容，而是需要单击“【点击查看PDF原文】”链接来查看PDF文件，如下图所示。
<br>
然后跳转到如下图所示的页面，地址栏中扩展名为“.pdf”的网址就是PDF文件的网址，可按3.7节讲解的方法下载。如果想实现批量下载，就要获取各个研报的PDF文件网址。

4.3.3.1 下载单个页面的PDF文件

先从搜索结果中单个页面上的所有研报PDF文件下载入手，主要分为两步：
❶爬取搜索结果中单个页面上的研报详情页面网址；
❷爬取各个研报详情页面中的PDF文件网址并批量进行下载。   
（1）获取单个页面上的研报详情页面网址
首先导入相关库，代码如下：   
然后通过如下代码访问“格力电器”研报的搜索结果页面：   
用开发者工具观察会发现每个研报的信息都在class属性为“list-item”的\<div\>标签里，如下图所示，在编写正则表达式时可以用它来进行定位。   
打印输出获取的网页源代码data，观察其规律，如下图所示。可以看到网页源代码之间没有换行，这一点与用开发者工具看到的不同，因此，以Python获取的网页源代码为准来编写正则表达式。   
包含研报详情页面网址的网页源代码有如下规律：   
```<div class="list-item">公司名称和一些网页标签<a href="网址"```    
因此，可以通过如下代码提取研报详情页面的网址：   
打印输出列表href。   
正则表达式的编写其实比较灵活。本案例也可以用如下所示的正则表达式提取研报详情页面的网址：


In [None]:
from selenium import webdriver
import re
import requests
browser = webdriver.Edge()
url = 'https://so.eastmoney.com/Yanbao/s?keyword=格力电器'
browser.get(url)
data = browser.page_source
print(data)
p_href = '<span class="notice_item_t_label">.*?<a href="(.*?)"'
href = re.findall(p_href, data)
print(href)
browser.quit()

获取各个研报详情页面中的PDF文件网址并进行下载

用开发者工具可以发现，研报详情页面中“【点击查看PDF原文】”链接对应的网页源代码里就含有PDF文件的网址，如下图所示。因此，获取到各个研报详情页面的网址后，就可以通过Selenium库访问详情页面，从中提取PDF文件的网址，再用Requests库批量下载。
首先在研报详情页面的网页源代码中寻找研报标题和PDF文件网址的正则表达式规律，如下所示：   
```<h1>研报标题</h1>```   
```<a class="rightlab" href="PDF文件网址">【点击查看PDF原文】</a>```   
由此可以编写出提取研报标题和PDF文件网址的正则表达式
提取到PDF文件亡之后，就可以进行批量下载了，核心代码如下：

In [None]:
from selenium import webdriver
import re
browser = webdriver.Edge()
url = 'https://so.eastmoney.com/Yanbao/s?keyword=格力电器'
browser.get(url)
data = browser.page_source
p_href = '<span class="notice_item_t_label">.*?<a href="(.*?)"'
href = re.findall(p_href, data)
browser.quit()
for i in range(len(href)):
    # 1.访问详情页面并获取网页源代码
    browser = webdriver.Edge()
    browser.get(href[i])
    data = browser.page_source
    browser.quit()

    # 2.提取详情页面中的研报标题和PDF文件网址
    p_name = '<h1>(.*?)</h1>'
    p_href_pdf='<a style.*?"href="(.*?)".*?"查看PDF原文"</a>'
    name = re.findall(p_name, data)
    href_pdf = re.findall(p_href_pdf, data)
    print(name)
    print(href_pdf)

    # 3.下载PDF文件
    res = requests.get(href_pdf[0])
    path = 'pdf\\' + name[0] + '.pdf'
    file = open(path, 'wb')
    file.write(res.content)
    file.close()

4.3.3.2 下载多个页面上的PDF文件

前面实现了下载搜索结果中单个页面上的PDF文件，如果要下载搜索结果中多个页面上的PDF文件，则需要先获取这些页面的网页源代码。常规思路是模拟单击页面上的“下一页”按钮访问不同的页面，获取网页源代码后用字符串拼接的方式进行汇总（参见4.4.2节）。不过本案例有一个讨巧的解决办法，通过翻页并观察网址的变化，可以总结出不同页面的网址规律如下：
https://so.eastmoney.com/Yanbao/s?keyword=格力电器&pageindex=页码
因此，我们可以通过构造pageindex参数来访问不同的页面，然后用字符串拼接的方式汇总网页源代码。核心代码如下：

In [None]:
browser = webdriver.Edge()

data_all = ''
for i in range(10):
    url = 'http://so.eastmoney.com/Yanbao/s?keyword=格力电器&pageindex=' + str( i + 1)
    browser.get(url)
    data = browser.page_source
    data_all = data_all + data

## 4.4 上海证券交易所问询函信息爬取及PDF文件下载