
# <center>网络数据获取——基本操作</center>

## 课程内容

* 1.爬虫初探
* 2.网络请求——requests
* 3.文本解析——BeautifulSoup
* 4.动态网页——selenium
* 5.爬虫法律问题

### 1.爬虫初探

### 1.1 请求分析
使用浏览器开发者工具查看网页结构与请求分析。

![](./img/请求分析.png)

### 1.2 爬取数据

初步体验爬取数据的过程

* 要求：从网站 https://movie.douban.com 爬取图片，并保存到本地
* 步骤：1、构造URL；2、请求URL；3、解析数据

In [None]:
# 引入所需包
import requests

# 第1步：构造URL
url = 'https://img9.doubanio.com/view/photo/s_ratio_poster/public/p2626308994.jpg'

# 第2步：请求URL
r = requests.get(url)

# 第3步：解析数据
with open("tmp/心灵奇旅.jpg", "wb") as f:
    f.write(r.content)

### 1.3 HTML文件
```html
<html>
<head>
    <title>雷课教育</title>
    <style type="text/css">
        .sp-title1 { font-size: 24px; line-height: 30px; font-weight: 300; }
        .sp-title2 { font-size: 24px; line-height: 30px; font-weight: 300; }
        .sub-text1 { color: red; }
        .sub-text2 { color: blue; }
    </style>
</head>
<body>
<div>
    <span class="sp-title1" id="title1">我的第一个标题</span>
    <p class="sub-text1">我的第一个段落。</p>
</div>
<div>
    <span class="sp-title2" id="title2">我的第二个标题</span>
    <p class="sub-text2">我的第二个段落。</p>
</div>
<script type="text/javascript">
    document.getElementById("title1").innerHTML = '我是新改的'
</script>
</body>
</html>
```
* HTML教程：https://www.w3school.com.cn/html/index.asp

### 2.网络请求——requests
* Python 提供了很多模块来支持 HTTP 协议的网络编程，urllib、urllib2、urllib3、httplib、httplib2，都是和 HTTP 相关的模块，看名字觉得很反人类，更糟糕的是这些模块在 Python2 与 Python3 中有很大的差异，如果业务代码要同时兼容 2 和 3，写起来会让人崩溃。

* 幸运地是，繁荣的 Python 社区给开发者带来了一个非常惊艳的 HTTP 库 requests，一个真正给人用的HTTP库。它是 GitHUb 关注数最多的 Python 项目之一，requests 的作者是 Kenneth Reitz 大神。

* requests 实现了 HTTP 协议中绝大部分功能，它提供的功能包括 Keep-Alive、连接池、Cookie持久化、内容自动解压、HTTP代理、SSL认证、连接超时、Session等很多特性，最重要的是它同时兼容 python2 和 python3。

* 让 HTTP 服务人类 https://requests.readthedocs.io/zh_CN/latest/index.html

In [None]:
import requests

### 2.1 发送请求

#### 获取response对象

In [None]:
# 通过GET请求访问一个页面
response = requests.get("https://www.baidu.com/")

In [None]:
response

请求返回 Response 对象，Response 对象是 对 HTTP 协议中服务端返回给浏览器的响应数据的封装，响应的中的主要元素包括：状态码status_code、内容编码方式encoding与apparent_encoding、原因短语reason、响应首部headers等等，这些属性都封装在Response 对象中。

#### response对象的属性

In [None]:
# http请求的返回状态，200表示连接成功，400代表失败
response.status_code

In [None]:
# 从HTTP header中猜测的响应内容编码方式，若header中不存在charset,则默认为'ISO-8859-1'
response.encoding

In [None]:
# 从内容中分析出的响应内容编码方式
response.apparent_encoding

In [None]:
# 原因短语
response.reason

In [None]:
# 响应首部
response.headers

#### requests库的异常

| 异常        | 说明           |
| ------------- |:-------------:|
| requests.ConnectionError      | 网络连接错误异常，如DNS查询失败、拒绝连接等 |
| requests.HTTPError      | HTTP错误异常      |
| requests.URLRequired      | URL缺失异常      |
| requests.ConnectTimeout       | 连接远程服务器超时异常      |
| requests.Timeout      | 请求URL超时，产生超时异常      |

In [None]:
# 网络连接错误异常
requests.ConnectionError

In [None]:
# HTTP错误异常
requests.HTTPError

In [None]:
# URL缺失异常
requests.URLRequired

In [None]:
# 连接远程服务器超时异常
requests.ConnectTimeout

In [None]:
# 请求URL超时，产生超时异常
requests.Timeout

#### 构建请求查询参数
* 很多URL都带有很长一串参数，称这些参数为URL的查询参数，用”?”附加在URL链接后面，多个参数之间用”&”隔开，比如：httpbin.org/get?key=val 。
* Requests允许使用 params 关键字参数，以一个字符串字典来提供这些参数。举例来说，如果你想传递 key1=value1 和 key2=value2 到 httpbin.org/get ，那么你可以使用如下代码：

In [None]:
# 方法一
response = requests.get("http://baidu.com", params={'wd': 'python'})

In [None]:
# 打印输出该 URL，你能看到 URL 已被正确编码：
response.url

In [None]:
# 方法二
response = requests.get('http://baidu.com?wd=python')

In [None]:
# 打印输出该 URL，你能看到 URL 已被正确编码：
response.url

#### 构建请求首部 Headers
* requests 可以很简单地指定请求首部字段`Headers`，比如有时要指定`User-Agent`伪装成浏览器发送请求，以此来蒙骗服务器。直接传递一个字典对象给参数 headers 即可。

In [None]:
# 请求百度网页
response = requests.get('https://www.baidu.com')
response.text # 获取网页内容

In [None]:
# 查看相应状态码
response.status_code

注意: 所有的 header 值必须是 string、bytestring 或者 unicode。

In [None]:
# 请求知乎网页
response = requests.get("https://www.zhihu.com")
response.text # 获取网页内容

In [None]:
# 查看相应状态码
response.status_code

因为访问知乎需要头部信息，通过谷歌或火狐浏览器开发者模式就可以看到用户代理，将用户代理添加到头部信息

In [None]:
# 设定浏览器User-Agent

# 构建请求首部Headers


#### 其他请求方法

* requests 除了支持 GET 请求外，还支持 HTTP 规范中的其它所有方法，包括 POST、PUT、DELTET、HEADT、OPTIONS方法。

|方法| 说明|
| ------------- |:-------------:|
|requests.request() |构造一个请求，支撑以下各方法的基础方法|
|requests.get() |获取HTML网页的主要方法，对应于HTTP的GET|
|requests.head() |获取HTML网页头信息的方法，对应于HTTP的HEAD|
|requests.post() |向HTML网页提交POST请求的方法，对应于HTTP的POST|
|requests.put() |向HTML网页提交PUT请求的方法，对应于HTTP的PUT|
|requests.patch() |向HTML网页提交局部修改请求，对应于HTTP的PATCH|
|requests.delete() |向HTML页面提交删除请求，对应于HTTP的DELETE|

* requests 可以非常灵活地构建 POST 请求需要的数据，如果服务器要求发送的数据是表单数据，则可以指定关键字参数 data，如果要求传递 json 格式字符串参数，则可以使用json关键字参数，参数的值都可以字典的形式传过去。

In [None]:
# 作为表单数据传输给服务器
payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.post("http://httpbin.org/post", data=payload) # get params | post data, 两者都是JSON数据格式

In [None]:
r.status_code

In [None]:
# 作为 json 格式的字符串格式传输给服务器
import json
payload = {'key1': 'value1'}
r = requests.post('http://httpbin.org/post', json=payload)

In [None]:
r.status_code

### 2.2 响应内容

#### Response中的响应体
* HTTP返回的响应消息中很重要的一部分内容是响应体，响应体在 requests 中处理非常灵活，与响应体相关的属性有：content、text、json()。
* HTTP Content-type 对照表: https://www.runoob.com/http/http-content-type.html

1、content 是 **byte 类型**，适合直接将内容保存到文件系统或者传输到网络中

In [None]:
# 请求一幅图片
r = requests.get("https://img9.doubanio.com/view/photo/s_ratio_poster/public/p2626308994.jpg")

In [None]:
# 查看文件类型
r.headers['Content-Type']

In [None]:
# 查看文件内容
r.content

In [None]:
# 查看文本内容
r.text

In [None]:
# 将文件内容另存为 test.jpg
with open("tmp/test.jpg", "wb") as f: # w写 b二进制
    f.write(r.content)

2、text 是 **str 类型**，比如一个普通的 HTML 页面，需要对文本进一步分析时，使用 text。

In [None]:
# 请求一个网页
r = requests.get("https://www.baidu.com")

In [None]:
# 查看文件类型
r.headers['Content-Type']

In [None]:
# 查看文本内容
r.text

3、如果使用第三方开放平台或者API接口爬取数据时，返回的内容是**json格式**的数据时，那么可以直接使用json()方法返回一个经过json.loads()处理后的对象。

In [None]:
# 请求一个Json格式API
hd = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:80.0) Gecko/20100101 Firefox/80.0'}
r = requests.get('https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0',headers=hd)

In [None]:
# 查看文件类型
r.headers['Content-Type']

In [None]:
# 查看文本内容
r.text

In [None]:
# 查看json内容
r.json()

4、如果是大文件下载，则需要使用原始套接字响应，即访问 r.raw，在初始请求中设置了 **stream=True**。

In [None]:
r = requests.get('https://www.baidu.com') #普通文件的下载方法
r.raw

In [None]:
r.raw.read(100)

In [None]:
r.text[:100]

In [None]:
r = requests.get('https://www.baidu.com', stream=True) #大文件的下载方法
r.raw

In [None]:
r.raw.read(100)

#### 响应状态码

* 200: ('ok', 'okay', 'all_ok', 'all_okay', 'all_good', '\o/', '✓')

* 400: ('bad_request', 'bad')

* 401: ('unauthorized',)

* 403: ('forbidden',)

* 404: ('not_found', '-o-')

* 500: ('internal_server_error', 'server_error', '/o\', '✗')

In [None]:
r = requests.get('https://www.baidu.com')
r.status_code

如果发送了一个错误请求(一个 4XX 客户端错误，或者 5XX 服务器错误响应)，我们可以通过 Response.raise_for_status() 来抛出异常

In [None]:
bad_r = requests.get('http://httpbin.org/status/404')
bad_r.status_code

In [None]:
bad_r.raise_for_status() # 如果出错，抛出异常信息

In [None]:
r = requests.get('http://httpbin.org')
r.raise_for_status() # 如果正确，返回空字符

#### 超时设置
* requests 发送请求时，默认请求下线程一直阻塞，直到有响应返回才处理后面的逻辑。如果遇到服务器没有响应的情况时，问题就变得很严重了，它将导致整个应用程序一直处于阻塞状态而没法处理其他请求。

In [None]:
import requests
r = requests.get("https://www.google.com") # 服务器没有相应的话，会一直阻塞等待中，直到网络超时

正确的方式的是给每个请求显示地指定一个超时时间。

In [None]:
r = requests.get("https://www.google.com", timeout=1) # 服务器没有相应，1秒返回

### 2.3 如何应对反爬

#### 策略1：伪装请求报头
![](./img/fp1.jpg)

#### 策略2：减轻访问频率，速度
![](./img/fp2.jpg)

#### 策略3：使用代理IP
![](./img/fp3.jpg)

#### 代理设置
* 当爬虫频繁地对服务器进行抓取内容时，很容易被服务器屏蔽掉，因此要想继续顺利的进行爬取数据，使用代理是明智的选择。如果你想爬取墙外的数据，同样设置代理可以解决问题，requests 完美支持代理。

```py
proxies = {
  'http': 'http://10.10.1.10:3128',
  'https': 'http://10.10.1.10:1080',
}

requests.get('http://example.org', proxies=proxies)
```

### 2.4 Request库网络爬取实战

#### 实例1：苏宁商品页面的爬取

In [None]:
# 导入工具包
import requests

# 指定URL
url="https://product.suning.com/0000000000/11933394795.html"

# 请求数据
r=requests.get(url)

# 判断状态码，输出数据
if r.status_code == 200:
    print(r.text[:1000])
else:
    print("爬取失败")
    r.raise_for_status()

#### 实例2：百度搜索关键字提交

百度的关键词接口：http://www.baidu.com/s?wd=keyword

In [None]:
# 导入工具包
import requests

# 设定请求参数
kv={'wd':'python'}

# 请求数据
r=requests.get("http://www.baidu.com/s", params=kv) #构造参数请求

# 打印URL
print(r.request.url)

# 判断状态码，输出数据
if r.status_code == 200:
    print(r.text[:1000])
else:
    print("爬取失败")
    r.raise_for_status()

#### 实例3：知乎Python中文社区

知乎Python中文社区：https://www.zhihu.com/column/Python
```py
headers = {"User-Agent":"Mozilla/5.0 Chrome/58.0.3029.110 Safari/537.36"}
```
学习使用`User-Agent`伪装请求报头应对反爬。

In [None]:
# 导入工具包
import requests

# 指定URL
url="https://www.zhihu.com/column/Python"

# 请求数据
r=requests.get(url, headers= headers)

# 判断状态码，输出数据
if r.status_code == 200:
    print(r.text[:1000])
else:
    print("爬取失败")
    r.raise_for_status()

#### 实例4：中国大学2020排名

中国大学2020排名：http://www.shanghairanking.cn/rankings/bcur/2020
```py
r.encoding = r.apparent_encoding
```
学习修改`encoding`处理中文编码网页。

In [None]:
# 导入工具包
import requests
# 指定URL
url="http://www.shanghairanking.cn/rankings/bcur/2020"
# 请求数据
r=requests.get(url)
# 判断状态码，输出数据
if r.status_code == 200:
    print(r.text[:1000])
else:
    print("爬取失败")
    r.raise_for_status()

### 3.文本解析——BeautifulSoup
* 网络请求库神器 Requests ，请求把数据返回来之后就要提取目标数据，不同的网站返回的内容通常有多种不同的格式，一种是 json 格式，这类数据对开发者来说最友好。另一种 XML 格式的，还有一种最常见格式的是 HTML 文档，今天就来讲讲如何从 HTML 中提取出感兴趣的数据

* BeautifulSoup 是一个用于解析 HTML 文档的 Python 库，通过 BeautifulSoup，你只需要用很少的代码就可以提取出 HTML 中任何感兴趣的内容，此外，它还有一定的 HTML 容错能力，对于一个格式不完整的HTML 文档，它也可以正确处理。

![](./img/BS2.png)

#### HTML 标签
学习 BeautifulSoup4 前有必要先对 HTML 文档有一个基本认识，如下代码，HTML 是一个树形组织结构。

```
<html>  
    <head>
     <title>hello, world</title>
    </head>
    <body>
        <h1>BeautifulSoup</h1>
        <p>如何使用BeautifulSoup</p>
    <body>
</html>
```
* 它由很多**标签（Tag）**组成，比如 html、head、title等等都是标签

* 一个标签对构成一个节点，比如 &lt;html&gt;...&lt;/html&gt;是一个根节点

* 节点之间存在某种关系，比如 h1 和 p 互为邻居，他们是相邻的兄弟（sibling）节点

* h1 是 body 的直接子（children）节点，还是 html 的子孙（descendants）节点

* body 是 p 的父（parent）节点，html 是 p 的祖辈（parents）节点

* 嵌套在标签之间的字符串是该节点下的一个特殊子节点，比如 “hello, world” 也是一个节点，只不过没名字。

#### 使用 BeautifulSoup
构建一个 BeautifulSoup 对象需要两个参数，第一个参数是将要解析的 HTML 文本字符串，第二个参数告诉 BeautifulSoup  使用哪个解析器来解析 HTML。

| 解析器	| 使用方法	| 优势	| 劣势 |
|--| -- |-- |-- |
| Python标准库 |	BeautifulSoup(markup, "html.parser")	| Python的内置标准库、执行速度适中 、文档容错能力强 | Python 2.7.3 or 3.2.2前的版本中文容错能力差|
| lxml HTML 解析器	| BeautifulSoup(markup, "lxml")	| 速度快、文档容错能力强 | 需要安装C语言库 |
| lxml XML 解析器	| BeautifulSoup(markup, "xml") | 速度快、唯一支持XML的解析器 | 需要安装C语言库 |
| html5lib	| BeautifulSoup(markup, "html5lib")	 | 最好的容错性、以浏览器的方式解析文档、生成HTML5格式的文档 | 速度慢、不依赖外部扩展 |

解析器负责把 HTML 解析成相关的对象，而 BeautifulSoup 负责操作数据（增删改查）。“html.parser” 是 Python 内置的解析器，“lxml” 则是一个基于c语言开发的解析器，它的执行速度更快，不过它需要额外安装

通过 BeautifulSoup 对象可以定位到 HTML 中的任何一个标签节点

In [None]:
from bs4 import BeautifulSoup  
html = """
<html>
<head>
    <title> 雷课教育-计算机前沿技术教育咨询 </title>
</head>
<body>
<h1>雷课与客户关系</h1>
<p class="big">客户满意度<span class="percent">99</span></p>
<p class="small">服务质量度<span class="percent">99</span></p>
<div class="panel">
    <div class="panel-heading">
        <h2>雷课课程</h2>
    </div>
    <div class="panel-body">
        <ul class="list" id="list-1" name="elements">
            <li class="element"><a href="http://example.com/link1">数据科学</a></li>
            <li class="element"><a href="http://example.com/link2">人工智能</a></li>
            <li class="element"><a href="http://example.com/link3">数字媒体</a></li>
            <li class="element"><a href="http://example.com/link4">区块链</a></li>
        </ul>
        <ul class="list list-small" id="list-2">
            <li class="element">新基建</li>
            <li class="element">新需求</li>
            <li class="element">新机会</li>
        </ul>
    </div>
</div>
</body>
</html>
"""
soup = BeautifulSoup(html, "html.parser")

BeatifulSoup 将 HTML 抽象成为 4 类主要的数据类型，分别是**BeautifulSoup**，**Tag** , **NavigableString** , Comment 。每个标签节点就是一个Tag对象，NavigableString 对象一般是包裹在Tag对象中的字符串，BeautifulSoup 对象代表整个 HTML 文档。例如：

In [None]:
# 查看soup对象
soup

In [None]:
# 查看数据类型
type(soup)

In [None]:
# title 标签
soup.title

In [None]:
# 查看数据类型
type(soup.title)

In [None]:
# title 标签的内容
soup.title.string

In [None]:
# 查看数据类型
type(soup.title.string)

基本概念介绍完，现在可以正式进入主题了，如何从 HTML 中找到我们关心的数据？BeautifulSoup 提供了两种方式，一种是**遍历**，一种是**搜索**，通常两者结合来完成查找任务。

### 3.1 标签选择器

#### 遍历文档树
遍历文档树，顾名思义，就是是从根节点 html 标签开始遍历，直到找到目标元素为止，遍历的一个缺陷是，如果你要找的内容在文档的末尾，那么它要遍历整个文档才能找到它，速度上就慢了。遍历文档树的另一个缺点是只能获取到与之匹配的第一个子节点，例如，如果有两个相邻的 p 标签时，第二个标签就没法通过 .p 的方式获取，这是需要借用 next_sibling 属性获取相邻的节点。
![](./img/BS1.png)

**1、选择元素**

In [None]:
# 遍历head标签
soup.head

In [None]:
# 逐层遍历标签
soup.head.title 

**2、获取属性**

In [None]:
# 遍历a标签
soup.a

In [None]:
# 获取a标签的href属性
soup.a.attrs['href']

In [None]:
# 获取a标签的href属性
soup.a['href'] # 常用方法

**3、获取内容**
* string可以返回当前节点中的内容，但是当前节点包含子节点时，.string不知道要获取哪一个节点中的内容，故返回空
* text（或者.get_text()）可以返回当前节点所包含的所有文本内容，包括当前节点的子孙节点

In [None]:
# 遍历title标签
soup.title

In [None]:
# 获取title标签内容
soup.title.string

In [None]:
# 遍历p标签
soup.p

In [None]:
# 获取p标签内容
soup.p.text

<>…</>构成了所属关系，形成了标签的树形结构。这里将介绍对标签树的遍历，有三种遍历方式，分为下行遍历，上行遍历以及，平行遍历。

**4、子节点和子孙节点**

**标签树的下行遍历**

属性| 说明
--|--
.contents| 子节点的列表，将<tag>所有儿子节点存入列表
.children| 子节点的迭代类型，与.contents类似，用于循环遍历儿子节点
.descendants| 子孙节点的迭代类型，包含所有子孙节点，用于循环遍历 

In [None]:
# 遍历p标签
soup.p

In [None]:
#方法一：获取p标签里的所有子节点，以list保存
print(soup.p.contents)#获取p标签里的所有子节点，以list保存

In [None]:
# 方法二：获取p标签里的所有子节点，以迭代输出
print(soup.p.children)
for i, child in enumerate(soup.p.children):
    print(i, child)

In [None]:
# 方法三：获取p标签里的所有子节点以及子孙节点（子节点对应的子节点）
print(soup.p.descendants)
for i, child in enumerate(soup.p.descendants):
    print(i, child)

**5、父节点和祖先节点**

**标签树的上行遍历**

属性| 说明
--|--
.parent| 节点的父亲标签
.parents| 节点先辈标签的迭代类型，用于循环遍历先辈节点

**6、兄弟节点**

**标签树的平行遍历**

属性| 说明
--|--
.next_sibling |返回按照HTML文本顺序的下一个平行节点标签
.previous_sibling |返回按照HTML文本顺序的上一个平行节点标签
.next_siblings| 迭代类型，返回按照HTML文本顺序的后续所有平行节点标签
.previous_siblings |迭代类型，返回按照HTML文本顺序的前续所有平行节点标签  
注意平行遍历发生在同一个父节点下的各节点间

### 3.2 标签搜索器

#### 搜索文档树
搜索文档树是通过指定标签名来搜索元素，还可以通过指定标签的属性值来精确定位某个节点元素，最常用的两个方法就是 find 和 find_all。这两个方法在 BeatifulSoup 和 Tag 对象上都可以被调用。

#### 1、find_all方法
```py
find_all( name , attrs , recursive , text , **kwargs )
  name：对标签名称的检索字符串
  attrs：对标签属性值的检索字符串，可标注属性检索
  recursive：是否对子孙全部检索，默认True
  text：<>...</>中字符串区域的检索字符串
```
* 按照节点名称、属性值、文字进行的搜索

In [None]:
soup

**name（标签名字选择）**

In [None]:
# 搜索所有的ul标签
soup.find_all('ul')

In [None]:
# 嵌套搜索，先遍历ul，后遍历li
for ul in soup.find_all('ul'):
    print(ul.find_all('li'))

**attr（标签的属性选择）**

In [None]:
#使用标签的的属性查找
#方法一：使用字典参数查询
print(soup.find_all(attrs={'id': 'list-1'}))

In [None]:
#方法二：使用属性名=属性值查询
print(soup.find_all(id='list-1'))

#### 2、find方法
```
find( name , attrs , recursive , text , **kwargs )
```
find返回单个元素，find_all返回所有元素

In [None]:
# 使用方法和find_all类似
print(soup.find(id='list-1'))

#### 3、其他的一些find方法
```
find_parents() find_parent()
find_parents()返回所有祖先节点，find_parent()返回直接父节点。

find_next_siblings() find_next_sibling()
find_next_siblings()返回后面所有兄弟节点，find_next_sibling()返回后面第一个兄弟节点。

find_previous_siblings() find_previous_sibling()
find_previous_siblings()返回前面所有兄弟节点，find_previous_sibling()返回前面第一个兄弟节点。

find_all_next() find_next()
find_all_next()返回节点后所有符合条件的节点, find_next()返回第一个符合条件的节点

find_all_previous() 和 find_previous()
find_all_previous()返回节点后所有符合条件的节点, find_previous()返回第一个符合条件的节点
```

### 3.3 CSS选择器
通过select()直接传入CSS选择器即可完成选择
* 通过标签名查找 ```soup.select(head)```
* 通过类名查找 ```soup.select('.sister')```
* 通过id名查找 ```soup.select('#link1')```
* 通过属性查找 ```soup.select('p[name=dromouse]')```
* 组合查找 ```soup.select("body p")```

In [None]:
soup

In [None]:
print(soup.select('ul li')) #选择ul标签下面的li标签

In [None]:
print(soup.select('.panel .panel-body'))#.代表class，中间需要空格来分隔

In [None]:
print(soup.select('#list-1 .element')) #'#'代表id。这句的意思是查找id为"list-2"的标签下的，class=element的元素

#### 总结
BeatifulSoup 是一个用于操作 HTML 文档的 Python 库，初始化 BeatifulSoup 时，需要指定 HTML 文档字符串和具体的解析器。它有3类常用的数据类型，分别是 **BeautifulSoup**、**Tag**和**NavigableString** 。查找 HTML元素有两种方式，分别是**遍历文档树**和**搜索文档树**，通常快速获取数据需要二者结合。

Beautiful Soup4中文文档 https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/

### 3.4 BeautifulSoup库网络爬取实战

爬取数据步骤
* 步骤1：从网络上获取网页内容 
* 步骤2：提取网页内容中信息到合适的数据结构
* 步骤3：利用数据结构展示并输出结果

#### 实例1：中国大学排名定向爬虫

中国大学排名：http://www.shanghairanking.cn/rankings/bcur/2020

In [None]:
# 抓取数据

import requests
url = "http://www.shanghairanking.cn/rankings/bcur/2020"
r = requests.get(url)
r.encoding = r.apparent_encoding #处理中文信息
if r.status_code == 200:
    html = r.text
    print(html)
else:
    print("爬取失败")
    r.raise_for_status()

In [None]:
# 解析数据

from bs4 import BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
tb = soup.find('tbody')
trs = tb.find_all('tr')
datas = []
for tr in trs: #循环遍历每一行
    tds = tr.find_all('td')
    print(tds[0].text.strip(),tds[1].text.strip(),tds[2].text.strip(),tds[3].text.strip(),tds[5].text.strip())
    datas.append({'排名':tds[0].text.strip(),'学校':tds[1].text.strip(),'省市':tds[2].text.strip(),'总分':tds[5].text.strip()})

In [None]:
# 保存数据

import pandas as pd
# 构造DataFrame
df = pd.DataFrame(columns=['排名','学校','省市','总分'], data= datas)
# 生成csv数据
df.to_csv('tmp/大学.csv', encoding='utf_8_sig', index=False)

进一步思考，如果使用使用CSS选择器如何抓取数据。
* 小提示 ```
soup.select(".rk-table tr")```

### 4.动态网页——selenium
* Selenium是一个用于测试网站的自动化测试工具，支持各种浏览器包括Chrome、Firefox、Safari等主流界面浏览器，同时也支持phantomJS无界面浏览器，爬虫中主要用来解决JavaScript渲染问题。

* Selenium中文文档：https://python-selenium-zh.readthedocs.io/zh_CN/latest/

In [None]:
## 看看Selenium.Webdriver支持哪些浏览器
from selenium import webdriver
help(webdriver)

#### 驱动下载

安装ChromeDriver, 该工具供selenium使用Chrome.

ChromeDriver: http://npm.taobao.org/mirrors/chromedriver/

下载前先查看本地环境的Chrome版本, 然后去上面的link中下载对应的ChromeDriver版本.

#### Selenium声明浏览器对象
browser = webdriver.Chrome()

#### 访问页面

In [None]:
import time
# webdriver.Firefox()
driver = webdriver.Chrome()     # 创建Chrome对象.
# 操作这个对象.
driver.get('https://www.baidu.com')     # get方式访问百度.
time.sleep(5)
driver.quit()   # 使用完, 记得关闭浏览器, 不然chromedriver.exe进程为一直在内存中.

### 4.1 Selenium库网络爬取实战

#### 实例1：百度搜索页面元素交互操作

In [None]:
import time
driver = webdriver.Chrome()     # 创建Chrome对象.
# 操作这个对象.
driver.get('https://www.baidu.com')     # get方式访问百度.

print('Before search================')
time.sleep(5)
# 打印当前页面title
title = driver.title
print(title)

# 打印当前页面URL
now_url = driver.current_url
print(now_url)

driver.find_element_by_id("kw").send_keys("python")
driver.find_element_by_id("su").click()
time.sleep(5)

print('After search================')

# 再次打印当前页面title
title = driver.title
print(title)

# 打印当前页面URL
now_url = driver.current_url
print(now_url)

# 获取结果数目
user = driver.find_element_by_class_name('nums').text
print(user)

time.sleep(5)

#关闭所有窗口
driver.quit()

#### 实例2：知乎Python中文社区页面的爬取

知乎Python中文社区： https://www.zhihu.com/column/Python

In [None]:
from selenium import webdriver
url="https://www.zhihu.com/column/Python"
browser = webdriver.Chrome()
browser.get(url)
html = browser.page_source
print(html)
browser.close()

### 5.爬虫法律问题
网络爬虫的“盗亦有道”，网页对网络爬虫的限制，主要有两种:

- 来源审查：判断User‐Agent进行限制
检查来访HTTP协议头的User‐Agent域，只响应浏览器或友好爬虫的访问
- 发布公告：Robots协议
告知所有爬虫网站的爬取策略，要求爬虫遵守

#### Robots协议
Robots Exclusion Standard，网络爬虫排除标准

作用：
网站告知网络爬虫哪些页面可以抓取，哪些不行

形式：
在网站根目录下的robots.txt文件

Robots协议基本语法:

 \*   代表所有，/代表根目录
 
具体形式为
User‐agent: \*
Disallow: /

#### 京东robots

In [None]:
import requests
url="https://www.jd.com/robots.txt"
r=requests.get(url,timeout=30)
print(r.text)

来分析下这段内容的含义:

User-agent: \* 

Disallow: /?\* 

Disallow: /pop/\*.html 

Disallow: /pinpai/\*.html?\* 

这一段的意思对于任何爬虫,均不能访问后缀为/?\*,/pop/\*.html,/pinpai/\*.html?\* 的网页

User-agent: EtaoSpider 

Disallow: / 

User-agent: HuihuiSpider 

Disallow: / 

User-agent: GwdangSpider 

Disallow: / 

User-agent: WochachaSpider 

Disallow: /

这几段的意思是EtaoSpider,HuihuiSpider,GwdangSpider,WochachaSpider这几个网络爬虫不能访问京东的任何页面。

# Any Questions?