
# <center>网络数据获取——基本操作</center>

## 课程内容

* 1.爬取数据
* 2.网络请求——requests
* 3.文本解析——BeautifulSoup与re
* 4.动态网页——selenium

### 1.爬取数据

从网站 https://www.liaoxuefeng.com/wiki/1016959663602400/1016959735620448 爬取图片，并保存到本地

In [None]:
#第1步：引入所需包
import requests
#第2步：构造URL
url = 'https://static.liaoxuefeng.com/files/attachments/921215396004384/0'
#第3步：请求URL
r = requests.get(url)
#第4步：解析数据
with open("python.png", "wb") as f:
    f.write(r.content)

### 2.网络请求
* Python 提供了很多模块来支持 HTTP 协议的网络编程，urllib、urllib2、urllib3、httplib、httplib2，都是和 HTTP 相关的模块，看名字觉得很反人类，更糟糕的是这些模块在 Python2 与 Python3 中有很大的差异，如果业务代码要同时兼容 2 和 3，写起来会让人崩溃。

* 幸运地是，繁荣的 Python 社区给开发者带来了一个非常惊艳的 HTTP 库 requests，一个真正给人用的HTTP库。它是 GitHUb 关注数最多的 Python 项目之一，requests 的作者是 Kenneth Reitz 大神。

* requests 实现了 HTTP 协议中绝大部分功能，它提供的功能包括 Keep-Alive、连接池、Cookie持久化、内容自动解压、HTTP代理、SSL认证、连接超时、Session等很多特性，最重要的是它同时兼容 python2 和 python3。

* 让 HTTP 服务人类。

In [None]:
import requests

### 2.1 发送请求

#### 获取response对象

In [None]:
# GET 请求
response = requests.get("https://baidu.com")

In [None]:
response

请求返回 Response 对象，Response 对象是 对 HTTP 协议中服务端返回给浏览器的响应数据的封装，响应的中的主要元素包括：状态码、原因短语、响应首部、响应体等等，这些属性都封装在Response 对象中。

#### response对象的属性

In [None]:
# http请求的返回状态，200表示连接成功，400代表失败
response.status_code  

In [None]:
# 从HTTP header中猜测的响应内容编码方式，若header中不存在charset,则默认为'ISO-8859-1'
response.encoding  

In [None]:
# 从内容中分析出的响应内容编码方式（备选编码方式）
response.apparent_encoding  

In [None]:
# 原因短语
response.reason

In [None]:
response.headers

In [None]:
type(response.headers)

In [None]:
response.headers['Date']

In [None]:
response.headers['Content-Type']

In [None]:
# 响应首部
for name,value in response.headers.items():
    print("%s:%s" % (name, value))

In [None]:
# HTTP响应内容的字符串形式 即，url对应的页面内容
response.text  

In [None]:
# http响应内容的二进制形式
response.content  

requests 除了支持 GET 请求外，还支持 HTTP 规范中的其它所有方法，包括 POST、PUT、DELTET、HEADT、OPTIONS方法。

|方法| 说明|
| ------------- |:-------------:|
|requests.request() |构造一个请求，支撑以下各方法的基础方法|
|requests.get() |获取HTML网页的主要方法，对应于HTTP的GET|
|requests.head() |获取HTML网页头信息的方法，对应于HTTP的HEAD|
|requests.post() |向HTML网页提交POST请求的方法，对应于HTTP的POST|
|requests.put() |向HTML网页提交PUT请求的方法，对应于HTTP的PUT|
|requests.patch() |向HTML网页提交局部修改请求，对应于HTTP的PATCH|
|requests.delete() |向HTML页面提交删除请求，对应于HTTP的DELETE|

In [None]:
response = requests.post('http://httpbin.org/post', data = {'key':'value'})
response = requests.put('http://httpbin.org/put', data = {'key':'value'})
response = requests.delete('http://httpbin.org/delete')
response = requests.head('http://httpbin.org/get')
response = requests.options('http://httpbin.org/get')

In [None]:
response = requests.post('http://baidu.com', data = {'key':'value'})

In [None]:
response.status_code

#### requests库的异常

| 异常        | 说明           |
| ------------- |:-------------:|
| requests.ConnectionError      | 网络连接错误异常，如DNS查询失败、拒绝连接等 |
| requests.HTTPError      | HTTP错误异常      |
| requests.URLRequired      | URL缺失异常      |
| requests.TooManyRedirects      | 超过最大重定向次数，产生重定向异常      |
| requests.ConnectTimeout       | 连接远程服务器超时异常      |
| requests.Timeout      | 请求URL超时，产生超时异常      |

In [None]:
# 网络连接错误异常
requests.ConnectionError

In [None]:
# HTTP错误异常
requests.HTTPError

In [None]:
# URL缺失异常
requests.URLRequired

In [None]:
# 超过最大重定向次数，产生重定向异常
requests.TooManyRedirects

In [None]:
# 连接远程服务器超时异常
requests.ConnectTimeout

In [None]:
# 请求URL超时，产生超时异常
requests.Timeout

#### 构建请求查询参数
* 很多URL都带有很长一串参数，称这些参数为URL的查询参数，用”?”附加在URL链接后面，多个参数之间用”&”隔开，比如：httpbin.org/get?key=val 。
* Requests允许使用 params 关键字参数，以一个字符串字典来提供这些参数。举例来说，如果你想传递 key1=value1 和 key2=value2 到 httpbin.org/get ，那么你可以使用如下代码：

In [None]:
payload = {'key1': 'value1', 'key2': 'value2'}
response = requests.get("http://baidu.com", params=payload)

In [None]:
# 通过打印输出该 URL，你能看到 URL 已被正确编码：
print(response.url)

In [None]:
url = 'http://httpbin.org/get?key1=value1&key2=value2'
response = requests.get(url)

In [None]:
response.url

还可以将一个列表作为值传入：

In [None]:
payload = {'key1': 'value1', 'key2': ['value2', 'value3']}

response = requests.get('http://httpbin.org/get', params=payload)
print(response.url)

#### 构建请求首部 Headers
* requests 可以很简单地指定请求首部字段 Headers，比如有时要指定 User-Agent 伪装成浏览器发送请求，以此来蒙骗服务器。直接传递一个字典对象给参数 headers 即可。

In [None]:
url = 'https://baidu.com'
r = requests.get(url)

In [None]:
r.status_code

In [None]:
r = requests.get(url, headers={'user-agent': 'Mozilla/5.0'})

In [None]:
r.status_code

注意: 所有的 header 值必须是 string、bytestring 或者 unicode。

In [None]:
response = requests.get("https://www.zhihu.com")
response.text

In [None]:
response.status_code

因为访问知乎需要头部信息，这个时候我们在谷歌浏览器里输入chrome://version, 就可以看到用户代理，将用户代理添加到头部信息

In [None]:
headers = {
    "User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"
}
response =requests.get("https://www.zhihu.com", headers=headers)
response.text

In [None]:
response.status_code

#### 构建 POST 请求数据
* requests 可以非常灵活地构建 POST 请求需要的数据，如果服务器要求发送的数据是表单数据，则可以指定关键字参数 data，如果要求传递 json 格式字符串参数，则可以使用json关键字参数，参数的值都可以字典的形式传过去。

In [None]:
# 作为表单数据传输给服务器
payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.post("http://httpbin.org/post", data=payload)

In [None]:
r.status_code

In [None]:
# 作为 json 格式的字符串格式传输给服务器
import json
url = 'http://httpbin.org/post'
payload = {'some': 'data'}
r = requests.post(url, json=payload)

In [None]:
r.status_code

### 2.2 响应内容

#### Response中的响应体
* HTTP返回的响应消息中很重要的一部分内容是响应体，响应体在 requests 中处理非常灵活，与响应体相关的属性有：content、text、json()。

content 是 byte 类型，适合直接将内容保存到文件系统或者传输到网络中

In [None]:
r = requests.get("https://pic1.zhimg.com/v2-2e92ebadb4a967829dcd7d05908ccab0_b.jpg")
type(r.content)

In [None]:
r.text

In [None]:
# 另存为 test.jpg
with open("test.jpg", "wb") as f:
    f.write(r.content)

text 是 str 类型，比如一个普通的 HTML 页面，需要对文本进一步分析时，使用 text。

In [None]:
r = requests.get("https://baidu.com")
type(r.text)

In [None]:
r.text

如果使用第三方开放平台或者API接口爬取数据时，返回的内容是json格式的数据时，那么可以直接使用json()方法返回一个经过json.loads()处理后的对象。

In [None]:
r = requests.get('https://api.github.com/events')
r.json()

在罕见的情况下，你可能想获取来自服务器的原始套接字响应，那么你可以访问 r.raw。 如果你确实想这么干，那请你确保在初始请求中设置了 stream=True。具体你可以这么做：

In [None]:
r = requests.get('https://api.github.com/events')
r.raw

In [None]:
r.raw.read(10)

In [None]:
r = requests.get('https://api.github.com/events', stream=True)
r.raw

In [None]:
r.raw.read(10)

#### 响应状态码

* 200: ('ok', 'okay', 'all_ok', 'all_okay', 'all_good', '\o/', '✓')

* 400: ('bad_request', 'bad')

* 401: ('unauthorized',)

* 403: ('forbidden',)

* 404: ('not_found', '-o-')

* 500: ('internal_server_error', 'server_error', '/o\', '✗')

In [None]:
r = requests.get('http://httpbin.org/get')
r.status_code

为方便引用，Requests还附带了一个内置的状态码查询对象

In [None]:
r.status_code == requests.codes.ok

如果发送了一个错误请求(一个 4XX 客户端错误，或者 5XX 服务器错误响应)，我们可以通过 Response.raise_for_status() 来抛出异常

In [None]:
bad_r = requests.get('http://httpbin.org/status/404')
bad_r.status_code

In [None]:
bad_r.raise_for_status()

In [None]:
r = requests.get('http://httpbin.org')
r.raise_for_status()

#### 响应头

In [None]:
r.headers

可以使用任意大写形式来访问这些响应头字段：

In [None]:
r.headers['Content-Type']

In [None]:
r.headers.get('content-type')

#### 代理设置
* 当爬虫频繁地对服务器进行抓取内容时，很容易被服务器屏蔽掉，因此要想继续顺利的进行爬取数据，使用代理是明智的选择。如果你想爬取墙外的数据，同样设置代理可以解决问题，requests 完美支持代理。

```py
proxies = {
  'http': 'http://10.10.1.10:3128',
  'https': 'http://10.10.1.10:1080',
}

requests.get('http://example.org', proxies=proxies)
```

#### 超时设置
* requests 发送请求时，默认请求下线程一直阻塞，直到有响应返回才处理后面的逻辑。如果遇到服务器没有响应的情况时，问题就变得很严重了，它将导致整个应用程序一直处于阻塞状态而没法处理其他请求。

In [None]:
import requests
r = requests.get("http://www.go111ogle.c11om") # 一直阻塞中

正确的方式的是给每个请求显示地指定一个超时时间。

In [None]:
r = requests.get("http://httpbin.org", timeout=1)

#### Session
* HTTP协议是一中无状态的协议，为了维持客户端与服务器之间的通信状态，使用 Cookie 技术使之保持双方的通信状态。

有些网页是需要登录才能进行爬虫操作的，而登录的原理就是浏览器首次通过用户名密码登录之后，服务器给客户端发送一个随机的Cookie，下次浏览器请求其它页面时，就把刚才的 cookie 随着请求一起发送给服务器，这样服务器就知道该用户已经是登录用户。

In [None]:
url = 'http://httpbin.org/cookies'
cookies = dict(cookies_are='working')

r = requests.get(url, cookies=cookies, timeout=1)
r.text

构建一个session会话之后，客户端第一次发起请求登录账户，服务器自动把cookie信息保存在session对象中，发起第二次请求时requests 自动把session中的cookie信息发送给服务器，使之保持通信状态。

```
import requests
# 构建会话
session  = requests.Session()
#　登录url
session.post(login_url, data={username, password})
#　登录后才能访问的url
r = session.get(home_url)
session.close()
```

### 2.3 网络爬虫的“盗亦有道”

网页对网络爬虫的限制,主要有两种:

- 来源审查：判断User‐Agent进行限制
检查来访HTTP协议头的User‐Agent域，只响应浏览器或友好爬虫的访问
- 发布公告：Robots协议
告知所有爬虫网站的爬取策略，要求爬虫遵守

#### Robots协议
Robots Exclusion Standard，网络爬虫排除标准

作用：
网站告知网络爬虫哪些页面可以抓取，哪些不行

形式：
在网站根目录下的robots.txt文件

Robots协议基本语法:

 \*   代表所有，/代表根目录
 
具体形式为
User‐agent: \*
Disallow: /

#### 京东robots

In [None]:
import requests
url="https://www.jd.com/robots.txt"
r=requests.get(url,timeout=30)
print(r.text)

来分析下这段内容的含义:

User-agent: \* 

Disallow: /?\* 

Disallow: /pop/\*.html 

Disallow: /pinpai/\*.html?\* 

这一段的意思对于任何爬虫,均不能访问后缀为/?\*,/pop/\*.html,/pinpai/\*.html?\* 的网页

User-agent: EtaoSpider 

Disallow: / 

User-agent: HuihuiSpider 

Disallow: / 

User-agent: GwdangSpider 

Disallow: / 

User-agent: WochachaSpider 

Disallow: /

这几段的意思是EtaoSpider,HuihuiSpider,GwdangSpider,WochachaSpider这几个网络爬虫不能访问京东的任何页面。

### 2.4 Request库网络爬取实战

#### 实例1：京东商品页面的爬取

In [None]:
import requests
url="https://item.jd.com/100002749549.html"
try:
    r=requests.get(url)
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    print(r.text[:1000])
except:
    print("爬取失败")

#### 实例2：亚马逊商品页面的爬取

In [None]:
import requests
url="https://www.amazon.cn/gp/product/B01M8L5Z3Y"
try:
    r=requests.get(url)
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    print(r.text[2000:3000])
except:
    print("爬取失败")

In [None]:
import requests
url="https://www.amazon.cn/gp/product/B01M8L5Z3Y"
try:
    kv={'user-agent':'Mozilla/5.0'}
    r=requests.get(url,headers=kv)
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    print(r.text[2000:3000])
except:
    print("爬取失败")

#### 实例3：百度搜索关键字提交

百度的关键词接口：http://www.baidu.com/s?wd=keyword

In [None]:
import requests
keyword="Python"
try:
    kv={'wd':keyword}
    r=requests.get("http://www.baidu.com/s",params=kv)
    print(r.request.url)
    r.raise_for_status()
    print(len(r.text))
except:
    print("爬取失败")

### 3.文本解析
* 网络请求库神器 Requests ，请求把数据返回来之后就要提取目标数据，不同的网站返回的内容通常有多种不同的格式，一种是 json 格式，这类数据对开发者来说最友好。另一种 XML 格式的，还有一种最常见格式的是 HTML 文档，今天就来讲讲如何从 HTML 中提取出感兴趣的数据

  * BeautifulSoup解析网页
  * Re正则表达式

### 3.1 BeautifulSoup——HTML文本解析库
* BeautifulSoup 是一个用于解析 HTML 文档的 Python 库，通过 BeautifulSoup，你只需要用很少的代码就可以提取出 HTML 中任何感兴趣的内容，此外，它还有一定的 HTML 容错能力，对于一个格式不完整的HTML 文档，它也可以正确处理。

#### 安装 BeautifulSoup

pip install beautifulsoup4

#### HTML 标签
学习 BeautifulSoup4 前有必要先对 HTML 文档有一个基本认识，如下代码，HTML 是一个树形组织结构。

```
<html>  
    <head>
     <title>hello, world</title>
    </head>
    <body>
        <h1>BeautifulSoup</h1>
        <p>如何使用BeautifulSoup</p>
    <body>
</html>
```
* 它由很多标签（Tag）组成，比如 html、head、title等等都是标签

* 一个标签对构成一个节点，比如 <html>...</html>是一个根节点

* 节点之间存在某种关系，比如 h1 和 p 互为邻居，他们是相邻的兄弟（sibling）节点

* h1 是 body 的直接子（children）节点，还是 html 的子孙（descendants）节点

* body 是 p 的父（parent）节点，html 是 p 的祖辈（parents）节点

* 嵌套在标签之间的字符串是该节点下的一个特殊子节点，比如 “hello, world” 也是一个节点，只不过没名字。

#### 使用 BeautifulSoup
构建一个 BeautifulSoup 对象需要两个参数，第一个参数是将要解析的 HTML 文本字符串，第二个参数告诉 BeautifulSoup  使用哪个解析器来解析 HTML。

| 解析器	| 使用方法	| 优势	| 劣势 |
|--| -- |-- |-- |
| Python标准库 |	BeautifulSoup(markup, "html.parser")	| Python的内置标准库、执行速度适中 、文档容错能力强 | Python 2.7.3 or 3.2.2)前的版本中文容错能力差|
| lxml HTML 解析器	| BeautifulSoup(markup, "lxml")	| 速度快、文档容错能力强 | 需要安装C语言库 |
| lxml XML 解析器	| BeautifulSoup(markup, "xml") | 速度快、唯一支持XML的解析器 | 需要安装C语言库 |
| html5lib	| BeautifulSoup(markup, "html5lib")	 | 最好的容错性、以浏览器的方式解析文档、生成HTML5格式的文档 | 速度慢、不依赖外部扩展 |

解析器负责把 HTML 解析成相关的对象，而 BeautifulSoup 负责操作数据（增删改查）。“html.parser” 是 Python 内置的解析器，“lxml” 则是一个基于c语言开发的解析器，它的执行速度更快，不过它需要额外安装

通过 BeautifulSoup 对象可以定位到 HTML 中的任何一个标签节点

In [None]:
from bs4 import BeautifulSoup  
text = """
<html>  
    <head>
     <title >hello, world</title>
    </head>
    <body>
        <h1>BeautifulSoup</h1>
        <p class="bold">如何使用BeautifulSoup</p>
        <p class="big" id="key1"> 第二个p标签</p>
        <a href="http://foofish.net">python</a>
    </body>
</html>  
"""
soup = BeautifulSoup(text, "html.parser")

In [None]:
# 格式化输出 soup 对象的内容
print(soup.prettify())

In [None]:
soup.head

In [None]:
# title 标签
soup.title

In [None]:
soup.title.string

In [None]:
# p 标签
soup.p

In [None]:
soup.p.next_sibling

In [None]:
# p 标签的内容
soup.p.string

In [None]:
#获取指定标签的子节点，类型是list
type(soup.body.contents)

BeatifulSoup 将 HTML 抽象成为 4 类主要的数据类型，分别是Tag , NavigableString , BeautifulSoup，Comment 。每个标签节点就是一个Tag对象，NavigableString 对象一般是包裹在Tag对象中的字符串，BeautifulSoup 对象代表整个 HTML 文档。例如：

In [None]:
type(soup)

In [None]:
type(soup.h1)

In [None]:
type(soup.p.string)

#### Tag

Tag有很多方法和属性,现在介绍一下tag中最重要的属性: **name和attrs**。

* **name**

每个 Tag 都有一个名字，它对应 HTML 的标签名称。

In [None]:
soup.h1

In [None]:
soup.h1.name

In [None]:
soup.p.name

* **attrs**

标签还可以有属性，属性的访问方式和字典是类似的，它返回一个列表对象

In [None]:
soup.p

In [None]:
soup.p.attrs

In [None]:
soup.p['class']

#### NavigableString
获取标签中的内容，直接使用 .stirng 即可获取，它是一个 NavigableString 对象，你可以显式地将它转换为 unicode 字符串。

In [None]:
soup.p.string

In [None]:
type(soup.p.string)

In [None]:
unicode_str = str(soup.p.string)
unicode_str

In [None]:
type(unicode_str)

基本概念介绍完，现在可以正式进入主题了，如何从 HTML 中找到我们关心的数据？BeautifulSoup 提供了两种方式，一种是遍历，另一种是搜索，通常两者结合来完成查找任务。

### 3.1.1 标签选择器

#### 遍历文档树
遍历文档树，顾名思义，就是是从根节点 html 标签开始遍历，直到找到目标元素为止，遍历的一个缺陷是，如果你要找的内容在文档的末尾，那么它要遍历整个文档才能找到它，速度上就慢了。遍历文档树的另一个缺点是只能获取到与之匹配的第一个子节点，例如，如果有两个相邻的 p 标签时，第二个标签就没法通过 .p 的方式获取，这是需要借用 next_sibling 属性获取相邻的节点。

In [None]:
html = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1"><!-- Elsie --></a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
 </body>
</html>
"""

In [None]:
soup = BeautifulSoup(html, 'lxml')#传入解析器

**1、选择元素**

In [None]:
print(soup.title)#将title标签里的内容包括其便签全部输出
print(type(soup.title))
print(soup.head)
print(soup.p)

**2、获取名称**

In [None]:
print(soup.title.name)#获取标签的名称

**3、获取属性**

In [None]:
print(soup.p.attrs['name'])#获取标签的属性
print(soup.p['name'])#获取标签的属性

**4、获取内容**

In [None]:
print(soup.p.string)#获取标签内的内容

**5、嵌套循环选择**

In [None]:
print(soup.head.title.string)#层层迭代，获取head标签里的title标签里的文本

<>…</>构成了所属关系，形成了标签的树形结构。这里将介绍对标签树的遍历，有三种遍历方式，分为下行遍历，上行遍历以及，平行遍历。

**6、子节点和子孙节点**

**标签树的下行遍历**

属性| 说明
--|--
.contents| 子节点的列表，将<tag>所有儿子节点存入列表
.children| 子节点的迭代类型，与.contents类似，用于循环遍历儿子节点
.descendants| 子孙节点的迭代类型，包含所有子孙节点，用于循环遍历 

In [None]:
#方法一：获取p标签里的所有子节点，以list保存
print(soup.p.contents)#获取p标签里的所有子节点，以list保存

In [None]:
# 方法二：获取p标签里的所有子节点，以迭代输出
print(soup.p.children)
for i, child in enumerate(soup.p.children):
    print(i, child)

In [None]:
# 方法三：获取p标签里的所有子节点以及子孙节点（子节点对应的子节点）
print(soup.p.descendants)
for i, child in enumerate(soup.p.descendants):
    print(i, child)

**7、父节点和祖先节点**

**标签树的上行遍历**

属性| 说明
--|--
.parent| 节点的父亲标签
.parents| 节点先辈标签的迭代类型，用于循环遍历先辈节点

In [None]:
#方法一：获取标签的父节点（前一级的节点）
print(soup.a.parent)

In [None]:
# 方法二：获取标签所有的祖先节点（父节点的父节点的父节点。。。直到最顶层（把整个文档输出））
print(list(enumerate(soup.a.parents)))

**8、兄弟节点**

**标签树的平行遍历**

属性| 说明
--|--
.next_sibling |返回按照HTML文本顺序的下一个平行节点标签
.previous_sibling |返回按照HTML文本顺序的上一个平行节点标签
.next_siblings| 迭代类型，返回按照HTML文本顺序的后续所有平行节点标签
.previous_siblings |迭代类型，返回按照HTML文本顺序的前续所有平行节点标签  
注意平行遍历发生在同一个父节点下的各节点间

In [None]:
print(list(enumerate(soup.a.next_siblings)))
print(list(enumerate(soup.a.previous_siblings)))

### 3.1.2 标准选择器

#### 搜索文档树
搜索文档树是通过指定标签名来搜索元素，还可以通过指定标签的属性值来精确定位某个节点元素，最常用的两个方法就是 find 和 find_all。这两个方法在 BeatifulSoup 和 Tag 对象上都可以被调用。

In [None]:
html='''
<div class="panel">
    <div class="panel-heading">
        <h4>Hello</h4>
    </div>
    <div class="panel-body">
        <ul class="list" id="list-1" name="elements">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
            <li class="element">Jay</li>
        </ul>
        <ul class="list list-small" id="list-2">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
        </ul>
    </div>
</div>
'''

In [None]:
soup = BeautifulSoup(html, 'lxml')

#### 1、find_all方法
```
find_all( name , attrs , recursive , text , **kwargs )
第一个参数 name 是标签节点的名字。
第二个参数是标签的class属性值
kwargs 是标签的属性名值对
可根据标签名、属性、内容查找文档
```
**name（标签名字选择）**

In [None]:
print(soup.find_all('ul'))#查询所有便签为ul的元素
print(type(soup.find_all('ul')[0]))

In [None]:
# 嵌套搜索
for ul in soup.find_all('ul'):
    print(ul.find_all('li'))

**attr（标签的属性选择）**

In [None]:
#使用标签的的属性查找
#方法一：使用字典参数查询
print(soup.find_all(attrs={'id': 'list-1'}))
print(soup.find_all(attrs={'name': 'elements'}))

In [None]:
#方法二：
print(soup.find_all(id='list-1'))
#只选择element属性的内容
print(soup.find_all(class_='element'))

In [None]:
# 找到所有class属性为element的li标签
soup.find_all("li", "element")

In [None]:
# 等效于
soup.find_all("li", class_="element")

In [None]:
import re
soup.find_all(class_=re.compile("^list"))

**text（文本选择）**

In [None]:
#只返回text文本，适合内容匹配，不适合文本查询
print(soup.find_all(text='Foo'))

In [None]:
print(soup.find_all(text=re.compile('a')))

#### 2、find方法
```
find( name , attrs , recursive , text , **kwargs )
```
find返回单个元素，find_all返回所有元素

In [None]:
print(soup.find('ul'))
print(type(soup.find('ul')))
print(soup.find('page'))

#### 3、其他的一些find方法
```
find_parents() find_parent()
find_parents()返回所有祖先节点，find_parent()返回直接父节点。

find_next_siblings() find_next_sibling()
find_next_siblings()返回后面所有兄弟节点，find_next_sibling()返回后面第一个兄弟节点。

find_previous_siblings() find_previous_sibling()
find_previous_siblings()返回前面所有兄弟节点，find_previous_sibling()返回前面第一个兄弟节点。

find_all_next() find_next()
find_all_next()返回节点后所有符合条件的节点, find_next()返回第一个符合条件的节点

find_all_previous() 和 find_previous()
find_all_previous()返回节点后所有符合条件的节点, find_previous()返回第一个符合条件的节点
```

### 3.1.3 CSS选择器
通过select()直接传入CSS选择器即可完成选择

In [None]:
html='''
<div class="panel">
    <div class="panel-heading">
        <h4>Hello</h4>
    </div>
    <div class="panel-body">
        <ul class="list" id="list-1">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
            <li class="element">Jay</li>
        </ul>
        <ul class="list list-small" id="list-2">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
        </ul>
    </div>
</div>
'''

In [None]:
soup = BeautifulSoup(html, 'lxml')

#### 1、基本语法

In [None]:
print(soup.select('.panel .panel-heading'))#.代表class，中间需要空格来分隔
print(soup.select('ul li')) #选择ul标签下面的li标签
print(soup.select('#list-2 .element')) #'#'代表id。这句的意思是查找id为"list-2"的标签下的，class=element的元素
print(type(soup.select('ul')[0]))#打印节点类型

#### 2、层层迭代

In [None]:
for ul in soup.select('ul'):
    print(ul.select('li'))

#### 3、获取属性

In [None]:
for ul in soup.select('ul'):
    print(ul['id'])#这两种方法都能获取标签的属性（id或其他）
    print(ul.attrs['id'])

#### 4、获取内容

In [None]:
for li in soup.select('li'):
    print('Get Text:', li.get_text())
    print('String:', li.string)

#### 总结
BeatifulSoup 是一个用于操作 HTML 文档的 Python 库，初始化 BeatifulSoup 时，需要指定 HTML 文档字符串和具体的解析器。它有3类常用的数据类型，分别是 Tag、NavigableString、和 BeautifulSoup。查找 HTML元素有两种方式，分别是遍历文档树和搜索文档树，通常快速获取数据需要二者结合。

### 3.1.4 BeautifulSoup库网络爬取实战

**中国大学排名定向爬虫**

这里把程序分为三个部分    
* 步骤1：从网络上获取大学排名网页内容 getHTMLText()   
* 步骤2：提取网页内容中信息到合适的数据结构 fillUnivList()  
* 步骤3：利用数据结构展示并输出结果 printUnivList()

In [None]:
import requests
from bs4 import BeautifulSoup
import bs4

def getHTMLText(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return ""

def fillUnivList(ulist,html):
    soup=BeautifulSoup(html,"html.parser")
    for tr in soup.find("tbody").children:
        if isinstance(tr,bs4.element.Tag):
            tds=tr('td')
            ulist.append([tds[0].string,tds[1].string,tds[2].string,tds[3].string])

def printUnivList(ulist,num):
    print("{:^10}\t{:^1}\t{:^1}\t{:^10}".format("排名","学校名称","省市","总分"))
    for i in range(num):
        u=ulist[i]
        print("{:^10}\t{:^1}\t{:^1}\t{:^10}".format(u[0],u[1],u[2],u[3]))
        
def main():
    uinfo=[]
    url="http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html"
    html=getHTMLText(url)
    fillUnivList(uinfo,html)
    printUnivList(uinfo,20)#20个大学

main()

### 3.2 Re——正则表达式

正则表达式本身是一种小型的、高度专业化的编程语言，而在python中，通过内嵌集成re模块，程序员们可以直接调用来实现正则匹配。正则表达式模式被编译成一系列的字节码，然后由用C编写的匹配引擎执行。

![](./img/re.png)

### 3.2.1 re.match方法

re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。

函数语法：
```
re.match(pattern, string, flags=0)
```

In [None]:
import re
m = re.match('www', 'www.santostang.com')
print ("匹配的结果:  ", m)    
print ("匹配的起始与终点:  ", m.span()) 
print ("匹配的起始位置:  ", m.start())
print ("匹配的终点位置:  ", m.end())

In [None]:
m = re.match('san', 'www.santostang.com')

我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

In [None]:
line = "Fat cats are smarter than dogs, is it right?"
m = re.match( r'(.*) are (.*?) dogs', line)
print ('匹配的整句话', m.group(0))
print ('匹配的第一个结果', m.group(1))
print ('匹配的第二个结果', m.group(2))
print ('匹配的结果列表', m.groups())

### 3.2.2 re.search方法

在字符串中搜索匹配正则表达式的第一个位置

函数语法：
```
re.search(pattern, string, flags=0)
```

In [None]:
import re
m_match = re.match('com', 'www.santostang.com')
m_search = re.search('com', 'www.santostang.com')
print(m_match)
print(m_search)

In [None]:
print(re.search('www', 'www.runoob.com').span())  # 在起始位置匹配
print(re.search('com', 'www.runoob.com').span())         # 不在起始位置匹配

#### re.match与re.search的区别
re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；而re.search匹配整个字符串，直到找到一个匹配。

In [None]:
line = "Cats are smarter than dogs";
 
matchObj = re.match( r'dogs', line)
if matchObj:
   print ("match --> matchObj.group() : ", matchObj.group())
else:
   print ("No match!!")

In [None]:
matchObj = re.search( r'dogs', line, re.M|re.I)
if matchObj:
   print ("search --> matchObj.group() : ", matchObj.group())
else:
   print ("No match!!")

### 3.2.3 re.compile方法
compile 函数用于编译正则表达式，生成一个正则表达式（ Pattern ）对象，供 match() 和 search() 这两个函数使用。

语法格式为：
```
re.compile(pattern[, flags])
```

参数：

* pattern : 一个字符串形式的正则表达式
* flags 可选，表示匹配模式，比如忽略大小写，多行模式等，具体参数为：
  * re.I 忽略大小写
  * re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
  * re.M 多行模式
  * re.S 即为' . '并且包括换行符在内的任意字符（' . '不包括换行符）
  * re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
  * re.X 为了增加可读性，忽略空格和' # '后面的注释

In [None]:
pattern = re.compile(r'\d+')                    # 用于匹配至少一个数字

In [None]:
m = pattern.match('one12twothree34four')        # 查找头部，没有匹配
m.group(0)   # 可省略 0
m.start(0)   # 可省略 0
m.end(0)     # 可省略 0
m.span(0)    # 可省略 0

In [None]:
m = pattern.match('one12twothree34four', 2, 10) # 从'e'的位置开始匹配，没有匹配
m.group(0)   # 可省略 0
m.start(0)   # 可省略 0
m.end(0)     # 可省略 0
m.span(0)    # 可省略 0

In [None]:
m = pattern.match('one12twothree34four', 3, 10) # 从'1'的位置开始匹配，正好匹配
m.group(0)   # 可省略 0
m.start(0)   # 可省略 0
m.end(0)     # 可省略 0
m.span(0)    # 可省略 0

### 3.2.4 re.findall 方法

搜索字符串，以列表形式返回所有匹配的子串

语法格式为：
```
findall(string[, pos[, endpos]])
```

参数：

* string 待匹配的字符串。
* pos 可选参数，指定字符串的起始位置，默认为 0。
* endpos 可选参数，指定字符串的结束位置，默认为字符串的长度。

In [None]:
pattern = re.compile(r'\d+')   # 查找数字
result1 = pattern.findall('runoob 123 google 456')
result2 = pattern.findall('run88oob1google456')
 
print(result1)
print(result2)

In [None]:
m_match = re.match('[0-9]+', '12345 is the first number, 23456 is the sencond')
m_search = re.search('[0-9]+', 'The first number is 12345, 23456 is the sencond')
m_findall = re.findall('[0-9]+', '12345 is the first number, 23456 is the sencond')
print (m_match.group())
print (m_search.group())
print (m_findall)

### 3.2.5 re.split方法 
split 方法按照能够匹配的子串将字符串分割后返回列表，它的使用形式如下：

re.split(pattern, string[, maxsplit=0, flags=0])

In [None]:
re.split('\W+', 'runoob, runoob, runoob.')

In [None]:
re.split('\W+', 'runoob, runoob, runoob.', 1) 

### 3.2.6 常用匹配规则


* 常用操作符

操作符| 说明| 实例
--|--|--
. |表示任何单个字符|
[ ] |字符集，对单个字符给出取值范围 |[abc]表示a、 b、 c，[a‐z]表示a到z单个字符
[^ ] |非字符集，对单个字符给出排除范围 |[^abc]表示非a或b或c的单个字符
\* |前一个字符0次或无限次扩展 |abc\* 表示 ab、 abc、 abcc、 abccc等
\+ |前一个字符1次或无限次扩展 |abc+ 表示 abc、 abcc、 abccc等
? |前一个字符0次或1次扩展| abc? 表示 ab、 abc
&#124;| 左右表达式任意一个 |abc&#124;def 表示 abc、 def
{m} |扩展前一个字符m次 |ab{2}c表示abbc
{m,n} |扩展前一个字符m至n次（含n） |ab{1,2}c表示abc、 abbc
^| 匹配字符串开头 |^abc表示abc且在一个字符串的开头
\$| 匹配字符串结尾 |abc$表示abc且在一个字符串的结尾
( ) |分组标记，内部只能使用 &#124; 操作符 |(abc)表示abc，(abc&#124;def)表示abc、 def
\d |数字，等价于[0‐9]|
\w |单词字符，等价于[A‐Za‐z0‐9_]|

* 经典例子

正则表达式|对应字符串
--|--
^[A‐Za‐z]+\$|由26个字母组成的字符串
^[A‐Za‐z0‐9]+\$|由26个字母和数字组成的字符串
^‐?\d+\$|整数形式的字符串
^[0‐9]\*[1‐9][0‐9]\*\$|正整数形式的字符串
[1‐9]\d{5}|中国境内邮政编码，6位
[\u4e00‐\u9fa5]|匹配中文字符
\d{3}‐\d{8}&#124;\d{4}‐\d{7}|国内电话号码，010‐68913536

### 3.2.7 正则匹配实战

In [None]:
import re

html = '''<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>'''

In [None]:
result = re.search('<li.*?active.*?singer="(.*?)">(.*?)</a>', html, re.S)
if result:
    print(result.group(1), result.group(2))

In [None]:
result = re.search('<li.*?singer="(.*?)">(.*?)</a>', html, re.S)
if result:
    print(result.group(1), result.group(2))

In [None]:
result = re.search('<li.*?singer="(.*?)">(.*?)</a>', html)
if result:
    print(result.group(1), result.group(2))

In [None]:
results = re.findall('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>', html, re.S)
print(results)

In [None]:
html = re.sub('<a.*?>|</a>', '', html)
print(html)

In [None]:
results = re.findall('<li.*?>(.*?)</li>', html, re.S)
print(results)

In [None]:
for result in results:
    print(result.strip())

### 4.动态网页
* Selenium是一个用于测试网站的自动化测试工具，支持各种浏览器包括Chrome、Firefox、Safari等主流界面浏览器，同时也支持phantomJS无界面浏览器，爬虫中主要用来解决JavaScript渲染问题。

#### 安装Selenium
pip install selenium

In [None]:
## 看看Selenium.Webdriver支持哪些浏览器
from selenium import webdriver
help(webdriver)

#### 驱动下载

安装ChromeDriver, 该工具供selenium使用Chrome.

ChromeDriver: http://npm.taobao.org/mirrors/chromedriver/

下载前先查看本地环境的Chrome版本, 然后去上面的link中下载对应的ChromeDriver版本.

#### Selenium声明浏览器对象
browser = webdriver.Chrome()

#### 访问页面

In [None]:
import time
#webdriver.Firefox()
driver = webdriver.Chrome()     # 创建Chrome对象.
# 操作这个对象.
driver.get('https://www.baidu.com')     # get方式访问百度.
time.sleep(10)
driver.quit()   # 使用完, 记得关闭浏览器, 不然chromedriver.exe进程为一直在内存中.

#### 单个元素查找

In [None]:
# 申明一个浏览器对象
browser = webdriver.Chrome()
# 使用浏览器访问淘宝
browser.get('https://www.taobao.com')
# 在响应结果中通过id查找元素
input_first = browser.find_element_by_id('q')
# 在响应结果中通过css选择器查找元素
input_second = browser.find_element_by_css_selector('#q')
# 在响应结果中通过xpath查找元素
input_third = browser.find_element_by_xpath('//*[@id="q"]')
print(input_first)
print(input_second)
print(input_third)
time.sleep(10)
browser.close()

查找后返回的是一个Webelement对象。

查找多个元素: 将其中的element加上一个s，则是对应的多个查找方法。

![](img/driver.png)

#### 多个元素查找

其实多个元素和单个元素的区别，举个例子：find_elements,单个元素是find_element,其他使用上没什么区别，通过其中的一个例子演示：

In [None]:
browser = webdriver.Chrome()
browser.get("http://www.taobao.com")
lis = browser.find_elements_by_css_selector('.service-bd li')
print(lis)
browser.close()

#### 元素交互操作

In [None]:
import time
driver = webdriver.Chrome()     # 创建Chrome对象.
# 操作这个对象.
driver.get('https://www.baidu.com')     # get方式访问百度.

print('Before search================')
time.sleep(5)
# 打印当前页面title
title = driver.title
print(title)

# 打印当前页面URL
now_url = driver.current_url
print(now_url)

driver.find_element_by_id("kw").send_keys("python")
driver.find_element_by_id("su").click()
time.sleep(5)

print('After search================')

# 再次打印当前页面title
title = driver.title
print(title)

# 打印当前页面URL
now_url = driver.current_url
print(now_url)

# 获取结果数目
user = driver.find_element_by_class_name('nums').text
print(user)

time.sleep(5)

#关闭所有窗口
driver.quit()

#### 前进后退

In [None]:
import time
from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https://www.baidu.com/')
browser.get('https://www.taobao.com/')
browser.get('https://www.python.org/')
browser.back()
time.sleep(1)
browser.forward()
browser.close()

#### 选项卡管理

In [None]:
import time
from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https://www.baidu.com')
browser.execute_script('window.open()')
print(browser.window_handles)
browser.switch_to_window(browser.window_handles[1])
browser.get('https://www.taobao.com')
browser.close()
time.sleep(1)
browser.switch_to_window(browser.window_handles[0])
browser.get('https://python.org')
browser.close()

# Any Questions?