# Python爬虫(crawler)与数据采集

### 面授班讲义  by 杨庆跃
请安装最新版本Jupyter notebook进行编程实验

## 关于网络爬虫
网络爬虫（又被称为网页蜘蛛，网络机器人，网页追逐者），是一种按照一定的规则，自动地抓取互联网信息的程序或者脚本。  
维基百科描述如下：[documentation](https://en.wikipedia.org/wiki/Web_crawler).

## 目录
- 爬虫原理
- Requests库介绍
- 防止封IP的方法
- 常用技巧
- 未来需要处理的难点：动态验证码
- beautiful soup4介绍

In [None]:
# _*_ coding:utf-8 _*_
import urllib.request as req

#向指定的url地址发送请求，并返回服务器响应的类文件对象
response = req.urlopen('http://www.baidu.com/')
#服务器返回的类文件对象支持python文件对象的操作方法
#read()方法就是读取文件里的全部内容，返回字符串
html = response.read()
print(html)

### Requests库
#### "HTTP for Humans"
Requests是基于urllib的第三方Python库，Requests比urllib更加方便，可以节约我们大量的工作。  
Requests具有强大的网络请求功能，可以实现跟浏览器一样发送各种HTTP请求来获取网站的数据，经常用来编写爬虫和测试服务器响应数据。  

[Requests官网](http://docs.python-requests.org/en/master/)


【课堂讲解】HTTP协议、请求中的GET和POST方法

In [None]:
# 最简单示例
import requests
 
response  = requests.get("http://www.baidu.com")
response.encoding = "utf-8" #response.text返回的是Unicode格式，通常需要转换为utf-8格式，否则就是乱码
print(response.text) #打印网页内容

### response.status_code:返回的状态码，显示请求是否成功  
2开头 （请求成功）表示成功处理了请求的状态代码。

200   （成功）  服务器已成功处理了请求。 通常，这表示服务器提供了请求的网页。 
201   （已创建）  请求成功并且服务器创建了新的资源。 
202   （已接受）  服务器已接受请求，但尚未处理。 
203   （非授权信息）  服务器已成功处理了请求，但返回的信息可能来自另一来源。 
204   （无内容）  服务器成功处理了请求，但没有返回任何内容。 
205   （重置内容） 服务器成功处理了请求，但没有返回任何内容。
206   （部分内容）  服务器成功处理了部分 GET 请求。

3开头 （请求被重定向）表示要完成请求，需要进一步操作。 通常，这些状态代码用来重定向。

300   （多种选择）  针对请求，服务器可执行多种操作。 服务器可根据请求者 (user agent) 选择一项操作，或提供操作列表供请求者选择。 
301   （永久移动）  请求的网页已永久移动到新位置。 服务器返回此响应（对 GET 或 HEAD 请求的响应）时，会自动将请求者转到新位置。
302   （临时移动）  服务器目前从不同位置的网页响应请求，但请求者应继续使用原有位置来进行以后的请求。
303   （查看其他位置） 请求者应当对不同的位置使用单独的 GET 请求来检索响应时，服务器返回此代码。
304   （未修改） 自从上次请求后，请求的网页未修改过。 服务器返回此响应时，不会返回网页内容。 
305   （使用代理） 请求者只能使用代理访问请求的网页。 如果服务器返回此响应，还表示请求者应使用代理。 
307   （临时重定向）  服务器目前从不同位置的网页响应请求，但请求者应继续使用原有位置来进行以后的请求。

4开头 （请求错误）这些状态代码表示请求可能出错，妨碍了服务器的处理。

400   （错误请求） 服务器不理解请求的语法。 
401   （未授权） 请求要求身份验证。 对于需要登录的网页，服务器可能返回此响应。 
403   （禁止） 服务器拒绝请求。
404   （未找到） 服务器找不到请求的网页。
405   （方法禁用） 禁用请求中指定的方法。 
406   （不接受） 无法使用请求的内容特性响应请求的网页。 
407   （需要代理授权） 此状态代码与 401（未授权）类似，但指定请求者应当授权使用代理。
408   （请求超时）  服务器等候请求时发生超时。 
409   （冲突）  服务器在完成请求时发生冲突。 服务器必须在响应中包含有关冲突的信息。 
410   （已删除）  如果请求的资源已永久删除，服务器就会返回此响应。 
411   （需要有效长度） 服务器不接受不含有效内容长度标头字段的请求。 
412   （未满足前提条件） 服务器未满足请求者在请求中设置的其中一个前提条件。 
413   （请求实体过大） 服务器无法处理请求，因为请求实体过大，超出服务器的处理能力。 
414   （请求的 URI 过长） 请求的 URI（通常为网址）过长，服务器无法处理。 
415   （不支持的媒体类型） 请求的格式不受请求页面的支持。 
416   （请求范围不符合要求） 如果页面无法提供请求的范围，则服务器会返回此状态代码。 
417   （未满足期望值） 服务器未满足"期望"请求标头字段的要求。

5开头（服务器错误）这些状态代码表示服务器在尝试处理请求时发生内部错误。 这些错误可能是服务器本身的错误，而不是请求出错。

500   （服务器内部错误）  服务器遇到错误，无法完成请求。 
501   （尚未实施） 服务器不具备完成请求的功能。 例如，服务器无法识别请求方法时可能会返回此代码。 
502   （错误网关） 服务器作为网关或代理，从上游服务器收到无效响应。 
503   （服务不可用） 服务器目前无法使用（由于超载或停机维护）。 通常，这只是暂时状态。 
504   （网关超时）  服务器作为网关或代理，但是没有及时从上游服务器收到请求。 
505   （HTTP 版本不受支持） 服务器不支持请求中所用的 HTTP 协议版本。

In [97]:
response  = requests.get("https://www.baidu.com")
response.status_code

200

#### response.content 返回网页的原始内容
通常需要转成utf8编码查看

In [None]:
response.content[:1000] #返回前2000个字符

In [None]:
print(response.content[:1000].decode("utf-8")) #rdecode转码

### 使用带参数的GET请求爬取页面

In [None]:
params = {'category': '1'}
response = requests.get("http://top.baidu.com",params=params)
print(response.content.decode(encoding ='GBK',errors = 'ignore')) 

### 使用带参数的POST请求爬取页面

In [None]:
import requests

data = {
    "name":"zhaofan",
    "age":23
}
response = requests.post("http://httpbin.org/post",data=data)
print(response.text)

### response返回的常用数据

In [172]:
import requests
response = requests.get("https://www.baidu.com")
print(response.url)
print(response.status_code)
print(response.headers)
print(response.cookies)
print(response.history)

https://www.baidu.com/
200
{'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, no-transform', 'Connection': 'Keep-Alive', 'Content-Encoding': 'gzip', 'Content-Type': 'text/html', 'Date': 'Tue, 11 Sep 2018 07:42:42 GMT', 'Last-Modified': 'Mon, 23 Jan 2017 13:23:50 GMT', 'Pragma': 'no-cache', 'Server': 'bfe/1.0.8.18', 'Set-Cookie': 'BDORZ=27315; max-age=86400; domain=.baidu.com; path=/', 'Transfer-Encoding': 'chunked'}
<RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>
[]


### 【防止封IP】加headers
采集页面时建议模拟头部信息，以防被目标网站封IP

In [None]:
headers = {
"User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.81 Safari/537.36",
}

params = {'category': '1'}
response = requests.get("http://top.baidu.com",params=params,headers=headers)
print(response.content.decode(encoding ='GBK',errors = 'ignore')) 

### 【防止封IP】使用代理服务器爬取网页
爬虫爬取数据时为避免被封IP，可以使用代理。requests支持proxies属性。

In [None]:
import requests
proxies = {
  "http": "http://218.60.8.99:3129",
  "http": "http://144.76.62.29:3128",
  "http": "http://47.105.92.173:80",
  "http": "http://47.104.222.190:80",
  "http": "http://47.105.89.116"
}
r= requests.get("http://www.73ke.com", proxies=proxies)
print(r.text)

### 模拟登录
一些网站需要登录后才能抓取数据，requests支持提交表单(包含用户名和密码)进行登录

In [None]:
# 注意，具体登录地址、用户名和密码的字段名因网站不同，下面仅仅是一个示例
s = requests.session()
data = {'user':'用户名','passdw':'密码'}
#post 换成登录的地址，
res=s.post('http://www.xxx.com/index.php?action=login',data);
# 换成抓取的地址
s.get('http://www.xxx.com/doc/');

### 设置timeout
设置timeout属性设置超时时间，超时会提示错误，以防止无限期等待。以秒为单位。

In [None]:
requests.get('http://www.73ke.com', timeout=0.0001)

# Beautiful Soup
Beautiful Soup是用Python写的一个HTML/XML的解析器，它可以兼容不规范标记并生成解析树(parse tree)。 它提供简单常用导航、搜索以及修改解析树的操作。大大节约进行网页分析的时间。
Beautiful Soup官方网址[文档](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)  
下面是简单示例，使用prettify函数重新整理HTML文档

In [200]:
from bs4 import BeautifulSoup

html = """
<html><body><p>
Click <a id='info' href='http://www.example.com'>here</a>
for more information.
</p></body></html>
"""
#创建 Beautiful Soup 对象
soup = BeautifulSoup(html,'lxml')

#格式化输出 soup 对象的内容
print(soup.prettify())

<html>
 <body>
  <p>
   Click
   <a href="http://www.example.com" id="info">
    here
   </a>
   for more information.
  </p>
 </body>
</html>



### 页面中的Tag对象

In [207]:
a_tag = soup.p.a
print(a_tag, type(a_tag), a_tag.name,a_tag.string,a_tag.attrs,a_tag.attrs['href'],sep='\n')

<a href="http://www.example.com" id="info">here</a>
<class 'bs4.element.Tag'>
a
here
{'id': 'info', 'href': 'http://www.example.com'}
http://www.example.com


### 通过下面属性遍历文档
- parent 父节点
- parents 祖先节点
- next_sibling 下一个兄弟
- next_siblings 下面所有兄弟
- previous_sibling 上一个兄弟
- previous_siblings 前边所有兄弟
- contents 子节点的列表
- children 子节点
- descendants 所有后代  
【课堂练习】针对下面文档，选择几个函属性看结果

In [254]:
from bs4 import BeautifulSoup

html = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1"><!-- Elsie --></a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
"""

#创建 Beautiful Soup 对象
soup = BeautifulSoup(html,'lxml')
print(soup.prettify())

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <p class="title" name="dromouse">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    <!-- Elsie -->
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>


In [263]:
print(soup.a.next_sibling.next_sibling['href'])

http://example.com/lacie


### 搜索文档树
#### find_all( name , attrs , recursive , text , **kwargs )
返回一个列表类型
- name 查找所有名字为 name 的tag,字符串对象会被自动忽略掉
- attrs 定义一个字典参数来搜索包含特殊属性的tag
- text 文档中的字符串内容
- recursive 是否递归到子孙节点  
-  **kwargs 其他参数
还有其他类似函数，find()、find_parents、find_next_siblings等  
【课堂练习】使用find_函数搜索节点

In [267]:
print(soup.find_all('a',id='link3'))

[<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]


#### CSS选择器
- soup.select('a') #通过name查找
- soup.select('.sister') #通过类名查找
- soup.select('#link3') #通过id查找
- soup.select('p #link1') #组合查找
- soup.select('a[class="sister"]') #属性查找  

select 方法返回的结果都是列表形式，可以遍历形式输出，然后用 get_text() 方法来获取它的内容。

【课堂练习】使用select函数搜索节点

In [274]:
for title in soup.select('a'):
    print(title.get_text())


Lacie
Tillie
