## requests与爬虫技术简介

网络爬虫一个非常炫酷，同时又非常实用的技术，这节课我们给大家介绍如何写程序去完成网络数据的抓取。

requests是一个很实用的Python HTTP客户端库，编写爬虫和测试服务器响应数据时经常会用到。

### 1.安装

要安装requests，最方便快捷的方法是使用pip进行安装。在命令行执行

pip install requests

### 2.请求

最简单的静态网页数据获取，需要先对网页进行请求，比如我们以腾讯新闻为例：

In [73]:
import requests
# result = requests.get('http://news.qq.com/')
result = requests.get('https://www.hainanu.edu.cn/index.shtml')

#### 2.1 状态码

我们可以从返回result的状态码中，了解到是否请求成功。

In [74]:
result.status_code

200

200表示正常返回结果，其余的数字(比如404，500等)表示请求未拿到正常返回结果。咱们来试几个网站。

In [4]:
def get_status(url):
    r = requests.get(url, allow_redirects = False)
    return r.status_code


In [6]:
print(get_status('http://www.zhidaow.com'))

200


In [7]:
print(get_status('http://www.zhidaow.com/hi404/'))

404


In [8]:
print(get_status('http://www.baidu.com/link?url=QeTRFOS7TuUQRppa0wlTJJr6FfIYI1DJprJukx4Qy0XnsDO_s9baoO8u1wvjxgqN'))

302


### 2.2 文件编码

我们的最终目的是获取显示在网页上的内容，文本字符串有不同的编码格式，咱们可以先从返回结果里做一个简单的了解。

In [75]:
result.encoding

'ISO-8859-1'

可以看到网页的编码格式为GB2312

### 2.3 返回的网页内容

从返回的结果result中，可以取出网页的内容

In [76]:
content = result.content
print(content[:1000])  # 前1000个字符

b'\r\n<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">\r\n<html xmlns="http://www.w3.org/1999/xhtml">\r\n<head>\r\n\t<meta content="text/html; charset=gb2312" http-equiv=Content-Type>\r\n\t<title>\xba\xa3\xc4\xcf\xb4\xf3\xd1\xa7 | Hainan University | www.hainanu.edu.cn</title>\r\n\t<meta name="keywords" content="\xba\xa3\xc4\xcf\xb4\xf3\xd1\xa7 | Hainan University | www.hainanu.edu.cn">\r\n\t<meta name="description" content="\xba\xa3\xc4\xcf\xb4\xf3\xd1\xa7 | Hainan University | www.hainanu.edu.cn">\r\n\t<link rel="stylesheet" type="text/css" href="/home2018/css/style20181018.css" />\r\n\t <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1" />\r\n\t<meta name=renderer  content=webkit>\r\n\t<script language="javascript" type="text/javascript" src="/home2018/js/jquery.js"></script>\r\n\t<script language="javascript" type="text/javascript" src="/home2018/js/jquery.SuperSlide.2.1.1.js"></script>\r\n</head>\r

以上为网页的HTML格式数据，接着我们就可以从上面取出所需要的内容了，比如现在我们需要爬取的是这一页腾讯新闻的新闻标题。
我们要用到另外一个非常好用的库，叫做BeautifulSoup，我们用它完成网页返回结果的解析和内容的提取。

具体的BeautifulSoup使用方法可以参考它的中文文档

In [83]:
import warnings
warnings.filterwarnings("ignore")

from bs4 import BeautifulSoup
soup = BeautifulSoup(content, fromEncoding="GB2312") #注意这个地方
# samples = soup.find_all('div',class_='qq_content ')
samples = soup.find_all('a',class_ ="bottom")
samples

[<a class="bottom" href="https://www.hainanu.edu.cn/" onclick="this.style.behavior='url(#default#homepage)';this.setHomePage('https://www.hainanu.edu.cn');">设为首页</a>,
 <a class="bottom" href="/" onclick="window.external.AddFavorite(location.href,document.title);">加入收藏 </a>]

In [87]:
print(samples[0].string)

设为首页


如果我们需要把所有的标题都取出来，只需要对刚才的samples做一个解析就可以了。

In [89]:
[sample.string for sample in samples]

['设为首页', '加入收藏 ']

In [94]:
for sample in samples:
    print(sample.string)

设为首页
加入收藏 


### 2.4 在URLs中传递参数

有时候我们需要在URL中传递参数，比如在采集百度搜索结果时，我们wd参数（搜索词）和rn参数（搜素结果数量），你可以手工组成URL，requests也提供了一种看起来很NB的方法：

In [96]:
payload = {'wd': '七月在线数据分析班', 'rn': '10'}
r = requests.get("http://www.baidu.com/s", params=payload)
print(r.url)

http://www.baidu.com/s?wd=%E4%B8%83%E6%9C%88%E5%9C%A8%E7%BA%BF%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E7%8F%AD&rn=10


### 2.5 设置超时时间¶

我们可以通过timeout属性设置超时时间，一旦超过这个时间还没获得响应内容，就会提示错误。

In [100]:
# requests.get('http://github.com', timeout = 2)
requests.get('http://github.com', timeout = 0.001)

ConnectTimeout: HTTPConnectionPool(host='github.com', port=80): Max retries exceeded with url: / (Caused by ConnectTimeoutError(<urllib3.connection.HTTPConnection object at 0x000001CC2FAF5EB8>, 'Connection to github.com timed out. (connect timeout=0.001)'))

### 2.6 添加代理¶

爬虫爬取数据时为避免被封IP，经常会使用代理。requests也有相应的proxies属性。

In [None]:
import requests

proxies = {
    'http':'http://10.10.1.10:3128',
    'https':'http://10.10.1.10:1080',
}
requests.get('http://www.zhidaow.com', proxies = proxies)

如果代理需要账户和密码，则需这样：

In [102]:
proxies = {
    "http": "http://user:pass@10.10.1.10:3128/",
}

### 2.7 请求头内容

请求头内容可以用r.request.headers来获取。

In [103]:
r.request.headers

{'User-Agent': 'python-requests/2.19.1', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

### 2.8 模拟登陆¶

有很多网站需要我们登录之后才能完成数据的抓取，requests同样支持提交表单(包含用户名和密码)进行登录。代码的示例如下：

In [None]:
s = requests.session()
data = {'user':'用户名','passdw':'密码'}
#post 换成登录的地址，
res=s.post('http://www.xxx.net/index.php?action=login',data);
#换成抓取的地址
s.get('http://www.xxx.net/archives/155/');