## 2.1 简单爬虫与数据抓取

![](./images/web_crawler.jpg)
网络爬虫一个非常炫酷，同时又非常实用的技术，这个部分我们给大家介绍如何写程序去完成网络数据的抓取。

requests是一个很实用的Python HTTP客户端库，编写爬虫和测试服务器响应数据时经常会用到。

![](./images/requests.png)

### 1.安装

要安装requests，最方便快捷的方法是使用pip进行安装。在命令行执行
```shell
pip install requests
```

### 2.请求

最简单的静态网页数据获取，需要先对网页进行请求，比如我们以腾讯新闻为例：

In [1]:
import requests

In [2]:
result = requests.get('http://news.qq.com/')

### 2.1 状态码
我们可以从返回result的状态码中，了解到是否请求成功。

In [4]:
result.status_code

200

200表示正常返回结果，其余的数字(比如404，500等)表示请求未拿到正常返回结果。咱们来试几个网站。

In [5]:
def get_status(url):
    r = requests.get(url, allow_redirects=False)
    return r.status_code

In [6]:
print(get_status('http://www.zhidaow.com'))

200


In [7]:
print(get_status('http://www.zhidaow.com/hi404/'))

404


In [8]:
print(get_status('http://www.baidu.com/link?url=QeTRFOS7TuUQRppa0wlTJJr6FfIYI1DJprJukx4Qy0XnsDO_s9baoO8u1wvjxgqN'))

302


### 2.2 文件编码
我们的最终目的是获取显示在网页上的内容，文本字符串有不同的编码格式，咱们可以先从返回结果里做一个简单的了解。

In [9]:
result.encoding

'GB2312'

可以看到网页的编码格式为GB2312

#### 2.3 返回的网页内容
从返回的结果result中，可以取出网页的内容

In [31]:
result.text[:1000]

u'<!DOCTYPE html>\n<html lang="en">\n\n<head>\n    <meta charset="UTF-8">\n    <meta name="renderer" content="webkit" />\n    <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">\n    <title>\u65b0\u95fb\u4e2d\u5fc3_\u817e\u8baf\u7f51</title>\n    <meta name="keywords" content="\u65b0\u95fb \u65b0\u95fb\u4e2d\u5fc3 \u4e8b\u5b9e\u6d3e \u65b0\u95fb\u9891\u9053,\u65f6\u4e8b\u62a5\u9053">\n    <meta name="description" content="\u817e\u8baf\u65b0\u95fb\uff0c\u4e8b\u5b9e\u6d3e\u3002\u65b0\u95fb\u4e2d\u5fc3,\u5305\u542b\u6709\u65f6\u653f\u65b0\u95fb\u3001\u56fd\u5185\u65b0\u95fb\u3001\u56fd\u9645\u65b0\u95fb\u3001\u793e\u4f1a\u65b0\u95fb\u3001\u65f6\u4e8b\u8bc4\u8bba\u3001\u65b0\u95fb\u56fe\u7247\u3001\u65b0\u95fb\u4e13\u9898\u3001\u65b0\u95fb\u8bba\u575b\u3001\u519b\u4e8b\u3001\u5386\u53f2\u3001\u7684\u4e13\u4e1a\u65f6\u4e8b\u62a5\u9053\u95e8\u6237\u7f51\u7ad9">\n    <meta name="author" content="skeetershi" />\n  \t<meta name="applicable-device" content="pc,mobile">\n\t<link rel="a

以上为网页的HTML格式数据，接着我们就可以从上面取出所需要的内容了，比如现在我们需要爬取的是这一页腾讯新闻的新闻标题。<br>
解析的方式有非常多种，比如有一个叫做BeautifulSoup的库，我们可以用它完成网页返回结果的解析和内容的提取。感兴趣的同学可以参考[它的中文文档](https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/)

我们这里讲一种比较高效的套路，叫做xpath路径表达式，具体的方法如下。

In [12]:
from lxml import etree

In [32]:
selector = etree.HTML(result.text)

我们先试试解析新闻的标题。

In [33]:
titles = selector.xpath('//div[@class="text"]/em/a/text()')

In [34]:
for title in titles:
    print(title)

去库存政策持续发力 80城住宅库存同比连降27个月
央行官员：要打破垄断 允许更多主体参与金融市场
波黑将成第二个对中国实行全面免签欧洲国家
港媒：中国推中泰高铁 拟年底前启动第一阶段工程
李明哲犯颠覆国家政权罪 被判处有期徒刑5年
教育新规：节假日、寒暑假老师不能组织学生补课、自习、考试
广州全面实施禁酒控酒 一般公务活动全面禁酒
广东潮州原市长卢淳杰深圳受审 被控受贿千万
最假的假新闻！“李嘉诚跑了”的谣言何以频频上演
四川“悬崖村”天梯将安装微光路灯
优等少年杀人事件：74刀！跑进黑暗离奇的14年
发布突发事件信息，政府要学会“退居幕后”
宁波警方通报爆炸案：拆解爆炸物不慎引发 排除人为故意
中国将在北京等9省市区扩大水资源税改革试点
醉驾男子累计社会服务30小时 拿到检方不起诉决定书
她在火车站狂扇工作人员耳光 网友：谁给的胆子?
分手后再纠缠 女子过失致前男友死亡
台湾“独派”拆蒋介石像 被讽：在台珍宝也应还给大陆
056A型护卫舰遂宁舰28日正式加入人民海军战斗序列
男子赴外地谈生意不成 偷走价值9万元铜渣
拖欠工资拒不支付 藏匿外地难逃法网
山西临沂蜜桃打防腐剂 虚假网络视频案宣判
�望：全面深改 要坚守“三条底线”不动摇
不管多小的官只要伸了手 都难逃被捉的宿命
香港立法会向4名前辱国议员追讨薪水 共计1174万港元
2017中科院院士增选结果揭晓 包括2名诺贝尔奖获得者
港媒：中泰高铁第一阶段工程拟于年底前启动
宁波警方通报爆炸案进展：爆炸物归属者系逃犯 已被抓获
彭宇华、李明哲犯颠覆国家政权罪分别获刑7年和5年
私家车返修途中自燃烧毁 汽修中心及无资质承租个人被判连带赔偿
全国首家以律师为调解员征地拆迁纠纷调解中心成立
“银行柜台机前杀人案”被告人一审被判死刑
巴厘岛机场延长关闭24小时 外媒称近6万名旅客滞留
楼市深度调控下：50宗“地王”为何仅有一成入市？
“限韩”破冰：中国为什么必须进口BIGBANG和EXO
茅台结束七连跌大涨超4% 市值重回8000亿元
汕头大学回应李嘉诚基金会办公室被摘牌：传闻不实
被爆料为比特币创始人 马斯克本人如此回应
贾跃亭雪上加霜！FF或无法完成5亿美元融资
监管窗口指导公募基金大单买卖 业内称属“日常操作”不意外
北京二手房成交量同比减半 中介离职潮再现
中企回应瓜达尔港收益分成质疑：已充分考虑巴方利益
69

In [35]:
detail_urls = selector.xpath('//div[@class="text"]/em/a/@href')

In [37]:
detail_urls[0]

'https://news.qq.com/a/20171128/000651.htm'

In [39]:
news = requests.get(detail_urls[0])
news_selector = etree.HTML(news.text)
time = news_selector.xpath('//span[@class="a_time"]/text()')
time

['2017-11-28 04:04']

#### 2.4 在URLs中传递参数
有时候我们需要在URL中传递参数，比如在采集百度搜索结果时，我们wd参数（搜索词）和rn参数（搜素结果数量），你可以手工组成URL，requests也提供了一种看起来很NB的方法：

In [41]:
my_params = {'wd':'大数据文摘', 'rn':'10'}
r = requests.get("http://www.baidu.com/s", params=my_params)
print r.url

http://www.baidu.com/s?rn=10&wd=%E5%A4%A7%E6%95%B0%E6%8D%AE%E6%96%87%E6%91%98


#### 2.5 设置超时时间

我们可以通过timeout属性设置超时时间，一旦超过这个时间还没获得响应内容，就会提示错误。

In [44]:
requests.get('http://github.com', timeout=0.001)

ConnectTimeout: HTTPConnectionPool(host='github.com', port=80): Max retries exceeded with url: / (Caused by ConnectTimeoutError(<urllib3.connection.HTTPConnection object at 0x7f80aaed3790>, 'Connection to github.com timed out. (connect timeout=0.001)'))

#### 2.6 添加代理
爬虫爬取数据时为避免被封IP，经常会使用代理。requests也有相应的proxies属性。

In [None]:
import requests
proxies = {
  "http": "http://10.10.1.10:3128",
  "https": "http://10.10.1.10:1080",
}
requests.get("http://www.zhidaow.com", proxies=proxies)

如果代理需要账户和密码，则需这样：

In [None]:
proxies = {
    "http": "http://user:pass@10.10.1.10:3128/",
}

#### 2.7 请求头内容
请求头内容可以用r.request.headers来获取。

In [45]:
result.request.headers

{'Connection': 'keep-alive', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'User-Agent': 'python-requests/2.17.3'}

#### 2.8 模拟登陆
有很多网站需要我们登录之后才能完成数据的抓取，requests同样支持提交表单(包含用户名和密码)进行登录。代码的示例如下：