---
title: Python爬虫-Requests库入门
date: 2017-03-01 10:10:00
mathjax: true
categories: "Python爬虫"
tags:
    - Requests
---

# **Requests库入门**

## 安装测试

In [15]:
import requests
r = requests.get("http://www.baidu.com")
print (r.status_code)

200


## Requests库的主要方法

方法 | 说明
:---:|:---:
requests.request() | 构造一个请求，支撑以下各方法的基础方法
requests.get() | 获取HTML网页的主要方法，对应于HTTP的GET
requests.head() | 获取HTML网页头信息的方法，对应于HTTP的HEAD
requests.post() | 向HTML网页提交POST请求的方法，对应于HTTP的POST
requests.put() | 向HTML网页提交PUT请求的方法，对应于HTTP的PUT
requests.patch() | 向HTML网页提交局部修改请求，对应于HTTP的PATCH
requests.delete() | 向HTML页面提交删除请求，对应于HTTP的DELETE

## requests.get()方法

`get()`构造一个向服务器请求资源的`Request`对象，同时返回一个包含服务器资源的`Response`对象。

![](http://static.zybuluo.com/liangxw/5vxiyi2cv1blxh48bm2xmabg/image_1ba3qiku919pm38gan11ti5evm.png)

`requests.get()`的完整使用方法：

```python
requests.get(url, params=None, **kwargs)
```
- url
    拟获取页面的url链接
- params
    url中的额外参数，字典或字节流格式，可选
- **kwargs
    12个控制访问的参数

通过查看`requests.get()`的源码可以看出，`requests.get()`其实还是调用`requests.request()`。
Request库的7个主要方法，其实就是一个方法：`requests.request()`。为了让他人调用方便，进行了不同的封装。
![](http://static.zybuluo.com/liangxw/48e6g4h8hja2qgp52ccms3gl/image_1ba3r3gmaok12geg8ucd8m0q13.png)

## Response对象

`Response`对象包含服务器返回的所有信息，也包含请求的`Request`信息：

In [97]:
import requests
r = requests.get("http://www.baidu.com")
print (type(r))
print (r.status_code)
print (r.headers)

In [None]:
<class 'requests.models.Response'>
200
{'Content-Encoding': 'gzip', 'Transfer-Encoding': 'chunked', 'Set-Cookie': 'BDORZ=27315; max-age=86400; domain=.baidu.com; path=/', 'Server': 'bfe/1.0.8.18', 'Last-Modified': 'Mon, 23 Jan 2017 13:28:32 GMT', 'Connection': 'Keep-Alive', 'Pragma': 'no-cache', 'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, no-transform', 'Date': 'Wed, 01 Mar 2017 09:32:33 GMT', 'Content-Type': 'text/html'}

### 属性

属性 | 说明
:---:|:---:
r.status_code | HTTP请求的返回状态，200表示连接成功，404表示失败
r.text | HTTP响应内容的字符串形式，即，url对应的页面内容
r.encoding | 从HTTP header中猜测的响应内容编码方式
r.apparent_encoding | 从内容中分析出的响应内容编码方式（备选编码方式）
r.content | HTTP响应内容的二进制形式

### 返回状态

r.status_code：200表示返回成功，连接成功。404（只要不是200）表示连接失败。

### 编码

属性|说明
:---:|:---:
r.encoding | 从HTTP header中猜测的响应内容编码方式（如果header中不存在charset，则认为编码为ISO-8859-1，r.text根据r.encoding显示网页内容）
r.apparent_encoding | 从内容中分析出的响应内容编码方式（根据网页内容分析出的编码方式，可以看作是r.encoding的备选）

In [87]:
import requests
r = requests.get("http://www.baidu.com")
print (r.encoding)
print (r.apparent_encoding)
print (r.text)

In [None]:
ISO-8859-1
utf-8
<!DOCTYPE html>
<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer><link rel=stylesheet type=text/css href=http://s1.bdstatic.com/r/www/cache/bdorz/baidu.min.css><title>ç¾åº¦ä¸ä¸ï¼ä½ å°±ç¥é</title></head> <body link=#0000cc> <div id=wrapper> <div id=head> <div class=head_wrapper> <div class=s_form> <div class=s_form_wrapper> <div id=lg> <img hidefocus=true src=//www.baidu.com/img/bd_logo1.png width=270 height=129> </div> <form id=form name=f action=//www.baidu.com/s class=fm> <input type=hidden name=bdorz_come value=1> <input type=hidden name=ie value=utf-8> <input type=hidden name=f value=8> <input type=hidden name=rsv_bp value=1> <input type=hidden name=rsv_idx value=1> <input type=hidden name=tn value=baidu><span class="bg s_ipt_wr"><input id=kw name=wd class=s_ipt value maxlength=255 autocomplete=off autofocus></span><span class="bg s_btn_wr"><input type=submit id=su value=ç¾åº¦ä¸ä¸ class="bg s_btn"></span> </form> </div> </div> <div id=u1> <a href=http://news.baidu.com name=tj_trnews class=mnav>æ°é»</a> <a href=http://www.hao123.com name=tj_trhao123 class=mnav>hao123</a> <a href=http://map.baidu.com name=tj_trmap class=mnav>å°å¾</a> <a href=http://v.baidu.com name=tj_trvideo class=mnav>è§é¢</a> <a href=http://tieba.baidu.com name=tj_trtieba class=mnav>è´´å§</a> <noscript> <a href=http://www.baidu.com/bdorz/login.gif?login&amp;tpl=mn&amp;u=http%3A%2F%2Fwww.baidu.com%2f%3fbdorz_come%3d1 name=tj_login class=lb>ç»å½</a> </noscript> <script>document.write('<a href="http://www.baidu.com/bdorz/login.gif?login&tpl=mn&u='+ encodeURIComponent(window.location.href+ (window.location.search === "" ? "?" : "&")+ "bdorz_come=1")+ '" name="tj_login" class="lb">ç»å½</a>');</script> <a href=//www.baidu.com/more/ name=tj_briicon class=bri style="display: block;">æ´å¤äº§å</a> </div> </div> </div> <div id=ftCon> <div id=ftConw> <p id=lh> <a href=http://home.baidu.com>å³äºç¾åº¦</a> <a href=http://ir.baidu.com>About Baidu</a> </p> <p id=cp>&copy;2017&nbsp;Baidu&nbsp;<a href=http://www.baidu.com/duty/>ä½¿ç¨ç¾åº¦åå¿è¯»</a>&nbsp; <a href=http://jianyi.baidu.com/ class=cp-feedback>æè§åé¦</a>&nbsp;äº¬ICPè¯030173å·&nbsp; <img src=//www.baidu.com/img/gs.gif> </p> </div> </div> </div> </body> </html>

使用默认的编码方式有很多的乱码，所以我们需要更改编码方式：

In [88]:
r.encoding = 'utf8'
print (r.text)

In [None]:
<!DOCTYPE html>
<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer><link rel=stylesheet type=text/css href=http://s1.bdstatic.com/r/www/cache/bdorz/baidu.min.css><title>百度一下，你就知道</title></head> <body link=#0000cc> <div id=wrapper> <div id=head> <div class=head_wrapper> <div class=s_form> <div class=s_form_wrapper> <div id=lg> <img hidefocus=true src=//www.baidu.com/img/bd_logo1.png width=270 height=129> </div> <form id=form name=f action=//www.baidu.com/s class=fm> <input type=hidden name=bdorz_come value=1> <input type=hidden name=ie value=utf-8> <input type=hidden name=f value=8> <input type=hidden name=rsv_bp value=1> <input type=hidden name=rsv_idx value=1> <input type=hidden name=tn value=baidu><span class="bg s_ipt_wr"><input id=kw name=wd class=s_ipt value maxlength=255 autocomplete=off autofocus></span><span class="bg s_btn_wr"><input type=submit id=su value=百度一下 class="bg s_btn"></span> </form> </div> </div> <div id=u1> <a href=http://news.baidu.com name=tj_trnews class=mnav>新闻</a> <a href=http://www.hao123.com name=tj_trhao123 class=mnav>hao123</a> <a href=http://map.baidu.com name=tj_trmap class=mnav>地图</a> <a href=http://v.baidu.com name=tj_trvideo class=mnav>视频</a> <a href=http://tieba.baidu.com name=tj_trtieba class=mnav>贴吧</a> <noscript> <a href=http://www.baidu.com/bdorz/login.gif?login&amp;tpl=mn&amp;u=http%3A%2F%2Fwww.baidu.com%2f%3fbdorz_come%3d1 name=tj_login class=lb>登录</a> </noscript> <script>document.write('<a href="http://www.baidu.com/bdorz/login.gif?login&tpl=mn&u='+ encodeURIComponent(window.location.href+ (window.location.search === "" ? "?" : "&")+ "bdorz_come=1")+ '" name="tj_login" class="lb">登录</a>');</script> <a href=//www.baidu.com/more/ name=tj_briicon class=bri style="display: block;">更多产品</a> </div> </div> </div> <div id=ftCon> <div id=ftConw> <p id=lh> <a href=http://home.baidu.com>关于百度</a> <a href=http://ir.baidu.com>About Baidu</a> </p> <p id=cp>&copy;2017&nbsp;Baidu&nbsp;<a href=http://www.baidu.com/duty/>使用百度前必读</a>&nbsp; <a href=http://jianyi.baidu.com/ class=cp-feedback>意见反馈</a>&nbsp;京ICP证030173号&nbsp; <img src=//www.baidu.com/img/gs.gif> </p> </div> </div> </div> </body> </html>

# **通用代码框架**

**网络连接有风险，异常处理很重要！**

## 异常类型

异常 | 说明
:---:|:---:
requests.ConnectionError | 网络连接错误异常，如DNS查询失败、拒绝连接等
requests.HTTPError | HTTP错误异常
requests.URLRequired | URL缺失异常
requests.TooManyRedirects | 超过最大重定向次数，产生重定向异常
requests.ConnectTimeout | 连接远程服务器超时异常
requests.Timeout | 请求URL超时，产生超时异常

## 异常判断

`Requests`库提供`r.raise_for_status()`方法，该方法内部判断r.status_code是否等于200，不需要增加额外的if语句，该语句便于利用try‐except进行异常处理。

## 通用代码框架

In [12]:
import requests

def getHTMLText(url):
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"

In [89]:
if __name__ == "__main__":
    url = "http://www.baidu.com"
    print (getHTMLText(url))

In [None]:
<!DOCTYPE html>
<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer><link rel=stylesheet type=text/css href=http://s1.bdstatic.com/r/www/cache/bdorz/baidu.min.css><title>百度一下，你就知道</title></head> <body link=#0000cc> <div id=wrapper> <div id=head> <div class=head_wrapper> <div class=s_form> <div class=s_form_wrapper> <div id=lg> <img hidefocus=true src=//www.baidu.com/img/bd_logo1.png width=270 height=129> </div> <form id=form name=f action=//www.baidu.com/s class=fm> <input type=hidden name=bdorz_come value=1> <input type=hidden name=ie value=utf-8> <input type=hidden name=f value=8> <input type=hidden name=rsv_bp value=1> <input type=hidden name=rsv_idx value=1> <input type=hidden name=tn value=baidu><span class="bg s_ipt_wr"><input id=kw name=wd class=s_ipt value maxlength=255 autocomplete=off autofocus></span><span class="bg s_btn_wr"><input type=submit id=su value=百度一下 class="bg s_btn"></span> </form> </div> </div> <div id=u1> <a href=http://news.baidu.com name=tj_trnews class=mnav>新闻</a> <a href=http://www.hao123.com name=tj_trhao123 class=mnav>hao123</a> <a href=http://map.baidu.com name=tj_trmap class=mnav>地图</a> <a href=http://v.baidu.com name=tj_trvideo class=mnav>视频</a> <a href=http://tieba.baidu.com name=tj_trtieba class=mnav>贴吧</a> <noscript> <a href=http://www.baidu.com/bdorz/login.gif?login&amp;tpl=mn&amp;u=http%3A%2F%2Fwww.baidu.com%2f%3fbdorz_come%3d1 name=tj_login class=lb>登录</a> </noscript> <script>document.write('<a href="http://www.baidu.com/bdorz/login.gif?login&tpl=mn&u='+ encodeURIComponent(window.location.href+ (window.location.search === "" ? "?" : "&")+ "bdorz_come=1")+ '" name="tj_login" class="lb">登录</a>');</script> <a href=//www.baidu.com/more/ name=tj_briicon class=bri style="display: block;">更多产品</a> </div> </div> </div> <div id=ftCon> <div id=ftConw> <p id=lh> <a href=http://home.baidu.com>关于百度</a> <a href=http://ir.baidu.com>About Baidu</a> </p> <p id=cp>&copy;2017&nbsp;Baidu&nbsp;<a href=http://www.baidu.com/duty/>使用百度前必读</a>&nbsp; <a href=http://jianyi.baidu.com/ class=cp-feedback>意见反馈</a>&nbsp;京ICP证030173号&nbsp; <img src=//www.baidu.com/img/gs.gif> </p> </div> </div> </div> </body> </html>

In [14]:
if __name__ == "__main__":
    url = "www.baidu.com"
    print (getHTMLText(url))

产生异常


# **HTTP协议**

`HTTP`，`Hypertext Transfer Protocol`，超文本传输协议
HTTP是一个基于“请求与响应”模式的、无状态的应用层协议

HTTP协议采用`URL`作为定位网络资源的标识，URL格式如下：
`http://host[:port][path]`

- host
    合法的Internet主机域名或IP地址
- port
    端口号，缺省端口为80
- path
    请求资源的路径

URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源。
通过URL和命令管理资源，操作独立无状态（任意两次请求没有任何关联），网络通道及服务器成为了黑盒子（只能识别URL和相关请求命令）

HTTP协议对资源的操作：

方法 | 说明
:---:|:---:
GET | 请求获取URL位置的资源
HEAD | 请求获取URL位置资源的响应消息报告，即获得该资源的头部信息
POST | 请求向URL位置的资源后**附加**新的数据
PUT | 请求向URL位置存储一个资源，**覆盖**原URL位置的资源
PATCH | 请求**局部更新**URL位置的资源，即改变该处资源的部分内容
DELETE | 请求删除URL位置存储的资源

HTTP操作与Requests库方法比较：

HTTP协议方法 | Requests库方法 | 功能一致性
:---:|:---:|:---:
GET | requests.get() | 一致
HEAD | requests.head() | 一致
POST | requests.post() | 一致
PUT | requests.put() | 一致
PATCH | requests.patch() | 一致
DELETE | requests.delete() |一致

## PATCH和PUT的区别

假设URL位置有一组数据UserInfo，包括UserID、 UserName等20个字段
需求：用户修改UserName，而其他不变
- 采用PATC
    仅向URL提交UserName的局部更新请求
- 采用PUT
    必须将所有20个字段一并提交到URL，未提交字段被删除

PATCH的最主要好处：**节省网络带宽**

## head()

使用很少的流量，获取网络资源的概要信息：

In [90]:
r = requests.head("http://httpbin.org/get")
print (r.headers)

In [None]:
{'Content-Length': '238', 'Server': 'nginx', 'Connection': 'keep-alive', 'Access-Control-Allow-Credentials': 'true', 'Date': 'Wed, 01 Mar 2017 03:16:38 GMT', 'Access-Control-Allow-Origin': '*', 'Content-Type': 'application/json'}

## post()

向URL POST一个字典，自动编码为`form（表单）`：

In [24]:
payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.post('http://httpbin.org/post', data = payload)
print(r.text)

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "key1": "value1", 
    "key2": "value2"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "23", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.12.4"
  }, 
  "json": null, 
  "origin": "36.57.173.200", 
  "url": "http://httpbin.org/post"
}



向URL POST一个字符串，自动编码为`data`：

In [25]:
r = requests.post('http://httpbin.org/post', data = 'ABC')
print (r.text)

{
  "args": {}, 
  "data": "ABC", 
  "files": {}, 
  "form": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "3", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.12.4"
  }, 
  "json": null, 
  "origin": "36.57.173.200", 
  "url": "http://httpbin.org/post"
}



## put() 

同样，向URL PUT一个字典，自动编码为`form（表单）`，但是会覆盖原来的数据：

In [27]:
payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.put('http://httpbin.org/put', data = payload)
print(r.text)

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "key1": "value1", 
    "key2": "value2"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "23", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.12.4"
  }, 
  "json": null, 
  "origin": "36.57.173.200", 
  "url": "http://httpbin.org/put"
}



# **Requests库的方法解析**

## requests.request()

In [None]:
requests.request(method, url, **kwargs)

- method
    请求方式
- url
    拟获取页面的url链接
- **kwargs
    控制访问的参数，共13个

## method

请求方式，对应get/put/post等7种，即：

In [None]:
r = requests.request('GET', url, **kwargs)
r = requests.request('HEAD', url, **kwargs)
r = requests.request('POST', url, **kwargs)
r = requests.request('PUT', url, **kwargs)
r = requests.request('PATCH', url, **kwargs)
r = requests.request('delete', url, **kwargs)
r = requests.request('OPTIONS', url, **kwargs)

## **kwargs

控制访问的参数，均为可选项。

参数名称 | 说明
:---:|:---:
params | 字典或字节序列，作为参数增加到url中
data | 字典、字节序列或文件对象，作为Request的内容
json | JSON格式的数据，作为Request的内容
headers | 字典，HTTP定制头
cookies | 字典或CookieJar，Request中的cookie
auth | 元组，支持HTTP认证功能
files | 字典类型，传输文件
timeout | 设定超时时间，秒为单位
proxies | 字典类型，设定访问代理服务器，可以增加登录认证
allow_redirects | True/False，默认为True，重定向开关
stream | True/False，默认为True，获取内容立即下载开关
verify | True/False，默认为True，认证SSL证书开关
cert | 本地SSL证书路径

参数说明：

In [29]:
# params
# 将参数增加到url中
kv = {'key1': 'value1', 'key2': 'value2'}
r = requests.request('GET', 'http://python123.io/ws', params=kv)
print(r.url)

http://python123.io/ws?key2=value2&key1=value1


In [None]:
# data
# Request的内容
kv = {'key1': 'value1', 'key2': 'value2'}
r = requests.request('POST', 'http://python123.io/ws', data=kv)
body = '主体内容'
r = requests.request('POST', 'http://python123.io/ws', data=body)

In [None]:
# json
# 同样作为Request的内容
kv = {'key1': 'value1'}
r = requests.request('POST', 'http://python123.io/ws', json=kv)

In [32]:
# headers
# 定制协议头
import requests
hd = {'user‐agent': 'Chrome/10'}
r = requests.request('POST', 'http://httpbin.org/post', headers=hd)

In [None]:
# file
# 向连接提交文件
fs = {'file': open('data.xls', 'rb')}
r = requests.request('POST', 'http://python123.io/ws', files=fs)

In [None]:
# timeout
# 设定超时时间，单位为s，如果指定时间没有返回则报异常
r = requests.request('GET', 'http://www.baidu.com', timeout=10)

In [None]:
# proxies
# 代理设置
# 有效隐藏源地址，防止逆追踪
pxs = { 'http': 'http://user:pass@10.10.10.1:1234', 'https': 'https://10.10.10.1:4321' }
r = requests.request('GET', 'http://www.baidu.com', proxies=pxs)

## 其他方法

其他6个方法都是requests.request()的封装，不再介绍。

# **网络爬虫，“盗亦有道”**

## 网络爬虫引发的问题

根据爬取的数据规模，可以将网络爬虫分为三种：

1. 小规模，数据量小
    用于爬取网页、玩转网页
    对爬取速度不敏感，使用`Requests`库即可
2. 中规模，数据规模较大
    用于爬取网站、爬取系列网站
    对爬取速度敏感，使用`Scrapy`库
3. 大规模，搜索引擎
    用于爬取全网
    爬取速度是关键，这种爬虫只能进行定制开发
    
其中小规模的爬虫占所有爬虫的90%以上。

网络爬虫会引发以下问题：
- 性能骚扰
    Web服务器默认接收人类访问
    受限于编写水平和目的，网络爬虫将会为Web服务器带来巨大的资源开销
- 法律风险
    服务器上的数据有产权归属
    网络爬虫获取数据后牟利将带来法律风险
- 隐私泄露
    网络爬虫可能具备突破访问控制的能力
    爬取被保护数据，从而泄露个人隐私

对网络爬虫的限制：
- 来源审查
    判断`User‐Agent`进行限制
    检查来访HTTP协议头的User‐Agent域，只响应浏览器或友好爬虫的访问
- 发布公告
    `Robots协议`
    告知所有爬虫网站的爬取策略，要求爬虫遵守

## Robots协议

全称为`Robots Exclusion Standard`，网络爬虫排除标准

作用：网站告知网络爬虫哪些页面可以抓取，哪些不行
形式：在网站**根目录**下放置`robots.txt`文件

例如：[京东的Robots协议](https://www.jd.com/robots.txt)

```
User-agent: * 
Disallow: /?* 
Disallow: /pop/*.html 
Disallow: /pinpai/*.html?* 
User-agent: EtaoSpider 
Disallow: / 
User-agent: HuihuiSpider 
Disallow: / 
User-agent: GwdangSpider 
Disallow: / 
User-agent: WochachaSpider 
Disallow: /
```

**说明**：

*代表所有，/代表根目录

```
User-agent: * 
Disallow: /?* 
Disallow: /pop/*.html 
Disallow: /pinpai/*.html?*
```
表示，对于所有爬虫，不允许访问三种网页：
1. 根目录下以‘?’开头的网页
2. 根目录下，pop目录下所有后缀为‘html’的网页
3. 根目录下，pinpai目录下所有形式为‘*.html?*’的网页

```
User-agent: EtaoSpider 
Disallow: / 
User-agent: HuihuiSpider 
Disallow: / 
User-agent: GwdangSpider 
Disallow: / 
User-agent: WochachaSpider 
Disallow: /
```
表示，对于EtaoSpider、HuihuiSpider、GwdangSpider、WochachaSpider这4类爬虫，所有的网页都不能访问。

查看其他协议：
[百度](http://www.baidu.com/robots.txt)
[新浪新闻](http://news.sina.com.cn/robots.txt)
[QQ](http://www.qq.com/robots.txt)
[QQ新闻](http://news.qq.com/robots.txt)
[教育部](http://www.moe.edu.cn/robots.txt)
其中教育部不存在Robots协议，说明任意爬虫可以爬取该网站任何内容。

## Robots协议的遵守方式

1. 小规模
    访问量很小：可以遵守
    访问量较大：建议遵守
2. 中规模
    非商业且偶尔：建议遵守
    商业利益：必须遵守
3. 大规模
    必须遵守
    
**总的原则：类人行为可不参考Robots协议**

# **爬虫实例**

## 京东商品页面

In [91]:
import requests
url = "http://item.jd.com/2967929.html"
try:
    r = requests.get("http://item.jd.com/2967929.html")
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print (r.text[:500])
except:
    print ("异常")

In [None]:
<!DOCTYPE HTML>
<html lang="zh-CN">
<head>
    <meta http-equiv="Content-Type" content="text/html; charset=gbk" />
    <title>【华为荣耀8】荣耀8 4GB+64GB 全网通4G手机 魅海蓝【行情 报价 价格 评测】-京东</title>
    <meta name="keywords" content="HUAWEI荣耀8,华为荣耀8,华为荣耀8报价,HUAWEI荣耀8报价"/>
    <meta name="description" content="【华为荣耀8】京东JD.COM提供华为荣耀8正品行货，全国价格最低，并包括HUAWEI荣耀8网购指南，以及华为荣耀8图片、荣耀8参数、荣耀8评论、荣耀8心得、荣耀8技巧等信息，网购华为荣耀8上京东,放心又轻松" />
    <meta name="format-detection" content="telephone=no">
    <meta http-equiv="mobile-agent" con

## 亚马逊商品页面

In [95]:
import requests
url = "https://www.amazon.cn/gp/product/B01M8L5Z3Y"
r = requests.get(url)
print (r.status_code)
print (r.encoding)
r.encoding = r.apparent_encoding
print (r.text)

In [None]:
503
ISO-8859-1
<!--
        To discuss automated access to Amazon data please contact api-services-support@amazon.com.
        For information about migrating to our APIs refer to our Marketplace APIs at https://developer.amazonservices.com.cn/index.html/ref=rm_5_sv, or our Product Advertising API at https://associates.amazon.cn/gp/advertising/api/detail/main.html/ref=rm_5_ac for advertising use cases.
-->
<html><head><meta http-equiv="Content-Type" content="text/html;charset=utf-8"><title>亚马逊</title><body style="text-align:center;"><br><div style="width:600px;margin:0 auto;text-align:left;"><h2>意外错误</h2></div><br><div style="width:500px;margin:0 auto;text-align:left;"><font color="red">报歉，由于程序执行时，遇到意外错误，您刚刚操作没有执行成功，请稍后重试。或将此错误报告给我们的客服中心：<a href="mailto:service_bj@cs.amazon.cn">service_bj@cs.amazon.cn</a></font><br><br>推荐您<a href="javascript:history.back(1)">返回上一页</a>，确认您的操作无误后，再继续其他操作。<br>您可以通过亚马逊<a href="http://www.amazon.cn/help/ref=cs_503_link/" target="_blank">帮助中心</a>，获得更多的帮助。<br></div></body></html>﻿

返回状态码为503，且返回的内容“遇到意外错误”。
我们猜测，亚马逊对访问进行了限制。
首先看下访问的头部信息：

In [51]:
print (r.request.headers)

{'Connection': 'keep-alive', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'User-Agent': 'python-requests/2.12.4'}


程序忠实地告诉了亚马逊，这次访问是Python的一个库`python-requests/2.12.4`发起的。因此亚马逊拒绝访问。
我们可以通过设置`headers`参数来模拟真实的浏览器：

In [61]:
kv = {'user-agent':'Mozilla/5.0'}
r = requests.get(url, headers = kv)
print (r.status_code)
print (r.request.headers)
print (r.text[100:300])

200
{'Connection': 'keep-alive', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'user-agent': 'Mozilla/5.0'}





    <!doctype html><html class="a-no-js" data-19ax5a9jf="dingo">
    <head>
<script type="text/javascript">var ue_t0=ue_t0||+new Date();</script>
<script type="text/javascript">
var ue_hob=+new D


返回码为200，说明访问成功。且此时user-agent被修改为Mozilla/5.0。返回内容也不是错误信息了。

完整代码：

In [63]:
import requests
url = "https://www.amazon.cn/gp/product/B01M8L5Z3Y"
try:
    kv = {'user-agent':'Mozilla/5.0'}
    r = requests.get(url, headers = kv)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print (r.text[100:300])
except:
    print ("异常")

## 百度/360搜索关键字提交

百度的关键词接口：
http://www.baidu.com/s?wd=keyword
360的关键词接口：
http://www.so.com/s?q=keyword

我们只需替换其中的“keyword”即可。

比如，我们在百度中搜索“Python”关键字：

In [68]:
import requests
keyword = "Python"
try:
    kv = {'wd':keyword}
    r = requests.get("http://www.baidu.com/s", params = kv)
    print (r.request.url)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    # 返回内容的长度
    print (len(r.text))
except:
    print ("异常")

http://www.baidu.com/s?wd=Python
309529


## 网络图片的爬取与存储

In [79]:
import requests
import os

url = "http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg"
root = os.path.join('.', 'pictures')
path = os.path.join(root, url.split('/')[-1])

print (path)

try:
    if not os.path.exists(root):
        os.mkdir(root)
    if not os.path.exists(path):
        r = requests.get(url)
        r.raise_for_status()
        print (r.status_code)
        with open (path, 'wb') as f:
            f.write(r.content)
            print ("图片保存成功！")
    else:
        print ("图片已经存在！")
except:
    print ("爬去失败！")

.\pictures\20170211061910157.jpg
200
图片保存成功！


## IP地址归属地查询

IP地址库：http://m.ip138.com/ip.asp?ip=ipaddress

替换其中的'ipaddress'即可。

In [93]:
import requests
url = 'http://m.ip138.com/ip.asp?ip='
try:
    r = requests.get(url + '202.204.80.112')
    print (r.status_code)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print (r.text[-500:])
except:
    print ("异常")

In [None]:
200
value="查询" class="form-btn" />
					</form>
				</div>
				<div class="query-hd">ip138.com IP查询(搜索IP地址的地理位置)</div>
				<h1 class="query">您查询的IP：202.204.80.112</h1><p class="result">本站主数据：北京市海淀区 北京理工大学 教育网</p><p class="result">参考数据一：北京市 北京理工大学</p>

			</div>
		</div>

		<div class="footer">
			<a href="http://www.miitbeian.gov.cn/" rel="nofollow" target="_blank">沪ICP备10013467号-1</a>
		</div>
	</div>

	<script type="text/javascript" src="/script/common.js"></script></body>
</html>