# Requests

在获取科研数据的过程中，一项重要工作就是数据爬取，为了更便利地获取数据，从这篇开始，简单地掌握一些爬虫技能。

这部分内容主要参考了：[Python-crawler](https://github.com/Ehco1996/Python-crawler)和[Python3网络爬虫开发实战](https://python3webspider.cuiqingcai.com/)。

概念性的内容，可直接参考《Python3网络爬虫开发实战》，这里直接从实战开始，从最简单的requests库的使用开始记录。

## 安装requests库

直接使用pip安装requests即可。

``` python
pip install requests
```

然后检查一下是否安装了beautifulsoup4。

``` python
pip list
```

## requests基本使用


In [1]:
#首先我们先导入requests这个包
import requests

#我们来吧百度的index页面的html源码抓取到本地，并用r变量保存
#注意这里，网页前面的 http://一定要写出来，它并不能像真正的浏览器一样帮我们补全http协议
r = requests.get("http://www.baidu.com")

#将下载到的内容打印一下：
print(r.text)


<!DOCTYPE html>
<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer><link rel=stylesheet type=text/css href=http://s1.bdstatic.com/r/www/cache/bdorz/baidu.min.css><title>ç¾åº¦ä¸ä¸ï¼ä½ å°±ç¥é</title></head> <body link=#0000cc> <div id=wrapper> <div id=head> <div class=head_wrapper> <div class=s_form> <div class=s_form_wrapper> <div id=lg> <img hidefocus=true src=//www.baidu.com/img/bd_logo1.png width=270 height=129> </div> <form id=form name=f action=//www.baidu.com/s class=fm> <input type=hidden name=bdorz_come value=1> <input type=hidden name=ie value=utf-8> <input type=hidden name=f value=8> <input type=hidden name=rsv_bp value=1> <input type=hidden name=rsv_idx value=1> <input type=hidden name=tn value=baidu><span class="bg s_ipt_wr"><input id=kw name=wd class=s_ipt value maxlength=255 autocomplete=off autofocus></span><span class="bg s_btn_wr"><input ty

上面的抓取过程中，我们用到了requests库的**get方法**，这个方法是requests库中最常用的方法之一。他接受一个参数（url）并返回一个**HTTP response对象**。

### get方法

这个方法可以接收三个参数，其中第二个默认为None，params是字典或字节序列，作为参数增加到url中的，第三个可选，包括设置HTTP定制头headers等：def get(url, params=None, **kwargs)。

get返回的是Response对象。是一个完整的对HTTP request的响应。

In [None]:
import requests


def getHtmlText(url):
    try:
        r = requests.get(url, timeout=30)
        # 如果状态码不是200 则应发HTTOError异常
        r.raise_for_status()
        # 设置正确的编码方式
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "Something Wrong!"

In [None]:
import requests

r = requests.get('https://www.baidu.com')
print(r.cookies)
for key, target_directory in r.cookies.items():
    print(key + '=' + target_directory)

requests.get('http://httpbin.org/cookies/set/number/123456789')
r = requests.get('http://httpbin.org/cookies')
print(r.text)

s = requests.Session()
s.get('http://httpbin.org/cookies/set/number/123456789')
r = s.get('http://httpbin.org/cookies')
print(r.text)

In [None]:
import requests

r = requests.get('https://www.baidu.com/')
print(type(r))
print(r.status_code)
print(type(r.text))
print(r.text)
print(r.cookies)

In [None]:
import re

content = 'Hello 123 4567 World_This is a Regex Demo'
print(len(content))
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}', content)
print(result)
print(result.group())
print(result.span())

其他类似request库的方法：

In [None]:
import urllib.parse
import urllib.request

# 以 Python 官网为例，我们来把这个网页抓下来：
response = urllib.request.urlopen('https://www.python.org')
print(response.read().decode('utf-8'))

# 利用 type() 方法输出 Response 的类型。通过输出结果可以发现它是一个 HTTPResposne 类型的对象
print(type(response))

# 得到这个对象之后，我们把它赋值为 response 变量，然后就可以调用这些方法和属性，得到返回结果的一系列信息了。
print(response.status)
print(response.getheaders())
print(response.getheader('Server'))

# 想给链接传递一些参数该怎么实现呢？我们首先看一下 urlopen() 函数的API：
data = bytes(urllib.parse.urlencode({'word': 'hello'}), encoding='utf8')
response = urllib.request.urlopen('http://httpbin.org/post', data=data)
print(response.read())

# timeout 参数可以设置超时时间，单位为秒，意思就是如果请求超出了设置的这个时间还没有得到响应，就会抛出异常，如果不指定，就会使用全局默认时间。它支持 HTTP、HTTPS、FTP 请求。
response = urllib.request.urlopen('http://httpbin.org/get', timeout=0.1)
# 在这里我们设置了超时时间是 1 秒，程序 1 秒过后服务器依然没有响应，于是抛出了 URLError 异常，它属于 urllib.error 模块，错误原因是超时。
print(response.read())

In [None]:
import urllib.parse
import urllib.request

# 利用更强大的 Request 类来构建一个请求
request = urllib.request.Request('https://python.org')
response = urllib.request.urlopen(request)
print(response.read().decode('utf-8'))

url = 'http://httpbin.org/post'
headers = {
    'User-Agent': 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)',
    'Host': 'httpbin.org'
}
dict = {
    'name': 'Germey'
}
data = bytes(urllib.parse.urlencode(dict), encoding='utf8')
req = request.Request(url=url, data=data, headers=headers, method='POST')
response = request.urlopen(req)
print(response.read().decode('utf-8'))

In [None]:
# 更强大的工具 Handler.我们可以把它理解为各种处理器，有专门处理登录验证的，有处理 Cookies 的，有处理代理设置的，利用它们我们几乎可以做到任何 HTTP 请求中所有的事情
# 比调用 urlopen() 的对象的更普遍的对象，也就是 Opener。
# 输入用户名和密码，认证成功之后才能查看页面
from urllib.request import HTTPPasswordMgrWithDefaultRealm, HTTPBasicAuthHandler, build_opener
from urllib.error import URLError

username = 'username'
password = 'password'
url = 'http://localhost:5000/'

p = HTTPPasswordMgrWithDefaultRealm()
p.add_password(None, url, username, password)
auth_handler = HTTPBasicAuthHandler(p)
opener = build_opener(auth_handler)

try:
    result = opener.open(url)
    html = result.read().decode('utf-8')
    print(html)
except URLError as e:
    print(e.reason)

# 在做爬虫的时候免不了要使用代理，如果要添加代理，可以这样做：
from urllib.error import URLError
from urllib.request import ProxyHandler, build_opener

proxy_handler = ProxyHandler({
    'http': 'http://127.0.0.1:9743',
    'https': 'https://127.0.0.1:9743'
})
opener = build_opener(proxy_handler)
try:
    response = opener.open('https://www.baidu.com')
    print(response.read().decode('utf-8'))
except URLError as e:
    print(e.reason)

# Cookies 的处理就需要 Cookies 相关的 Handler 了。
import http.cookiejar, urllib.request

cookie = http.cookiejar.CookieJar()
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
for item in cookie:
    print(item.name+"="+item.value)
filename = 'cookies.txt'
cookie = http.cookiejar.MozillaCookieJar(filename)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
cookie.save(ignore_discard=True, ignore_expires=True)

In [None]:
from urllib import request, error
try:
    response = request.urlopen('http://cuiqingcai.com/index.htm')
except error.URLError as e:
    print(e.reason)



from urllib import request,error
try:
    response = request.urlopen('http://cuiqingcai.com/index.htm')
except error.HTTPError as e:
    print(e.reason, e.code, e.headers, seq='\n')