## 常用标准库和第三方库


我们这边只简单介绍几个常用的标准库和第三方库, 包括如下这些
 * 标准库
     * `collections`: 更多高级的容器类型, 例如`namedtuple`(命名元组), `deque`(双端链表), `OrderedDict`(有序字典)
     * `time`: 时间相关类库
     * `datetime`: 日期相关类库(*时区换算)
     * `urllib`: 一般用来处理请求或者构造简单的请求
     * `urllib3`: 功能强大，条理清晰，用于HTTP客户端的Python库
     * `re`: 正则表达式库
     * `os`: 系统底层调用相关操作
     * `sys`: Python内部调用和底层配置等相关
     * `threading`: *多线程
     * `multiprocess`: *多进程
     * `asyncio`: *异步协程
 * 第三方库
     * `requests`: 强大的第三方Http客户端(一般无特殊情况都使用这个)
     * `flask`: 第三方web服务框架
     * `beautifulsoup(bs4)`: html/xml解析类库
     * `Pillow`: 第三方图片处理类库
     * `scrapy`: 爬虫框架, 支持分布式等
     * `numpy`: *科学计算
     * `scipy`: *科学计算
     * `tensorflow`: *深度学习

### 标准库: 时间日期相关

时间与日期相关的操作一般我们直接使用`time`和`datetime`处理即可

In [1]:
# 引入time模块
import time

# 引入datetime模块
#
# 这里使用from ... import ...的形式
# 是因为datetime相关的操作都在`datetime`类中
from datetime import datetime

In [2]:
# 获取当前时间戳
print(time.time())

1566915416.1526783


In [3]:
# 将时间格式化输出
print(time.strftime('%Y-%m-%d %H:%M:%S'))

2019-08-27 22:18:46


In [5]:
# 将时间转换为时间戳
print(time.strptime('2019-10-01 12:00:00', '%Y-%m-%d %H:%M:%S'))

time.struct_time(tm_year=2019, tm_mon=10, tm_mday=1, tm_hour=12, tm_min=0, tm_sec=0, tm_wday=1, tm_yday=274, tm_isdst=-1)


In [6]:
# 休眠一段时间
time.sleep(3)

In [11]:
# 构造日期
d = datetime(2019, 10, 1, 12)
print(d)
print(d.date(), '***', d.time())

2019-10-01 12:00:00
2019-10-01 *** 12:00:00


In [14]:
#
# 时区相关处理建议安装 pytz包
#
import pytz

# 初始化一个UTC时间
t = datetime(2019, 10, 1, tzinfo=pytz.utc)
print(t)

2019-12-01 00:00:00+00:00


In [15]:
# 获取这个时候北京时间
print(t.astimezone(pytz.timezone('Asia/Shanghai')))
# 获取这个时候的日本时间
print(t.astimezone(pytz.timezone('Asia/Tokyo')))

2019-12-01 08:00:00+08:00
2019-12-01 09:00:00+09:00


### 标准库: Http客户端

Http客户端一般情况都是直接使用`requests`, 一般也只是使用`urllib`来处理或者构造URL或者参数

In [18]:
# 引入urllib解析相关的方法
from urllib.parse import urlparse, parse_qs

url = 'https://user@pass:www.baidu.com/search?query=hello&page=1&page_size=20'

In [19]:
# 解析URL
components = urlparse(url)
print(components)

ParseResult(scheme='https', netloc='user@pass:www.baidu.com', path='/search', params='', query='query=hello&page=1&page_size=20', fragment='')


In [21]:
# 解析请求参数
print(parse_qs(components.query))

{'query': ['hello'], 'page': ['1'], 'page_size': ['20']}


虽然我们一般不使用urllib或者urllib3来进行网络请求, 但是不代表他们不可以, 只是没有`requests`那么方便而已

In [30]:
# 使用urllib来构造一个请求
import urllib

# 处理post数据
data = {'user': 'aaa', 'pawd': 'bbb'}
form = urllib.parse.urlencode(data).encode('utf-8')

# 构造一个请求
request = urllib.request.Request('http://www.httpbin.org/post?q=1', form)
# 开始进行请求
response = urllib.request.urlopen(request)
# 获取响应内容
print(response.read())

b'{\n  "args": {\n    "q": "1"\n  }, \n  "data": "", \n  "files": {}, \n  "form": {\n    "pawd": "bbb", \n    "user": "aaa"\n  }, \n  "headers": {\n    "Accept-Encoding": "identity", \n    "Content-Length": "17", \n    "Content-Type": "application/x-www-form-urlencoded", \n    "Host": "www.httpbin.org", \n    "User-Agent": "Python-urllib/3.6"\n  }, \n  "json": null, \n  "origin": "123.157.198.141, 123.157.198.141", \n  "url": "https://www.httpbin.org/post?q=1"\n}\n'


In [31]:
# 使用urllib3构造一个请求
import urllib3

# 获取一个客户端池
http = urllib3.PoolManager()
# 执行请求
r = http.request('post', 'http://www.httpbin.org/post?q=1', {'user': 'aaa', 'pawd': 'bbb'})
# 打印响应结果
print(r.status)
print(r.data)

200
b'{\n  "args": {\n    "q": "1"\n  }, \n  "data": "", \n  "files": {}, \n  "form": {\n    "pawd": "bbb", \n    "user": "aaa"\n  }, \n  "headers": {\n    "Accept-Encoding": "identity", \n    "Content-Length": "214", \n    "Content-Type": "multipart/form-data; boundary=0f89b3308673e2423a17e6d08f0b62e8", \n    "Host": "www.httpbin.org"\n  }, \n  "json": null, \n  "origin": "123.157.198.141, 123.157.198.141", \n  "url": "https://www.httpbin.org/post?q=1"\n}\n'


### 标准库: 正则表达式

正则表达式我们一般使用`re`这个库

In [33]:
# 引入正则表达式库
import re

In [40]:
# 寻找所有数字, match默认是需要全部匹配
m0 = re.match('\d+', 'qqweh1293712as86786das')
print(m0)

m1 = re.search('\d+', 'qqweh1293712as86786das')
print(m1)

None
<_sre.SRE_Match object; span=(5, 12), match='1293712'>


### 标准库: 操作系统和Python环境相关

这里一般我们直接使用`os`和`sys`库

In [48]:
# 引入库
import os
import sys

In [49]:
# 获取当前python的命令行参数
print(sys.argv)

['C:\\usr\\Anaconda3\\lib\\site-packages\\ipykernel_launcher.py', '-f', 'C:\\Users\\ShadowMan\\AppData\\Roaming\\jupyter\\runtime\\kernel-a27eaec5-de80-4f38-8d53-b78c51fef22e.json']


In [None]:
# 退出进程
sys.exit()

In [50]:
# 获取当前工作目录
print(os.getcwd())
# 获取当前进程PID和PPID
print(os.getpid(), os.getppid())

D:\work\awesome-classroom\2. Python\ch05-libraries
8464 9968


In [51]:
# 判断某个目录存不存在
print(os.path.exists('/'))
# 根据相对路径获得绝对路径
print(os.path.abspath('.'))

True
D:\work\awesome-classroom\2. Python\ch05-libraries


### 第三方: requests

Python中最常用也是最好用的http客户端类库

一般我们使用`pip`来安装官方仓库中的第三方库, 或者使用`easy_install`进行安装.

In [53]:
# 引入requests
import requests

In [57]:
# 发起一个请求并获得结果
r = requests.post('http://www.httpbin.org/post?q=1', {'user': 'aaa', 'pawd': 'bbb'})
print(r)
print(r.status_code)
print(r.headers)
print(r.text)
print(r.json())

<Response [200]>
200
{'Access-Control-Allow-Credentials': 'true', 'Access-Control-Allow-Origin': '*', 'Content-Encoding': 'gzip', 'Content-Type': 'application/json', 'Date': 'Tue, 27 Aug 2019 15:12:11 GMT', 'Referrer-Policy': 'no-referrer-when-downgrade', 'Server': 'nginx', 'X-Content-Type-Options': 'nosniff', 'X-Frame-Options': 'DENY', 'X-XSS-Protection': '1; mode=block', 'Content-Length': '287', 'Connection': 'keep-alive'}
{
  "args": {
    "q": "1"
  }, 
  "data": "", 
  "files": {}, 
  "form": {
    "pawd": "bbb", 
    "user": "aaa"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "17", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "www.httpbin.org", 
    "User-Agent": "python-requests/2.19.1"
  }, 
  "json": null, 
  "origin": "123.157.198.141, 123.157.198.141", 
  "url": "https://www.httpbin.org/post?q=1"
}

{'args': {'q': '1'}, 'data': '', 'files': {}, 'form': {'pawd': 'bbb', 'user': 'aaa'}, 'heade

In [65]:
# 自动携带第一次获取的cookies

# 创建会话
session = requests.session()

# 服务端设置一个cookies
r = session.get('http://httpbin.org/cookies/set/cookiename/cookievalue')
print(r.headers)
print(r.raw)

# 第二次请求会自动携带cookies
r = session.get("http://httpbin.org/cookies")
print(r.json())

{'Access-Control-Allow-Credentials': 'true', 'Access-Control-Allow-Origin': '*', 'Content-Encoding': 'gzip', 'Content-Type': 'application/json', 'Date': 'Tue, 27 Aug 2019 15:19:11 GMT', 'Referrer-Policy': 'no-referrer-when-downgrade', 'Server': 'nginx', 'X-Content-Type-Options': 'nosniff', 'X-Frame-Options': 'DENY', 'X-XSS-Protection': '1; mode=block', 'Content-Length': '59', 'Connection': 'keep-alive'}
<urllib3.response.HTTPResponse object at 0x0000000008AA1BE0>
{'cookies': {'cookiename': 'cookievalue'}}


### 第三方: html内容处理

涉及到html及xml处理, 一般使用`bs4`这个库进行操作

In [67]:
# 引入bs4
from bs4 import BeautifulSoup

# 获取一段HTML内容
r = requests.get('http://www.zxcs.me')
html = r.text
print(html)






<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head><script src="http://www.zxcs.me/include/lib/js/jquery/jquery-1.7.1.js" type="text/javascript"></script><meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
<title>知轩藏书-藏尽网络中最好的精校小说</title>
<meta name="keywords" content="精校对小说,精校版小说下载,精校小说下载,精校小说网站,精校电子书" />
<meta name="description" content="精校小说、校对小说尽在知轩藏书！！" />
<link rel="EditURI" type="application/rsd+xml" title="RSD" href="http://www.zxcs.me/xmlrpc.php?rsd" />
<link rel="wlwmanifest" type="application/wlwmanifest+xml" href="http://www.zxcs.me/wlwmanifest.xml" />
<link rel="alternate" type="application/rss+xml" title="RSS"  href="http://www.zxcs.me/rss.php" />
<link href="http://www.zxcs.me/content/templates/ewceocms_t/main.css" rel="stylesheet" type="text/css" />
<script src="http://www.zxcs.me/include/lib/js/common_tpl.js" type="text/javascr

In [69]:
# 初始化解析器
soup = BeautifulSoup(html, 'html.parser')
print(soup.prettify())

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
 <head>
  <script src="http://www.zxcs.me/include/lib/js/jquery/jquery-1.7.1.js" type="text/javascript">
  </script>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <title>
   知轩藏书-藏尽网络中最好的精校小说
  </title>
  <meta content="精校对小说,精校版小说下载,精校小说下载,精校小说网站,精校电子书" name="keywords"/>
  <meta content="精校小说、校对小说尽在知轩藏书！！" name="description"/>
  <link href="http://www.zxcs.me/xmlrpc.php?rsd" rel="EditURI" title="RSD" type="application/rsd+xml"/>
  <link href="http://www.zxcs.me/wlwmanifest.xml" rel="wlwmanifest" type="application/wlwmanifest+xml"/>
  <link href="http://www.zxcs.me/rss.php" rel="alternate" title="RSS" type="application/rss+xml"/>
  <link href="http://www.zxcs.me/content/templates/ewceocms_t/main.css" rel="stylesheet" type="text/css"/>
  <script src="http://www.zxcs.me/include/lib/js/common_tpl.js

In [70]:
# 获取所有a标签
print(soup.find_all('a'))

[<a href="http://www.zxcs.me/admin">登录</a>, <a href="http://www.zxcs.me/?plugin=yls_reg">注册</a>, <a href="javascript:translatePage();" id="translateLink">繁體中文</a>, <a href="http://www.zxcs.me/post/4267" target="_blank">什么是精校小说？</a>, <a href="http://www.zxcs.me/"><img alt="知轩藏书" src="http://www.zxcs.me/content/templates/ewceocms_t/images/logo.png"/></a>, <a href="http://www.zxcs.me/"><span>首页</span></a>, <a href="http://www.zxcs.me/sort/23"><span>都市·娱乐</span></a>, <a href="http://www.zxcs.me/sort/25"><span>武侠·仙侠</span></a>, <a href="http://www.zxcs.me/sort/36">精校武侠</a>, <a href="http://www.zxcs.me/sort/37">精校仙侠</a>, <a href="http://www.zxcs.me/sort/26"><span>奇幻·玄幻</span></a>, <a href="http://www.zxcs.me/sort/38">精校奇幻</a>, <a href="http://www.zxcs.me/sort/39">精校玄幻</a>, <a href="http://www.zxcs.me/sort/27"><span>科幻·灵异</span></a>, <a href="http://www.zxcs.me/sort/40">精校科幻</a>, <a href="http://www.zxcs.me/sort/41">精校灵异</a>, <a href="http://www.zxcs.me/sort/28"><span>历史·军事</span></a>, <a hre

In [None]:
# 使用css选择器搜索
print(soup.find_all('a'))