![image](http://wx2.sinaimg.cn/thumbnail/69d4185bly1fmf9kfagd3j20ek0ekq88.jpg)
# 常见的第三方模块
除了内建的模块外，Python还有大量的第三方模块。

基本上，所有的第三方模块都会在[PyPI - the Python Package Index](https://pypi.python.org/)上注册，只要找到对应的模块名字，即可用pip安装。

此外，在安装第三方模块一节中，我们强烈推荐安装[Anaconda](https://www.anaconda.com/)，安装后，数十个常用的第三方模块就已经就绪，不用pip手动安装。


## Pillow
PIL：Python Imaging Library，已经是Python平台事实上的图像处理标准库了。PIL功能非常强大，但API却非常简单易用。

由于PIL仅支持到Python 2.7，加上年久失修，于是一群志愿者在PIL的基础上创建了兼容的版本，名字叫[Pillow](https://github.com/python-pillow/Pillow)，支持最新Python 3.x，又加入了许多新特性，因此，我们可以直接安装使用Pillow。

### 安装Pillow

如果安装了Anaconda，Pillow就已经可用了。否则，需要在命令行下通过pip安装：`$ pip install pillow`。如果遇到Permission denied安装失败，请加上`sudo`重试。

### 操作图像

来看看最常见的图像缩放操作，只需三四行代码：

In [3]:
from PIL import Image

# 打开一个jpg图像文件，注意是在当前路径下操作:
im = Image.open('data/test_0.jpg')
# 获得图像尺寸:
w, h = im.size
print('Original image size: %sx%s' % (w, h))
# 缩放到50%:
im.thumbnail((w//2, h//2))
print('Resize image to: %sx%s' % (w//2, h//2))
# 把缩放后的图像用jpeg格式保存:
im.save('data/test_0_thumbnail.jpg', 'jpeg')

Original image size: 400x499
Resize image to: 200x249


其他功能如切片、旋转、滤镜、输出文字、调色板等一应俱全。比如，模糊效果也只需几行代码，效果如下：
![image](http://ws3.sinaimg.cn/large/69d4185bly1fnbdrigcedj20fm0axwnw.jpg)

In [4]:
from PIL import Image, ImageFilter

# 打开一个jpg图像文件，注意是当前路径:
im = Image.open('data/test_img.jpg')
# 应用模糊滤镜:
im2 = im.filter(ImageFilter.BLUR)
im2.save('data/test_img_blur.jpg', 'jpeg')

PIL的`ImageDraw`提供了一系列绘图方法，让我们可以直接绘图。比如要生成字母验证码图片：

In [6]:
from PIL import Image, ImageDraw, ImageFont, ImageFilter
import random

# 随机字母:
def rndChar():
    return chr(random.randint(65, 90))

# 随机颜色1:
def rndColor():
    return (random.randint(64, 255), random.randint(64, 255), random.randint(64, 255))

# 随机颜色2:
def rndColor2():
    return (random.randint(32, 127), random.randint(32, 127), random.randint(32, 127))

# 240 x 60:
width = 60 * 4
height = 60
image = Image.new('RGB', (width, height), (255, 255, 255))
# 创建Font对象:
# 字体要使用绝对路径，否则会报 cannot open source
font = ImageFont.truetype('C:\\WINDOWS\\Fonts\\Arial.ttf', 36)
# 创建Draw对象:
draw = ImageDraw.Draw(image)
# 填充每个像素:
for x in range(width):
    for y in range(height):
        draw.point((x, y), fill=rndColor())
# 输出文字:
for t in range(4):
    draw.text((60 * t + 10, 10), rndChar(), font=font, fill=rndColor2())
# 模糊:
image = image.filter(ImageFilter.BLUR)
image.save('data/code.jpg', 'jpeg')

运行指挥之后可以看到如下的图片：![image](http://ws3.sinaimg.cn/large/69d4185bly1fnbe1g7dzkj206o01oglg.jpg)


## requests
我们已经讲解了Python内置的urllib模块，用于访问网络资源。但是，它用起来比较麻烦，而且，缺少很多实用的高级功能。更好的方案是使用requests。它是一个Python第三方库，处理URL资源特别方便。

### 安装requests

如果安装了Anaconda，`requests`就已经可用了。否则，需要在命令行下通过pip安装：` pip install requests`。如果遇到Permission denied安装失败，请加上sudo重试。

### 使用requests

要通过GET访问一个页面，只需要几行代码：

In [9]:
import requests
r = requests.get('https://www.baidu.com/')
print(r.status_code)
print(r.text)

200
<!DOCTYPE html>
<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer><link rel=stylesheet type=text/css href=https://ss1.bdstatic.com/5eN1bjq8AAUYm2zgoY3K/r/www/cache/bdorz/baidu.min.css><title>ç¾åº¦ä¸ä¸ï¼ä½ å°±ç¥é</title></head> <body link=#0000cc> <div id=wrapper> <div id=head> <div class=head_wrapper> <div class=s_form> <div class=s_form_wrapper> <div id=lg> <img hidefocus=true src=//www.baidu.com/img/bd_logo1.png width=270 height=129> </div> <form id=form name=f action=//www.baidu.com/s class=fm> <input type=hidden name=bdorz_come value=1> <input type=hidden name=ie value=utf-8> <input type=hidden name=f value=8> <input type=hidden name=rsv_bp value=1> <input type=hidden name=rsv_idx value=1> <input type=hidden name=tn value=baidu><span class="bg s_ipt_wr"><input id=kw name=wd class=s_ipt value maxlength=255 autocomplete=off autofocus=autofocus></spa

对于带参数的URL，传入一个dict作为params参数：

In [10]:
r = requests.get('https://www.douban.com/search', params={'q': 'python', 'cat': '1001'})
print(r.url)    

https://www.douban.com/search?q=python&cat=1001


requests自动检测编码，可以使用`encoding`属性查看：

In [13]:
r = requests.get('https://www.baidu.com/')
r.encoding

'ISO-8859-1'

无论响应是文本还是二进制内容，我们都可以用`content`属性获得`bytes`对象：

In [14]:
r.content

b'<!DOCTYPE html>\r\n<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer><link rel=stylesheet type=text/css href=https://ss1.bdstatic.com/5eN1bjq8AAUYm2zgoY3K/r/www/cache/bdorz/baidu.min.css><title>\xe7\x99\xbe\xe5\xba\xa6\xe4\xb8\x80\xe4\xb8\x8b\xef\xbc\x8c\xe4\xbd\xa0\xe5\xb0\xb1\xe7\x9f\xa5\xe9\x81\x93</title></head> <body link=#0000cc> <div id=wrapper> <div id=head> <div class=head_wrapper> <div class=s_form> <div class=s_form_wrapper> <div id=lg> <img hidefocus=true src=//www.baidu.com/img/bd_logo1.png width=270 height=129> </div> <form id=form name=f action=//www.baidu.com/s class=fm> <input type=hidden name=bdorz_come value=1> <input type=hidden name=ie value=utf-8> <input type=hidden name=f value=8> <input type=hidden name=rsv_bp value=1> <input type=hidden name=rsv_idx value=1> <input type=hidden name=tn value=baidu><span class="bg s_ipt_wr"><input id=kw n

requests的方便之处还在于，对于特定类型的响应，例如JSON，可以直接获取：

In [None]:
r = requests.get('https://query.yahooapis.com/v1/public/yql?q=select%20*%20from%20\
                weather.forecast%20where%20woeid%20%3D%202151330&format=json')
r.json()

需要传入HTTP Header时，我们传入一个dict作为`headers`参数：

In [None]:
r = requests.get('https://www.baidu.com/',
                 headers={'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit'})
r.text

要发送POST请求，只需要把`get()`方法变成`post()`，然后传入`data`参数作为POST请求的数据：
```python
 r = requests.post('https://accounts.douban.com/login', data={'form_email': 'abc@example.com', 'form_password': '123456'})
```

requests默认使用`application/x-www-form-urlencoded对POST`数据编码。如果要传递JSON数据，可以直接传入json参数：
```python
params = {'key': 'value'}
r = requests.post(url, json=params) # 内部自动序列化为JSON
```
类似的，上传文件需要更复杂的编码格式，但是requests把它简化成files参数：
```python
upload_files = {'file': open('report.xls', 'rb')}
r = requests.post(url, files=upload_files)
```

在读取文件时，注意务必使用`'rb'`即二进制模式读取，这样获取的bytes长度才是文件的长度。把`post()`方法替换为`put()`，`delete()`等，就可以以PUT或DELETE方式请求资源。

除了能轻松获取响应内容外，requests对获取HTTP响应的其他信息也非常简单。例如，获取响应头：
```python
r.headers
> {Content-Type': 'text/html; charset=utf-8', 'Transfer-Encoding': 'chunked', 'Content-Encoding': 'gzip', ...}
 r.headers['Content-Type']
>'text/html; charset=utf-8'
```

requests对Cookie做了特殊处理，使得我们不必解析Cookie就可以轻松获取指定的Cookie：
```python
>>> r.cookies['ts']
'example_cookie_12345'
```

要在请求中传入Cookie，只需准备一个dict传入`cookies`参数：
```python
cs = {'token': '12345', 'status': 'working')
r = requests.get(url, cookies=cs)
```
最后，要指定超时，传入以秒为单位的timeout参数：
```python
r = requests.get(url, timeout=2.5) # 2.5秒后超时
```

## chardet
字符串编码一直是令人非常头疼的问题，尤其是我们在处理一些不规范的第三方网页的时候。虽然Python提供了Unicode表示的`str`和`bytes`两种数据类型，并且可以通过`encode()`和decode()方法转换，但是，在不知道编码的情况下，对bytes做decode()不好做。

对于未知编码的bytes，要把它转换成str，需要先“猜测”编码。猜测的方式是先收集各种编码的特征字符，根据特征字符判断，就能有很大概率“猜对”。

当然，我们肯定不能从头自己写这个检测编码的功能，这样做费时费力。chardet这个第三方库正好就派上了用场。用它来检测编码，简单易用

### 安装chardet

如果安装了Anaconda，`chardet`就已经可用了。否则，需要在命令行下通过pip安装：` pip install chardet` 。如果遇到Permission denied安装失败，请加上sudo重试。

### 使用chardet

当我们拿到一个bytes时，就可以对其检测编码。用`chardet`检测编码，只需要一行代码：

In [1]:
import chardet
chardet.detect(b'Hello, world!')

{'confidence': 1.0, 'encoding': 'ascii', 'language': ''}

检测出的编码是`ascii`，注意到还有个`confidence`字段，表示检测的概率是1.0（即100%）。我们来试试检测GBK编码的中文：

In [22]:
data = '离离原上草，一岁一枯荣'.encode('gbk')
chardet.detect(data)

{'confidence': 0.7407407407407407, 'encoding': 'GB2312', 'language': 'Chinese'}

检测的编码是GB2312，注意到GBK是GB2312的超集，两者是同一种编码，检测正确的概率是74%，`language`字段指出的语言是`'Chinese'`。

对UTF-8编码进行检测：

In [25]:
data = '离离原上草，一岁一枯荣'.encode('utf-8')
print(chardet.detect(data))

# 对日文进行检测
data = '最新の主要ニュース'.encode('euc-jp')
print(chardet.detect(data))

{'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}
{'encoding': 'EUC-JP', 'confidence': 0.99, 'language': 'Japanese'}


可见，用chardet检测编码，使用简单。获取到编码后，再转换为`str`，就可以方便后续处理。chardet支持检测的编码列表请参考官方文档[Supported encodings](https://chardet.readthedocs.io/en/latest/supported-encodings.html)。

In [6]:
chardet.detect(b'\xb5\xc7\xc2\xbc\xca\xa7\xb0\xdc\xa3\xac\xc7\xeb\xca')

{'confidence': 0.0, 'encoding': None, 'language': None}

## psutil
用Python来编写脚本简化日常的运维工作是Python的一个重要用途。在Linux下，有许多系统命令可以让我们时刻监控系统运行的状态，如`ps`，`top`，`free`等等。要获取这些系统信息，Python可以通过`subprocess`模块调用并获取结果。但这样做显得很麻烦，尤其是要写很多解析代码。

在Python中获取系统信息的另一个好办法是使用`psutil`这个第三方模块。顾名思义，psutil = process and system utilities，它不仅可以通过一两行代码实现系统监控，还可以跨平台使用，支持Linux／UNIX／OSX／Windows等，是系统管理员和运维小伙伴不可或缺的必备模块。

### 安装psutil

如果安装了Anaconda，psutil就已经可用了。否则，需要在命令行下通过pip安装：`pip install psutil`。如果遇到Permission denied安装失败，请加上sudo重试。

### 获取CPU信息

我们先来获取CPU的信息：

In [27]:
import psutil
# 逻辑核心
print(psutil.cpu_count())
# 物理核心
print(psutil.cpu_count(logical=False))

# 统计CPU的用户／系统／空闲时间：
print(psutil.cpu_times())

4
2
scputimes(user=23505.59375, system=3027.96875, idle=50524.5625, interrupt=100.921875, dpc=201.03124952316284)


实现类似`top`命令的CPU使用率，每秒刷新一次，累计10次：

In [31]:
for i in range(5):
    print(psutil.cpu_percent(interval=1, percpu=True))

[36.9, 34.4, 42.2, 43.8]
[30.8, 20.3, 31.2, 43.8]
[21.9, 37.5, 21.9, 34.4]
[28.1, 28.1, 43.8, 23.4]
[23.4, 37.5, 23.4, 37.5]


### 获取内存信息
使用psutil获取物理内存和交换内存信息，分别使用如下的命令，返回的是字节为单位的整数。

In [32]:
# 虚拟内存
print(psutil.virtual_memory())

# 交换内存
print(psutil.swap_memory())

svmem(total=8476905472, available=4861276160, percent=42.7, used=3615629312, free=4861276160)
sswap(total=17066840064, used=6806478848, free=10260361216, percent=39.9, sin=0, sout=0)


### 获取磁盘信息

可以通过psutil获取磁盘分区、磁盘使用率和磁盘IO信息：

In [33]:
# 磁盘分区信息
print(psutil.disk_partitions())

# 磁盘使用情况
print(psutil.disk_usage("C:\\"))

# 磁盘IO
print(psutil.disk_io_counters())

[sdiskpart(device='C:\\', mountpoint='C:\\', fstype='NTFS', opts='rw,fixed'), sdiskpart(device='D:\\', mountpoint='D:\\', fstype='NTFS', opts='rw,fixed'), sdiskpart(device='E:\\', mountpoint='E:\\', fstype='NTFS', opts='rw,fixed'), sdiskpart(device='F:\\', mountpoint='F:\\', fstype='NTFS', opts='rw,fixed'), sdiskpart(device='G:\\', mountpoint='G:\\', fstype='', opts='cdrom')]
sdiskusage(total=95381471232, used=22161821696, free=73219649536, percent=23.2)
sdiskio(read_count=169988, write_count=276155, read_bytes=5962299904, write_bytes=15679136256, read_time=3883, write_time=2370)


### 获取网络信息

psutil可以获取网络接口和网络连接信息：

In [39]:
%%time
# 获取网络读写字节／包的个数
print(psutil.net_io_counters())

# 获取网络接口信息
print(psutil.net_if_addrs())

# 网络接口的状态
print(psutil.net_if_stats())

snetio(bytes_sent=43925569, bytes_recv=839157002, packets_sent=378589, packets_recv=2294243, errin=0, errout=0, dropin=0, dropout=0)
{'以太网': [snic(family=<AddressFamily.AF_LINK: -1>, address='5C-F9-DD-69-FC-1B', netmask=None, broadcast=None, ptp=None), snic(family=<AddressFamily.AF_INET: 2>, address='25.0.72.211', netmask='255.255.255.0', broadcast=None, ptp=None)], '本地连接* 2': [snic(family=<AddressFamily.AF_LINK: -1>, address='00-C2-C6-18-4F-62', netmask=None, broadcast=None, ptp=None), snic(family=<AddressFamily.AF_INET: 2>, address='169.254.81.191', netmask='255.255.0.0', broadcast=None, ptp=None)], 'WLAN': [snic(family=<AddressFamily.AF_LINK: -1>, address='00-C2-C6-18-4F-61', netmask=None, broadcast=None, ptp=None), snic(family=<AddressFamily.AF_INET: 2>, address='192.168.73.74', netmask='255.255.240.0', broadcast=None, ptp=None)], 'Loopback Pseudo-Interface 1': [snic(family=<AddressFamily.AF_INET: 2>, address='127.0.0.1', netmask='255.0.0.0', broadcast=None, ptp=None), snic(family=

要获取当前网络连接信息，使用`net_connections()`，如在 linux 或者 Mac 上遇到权限不足的问题，可以突出交互环境，添加 sudo 重新启动交互窗口：`sudo python`

In [40]:
psutil.net_connections()

[sconn(fd=-1, family=<AddressFamily.AF_INET: 2>, type=1, laddr=addr(ip='127.0.0.1', port=4302), raddr=(), status='LISTEN', pid=6704),
 sconn(fd=-1, family=<AddressFamily.AF_INET: 2>, type=1, laddr=addr(ip='127.0.0.1', port=51360), raddr=addr(ip='127.0.0.1', port=51444), status='ESTABLISHED', pid=4060),
 sconn(fd=-1, family=<AddressFamily.AF_INET: 2>, type=2, laddr=addr(ip='0.0.0.0', port=49807), raddr=(), status='NONE', pid=7400),
 sconn(fd=-1, family=<AddressFamily.AF_INET: 2>, type=1, laddr=addr(ip='127.0.0.1', port=56258), raddr=addr(ip='127.0.0.1', port=56257), status='ESTABLISHED', pid=1492),
 sconn(fd=-1, family=<AddressFamily.AF_INET: 2>, type=1, laddr=addr(ip='127.0.0.1', port=56297), raddr=addr(ip='127.0.0.1', port=56240), status='ESTABLISHED', pid=10620),
 sconn(fd=-1, family=<AddressFamily.AF_INET: 2>, type=1, laddr=addr(ip='127.0.0.1', port=51394), raddr=addr(ip='127.0.0.1', port=51393), status='ESTABLISHED', pid=4060),
 sconn(fd=-1, family=<AddressFamily.AF_INET: 2>, type=

### 获取进程信息

通过psutil可以获取到所有进程的详细信息：

In [51]:
from pandas import Series,DataFrame

# 获取所有进程 id
print('获取所有进程 id:',Series(psutil.pids()).head())

# 获取指定进程ID=10620，其实就是当前Python交互环境
p = psutil.Process(10620)
# 进程的名字
print('进程的名字:', p.name)

# 进程路径
print('进程路径:', p.exe())

# 进程工作目录
print('进程工作目录:', p.cwd())

# 进程启动的命令行
print('进程启动的命令行:', p.cmdline())

# 父进程ID
print('父进程ID:', p.ppid())

# 父进程:
print('父进程:', p.parent()) 

# 子进程列表
print('子进程列表:', p.children())

# 进程状态
print('进程状态:', p.status())

# 进程用户名
print('进程用户名:', p.username())

# 进程创建时间
print('进程创建时间:', p.create_time()) 

# 进程终端
print('进程终端:', p.terminal())

# 进程使用的CPU时间
print('进程使用的CPU时间:', p.cpu_times())

# 进程使用的内存
print('进程使用的内存:', p.memory_info())

# 进程打开的文件
print('进程打开的文件:', p.open_files())

# 进程相关网络连接
print('进程相关网络连接:', p.connections())

# 进程的线程数量
print('进程的线程数量:', p.num_threads())

# 所有线程信息
print('所有线程信息:', p.threads())

# 进程环境变量
print('进程环境变量:', p.environ())

# 结束进程(在window是上不可用)
p.terminate()

获取所有进程 id: 0      0
1      4
2    340
3    560
4    648
dtype: int64
进程的名字: <bound method Process.name of <psutil.Process(pid=10620, name='python.exe') at 2725209990872>>
进程路径: D:\ProgramData\Anaconda3\envs\py36\python.exe
进程工作目录: C:\Users\Administrator
进程启动的命令行: ['D:\\ProgramData\\Anaconda3\\envs\\py36\\python.exe', 'D:\\ProgramData\\Anaconda3\\envs\\py36\\Scripts\\jupyter-notebook-script.py', 'D:\\']
父进程ID: 10332
父进程: psutil.Process(pid=10332, name='jupyter-notebook.exe')
子进程列表: [<psutil.Process(pid=4060, name='python.exe') at 2725209991768>, <psutil.Process(pid=1700, name='python.exe') at 2725209991096>, <psutil.Process(pid=10260, name='python.exe') at 2725209991040>, <psutil.Process(pid=1492, name='python.exe') at 2725209991488>]
进程状态: running
进程用户名: AR0YAJDWVL0KMTZ\Administrator
进程创建时间: 1515548116.0


AttributeError: 'Process' object has no attribute 'terminal'

psutil还提供了一个test()函数，可以模拟出ps命令的效果：

In [52]:
psutil.test()

USER         PID %MEM     VSZ     RSS TTY           START    TIME  COMMAND
SYSTEM         0    ?       ?       4 ?             09:16   52:21  System Idle Process
SYSTEM         4    ?     128     108 ?             09:16   04:23  System
               8  0.5   15952   41904 ?             09:16   00:25  svchost.exe
              80  0.8   42748   65736 ?             09:16   06:39  dwm.exe
             340    ?     368    1164 ?             09:16   00:00  smss.exe
             552  0.2    3920   14580 ?             09:16   00:01  svchost.exe
             560  0.1    1392    4500 ?             09:16   00:01  csrss.exe
             648  0.4    2396   31284 ?             09:16   00:48  csrss.exe
Administra   656    ?   36992    1432 ?             10:31   00:00  jcef_helper.exe
             672  0.1    1108    5604 ?             09:16   00:00  wininit.exe
             708  0.1    2160    9928 ?             09:16   00:00  winlogon.exe
             784  0.1    3104    7528 ?             09:16  

## 参考

1、[Pillow - 廖雪峰](https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/0014320027235877860c87af5544f25a8deeb55141d60c5000)

2、[requests - 廖雪峰](https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/0015109021115795adfc5c8629f4f98985063b5a7e3ff87000)

3、[chardet - 廖雪峰](https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/001510905171877ca6fdf08614e446e835ea5d9bce75cf5000)

4、[psutil - 廖雪峰](https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/001511052957192bb91a56a2339485c8a8c79812b400d49000)
