## 操作系统接口

[os](https://docs.python.org/zh-cn/3/library/os.html#module-os) 模块
- 提供了许多与操作系统交互的函数

避免使用 `from os import *`
- 避免内置的 [open()](https://docs.python.org/zh-cn/3/library/functions.html#open) 函数被 [os.open()](https://docs.python.org/zh-cn/3/library/os.html#os.open) 隐式替换

In [1]:
import os
os.getcwd()      # Return the current working directory

In [2]:
# 改变工作目录
os.chdir('D:/Study/Github/Study-Notes')   # Change current working directory
os.getcwd()

In [3]:
# 运行命令
os.system('mkdir today')   # Run the command mkdir in the system shell

0

内置函数 [dir()](https://docs.python.org/zh-cn/3/library/functions.html#dir) 和 [help()](https://docs.python.org/zh-cn/3/library/functions.html#help) 可用作交互式辅助工具，用于处理大型模块

In [4]:
# <returns a list of all module functions>
dir(os)

['DirEntry',
 'F_OK',
 'MutableMapping',
 'O_APPEND',
 'O_BINARY',
 'O_CREAT',
 'O_EXCL',
 'O_NOINHERIT',
 'O_RANDOM',
 'O_RDONLY',
 'O_RDWR',
 'O_SEQUENTIAL',
 'O_SHORT_LIVED',
 'O_TEMPORARY',
 'O_TEXT',
 'O_TRUNC',
 'O_WRONLY',
 'P_DETACH',
 'P_NOWAIT',
 'P_NOWAITO',
 'P_OVERLAY',
 'P_WAIT',
 'PathLike',
 'R_OK',
 'SEEK_CUR',
 'SEEK_END',
 'SEEK_SET',
 'TMP_MAX',
 'W_OK',
 'X_OK',
 '_AddedDllDirectory',
 '_Environ',
 '__all__',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__spec__',
 '_check_methods',
 '_execvpe',
 '_exists',
 '_exit',
 '_fspath',
 '_get_exports_list',
 '_putenv',
 '_unsetenv',
 '_wrap_close',
 'abc',
 'abort',
 'access',
 'add_dll_directory',
 'altsep',
 'chdir',
 'chmod',
 'close',
 'closerange',
 'cpu_count',
 'curdir',
 'defpath',
 'device_encoding',
 'devnull',
 'dup',
 'dup2',
 'environ',
 'error',
 'execl',
 'execle',
 'execlp',
 'execlpe',
 'execv',
 'execve',
 'execvp',
 'execvpe',
 'extsep',
 'fdopen

In [5]:
# <returns an extensive manual page created from the module's docstrings>
help(os)

Help on module os:

NAME
    os - OS routines for NT or Posix depending on what system we're on.

MODULE REFERENCE
    https://docs.python.org/3.8/library/os
    
    The following documentation is automatically generated from the Python
    source files.  It may be incomplete, incorrect or include features that
    are considered implementation detail and may vary between Python
    implementations.  When in doubt, consult the module reference at the
    location listed above.

DESCRIPTION
    This exports:
      - all functions from posix or nt, e.g. unlink, stat, etc.
      - os.path is either posixpath or ntpath
      - os.name is either 'posix' or 'nt'
      - os.curdir is a string representing the current directory (always '.')
      - os.pardir is a string representing the parent directory (always '..')
      - os.sep is the (or a most common) pathname separator ('/' or '\\')
      - os.extsep is the extension separator (always '.')
      - os.altsep is the alternate pathname se

[shutil](https://docs.python.org/zh-cn/3/library/shutil.html#module-shutil) 模块
- 用于日常文件和目录管理任务
    - 提供了更易于使用的高级别接口

In [6]:
os.getcwd()

'D:\\Study\\Github\\Study-Notes'

In [7]:
import shutil

shutil.move('today', 'The Python Tutorial/today')    # 移动文件

'The Python Tutorial/today\\today'

In [8]:
os.chdir('D:/Study/Github/Study-Notes/The Python Tutorial')    # 切换工作目录
shutil.copyfile('myfile.txt', 'myfile_cp.txt')    # 拷贝文件

'myfile_cp.txt'

## 文件通配符

[glob](https://docs.python.org/zh-cn/3/library/glob.html#module-glob) 模块
- 提供了一个在目录中使用通配符搜索和创建文件列表的函数

In [9]:
os.getcwd()

'D:\\Study\\Github\\Study-Notes\\The Python Tutorial'

In [10]:
import glob
glob.glob('*.ipynb')

['1-3.ipynb',
 '10-11.ipynb',
 '12-14.ipynb',
 '4.ipynb',
 '5.ipynb',
 '6-7.ipynb',
 '8.ipynb',
 '9.ipynb']

## 命令行参数

工具脚本通常需要处理命令行参数
- 参数作为列表存储在 [sys](https://docs.python.org/zh-cn/3/library/sys.html#module-sys) 模块的 `argv` 属性中

[argparse](https://docs.python.org/zh-cn/3/library/argparse.html#module-argparse) 模块
- 提供了一种更复杂的机制来处理命令行参数

In [11]:
import sys
print(sys.argv)

['d:\\study\\github\\study-notes\\myenv\\lib\\site-packages\\ipykernel_launcher.py', '-f', 'C:\\Users\\linki\\AppData\\Roaming\\jupyter\\runtime\\kernel-8abc2f9b-6ca8-4548-b6b6-d1ed54ca6ccf.json']


可提取一个或多个文件名，并可选择要显示的行数

```python
# top.py
import argparse

parser = argparse.ArgumentParser(prog = 'top',
    description = 'Show top lines from each file')
parser.add_argument('filenames', nargs='+')
parser.add_argument('-l', '--lines', type=int, default=1)
args = parser.parse_args()
print(args)
```

In [12]:
%%bash
python top.py myfile.txt

Namespace(filenames=['myfile.txt'], lines=1)


## 错误输出重定向

sys 模块具有 `stdin`、`stdout` 和 `stderr` 属性
- `stderr` 用于发出警告和错误消息
    - 即使在 `stdout` 被重定向后也可以显示

In [13]:
sys.stderr.write('Warning, log file not found starting a new one\n')



## 程序终止

终止脚本的最直接方法是使用 `sys.exit()`

## 字符串模式匹配

[re](https://docs.python.org/zh-cn/3/library/re.html#module-re) 模块
- 为高级字符串处理提供正则表达式
    - 正则表达式为复杂的匹配和操作提供简洁、优化的解决方案

字符串方法
- 更易阅读和调试
- 例如，`str.replace()`

In [14]:
import re
# 返回匹配列表
re.findall(r'\bf[a-z]*', 'which foot or hand fell fastest')

['foot', 'fell', 'fastest']

In [15]:
# 替换
re.sub(r'(\b[a-z]+) \1', r'\1', 'cat in the the hat')

'cat in the hat'

In [16]:
# 字符串方法
'tea for too'.replace('too', 'two')

'tea for two'

## 数学

[math](https://docs.python.org/zh-cn/3/library/math.html#module-math) 模块
- 提供了对 C 标准定义的数学函数的访问

In [17]:
import math
math.cos(math.pi / 4)  # 余弦值

0.7071067811865476

In [18]:
math.log(1024, 2)      # 自然对数

10.0

[random](https://docs.python.org/zh-cn/3/library/random.html#module-random) 模块
- 提供进行随机选择的工具
- 实现了各种分布的伪随机数生成器

In [19]:
import random
# 从序列中返回一个随机元素
random.choice(['apple', 'pear', 'banana'])

'pear'

In [20]:
# 无重复随机抽样，返回 10 个元素
random.sample(range(100), 10)   # sampling without replacement

[1, 48, 19, 80, 79, 86, 22, 54, 59, 52]

In [21]:
# 返回 [0.0, 1.0) 范围内的一个随机浮点数
random.random()    # random float

0.011836786981094582

In [22]:
# 从 [0, 6) 中返回一个元素
random.randrange(6)    # random integer chosen from range(6)

5

[statistics](https://docs.python.org/zh-cn/3/library/statistics.html#module-statistics) 模块
- 计算数值数据的基本属性
    - 均值、中位数、方差等
    
[SciPy 项目](https://scipy.org/) 提供许多用于数值计算的模块

In [23]:
import statistics
data = [2.75, 1.75, 1.25, 0.25, 0.5, 1.25, 3.5]
statistics.mean(data)      # 算术平均数

1.6071428571428572

In [24]:
statistics.median(data)    # 中位数

1.25

In [25]:
statistics.variance(data)  # 样本方差

1.3720238095238095

## 互联网访问

[urllib.request](https://docs.python.org/zh-cn/3/library/urllib.request.html#module-urllib.request) 库
- 用于从 URL 检索数据

[smtplib](https://docs.python.org/zh-cn/3/library/smtplib.html#module-smtplib) 模块
- 用于发送邮件

In [26]:
from urllib.request import urlopen
with urlopen('https://raw.githubusercontent.com/jckling/Study-Notes/python/The%20Python%20Tutorial/workfile') as response:
    for line in response:
        line = line.decode('utf-8')  # Decoding the binary data to text.
        if 'file' in line:           # look for specific line
            print(line)

This is the first line of the file.

Second line of the file.This is the test line.



In [27]:
# # 需要在本地（localhost）运行邮件服务器
# import smtplib
# server = smtplib.SMTP('localhost')
# server.sendmail('soothsayer@example.org', 'jcaesar@example.org',
# """To: jcaesar@example.org
# From: soothsayer@example.org

# Beware the Ides of March.
# """)
# server.quit()

## 日期和时间

[datetime](https://docs.python.org/zh-cn/3/library/datetime.html#module-datetime) 模块
- 提供用于处理日期和时间的类
- 实现重点是有效地解析属性用于格式化输出和数据操作
- 支持可感知时区的对象
    - [感知型对象](https://docs.python.org/zh-cn/3/library/datetime.html#aware-and-naive-objects)

In [28]:
# dates are easily constructed and formatted
from datetime import date
now = date.today()    # 返回当前的本地日期
now

datetime.date(2020, 9, 26)

In [29]:
# 格式字符串
now.strftime("%m-%d-%y. %d %b %Y is a %A on the %d day of %B.")

'09-26-20. 26 Sep 2020 is a Saturday on the 26 day of September.'

In [30]:
# dates support calendar arithmetic
birthday = date(1964, 7, 31)    # date 对象
age = now - birthday
age.days

20511

## 数据压缩

以下模块支持常见的数据存档和压缩格式
- [zlib --- 与 gzip 兼容的压缩](https://docs.python.org/zh-cn/3/library/zlib.html#module-zlib)
- [gzip --- 对 gzip 格式的支持](https://docs.python.org/zh-cn/3/library/gzip.html#module-gzip)
- [bz2 --- 对 bzip2 压缩算法的支持](https://docs.python.org/zh-cn/3/library/bz2.html#module-bz2)
- [lzma --- 用 LZMA 算法压缩](https://docs.python.org/zh-cn/3/library/lzma.html#module-lzma)
- [zipfile --- 使用ZIP存档](https://docs.python.org/zh-cn/3/library/zipfile.html#module-zipfile)
- [tarfile --- 读写 tar 归档文件](https://docs.python.org/zh-cn/3/library/tarfile.html#module-tarfile)

In [31]:
import zlib
s = b'witch which has which witches wrist watch'
len(s)

41

In [32]:
# 压缩 data 中的字节，返回含有已压缩内容的 bytes 对象
t = zlib.compress(s)
len(t)

37

In [33]:
# 解压 data 中的字节，返回含有已解压内容的 bytes 对象
zlib.decompress(t)

b'witch which has which witches wrist watch'

In [34]:
# 计算 data 的 CRC (循环冗余校验) 值
zlib.crc32(s)

226805979

## 性能测量

[timeit](https://docs.python.org/zh-cn/3/library/timeit.html#module-timeit) 模块
- 度量运行效率，精细粒度
- 提供了一种简单的方法来计算一小段 Python 代码的耗时

[profile](https://docs.python.org/zh-cn/3/library/profile.html#module-profile)、[pstats](https://docs.python.org/zh-cn/3/library/profile.html#module-pstats) 模块
- 提供了在较大的代码块中度量运行时间的工具

In [35]:
from timeit import Timer
Timer('t=a; a=b; b=t', 'a=1; b=2').timeit() # 返回执行语句多次所需的时间

0.024900299999999653

In [36]:
Timer('a,b = b,a', 'a=1; b=2').timeit()

0.020540699999999745

## 质量控制

[doctest](https://docs.python.org/zh-cn/3/library/doctest.html#module-doctest) 模块
- 文档测试模块
- 用于扫描模块并验证程序文档字符串中嵌入的测试
- 测试构造即将调用的结果粘贴到文档字符串
- 通过向用户提供示例来改进文档，并允许 doctest 模块确保代码像文档字符串显示的那样正确运行

In [37]:
def average(values):
    """Computes the arithmetic mean of a list of numbers.

    >>> print(average([20, 30, 70]))
    40.0
    """
    return sum(values) / len(values)

import doctest
doctest.testmod()   # automatically validate the embedded tests

TestResults(failed=0, attempted=1)

[unittest](https://docs.python.org/zh-cn/3/library/unittest.html#module-unittest) 模块
- 提供了一系列创建和运行测试的工具
- 允许在单独的文件中创建更全面的测试集

```python
import unittest

def average(values):
    """Computes the arithmetic mean of a list of numbers.

    >>> print(average([20, 30, 70]))
    40.0
    """
    return sum(values) / len(values)

class TestStatisticalFunctions(unittest.TestCase):
    def test_average(self):
        self.assertEqual(average([20, 30, 70]), 40.0)
        self.assertEqual(round(average([1, 5, 7]), 1), 4.3)
        with self.assertRaises(ZeroDivisionError):
            average([])
        with self.assertRaises(TypeError):
            average(20, 30, 70)

unittest.main()  # Calling from the command line invokes all tests
```

In [38]:
%%bash
python test.py

.
----------------------------------------------------------------------
Ran 1 test in 0.000s

OK


## 自带电池

[xmlrpc.client](https://docs.python.org/zh-cn/3/library/xmlrpc.client.html#module-xmlrpc.client) 和 [xmlrpc.server](https://docs.python.org/zh-cn/3/library/xmlrpc.server.html#module-xmlrpc.server) 模块
- 实现远程过程调用

[email](https://docs.python.org/zh-cn/3/library/email.html#module-email) 包
- 用于管理电子邮件
    - 包括 MIME 和其他符合 [RFC 2822](https://tools.ietf.org/html/rfc2822.html) 规范的邮件文档
- 提供完整的工具集
    - 用于构建或解码复杂的消息结构（包括附件）以及实现互联网编码和标头协议

[smtplib](https://docs.python.org/zh-cn/3/library/smtplib.html#module-smtplib) 和 [poplib](https://docs.python.org/zh-cn/3/library/poplib.html#module-poplib)
- 用于发送和接收消息

[json](https://docs.python.org/zh-cn/3/library/json.html#module-json) 包
- 为解析 [JSON (JavaScript Object Notation)](https://www.json.org/json-en.html) 数据交换格式提供了强大的支持

[csv](https://docs.python.org/zh-cn/3/library/csv.html#module-csv) 模块
- 支持以逗号分隔值的格式直接读取和写入文件
    - [Comma-Separated Value](https://en.wikipedia.org/wiki/Comma-separated_values)
    - 通常，数据库和电子表格支持这种格式

[xml.etree.ElementTree](https://docs.python.org/zh-cn/3/library/xml.etree.elementtree.html#module-xml.etree.ElementTree)、[xml.dom](https://docs.python.org/zh-cn/3/library/xml.dom.html#module-xml.dom)、[xml.sax](https://docs.python.org/zh-cn/3/library/xml.sax.html#module-xml.sax)
- 支持对 XML 的处理

[sqlite3](https://docs.python.org/zh-cn/3/library/sqlite3.html#module-sqlite3) 模块
- SQLite 数据库库的包装器
- 提供了一个可以使用稍微不标准的 SQL 语法更新和访问的持久数据库

许多模块支持国际化
- [gettext --- 多语种国际化服务](https://docs.python.org/zh-cn/3/library/gettext.html#module-gettext)
- [locale --- 国际化服务](https://docs.python.org/zh-cn/3/library/locale.html#module-locale)
- [codecs --- 编解码器注册和相关基类¶](https://docs.python.org/zh-cn/3/library/codecs.html#module-codecs)

---

## 格式化输出

[reprlib](https://docs.python.org/zh-cn/3/library/reprlib.html#module-reprlib) 模块
- 提供了一个定制化版本的 [repr()](https://docs.python.org/zh-cn/3/library/functions.html#repr) 函数
- 用于缩略显示大型或深层嵌套的容器对象

In [39]:
import reprlib
# 等价于 repr()
reprlib.repr(set('supercalifragilisticexpialidocious'))

"{'a', 'c', 'd', 'e', 'f', 'g', ...}"

[pprint](https://docs.python.org/zh-cn/3/library/pprint.html#module-pprint) 模块
- 提供复杂的打印控制
- 输出的内置对象和用户自定义对象能够被解释器直接读取
- 当输出结果过长而需要折行时，会自动添加换行符和缩进

In [40]:
import pprint
t = [[[['black', 'cyan'], 'white', ['green', 'red']], [['magenta',
    'yellow'], 'blue']]]

pprint.pprint(t, width=30)

[[[['black', 'cyan'],
   'white',
   ['green', 'red']],
  [['magenta', 'yellow'],
   'blue']]]


[textwarp](https://docs.python.org/zh-cn/3/library/textwrap.html#module-textwrap) 模块
- 格式化文本段落，以适应给定大小的屏幕宽度

In [41]:
import textwrap
doc = """The wrap() method is just like fill() except that it returns
a list of strings instead of one big string with newlines to separate
the wrapped lines."""

# 对单独段落自动换行
print(textwrap.fill(doc, width=40))

The wrap() method is just like fill()
except that it returns a list of strings
instead of one big string with newlines
to separate the wrapped lines.


[locale](https://docs.python.org/zh-cn/3/library/locale.html#module-locale) 模块
- 处理与特定地域文化相关的数据格式
- `format` 函数包含一个 `grouping` 属性，可直接将数字格式化为带有组分隔符的样式

In [42]:
import locale
locale.setlocale(locale.LC_ALL, 'English_United States.1252')

'English_United States.1252'

In [43]:
# 以字典的形式返回本地约定的数据库
conv = locale.localeconv()          # get a mapping of conventions
x = 1234567.8
locale.format("%d", x, grouping=True)

  locale.format("%d", x, grouping=True)


'1,234,567'

In [44]:
# 格式化数字
locale.format_string("%s%.*f", (conv['currency_symbol'],
                     conv['frac_digits'], x), grouping=True)

'$1,234,567.80'

## 模板

[string](https://docs.python.org/zh-cn/3/library/string.html#module-string) 模块包含一个通用的 [Template](https://docs.python.org/zh-cn/3/library/string.html#string.Template) 类
- 模板字符串

占位符
- 实现格式化操作
- 由 `$` 加上合法的 Python 标识符（只能包含字母、数字、下划线）构成
- 一旦使用花括号将占位符括起来，就可以在后面直接跟上更多的字母和数字而无需空格分割
- `$$` 将被转义成单个字符 `$`

In [45]:
from string import Template
# 模板字符串
t = Template('${village}folk send $$10 to $cause.')
# 执行模板替换
t.substitute(village='Nottingham', cause='the ditch fund')

'Nottinghamfolk send $10 to the ditch fund.'

如果在字典或关键字参数中未提供某个占位符的值，那么 [substitute()](https://docs.python.org/zh-cn/3/library/string.html#string.Template.substitute) 方法将抛出 [KeyError](https://docs.python.org/zh-cn/3/library/exceptions.html#KeyError) 异常

对于邮件合并类型的应用，用户提供的数据有可能是不完整的，此时使用 [safe_substitute()](https://docs.python.org/zh-cn/3/library/string.html#string.Template.safe_substitute) 方法更加合适
- 如果数据缺失，将会保留占位符
    - 将原始占位符不加修改地显示在结果字符串中

In [46]:
t = Template('Return the $item to $owner.')
d = dict(item='unladen swallow')
t.substitute(d)

KeyError: 'owner'

In [47]:
t.safe_substitute(d)

'Return the unladen swallow to $owner.'

Template 的子类可以自定义分隔符

In [48]:
# 批量重命名
import time, os.path
photofiles = ['img_1074.jpg', 'img_1076.jpg', 'img_1077.jpg']
class BatchRename(Template):
    delimiter = '%'
fmt = input('Enter rename style (%d-date %n-seqnum %f-format):  ')

t = BatchRename(fmt)
date = time.strftime('%d%b%y')
for i, filename in enumerate(photofiles):
    base, ext = os.path.splitext(filename)
    newname = t.substitute(d=date, n=i, f=ext)
    print('{0} --> {1}'.format(filename, newname))

Enter rename style (%d-date %n-seqnum %f-format):  Ashley_%n%f
img_1074.jpg --> Ashley_0.jpg
img_1076.jpg --> Ashley_1.jpg
img_1077.jpg --> Ashley_2.jpg


模板的另一个应用是将程序逻辑与各种格式化输出的细节进行分离
- 对 XML 文件、纯文本报表和 HTML 网络报表使用自定义模板

## 使用二进制数据记录格式

[struct](https://docs.python.org/zh-cn/3/library/struct.html#module-struct) 模块提供了 [pack()](https://docs.python.org/zh-cn/3/library/struct.html#struct.pack) 和 [unpack()](https://docs.python.org/zh-cn/3/library/struct.html#struct.unpack) 函数
- 用于处理不定长度的二进制记录格式
- `H` 和 `I` 分别代表二字节和四字节的无符号整数
- `<` 代表标准尺寸的小端字节序'

问题解决
- [error: unpack requires a bytes object of length 16](https://stackoverflow.com/questions/37166288/error-unpack-requires-a-bytes-object-of-length-16)

In [49]:
# 不使用 zipfile 模块，循环遍历 ZIP 文件的所有头信息
import struct

with open('myfile.zip', 'rb') as f:
    data = f.read()

start = 0
for i in range(1):                      # show the file headers
    start += 14
    # 根据格式字符串 format 从缓冲区 buffer 解包
    fields = struct.unpack('<IIIHH', data[start:start+16])
    crc32, comp_size, uncomp_size, filenamesize, extra_size = fields

    start += 16
    filename = data[start:start+filenamesize]
    start += filenamesize
    extra = data[start:start+extra_size]
    print(filename, hex(crc32), comp_size, uncomp_size)

    start += extra_size + comp_size     # skip to the next header

b'myfile.txt' 0x369b254a 8 6


## 多线程

线程是一种对非顺序依赖的多个任务进行解耦的技术。

多线程
- 可以提高应用的响应效率
    - 接收用户输入的同时，保持其他任务在后台运行
- 面临的主要挑战
    - 相互协调的多个线程之间需要共享数据或其他资源

一个有关的应用场景是，将 I/O 和计算分别运行在两个并行的线程中。

[threading](https://docs.python.org/zh-cn/3/library/threading.html#module-threading) 模块
- 提供了多个同步操作原语
    - 包括线程锁、事件、条件变量和信号量

实现多任务协作的首选方法是
- 将所有对资源的请求集中到一个线程中
- 然后使用 [queue](https://docs.python.org/zh-cn/3/library/queue.html#module-queue) 模块向该线程提供来自其他线程的请求
- 应用程序使用 [Queue](https://docs.python.org/zh-cn/3/library/queue.html#queue.Queue) 对象进行线程间的通信和协调

In [50]:
# 在后台执行任务，且不影响主程序的运行
import threading, zipfile

class AsyncZip(threading.Thread):
    def __init__(self, infile, outfile):
        threading.Thread.__init__(self)
        self.infile = infile
        self.outfile = outfile

    def run(self):
        f = zipfile.ZipFile(self.outfile, 'w', zipfile.ZIP_DEFLATED)
        f.write(self.infile)
        f.close()
        print('Finished background zip of:', self.infile)

background = AsyncZip('mydata.txt', 'myarchive.zip')
background.start()
print('The main program continues to run in foreground.')

background.join()    # Wait for the background task to finish
print('Main program waited until background was done.')

The main program continues to run in foreground.
Finished background zip of: mydata.txt
Main program waited until background was done.


## 日志记录

[logging](https://docs.python.org/zh-cn/3/library/logging.html#module-logging) 模块
- 提供功能齐全且灵活的日志记录系统
- 最简单的情况下，日志消息被发送到文件或 `sys.stderr`

默认情况下，informational 和 debugging 消息会被压制，输出被发送到标准错误流。

其他输出选项包括将消息转发到电子邮件，数据报，套接字或 HTTP 服务器。

新的过滤器可以根据消息优先级选择不同的路由方式：DEBUG，INFO，WARNING，ERROR，和 CRITICAL。

日志系统可以直接从 Python 配置，也可以从用户配置文件加载，以便自定义日志记录而无需更改应用程序。

In [51]:
import logging
logging.debug('Debugging information')   # stderr
logging.info('Informational message')    # stderr
logging.warning('Warning:config file %s not found', 'server.conf')
logging.error('Error occurred')
logging.critical('Critical error -- shutting down')

ERROR:root:Error occurred
CRITICAL:root:Critical error -- shutting down


## 弱引用

Python 会自动进行内存管理
- 对大多数对象进行引用计数并使用 [garbage collection](https://docs.python.org/zh-cn/3/glossary.html#term-garbage-collection) 来清除循环引用
- 当某个对象的最后一个引用被移除后不久就会释放其所占用的内存

[weakref](https://docs.python.org/zh-cn/3/library/weakref.html#module-weakref) 模块
- 不必创建引用就能跟踪对象
- 当对象不再被需要时，将自动从弱引用表中移除，并为弱引用对象触发一个回调
-  典型应用包括对创建开销较大的对象进行缓存

In [52]:
import weakref, gc
class A:
    def __init__(self, value):
        self.value = value
    def __repr__(self):
        return str(self.value)

a = A(10)                   # create a reference
d = weakref.WeakValueDictionary()
d['primary'] = a            # does not create a reference
d['primary']                # fetch the object if it is still alive

10

In [53]:
del a                       # remove the one reference
gc.collect()                # run garbage collection right away

280

In [54]:
d['primary']                # entry was automatically removed

10

## 操作列表

[array](https://docs.python.org/zh-cn/3/library/array.html#module-array) 模块提供了 [array()](https://docs.python.org/zh-cn/3/library/array.html#array.array) 对象
- 类似列表
- 只能存储类型一致的数据，更紧凑地存储

In [55]:
# 以两个字节为存储单元的无符号二进制数值的数组（类型码为 H）
# Python 的 int 对象通常要占用 16 个字节
from array import array
a = array('H', [4000, 10, 700, 22222])
sum(a)

26932

In [56]:
a[1:3]

array('H', [10, 700])

[collections](https://docs.python.org/zh-cn/3/library/collections.html#module-collections) 模块提供了 [deque()](https://docs.python.org/zh-cn/3/library/collections.html#collections.deque) 对象
- 类似列表
- 从左端添加和弹出的速度较快
- 在中间查找的速度较慢
- 适用于实现队列和广度优先搜索

In [57]:
from collections import deque
d = deque(["task1", "task2", "task3"])
d.append("task4")
print("Handling", d.popleft())

Handling task1


In [58]:
# unsearched = deque([starting_node])
def breadth_first_search(unsearched):
    node = unsearched.popleft()
    for m in gen_moves(node):
        if is_goal(m):
            return m
        unsearched.append(m)

[bisect](https://docs.python.org/zh-cn/3/library/bisect.html#module-bisect) 模块
- 对有序列表提供了支持

In [59]:
import bisect
scores = [(100, 'perl'), (200, 'tcl'), (400, 'lua'), (500, 'python')]
bisect.insort(scores, (300, 'ruby'))
scores

[(100, 'perl'), (200, 'tcl'), (300, 'ruby'), (400, 'lua'), (500, 'python')]

[heapq](https://docs.python.org/zh-cn/3/library/heapq.html#module-heapq) 模块
- 提供了堆队列算法的实现，也称为优先队列算法
- 值最小的元素保持在第 0 个位置
    - 重复访问最小元素而不用进行列表排序

In [60]:
from heapq import heapify, heappop, heappush
data = [1, 3, 5, 7, 9, 2, 4, 6, 8, 0]
heapify(data)                      # rearrange the list into heap order
heappush(data, -5)                 # add a new entry
[heappop(data) for i in range(3)]  # fetch the three smallest entries

[-5, 0, 1]

## 十进制浮点运算

[decimal](https://docs.python.org/zh-cn/3/library/decimal.html#module-decimal) 模块提供了一种 [Decimal](https://docs.python.org/zh-cn/3/library/decimal.html#decimal.Decimal) 数据类型用于十进制浮点运算
- 财务应用和其他需要精确十进制表示的用途；
- 控制精度；
- 控制四舍五入以满足法律或监管要求；
- 跟踪有效小数位；
- 用户期望结果与手工完成的计算相匹配。

In [61]:
# 计算 70 美分手机和 5％ 税的总费用
from decimal import *
round(Decimal('0.70') * Decimal('1.05'), 2)

Decimal('0.74')

In [62]:
# 四舍五入导致误差更大
round(.70 * 1.05, 2)

0.73

Decimal 表示的结果会保留尾部的零，并根据具有两个有效位的被乘数自动推出四个有效位。

Decimal 可以模拟手工运算来避免二进制浮点数无法精确表示十进制数时导致的问题。

精确表示特性使得 Decimal 类能够执行对于二进制浮点数来说不适用的模运算和相等性检测。

In [63]:
Decimal('1.00') % Decimal('.10')  # 模运算

Decimal('0.00')

In [64]:
1.00 % 0.10

0.09999999999999995

In [65]:
sum([Decimal('0.1')]*10) == Decimal('1.0')  # 判断相等

True

In [66]:
sum([0.1]*10) == 1.0

False

In [67]:
# decimal 模块提供了运算所需要的足够精度
getcontext().prec = 36
Decimal(1) / Decimal(7)

Decimal('0.142857142857142857142857142857142857')

## 浮点运算（15）

二进制浮点数
- 计算机无法精确存储，舍入
    - 每次浮点运算都可能导致新的舍入错误
- 使用二进制小数近似表示
    - 分数的分子使用 8 字节的前 53 位表示
    - 分母表示为 2 的幂次方
- [浮点数风险](http://www.lahey.com/float.htm)

[fractions](https://docs.python.org/zh-cn/3/library/fractions.html#module-fractions) 模块
- 实现了基于有理数的算术运算
- 支持分数运算

浮点数精确值
- 精确比值：[float.as_integer_ratio()](https://docs.python.org/zh-cn/3/library/stdtypes.html#float.as_integer_ratio)
- 十六进制精确值：[float.hex()](https://docs.python.org/zh-cn/3/library/stdtypes.html#float.hex)

[math.fsum()](https://docs.python.org/zh-cn/3/library/math.html#math.fsum)
- 减少求和过程中的精度损失
- 在数值被添加到总值的时候跟踪“丢失的位”

In [68]:
# 1/10 的近似表示
3602879701896397 / 2 ** 55

0.1

In [69]:
# 近似值
1 / 10

0.1

不同十进制数的近似值相同

In [70]:
eval(repr(0.1)) == 0.10000000000000001

True

In [71]:
eval(repr(3602879701896397 / 2 ** 55)) == 0.1000000000000000055511151231257827021181583404541015625

True

格式化输出

In [72]:
import math
format(math.pi, '.12g')  # give 12 significant digits

'3.14159265359'

In [73]:
format(math.pi, '.2f')   # give 2 digits after the point

'3.14'

In [74]:
repr(math.pi)

'3.141592653589793'

精确度缺失导致错误
- 使用 round() 函数进行舍入也无效

In [75]:
.1 + .1 + .1 == .3

False

In [76]:
round(.1, 1) + round(.1, 1) + round(.1, 1) == round(.3, 1)

False

In [77]:
# 事后舍入
round(.1 + .1 + .1, 10) == round(.3, 10)

True

浮点数精确值
- [NumPy](https://numpy.org/) 包
- [SciPy.org](https://scipy.org/)

In [78]:
x = 3.14159
x.as_integer_ratio()     # 分数表示

(3537115888337719, 1125899906842624)

In [79]:
# 无损地重建原始值
x == 3537115888337719 / 1125899906842624

True

In [80]:
x.hex()    # 十六进制表示

'0x1.921f9f01b866ep+1'

In [81]:
# 无损地重建原始值
x == float.fromhex('0x1.921f9f01b866ep+1')

True

## 表示性错误（15）

十进制小数无法以二进制精确表示

 [IEEE-754](https://zh.wikipedia.org/zh-hans/IEEE_754) 二进制浮点数算术标准
 - 双精度类型
 - 包含 53 位精度
 
计算会尽量将 0.1 转换为以 `J/2**N` 形式所能表示的最接近分数
- 其中 J 为恰好包含 53 个二进制位的整数
- `1 / 10 ~= J / (2**N)` --> `J ~= 2**N / 10`
- 由于 J 恰好有 53 位 (即 `>=2**52` 但 `< 2**53`)，N 的最佳值为 56

In [82]:
# 56 是唯一的 N 值能令 J 恰好有 53 位
2**52 <=  2**56 // 10  < 2**53

True

In [83]:
# J 的最佳可能值就是经过舍入的商
q, r = divmod(2**56, 10)
r

6

In [84]:
# 由于余数超过 10 的一半，最佳近似值可通过四舍五入获得
q + 1

7205759403792794

In [85]:
# 754 双精度下 1/10 的最佳近似值
# 1 / 10 向上舍入
7205759403792794 / 2 ** 56

0.1

In [86]:
# 分子分母同时除以 2
3602879701896397 / 2 ** 55

0.1

In [87]:
# 最佳 754 双精度近似值
0.1 * 2 ** 55

3602879701896397.0

In [88]:
# 输出 55 位十进制数
3602879701896397 * 10 ** 55 // 2 ** 55

1000000000000000055511151231257827021181583404541015625

In [89]:
# 舍入为 17 位有效数字
format(0.1, '.17f')

'0.10000000000000001'

- [fractions](https://docs.python.org/zh-cn/3/library/fractions.html#module-fractions) 模块
- [decimal](https://docs.python.org/zh-cn/3/library/decimal.html#module-decimal) 模块

In [90]:
from decimal import Decimal
from fractions import Fraction

Fraction.from_float(0.1)

Fraction(3602879701896397, 36028797018963968)

In [91]:
(0.1).as_integer_ratio()

(3602879701896397, 36028797018963968)

In [92]:
Decimal.from_float(0.1)

Decimal('0.1000000000000000055511151231257827021181583404541015625')

In [93]:
format(Decimal.from_float(0.1), '.17')

'0.10000000000000001'