# C10. 开箱即用

## 10.1 模块



### 10.1.1 模块概述

模块就是程序。任何 Python 程序都可以作为模块导入。

### 10.1.2 模块定义

1.  在模块中定义函数可以重用代码。
2.  在模块中添加测试代码用于检查代码是否预期。

### 10.1.3 模块使用

1.  将模块放在正确的位置，搜索目录在 `sys.path` 中
2.  告诉解释器到哪里去查找，在模块所在的目录包含在环境变量 PYTHONPATH 中

### 10.1.4 包

为了组织模块，可以将其编组为包(package)。如果目录中包含文件 `__init__.py` 就会被当作包，包的内容在 `__init__.py` 文件中描述。

## 10.2 控制模块

### 10.2.1 模块结构

In [1]:
# 使用函数 `dir` 列出对象的所有属性
import copy
[n for n in dir(copy) if not n.startswith('_')]

['Error', 'copy', 'deepcopy', 'dispatch_table', 'error']

In [2]:
# 使用变量 `__all__` 查询模块的公有接口
from copy import *  # 就可以导入模块的公有接口中的所有函数
copy.__all__

['Error', 'copy', 'deepcopy']

### 10.2.2 模块帮助

In [3]:
help(copy.copy)

Help on function copy in module copy:

copy(x)
    Shallow copy operation on arbitrary Python objects.
    
    See the module's __doc__ string for more info.



In [4]:
print(copy.copy.__doc__)

Shallow copy operation on arbitrary Python objects.

    See the module's __doc__ string for more info.
    


### 10.2.3 模块文档

In [5]:
print(copy.__doc__)

Generic (shallow and deep) copying operations.

Interface summary:

        import copy

        x = copy.copy(y)        # make a shallow copy of y
        x = copy.deepcopy(y)    # make a deep copy of y

For module specific errors, copy.Error is raised.

The difference between shallow and deep copying is only relevant for
compound objects (objects that contain other objects, like lists or
class instances).

- A shallow copy constructs a new compound object and then (to the
  extent possible) inserts *the same objects* into it that the
  original contains.

- A deep copy constructs a new compound object and then, recursively,
  inserts *copies* into it of the objects found in the original.

Two problems often exist with deep copy operations that don't exist
with shallow copy operations:

 a) recursive objects (compound objects that, directly or indirectly,
    contain a reference to themselves) may cause a recursive loop

 b) because deep copy copies *everything* it may copy too much, 

### 10.2.4 模块代码文件

In [6]:
print(copy.__file__)

C:\ProgramData\Anaconda3\envs\Begin\lib\copy.py


## 10.3 标准库

### 10.3.1 sys

访问与 Python 解释器相关的变量和函数。
-   `arg`：命令行参数，包括脚本名
-   `exit([arg])`：退出当前程序，通过可选参数指定返回值或者错误消息
-   `modules`：字典类型，将模块名称映射到加载的模块
-   `path`：列表类型，包含查找模块需要的目录名称
-   `platform`：平台标识符，例如：win32 或者 sunos5
-   `stdin`：标准输入流——类似于文件的对象
-   `stdout`：标准输出流——类似于文件的对象
-   `stderr`：标准错误流——类似于文件的对象

In [7]:
# 反转并且打印命令行参数
import sys
args=sys.argv[1:]
args.reverse()
print(' '.join(args))

--f=C:\Users\ADMINI~1\AppData\Local\Temp\tmp-5556M6E2laOmip2i.json --iopub=9034 --transport="tcp" --shell=9032 --Session.key=b"3fc81e7c-ae5f-451d-b7dd-49c4f87b9510" --Session.signature_scheme="hmac-sha256" --hb=9030 --control=9031 --stdin=9033 --ip=127.0.0.1


### 10.3.2 os

访问多个操作系统的服务。
-   `environ`：包含环境变量的映射
-   `system(command)`：在子 shell 中执行操作系统的命令
-   `sep`：路径中使用的分隔符
-   `pathsep`：分隔不同路径的分隔符
-   `linesep`：行分隔符(例如：`\n`, `\r`, `\r\n`)
-   `urandom(n)`：返回 n 个字节的强加密随机数据

### 10.3.3 fileinput

读写文件模块
-   `input([files[, inplace[, backup]]])`：帮助迭代多个输入流中的行
-   `filename()`：返回当前文件的名称
-   `lineno()`：返回(累计的)当前行号
-   `filelinieno()`：返回在当前文件中的行号
-   `isfirstline()`：检查当前行是否是文件中的第一行
-   `isstdin()`：橙果最后一行是否来自 `sys.stdin`
-   `nextfile()`：关闭当前文件并且移到下一个文件
-   `close()`：关闭序列

In [8]:
# 在 Python 脚本中添加行号
# 需要在 Python 命令行环境下运行
import fileinput

for line in fileinput.input(inplace=True):
    line=line.rstrip()
    num=fileinput.lineno()
    print('{:<50} # {:2d}'.format(line,num))

不能执行

### 10.3.4 集合(set)

集合是由模块 sets 中的 Set 类实现的。

In [7]:
print(set(range(10)))
# 空的花括号创建的是字典
print(type({}))
print(type({1,2,3}))

# 集合会自动忽略重复的元素
print({1,2,3,1})

# 集合中元素没有确定的排列顺序
print({'fee','fie','foe'})

{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}
<class 'dict'>
<class 'set'>
{1, 2, 3}
{'foe', 'fee', 'fie'}


In [13]:
# 集合的运算
a={1,2,3}
b={2,3,4}
print("并集")
print(a.union(b))
print(a|b)
print("交集")
print(a.intersection(b))
print(a&b)
print("子集")
c=a&b
print(c.issubset(a))
print(c<=a)
print(c>=a)
print("差集")
print(a-b)
print("对称差集")
print(a.symmetric_difference(b))
print(a^b)
print("复制")
print(a.copy())
print(a.copy()==a)
print(a.copy() is a)

并集
{1, 2, 3, 4}
{1, 2, 3, 4}
交集
{2, 3}
{2, 3}
子集
True
True
False
差集
{1}
对称差集
{1, 4}
{1, 4}
复制
{1, 2, 3}
True
False


### 10.3.4 堆(heap)

是一种优先队列。能以任何顺序添加对象，并且随时找出最小的元素进行处理。
-   `heappush(heap,x)`：将 x 压入堆中
-   `heappop(heap)`：从堆中弹出最小的元素
-   `heapify(heap)`：让列表具备堆的特征
-   `heapreplace(heap,x)`：弹出最小的元素，并且将 x 压入堆中
-   `nlargest(n,iter)`：返回 iter 中 n 个最大的元素
-   `nsmallest(n,iter)`：返回 iter 中 n 个最小的元素

In [15]:
from heapq import *
from random import shuffle

data=list(range(10))
shuffle(data)
heap=[]
for n in data:
    heappush(heap,n)
print("heap=",heap)
heappush(heap,0.5)
print("heap=",heap)
print(heappop(heap))
print(heappop(heap))
print(heappop(heap))
print("heap=",heap)

heap= [0, 2, 1, 3, 4, 6, 8, 5, 9, 7]
heap= [0, 0.5, 1, 3, 2, 6, 8, 5, 9, 7, 4]
0
0.5
1


In [17]:
heap=[5,8,0,3,6,7,9,1,4,2]
heapify(heap)   # 处理后可以发现堆是采用二叉树实现的
print("heap=",heap)
heapreplace(heap,0.5)
print("heap=",heap)
heapreplace(heap,10)
print("heap=",heap)

heap= [0, 1, 5, 3, 2, 7, 9, 8, 4, 6]
heap= [0.5, 1, 5, 3, 2, 7, 9, 8, 4, 6]
heap= [1, 2, 5, 3, 6, 7, 9, 8, 4, 10]


### 10.3.4 双端队列(及其他集合)

与集合一样，双端队列也是从可迭代对象创建的。

In [20]:
from collections import deque
q=deque(range(5))
print("q=",q)
q.append(5)
print("q=",q)
q.appendleft(6)
print("q=",q)
q.pop()
print("q=",q)
q.popleft()
print("q=",q)
q.rotate(3)
print("q=",q)
q.rotate(-1)
print("q=",q)


q= deque([0, 1, 2, 3, 4])
q= deque([0, 1, 2, 3, 4, 5])
q= deque([6, 0, 1, 2, 3, 4, 5])
q= deque([6, 0, 1, 2, 3, 4])
q= deque([0, 1, 2, 3, 4])
q= deque([2, 3, 4, 0, 1])
q= deque([3, 4, 0, 1, 2])


### 10.3.5 time

时间和日期处理函数
-   `asctime([tuple])`：将时间元组转换为字符串
-   `localtime([secs])`：将秒数转换为表示当地时间的日期元组
-   `mktime(tuple)`：将时间元组转换为当地时间
-   `sleep(secs)`：休眠 secs 秒
-   `strptime(string[, format])`：将字符串转换为时间元组
-   `time()`：当前时间(从新纪元开始后的秒数，以 UTC 为准)

In [21]:
import time
print(time.asctime())
print(time.time())

Tue Feb 23 18:45:42 2021
1614077142.1256776


### 10.3.6 random

生成伪随机数的函数：
-   `random()`：返回一个 $(0,1]$ 的随机实数
-   `getrandbits(n)`：以长整数方式返回 n 个随机的二进制位
-   `uniform(a,b)`：返回一个 $(a,b]$ 的随机实数
-   `randrange([start], stop, [step])`：从 range(start, stop, step) 中随机地选择一个数
-   `choice(seq)`：从序列 seq 中随机地选择一个元素
-   `shuffle(seq[, random])`：就地打乱序列 seq
-   `sample(seq, n)`：从序列 seq 中随机地选择 n 个不同的元素

In [22]:
from random import *
from time import *

date1=(2016,1,1,0,0,0,-1,-1,-1)
time1=mktime(date1)

date2=(2017,1,1,0,0,0,-1,-1,-1)
time2=mktime(date2)

random_time=uniform(time1,time2)
print("time1=",time1)
print("time2=",time2)
print(asctime(localtime(random_time)))

time1= 1451577600.0
time2= 1483200000.0
Tue Dec  6 06:15:07 2016


In [24]:
from random import randrange

num=int(input("How many dice?"))
sides=int(input("How many sides per die?"))
sum=0
for i in range(num): sum+=randrange(sides)+1
print("The result is ",sum)

The result is  17


In [31]:
from random import *

seq=list(range(10))
seq=seq+seq
shuffle(seq)
print("seq=",seq)
print("sample(seq, n)=", sample(seq, 10))

seq= [7, 0, 1, 4, 6, 3, 3, 5, 6, 5, 2, 4, 8, 2, 9, 1, 7, 9, 0, 8]
sample(seq, n)= [4, 7, 8, 0, 9, 7, 5, 1, 1, 2]


In [34]:
values=list(range(1,11))+'Jack Queen King'.split()
suits='diamonds clubs hearts spades'.split()
deck=['{} of {}'.format(v,s) for v in values for s in suits]
print(deck[:12])
shuffle(deck)
print(deck[:12])

['1 of diamonds', '1 of clubs', '1 of hearts', '1 of spades', '2 of diamonds', '2 of clubs', '2 of hearts', '2 of spades', '3 of diamonds', '3 of clubs', '3 of hearts', '3 of spades']
['4 of clubs', '10 of hearts', '7 of spades', '5 of clubs', 'Queen of clubs', 'Queen of diamonds', '1 of clubs', '5 of diamonds', '7 of hearts', '10 of clubs', 'King of clubs', '7 of clubs']


### 10.3.7 shelve & json

In [36]:
import shelve

s=shelve.open('test.dat')
s['x']=['a','b','c']
s['x'].append('d')
# d 会丢失
print(s['x'])

temp=s['x']
temp.append('d')
s['x']=temp
print(s['x'])

['a', 'b', 'c']
['a', 'b', 'c', 'd']


In [None]:
def store_person(db):
    pid=input("Enter unique ID number:")
    person={}
    person['name']=input("Enter name:")
    person['age']=input("Enter age:")
    person['phone']=input("Enter phone number:")
    db[pid]=person

def lookup_person(db):
    pid=input("Enter ID number:")
    field=input("What would you like to know? (name, age, phone)")
    field=field.strip().lower()
    print(field.captitalize()+':', db[pid][field])

def print_help():
    print("The available commands are:")
    print("store: Stores information about a person")
    print("lookup: Looks up a person from ID number")
    print("quit: Save changes and exit")
    print("?: Prints this message")

def enter_command():
    cmd=input("Enter command (? for help):")
    cmd=cmd.strip().lower()
    return cmd

def main():
    database=shelve.open("database.dat")
    try:
        while True:
            cmd=enter_command()
            if cmd=='store':
                store_person(database)
            elif cmd=='lookup':
                lookup_person(database)
            elif cmd=='?':
                print_help()
            elif cmd=='quit':
                return
    finally:
        database.close()

### 10.3.8 re

正则表达式是什么？正则表达式是可匹配文本片段的模式。
-   通配符：正则表达式可与多个字符串匹配，可以使用特殊字符来创建正则表达式
    -   句点与除换行符外的任何字符都匹配，因此称为通配符(wildcard)
-   对特殊字符进行转义：要让特殊字符的行为与普通字符一样，需要对其进行转义
-   字符集：匹配任何字符都可以使用。使用方括号将一个子串括起，创建一个字符集。这样的字符集与其包含的字符都匹配。
-   二选一和子模式：管道字符(|)表示二选一；单个字符称为子模式
-   可选模式和重复模式：在子模式后面加上问号，可将其指定为可选的，即可以包含也可以不包含。
    -   `(pattern)*`：pattern 可以重复 0 次、1 次 或者 多次
    -   `(pattern)+`：pattern 可以重复 1 次 或者 多次
    -   `(pattern){m,n}`：pattern 可以重复 m~n 次
-   字符串的开头和末尾：脱字符(^)指定字符串的开头；美元符号($)指定字符串的结尾

模块 re 的内容：
-   `compile(pattern[, flags])`：根据包含正则表达式的字符串创建模式对象
-   `search(pattern, string[, flags])`：在字符串中查找模式
-   `match(pattern, string[, flags])`：在字符串开头匹配模式
-   `split(pattern, string[, maxsplit=0])`：根据模式来分割字符串
-   `findall(pattern, string)`：返回一个列表，其中包含字符串中所有与模式匹配的子串
-   `sub(pat, repl, string[, count=0])`：将字符串中与模式 pat 匹配的子串都替换为 repl
-   `escape(string)`：对字符串中所有的正则表达式特殊字符都进行转义

匹配对象和编组
-   `group([group1, ...])`：获取与给定子模式(编组)匹配的子串
-   `start([group])`：返回与给定编组匹配的子串的起始位置
-   `end([group])`：返回与给定编组匹配的子串的终止位置
-   `span([group])`：返回与给定编组匹配的子串的起始和终止位置

In [38]:
import re
m=re.match(r'www\.(.*)\..{3}','www.python.org')
print(m.group(1))
print(m.start(1))
print(m.end(1))
print(m.span(1))

python
4
10
(4, 10)


替换中的组号和函数



In [1]:
import re
# 要让正则表达式容易理解，可以在调用模块 re 中的函数时使用标志 VERBOSE
# 标志 VERBOSE 可以在模式中添加空白(空格、制表符、换行符等)，还可以添加注释
emphasis_pattern=re.compile(r'''
\*          # 起始突出标志——一个星号
(           # 与要突出的内容匹配的编组的起始位置
[^\*]+      # 与除星号外的其他字符都匹配
)           # 编组至此结束
\*          # 结束突出标志
''',re.VERBOSE)
re.sub(emphasis_pattern,r'<em>\1</em>','Hello, *world*!')

'Hello, <em>world</em>!'

贪婪模式：重复运算符默认都是贪婪的，意味着将匹配尽可能多的内容。

非贪婪模式：在重复运算符后加上问号(?)，将匹配将可能少的内容。

In [3]:
# 10-11：模板系统，不能在Notebook中执行
import fileinput,re

# 与使用方括号括起的字段匹配
field_pat=re.compile(r'\[(.+?)\]')
# 将变量收集到 scope
scope={}

# 用于调用 re.sub
def replacement(match):
    code=match.group(1)
    # 如果字段为表达式，就返回其结果
    try: return str(eval(code,scope))
    except SyntaxError:
        # 否则在当前作用域内执行这个赋值语句
        exec(code,scope)
        return ''

# 获取所有文本并合并成一个字符串
lines=[]
for line in fileinput.input():
    lines.append(line)
text=''.join(lines)
print(field_pat.sub(replacement,text))

FileNotFoundError: [Errno 2] No such file or directory: '--ip=127.0.0.1'

### 10.3.9 其他标准模块

-   argparse：用于解析命令行的参数
-   cmd：编写类似于 Python 交互式解释器的命令行解释器
-   csv：CSV 指的是逗号分隔的值(comma-seperated values)，模块能够轻松地读写 CSV 文件
-   datetime：支持特殊的日期和时间对象，并且让你能够以各种方式创建和合并这些对象
-   difflib：确定两个序列的相似程度
-   enum：枚举类型，是一种只有少数几个可能取值的类型
-   functools：能够在调用函数时只提供部分参数
-   hashlib：计算字符串的小型「签名」(哈希值)
-   itertools：用于创建和合并迭代器(或者其他可以迭代的对象)的工具，包括：串接可迭代是，创建返回无限连续整数的迭代器，反复遍历可迭代对象
-   logging：将信息写入到日志文件 ，可以管理一个或者多个中央日志，支持多种不同优先级的日志消息
-   statistics：进行统计计算
-   timeit：测量代码段执行时间的工具
-   profile：对代码段的效率进行更全面的分析
-   trace：覆盖率分析，用于编写测试代码

## 10.4 小结

-   模块：是一个子程序，用于定义函数、类和变量
-   包：包含其他模块的模块，包是使用包含文件 `__init__.py` 的目录实现的
-   探索模块：在交互式解释器中导入模块后，就可以众多不同的方式对其进行探索，其中包括使用 `dir`、查看变量 `__all__` 以及使用函数 `help`
-   标准库：Python 自带的模块
    -   sys：能够访问多个与 Python 解释器关系紧密的变量和函数
    -   os：能够访问多个与 OS 关系紧密的变量和函数
    -   fileinput：能够迭代多个文件或者流的内容行
    -   sets, heapq, deque：提供了三种数据结构
    -   time：获取当前时间、操作时间和日期以及设置它们的格式
    -   random：：用于生成随机数，从序列中随机地选择元素，以及打乱列表中元素的函数
    -   shelve：用于创建永久性映射，内容存储在使用给定文件名的数据库中
    -   re：支持正则表达式