本章介绍"持久"程序的概念，它们将数据存储到持久存储中。另外，本章还会介绍不同种类的持久存储，如文件和数据库。

## 持久化

之前我们见过的程序都是瞬态的，因为它们会在短暂的时间里运行一些输出，但当运行结束时，它们的数据会消失。如果再次运行程序，它会再次全新地开始。

也有些程序是**持久化**的: 它们会运行很长一段时间(或者一直运行); 它们会至少存储一部分数据到永久存储(比如硬盘)中; 如果它们被关闭重启后，会接着从上次离开的状态继续。例如操作系统，就是持久化程序的例子。

读写文本文件是程序维护数据最简单的方法之一。我们已经见过读取文本文件的程序，在本章中还会见到往文件写入的程序。

程序维护数据的另一个方法是将程序的状态保存到数据库中。本章会介绍一个简单的数据库，以及一个模块，`pickle`，用来简化程序数据的存储。

## 读和写

文本文件是存储在诸如硬盘,闪存或光盘的永久媒介上的字符串序列。

要写入一个文件，需要使用 `'w'` 模式作为第二个实参来打开它:

In [1]:
fout = open('output.txt','w')

如果文件已经存在，则使用写模式打开时会清除掉旧数据并重新开始。如果文件不存在，则会新建一个。

`open` 函数返回一个文件对象，提供操作文件的方法。其中 `write` 方法把数据写入到文件中。

In [3]:
line1 = "This here's the wattle,\n"
fout.write(line1)

24

返回值是写入的字符数目。**文件对象会记录写到了哪里**，所以如果再次调用 `write`，它会在文件的结尾处添加新的数据。

In [4]:
line2 = "the emblem of our land.\n"
fout.write(line2)

24

当写入完毕时，应该关闭文件。

In [5]:
fout.close()

如果不关闭文件，程序会在执行结束时将文件关闭。

## 格式操作符

`write` 的参数必须是字符串，所以若想往文件中写入其他类型的值，必须先将它们转换为字符串。最容易的方法是使用 `str`:

In [7]:
fout = open('output.txt','w')
x = 52
fout.write(str(x))

2

另一个办法是使用 **格式操作符** `%`。当用于整数时，`%` 是求余操作符。但若第一个操作对象是字符串时，`%` 则是格式操作符。

In [2]:
camels = 42
'%d'%camels

'42'

In [3]:
s = 'I have spotted %d camels'%camels
print(s)

I have spotted 42 camels


如上所示，`%` 接收两个操作对象，其中第一个操作对象是**格式字符串**，包括一个或多个**格式序列**，并由它们来制定第二个操作对象如何格式化。表达式的结果是一个字符串。

上面的代码中，格式序列 `'d'` 意味着第二个操作数应该被格式化为**十进制整数**。并且格式序列可以出现在字符串的任意地方，所以可以在一个句子中嵌入变量值，如上所示。

如果字符串中有多于一个格式序列，第二个操作对象就必须是元组。每个格式序列按顺序对应元组中的一个元素。

下面的例子使用 `%d` 格式化整数，`%g` 格式化浮点数，`%s` 格式化字符串:

In [17]:
'In %d years I have spotted %g %s'%(3,0.1,'camels')

'In 3 years I have spotted 0.1 camels'

元素中元素的个数必须和字符串中格式序列的个数一致。另外，元素的类型也要和格式序列一致:

In [13]:
'%d %d %d'%(1,2)

TypeError: not enough arguments for format string

上面的例子中，元组中元素个数不够。

In [14]:
'%d'%'dollars'

TypeError: %d format: a number is required, not str

上面的例子中，元素的类型不对。

给出一些常用格式操作符的作用:

| 格式操作符 | 意义 |
|:----- | :---|
|`'d'`,`'i'`| 有符号十进制整数
|`'o'`	| 有符号八进制整数
|`'f'`,`'F'`| 浮点数
|`'g'`,`'G'`| 浮点格式,在保证六位有效数字的前提下,使用小数方式,否则使用科学计数法
|`'c'`| 单个字符
|`'s'`| 字符串 (采用str()的显示)


## 文件名和路径

文件组织在**目录**(也称为文件夹)中，每个程序都有"当前目录"，它是大多数操作的默认目录。例如，当打开一个文件用于读取时，Python 默认在当前目录中寻找它。

`os` 模块提供了用于操作文件和目录的函数(`os` 代表 operating system，即操作系统)。`os.getcwd` 返回当前目录的名称:

In [6]:
import os
cwd = os.getcwd()
cwd

'/home/wangdong/wangd/工作/助教/计算机程序设计/thinkpython/courseware'

`cwd` 表示 current working directory，即当前工作目录。

类似于上面输出的用来定位一个文件或目录的字符串被称为一个**路径(path)**。

不过一个简单的文件名，如 `words.txt`，也被认为是一个路径，但它是一个相对路径，因为它依赖于当前目录。如果当前目录是`/home/username`，则文件名 `words.txt` 指的是 `/home/username/words.txt`。

而以 `/` 开头的路径则不依赖于当前目录，所以被称为**绝对路径(absolute path)**。可以使用 `os.path.abspath` 来寻找文件的绝对路径:

In [7]:
os.path.abspath('words.txt')

'/home/wangdong/wangd/工作/助教/计算机程序设计/thinkpython/courseware/words.txt'

`os.path` 还提供了其他函数来操作文件名和路径。例如，`os.path.exists` 检查一个文件或目录是否存在:

In [8]:
os.path.exists('words.txt')

True

如果它存在，`os.path.isdir` 可以检验它是否为目录:

In [9]:
os.path.isdir('words.txt')

False

In [10]:
os.path.isdir('/home/wangdong/opt')

True

类似地，`os.path.isfile`检查它是否为文件。

`os.listdir` 返回指定目录中文件(以及其他目录)的列表:

In [11]:
os.listdir(cwd)

['第二章-变量、表达式和语句.ipynb',
 '0.1-Python编程环境搭建.ipynb',
 '第一章-程序之道.ipynb',
 '__pycache__',
 'structshape.py',
 '.gitkeep',
 '第四章-案例研究：接口设计.ipynb',
 '第十章-列表.ipynb',
 '第五章-条件和递归.ipynb',
 '第七章-迭代.ipynb',
 '第三章 函数.ipynb',
 '未命名.ipynb',
 '第六章-有返回值的函数.ipynb',
 'figures',
 '第十四章-文件.ipynb',
 'DIKW_1.png',
 '十一章-字典.ipynb',
 'Untitled.ipynb',
 'shell.png',
 '第十二章-元组.ipynb',
 'Data_Science_VD.png',
 '.ipynb_checkpoints',
 'structshap.py',
 'chapter-4-code',
 'dengpao.svg',
 '0.2-IPython Shell 基础.ipynb',
 'words.txt',
 '第八章-字符串.ipynb',
 '0.0-Python程序设计简介.ipynb',
 'mypolygon.py',
 'computer.pdf',
 '0.3-Jupyter Notebook 基础.ipynb',
 'output.txt',
 'Von_Neumann_Architecture.png',
 '第九章-案例分析文字游戏.ipynb',
 'DIKW_0.png']

为了演示这些函数，下面的例子走遍一个目录，打印所有文件的名称，并对之中的子目录递归调用自己。

In [12]:
def walk(dirname):
    for name in os.listdir(dirname):
        path = os.path.join(dirname, name)
        
        if os.path.isfile(path):
            print(path)
        else:
            walk(path)

In [14]:
#walk(cwd)

`os.path.join` 接收一个目录和一个文件名称，并将它们拼接为一个完整的路径。

`os` 模块提供了一个函数 `walk`，和上面的例子作用类似，但功能更丰富。

## 捕获异常

当常数读取和写入文件时，很多东西都可能出错。如果尝试打开一个不存在的文件，会得到一个错误:

In [16]:
fin = open('bad_file')

FileNotFoundError: [Errno 2] No such file or directory: 'bad_file'

如果没有权限访问一个文件，会得到一个 `PermissionError`:

In [17]:
fout = open('/etc/passwd','w')

PermissionError: [Errno 13] Permission denied: '/etc/passwd'

如果尝试打开一个目录用于文件读取，会得到一个 `IsADirectoryError`:

In [18]:
fin = open('/home')

IsADirectoryError: [Errno 21] Is a directory: '/home'

要避免这些错误，可以使用类似 `os.path.exists` 和 `os.path.isfile` 的函数，但要检查所有的可能需要花费大量时间和代码("Errno21" 这个名字，说明至少有 21 种可能出错的地方)。

我们可以使用 `try` 语句，来处理可能出现的错误，其语法和 `if...else` 语句类似:

In [19]:
try:
    fin = open('bad_file')
except:
    print('Something went wrong')

Something went wrong


Python 会先从 `try` 子句开始，如果一切顺利，则跳过 `except` 语句并继续执行。如果发生了异常，则跳出 `try` 子句，并运行 `except` 子句。

使用 `try` 语句处理异常的过程称为 **捕获** 一个异常。

## 数据库

**数据库** 是一个有组织的用于存储数据的文件。许多数据库都像字典一样组织数据，因为它们也将键映射到值上。数据库和字典之间最大的区别是数据库是保存在磁盘上(或者其他永久存储上)，所以当程序结束它也能持续存在。

模块 `dbm` 提供了接口用于创建和更新数据库文件。作为示例，我们创建一个数据库保存图片文件的标题。

打开一个数据库和打开其他类型的文件差不多:

In [4]:
import dbm
db = dbm.open('captions','c')

模式 `'c'` 表示如果数据库不存在，则创建该数据库。调用的结果是一个数据库对象，对大多数操作来说，都可以当做字典来用。

当创建一个新项时，`dbm` 会更新数据库文件。

In [5]:
db['cleese.png'] = 'Photo of John Cleese'

当访问数据库的一项时，`dbm` 会读取文件:

In [30]:
db['cleese.png']

b'Photo of John Cleese'

这里的结果是一个**字节组对象(bytes object)**，因此以 `b` 开头。字节组对象和字符串很类似。当更深入研究 Python 时，它们的区别可能会很重要，但目前可以忽略。

如果对一个已经存在的键赋值，`dbm` 会替换旧值:

In [31]:
db['cleese.png'] = 'Photo of John Cleese doing a silly walk'
db['cleese.png']

b'Photo of John Cleese doing a silly walk'

一些字典方法，如 `items`，对数据库对象是不可以使用的。不过数据库对象也存在`keys`方法，我们可以使用 `for` 循环来迭代遍历:

In [41]:
for key in db.keys():
    print(key,db[key])
# 报错！gdbm.gbdm不是迭代类型

b'cleese.png' b'Photo of John Cleese doing a silly walk'


和其他文件一样，当操作结束时，需要关闭数据库。

## 封存

`dbm` 的限制之一是键和值都必须是字符串或字节。如果尝试使用其他类型，则会出现错误。

`pickle` 模块可以帮忙。它可以将几乎所有类型的对象转换为适合保存到数据库的字符串形式，并可以将字符串转换回来成为对象。

`pickle.dumps` 接收一个对象作为参数，并返回它的字符串表达形式(`dumps` 是"dump string"的简写，意即转储字符串):

In [42]:
import pickle
t = [1,2,3]
pickle.dumps(t)

b'\x80\x04\x95\x0b\x00\x00\x00\x00\x00\x00\x00]\x94(K\x01K\x02K\x03e.'

这个格式不适合人眼阅读; 它是为了方便 `pickle` 模块的转换而设计的。`pickle.loads`(load string,即加载字符串)重新构造对象:

In [44]:
t1 = [1,2,3]
s = pickle.dumps(t1)
t2 = pickle.loads(s)
t2

[1, 2, 3]

虽然新的对象和旧有对象的值相同，但(通常来说)它们不是同一个对象:

In [45]:
t1 == t2

True

In [46]:
t1 is t2

False

也就是说，封存再解封，和复制对象效果相同。

可以使用 `pickle` 向数据库存储非字符串的值。事实上，这个组合十分常用，因此 Python 已经将它们封装起来成为一个模块，叫作 `shelve`。

## 管道

大部分操作系统都提供了命令行接口，也称为**字符界面(shell)**。字符界面通常会提供命令来浏览文件系统和启动应用程序。例如，在 Unix 中，可以使用 `cd` 来更换目录，使用 `ls` 来展示目录中的内容，以及打入 `firefox` 来启动浏览器。

任何在字符界面中能启动的程序都可以在 Python 中使用 **管道对象(pipe object)** 来启动。管道对象代表一个正在运行的程序。

例如，Unix 命令 `ls -l` 以长格式展示当前目录的内容。可以使用 `os.popen` 来启动 `ls`:

In [7]:
import os
cmd = 'ls -l'
fp = os.popen(cmd)

参数是一个字符串，它包含一个 shell 命令。返回值是一个和打开的文件差不多的对象。可以使用 `readline` 来逐行读取 `ls` 进程的输出，或者使用 `read` 一次读取所有输出:

In [8]:
res = fp.read()
print(res)

total 2312
-rw-rw-r-- 1 why why    8558 9月  22 15:06 0.0-Python程序设计简介.ipynb
-rw-rw-r-- 1 why why    6768 9月  23 15:46 0.1-Python编程环境搭建.ipynb
-rw-rw-r-- 1 why why    5990 9月  22 15:06 0.2-IPython Shell 基础.ipynb
-rw-rw-r-- 1 why why   10174 9月  22 15:06 0.3-Jupyter Notebook 基础.ipynb
-rw-rw-r-- 1 why why   16384 12月  8 15:14 captions
drwxrwxr-x 2 why why    4096 10月 27 09:45 chapter-4-code
-rw-rw-r-- 1 why why  664120 9月  16 15:35 computer.pdf
-rw-rw-r-- 1 why why   76684 9月  15 15:33 Data_Science_VD.png
-rw-rw-r-- 1 why why    9904 9月  15 15:33 dengpao.svg
-rw-rw-r-- 1 why why   13074 9月  15 15:33 DIKW_0.png
-rw-rw-r-- 1 why why   67013 9月  15 15:33 DIKW_1.png
drwxrwxr-x 2 why why    4096 12月  8 15:05 figures
-rw-rw-r-- 1 why why     230 10月 14 15:20 mypolygon.py
-rw-rw-r-- 1 why why       0 12月  8 15:05 output.txt
-rw-rw-r-- 1 why why   26965 9月  15 15:33 shell.png
-rw-rw-r-- 1 why why    2910 12月  2 14:51 structshape.py
-rw-rw-r-- 1 why why    2910 12月  8 15:05 structshap.py
-rw-rw-r--

当完成后，可以像文件一样关闭这个管道:

In [9]:
stat = fp.close()
print(stat)

None


返回值是 `ls` 进程的最终状态; `None` 代表它正常结束了。

例如，大部分 Unix 系统都提供了一个叫做 `md5sum` 的命令，它读取文件的内容并计算出一个"校验和"(checksum)。这个命令提供了一个高效的方法，用来比较两个文件是否包含相同的内容。不同的内容生成相同的校验和的概率极低。

可以在 Python 中使用管道来运行 `md5sum`，并获得结果:

In [61]:
filename = 'words.txt'
cmd = 'md5sum ' + filename
fp = os.popen(cmd)
res = fp.read()
stat = fp.close()
print(res)

46bb898fad6e5f8f13527a609677ac39  words.txt



In [62]:
print(stat)

None


## 编写模块

任何包含 Python 代码的文件都可以作为模块导入。例如，如果你有一个文件 `wc.py`，其代码如下:

```python
def linecount(filename):
    count = 0
    for line in open(filename):
        count +=1
    return count

print(linecount('wc.py'))
```

如果运行该程序，它会读取自身的内容，并打印处文件的行数，即 7。我们也可以导入它:

In [65]:
import wc

7


在这里，`wc` 是一个模块对象:

In [66]:
wc

<module 'wc' from '/home/wangdong/wangd/工作/助教/计算机程序设计/thinkpython/courseware/wc.py'>

该模块对象提供了 `linecount`:

In [67]:
wc.linecount('wc.py')

7

上述就是在 Python 中编写模块的方法。

这个例子唯一的问题是当你导入模块时，它会运行底部的测试代码。正常情况下，当你导入一个模块时，它会定义新的函数，但不会运行。

作为模块导入的程序，通常使用如下模式:

In [68]:
if __name__ == '__main__':
    print(linecount('wc.py'))

7


`__name__` 是一个内置变量，当程序启动时就会被设置。如果程序作为脚本执行，`__name__` 的值是 `'__main__'`; 此时，测试代码会被运行。否则，如果程序作为模块被导入，则测试代码会被跳过。

## 调试

当读取和写入文件时，可能会遇到和空白字符相关的问题。这些问题可能会很难调试，因为空格,制表符和换行符通常都是不可见的:

In [71]:
s = '1 2\t 3\n 4'
print(s)

1 2	 3
 4


内置函数 `repr` 可以帮忙。它接收任何对象作为参数，并返回对象的字符串表达形式。对于字符串来说，它使用反斜杠序列来展示空白字符:

In [72]:
print(repr(s))

'1 2\t 3\n 4'


这样可以帮助调试。

另一个可能遇到的问题是不同的系统使用不同的字符表示换行。有的系统使用一个换行符，即 `\n`。另外的系统使用一个回车符，即 `\r`。也有的系统两者都使用。如果在不同的系统间移动文件，这些不一致之处可能会导致问题。