# 第14章 文件

本章介绍程序将数据保存在永久存储中的"持久化"概念，同时展示如何使用不同类型的永久存储，比如文件和数据库。

**14.2 读和写**

若要写入文件，需要在打开文件时，用模式'w'作为第二个参数：

fout = open('output.txt', 'w')

如果文件已存在，采用写入模式打开文件会清除原有内容，重新写入，所以要格外谨慎！如果文件不存在，则会新建一个。

open函数会返回一个文件对象，此对象提供了各种操作文件的方法。write方法可以将数据写入文件，返回值是已写入的字符数量。文件对象还会跟踪记录位置，当你再次调用write函数的时候，就在后面追加。操作完文件，需要调用close关闭文件。如果没有关闭文件，程序结束时，也会自动关闭它。

**14.3 格式运算符**

write的参数是字符串，要是向文件里写入其他类型，需要先转换成字符串。可以调用str()方法，比如str(1)

In [15]:
# 14.4 文件名和路径
# os模块（即 "operating system"）提供了操作文件和目录的函数。os.getcwd会返回当前目录的名称：

import os

# cwd 意为 "current working directory"，即“当前工作目录”.
cwd = os.getcwd()
cwd

# 以 / 开头的路径，不依赖当前目录，叫做绝对路径。要找到一个文件的绝对路径，可以使用 os.path.abspath
os.path.abspath('memo.txt')

# os.path 提供了处理文件名和路径的其他一些方法。比如，os.path.exists 会检查文件或目录是否存在：
os.path.exists('emma.txt')

# 如果存在，os.path.isdir 可以用来检查其是否是一个目录：
os.path.isdir('memo.txt')

True

In [None]:
# walks 函数会遍历一个目录，输出所有文件的名称，同时递归遍历自己所有目录

def walk(dirname):
    for name in os.listdir(dirname):
        path = os.path.join(dirname, name)
        
        if os.path.isfile(path):
            print(path)
        else:
            walk(path)

walk('.')

In [21]:
# 14.5 捕获异常

# 当你读写文件时，很多意外会发生。如果尝试打开一个不存在的文件，通常会得到 FileNotFoundError:
# fin = open('bad_file')
# FileNotFoundError: [Errno 2] No such file or directory: 'bad_file'

# 如果你没有权限访问文件，也会异常：
# fout = open('/etc/passwd', 'w')
# PermissionError: [Errno 1] Operation not permitted: '/etc/passwd'

# 如果你尝试打开一个目录，读取内容，会得到下面异常：
# fin = open('/home')
# PermissionError: [Errno 1] Operation not permitted: '/home'

# 想要避免这些错误，你可以使用 os.path.exists 和 os.path.isfile 这样的函数，
# 但是会耗费大量时间，编写大量代码来检验各种可能（如果说“Error 21” 代表什么的话，那便是至少有21个异常会发生）。

# 所以更好的做法是尽早尝试，尽快应对可能的异常，而这恰恰是 try 语句的作用。其语法和 if...else 语句很相似：
try:
    fin = open('bad_file')
except:
    print('Something went wrong.')


Something went wrong.


In [None]:
# 14.6 数据库
import dbm

db = dbm.open('captions', 'c')
db['cleese.png'] = 'phone of John Cleese.'
db['cleese.png']

# 结果是一个字节对象，所以会用 b 开头。字节对象和字符串在很多地方很相似。随着你对 Python 的理解不断深入，
# 这种差异便需要引起重视，但是目前为止，可以暂时忽略这些差异。

db['cleese.png'] = 'Phone of John Cleese doing a silly walk.'
db['cleese.png']

# 字典的某些方法可能并不适用于数据库对象。但是可以用for循环对其进行迭代，遍历对象：
for key in db:
    print(key, db[key])
    
# 和操作其它文件一样，用完之后，需要关闭数据库：
db.close()

In [30]:
# 14.9 编写模块

# 任何包含Python代码的文件，都可以作为模块导入使用。

import wc
# 现在我有一个模块 wc 了，同时模块提供了 linecount 函数：
wc.linecount('wc.py')



5

In [None]:
# 14.10 调试

# 当读写文件时，可能会遇到一些空白导致的问题。这些问题很难被发现，因为空格，制表符和换行符都是不可见的。

s = '1 2\t 3\n 4'
print(s)
# 1 2 3 4
# 这时便用到了内置函数 repr . 这个函数可以接收任何对象作为参数, 返回对象的字符串表
# 示. 对于字符串来说, 它会将空白字符输出为反斜杠序列:
print(repr(s))
'1 2\t 3\n 4'
# 这个对于调试来说, 非常有用

In [35]:
# 14.12 习题集

# 1. 编写一个名为 sed 的函数，接受一个模式字符串，一个替换字符串，以及两个文件名；这个函数需要读取第一个文件，
# 然后将内容写入第二个文件（如果没有，需要创建）如果文件中出现模式字符串，则用替换字符串进行替换。

def sed(pattern, replace, source, dest):
    fin = open(source, 'r')
    fout = open(dest, 'w')
    
    for line in fin:
        line.replace(pattern, replace)
        fout.write(line)

def main():
    pattern = 'pattern'
    replace = 'replace'
    source = 'memo.txt'
    dest = source + '.replaced'
    sed(pattern, replace, source, dest)


if __name__ == '__main__':
    main()

In [None]:
# 查找重复歌曲
