## 1. 读写文本数据

In [1]:
# 带有rt模式的open()函数读取文本文件。
# Read the entire file as a single string
with open('somefile.txt','rt') as f:
    data = f.read()
    


In [2]:
# Iterate over the lines of the file
with open('somefile.txt','rt') as f:
    for line in f:
        # process line
        pass

In [3]:
# 类似的，为了写入一个文本文件，使用带有wt模式的open（）函数，如果之前文件内容存在则
# 清除并覆盖掉。
# Write chunks of text data

```
with open('somefile.txt','wt') as f:
    f.write(text1)
    f.write(text2)
    
```

>> 如果是在已存在文件中添加内容，使用模式为at的open()函数

文件的读写操作默认使用系统编码，可以通过调用sys.getdefaultenconding()来得到。在大多数机器上面都是utf-8编码。如果你已经知道要读写的文本是其它编码方式，可以通过传递一个可选的参数encoding给open()函数；

```
with open('somefile.txt','rt',encoding='utf-8') as f:
    ...
```

## 2. 打印输出至文件中

在print（）函数中指定file关键字参数，就像下面这样：

```

with open('d:/work/test.txt','wt') as f:
    print('Hello,world',file=f)
    
```


## 3. 使用其它分隔符或行终止符打印

In [4]:
# 在print()函数中使用sep和end关键字参数，可以得到你想要的结果。
print("ACME",50,91.5)
print("ACME",50,91.5,sep=',')
print("ACME",50,91.5,sep=',',end='!!\n')

ACME 50 91.5
ACME,50,91.5
ACME,50,91.5!!


In [5]:
# 使用end参数也可以在输出中禁止换行。
for i in range(5):
    print(i)

0
1
2
3
4


In [6]:
for i in range(5):
    print(i,end= ' ')

0 1 2 3 4 

In [7]:
# 有时候你会看到程序员使用str.join()来完成同样的事情。
print(','.join(('ACME','50','91.5')))

ACME,50,91.5


>> str.join()的问题在于它仅仅使用与字符串。这意味着你通常需要执行另外一些转换才能让它正常工作。

In [8]:
row = ("ACME",50,91.5)

In [9]:
print(','.join(row))

TypeError: sequence item 1: expected str instance, int found

In [None]:
print(','.join(str(x) for x in row))

In [None]:
# 当然你也可以不用那么麻烦，只需要像下面这样
print(*row,sep=',')

## 4. 读写字节数据

使用模式为rb或wb的open（）函数来读取或写入二进制数据。比如：

```

# read the entire file as a single byte string
with open('somefile.bin','rb') as f:
    data = f.read()
    
    
# Write binary data to a file
with open('somefile.bin','wb') as f:
    f.write(b'Hello,world')

```

>> 在读取二进制数据时，需要指明的是所有返回的数据都是字节字符串格式的，而不是文本字符串。 类似的，在写入的时候，必须保证参数是以字节形式对外暴露数据的对象(比如字节字符串，字节数组对象等)。

In [None]:
# Text string
t = 'Hello World'

In [None]:
t[0]

In [None]:
for c in t:
    print(c)

In [None]:
# Byte string
b = b'Hello world'

In [None]:
b[0]

In [None]:
for c in b:
    print(c)

如果你想从二进制模式的文件中读取或写入文本数据，必须确保要进行解码和编码操作。比如：

```

with open('somefile.bin', 'rb') as f:
    data = f.read(16)
    text = data.decode('utf-8')

with open('somefile.bin', 'wb') as f:
    text = 'Hello World'
    f.write(text.encode('utf-8'))


```


In [None]:
# 二进制I/O还有一个鲜为人知的特性就是数组和C结构体类型能直接写入，二不需要中间转换为
# 自己的对象

import array 

a = array.array('i',[0,0,0,0,0,0,0,0])

with open('data.bin','rb') as f:
    f.readinto(a)

In [None]:
a

## 5. 文件不存在才能写入

In [None]:
# 可以在open（）函数中使用x模式来代替w模式的方法来解决这个问题。
with open('somefile.txt','wt') as f:
    f.write('Hello\n')

In [None]:
with open('somefile.txt','xt') as f:
    f.write('Hello\n')

>> 如果是二进制文件则使用xb代替xt

这一小节演示了在写文件时通常会遇到的一个问题的完美解决方案(不小心覆盖一个已存在的文件)。 一个替代方案是先测试这个文件是否存在，像下面这样：

In [None]:
import os

if not os.path.exists('somefile'):
    with open('somefile','wt') as f:
        f.write('Hello\n')
else:
    print('File already exists!')

>> 显而易见，使用x文件模式更加简单。要注意的是x模式是一个**Python3**对 open() 函数特有的扩展。 在Python的旧版本或者是Python实现的底层C函数库中都是没有这个模式的。



## 6. 字符串的I/0操作

In [None]:
# 使用io.stringIO()和io.BytesIO()类来创建文件对象操作字符串数据
import io
from io import StringIO

s = io.StringIO()
s.write('Hello World\n')

In [None]:
print('This is a test',file=s)

In [None]:
# Get all of the data written so far
s.getvalue()

In [None]:
# Wrap a file interface around an existing string
s = io.StringIO('Hello\nWorld\n')

In [None]:
s.read(4)

In [None]:
s.read()

>> io.StringIO 只能用于文本。如果你要操作二进制数据，要使用 io.BytesIO 类来代替。比如：

In [None]:
s = io.BytesIO()
s.write(b'binary data')
s.getvalue()

## 7. 读写压缩文件

In [None]:
# gzip和bz2模块可以很容易的处理这些文件。两个模块都为open()函数提供了另外的实现来解决
# 这个问题。比如，为了以文本形式读取压缩文件，可以这样做：
# gzip compression
import gzip

with gzip.open('somefile.gz','rt') as f:
    text = f.read

In [None]:
# bz2 compression
import bz2

with open('somefile.bz2','rt') as f:
    text = f.read()

## 8. 固定大小记录的文件迭代

通过下面这个小技巧使用iter和functions.partial()函数

```
from functools import partial

RECORD_SIZE = 32

with open('somefile.data','wb') as f:
    records = iter(partial(f.read, RECORD_SIZE), b'')
    for r in records:
        pass
```

## 9. 读取二进制数据到可变缓冲区中

In [None]:
# 为了读取数据到一个可变数组中，使用文件对象的readinto()方法。
import os.path

def read_into_buffer(filename):
    buf = bytearray(os.path.getsize(filename))
    with open(filename,'rb') as f:
        f.readinto(buf)
    return buf

In [None]:
# 下面是一个演示这个函数使用方法的例子
# Write a sample file
with open('sample.bin','wb') as f:
    f.write(b'Hello World')

In [None]:
buf = read_into_buffer('sample.bin')
buf

## 10. 内存映射的二进制文件

In [10]:
# mmap模块来内存映射文件。下面是一个工具函数
import os 
import mmap

def memory_map(filename,access=mmap.ACCESS_WRITE):
    size = os.path.getsize(filename)
    fd =os.open(filename,os.O_RDWR)
    return mmap.mmap(fd,size,access=access)

In [11]:
# 为了使用这个函数，你需要有一个已创建并且不为空的文件。
size = 1000000

with open('somefile.txt','wb') as f:
    f.seek(size-1)
    f.write(b'\x00')

In [12]:
m = memory_map('somefile.txt')
len(m)

1000000

In [13]:
m[:10]

b'\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00'

In [14]:
m[0]

0

In [15]:
# Reassign a slice
m[0:11] = b'Hello World'

In [16]:
m.close()

In [17]:
# Verify that changes were made
with open('somefile.txt','rb') as f:
    print(f.read(11))

b'Hello World'


>> 默认情况下， memeory_map() 函数打开的文件同时支持读和写操作。 任何的修改内容都会复制回原来的文件中。

需要强调的一点是，内存映射一个文件并不会导致整个文件被读取到内存中。 也就是说，文件并没有被复制到内存缓存或数组中。相反，操作系统仅仅为文件内容保留了一段虚拟内存。 当你访问文件的不同区域时，这些区域的内容才根据需要被读取并映射到内存区域中。 而那些从没被访问到的部分还是留在磁盘上。所有这些过程是透明的，在幕后完成！

## 11. 文件路径名的操作

In [18]:
# 使用os.path模块中的函数来操作路径名。
import os
path = '/Users/lidianxiang/Desktop/PythonCookbook/somefile.txt'

In [19]:
# get the last component of the path
os.path.basename(path)

'somefile.txt'

In [20]:
# Get the directory name
os.path.dirname(path)

'/Users/lidianxiang/Desktop/PythonCookbook'

In [21]:
# Join path component together
os.path.join('tmp','somefile',os.path.basename(path))

'tmp/somefile/somefile.txt'

In [22]:
# expand the user's home directory
path = '~/Date/somefile.txt'
os.path.expanduser(path)

'/Users/lidianxiang/Date/somefile.txt'

In [23]:
# split the file extension
os.path.splitext(path)

('~/Date/somefile', '.txt')

>> 对于任何的文件名的操作，你都应该使用 os.path 模块，而不是使用标准字符串操作来构造自己的代码。 特别是为了可移植性考虑的时候更应如此， 因为 os.path 模块知道Unix和Windows系统之间的差异并且能够可靠地处理类似 Data/data.csv 和 Data\data.csv 这样的文件名。 其次，你真的不应该浪费时间去重复造轮子。通常最好是直接使用已经为你准备好的功能。

## 12. 测试文件是否存在

In [24]:
# 使用os.path模块来测试一个文件或目录是否存在
import os

os.path.exists('/etc/passwd')

True

In [25]:
os.path.exists('/tmp/spam')

False

In [26]:
# 你还能进一步测试这个文件是什么类型的。在下面的这些测试中，如果测试的文件不存在的时候，
# 结果会返回False。

# Is a regular file
os.path.isfile('/etc/passwd')

True

In [27]:
# Is a directory
os.path.isdir('/etc/passwd')

False

In [28]:
# Is a symbolic link
os.path.islink('/usr/local/bin/python3')

False

In [29]:
# Get the file linked to
os.path.realpath('/usr/local/bin/python3')

'/usr/local/bin/python3'

In [30]:
# 如果你还想获取元数据（比如文件大小或者修改日期），也可以使用os.path模块来解决：
os.path.getsize('/etc/passwd')

6804

In [31]:
os.path.getmtime('/etc/passwd')

1534550029.0

In [32]:
import time

time.ctime(os.path.getmtime('/etc/passwd'))

'Sat Aug 18 07:53:49 2018'

## 13. 获取文件夹中的文件列表

In [33]:
# 使用os.listdir()函数来获取某个目录中的文件列表
import os
names = os.listdir('/Users/lidianxiang/Desktop/PythonCookbook/')
names

['第一章： 数据结构和算法.ipynb',
 '第三章：数字日期和时间.ipynb',
 'somefile.txt',
 'somedata',
 '第四章：迭代器与生成器.ipynb',
 'somefile.bz2',
 '第二章：字符串和文本.ipynb',
 'somefile',
 'somefile.data',
 'jalapeño.txt',
 '第五章：文件与IO.ipynb',
 '.ipynb_checkpoints',
 'somefile.gz',
 'data.bin',
 'sample.bin']

结果会返回目录中所有文件列表，包括所有文件，子目录，符号链接等等。如果你需要通过某种方式过滤数据，可以考虑结合os.path库中的一些函数来使用列表推导。

## 14. 忽略文件名编码

In [34]:
# 默认情况下，所有的文件名都会根据sys.getfilesystemencoding()返回文本编码来编码或解码
import sys
sys.getfilesystemencoding()

'utf-8'

In [35]:
# 如果你因为某种原因想忽略这种编码，可以使用一个原始字节字符串来指定一个文件名即可。
# write a file using a unicode filename
with open('jalape\xf1o.txt','w') as f:
    f.write('Spicy!')

In [36]:
# Directory listing (decode)
import os

os.listdir('.')

['第一章： 数据结构和算法.ipynb',
 '第三章：数字日期和时间.ipynb',
 'somefile.txt',
 'somedata',
 '第四章：迭代器与生成器.ipynb',
 'somefile.bz2',
 '第二章：字符串和文本.ipynb',
 'somefile',
 'somefile.data',
 'jalapeño.txt',
 '第五章：文件与IO.ipynb',
 '.ipynb_checkpoints',
 'somefile.gz',
 'data.bin',
 'sample.bin']

In [37]:
# open file with raw filename
with open(b'jalapen\xcc\x83o.txt') as f:
    print(f.read())

Spicy!


通常来讲，你不需要担心文件名的编码和解码，普通的文件名操作应该就没问题了。 但是，有些操作系统允许用户通过偶然或恶意方式去创建名字不符合默认编码的文件。 这些文件名可能会神秘地中断那些需要处理大量文件的Python程序。

## 15. 打印不合法的文件名

In [38]:
# 当打印未知的文件名时，使用下面的方法可以避免这样的错误
def bad_filename(filename):
    return repr(filename)[1:-1]
    try:
        print(filename)
    except UnicodeEncodeError:
        print(bad_filename(filename))

这一小节讨论的是在编写必须处理文件系统的程序时一个不太常见但又很棘手的问题。 默认情况下，Python假定所有文件名都已经根据 sys.getfilesystemencoding() 的值编码过了。 但是，有一些文件系统并没有强制要求这样做，因此允许创建文件名没有正确编码的文件。 这种情况不太常见，但是总会有些用户冒险这样做或者是无意之中这样做了( 可能是在一个有缺陷的代码中给 open() 函数传递了一个不合规范的文件名)。



当执行类似 os.listdir() 这样的函数时，这些不合规范的文件名就会让Python陷入困境。 一方面，它不能仅仅只是丢弃这些不合格的名字。而另一方面，它又不能将这些文件名转换为正确的文本字符串。 Python对这个问题的解决方案是从文件名中获取未解码的字节值比如 \xhh 并将它映射成Unicode字符 \udchh 表示的所谓的”代理编码”。 下面一个例子演示了当一个不合格目录列表中含有一个文件名为bäd.txt(使用Latin-1而不是UTF-8编码)时的样子：

In [39]:
import os

In [40]:
files = os.listdir('.')

In [41]:
files

['第一章： 数据结构和算法.ipynb',
 '第三章：数字日期和时间.ipynb',
 'somefile.txt',
 'somedata',
 '第四章：迭代器与生成器.ipynb',
 'somefile.bz2',
 '第二章：字符串和文本.ipynb',
 'somefile',
 'somefile.data',
 'jalapeño.txt',
 '第五章：文件与IO.ipynb',
 '.ipynb_checkpoints',
 'somefile.gz',
 'data.bin',
 'sample.bin']

In [42]:
for name in files:
    print(name)

第一章： 数据结构和算法.ipynb
第三章：数字日期和时间.ipynb
somefile.txt
somedata
第四章：迭代器与生成器.ipynb
somefile.bz2
第二章：字符串和文本.ipynb
somefile
somefile.data
jalapeño.txt
第五章：文件与IO.ipynb
.ipynb_checkpoints
somefile.gz
data.bin
sample.bin


## 16. 增加或改变已打开文件的编码

In [43]:
# 如果你想给一个二进制模式打开的文件添加Unicode编码/解码方式，可以使用io.TextIOWrapper()
# 对象包装它。
import urllib.request
import io

u = urllib.request.urlopen('http://www.python.org')
f = io.TextIOWrapper(u,encoding='utf-8')
text = f.read()

如果你想修改一个已经打开的文本模式的文件的编码方式，可以先使用 detach() 方法移除掉已存在的文本编码层， 并使用新的编码方式代替。下面是一个在 sys.stdout 上修改编码方式的例子：

In [44]:
import sys

In [45]:
sys.stdout.encoding

'UTF-8'

In [46]:
sys.stdout = io.TextIOWrapper(sys.stdout.detach(),encoding='latin-l')

UnsupportedOperation: detach

## 17. 将字节写入文本文件

In [47]:
# 将字节数据直接写入文件的缓存区即可
import sys
sys.stdout.write(b'Hello\n')

Hello


In [48]:
sys.stdout.buffer.write(b'Hello\n')

AttributeError: 'OutStream' object has no attribute 'buffer'

I/O系统以层级结构的形式构建而成。 文本文件是通过在一个拥有缓冲的二进制模式文件上增加一个Unicode编码/解码层来创建。 buffer 属性指向对应的底层文件。如果你直接访问它的话就会绕过文本编码/解码层。

## 18. 将文件描述符包装成文件对象

In [49]:
# Open a low-level file descriptor
import os
fd = os.open('somefile.txt', os.O_WRONLY | os.O_CREAT)

# Turn into a proper file
f = open(fd, 'wt')
f.write('hello world\n')
f.close()

需要重点强调的一点是，上面的例子仅仅是为了演示内置的 open() 函数的一个特性，并且也只适用于基于Unix的系统。 如果你想将一个类文件接口作用在一个套接字并希望你的代码可以跨平台，请使用套接字对象的 makefile() 方法。 但是如果不考虑可移植性的话，那上面的解决方案会比使用 makefile() 性能更好一点。

>> 尽管可以将一个已存在的文件描述符包装成一个正常的文件对象， 但是要注意的是并不是所有的文件模式都被支持，并且某些类型的文件描述符可能会有副作用 (特别是涉及到错误处理、文件结尾条件等等的时候)。 在不同的操作系统上这种行为也是不一样，特别的，上面的例子都不能在非Unix系统上运行。 我说了这么多，意思就是让你充分测试自己的实现代码，确保它能按照期望工作。

## 19. 创建临时文件和文件夹

In [50]:
# tempfile模块中有很多的函数可以完成这任务。
from tempfile import TemporaryFile

with TemporaryFile('w+t') as f:
    # Read/Write to the file
    f.write('Hello world\n')
    f.write('Testing\n')
    
    # seek back to begining andread the data
    f.seek(0)
    data = f.read()

TemporaryFile() 的第一个参数是文件模式，通常来讲文本模式使用 w+t ，二进制模式使用 w+b 。 这个模式同时支持读和写操作，在这里是很有用的，因为当你关闭文件去改变模式的时候，文件实际上已经不存在了。 TemporaryFile() 另外还支持跟内置的 open() 函数一样的参数。比如：

```
with TemporaryFile('w+t', encoding='utf-8', errors='ignore') as f:
    ...
```

In [51]:
# 创建一个临时目录，可以使用tempfile.TemporaryDirectory()
from tempfile import TemporaryDirectory

with TemporaryDirectory() as dirname:
    print('dirname is:',dirname)
    # Use the directory
    pass

dirname is: /var/folders/pw/f22wybpj5zd97xm6dpkl7_fh0000gn/T/tmp9dcfhgb9


TemporaryFile() 、NamedTemporaryFile() 和 TemporaryDirectory() 函数 应该是处理临时文件目录的最简单的方式了，因为它们会自动处理所有的创建和清理步骤。 在一个更低的级别，你可以使用 mkstemp() 和 mkdtemp() 来创建临时文件和目录。

In [52]:
import tempfile

In [53]:
tempfile.mkstemp()

(62, '/var/folders/pw/f22wybpj5zd97xm6dpkl7_fh0000gn/T/tmpmora24i1')

In [54]:
tempfile.mkdtemp()

'/var/folders/pw/f22wybpj5zd97xm6dpkl7_fh0000gn/T/tmpy2a3ph_f'

但是，这些函数并不会做进一步的管理了。 例如，函数 mkstemp() 仅仅就返回一个原始的OS文件描述符，你需要自己将它转换为一个真正的文件对象。 同样你还需要自己清理这些文件。

>> 最后还有一点，尽可能以最安全的方式使用 tempfile 模块来创建临时文件。 包括仅给当前用户授权访问以及在文件创建过程中采取措施避免竞态条件。 要注意的是不同的平台可能会不一样。因此你最好阅读 官方文档 来了解更多的细节。

## 20. 与串行端口的数据通信

尽管你可以通过使用Python内置的I/O模块来完成任务，到那时对于通信最好的选择是使用pySerial包。

```

import serial
ser = serial.Serial('/dev/tty.usbmodem641', # Device name varies
                    baudrate=9600,
                    bytesize=8,
                    parity='N',
                    stopbits=1)

```


>> 尽管表面上看起来很简单，其实串口通信有时候也是挺麻烦的。 推荐你使用第三方包如 pySerial 的一个原因是它提供了对高级特性的支持 (比如超时，控制流，缓冲区刷新，握手协议等等)。举个例子，如果你想启用 RTS-CTS 握手协议， 你只需要给 Serial() 传递一个 rtscts=True 的参数即可。 其官方文档非常完善，因此我在这里极力推荐这个包。

>>时刻记住所有涉及到串口的I/O都是二进制模式的。因此，确保你的代码使用的是字节而不是文本 (或有时候执行文本的编码/解码操作)。 另外当你需要创建二进制编码的指令或数据包的时候，struct 模块也是非常有用的。

## 21. 序列化Python对象

In [55]:
# 对于序列化最普通的做法就是使用pickle模块。
import pickle


data = [1,2,3,4]
f = open('somefile','wb')
pickle.dump(data,f)

In [56]:
s = pickle.dumps(data)

In [57]:
s

b'\x80\x03]q\x00(K\x01K\x02K\x03K\x04e.'

In [58]:
# Restore from a file
f = open('somefile','rb')
data2 = pickle.load(f)
data2

[1, 2, 3, 4]

In [59]:
# Restore from a string 
data3 = pickle.loads(s)
data3

[1, 2, 3, 4]

对于大多数应用程序来讲，dump() 和 load() 函数的使用就是你有效使用 pickle 模块所需的全部了。 它可适用于绝大部分Python数据类型和用户自定义类的对象实例。 如果你碰到某个库可以让你在数据库中保存/恢复Python对象或者是通过网络传输对象的话， 那么很有可能这个库的底层就使用了 pickle 模块

In [60]:
# pickle是一种Pyton特有的自描述的数据编码。通过自描述，被序列化后的数据包含每个对象
# 开始和结束以及它的类型信息。
import pickle

f = open('somedata','wb')
pickle.dump([1,2,3,4],f)

In [61]:
pickle.dump('hello',f)

In [62]:
pickle.dump({'Apple','Pear','Banana'},f)

In [63]:
f.close()

In [64]:
f = open('somedata','rb')

In [65]:
pickle.load(f)

[1, 2, 3, 4]

In [66]:
pickle.load(f)

'hello'

In [67]:
pickle.load(f)

{'Apple', 'Banana', 'Pear'}

pickle 对于大型的数据结构比如使用 array 或 numpy 模块创建的二进制数组效率并不是一个高效的编码方式。 如果你需要移动大量的数组数据，你最好是先在一个文件中将其保存为数组数据块或使用更高级的标准编码方式如HDF5 (需要第三方库的支持)。

由于 pickle 是Python特有的并且附着在源码上，所有如果需要长期存储数据的时候不应该选用它。 例如，如果源码变动了，你所有的存储数据可能会被破坏并且变得不可读取。 坦白来讲，对于在数据库和存档文件中存储数据时，你最好使用更加标准的数据编码格式如XML，CSV或JSON。 这些编码格式更标准，可以被不同的语言支持，并且也能很好的适应源码变更。

最后一点要注意的是 pickle 有大量的配置选项和一些棘手的问题。 对于最常见的使用场景，你不需要去担心这个，但是如果你要在一个重要的程序中使用pickle去做序列化的话， 最好去查阅一下 官方文档 。