# 第五章：文件与IO

## 5.1 读写文本数据 

问题：你需要读写各种编码的文本数据，例如，ASCII,UTF-8,UTF-16

解决方案：带有rt模式的open函数读取文本文件

In [2]:
#Read the entire file as single string
#类Unix平台的换行符是\n，而windows平台用的是\r\n两个ASCII字符来表示换行
#python内部采用的是\n来表示换行符。
#rt模式下，python在读取文本时会自动把\r\n转换成\n.
#wt模式下，Python写文件时会用\r\n来表示换行

with open('somefile.txt', 'rt') as f: # t是windows平台特有的text mode(文本模式）,区别在于会自动识别windows平台的换行符
    data = f.read()
    
with open('somefile.txt', 'rt') as f:
    for line in f:
        pass

In [4]:
#写了写入一个文本文件，使用带有wt模式的open函数，如果之前文件内容存在招则清除并覆盖掉

#write chunks of text data
with open('exp5.txt', 'wt') as f:
    f.write('liugang')
    f.write('19880623')

#Redirected print statement
with open('somefile.txt', 'wt') as f:
    print(line1, file=f) # line1\line2?
    print(line2, file=f)

NameError: name 'line1' is not defined

In [5]:
#如果是已存在文件中添加内容，使用模式为at的open函数
#文件的读写操作默认系统使用的编码，可以通过调用sys.getdefaultencoding来得到，在大多数机器上面都是utf-8
#如果你已经知道你要读写的文本是其他编码方式，那么传递一个encoding参数给open参数

with open('exp5.txt', 'rt', encoding='latin-1') as f:
    pass

In [6]:
import sys

sys.getdefaultencoding()

'utf-8'

python支持非常多的文本编码，几个常见的编码ascii，latin-1，utf-8，utf-16，在web程序中通常使用的是utf-8，ascii对应的U+0000到U+007F范围内的7位字符，latin-1是字节0-255到U+0000至U+00FF范围内Unicode字符的直接映射，当读取一个文件使用lation-1编码永远不会产生解码错误，使用latin-1编码读取一个文件的时候也许不能产生完全正确的文本解码数据，但是它也能从中读取很多有用的数据，同时，如果你将数据写回去，原先的数据还是会保留的

In [None]:
#默认情况下，python会以统一模式处理换行符
#在读取文本的时候，python可以识别所有的普通换行符并将其转换为单个\n字符
#类似的，在输出时，会将所有\n转换成系统默认的换行符
#如果你不希望以这种默认的处理方式，可以给open函数传入参数newline

with open('exp5.txt', 'rt', newline='') as f:
    pass

In [None]:
#在Unix上读取一个windows上面的文本文件
f = open('exp5.txt', 'rt')
f.read()
# type(f.read()) -> str

In [9]:
f = open('exp5.txt', 'rt', newline='')
f.read()
# hello world\r\n

'liugang19880623'

In [16]:
#读取/写入文件时，出现编码错误
#确认填写编码方式与文件编码一致，如果还存在
f = open('jalapeño.txt', 'rt', encoding='utf-16')
f.read()

UnicodeDecodeError: 'utf-16-le' codec can't decode byte 0x6f in position 32: truncated data

In [3]:
#Out: UnicodeDecodeError
#你可以给open函数传递一个可选的errors参数来处理这些错误，一些常见处理错误的方法 
f = open('jalapeño.txt', 'rt', encoding='utf-16', errors='replace')
f.read()

UnicodeError: UTF-16 stream does not start with BOM

In [4]:
f = open('jalapeño.txt', 'rt', encoding='utf-8', errors='ignore')
f.read()

f.close()

5.2 打印输出至文件中

问题：你想将print函数的输出到重定向到一个文件中

解决方案：print函数，指定file关键字参数

In [24]:
with open('somefile_relocation.txt', 'wt') as f:
    print('Hello World!', file=f) # hello world 输出 f对象里
    
#有一点需要注意，文件必须以文本模式打开，如果文件是二进制模式的话，打印就会出错

## 5.3 使用其他分隔符或行终止符打印

问题：你想使用print函数输出数据，但是想改变默认的分隔符或者行尾符

解决方案：print函数中使用sep和end关键字参数

In [8]:
print('ACME', 50, 91.5)
print(('ACME', 50, 91.5))
print('ACME', 50, 91.5, sep=',', end='!!\n') #行尾符
print('ACME', 50, 91.5, sep=',', end='') # 分隔符 ，
print('ACME', 50, 91.5, sep=',', end='!!\n') #行尾符

ACME 50 91.5
('ACME', 50, 91.5)
ACME,50,91.5!!
ACME,50,91.5ACME,50,91.5!!


In [27]:
#使用end=''参数也可以在输出中禁止换行
for i in range(5):
    print(i)
    
for i in range(5):
    print(i, end=' ')
    
for i in range(5):
    print(i, end='\n')

0
1
2
3
4
0 1 2 3 4 0
1
2
3
4


In [9]:
#当你想使用非空格分隔符来输出数据的时候，print函数传递一个sep参数是最简单的方案，有的时候str.join()来完成同样的事情
print(','.join('ACME', '50', '91.5'))

TypeError: join() takes exactly one argument (3 given)

In [12]:
row = ('ACME', '50', '91.5')
print(','.join(row))
print(','.join(str(x) for x in row))
print(','.join(['ACME', '50', '91']))
#更简便
print(*row, sep=',')

ACME,50,91.5
ACME,50,91.5
ACME,50,91
ACME,50,91.5


## 5.4 读写字节数据

问题：你想读写二进制文件，比如图片或者声音文件

解决方案：使用模式rb或者wb的open函数读取或者写入二进制数据

In [38]:
with open('somefile_relocation.txt', 'rb') as f: # 在读取二进制数据时，需要指明的是所有返回的数据都是以字节字符串格式的，而不是文本字符串
    data = f.read()
    
with open('somefile_relocation.txt', 'wb') as f:
    f.write(b'Hello World!') # 在写入的时候，必须保证参数是以字节形式对外暴露数据的对象，比如，字节字符串，字节数组对象

In [39]:
#在读取二进制数据的时候，字节字符串和文本字符串的语义差异可能会导致一个潜在的陷阱
#特别注意：索引和迭代动作返回的是字节的值而不是字节字符串，比如

#文本字符串
t = 'Hello World'
t[0]

'H'

In [40]:
for c in t:
    print(c)

H
e
l
l
o
 
W
o
r
l
d


In [41]:
#字节字符串
b = b'Hello World'
b[0]

72

In [42]:
for c in b:
    print(c)

72
101
108
108
111
32
87
111
114
108
100


In [47]:
#如果你想从二进制模式的文件中读取或者写入文本数据，必须确保解码和编码操作

with open('somebin.bin', 'rb') as f:
    data = f.read(16)
    text = data.decode('utf-8') # 读后解码
    
with open('somebin.bin', 'ab') as f:
    text = 'Hello World'
    f.write(text.encode('utf-8')) # 写前编码

In [48]:
import array

nums = array.array('i', [1, 2, 3, 5]) # i ->signed interger 2bytes
with open('data.bin', 'wb') as f: # 二进制I/O还有一个特性，数组和C结构体类型能直接被写入，而不需要中间转换自己对象
    f.write(nums)
    
#这个适用于任何实现了被称之为‘缓冲接口’的对象，这种对象会直接暴露其底层的内存缓冲区给能处理它的操作
#二进制数据的写入就是这样类操作之一

In [55]:
#很多对象还允许通过使用文件对象的readinto方法直接读取二进制数据到其底层的内存中去
#底层的内存?
#这么做有什么意义？好处？
import array

a = array.array('i', [0, 0, 0, 0, 0, 0, 0, 0])
with open('data.bin', 'rb') as f:
    f.readinto(a)
    
print(a) # ?
#使用这种技术的时候需要格外小心，因为他通常具有平台相关性，并且可能会依赖字长和字节顺序

array('i', [1, 2, 3, 5, 0, 0, 0, 0])


## 5.5 文件不存在才能写入

问题：你想向一个文件中写入数据，但是前提必须是这个文件在文件系统中不存在，也就是不允许覆盖已存在的文件内容

解决方案：可以在open函数使用x模式来代替w模式的方法来解决这个问题，比如

In [59]:
with open('somefile', 'wt') as f:
    f.write('Hello\n')

In [64]:
#如果文件时二进制的，使用xb来代替xt
#x文件模式是python3对open函数特有的扩展，旧版本没有这个模式

with open('somefile', 'xt') as f: # 
    f.writable('Hello \n')

FileExistsError: [Errno 17] File exists: 'somefile'

In [63]:
#如果出现不小心覆盖一个已存在的文件，一个替代方案是先测试这个文件是否存在

import os

if not os.path.exists('somefile'):
    with open('somefile', 'wt') as f:
        f.write('Hello\n')
else:
    print('File already exists!')

File already exists!


5.6 字符串的I/O操作

问题：你想使用操作类文件对象的程序来操作文本或二进制字符串

解决方案：io.StringIO和io.BytesIO类来创建文件对象操作字符串数据

In [67]:
import io # must import

s = io.StringIO() # 类文件对象
s.write('Hello World\n')

12

In [68]:
print('This is a test', file=s)

In [69]:
# Get all of the data written so fra
s.getvalue()

'Hello World\nThis is a test\n'

In [70]:
# Wrap a file interface around an existing string
s = io.StringIO('Hello\nWorld\n')
s.read(4)

'Hell'

In [71]:
s.read() # ！迭代器性质

'o\nWorld\n'

In [72]:
#io.StringIO只能用于文本，如果你要操作二进制数据，要使用io.BytesIO类来代替

s = io.BytesIO()
s.write(b'binary data')
s.getvalue()

b'binary data'

当你想模拟一个普通文件的时候，io.StringIo, io.BytesIO是非常有用的；比如，在单元测试中，你可以使用stringIO来创建一个
包含测试数据的类文件对象，这个对象可以被传给某个参数为普通文件对象的函数

stringIO BytesIO 实例并没有正确的整数类型的文件描述符，因此，他们不能在那些需要使用真实的系统级文件、管道或者套接字的程序中使用

5.7 读取压缩文件

问题：你想读取一个gzip or bz2格式的压缩文件

解决方案：gzip and bz2模块可以很容易的处理这些文件，两个模块都为open函数提供了另外的实现来解决这个问题

In [None]:
#所有I/O操作都使用文本模式并执行Unicode的编码和解码操作
#你想操作二进制数据，rb or wb 文件模式即可

import gzip, bz2

with gzip.open('somefile.gz', 'rt') as f:
    text = f.read()
    
with bz2.open('somefile.bz2', 'rt') as f:
    text = f.read()
    
# 类似的，为了写入压缩数据，可以这样做

with gzip.open('somefile.gz', 'wt') as f:
    f.write(text)
    
with bz2.open('somefile.bz2', 'rt') as f:
    f.write(text)

大部分情况下，读写压缩数据是很简单的，但是要注意是选择一个正确的文件模式是非常重要的，如果你不指定模式，默认的就是
二进制模式，如果这时候程序想要接受的是文本数据，那么就会出错，gzip.open bz2.open 接受跟内置的open函数一样的参数，包括
encoding\errors\newline

当你写入这个压缩数据时，可以使用compresslevel这个可选的关键字参数来指定一个压缩等级,默认的等级是9，也是最高的等级，等级越低性能越好，但是数据压缩程度也越低

In [None]:
with gzip.open('somefile.gz', 'wt', compresslevel=5) as f:
    f.write(text)

In [None]:
#gzip.open, bz2.open还有一个很少被人知道的特性，它们可以作用在一个已存在并以二进制模式打开的文件上
# 这样就允许gzip and bz2 模块可以工作在很多类文件对象上，比如套接字，管道和内存中文件等
import gzip

f = open('somefile.gz', 'rb')
with gzip.open(f, 'rt') as g:
    text = g.read()
    print(text)

## 5.8 固定大小记录的文件迭代

问题：你想在一个固定长度记录或者数据块的集合上迭代，而不是在文件中一行一行的迭代

解决方案：使用iter and functools.partial函数

In [80]:
from functools import partial

record_size = 32

with open('data.bin', 'rb')  as f:
    records = iter(partial(f.read, record_size), b'') # b''->flag not end
    for r in records:
        pass
    
# 这个例子中records对象是可迭代对象，它会不断的产生固定大小的数据块，直到文件末尾
# 要注意如果总记录大小不是块大小的整数倍的话，最后一个返回的元素的字节数会比期望值少
#以二进制模式打开的，如果读取固定大小的记录，这是最普通的情况，对于文本文件，一行一行的读取更普遍一点

iter函数有一个鲜为人知的特性就是，如果你给它传递一个可调用对象和一个标记值，它会创建一个迭代器，这个迭代器会一直调用传入的可调用对象直到它返回标记值为值，这时候迭代终止

functools.partial用来创建一个每次被调用时从文件读取固定数目字节的可调用对象，标记值b''就是当到达文件结尾时的返回值

## 5.9 读取二进制数据到可变缓冲区中

问题：你想直接读取二进制数据到可变缓冲区，而不需要做任何的中间复制操作，或者，你原地修改数据并将它写回到一个文件中去

解决方案：为了读取数据到一个可变数组中，使用文件对象的readinto方法

In [None]:
#### 文件对象的readinto方法能被用来为预先分配内存的数据填充数据，甚至包括array | numpy模块创建的数组
# 和普通的方法不同的是，readinto填充已存在的缓冲区而不是为新对象重新分配内存再返回他们
#因此，你可以使用它避免大量的内存分配操作
import os.path

def read_into_buffer(filename):
    buf = bytearray(os.path.getsize(filename))
    with open(filename, 'rb') as f:
        f.readinto(buf) # 直接将文件对象写到已存在的缓冲区
    return buf

In [83]:
with open('sample.bin', 'wb') as f:
    f.write(b'Hello World')

In [86]:
buf = read_into_buffer('sample.bin')
buf

bytearray(b'Hello World')

In [87]:
buf[0 : 5] = b'Hallo'

In [88]:
buf

bytearray(b'Hallo World')

In [89]:
with open('newsample.bin', 'wb') as f:
    f.write(buf)

In [90]:
buf

bytearray(b'Hallo World')

In [91]:
os.path.getsize('somefile.txt') # 字节

7

In [92]:
#如果你读取一个由相同大小的记录组成的二进制文件时，你可以像下面这样写：

record_size = 32 # Size of each record (adjust value)

buf = bytearray(record_size)

with open('somefile', 'rb') as f:
    while True:
        n = f.readinto(buf)
        if n < record_size: # 如果字节数小于缓冲区大小，表明数据被截断 或者被破坏了
            break
        else:
            #Use the contents of buf
            pass

In [94]:
# 另一个有趣特性就是memoryview,它可以通过零复制的方式对已经在的缓冲区执行切片操作，甚至还能修改它的内容

buf # ？

bytearray(b'Hello\r\n\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00')

In [95]:
m1 = memoryview(buf)
m2 = m1[-5:]
m2

<memory at 0x000002A4677E6C48>

In [96]:
m2[ : ] = b'WORLD'
buf

bytearray(b'Hello\r\n\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00WORLD')

使用f.readinto时需要注意的是，你必须检查它的返回值，也就是实际读取的字节数；如果字节数小于缓冲区大小，表明数据被截断
或者被破坏了，比如你期望每次读取指定数量的字节；最后，留心观察其他函数库和模块中的into相关函数，比如，recv into，pack into
等，python的很多其他部分已经能支持直接的I/O或数据访问操作，这些操作可被用来填充或修改数组和缓冲区内容


## 5.10 内存映射的二进制文件

问题：你想内存映射一个二进制文件到一个可变字节数组中，目的可能是为了随机访问它的内容或者原地做些修改

解决方案：使用mmap模块来内存映射文件，下面是一个工具函数，向你演示了如果打开一个文件并以一种便捷方式内存映射这个文件

In [99]:
import os
import mmap

def memory_map(filename, access=mmap.ACCESS_WRITE):
    size = os.path.getsize(filename)
    fd = os.open(filename, os.O_RDWR)
    return mmap.mmap(fd, size, access=access)

In [100]:
####..................

## 5.11 文件路径名的操作

问题：你需要使用路径名来获取文件名，目录名，绝对路径

解决方案：os.path模块中的函数来操作路径名

In [101]:
path = r'D:\360MoveData\Users\86138\Desktop\myself\刷过的书\python_cookbook\215.txt'

In [102]:
# Get the last component of the path
os.path.basename(path)

'215.txt'

In [104]:
# Get the directory name
os.path.dirname(path)

'D:\\360MoveData\\Users\\86138\\Desktop\\myself\\刷过的书\\python_cookbook'

In [105]:
# Join path components together
os.path.join('tmp', 'data', os.path.basename(path))

'tmp\\data\\215.txt'

In [106]:
# Expand the user's home directory
path = '~/Data/data.csv'
os.path.expanduser(path) # Expand ~ and ~user constructs

'D:\\emacs-26.2-x86_64/Data/data.csv'

In [107]:
# split the file extension
os.path.splitext(path)

('~/Data/data', '.csv')

对于任何的文件名的操作，你都应该使用os path模块，而不是使用标准字符串操作来构造自己的代码，而不是使用标准字符串操作来构造自己的代码，特别是为了可移植性考虑的时候更应该如此，因为os path模块知道Unix windows系统之间的差异并且能够可靠处理类似以data/data.csv和data\data.csv这样的文件名，其次，不要重复造轮子

## 5.12 测试文件是否存在

问题：你想测试一个或者目录是否存在

解决方案：os.path模块来测试一个文件或者目录是否存在

In [108]:
import os

os.path.exists('./215.txt')

True

In [109]:
os.path.exists('./216.txt')

False

In [110]:
#你还能进一步测试这个文件是什么类型的，如果文件不存在，返回False

os.path.isfile('215.txt')

True

In [111]:
os.path.isdir('./somebin.bin')

False

In [112]:
os.path.islink('somebin.bin')

False

In [113]:
os.path.realpath(r'D:\emacs-26.2-x86_64\bin\emacs.exe')

'D:\\emacs-26.2-x86_64\\bin\\emacs.exe'

In [117]:
# 如果你 还想获取元数据，比如文件大小或者修改日期
# 需要注意的是考虑文件权限问题，特别是在获取元数据的时候
os.path.getsize('215.txt')

73

In [115]:
os.path.getmtime('somefile.txt')

1564195286.7394564

In [116]:
import time

time.ctime(os.path.getmtime('somefile.txt'))

'Sat Jul 27 10:41:26 2019'

## 5.13 获取文件夹中的文件列表

问题：你想获取文件系统中某个目录下的所有文件列表

解决方案：使用os.listdir()函数来获取某个目录中的文件列表

In [121]:
import os 
names = os.listdir('./')
names
# 结果会返回目录中所有文件列表，包括文件，子目录，符号链接等

['.ipynb_checkpoints',
 '215.txt',
 'CookBook_1.ipynb',
 'CookBook_2.ipynb',
 'CookBook_3.ipynb',
 'CookBook_4.ipynb',
 'CookBook_5.ipynb',
 'data.bin',
 'exp5.txt',
 'jalapeño.txt',
 'newsample.bin',
 'sample.bin',
 'somebin.bin',
 'somefile',
 'somefile.txt',
 'somefile_relocation.txt']

In [124]:
#可以结构os path库中的一些函数来使用列表推导

import os.path

names = [name for name in os.listdir('./') if os.path.isfile(os.path.join('./', name))]
names

['215.txt',
 'CookBook_1.ipynb',
 'CookBook_2.ipynb',
 'CookBook_3.ipynb',
 'CookBook_4.ipynb',
 'CookBook_5.ipynb',
 'data.bin',
 'exp5.txt',
 'jalapeño.txt',
 'newsample.bin',
 'sample.bin',
 'somebin.bin',
 'somefile',
 'somefile.txt',
 'somefile_relocation.txt']

In [127]:
dirnames = [name for name in os.listdir('./') if os.path.isdir(os.path.join('./',name))]
dirnames

['.ipynb_checkpoints']

In [129]:
pyfiles = [name for name in os.listdir('./') if name.endswith('.py')]
pyfiles

[]

In [130]:
pyfiles = [name for name in os.listdir('./') if name.endswith('.txt')]
pyfiles

['215.txt',
 'exp5.txt',
 'jalapeño.txt',
 'somefile.txt',
 'somefile_relocation.txt']

In [19]:
#对于文件名的匹配，你可能会考虑使用glob或者fnmatch模块
#fnmatch该模块支持的是Unix shell-style通配符，而并未使用正则表达式。该模块中的函数都不会自动获取目录名或文件名，需要在调用函数时提供
#glob则可以根据pattern来获取符合条件的目录或文件名

import glob
import os

pyfiles = glob.glob('./.ipynb_checkpoints/*...nb')
print(pyfiles)

from fnmatch import fnmatch

pyfiles = [name for name in os.listdir('./.ipynb_checkpoints/') if fnmatch(name, '*.ipynb')]
print(pyfiles)

[]
['CookBook_1-checkpoint.ipynb', 'CookBook_2-checkpoint.ipynb', 'CookBook_3-checkpoint.ipynb', 'CookBook_3.ipynb', 'CookBook_4-checkpoint.ipynb', 'CookBook_5-checkpoint.ipynb', 'exercise_100-checkpoint.ipynb']


In [136]:
[name for name in os.listdir('./.ipynb_checkpoints/')]

['.ipynb_checkpoints',
 'CookBook_1-checkpoint.ipynb',
 'CookBook_2-checkpoint.ipynb',
 'CookBook_3-checkpoint.ipynb',
 'CookBook_3.ipynb',
 'CookBook_4-checkpoint.ipynb',
 'CookBook_5-checkpoint.ipynb',
 'notebook.tex']

In [142]:
#如果你还想获取其他的元信息，比如文件大小，修改时间等等，你或许还需要使用到os.path模块中的函数或者os.stat()函数来收集数据

import os, os.path, glob

pyfiles = glob.glob('*.txt')
#Get file sizes and modification dates
name_sz_data = [(name, os.path.getsize(name), os.path.getmtime(name)) for name in pyfiles]
for name, sz, data in name_sz_data:
    print(name, sz, data)

215.txt 73 1563442330.2894838
exp5.txt 0 1564193654.9721951
jalapeño.txt 33 1564191083.4583468
somefile.txt 7 1564195286.7394564
somefile_relocation.txt 12 1564193093.8321483


In [161]:
#Alternative: Get file metadata
file_metadata = [(name, os.stat(name)) for name in pyfiles]
for name, meta in file_metadata:
    print('{:*<50} {:>3} {:=.2f}'.format(name, meta.st_size, meta.st_mtime))

215.txt*******************************************  73 1563442330.29
exp5.txt******************************************   0 1564193654.97
jalapeño.txt**************************************  33 1564191083.46
somefile.txt**************************************   7 1564195286.74
somefile_relocation.txt***************************  12 1564193093.83


## 5.14 忽略文件名编码

问题：你想使用原始文件名执行文件的I/O操作，也就是说文件名没有经过系统默认编码进行编解码操作

解决方案：默认情况，系统会根据来编码或解码

In [163]:
sys.getfilesystemencoding()

'utf-8'

In [20]:
#如果你想某种原因忽略这种编码，可以使用一个原始字节字符串来指定一个文件名即可

with open('jalape\xf1o', 'w') as f:
    f.write('Spicy!~')

In [172]:
#传递字节字符串时，文件的处理方式略有不同
import os

[file for file in os.listdir('.') if file.startswith('j')]

['jalapeño.txt']

In [173]:
[file for file in os.listdir(b'.') if file.startswith(b'j')] # 'j' error

[b'jalape\xc3\xb1o.txt']

In [174]:
with open(b'jalape\xc3\xb1o.txt') as f:
    print(f.read())

Spicy!~


## 5.15 打印不合法的文件名

问题：获取了一个目录中的文件名列表，但是当它试着去打印文件名的时候程序崩溃，出现了UnicodeEncodeError异常和一条奇怪
的消息 surrogates not alllowed

解决方案：当打印未知的文件名时，使用下面的方法可以避免这样的错误

def bad_filename(filename):
    return repr(filename)[1 : -1]

def bad_filename_1(filename):
    temp = filename.encode(sys.getfilesystemencoding(), errors='surrogateescape')
    return temp.decode('latin-1')
    
try:
    print(filename)
except UnicodeEncodeError:
    print(bad_filename(filename))

## 5.16 增加或者改变已打开文件的编码 

问题：你想在不关闭一个已打开文件下增加或改变他的Unicode编码

解决方案：如果你想在给一个以二进制模式打开的文件添加Unicode编码解码方式，可以使用io.TextIOWrapper()对象包装它

In [178]:
import urllib.request, io

u = urllib.request.urlopen('http://www.python.org')
f = io.TextIOWrapper(u, encoding='utf-8')
text = f.read()

In [180]:
#如果你想修改一个已经打开的文本模式的文件的编码方式，可以先使用detach方法移除掉已存在的文本编码层，并使用新的
#编码方式代替

import sys

sys.stdout.encoding

'UTF-8'

In [181]:
sys.stdout = io.TextIOWrapper(sys.stdout.detach(), encoding='latin-1')

UnsupportedOperation: detach

In [182]:
#I/O系统由一系列的层次构建而成，你可以试着运行下面这个操作一个文本文件的例子来查看这种层次
f = open('sample.bin', 'w')
f

<_io.TextIOWrapper name='sample.bin' mode='w' encoding='cp936'>

In [183]:
f.buffer

<_io.BufferedWriter name='sample.bin'>

In [184]:
f.buffer.raw

<_io.FileIO name='sample.bin' mode='wb' closefd=True>

In [185]:
#上面的三个例子中，
#io.TextIOWrappear是一个编码和解码Unicode的文本处理层
#io.BufferedWriter是一个处理二进制数据的带缓冲的I/O层
#io.FileIO是一个表示操作系统底层文件描述符的原始文件
#增加或改变文本编码会涉及及增加或改变最上面的io.TextIOWrapper层
#通过访问属性值来直接操作不同的层是很不安全的，例如，下面
f

<_io.TextIOWrapper name='sample.bin' mode='w' encoding='cp936'>

In [188]:
f = io.TextIOWrapper(f.buffer, encoding='latin-1')

In [190]:
f.write('Hello')
# ValueError: I/O operation on closed file

5

In [191]:
#detach方法会断开文件的最顶层并返回第二层，之后最顶层就没什么用了

f = open('sample.bin', 'w')
f

<_io.TextIOWrapper name='sample.bin' mode='w' encoding='cp936'>

In [193]:
b = f.detach()
b

ValueError: underlying buffer has been detached

In [194]:
#一旦断开最顶层后，你就可以给返回结果添加一个新的最顶层

f = io.TextIOWrapper(b, encoding='latin-1')
f

<_io.TextIOWrapper name='sample.bin' encoding='latin-1'>

In [195]:
#尽管已经向你演示了改变编程的方法，但是你还可以利用这种技术来改变文件行处理，错误机制以及文件处理的其他方面

sys.stdout = io.TextIOWrapper(sys.stdout.detach(), encoding='ascii', errors='xmlcharrefreplace')

UnsupportedOperation: detach

## 5.17 将字节写入文本文件

问题：你想在文本模式打开的文件中写入原始的字节数据

解决方案：将字节数据直接写入文件的缓冲区即可

In [22]:
import sys

sys.stdout.write(b'hello\n')

hello


In [23]:
sys.stdout.buffer.write(b'hello\n')

AttributeError: 'OutStream' object has no attribute 'buffer'

IO系统以层级结构的形式构建而成，文本文件是通过在一个拥有缓冲的二进制模式文件上增加一个Unicode编码解码层来创建
buffer属性指向对应的底层文件，如果你直接来访问它的话就会绕过文本编码解码层

默认情况下，sys.stdout总是以文本模式打开的，但是如果你写在一个需要打印二进制数据到标准输出的脚本的话，你可以使用
上面演示的技术绕过文本编码层

5.18 将文件描述符包装成文件对象

In [201]:
#.......

## 5.19 创建临时文件和文件夹

问题：你需要在程序执行时创建一个临时文件或目录，并希望使完之后可以自动销毁掉

解决方案：tempfile模块中很有多的函数可以完成这任务，为了创建一个匿名的临时文件，可以使用tempfile.TemporaryFile

In [203]:
from tempfile import TemporaryFile

with TemporaryFile('w+t') as f:
    # Read/write to the file
    f.write('Hello World\n')
    f.write('Testing\n')
    
    # Seek back to beginning and read the data 回到起始位置并读取数据
    f.seek(0)
    data = f.read()
    
#Temporacy file is destroyed

In [204]:
# 或者这样使用临时文件

f = TemporaryFile('w+t') # 第一个参数是文件模式，通常来讲文本模式使用w+t，二进制模式使用w+b,都是同事支持读和写操作，其他参数同open
# Use the temporary file
#...
f.close()
# file is destroyed

In [205]:
# 大多数Unix系统上，通过TemporaryFile创建的文件都是匿名的，甚至连目录都没有，如果想打破这个限制
#可以使用NamedTemporaryFile来代替

from tempfile import NamedTemporaryFile

with NamedTemporaryFile('w+t') as f: 
#with NameTemporaryFile('w+t', delete=False) as f: # 使用后不销毁
    print('filename is:', f.name)
    
# File automatically destroyed

filename is: C:\Users\86138\AppData\Local\Temp\tmpfs4gqg4g


In [206]:
#创建一个临时目录，可以使用tempfile.TemporaryDirectory

from tempfile import TemporaryDirectory

with TemporaryDirectory() as dirname:
    print('dirname is :', dirname)
    pass
#Directory and all contents destroyed

dirname is : C:\Users\86138\AppData\Local\Temp\tmp7cc4ye8y


In [207]:
#以上三个函数应该是处理临时文件目录的最简单的方式了，因为他们会自动处理所有的创建和清理步骤
#在更低的级别，你可以使用mkstemp和mkdtemp来创建临时文件和目录
#msktemp仅仅就返回一个原始OS文件描述符，你需要自己将它转换为一个真正的文件对象，同样你需要自己清理这些文件
#通常来讲，临时文件在系统默认的位置被创建
import tempfile

tempfile.mkstemp()

(4, 'C:\\Users\\86138\\AppData\\Local\\Temp\\tmp5c4r1qx3')

In [208]:
tempfile.mkdtemp()

'C:\\Users\\86138\\AppData\\Local\\Temp\\tmp5w54mnmw'

In [209]:
tempfile.gettempdir()

'C:\\Users\\86138\\AppData\\Local\\Temp'

In [210]:
#所有和临时文件相关的函数都允许你通过使用关键字参数prefix, suffix, dir来自定义目录以及命名规则

f = NamedTemporaryFile(prefix='mytemp', suffix='.txt', dir='/tmp') # 前缀 后缀 目录
f.name

FileNotFoundError: [Errno 2] No such file or directory: '/tmp\\mytempqx6s7rms.txt'

## 5.20 与串行端口的数据通信

问题：你想通过串行端口读写数据，典型场景就是和一些硬件设备打交道

解决方案：pySerial

In [None]:
import serial
ser = serial.Serial(
    '0',
    baudrate=9600,
    parity='N',
    stopbits=1
                   )
# 一旦端口打开，那就可以使用read(), readline(), write()
#注意所有涉及到串口的IO都是二进制模式的，因为，确保你的代码使用的是字节而不是文本，或有时候执行文本的编码解码操作
#另外当你需要创建二进制编码的指令或数据包的时候，struct模块也是非常有用的

## 5.21 序列化python对象

问题：你需要将一个python对象序列化为一个字节流，以便将它保存到一个文件，存储到数据库或者通过网络传输它 

解决方案：对于序列化最普遍的做法就是使用pickle模块，为了将一个对象保存到一个文件中

In [219]:
import pickle

data = 'liugang'
f = open('somfile.pi', 'wb')
pickle.dump(data, f) # 为了将一个对象转储一个字符串
s = pickle.dumps(data)

In [221]:
f = open('somfile.pi', 'rb')
data = pickle.load(f) # Read and return an object from the pickle data stored in a file.

data = pickle.loads(s) # Read and return an object from the given pickle data.

In [222]:
#如果你碰到某个库可以让你数据库中保存 恢复 python对象或者通过网络传输对象的话，那么很有可能这个库的底层就使用了pickle模块
#pickle是一种pyhon特有的自描述的数据编码，通过自描述，被序列化的数据包含每个对象开始和结束以及他的类型信息
#如果处理多个对象，你可以这样做

import pickle

f = open('somedata', 'wb')
pickle.dump([1, 2, 3, 4], f)
pickle.dump('hello', f)
pickle.dump({'Apple', 'Pear', 'Banana'}, f)
f.close()
f = open('somedata', 'rb')
pickle.load(f)

[1, 2, 3, 4]

In [223]:
pickle.load(f)

'hello'

In [224]:
pickle.load(f)

{'Apple', 'Banana', 'Pear'}

In [225]:
# 你还能序列化函数，类，还有接口，但是结果数据仅仅将他们的名称编码成对应的代码对象

import math
import pickle

pickle.dumps(math.cos)

b'\x80\x03cmath\ncos\nq\x00.'

In [226]:
#有些类型的对象是不能被序列化的，这些通常是那些依赖外部系统状态的对象，比如打开的文件，网络连接，线程，进程，
#栈帧等等，用户自定义类可以通过提供__getstate__ __setstate__ 方法绕过这些限制，如果定义了这两个方法
#pickle.dump就会调用__getstate__获取序列化的对象，类似的，__setstate__在反序列化时被调用

import  time
import threading

class Countdown:
    def __init__(self, n):
        self.n = n 
        self.thr = threading.Thread(target=self.run)
        self.thr.daemon = True
        self.thr.start()
        
    def run(self):
        while self.n > 0:
            print('T-minus', self.n)
            self.n -= 1
            time.sleep(5)
            
    def __getstate__(self):
        return self.n
    
    def __setstate__(self):
        self.__init__(n)

In [227]:
c = Countdown(30)

T-minus 30
T-minus 29
T-minus 28
T-minus 27
T-minus 26
T-minus 25
T-minus 24
T-minus 23
T-minus 22
T-minus 21


In [228]:
f = open('cstate.p', 'wb')
pickle.dump(c, f)
f.close()

T-minus 17
T-minus 16
T-minus 15
T-minus 14
T-minus 13


In [229]:
f = open('cstate.p', 'rb')
pickle.load(f)

TypeError: __setstate__() takes 1 positional argument but 2 were given

T-minus 10
T-minus 9
T-minus 8
T-minus 7
T-minus 6
T-minus 5
T-minus 4
T-minus 3
T-minus 2
T-minus 1


pickle对于大型的数据结构比如使用array和numpy模块创建的二进制数组效率并不是一个高效的编码方式，如果你需要移动大量的
数组数据，你最好是先在一个文件中将其保存为数组数据或使用高级的标准编码方式，如HDF5

长时间储存数据的时候不应该选用它，建议使用标准格式XML CSV JSON,其次pickle有大量的配置选项和一些棘手的问题