# 1 IO
IO在计算机中指Input/Output，也就是输入和输出。由于程序和运行时数据是在内存中驻留，由CPU这个超快的计算核心来执行，涉及到数据交换的地方，通常是磁盘、网络等，就需要IO接口。

比如你打开浏览器，访问新浪首页，浏览器这个程序就需要通过网络IO获取新浪的网页。浏览器首先会发送数据给新浪服务器，告诉它我想要首页的HTML，这个动作是往外发数据，叫Output，随后新浪服务器把网页发过来，这个动作是从外面接收数据，叫Input。所以，通常，程序完成IO操作会有Input和Output两个数据流。当然也有只用一个的情况，比如，从磁盘读取文件到内存，就只有Input操作，反过来，把数据写到磁盘文件里，就只是一个Output操作。

IO编程中，Stream（流）是一个很重要的概念，可以把流想象成一个水管，数据就是水管里的水，但是只能单向流动。Input Stream就是数据从外面（磁盘、网络）流进内存，Output Stream就是数据从内存流到外面去。对于浏览网页来说，浏览器和新浪服务器之间至少需要建立两根水管，才可以既能发数据，又能收数据。

由于CPU和内存的速度远远高于外设的速度，所以，在IO编程中，就存在速度严重不匹配的问题。举个例子来说，比如要把100M的数据写入磁盘，CPU输出100M的数据只需要0.01秒，可是磁盘要接收这100M数据可能需要10秒，怎么办呢？有两种办法：

第一种是CPU等着，也就是程序暂停执行后续代码，等100M的数据在10秒后写入磁盘，再接着往下执行，这种模式称为同步IO；

另一种方法是CPU不等待，只是告诉磁盘，“您老慢慢写，不着急，我接着干别的事去了”，于是，后续代码可以立刻接着执行，这种模式称为异步IO。

同步和异步的区别就在于是否等待IO执行的结果。好比你去麦当劳点餐，你说“来个汉堡”，服务员告诉你，对不起，汉堡要现做，需要等5分钟，于是你站在收银台前面等了5分钟，拿到汉堡再去逛商场，这是同步IO。

你说“来个汉堡”，服务员告诉你，汉堡需要等5分钟，你可以先去逛商场，等做好了，我们再通知你，这样你可以立刻去干别的事情（逛商场），这是异步IO。

很明显，使用异步IO来编写程序性能会远远高于同步IO，但是异步IO的缺点是编程模型复杂。想想看，你得知道什么时候通知你“汉堡做好了”，而通知你的方法也各不相同。如果是服务员跑过来找到你，这是回调模式，如果服务员发短信通知你，你就得不停地检查手机，这是轮询模式。总之，异步IO的复杂度远远高于同步IO。

操作IO的能力都是由操作系统提供的，每一种编程语言都会把操作系统提供的低级C接口封装起来方便使用，Python也不例外。我们后面会详细讨论Python的IO编程接口。

# 2 文件读写

读写文件是最常见的IO操作。Python内置了读写文件的函数，用法和C是兼容的。

读写文件前，我们先必须了解一下，在磁盘上读写文件的功能都是由操作系统提供的，现代操作系统不允许普通的程序直接操作磁盘，所以，读写文件就是请求操作系统打开一个文件对象（通常称为文件描述符），然后，通过操作系统提供的接口从这个文件对象中读取数据（读文件），或者把数据写入这个文件对象（写文件）。

## 2.1 读文本

要以读文件的模式打开一个文件对象，使用Python内置的open()函数，传入文件名和标示符：

In [64]:
f = open('static/test.txt', 'r')

标示符'r'表示读，这样，我们就成功地打开了一个文件。

如果文件不存在，open()函数就会抛出一个IOError的错误，并且给出错误码和详细的信息告诉你文件不存在：

In [65]:
f = open('static/test2.txt', 'r')

FileNotFoundError: [Errno 2] No such file or directory: 'static/test2.txt'

如果文件打开成功，接下来，调用read()方法可以一次读取文件的全部内容，Python把内容读到内存，用一个str对象表示：

In [None]:
print(f.read())

最后一步是调用close()方法关闭文件。文件使用完毕后必须关闭，因为文件对象会占用操作系统的资源，并且操作系统同一时间能打开的文件数量也是有限的：



In [None]:
f.close()

由于文件读写时都有可能产生IOError，一旦出错，后面的f.close()就不会调用。所以，为了保证无论是否出错都能正确地关闭文件，我们可以使用try ... finally来实现：



In [None]:
try:
    f = open('static/test.txt', 'r')
    print(f.read())
finally:
    if f:
        f.close()

但是每次都这么写实在太繁琐，所以，Python引入了with语句来自动帮我们调用close()方法：

In [None]:
with open('static/test.txt', 'r') as f:
    print(f.read())

这和前面的try ... finally是一样的，但是代码更佳简洁，并且不必调用f.close()方法。

调用read()会一次性读取文件的全部内容，如果文件有10G，内存就爆了，所以，要保险起见，可以反复调用read(size)方法，每次最多读取size个字节的内容。另外，调用readline()可以每次读取一行内容，调用readlines()一次读取所有内容并按行返回list。因此，要根据需要决定怎么调用。

如果文件很小，read()一次性读取最方便；如果不能确定文件大小，反复调用read(size)比较保险；如果是配置文件，调用readlines()最方便：

In [None]:
f = open('static/test.txt', 'r')
for line in f.readlines():
    print(line.strip()) # 把末尾的'\n'删掉

像open()函数返回的这种有个read()方法的对象，在Python中统称为file-like Object。除了file外，还可以是内存的字节流，网络流，自定义流等等。file-like Object不要求从特定类继承，只要写个read()方法就行。

StringIO就是在内存中创建的file-like Object，常用作临时缓冲。

## 2.2 读二进制文件

前面讲的默认都是读取文本文件，并且是UTF-8编码的文本文件。要读取二进制文件，比如图片、视频等等，用'rb'模式打开文件即可。不过一般而言，二进制文件人是看不懂的。


In [None]:
f=open('static/pic.png','rb')
f.read()

## 2.3 编码

要读取非UTF-8编码的文本文件，需要给open()函数传入encoding参数，例如，读取GBK编码的文件。强制以UTF-8打开也需要添加这个参数。

In [None]:
f = open('static/test.txt', 'r', encoding='gbk')
f.read()

遇到有些编码不规范的文件，你可能会遇到UnicodeDecodeError，因为在文本文件中可能夹杂了一些非法编码的字符。遇到这种情况，open()函数还接收一个errors参数，表示如果遇到编码错误后如何处理。最简单的方式是直接忽略：

```f = open('static/test.txt', 'r', encoding='gbk', errors='ignore')```

# 3 写文件

写文件和读文件是一样的，唯一区别是调用open()函数时，传入标识符'w'或者'wb'表示写文本文件或写二进制文件：

In [None]:
f = open('static/test.txt', 'w')
f.write('Hello, world!')
f.close()

你可以反复调用write()来写入文件，但是务必要调用f.close()来关闭文件。当我们写文件时，操作系统往往不会立刻把数据写入磁盘，而是放到内存缓存起来，空闲的时候再慢慢写入。只有调用close()方法时，操作系统才保证把没有写入的数据全部写入磁盘。忘记调用close()的后果是数据可能只写了一部分到磁盘，剩下的丢失了。所以，还是用with语句来得保险：

In [None]:
with open('static/test.txt', 'w') as f:
    f.write('Hello, world!')

要写入特定编码的文本文件，请给open()函数传入encoding参数，将字符串自动转换成指定编码。

细心的童鞋会发现，以'w'模式写入文件时，如果文件已存在，会直接覆盖（相当于删掉后新写入一个文件）。如果我们希望追加到文件末尾怎么办？可以传入'a'以追加（append）模式写入。

# 4 打开模式

根据不同的模式，打开文件后能做的事情也不同，下面是python的文件打开模式的小结，更多的请看官方文档。

|  字母   |   含义   |
|--------|----------|
| r | 读模式|
| w | 写模式，覆盖之前的内容|
| a | 追加模式，不覆盖之前的内容|
| b | 二进制模式|
| t | 文本模式|
| + | 更新模式打开|

还有一个非常关键的地方，不同的打开模式对于文件的打开结果也不同，如果文件不存在，则r模式会报错，w模式则不会，而是新创建文件。

# 5 文件指针

虽然指针是C语言的特性，但是在python中也涉及到了，这就是文件指针。当我们打开一个文件的时候，文件指针是在文件头部的，但是当我们进行写或者读等操作后，文件指针将移动。下面就是一个例子。

In [None]:
with open('static/test.txt', 'r+') as f:
    print("1:", f.read())
    f.write('Hello, world!')
    print("2:", f.read())
with open('static/test.txt', 'r+') as f:
    print("3:", f.read())

可以看到，第一次读的时候，很正常地读了出来，写完了再读的时候，却发现没有内容，是因为文件指针指向了文件尾部，从尾部开始读，自然什么也没有。当关闭文件再次打开的时候，指针又到了文件头部，这时候再读就可以看到上次写的内容了。

python提供了在一次open中移动文件指针的方式，请有兴趣的读者自行查阅。

# 6 目录

如果我们要操作文件、目录，可以在命令行下面输入操作系统提供的各种命令来完成。比如dir、cp等命令。

如果要在Python程序中执行这些目录和文件的操作怎么办？其实操作系统提供的命令只是简单地调用了操作系统提供的接口函数，Python内置的os模块也可以直接调用操作系统提供的接口函数。

我们来看看如何使用os模块的基本功能：

In [None]:
import os
os.name

如果是posix，说明系统是Linux、Unix或Mac OS X，如果是nt，就是Windows系统。

要获取详细的系统信息，可以调用uname()函数：

In [None]:
os.uname()

注意uname()函数在Windows上不提供，也就是说，os模块的某些函数是跟操作系统相关的。

## 6.1 环境变量
在操作系统中定义的环境变量，全部保存在os.environ这个变量中，可以直接查看：

In [None]:
os.environ

要获取某个环境变量的值，可以调用os.environ.get('key')：

In [None]:
os.environ.get('PATH')

## 6.2 操作文件和目录

操作文件和目录的函数一部分放在os模块中，一部分放在os.path模块中，这一点要注意一下。查看、创建和删除目录可以这么调用：

In [68]:
# 查看当前目录的绝对路径:
path = os.path.abspath('.')
path

'E:\\MyProjects\\notebooks\\base\\python_advance'

In [69]:
# 在某个目录下创建一个新目录，首先把新目录的完整路径表示出来:
path = os.path.join(path, 'testdir')
path

'E:\\MyProjects\\notebooks\\base\\python_advance\\testdir'

然后创建一个目录:  
os.mkdir(path)  
删掉一个目录:  
os.rmdir(path)

这两个操作比较危险，就不演示了

把两个路径合成一个时，不要直接拼字符串，而要通过os.path.join()函数，这样可以正确处理不同操作系统的路径分隔符。

同样的道理，要拆分路径时，也不要直接去拆字符串，而要通过os.path.split()函数，这样可以把一个路径拆分为两部分，后一部分总是最后级别的目录或文件名：



In [70]:
os.path.split('/Users/michael/testdir/file.txt')

('/Users/michael/testdir', 'file.txt')

os.path.splitext()可以直接让你得到文件扩展名，很多时候非常方便：

In [71]:
os.path.splitext('/path/to/file.txt')

('/path/to/file', '.txt')

这些合并、拆分路径的函数并不要求目录和文件要真实存在，它们只对字符串进行操作。

但是复制文件的函数居然在os模块中不存在！原因是复制文件并非由操作系统提供的系统调用。理论上讲，我们通过上一节的读写文件可以完成文件复制，只不过要多写很多代码。

幸运的是shutil模块提供了copyfile()的函数，你还可以在shutil模块中找到很多实用函数，它们可以看做是os模块的补充。

最后看看如何利用Python的特性来过滤文件。比如我们要列出当前目录下的所有文件，只需要一行代码

In [72]:
[x for x in os.listdir('.')]

['.ipynb_checkpoints',
 'static',
 '数据库.ipynb',
 '文件操作.ipynb',
 '正则表达式.ipynb',
 '爬虫.ipynb',
 '网络编程.ipynb',
 '进程和线程.ipynb']

要列出所有文件夹，也只需一行代码：

In [73]:
[x for x in os.listdir('.') if os.path.isdir(x)]

['.ipynb_checkpoints', 'static']