IO再计算机中指Input/Output，也就是输入和输出。由于程序和运行时数据是在内存中驻留的，由CPU这个超快的计算核心来执行，设计到数据交换的地方，通常是磁盘、网络等，就需要IO接口。

打开浏览器，访问新浪首页，浏览器这个程序就需要通过网络IO获取新浪的网页。浏览器首先会发送数据给新浪服务器，告诉他我想要首页的HTML，这个动作是往外发数据，叫Output，随后新浪服务器把网页发过去，这个动作是从外面接收数据，叫Input。所以，通常程序完成IO操作会有Input和Output两个数据流。当然也有只用一个的情况，如果，从磁盘读取文件到内存，只有Input，反过来，把数据写到磁盘文件就是一个Output操作。

IO编程中，Stream(流)是一个很重要的概念，可以把流想象成一个水管，数据就是水管里的水，但是只能单向流动。Input Stream就是数据从外面流进内存，Output Stream就是数据从内存流到外面去。对于浏览网页来说，浏览器和新浪服务器之间至少需要简历两根水管，才可以既能发数据，又能收数据。

# 一、 文件读写

读写文件时最常见的IO操作。Python内置了读写文件的函数，用法和C是兼容的。

读写文件前，我们必须了解一下，在磁盘上读写文件的功能都是由操作系统提供的，现在操作系统不允许普通的程序直接操作硬盘，所以，读写文件就是请求系统打开一个文件对象（通常称为文件名描述符），然后通过操作系统提供的接口从这个文件对象中读取数据（读文件），或者把数据写入这个文件对象（写文件）。

## 1.1 读文件

要以读文件的模式打开一个文件对象，使用Python内置的open()函数，传入文件名和标示符

In [2]:
f = open('/Users/Hasee/Desktop/test.txt', 'r')

标示符'r'表示读，这样就打开了一个文件

如果不存在。open()函数会抛出一个IOError的错误，并且给出错误码和详细的信息告诉你文件不存在

In [3]:
# 调用read()方法可以一次读取文件的全部内容，python把内容读到内存，用一个str对象表示

f.read()

''

最后一步是调用close()方法关闭文件。文件使用完毕后必须关闭，因为文件对象会占用操作系统的资源，并且操作系统同一时间能打开文件数量也有限

In [4]:
f.close()

In [5]:
# 由于文件读写时都有可能产生IOError，一旦出错，后面的f.close()就不会调用。所以，为了保证无论是否出错
# 都能正确地关闭文件，我们可以使用try...finally来实现

try:
    f = open('/Users/Hasee/Desktop/test.txt', 'r')
    print(f.read())
finally:
    if f:
        f.close()




In [6]:
# 但是每次这样写比较繁琐，Python引入了with语句来自动帮我们调用close()方法

with open('/Users/Hasee/Desktop/test.txt', 'r') as f:
    print(f.read())




In [7]:
# 如果是配置文件，调用readlines()最方便

# for line in f.readlines():
#    print(line.strip()) # 把末尾的'\n'删掉

## 1.2 file-like Object

In [8]:
# 像open()函数返回的这种有个read()方法的对象，在Python中统称为file-like Object。除了file外，
# 还可以是内存的字节流，网络流，自定义流等。file-like Object不要求从特定类继承，只要写个read()方法就行

# StringIO就是在内存中创建的file-like Object，常用作临时缓存

## 1.3 二进制文件

In [9]:
# 前面的默认都是读取文本文件，并且是UTF-8编码的文本文件。要读取二进制文件，用'rb'模式打开文件即可

f = open('/Users/Hasee/Desktop/test.png', 'rb')

In [10]:
f.read() # 十六进制表示的字节

b'\x89PNG\r\n\x1a\n\x00\x00\x00\rIHDR\x00\x00\x01\xd7\x00\x00\x01z\x08\x02\x00\x00\x00\xc4d\x85\xa6\x00\x00\xff\xffIDATx\xda\xec\xbd\x89\xbb%Gu\'x"r\xb9\xf7-\xb5W\xa9$!\x01\xb61\xddn\x7f\xedi\xb3\x180k\xf7\xcc\xe7\xf9\xf7fz\xfa\x8f\x98o\x96\x9e\x1e\xbb?/c\x16\x1b\x03f1`l\xb3\x08\x0c\x12\x12b\xd1\x06Z\xaa\xea\xde\x9b\x19\x11\x13\xe7\x9c\x88\x93\'#3\xef{\xb7\xaa$$QI\xf1t\xdf}\x99\x91\xb1\xfe\xe2\xc4\xefl\xc6\xfe\xaf[8\xf0\n!\xec\xbf\xc1\xcc\xfc\xdd,\xdck\x01<\x97:\xf3\x8c\x99\x7f\xea\xac\xf7\xcf\xbe\xe5u\xbc\x8c\x9fVh\xdf\x1b\x831p\xc8e\xad\rt\xe9>\xd93\nU~;\xdf"wZk\xe2G]\x14]\xe0\xb8\x15\xaaR\xfc\xc4R5+u\x9b\xd4\x82\x8b\x8dU\xe5\xa7\xf8EfoK\xe5N\xa9$\xdfol(\x1a\xc8\xdfK\xfd\xbd\xf7R\xff\xf8!\xfe\x1a?\x14\xbd\x14ov\xces\xef\xe9\x1a\xc6\xab\xaa*y\xb5.*~\xe6B\xe2\x07\xbe-\xde\x18\x9fvnh\x8e4(~\xe3\x9c3\xd2\x89\xaa|\xea\x84\xf4\r\xd5\x04\xa8\x92R\xcfT\x08\x7f\x83\xf7\xd7\x95\x1eL\xfek\xfc\x99{&=\x18\xafxs|i\xd3\xd4|\'=\xcd\xaf\xc0\xb7t\x9d\x97\xeeJ=IE\xc5~\xd0\x95\x94{\xf8s\x95\xef\xd4\x03\

## 1.4 字符编码

In [11]:
# 要读取非UTF-8编码的文本文件，需要给open()函数传入encoding参数

In [12]:
f = open('/Users/Hasee/Desktop/test.txt', 'r', encoding='gbk')

In [13]:
f.read()

''

In [14]:
# 遇到有些编码不规范的文件，你可能会遇到UnicodeDecodeError，因为在文本文件中可能夹杂了一些非法编码的字符。
# 遇到这种情况，open()函数还接受了一个errors参数，表示遇到编码错误后如何处理。最简单的是直接忽略

f = open('/Users/Hasee/Desktop/test.txt', 'r', encoding='gbk', errors='ignore')

## 1.5 写文件

In [15]:
# 写文件和读文件一样，唯一区别是调用open()函数，传入标示符'w'或者'wb'表示写文本文件或写二进制文件

f = open('/Users/Hasee/Desktop/test.txt', 'w')

In [16]:
f.write('python!')

7

In [17]:
f.close()

In [18]:
f = open('/Users/Hasee/Desktop/test.txt', 'r')

In [19]:
f.read()

'python!'

In [20]:
# 反复调用write()来写入文件，务必调用f.close()来关闭文件

with open('/Users/Hasee/Desktop/test.txt', 'w') as f:
    f.write('123')

In [21]:
f = open('/Users/Hasee/Desktop/test.txt', 'r')

In [22]:
f.read()

'123'

In [23]:
# 要写入特定编码的文本文件，请给open()函数传入encoding参数，将字符串自动转换成指定编码

# 'w'模式写入文件，如果文件存在，会直接覆盖
# 追加到文件末尾，可以传入'a'以追加模式写入

## 小结

在Python中，文件读写是通过open()函数打开的文件对象完成的。使用with语句操作文件IO是个好习惯。

# 二、 StringIO和BytesIO

## 2.1 StringIO

数据读写不一定是文件，也可以在内存中读写。

StringIO就是在内存中读写str

要把str写入StringIO，我们需要先创建一个StringIO，然后像文件一样写入

In [24]:
from io import StringIO

In [25]:
f = StringIO()

In [26]:
f.write('hello')

5

In [27]:
f.write(' ')

1

In [28]:
f.write('world!')

6

In [29]:
print(f.getvalue())

hello world!


In [30]:
# getvalue()方法用于获得写入后的str

要读取StringIO，可以用一个str初始化StringIO，然后像读文件一样读取

In [31]:
from io import StringIO

In [32]:
f = StringIO('hello!\nhi!\ngoodbye!')

In [33]:
while True:
    s = f.readline()
    if s == '':
        break
    print(s.strip())

hello!
hi!
goodbye!


## 2.2 BytesIO

StringIO操作的只能是str，如果要操作二进制数据，就需要使用BytesIO

BytesIO实现了在内存中读写bytes，创建一个BytesIO然后写入一些bytes

In [34]:
from io import BytesIO

In [35]:
f = BytesIO()

In [36]:
f.write('中文'.encode('utf-8'))

6

In [37]:
print(f.getvalue())

b'\xe4\xb8\xad\xe6\x96\x87'


写入的不是str，而是经过UTF-8编码的bytes

和StringIO类似，可以用一个bytes初始化BytesIO，然后像读文件一样读取

In [38]:
from io import BytesIO

In [39]:
f = BytesIO(b'\xe4\xb8\xad\xe6\x96\x87')

In [40]:
f.read()

b'\xe4\xb8\xad\xe6\x96\x87'

## 小结

StringIO和BytesIO是在内存中操作str和bytes的方法，使得和读写文件具有一致的接口

# 三、 操作文件和目录

如果我们要操作文件、目录，可以在命令行下面输入操作系统提供的各种命令来完成

Python内置的os模块也可以直接调用操作系统提供的接口函数

In [41]:
# 打开Python交互式命令，如何使用os模块的基本功能

In [42]:
import os

In [43]:
os.name # 操作系统类型

'nt'

如果是posix说明系统是Linux、Unix或Mac OS X，如果是nt就是Windows系统

## 3.1 环境变量

在操作系统中定义的环境变量，全部保存在os.environ这个变量中，可以直接查看

In [44]:
os.environ

environ{'ALLUSERSPROFILE': 'C:\\ProgramData',
        'APPDATA': 'C:\\Users\\Hasee\\AppData\\Roaming',
        'ASL.LOG': 'Destination=file',
        'CLASSPATH': 'E:\\Program Files\\Java\\jdk1.8.0_251\\E:\\Program Files\\Java\\jdk1.8.0_251\\lib',
        'COMMONPROGRAMFILES': 'C:\\Program Files\\Common Files',
        'COMMONPROGRAMFILES(X86)': 'C:\\Program Files (x86)\\Common Files',
        'COMMONPROGRAMW6432': 'C:\\Program Files\\Common Files',
        'COMPUTERNAME': 'DESKTOP-15TC4DO',
        'COMSPEC': 'C:\\Windows\\system32\\cmd.exe',
        'DRIVERDATA': 'C:\\Windows\\System32\\Drivers\\DriverData',
        'FPS_BROWSER_APP_PROFILE_STRING': 'Internet Explorer',
        'FPS_BROWSER_USER_PROFILE_STRING': 'Default',
        'HOMEDRIVE': 'C:',
        'HOMEPATH': '\\Users\\Hasee',
        'JAVA_HOME': 'E:\\Program Files\\Java\\jdk1.8.0_251',
        'LOCALAPPDATA': 'C:\\Users\\Hasee\\AppData\\Local',
        'LOGONSERVER': '\\\\DESKTOP-15TC4DO',
        'NUMBER_OF_PROCESSORS': 

要获取某个环境变量的值，可以调用os.environ.get('key
')

In [45]:
os.environ.get('PATH')

'C:\\Users\\Hasee\\Anaconda3;C:\\Users\\Hasee\\Anaconda3\\Library\\mingw-w64\\bin;C:\\Users\\Hasee\\Anaconda3\\Library\\usr\\bin;C:\\Users\\Hasee\\Anaconda3\\Library\\bin;C:\\Users\\Hasee\\Anaconda3\\Scripts;C:\\Program Files (x86)\\Common Files\\Oracle\\Java\\javapath;E:\\Program Files (x86)\\Xftp\\;C:\\Windows\\system32;C:\\Windows;C:\\Windows\\System32\\Wbem;C:\\Windows\\System32\\WindowsPowerShell\\v1.0\\;C:\\Windows\\System32\\OpenSSH\\;C:\\Program Files (x86)\\NVIDIA Corporation\\PhysX\\Common;C:\\Program Files\\NVIDIA Corporation\\NVIDIA NvDLISR;D:\\Program Files\\Git\\cmd;E:\\Program Files\\Java\\jdk1.8.0_251\\bin;C:\\Program Files\\MySQL\\MySQL Shell 8.0\\bin\\;C:\\Users\\Hasee\\AppData\\Local\\Programs\\Python\\Python37\\Scripts\\;C:\\Users\\Hasee\\AppData\\Local\\Programs\\Python\\Python37\\;C:\\Users\\Hasee\\AppData\\Local\\Microsoft\\WindowsApps;D:\\Program Files\\JetBrains\\PyCharm Community Edition 2019.2.2\\bin;;C:\\Users\\Hasee\\AppData\\Roaming\\Python\\Python37\\site

In [46]:
os.environ.get('x', 'default')

'default'

## 3.2 操作文件和目录

操作文件和目录的函数一部分放在os模块，一部分放在os.path模块中

In [47]:
# 查看、创建和删除目录可以这样调用

# 查看当前目前的绝对路径
os.path.abspath('.')

'C:\\Users\\Hasee'

In [48]:
# 在某个目录下创建一个新目录。首先把新目录的完整路径表示出来
os.path.join('C:\\Users\\Hasee', 'testdir')

'C:\\Users\\Hasee\\testdir'

In [49]:
# 创建目录
os.mkdir('C:\\Users\\Hasee\\testdir')

In [50]:
# 删除目录
os.rmdir('C:\\Users\\Hasee\\testdir')

两个路径合成一个时，不要直接拼接字符串，而要通过os.path.join()函数，这样可以正确处理不同操作系统的路径分隔符

拆分路径时，也不要直接去拆字符串，而要通过os.path.split()函数，可以把一个路径拆分为两部分，后一部分总是最后级别的目录或文件名

In [51]:
os.path.split('C:\\Users\\Hasee\\Desktop\\test.txt')

('C:\\Users\\Hasee\\Desktop', 'test.txt')

In [52]:
# os.path.splitext()可以直接让你得到文件扩展名
os.path.splitext('C:\\Users\\Hasee\\Desktop\\test.txt')

('C:\\Users\\Hasee\\Desktop\\test', '.txt')

合并、拆分路径的函数并不要求目录和文件真实存在，只对字符串进行操作

In [53]:
# 对文件重命名
# os.rename('test.txt', 'test.py')

In [54]:
# 删除文件
# os.remove('test.py')

## 小结

Python的os模块封装了操作系统的目录和文件操作，要注意这些函数有的在os模块，有的在os.path模块中

# 四、 序列化

在程序运行的过程中，所有的变量都是在内存中

In [55]:
d = dict(name='Bob', age=20, score=88)

可以随时修改变量，但是一旦程序结束吗，变量所占用的内存就被操作系统全部回收。如果没有把修改后的存储到磁盘中，下次重新运行程序，变量又被初始化为原来的值

In [56]:
# 把变量从内存中变成可存储或传输的过程称为序列化

# 把变量内容从序列化的对象重新读到内存里称为反序列化

In [57]:
# Python提供了pickle模块来实现序列化
import pickle

In [58]:
# 把一个对象序列化并写入文件
d = dict(name='a', age=20, score=88)

In [59]:
pickle.dumps(d)

b'\x80\x03}q\x00(X\x04\x00\x00\x00nameq\x01X\x01\x00\x00\x00aq\x02X\x03\x00\x00\x00ageq\x03K\x14X\x05\x00\x00\x00scoreq\x04KXu.'

In [60]:
# pickle.dumps()方法把任意对象序列化成一个bytes，然后就可以把这个bytes写入文件

In [61]:
# pickle.dump()直接把对象序列化后写入一个file-like Object
f = open('dump.txt', 'wb')

In [62]:
pickle.dump(d, f)

In [63]:
f.close()

In [64]:
f = open('dump.txt', 'rb')

In [65]:
# pickle.load()从一个file-like object中直接反序列化出对象
d = pickle.load(f)

In [66]:
f.close()

In [67]:
d

{'name': 'a', 'age': 20, 'score': 88}

## 4.1 JSON

最好的序列化为JSON，因为JSON表示出来就是一个字符串，可以呗所有语言读取，也可以方便地存储到磁盘或者通过网络传输

Python内置的json模块提供了非常完善的Python对象到JSON格式的转换

In [68]:
import json

In [69]:
d = dict(name='a', age=10, score=60)

In [70]:
d

{'name': 'a', 'age': 10, 'score': 60}

In [71]:
json.dumps(d)

'{"name": "a", "age": 10, "score": 60}'

In [72]:
# dumps()方法返回一个str，内容就是标准的JSON
# dump()方法可以直接把JSON写入一个file-like Object

In [73]:
# 把JSON反序列化为Python对象，用loads()或者对应的load()方法，前者把JSON的字符串反序列化，后者从file-like Object中读取字符串并反序列化

In [74]:
json_str = '{"age":20, "score":60, "name":"b"}'

In [75]:
json.loads(json_str)

{'age': 20, 'score': 60, 'name': 'b'}

## 4.2 JSON进阶

Python的dict对象则可以直接序列化为JSON的{}，很多时候，更喜欢用class表示对象

In [76]:
import json

class Student(object):
    def __init__(self, name, age, score):
        self.name = name
        self.age = age
        self.score = score

In [77]:
s = Student('a', 20, 60)

In [78]:
print(json.dumps(s))

TypeError: Object of type Student is not JSON serializable

默认情况下，dumps()方法不知道如何将Student实例变为一个JSON的{}对象

In [79]:
# 可选参数default就是把任意一个对象变成一个可序列为JSON的对象，我们只需要为Student专门写一个转换函数，再把函数传进去

In [80]:
def student2dict(std):
    return{
        'name': std.name,
        'age': std.age,
        'score': std.score
    }

Student实例首先被student2dict()函数转换成dict，再被顺利序列化为JSON

In [81]:
print(json.dumps(s, default=student2dict))

{"name": "a", "age": 20, "score": 60}


## 小结

Python语言特定的序列化模块是pickle，但如果要把序列化搞得更通用、更符合Web标准，就可以使用json模块

json模块的dumps()和loads()函数是定义得非常好的接口的典范。当使用时，只需要传入一个必须的参数。但是，当默认的序列化或反序列机制不满足我们的要求时，又可以传入更多的参数来定制序列化或反序列化的规则，既做到了接口简单易用，又做到了充分的扩展性和灵活性