# IO programming

第一种是CPU等着，也就是程序暂停执行后续代码，等100M的数据在10秒后写入磁盘，再接着往下执行，这种模式称为**同步IO**；

另一种方法是CPU不等待，只是告诉磁盘，“您老慢慢写，不着急，我接着干别的事去了”，于是，后续代码可以立刻接着执行，这种模式称为**异步IO**。  

比如: 买汉堡，服务员说需要等5分钟，站在柜台前等就类似于同步IO，如果去逛街等做好了再来拿就是异步IO。

区别:是否等待IO执行的结果。

异步IO的复杂度远远高于同步IO，程序性能会远远高于同步IO，但是编程模型复杂。

## 文件读写

### 读文件

f = open(文件路径，'r'/'rb')  #'rb'读二进制文件

f.read()  #一次性读取文件的全部内容，用一个str对象表示  
若文件过大，可使用read(size)方法反复调用

f.close()  #关闭文件，使用后必须关闭，否则会占用操作系统的资源

f.readlines()  #每次读取一行

由于文件读写时都有可能产生IOError，一旦出错的话，f.close()不会调用。所以，为了保证无论是否错误都能关闭文件，用**try...finally**结局问题。  
<code>try:  
    f = open('filepath','r')    
    print(f.read())  
finally:  
    if f:  
        f.close()</code>

<code>with open('/path/to/file', 'r') as f:
    print(f.read())</code>    
with语句能自动调用f.close()方法

**什么是file-leke Object?**  
有read()方法的对象。

#### 字符编码

要读取非UTF-8编码的文本文件 -> 传入encoding参数  
f = open('/Users/michael/gbk.txt', 'r', encoding='gbk')
若遇到编码不规范的文件，会遇到UnicodeDecodeError  -> 传入error参数  
f = open('/Users/michael/gbk.txt', 'r', encoding='gbk', errors='ignore')

### 写文件

f = open('/Users/michael/test.txt', 'w'/'wb')  
f.write('Hello, world!')

<code>with open('/Users/michael/test.txt', 'w') as f:  
    f.write('Hello, world!')</code>

## StringIO和BytesIO

### StringIO

用于在内存中读写str,而不是在文件中

In [5]:
from io import StringIO
f = StringIO()
f.write('hello') #输出为5表示写入了5个字符

5

要读取StringIO，可以用一个str初始化StringIO

In [8]:
from io import StringIO
f = StringIO('Hello!\nHi!\nGoodbye!')
while True:
    s= f.readline()
    if s == '':
        break
    print(s.strip()) #没有strip有多余的空行

Hello!
Hi!
Goodbye!


### BytesIO

StringIO只能对str进行操作，如果要操作二进制数据，就需要使用BytesIO

In [11]:
from io import BytesIO
f = BytesIO()
f.write('中文'.encode('utf-8')) #写入经过UTF-8编码的bytes

6

In [12]:
from io import BytesIO
f = BytesIO(b'\xe4\xb8\xad\xe6\x96\x87')
f.read()

b'\xe4\xb8\xad\xe6\x96\x87'

## 操作文件和目录

In [14]:
import os
os.name

'nt'

如果是posix，说明系统是Linux、Unix或Mac OS X，如果是nt，就是Windows系统。

In [16]:
os.uname() #windows系统上不提供该函数

AttributeError: module 'os' has no attribute 'uname'

### 环境变量

os.environ  
os.environ.get('PATH')  
os.environ.get('x','default')

### 操作文件和目录

In [18]:
os.path.abspath('.') #查看路径

'E:\\AI_course\\Tutorials\\1_Python_LXF'

In [19]:
#创建新目录前，如何表示完整路径
#主要，不要直接拼接字符串，可以保证正确处理不同操作系统的路径分隔符
os.path.join('E:\\AI_course\\Tutorials\\1_Python_LXF','testdir') 

'E:\\AI_course\\Tutorials\\1_Python_LXF\\testdir'

In [20]:
#创建一个目录
os.mkdir('E:\\AI_course\\Tutorials\\1_Python_LXF\\testdir')

In [21]:
#删除一个目录
os.rmdir('E:\\AI_course\\Tutorials\\1_Python_LXF\\testdir')

In [22]:
#分割路径
os.path.split('/Users/michael/testdir/file.txt')

('/Users/michael/testdir', 'file.txt')

In [23]:
#直接得到文件扩展名
os.path.splitext('/path/to/file.txt')

('/path/to/file', '.txt')

In [25]:
#文件重命名
os.rename('test.txt', 'test.py')

In [26]:
#移除文件
os.remove('test.py')

In [29]:
#列出当前目录下的所有目录
[x for x in os.listdir('.') if os.path.isdir(x)]

['.ipynb_checkpoints',
 '1_Basics.ipynb',
 '2_Function.ipynb',
 '3_AdvancedFeatures.ipynb',
 '4_FunctionalProgramming.ipynb',
 '5_Module.ipynb',
 '6_OOP.ipynb',
 '7_OOP Advanced.ipynb',
 '8_Debug.ipynb',
 '9_IO programming.ipynb']

In [27]:
#列出所有.ipynb文件 
[x for x in os.listdir('.') if os.path.isfile(x) and os.path.splitext(x)[1]=='.ipynb']

['1_Basics.ipynb',
 '2_Function.ipynb',
 '3_AdvancedFeatures.ipynb',
 '4_FunctionalProgramming.ipynb',
 '5_Module.ipynb',
 '6_OOP.ipynb',
 '7_OOP Advanced.ipynb',
 '8_Debug.ipynb',
 '9_IO programming.ipynb']

os.listdir()用于返回一个由文件名和目录名组成的列表  
os.path.isdir()用于判断对象是否为一个目录  
os.path.isfile()用于判断对象是否为一个文件

练习：  
1. 利用os模块编写一个能实现dir -l输出的程序。
2. 编写一个程序，能在当前目录以及当前目录的所有子目录下查找文件名包含指定字符串的文件，并打印出相对路径。


## 序列化

把变量从内存中变成可存储或传输的过程称之为**序列化（pickling）**  
应用：可以把序列化后的内容写入磁盘，或者通过网络传输到别的机器上  
实现：pickle模块

In [32]:
import pickle
d = dict(name='Bob',age=20,score=88)
pickle.dumps(d) #pickle.dumps()方法把任意对象序列化成一个bytes

b'\x80\x03}q\x00(X\x04\x00\x00\x00nameq\x01X\x03\x00\x00\x00Bobq\x02X\x03\x00\x00\x00ageq\x03K\x14X\x05\x00\x00\x00scoreq\x04KXu.'

In [33]:
f = open('dump.txt','wb')
pickle.dump(d,f)
f.close()

In [35]:
#反序列化
f = open('dump.txt', 'rb')
d = pickle.load(f)
f.close()
d

{'name': 'Bob', 'age': 20, 'score': 88}

### JSON

如果我们要在不同的编程语言之间传递对象，就必须把对象序列化为标准格式，JSON是一个很好的方法，因为JSON表示出来就是一个字符串，可以被所有语言读取，另外方便存储到磁盘或通过网络传输。

In [39]:
import json
d = dict(name='Bob',age=20,score=88)
json.dumps(d)  #返回str

str

In [41]:
json_str = '{"age":20,"score":88,"name":"Bob"}'
json.loads(json_str)

{'age': 20, 'score': 88, 'name': 'Bob'}

In [42]:
import json

class Student(object):
    def __init__(self,name,age,score):
        self.name = name
        self.age = age
        self.score = score
        
s = Student('Bob',20,88)
print(json.dumps(s))

TypeError: Object of type 'Student' is not JSON serializable

https://docs.python.org/3/library/json.html#json.dumps  
错误原因： dumps()方法不知道如何把Student实例变为JSON的{}对象。  
解决方法： 可选参数default

In [43]:
def student2dict(std):
    return{
        'name':std.name,
        'age':std.age,
        'score':std.score
    }

In [44]:
print(json.dumps(s,default= student2dict))

{"name": "Bob", "age": 20, "score": 88}


In [45]:
#下次如果遇到一个Teacher类的实例，照样无法序列化为JSON。
#我们可以偷个懒，把任意class的实例变为dict
print(json.dumps(s,default=lambda obj:obj.__dict__))

{"name": "Bob", "age": 20, "score": 88}


练习：对中文进行JSON序列化时，json.dumps()提供了一个ensure_ascii参数，观察该参数对结果的影响：

In [48]:
import json
obj = dict(name='小明',age=20)
s = json.dumps(obj,ensure_ascii=True)  #输出为ascii码
s

'{"name": "\\u5c0f\\u660e", "age": 20}'

In [49]:
import json
obj = dict(name='小明',age=20)
s = json.dumps(obj,ensure_ascii=False)
s

'{"name": "小明", "age": 20}'

json.dumps():将字典转化为字符串  
json.loads():将字符串转化为字典