# IO编程
1. 同步IO
2. 异步IO：回调模式；轮询模式


- 基本概念：input， output，stream
- 存在问题：输入和接收速度不匹配
- 解决方法：同步、异步(回调--好了叫我，轮询---好了没...好了没)
- 收获新知：编程语言都会把操作系统提供的低级C接口封装起来方便使用

## 1 文件读写

### 1. 读写文件

In [1]:
# 使用open()函数读取文件
# 列出该文件夹下的内容
# !dir .\\LOG   
f = open('./Log/test_file.txt', 'a+')
f.seek(0)
print('1.文件对象:', f, type(f))
print('2.文件的当前内容：')
for line in f:         # 迭代访问
    print(line)
f.seek(0)              # 因为上面的迭代文件指针已经到末尾了，所以回到文件头便于再次访问
print('3.写入新的数据:')
out = f.writelines(['0','07', 'Hi\n'])    # 写入数据，以字符列表输入即可，写入字符间无间隔
# 由于这里没有关闭文件并重新读入所以比实际文件少一次添加数据的结果
print(f.readlines())                    # readlines()以列表形式返回所有数据，每行一个元素
f.close()

1.文件对象: <_io.TextIOWrapper name='./Log/test_file.txt' mode='a+' encoding='cp936'> <class '_io.TextIOWrapper'>
2.文件的当前内容：
Hello World!

Hello Python.

Where there is a will, there is a way.007Hi

3.写入新的数据:
['Hello World!\n', 'Hello Python.\n', 'Where there is a will, there is a way.007Hi\n']


1.常用的文件打开模式


| 模式 | 描述 |
|- |- |
|r    |只读，文件指针放在文件开头，默认模式|
|w|写入，文件指针放在文件开头|
|a|追加写入，文件指针放在文件末尾|
|rb wb ab|以二进制的形式操作文件|
|+|上述模式末尾有该符号，都变成可读写|

2.file对象的操作方法


- **file.read([size])** size未指定则返回整个文件，读取到文件尾时返回空字符串
- **file.readline()** 返回一行的数据
- **file.readlines([size])** 返回包含size行的列表，未指定则返回全部行
- **for line in file:** 通过迭代器方法
- **file.write('hello\n')**  写入一行字符串，参数必须是字符串
- **file.writelines('seq\n')** 写入字符串，可以输入元素为字符串的列表，换行用\n来控制
- **file.tell()** 返回文件指针的位置(文件头的比特数)
- **file.seek(偏移量[,起始位置])** 移动文件指针，偏移量可正可负；起始位置：0-文件头，1-当前位置，2-文件尾
- **file.close()** 关闭文件，否则文件对象会占用操作系统资源

使用try...finally来保证文件正确地关闭

In [2]:
# 1.try...finally实现
def file_open(file_name):
    try:
        temp_file = ''                     # 保证文件不存在时，该变量的引用部分正常工作
        temp_file = open(file_name, 'r')   # 打开只读文件
        print(temp_file.read())
    except Exception as err:
        print('IOError:', err)
#         raise                      # 将异常继续抛出，可以提供更多的错误信息
    finally:
        if temp_file:
            temp_file.close()
file_open('LOG/test_file_noexists.txt')

IOError: [Errno 2] No such file or directory: 'LOG/test_file_noexists.txt'


使用with语句来自动调用close()函数

In [3]:
# 2. with语句可以自动关闭文件对象，更好用
def file_open2(file_name):
    with open(file_name, 'r') as temp_file:
        print(temp_file.read())   
file_open2('LOG/test_file.txt')

Hello World!
Hello Python.
Where there is a will, there is a way.007Hi
007Hi



In [4]:
f = open('./Log/test_file.txt', 'r')
print('1.直接调用文件对象:')
for line in f:
    print(line)
print('2.使用readlines函数返回文件内容:')
f.seek(0)         # 回到文件头部
for line in f.readlines():
    print(line.strip())

1.直接调用文件对象:
Hello World!

Hello Python.

Where there is a will, there is a way.007Hi

007Hi

2.使用readlines函数返回文件内容:
Hello World!
Hello Python.
Where there is a will, there is a way.007Hi
007Hi


### 2. file-like Object
一个对象只要有read方法，就可以调用open()函数，该对象也不必从特点的类继承，所以file、字节流、网络流和自定义流都可以使用open()函数

在**3_面向对象的类**笔记中有用到"鸭子类型"，可复习该部分了解file-like Object

### 3. 二进制文件

文本文件一般为UTF-8编码，open()函数可以读取二进制文件，比如图片、视频等

In [5]:
f = open('test.jpg', 'rb')   # 以二进制打开图片
out = f.read()[:20]   # 会显示16进制的字节结果
print('1.显示图像的16进制字节结果(部分):', out, len(out))

1.显示图像的16进制字节结果(部分): b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x01\x00`\x00`\x00\x00' 20


In [6]:
# 读取非UTF-8编码，传入enoding参数，ignore参数忽略非法编码字符
# f = open(file_name, 'r', encoding='gbk', errors='ignore')

## 2 StringIO和BytesIO
在内存中读取数据

(1) StringIO

In [7]:
# 1.写入str流，把string写入StrinigIO(内存中的数据)
from io import StringIO
f = StringIO()        # 实例化一个StringIO的实例
print('1.stream position:', f.tell())
f.write('hello')
print('  stream position:', f.tell())
f.write(' world!')
print('  stream position:', f.tell())    # 指向的位置和字符串大小对应
print('2.输出的结果:')
print(f.getvalue())                      # getvalue获取写入的字符串，字符指针不用指到0就可以读取

# print(f.getvalue())
f.seek(0)
print(f.readline())  # 字符指针必须指向0才可以读取

1.stream position: 0
  stream position: 5
  stream position: 12
2.输出的结果:
hello world!
hello world!


In [8]:
# 2. 读取str流
f2 = StringIO('Hello!\nHi!\nGoodbye!')
print(f2.tell())
while True:
    line = f2.readline()   # 读取一行的数据
    if line == '':
        break
    print(line.strip())

0
Hello!
Hi!
Goodbye!


(2) BytesIO

In [9]:
# 1. 在内存中写入二进制数据
from io import BytesIO
f = BytesIO()           # 实例化一个二进制流的实例
f.write('中文'.encode('utf-8'))    # 写入的是二进制编码，bytes数据
print(f.getvalue())

b'\xe4\xb8\xad\xe6\x96\x87'


In [10]:
# 2. 在内存中读取数据
f2 = BytesIO(b'\xe4\xb8\xad\xe6\x96\x87')
out = f2.readline()
# out = f2.getvalue()
print('1.进过编码的二进制数据(字节流):', out)
print('2.进过解码得到的数据:', out.decode('utf-8'))

1.进过编码的二进制数据(字节流): b'\xe4\xb8\xad\xe6\x96\x87'
2.进过解码得到的数据: 中文


小结:
- file.readline()输出文件内容，文件指针必须在0的位置，使用file.seek(0)就行
- file.getvalue()对文件指针位置没有要求

## 3 操作文件和目录

os模块：调用系统提供的接口，进行目录和文件的相关操作

In [11]:
import os
os.name   # 显示操作系统类型 

'nt'

In [12]:
# os.environ['path']     # 环境变量，两种方法都行，访问字典的方法
print(os.environ.get('path2', 'default'))  # 没有该key，输出字符串default，默认输出None

default


In [13]:
current_path = os.path.abspath('.')
print('1.当前目录的绝对路径:', current_path)
new_path = os.path.join(current_path, 'testdir')    # 本质上该函数进行字符串的处理，不同系统结果不同
print('2.新目录的完整路径:', new_path)
if not os.path.exists(new_path):     # 该目录不存在
    os.mkdir(new_path)               # 创建该目录
if os.path.exists(new_path):
    os.rmdir(new_path)               # 删除该目录

1.当前目录的绝对路径: C:\Users\David\Desktop\python基础巩固\python_learning
2.新目录的完整路径: C:\Users\David\Desktop\python基础巩固\python_learning\testdir


In [14]:
# 处理路径时使用os.path下的方法，尽量少用直接字符串连接，os.path可以使用系统
# 1.添加路径
new_path = os.path.join(current_path, 'test_dir')      # 可以连接多个字符串
print('1.新添加的路径:', new_path)
# 2.拆分路径，得到一个二元组，一般拆出最后级别的目录
split_path = os.path.split(new_path)
print('2.拆分后的路径:', split_path)
# 拆分目录的第二个思路，使用split函数
split_list = new_path.split('\\')
print('  使用字符串split函数分割的结果:', split_list)
# 3.得到文件的扩展名
new_file = os.path.join(current_path, 'test_dir', 'test.txt')   # 创建新文件名称及路径
print('3.新文件名称及路径:', new_file)
extension_name = os.path.splitext(new_file)
print('  扩展名分割结果:', extension_name)

1.新添加的路径: C:\Users\David\Desktop\python基础巩固\python_learning\test_dir
2.拆分后的路径: ('C:\\Users\\David\\Desktop\\python基础巩固\\python_learning', 'test_dir')
  使用字符串split函数分割的结果: ['C:', 'Users', 'David', 'Desktop', 'python基础巩固', 'python_learning', 'test_dir']
3.新文件名称及路径: C:\Users\David\Desktop\python基础巩固\python_learning\test_dir\test.txt
  扩展名分割结果: ('C:\\Users\\David\\Desktop\\python基础巩固\\python_learning\\test_dir\\test', '.txt')


In [15]:
file_path = os.path.join(current_path, 'LOG', 'test_os2.txt')
new_file_path = os.path.join(current_path, 'LOG', 'test_os_rename.txt')
if os.path.exists(file_path):
    if os.path.exists(new_file_path):
        os.remove(new_file_path)             # 删除已经存在的新文件
    os.rename(file_path, new_file_path)      # 给旧文件重命名
if not os.path.exists(file_path):
    with open(file_path, 'w') as file:       # 创建一个旧文件
        file.writelines('Hello Python.')

In [16]:
# shutil模块做文件、目录复制移动
import shutil
new_file_path = os.path.join(current_path, 'LOG', 'test_os_copy.txt')
shutil.copyfile(file_path, new_file_path)   # 复制文件，两个参数必须都是文件名
# shutil.copy(file_path, '.')                   # 复制文件,后者可以是目录
# shutil.copytree('old_dir', 'new_dir')       # 复制目录及以下的所有的文件到新目录下

'C:\\Users\\David\\Desktop\\python基础巩固\\python_learning\\LOG\\test_os_copy.txt'

In [17]:
# 列出当前的目录下所有符合要求的目录及文件
out_list = [x for x in os.listdir('.') if os.path.isdir(x)]
print('1.当前目录下的所有目录:', out_list)
out_list = [x for x in os.listdir('.') if os.path.isfile(x)]
print('2.当前目录下的所有文件:', out_list)
# splitext得到二元组，第二个元素为文件扩展名
out_list = [x for x in os.listdir('.') if os.path.isfile(x) and os.path.splitext(x)[1]=='.ipynb']
print('3.当前目录下所有notebook文件:', out_list)

1.当前目录下的所有目录: ['.git', '.ipynb_checkpoints', 'LOG', 'test_unit_document', '__pycache__']
2.当前目录下的所有文件: ['1_python基础.ipynb', '2_python函数.ipynb', '3_面向对象的类.ipynb', '4_面向对象的高级编程.ipynb', '5_错误、调试和测试.ipynb', '6_IO编程.ipynb', 'Hello.py', 'README.md', 'test.jpg', 'test_model.py', '字典和生成器.ipynb']
3.当前目录下所有notebook文件: ['1_python基础.ipynb', '2_python函数.ipynb', '3_面向对象的类.ipynb', '4_面向对象的高级编程.ipynb', '5_错误、调试和测试.ipynb', '6_IO编程.ipynb', '字典和生成器.ipynb']


文件和目录操作练习

In [18]:
# 1.使用os模块函数，模拟系统dir的输出
# 方法一
import os
import time
def dir_l():
    dir_list = os.listdir('.')
    dir_list = sorted(dir_list)   # 将列表进行排序
#     print(dir_list)
    for content in dir_list:      # 通过列表，获取每个目录或文件的信息
#         if os.path.isdir(content):  # 判断该文件是否是路径
#             DIR = '<DIR>'
#             file_size = ''
#         else:
#             DIR = ''
#             file_size = os.stat(content). st_size
        flag, file_size = ('<DIR>', '') if os.path.isdir(content) else ('', os.stat(content). st_size)
        file_date = time.localtime(os.stat(content).st_mtime)
        out_str = '{:}/{:0>2}/{:0>2}  {:0>2}:{:0>2}   {:<6}  {:<6}  {}'.format(file_date.tm_year, file_date.tm_mon, file_date.tm_mday,\
                                                   file_date.tm_hour, file_date.tm_min,\
                                                   flag, file_size, content)
        print(out_str)
    
dir_l()

2018/08/10  10:08   <DIR>           .git
2018/08/10  22:14   <DIR>           .ipynb_checkpoints
2018/08/10  11:00           29628   1_python基础.ipynb
2018/08/02  21:00           58502   2_python函数.ipynb
2018/08/07  14:21           38737   3_面向对象的类.ipynb
2018/08/08  22:32           32316   4_面向对象的高级编程.ipynb
2018/08/10  21:49           16743   5_错误、调试和测试.ipynb
2018/08/11  17:51           34379   6_IO编程.ipynb
2018/08/10  14:21           721     Hello.py
2018/08/11  17:51   <DIR>           LOG
2018/08/02  01:09           148     README.md
2018/08/10  12:44   <DIR>           __pycache__
2018/08/10  16:21           93581   test.jpg
2018/07/29  14:42           288     test_model.py
2018/08/10  14:11   <DIR>           test_unit_document
2018/07/04  11:44           13990   字典和生成器.ipynb


In [19]:
# 方法二
import os
import datetime
for x in os.listdir('.'):
#     size = os.path.getsize(x) if (not os.path.isdir(x)) else ''
    mtime = datetime.datetime.fromtimestamp(os.path.getmtime(x)).strftime('%Y-%m-%d %H:%M')
#     flag = '<DIR>' if os.path.isdir(x) else ''
    flag, size = ('<DIR>', '') if  os.path.isdir(x) else ('', os.path.getsize(x))
    print('%10s\t%10s\t%10s\t%-10s' % (mtime, flag, size, x))

2018-08-10 10:08	     <DIR>	          	.git      
2018-08-10 22:14	     <DIR>	          	.ipynb_checkpoints
2018-08-10 11:00	          	     29628	1_python基础.ipynb
2018-08-02 21:00	          	     58502	2_python函数.ipynb
2018-08-07 14:21	          	     38737	3_面向对象的类.ipynb
2018-08-08 22:32	          	     32316	4_面向对象的高级编程.ipynb
2018-08-10 21:49	          	     16743	5_错误、调试和测试.ipynb
2018-08-11 17:51	          	     34379	6_IO编程.ipynb
2018-08-10 14:21	          	       721	Hello.py  
2018-08-11 17:51	     <DIR>	          	LOG       
2018-08-02 01:09	          	       148	README.md 
2018-08-10 16:21	          	     93581	test.jpg  
2018-07-29 14:42	          	       288	test_model.py
2018-08-10 14:11	     <DIR>	          	test_unit_document
2018-08-10 12:44	     <DIR>	          	__pycache__
2018-07-04 11:44	          	     13990	字典和生成器.ipynb


In [20]:
# 2.编写一个程序，能在当前目录以及当前目录的所有子目录下查找文件名包含指定字符串的文件，并打印出相对路径
# 方法一、 先用递归方法试试
import os
string = 'ipynb'                           # 需要包含的字符串
def find_file(current_path):
    dir_list = os.listdir(current_path)    # 列出当前目录下的所有文件及文件夹
    for content in dir_list:
        if content[0] not in ('.', '_'):   # 排除. __开头的目录
            content = os.path.join(current_path, content)          # 获取相对路径
            if os.path.isfile(content) and (string in content):    # 找到相应的文件
                print(content)
            if os.path.isdir(content):     # 判断是目录，进行递归
                find_file(content)
                print('dir:', content)
            
find_file('.')   

.\1_python基础.ipynb
.\2_python函数.ipynb
.\3_面向对象的类.ipynb
.\4_面向对象的高级编程.ipynb
.\5_错误、调试和测试.ipynb
.\6_IO编程.ipynb
dir: .\LOG\LOG
dir: .\LOG
dir: .\test_unit_document
.\字典和生成器.ipynb


In [21]:
# 方法二
def get_abspath(s):
    path = '.'  # path可随指定路径不同而进行修改，在这表示当前路径
    current_path = os.path.abspath('.')
    for root, dir_names, file_names in os.walk(path):
        for file_name in file_names:
            if s in file_name:
                print(os.path.abspath(os.path.join(root, file_name)).replace(current_path,'.'))
    return
get_abspath('ipynb')

.\1_python基础.ipynb
.\2_python函数.ipynb
.\3_面向对象的类.ipynb
.\4_面向对象的高级编程.ipynb
.\5_错误、调试和测试.ipynb
.\6_IO编程.ipynb
.\字典和生成器.ipynb
.\.ipynb_checkpoints\1_python基础-checkpoint.ipynb
.\.ipynb_checkpoints\2_python函数-checkpoint.ipynb
.\.ipynb_checkpoints\3_面向对象的类-checkpoint.ipynb
.\.ipynb_checkpoints\4_面向对象的高级编程-checkpoint.ipynb
.\.ipynb_checkpoints\5_错误、调试和测试-checkpoint.ipynb
.\.ipynb_checkpoints\6_IO编程-checkpoint.ipynb


小结:
- 在上面的递归方法中，一定要加入文件或文件夹的相对路径，否则isfile、isdir无法正常判断
- os.walk(path_name)函数会遍历路径下所有的文件及文件夹
- os.path.join split splitext方法本质是对字符串处理，与有无该文件及目录无关
- os.path路径处理便于跨平台
- [python读写、创建文件的方法](https://blog.csdn.net/lzc4869/article/details/76577761)

## 4 序列化

序列化：将内存中的变量和数据变为可存储和传输的过程 

###  1. pickle模块提高了序列化和反序列化的方法

In [22]:
# 1. 将字典变量序列化存储到文件中
import pickle
import os
def save_var(file_path):
    dic = dict(name='Bob', age=20, score=100)
    temp_file = pickle.dumps(dic)           # pickle.dumps函数可以将变量序列化为bytes数据
    print(temp_file)
    print(type(temp_file))     #
    with open(file_path, 'wb') as file:
        file.write((temp_file) )     # 需要将bytes数据转为字符串才能存储，只能用write函数写bytes数据
    return 
save_file = os.path.join('.', 'LOG', 'save_file.txt')
save_var(save_file)

b'\x80\x03}q\x00(X\x04\x00\x00\x00nameq\x01X\x03\x00\x00\x00Bobq\x02X\x03\x00\x00\x00ageq\x03K\x14X\x05\x00\x00\x00scoreq\x04Kdu.'
<class 'bytes'>


In [23]:
def read_var(file_path):
    with open(file_path, 'rb') as file:
        variable = file.read()
#         print(type(variable))
        print((variable))
        variable = pickle.loads(variable)
        print(variable)
save_file = os.path.join('.', 'LOG', 'save_file.txt')  # 该文件本身无意义，只有还原后才能看出变量
read_var(save_file)

b'\x80\x03}q\x00(X\x04\x00\x00\x00nameq\x01X\x03\x00\x00\x00Bobq\x02X\x03\x00\x00\x00ageq\x03K\x14X\x05\x00\x00\x00scoreq\x04Kdu.'
{'name': 'Bob', 'age': 20, 'score': 100}


In [24]:
# 2.直接将任意对象序列化为bytes数据后写入文件
import pickle
def save_var2(file_path):
    content = dict(name='Bob', age=20, score=100)
    with open(file_path, 'wb') as file:
        pickle.dump(content, file)      # 直接将对象序列化后存储到文件中
save_file = os.path.join('.', 'LOG', 'save_file2.txt')
save_var2(save_file)

In [25]:
#  读取pickle序列化后的数据并还原
def read_var2(file_path):
    with open(file_path, 'rb') as file:
        variable = pickle.load(file)
        print(variable)
save_file = os.path.join('.', 'LOG', 'save_file2.txt')  # 该文件本身无意义，只有还原后才能看出变量
read_var2(save_file)

{'name': 'Bob', 'age': 20, 'score': 100}


小结:
- 使用pickle.dump(temp_data, file_path)和pickle.load(file_path)直接在数据和文件间转换，可以不用dumps和loads
- pickle只适用于Python语言
- file.write在文件的'wb'模式可以直接写入bytes数据，writelines只能写字符串或序列

### 2. JSON
对象序列化的标准格式，字符串编码是UTF-8

优点：方便磁盘存储和网络传输；不同编程语言间传递对象

In [26]:
# JSON和python对象相互转换
import json
dic = dict(name='David', age=20, score=100)
json_out = json.dumps(dic)     # json对象本质是字符串，里面内容与python的字典类似
print('1.python对象转换为json对象:', json_out, type(json_out))
python_out = json.loads(json_out)
print('2.json对象转换为python对象:', python_out, type(python_out))

1.python对象转换为json对象: {"name": "David", "age": 20, "score": 100} <class 'str'>
2.json对象转换为python对象: {'name': 'David', 'age': 20, 'score': 100} <class 'dict'>


In [27]:
f = open('LOG\\json.txt', 'w')
json.dump(dic, f)          # 直接将python对象转换为json对象并存储到文件中
f.close()
f2 = open('LOG\\json.txt', 'r')
js = json.load(f2)         # 直接将文件读取并转换为python对象
f2.close()
js

{'age': 20, 'name': 'David', 'score': 100}

小结:
- json.dumps() loads()与pickle的用法类似，首先要转换为中间的python对象，才能存到文件，dump()和load()可以直接在json数据与文本直接进行转换
- json能够序列化类似python字典形式的数据

In [28]:
# json实例化一个类的实例
import json
class Student(object):
    def __init__(self, name, age, score):
        self.name = name
        self.age = age
        self.score = score
s = Student('David', 25, 100)       # 类不可以直接json序列化
print('1.实例的属性:', s.__dict__)
# 类不可以直接json序列化，先将类转换为字典再序列化，default函数将原数据处理后再序列化
def student2dict(std):
    return{
        'name' : std.name,
        'age'  : std.age,
        'score': std.score
    }
out = json.dumps(s, default=student2dict)
print('2.json序列化后的类:', out)
# 下面的方法可适应多个类
out1 = json.dumps(s, default= lambda obj: obj.__dict__)
print('3.json序列化多种类:', out)
def dict2student(d):
    return Student(d['name'], d['age'], d['score'])
json_out = json.loads(out, object_hook=dict2student)
print('4.json对象反序列化得到类:', json_out)

1.实例的属性: {'name': 'David', 'age': 25, 'score': 100}
2.json序列化后的类: {"name": "David", "age": 25, "score": 100}
3.json序列化多种类: {"name": "David", "age": 25, "score": 100}
4.json对象反序列化得到类: <__main__.Student object at 0x000001D140584710>


序列化练习

In [29]:
# ascii编码主要对汉语有影响，英语没有影响
obj = dict(name='小明', age=20)
s = json.dumps(obj, ensure_ascii=False)
print('1.不使用ascii码:', s)
s1 = json.dumps(obj, ensure_ascii=True)
print('2.使用ascii码:', s1)

1.不使用ascii码: {"name": "小明", "age": 20}
2.使用ascii码: {"name": "\u5c0f\u660e", "age": 20}
