## 文件读写  
### 读文件

In [2]:
f = open('test.txt', 'r')

标示符'r'表示读，这样，我们就成功地打开了一个文件  
如果文件不存在，open()函数就会抛出一个IOError的错误，并且给出错误码和详细的信息告诉你文件不存在  
如果文件打开成功，接下来，调用read()方法可以一次读取文件的全部内容，Python把内容读到内存，用一个str对象表示

In [3]:
f.read()

'hello,world'

最后一步是调用close()方法关闭文件。文件使用完毕后必须关闭，因为文件对象会占用操作系统的资源，并且操作系统同一时间能打开的文件数量也是有限的

In [4]:
f.close()

由于文件读写时都有可能产生IOError，一旦出错，后面的f.close()就不会调用。所以，为了保证无论是否出错都能正确地关闭文件，我们可以使用try ... finally来实现

In [6]:
try:
    f = open('test.txt', 'r')
    print(f.read())
finally:
    if f:
        f.close()

hello,world


Python引入了with语句来自动帮我们调用close()方法

In [7]:
with open('test.txt', 'r') as f:
    print(f.read())

hello,world


调用read()会一次性读取文件的全部内容，如果文件有10G，内存就爆了，所以，要保险起见，可以反复调用read(size)方法，每次最多读取size个字节的内容。另外，调用readline()可以每次读取一行内容，调用readlines()一次读取所有内容并按行返回list。因此，要根据需要决定怎么调用

In [8]:
with open('test.txt', 'r') as f:
    for line in f.readlines():
        print(line.strip())

hello,world
hello,lishu_


### file-like Object

像open()函数返回的这种有个read()方法的对象，在Python中统称为file-like Object。除了file外，还可以是内存的字节流，网络流，自定义流等等。file-like Object不要求从特定类继承，只要写个read()方法就行

### 二进制文件

前面讲的默认都是读取文本文件，并且是UTF-8编码的文本文件。要读取二进制文件，比如图片、视频等等，用'rb'模式打开文件即可

In [11]:
f = open('test.jpg', 'rb')
f.read()

b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x00\x00\x01\x00\x01\x00\x00\xff\xdb\x00C\x00\x08\x06\x06\x07\x06\x05\x08\x07\x07\x07\t\t\x08\n\x0c\x14\r\x0c\x0b\x0b\x0c\x19\x12\x13\x0f\x14\x1d\x1a\x1f\x1e\x1d\x1a\x1c\x1c $.\' ",#\x1c\x1c(7),01444\x1f\'9=82<.342\xff\xdb\x00C\x01\t\t\t\x0c\x0b\x0c\x18\r\r\x182!\x1c!22222222222222222222222222222222222222222222222222\xff\xc0\x00\x11\x08\x01"\x03\xb0\x03\x01"\x00\x02\x11\x01\x03\x11\x01\xff\xc4\x00\x1f\x00\x00\x01\x05\x01\x01\x01\x01\x01\x01\x00\x00\x00\x00\x00\x00\x00\x00\x01\x02\x03\x04\x05\x06\x07\x08\t\n\x0b\xff\xc4\x00\xb5\x10\x00\x02\x01\x03\x03\x02\x04\x03\x05\x05\x04\x04\x00\x00\x01}\x01\x02\x03\x00\x04\x11\x05\x12!1A\x06\x13Qa\x07"q\x142\x81\x91\xa1\x08#B\xb1\xc1\x15R\xd1\xf0$3br\x82\t\n\x16\x17\x18\x19\x1a%&\'()*456789:CDEFGHIJSTUVWXYZcdefghijstuvwxyz\x83\x84\x85\x86\x87\x88\x89\x8a\x92\x93\x94\x95\x96\x97\x98\x99\x9a\xa2\xa3\xa4\xa5\xa6\xa7\xa8\xa9\xaa\xb2\xb3\xb4\xb5\xb6\xb7\xb8\xb9\xba\xc2\xc3\xc4\xc5\xc6\xc7\xc8\xc9\xca\xd2\xd3\xd4

In [12]:
f.close()

### 字符编码

要读取非UTF-8编码的文本文件，需要给open()函数传入encoding参数，例如，读取GBK编码的文件

In [14]:
with open('gbk.txt', 'r', encoding='gbk') as f:
    print(f.read())

测试


遇到有些编码不规范的文件，你可能会遇到UnicodeDecodeError，因为在文本文件中可能夹杂了一些非法编码的字符。遇到这种情况，open()函数还接收一个errors参数，表示如果遇到编码错误后如何处理。最简单的方式是直接忽略

In [15]:
with open('gbk.txt', 'r', encoding='gbk', errors='ignore') as f:
    print(f.read())

测试


### 写文件

写文件和读文件是一样的，唯一区别是调用open()函数时，传入标识符'w'或者'wb'表示写文本文件或写二进制文件

细心的童鞋会发现，以'w'模式写入文件时，如果文件已存在，会直接覆盖（相当于删掉后新写入一个文件）。如果我们希望追加到文件末尾怎么办？可以传入'a'以追加（append）模式写入

In [19]:
with open('test.txt', 'a') as f:
    f.write('\nhello, python')#\n加在下一行
with open('test.txt', 'r') as f:
    print(f.read())

hello,world
hello,lishu_hello, python
 hello, python
hello, python
hello, python


In [20]:
fpath = r'C:\Windows\system.ini'
with open(fpath, 'r') as f:
    s = f.read()
    print(s)

; for 16-bit app support
[386Enh]
woafont=dosapp.fon
EGA80WOA.FON=EGA80WOA.FON
EGA40WOA.FON=EGA40WOA.FON
CGA80WOA.FON=CGA80WOA.FON
CGA40WOA.FON=CGA40WOA.FON

[drivers]
wave=mmdrv.dll
timer=timer.drv

[mci]



## StringIO和BytesIO

很多时候，数据读写不一定是文件，也可以在内存中读写。  
StringIO顾名思义就是在内存中读写str。  
要把str写入StringIO，我们需要先创建一个StringIO，然后，像文件一样写入即

In [22]:
from io import StringIO
f = StringIO()
f.write('hello')

5

In [23]:
f.write(' ')

1

In [24]:
print(f.getvalue())

hello 


要读取StringIO，可以用一个str初始化StringIO，然后，像读文件一样读取

In [25]:
from io import StringIO
f = StringIO('Hello!\n!\nGoodbye!')
while True:
    s = f.readline()
    if s == '':
        break
    print(s.strip())

Hello!
!
Goodbye!


### BytesIO

tringIO操作的只能是str，如果要操作二进制数据，就需要使用BytesIO。  
BytesIO实现了在内存中读写bytes，我们创建一个BytesIO，然后写入一些bytes

In [27]:
from io import BytesIO
f = BytesIO()
f.write('中文'.encode('utf-8'))

6

In [28]:
print(f.getvalue())

b'\xe4\xb8\xad\xe6\x96\x87'


In [30]:
from io import BytesIO
f = BytesIO(b'\xe4\xb8\xad\xe6\x96\x87')
f.read()

b'\xe4\xb8\xad\xe6\x96\x87'

## 操作文件和目录

Python内置的os模块也可以直接调用操作系统提供的接口函数

In [31]:
import os
os.name

'nt'

如果是posix，说明系统是Linux、Unix或Mac OS X，如果是nt，就是Windows系统  要获取详细的系统信息，可以调用uname()函数,注意uname()函数在Windows上不提供，也就是说，os模块的某些函数是跟操作系统相关的

In [37]:
os.uname()

AttributeError: module 'os' has no attribute 'uname'

### 环境变量  
在操作系统中定义的环境变量，全部保存在os.environ这个变量中，可以直接查看  要获取某个环境变量的值，可以调用os.environ.get('key')

In [39]:
os.environ

environ({'PSMODULEPATH': 'C:\\Windows\\system32\\WindowsPowerShell\\v1.0\\Modules\\', 'PROGRAMDATA': 'C:\\ProgramData', 'NVTOOLSEXT_PATH': 'C:\\Program Files\\NVIDIA Corporation\\NvToolsExt\\', 'USERPROFILE': 'C:\\Users\\Lenovo', 'PTHREADDLL': 'D:\\pthread\\pthreads-w32-2-9-1-release\\Pre-built.2\\dll\\x86', 'APPDATA': 'C:\\Users\\Lenovo\\AppData\\Roaming', 'COMPUTERNAME': 'LENOVO-PC', 'PROGRAMFILES(X86)': 'C:\\Program Files (x86)', 'FP_NO_HOST_CHECK': 'NO', 'TEMP': 'C:\\Users\\Lenovo\\AppData\\Local\\Temp', 'SYSTEMROOT': 'C:\\Windows', 'SWSHARE': 'C:\\SWSHARE', 'PCL_ROOT': 'D:\\PCL', 'WINDOWS_TRACING_LOGFILE': 'C:\\BVTBin\\Tests\\installpackage\\csilogfile.log', 'TERM': 'xterm-color', 'USERNAME': 'Lenovo', 'TENSORFLOWPATH': 'D:\\Users\\Lenovo\\Anaconda3\\Lib\\site-packages\\tensorflow', 'PUBLIC': 'C:\\Users\\Public', 'TMP': 'C:\\Users\\Lenovo\\AppData\\Local\\Temp', 'PYTHTHEANO': 'D:\\Users\\Lenovo\\Anaconda3\\Lib\\site-packages\\theano', 'PATH': 'D:\\Users\\Lenovo\\Anaconda2\\envs\\t

In [40]:
os.environ.get('PATH')

'D:\\Users\\Lenovo\\Anaconda2\\envs\\tensorflow\\Library\\bin;D:\\Users\\Lenovo\\Anaconda2\\Library\\bin;D:\\Users\\Lenovo\\Anaconda2\\Scripts;D:\\Users\\Lenovo\\Anaconda2\\Library\\bin;d:\\CTEX\\UserData\\miktex\\bin;d:\\CTEX\\MiKTeX\\miktex\\bin;d:\\CTEX\\CTeX\\ctex\\bin;d:\\CTEX\\CTeX\\cct\\bin;d:\\CTEX\\CTeX\\ty\\bin;d:\\CTEX\\Ghostscript\\gs9.05\\bin;d:\\CTEX\\GSview\\gsview;d:\\CTEX\\WinEdt;D:\\Users\\Lenovo\\Anaconda2\\Scripts;D:\\Users\\Lenovo\\Anaconda2\\envs\\tensorflow;C:\\Program Files\\Microsoft SQL Server\\110\\Tools\\Binn\\;C:\\Program Files (x86)\\Microsoft ASP.NET\\ASP.NET Web Pages\\v2.0\\;C:\\Program Files (x86)\\Microsoft SDKs\\Windows\\v7.1A\\Bin\\;C:\\Users\\Lenovo\\AppData\\Local\\Microsoft\\MSBuild\\v4.0\\;D:\\opencv2.4.10\\opencv\\build\\x86\\vc12\\bin\\;D:\\opencv3.1.0_contrib\\x86\\vc12\\bin\\;c:\\windows\\system32;d:\\Users\\Lenovo\\Anaconda2;d:\\Users\\Lenovo\\Anaconda2\\Scripts;d:\\Users\\Lenovo\\Anaconda2\\Library\\bin;D:\\Users\\Lenovo\\Anaconda3\\MinGW\

In [41]:
os.environ.get('x', 'default')

'default'

### 操作文件和目录

操作文件和目录的函数一部分放在os模块中，一部分放在os.path模块中，这一点要注意一下。查看、创建和删除目录可以这么调用

In [42]:
os.path.abspath('.')

'E:\\Python_Project'

In [43]:
os.path.join('E:\\Python_Project','testdir')

'E:\\Python_Project\\testdir'

In [44]:
os.mkdir('E:\\Python_Project\\testdir')

In [45]:
os.rmdir('E:\\Python_Project\\testdir')

把两个路径合成一个时，不要直接拼字符串，而要通过os.path.join()函数，这样可以正确处理不同操作系统的路径分隔符  
同样的道理，要拆分路径时，也不要直接去拆字符串，而要通过os.path.split()函数，这样可以把一个路径拆分为两部分，后一部分总是最后级别的目录或文件名  os.path.splitext()可以直接让你得到文件扩展名，很多时候非常方便

In [46]:
os.path.split('/Users/michael/testdir/file.txt')

('/Users/michael/testdir', 'file.txt')

In [1]:
import os
os.rename('test.txt', 'test.py')

In [2]:
os.remove('test.py')

但是复制文件的函数居然在os模块中不存在！原因是复制文件并非由操作系统提供的系统调用。理论上讲，我们通过上一节的读写文件可以完成文件复制，只不过要多写很多代码  
幸运的是shutil模块提供了copyfile()的函数，你还可以在shutil模块中找到很多实用函数，它们可以看做是os模块的补充

最后看看如何利用Python的特性来过滤文件。比如我们要列出当前目录下的所有目录，只需要一行代码

In [3]:
[x for x in os.listdir('.') if os.path.isdir(x)]

['.git', '.ipynb_checkpoints', 'excel处理', 'IpyPic', '__pycache__', '图像处理']

要列出所有的.py文件，也只需一行代码

In [5]:
[x for x in os.listdir('.') if os.path.isfile(x) and os.path.splitext(x)[1]=='.py']

['abstest.py',
 'err.py',
 'hello.py',
 'mydict.py',
 'mydict_test.py',
 'student.py',
 'student_test.py']

In [6]:
[x for x in os.listdir('.')]

['.git',
 '.ipynb_checkpoints',
 '1.Python基础.ipynb',
 '2.函数.ipynb',
 '3.高级特性.ipynb',
 '4.函数式编程.ipynb',
 '5.模块.ipynb',
 '6.面向对象编程.ipynb',
 '7. 面向对象高级编程.ipynb',
 '8.错误、调试和测试.ipynb',
 '9.IO编程.ipynb',
 'abstest.py',
 'err.py',
 'excel处理',
 'gbk.txt',
 'hello.py',
 'IpyPic',
 'mydict.py',
 'mydict_test.py',
 'student.py',
 'student_test.py',
 'test.jpg',
 '__pycache__',
 '图像处理']

In [14]:
#编写一个程序，能在当前目录以及当前目录的所有子目录下查找文件名包含指定字符串的文件，并打印出相对路径
import os
def FindStrInFile(str, path='.'):
    for i in os.listdir(path):
        fpath = os.path.join(path, i)
        if os.path.isfile(fpath) and str in fpath:
            print('%s' %fpath)
        elif os.path.isdir(fpath):
            FindStrInFile(str, fpath)
if __name__ == '__main__':
    FindStrInFile('.py', 'E:/Python_Project')

E:/Python_Project\abstest.py
E:/Python_Project\err.py
E:/Python_Project\excel处理\test.py
E:/Python_Project\hello.py
E:/Python_Project\mydict.py
E:/Python_Project\mydict_test.py
E:/Python_Project\student.py
E:/Python_Project\student_test.py
E:/Python_Project\test.py
E:/Python_Project\__pycache__\abstest.cpython-35.pyc
E:/Python_Project\__pycache__\hello.cpython-35.pyc
E:/Python_Project\__pycache__\mydict.cpython-35.pyc
E:/Python_Project\__pycache__\mydict_test.cpython-35.pyc
E:/Python_Project\__pycache__\student.cpython-35.pyc
E:/Python_Project\图像处理\ExcelRead.py
E:/Python_Project\图像处理\ImageRead.py
E:/Python_Project\图像处理\TFRecord_Read.py
E:/Python_Project\图像处理\TFRecord_Save.py
E:/Python_Project\图像处理\transpose.py


## 序列化

我们把变量从内存中变成可存储或传输的过程称之为序列化，在Python中叫pickling，在其他语言中也被称之为serialization，marshalling，flattening等等，都是一个意思  
序列化之后，就可以把序列化后的内容写入磁盘，或者通过网络传输到别的机器上  
反过来，把变量内容从序列化的对象重新读到内存里称之为反序列化，即unpickling  
Python提供了pickle模块来实现序列化

In [15]:
import pickle
d = dict(name='Bob', age=20, score=88)
pickle.dumps(d)

b'\x80\x03}q\x00(X\x05\x00\x00\x00scoreq\x01KXX\x03\x00\x00\x00ageq\x02K\x14X\x04\x00\x00\x00nameq\x03X\x03\x00\x00\x00Bobq\x04u.'

pickle.dumps()方法把任意对象序列化成一个bytes，然后，就可以把这个bytes写入文件。或者用另一个方法pickle.dump()直接把对象序列化后写入一个file-like Object

In [29]:
f = open('lhw.txt', 'wb')
pickle.dump(d, f)
f.close()

In [30]:
f = open('lhw.txt', 'rb')
d = pickle.load(f)
f.close()
print(d)

{'score': 88, 'age': 20, 'name': 'Bob'}


## JOSN

如果我们要在不同的编程语言之间传递对象，就必须把对象序列化为标准格式，比如XML，但更好的方法是序列化为JSON，因为JSON表示出来就是一个字符串，可以被所有语言读取，也可以方便地存储到磁盘或者通过网络传输。JSON不仅是标准格式，并且比XML更快，而且可以直接在Web页面中读取，非常方便

Python内置的json模块提供了非常完善的Python对象到JSON格式的转换。我们先看看如何把Python对象变成一个JSON

In [32]:
import json
d = dict(name='Bob', age=20, score=88)
json.dumps(d)

'{"score": 88, "age": 20, "name": "Bob"}'

dumps()方法返回一个str，内容就是标准的JSON。类似的，dump()方法可以直接把JSON写入一个file-like Object  
要把JSON反序列化为Python对象，用loads()或者对应的load()方法，前者把JSON的字符串反序列化，后者从file-like Object中读取字符串并反序列化

In [35]:
json_str = '{"age": 20, "score": 88, "name": "Bob"}'
json.loads(json_str)

{'age': 20, 'name': 'Bob', 'score': 88}

### JSON进阶

In [36]:
import json
class Student(object):
    def __init__(self, name, age, score):
        self.name = name
        self.age = age
        self.score = score
s = Student('Bob', 20, 88)
print(json.dumps(s))

TypeError: <__main__.Student object at 0x000000000617F9E8> is not JSON serializable

Student对象不是一个可序列化为JSON的对象

前面的代码之所以无法把Student类实例序列化为JSON，是因为默认情况下，dumps()方法不知道如何将Student实例变为一个JSON的{}对象  
可选参数default就是把任意一个对象变成一个可序列为JSON的对象，我们只需要为Student专门写一个转换函数，再把函数传进去即可  

In [37]:
def student2dict(std):
    return {
        'name': std.name,
        'age': std.age,
        'score': std.score
    }

In [38]:
json.dumps(s, default=student2dict)

'{"score": 88, "age": 20, "name": "Bob"}'

不过，下次如果遇到一个Teacher类的实例，照样无法序列化为JSON。我们可以偷个懒，把任意class的实例变为dict  
因为通常class的实例都有一个_ _dict_ _ 属性，它就是一个dict，用来存储实例变量。也有少数例外，比如定义了__slots_ _的class  

In [39]:
json.dumps(s, default=lambda obj: obj.__dict__)

'{"score": 88, "name": "Bob", "age": 20}'

同样的道理，如果我们要把JSON反序列化为一个Student对象实例，loads()方法首先转换出一个dict对象，然后，我们传入的object_hook函数负责把dict转换为Student实例

In [40]:
def dict2student(d):
    return Student(d['name'], d['age'], d['score'])

In [41]:
json_str = '{"age":20, "score":88, "name":"Bob"}'
json.loads(json_str, object_hook=dict2student)

<__main__.Student at 0x61655c0>

In [49]:
# -*- coding: utf-8 -*-
import json
obj = dict(name='小明', age=20)
s = json.dumps(obj ,ensure_ascii=False)
print(s)

{"age": 20, "name": "小明"}
