按文件中数据的组织形式可以把文件分为**文本文件**和**二进制文件**两大类<br>
Python内置了文件对象，通过open()函数即可以指定模式打开指定文件并创建文件对象。<br>
函数的用法是：<br>
open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closed=True, opener=None)
- file:要打开或者要创建的文件名，不在当前路径下的话，需要指定完整的路径，可以使用原始字符串
- mode:只读，只写，读写，追加，二进制只读，二进制读写等，默认是文本只读模式
- buffering:指定读写文件的缓存模式，0表示不缓存，1表示缓存，大于1表示缓冲区大小。
- encoding: 对文本进行编码和解码的方式
- newline:只适用于文本模式，取值有多种选择，表示文件中新行的形式

**注意：**<br>
当对文件内容操作完以后，一定要关闭文件对象。

** 6-1 文本打开方式**<br>

| 模式 | 说明 |
| :-: | :-: |
| r | 读模式(默认模式，可省略)，如果文件不存在则抛出异常 |
| w | 写模式，如果文件已存在，先清空原有内容 |
| x | 写模式，创建新文件，如果文件已存在则抛出异常 |
| a | 追加模式，不覆盖文件中原有内容 |
| b | 二进制模式(可与其他模式组合使用) |
| t | 文本模式(默认模式，可省略) |
| + | 读、写模式(可与其他模式组合使用) |

** 6-2 文件对象的常用属性**<br>

| 属性 | 说明 |
| - | - |
| closed | 判断文件是否关闭，若文件关闭则返回True |
| mode | 返回文件的打开模式 |
| name | 返回文件的名称 |

** 6-3 文件对象的常用方法**<br>

| 方法 | 功能说明 |
| :-: | :-: |
| flush() | 把缓冲区的内容写入文件，但不关闭文件 |
| close() | 把缓冲区的内容写入文件，同时关闭文件，并释放文件对象 |
| read(\[size\]) | 从文件中读取size个字节或字符的内容作为结果返回，如果省略，则表示读取所有内容 |
| readline() | 从文件中读取一行内容作为返回 |
| readlines() | 把文件中的每一行文本作为一个字符串存入列表中，返回该列表 |
| seek(offset\[,whence\]) | 把文件指针移到新的位置，offset表示相对于whence的位置。whence为0表示从文件开头计算，1表示从当前位置进行计算，2表示从文件尾开始计算，默认为0 |
| tell() | 返回文件指针的当前位置 |
| write(s) | 把字符串s的内容写入文件 |
| writelines(s) | 把字符串列表写入文本文件，不添加换行符 |
| writable() | 测试当前文件是否可写 |
| readable() | 测试当前文件是否可读 |


**例1 ：** 向文本文件中写入内容，然后再读出

In [1]:
s = 'Hello world1\nHello world2\nHello world3'
print(s)
print()
with open('sample.txt','w') as fp:
    fp.write(s)
with open('sample.txt','r') as fp:
    print(fp.read())

Hello world1
Hello world2
Hello world3

Hello world1
Hello world2
Hello world3


**例2 ：**读取并显示文本文件中的前5个字符

In [2]:
f = open('sample.txt','r')
s = f.read(5) #读取文件的前5个字符
f.close()
print('s = ',s)
print('len(s) = ',len(s))

s =  Hello
len(s) =  5


**例3：**读取文本文件的内容

In [3]:
fp = open('sample.txt','r')

In [4]:
print(fp.read(4)) #从当前位置读取前4个字符

Hell


In [5]:
print(fp.read(18)) #可以注意到，文件指针在这里，是从上一次结束的地方继续往后读取内容，也可以用seek来进行调整

o world1
Hello wor


In [6]:
print(fp.read()) #从当前位置读取后面的所有内容

ld2
Hello world3


In [7]:
fp.close() #关闭文件对象

**例4：**读取并显示文本文件所有行<br>
关键字with可以自动管理资源，不论因为什么原因（哪怕是代码引发了异常）跳出with块，总能保证文件被正确关闭，并且可以在代码块执行完毕后自动还原进入该代码块时的现场。<br>
- 文件对象是可以迭代的
- 也可以使用readlines()方法来实现，但是操作**大文件**时不建议这么做，因为会消耗大量的内存资源

In [8]:
with open('sample.txt','r') as fp:
    for line in fp:
        # 因为“\n”也在那一行中
        print(line,end="")

Hello world1
Hello world2
Hello world3

**例5：**读取data.txt中的所有整数，将其按升序排序后再写入文本文件

![data_before](data_before.PNG)
![data_after](data_after.PNG)

In [9]:
with open ('data.txt','r') as fp:
    data = fp.readlines()
    # readlines() 把文本文件的每一行文本作为一个字符串存入列表中，返回该列表
data = [int(line.strip()) for line in data]
data.sort()
data = [str(i)+'\n' for i in data]
with open('data_asc.txt','w') as fp:
    fp.writelines(data)

#### 提问：为啥4会多出来一个空格???
答：因为在创建demo.py的时候最后一行没有按下回车键直接保存的，所以其他行除了那12个字符以外还有一个“\n”，只要在最后一行按下回车，就可以得到你想要的结果了

In [10]:
filename = 'demo.py'
with open(filename,'r') as fp:
    lines = fp.readlines()
#假设每行最长不超过30个字符，在第30列插入行号
lines = [line.rstrip()+' '*(30-len(line))+'#'+str(index)+'\n' for index,line in enumerate(lines)]
with open(filename[:4]+'_new.py','w') as fp:
    fp.writelines(lines)

In [11]:
print(lines)

['Hello world1                 #0\n', 'Hello world2                 #1\n', 'Hello world3                 #2\n', 'Hello world4                 #3\n', 'Hello world5                 #4\n']


![demo](demo.PNG)
![demonew](demonew.PNG)

# 二进制文件<br>
- 数据库文件，图像文件，可执行文件，音视频文件，Office文档等等均属于二进制文件。
- 无法通过Python的文件对象直接读取和理解二进制文件的内容。必须要理解二进制文件结构和系列化规则。
   - 所谓序列化，简单地说就是那内存中的数据在不丢失其类型信息的情况下**转成对象的二进制形式**的过程，对象序列化后的形式经过**正确的反序列化过程**应该能够准确无误的恢复原来的对象。
- Python中常用的序列化模块有struct，pickle，marshal，shelve。<br>

### 使用pickle模块读写二进制文件
- 提供的dump()方法用于将数据序列化写入文件
- load()用于读取二进制文件内容并进行反序列化

**例1：**使用pickle模块读写二进制文件

In [12]:
import pickle
n = 7
i = 13000000
a = 99.056
s = '中国人民 abc123'
lst = [[1,2,3],[4,5,6],[7,8,9]]
tu = (-5,10,8)
coll = {4,5,6}
dic = {'a':'apple','b':'boy','c':'compare'}
f = open('sample_pickle.txt','wb')
data = [i,a,s,lst,tu,coll,dic]
try:
    '''
    pickle.dump(n,f) #对象个数
    pickle.dump(i,f) #写入整数
    pickle.dump(a,f) #写入实数
    pickle.dump(s,f) #写入字符串
    pickle.dump(lst,f) #写入列表
    pickle.dump(tu,f) #写入元组
    pickle.dump(coll,f) #写入集合
    pickle.dump(dic,f) #写入字典
    '''
    pickle.dump(len(data),f)
    for item in data:
        pickle.dump(item,f)
except:
    print('写文件异常')
finally:
    f.close()

**例2：**使用pickle模块读取sample_pickle.txt中的内容

In [13]:
f = open('sample_pickle.txt','rb')
n = pickle.load(f)
for i in range(n):
    x = pickle.load(f)
    print(x)
f.close()

13000000
99.056
中国人民 abc123
[[1, 2, 3], [4, 5, 6], [7, 8, 9]]
(-5, 10, 8)
{4, 5, 6}
{'a': 'apple', 'b': 'boy', 'c': 'compare'}


### 使用struct模块读写二进制文件
- 使用struct模块需要使用pack()方法把对象按照指定个数进行序列化，然后使用文件对象write()方法将序列化结果写入二进制文件
- 读取时需要使用read()方法读取二进制文件的内容
- 然后使用struct模块的unpack()方法反序列化得到原来的信息

写入

In [14]:
import struct 
n = 130000000
x = 96.45
b = True
s = 'a1@中国'
sn = struct.pack('if?',n,x,b) 
f = open('sample_struct.txt','wb')
f.write(sn)
f.write(s.encode())
f.close()

读取

In [15]:
import struct
f = open('sample_struct.txt','rb')
sn = f.read(9)
tu = struct.unpack('if?',sn)
print(tu)
n,x,b1 = tu
print("n = ",n,'x = ',x,'b1 = ',b1)
s = f.read(9)
s = s.decode()
print('s = ',s)

(130000000, 96.44999694824219, True)
n =  130000000 x =  96.44999694824219 b1 =  True
s =  a1@中国


### 使用marshal模块操作二进制文件

In [16]:
import marshal
x1 = 30
x2 = 5.0
x3 = [1,2,3]
x4 = (4,5,6)
x5 = {'a':1,'b':2,'c':3}
x6 = {7,8,9}
x = [eval('x'+str(i)) for i in range(1,7)]
x

[30, 5.0, [1, 2, 3], (4, 5, 6), {'a': 1, 'b': 2, 'c': 3}, {7, 8, 9}]

In [17]:
with open('sample_marshal.txt','wb') as fp: #创建二进制文件
    marshal.dump(len(x),fp) #先写入对象的个数
    for item in x:
        marshal.dump(item,fp) #把列表中的对象依次序列化写入文件
with open('sample_marshal.txt','rb') as fp: #打开二进制文件
    n = marshal.load(fp) #获取对象个数
    for i in range(n):
        print(marshal.load(fp)) #反序列化，输出结果

30
5.0
[1, 2, 3]
(4, 5, 6)
{'a': 1, 'b': 2, 'c': 3}
{8, 9, 7}


### 使用shelve模块操作二进制文件
可以像字典赋值一样来写入二进制文件
也可以向字典一样读取二进制文件
（有没有点像C++STL中的map）

In [26]:
import shelve #导入模块
fp = shelve.open('sample_shelve.txt')
zhangsan = {'age':38,'sex':'Male','Address':'SDIBT'}
fp['zhangsan'] = zhangsan #写入文件内容
lisi = {'age':40,'sex':'Male','qq':'1234567','tel':'7654321'}
fp['lisi'] = lisi #写入文件内容
fp.close()

In [27]:
fp = shelve.open('sample_shelve.txt')
print(fp['lisi']['age'])

40


In [28]:
print(fp['lisi']['qq'])

1234567


In [29]:
fp.close()