# 第7章 文件和数据格式化
## 7.1 文件的使用
### 7.1.1 文件概述
* 文件是数据的抽象和集合
    * 文件是存储在辅助存储器上的数据序列
    * 文件是数据存储的一种形式
    * 文件展现形态：文本文件和二进制文件
* 文件文件和二进制文件只是文件的展示方式
    * 本质上：所有文件都是二进制形式存储
    * 形式上：所有文件采用两种方式展示
* 文本文件由**单一特定编码**组成的文件，如UTF-8编码
    * 由于存在编码，也被看成是存储着的长字符串
    * 适用于例如：.txt文件、.py文件等
* 二进制文件直接由比特0和1组成，没有统一字符编码
    * 一般存在二进制0和1的组织结构，即文件格式
    * 适用于例如：.png文件、.avi文件等   

In [2]:
#t表示文本文件方式
textFile = open("../file/7-1.txt","rt") 
print(textFile.readline())
textFile.close()
#b表示二进制文件方式
binFile = open("../file/7-1.txt","rb") 
print(binFile.readline())
binFile.close()

中国是一个伟大的国家！
b'\xd6\xd0\xb9\xfa\xca\xc7\xd2\xbb\xb8\xf6\xce\xb0\xb4\xf3\xb5\xc4\xb9\xfa\xbc\xd2\xa3\xa1'


* 采用文本方式读入文件，文件经过编码形成字符串，打印出有含义的字符。
* 采用二进制方式打开文件，文件被解析为字节流，且由于存在编码，所以字符串中的一个字符由两个字节表示。

### 7.1.2 文件的打开关闭
* 文件处理的步骤: 打开->操作->关闭

![](../picture/fileopenclose.png)

* Python通过内置函数`open()`函数打开一个文件，并实现该文件与一个程序变量的关联，`open()`函数格式如下：
```python
<变量名> = open(<文件名>, <打开模式>)
```
* `open()`函数的两个参数：
    * 文件名：文件名可以是文件的实际名字，也可以是包含完整路径的名字。
    * 打开模式：用于控制使用何种方式打开文件。

|打开模式|含义|
|:-:|:-:|
|`'r'`|只读模式，如果文件不存在，返回异常`FileNotFoundError`，默认值|
|`'w'`|覆盖写模式，文件不存在则创建，存在则完全覆盖|
|`'x'`|创建写模式，文件不存在则创建，存在则返回异常`FileExistsError`|
|`'a'`|追加写模式，文件不存在则创建，存在则在文件最后追加内容|
|`'b'`|二进制文件模式|
|`'t'`|文本文件模式，默认值|
|`'+'`|与r/w/x/a一同使用，在原功能基础上增加同时读写功能|

* 上述打开模式r/w/x/b可以与b/t/+组合使用，形成既表达读写又表达文件模式的方式。 
```python
f = open("f.txt") #文本形式、只读模式、默认值
f = open("f.txt", "rt") #文本形式、只读模式、同默认值
f = open("f.txt", "w") #文本形式、覆盖写模式
f = open("f.txt", "a+") #文本形式、追加写模式+读文件
f = open("f.txt", "x") #文本形式、创建写模式
f = open("f.txt", "b") #二进制形式、只读模式
f = open("f.txt", "wb") #二进制形式、覆盖写模式
```

* 文件内容读取方法

|操作方法|含义|
|:-:|:-:|
|`<file>.readall()`|读入整个文件内容，返回一个字符串或字节流|
|`<file>.read(size=-1)`|从文件中读入整个文件内容，如果给出参数，读入前`size`长度的字符串或字节流|
|`<file>.readline(size=-1)`|从文件中读入一行内容，如果给出参数，读入该行前`size`长度的字符串或字节流|
|`<file>.readline(hint=-1)`|从文件中读入所有行，以每行为元素形成一个列表，如果给出参数，读入`hint`行|

>**实例**：文本文件逐行打印
```python
fname = input("请输入要打开的文件：")
fo = open(fname, "r")
for line in fo.readlines():
    print(line)
fo.close()
```
文件的全部内容通过`fo.readlines()`方法读入到一个列表中，列表的每个元素是文件一行的内容，然后通过`for-in`方式遍历列表，处理每行内容。

* 当读入文件非常大时，上面的代码一次性讲内容读取到列表中会占用很多内存，影响程序的执行速度，可以逐行读入内容到内存并逐行处理。
```python
fname = input("请输入要打开的文件：")
fo = open(fname, "r")
for line in fo:
    print(line)
fo.close()
```

* Python提供3个与文件内容写入有关的方法

|方法|含义|
|:-:|:-:|
|`<file>.write(s)`|向文件写入一个字符串或字节流|
|`<file>.writelines(lines)`|将一个元素全为字符串的列表写入文件|
|`<file>.seek(offset)`|改变当前文件操作指针的位置，offset的值：0-文件开头，1-当前位置，2-文件结尾|

In [3]:
fname = input("请输入要写入的文件：")
fo = open("../file/"+fname, "w+")
ls = ["唐诗", "宋词", "元曲"]
fo.writelines(ls)
for line in fo:
    print(line)
fo.close()

请输入要写入的文件：test.txt


* 上面的代码我们发现并没有输出test.txt文件中的内容
* 可以在写入文件后增加一条代码`fo.seek(0)`，将文件操作指针返回到文件开始。

In [4]:
fname = input("请输入要写入的文件：")
fo = open("../file/"+fname, "w+")
ls = ["唐诗", "宋词", "元曲"]
fo.writelines(ls)
fo.seek(0)
for line in fo:
    print(line)
fo.close()

请输入要写入的文件：test.txt
唐诗宋词元曲


* 这里还要注意`fo.writelines()`方法并不在列表后面增加换行，只是将列表内容直接排列输出。

### 7.2.1 PIL库概述
* Anaconda全家桶已经装好了pillow包，因此不需要像教材中那样安装，可以直接用。
* PIL库支持图像存储、显示和处理，几乎支持所有图片格式，可以完成对图像的缩放、剪裁、叠加以及向图像添加线条、图像和文字等操作。
* PIL库主要可以实现图像归档和图像处理两方面功能：
    * 图像归档：对图像进行批处理、生成图像预览、图像格式转换等。
    * 图像处理：图像基本处理、像素处理、颜色处理等。
* PIL库的详细参考文档链接如下：[Pillow](https://pillow.readthedocs.io/en/stable/)
* 任何一个图像文件都可以用PIL包中的Image对象表示。
* Image类的图像读取和创建方法

|方法|描述|
|:-:|:-:|
|Image.open(filename)|根据参数加载图像文件|
|Image.new(mode, size, color)|根据给定参数创建一个新的图像|
|Image.open(StringIO.StringIO(buffer))|从字符串中获取图像|
|Image.frombytes(mode, size, data)|根据像素点`data`创建图像|
|Image.verify()|对图像文件完整性进行检查，返回异常|



In [13]:
from PIL import Image
im = Image.open("../picture/birdnest.jpg")
im.show()
print(im.format, im.size, im.mode)

JPEG (641, 350) RGB


* Image还可以读取序列类图像文件，包括GIF、FLI、FLC、TIFF等格式文件。
    * `open()`方法打开一个图像时自动加载序列中的第一帧。
    * 使用`seek()`和`tell()`方法可以在不同帧之间移动。
* Image类的序列图像操作方法

|方法|描述|
|:-:|:-:|
|`Image.seek(frame)`|跳转并返回图像中的指定帧|
|`Image.tell()`|返回当前帧的序号|

In [16]:
from PIL import Image
im = Image.open("../picture/mario.gif") # 读入GIF文件
try:
    im.save("C:/Users/yuang/Desktop/gifframes/picframe{:02d}.png".format(im.tell()))
    while True:
        im.seek(im.tell()+1)
        im.save("C:/Users/yuang/Desktop/gifframes/picframe{:02d}.png".format(im.tell()))
except:
    print("处理结束")

处理结束
