# 9 文件输入输出操作

## 9.1 open内置函数


Python的`open`函数用于打开一个文件，并返回文件对象，在对文件进行处理过程都需要使用到这个函数，如果该文件无法被打开，会抛出`OSError`。

<b><font color=blue>注意：使用`open`函数一定要保证关闭文件对象，即调用`close`函数。</font></b>

open() 函数常用形式是接收两个参数：文件名(file)和模式(mode)。

基本用法为`file_object = open(file, mode)`

 - `file`是参数必需指定，表示文件路径（**相对**或者**绝对**路径）；
 - `mode`是可选参数，表示文件打开模式。

In [1]:
# 打开和该jupyter notebook在同一文件夹下的文本文件，r表示以只读方式打开
f = open('./2020年12月四级真题第3套.txt','r')

In [2]:
# 将文件中的内容全部读取并保存到变量cet_4_test中
cet_4_test = f.read()

In [3]:
# 将文件对象关闭
f.close()

In [4]:
# 查看cet_4_test的类型
type(cet_4_test)

str

In [5]:
# 打印输出字符串cet_4_test的前100个字符
print(cet_4_test[:100])

机密*启用前
大 学 英 语 四 级 考 试
COLLEGE ENGLISH TEST
—Band Four—
(2020年12月第3套)
试 题 册

敬 告 考 生

一、在答题前，请认真完成以下


In [6]:
# 打印输出字符串cet_4_test的后100个字符
print(cet_4_test[-100:])

.I
Section C
46.C		47.B		48.D 	49.A 	50. D 	51.A	 	52.C 	53.D 	54.B 	55.C

Part IV   Translation
见解析


### 文件路径名

**绝对路径名**：是从盘符开始直到文件本身的文件名。

例如，Windows操作系统下：

```
D:\programming_basics\index.html
D:\anaconda3\LICENSE.txt
```

例如，Linux操作系统下：

```
/home/zjz/programming_basics/index.html
/usr/local/anaconda3/LICENSE.txt
```

Mac操作系统与Linux操作系统类似。

**相对路径名**：是从**当前目录**到文件本身的文件名。例如，当前目录是`lecture_9`，要打开的文件是这个目录下`lecture_9.ipynb`，则相对路径文件名就是`lecture_9.ipynb`。

在表示相对路径时，`.`可以表示当前目录名，`..`可以表示当前目录的上一级目录名。

例如，下面是`codes`文件夹的目录树，假如当前文件夹为`lecture_9`：

```
├── lecture_1
│   ├── BMI_calculation.ipynb
│   ├── BMI_calculation.py
│   ├── imgs
│   │   ├── bit_byte.jpg
│   │   ├── maiyouweng.jpg
│   │   ├── while.gif
│   │   └── while.jpg
│   └── lecture_1.ipynb
├── lecture_2
│   └── lecture_2.ipynb
└── lecture_9
    ├── 2020年12月四级真题第3套.docx
    ├── 2020年12月四级真题第3套.txt
    └── lecture_9.ipynb

4 directories, 11 files
```

文件`lecture_9.ipynb`的相对路径可以表示为`./lecture_9.ipynb`（Linux和Mac中）或者`.\lecture_9.ipynb`（Windows中）。

文件`lecture_2.ipynb`的相对路径可以表示为`../lecture_2/lecture_2.ipynb`（Linux和Mac中）或者`..\lecture_2\lecture_2.ipynb`（Windows中）。

<b><font color=red>思考题：</font></b>根据上面的`codes`文件夹的目录树，思考一下，假如当前文件夹为`lecture_2`，文件`bit_byte.jpg`的相对路径如何表示。

### 打开模式

`mode`：表示打开文件的访问模式，常用的模式有有只读`r`、写入`w`和追加`a`，其缺省值是只读`r`。

`mode`参数取值完整列表如下：

<tbody><tr><th style="width:10%">文件格式</th><th>描述</th></tr>
<tr><td>t</td><td>文本模式 (默认)。</td></tr>
<tr><td>b</td><td>二进制模式。</td></tr>
<tr><th style="width:10%">读写模式</th><th>描述</th></tr>
<tr><td>x</td><td>写模式，新建一个文件，如果该文件已存在则会报错。</td></tr>
<tr><td>+</td><td>打开一个文件进行更新(可读可写)。</td></tr>
<tr><td>U</td><td>通用换行模式（不推荐）。</td></tr>
<tr><td>r</td><td>以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。</td></tr>
<tr><td>rb</td><td>以二进制格式打开一个文件用于只读。文件指针将会放在文件的开头。这是默认模式。一般用于非文本文件如图片等。</td></tr>
<tr><td>r+</td><td>打开一个文件用于读写。文件指针将会放在文件的开头。</td></tr>
<tr><td>rb+</td><td>以二进制格式打开一个文件用于读写。文件指针将会放在文件的开头。一般用于非文本文件如图片等。</td></tr>
<tr><td>w</td><td>打开一个文件只用于写入。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被删除。如果该文件不存在，创建新文件。</td></tr>
<tr><td>wb</td><td>以二进制格式打开一个文件只用于写入。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被删除。如果该文件不存在，创建新文件。一般用于非文本文件如图片等。</td></tr>
<tr><td>w+</td><td>打开一个文件用于读写。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被删除。如果该文件不存在，创建新文件。</td></tr> 
<tr><td>wb+</td><td>以二进制格式打开一个文件用于读写。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被删除。如果该文件不存在，创建新文件。一般用于非文本文件如图片等。</td></tr>


<tr><td>a</td><td>打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，创建新文件进行写入。</td></tr> 
<tr><td>ab</td><td>以二进制格式打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，创建新文件进行写入。</td></tr> 
<tr><td>a+</td><td>打开一个文件用于读写。如果该文件已存在，文件指针将会放在文件的结尾。文件打开时会是追加模式。如果该文件不存在，创建新文件用于读写。</td></tr> 
<tr><td>ab+</td><td>以二进制格式打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。如果该文件不存在，创建新文件用于读写。</td></tr>
</tbody>

<b><font color=blue>注意：`mode`参数的默认文件格式为`t`，即文本模式，如果要以二进制模式打开，需要在读写模式后加上`b`</font></b>

例如，下面打开文本文件`2020年12月四级真题第3套.txt`的两行代码是等价的：

- `f = open('./2020年12月四级真题第3套.txt','r')`
- `f = open('./2020年12月四级真题第3套.txt','rt')`

<b><font color=blue>思考题：</font></b>

下面两行代码等价吗：

- `f = open('/home/zjz/programming_basics/files/codes/lecture_1/imgs/maiyouweng.jpg','r')`
- `f = open('/home/zjz/programming_basics/files/codes/lecture_1/imgs/maiyouweng.jpg','rb')`

<b><font color=Chocolate>拓展学习：</font></b>
<a href="http://c.biancheng.net/view/2175.html" target="_blank">Python bytes类型及用法</a>

### 常用的文件打开模式

- `r`	只读
- `w`	全新写入，文件不存在则创建
- `a`	追加，**文件不存在则创建**
- `+`	可读可写
- `b`	二进制格式，对于图片和视频需要设置`b`

文件访问模式的组合：`r/w/a[b][+]`，`r`,`w`,`a`设定基本模式，读、写或是追加

- `b`和`+`可选，`b`表示二进制文件格式，`+`表示在原有基础上可读可写

例如：`rb+`表示以二进制打开一个文件，可读可写，若文件不存在不会创建，`wb+`，表示以二进制形式打开一个文件，可读可写，若文件不存在则创建一个。

## 9.2 文件内置方法 

#### 读文件

- `read`方法用来直接读取字节到字符串中，最多读取给定数目个字节. 如果没有给定`size`参数(默认值为 -1)或者`size`值为负, 文件将被读取直至末尾；

- `readline`方法读取打开文件的一行（读取下个行结束符之前的所有字节）， 然后，整行，包括行结束符，作为字符串返回，和`read`相同, 它也有一个可选的`size`参数, 默认为-1，代表读至行结束符，如果提供了该参数，那么在超过size个字节后会返回不完整的行。

- `readlines`方法并不像其它两个输入方法一样返回一个字符串，它会读取所有（剩余的）行然后把它们作为一个**字符串列表**返回。

#### 写文件

- `write`方法、功能与`read`和`readline`相反，它把含有文本数据或二进制数据块的字符串写入到文件中去；

- `writelines`提高效率，将列表元素拼接后写入文件；

- 没有对应的`writeline`的函数。

### 读文件练习

下面以海子的抒情诗《面朝大海，春暖花开》为例，演示文件操作，当前文件夹中的文本文件`text.txt`保存诗歌文本。

In [7]:
# 打开文本文件，全部读取并赋值给变量content
f = open('./text.txt') # f = open('./text.txt','r') 或 f = open('./text.txt', 'rt')
content = f.read()
f.close()

In [8]:
type(content)

str

In [9]:
print(content)

从明天起，做一个幸福的人
喂马、劈柴、周游世界
从明天起，关心粮食和蔬菜
我有一所房子，面朝大海，春暖花开

从明天起，和每一个亲人通信
告诉他们我的幸福
那幸福的闪电告诉我的
我将告诉每一个人

给每一条河每一座山取一个温暖的名字
陌生人，我也为你祝福
愿你有一个灿烂的前程
愿你有情人终成眷属
愿你在尘世获得幸福
我只愿面朝大海，春暖花开



In [10]:
# 打开文本文件，读取指定长度的字符串，并赋值给变量content
f = open('./text.txt','r')
content = f.read(10)
f.close()

In [11]:
content

'从明天起，做一个幸福'

In [12]:
len(content)

10

In [13]:
# 打开文本文件，读取指定大小的字节串（in bytes），并赋值给变量content
f = open('./text.txt','rb')
content = f.read(98)
f.close()

In [14]:
content

b'\xe4\xbb\x8e\xe6\x98\x8e\xe5\xa4\xa9\xe8\xb5\xb7\xef\xbc\x8c\xe5\x81\x9a\xe4\xb8\x80\xe4\xb8\xaa\xe5\xb9\xb8\xe7\xa6\x8f\xe7\x9a\x84\xe4\xba\xba\n\xe5\x96\x82\xe9\xa9\xac\xe3\x80\x81\xe5\x8a\x88\xe6\x9f\xb4\xe3\x80\x81\xe5\x91\xa8\xe6\xb8\xb8\xe4\xb8\x96\xe7\x95\x8c\n\xe4\xbb\x8e\xe6\x98\x8e\xe5\xa4\xa9\xe8\xb5\xb7\xef\xbc\x8c\xe5\x85\xb3\xe5\xbf\x83\xe7\xb2\xae\xe9\xa3\x9f\xe5\x92\x8c'

In [15]:
type(content)

bytes

上面的结果中`b`表示`bytes`类型，`\x`表示十六进制。回忆一下，Python中十六进制数以什么符号开头。

In [16]:
# 将字节串转换为字符串
content_str = content.decode('UTF-8')

In [17]:
content_str

'从明天起，做一个幸福的人\n喂马、劈柴、周游世界\n从明天起，关心粮食和'

In [18]:
type(content_str)

str

In [19]:
len(content_str)

34

`UTF-8`规定英文字母系列用1个字节（byte）表示，汉字用3个字节。`content_str`中包含两个英文字符`\n`,`\n`和32个中文字符，因此，$32 \times 3 + 2 = 98$，如果读取长度为100的字节串，则字节串转按照以`UTF-8`编码转化为字符串时会出错。执行如下代码试试：

In [20]:
# f = open('./text.txt','rb')
# content = f.read(100)
# f.close()
# content_str = content.decode('UTF-8')

In [21]:
import sys
sys.getsizeof(content_str)

142

<b><font color=Chocolate>拓展学习：</font></b>
<a href="https://blog.csdn.net/lyb3b3b/article/details/74993327" target="_blank">Python3中的bytes和str类型</a>

回忆一下lecture_1中讲到的`sys.getsizeof`函数，它用于获取python对象占用内存空间的大小，注意区分：

- 142 bytes是字符串变量`content_str`在内存中占用空间的大小；
- 98 bytes是UTF-8编码的字符串`从明天起，做一个幸福的人\n喂马、劈柴、周游世界\n从明天起，关心粮食和`的大小。

In [22]:
# 打开文本文件，读取一行并赋值给变量content
f = open('./text.txt','r')
content = f.readline()
f.close()

In [23]:
print(content)

从明天起，做一个幸福的人



In [24]:
# 注意content字符串包含换行符\n
content

'从明天起，做一个幸福的人\n'

In [25]:
# 打开文本文件，读取全部内容，并以列表形式返回结果
# 列表中的每一个元素表示文件中的一行
# 将返回的列表赋值给变量content
f = open('./text.txt','r')
content = f.readlines()
f.close()

In [26]:
type(content)

list

In [27]:
len(content)

16

In [28]:
# 遍历并打印出列表content中的全部内容
for line in content:
    print(line)

从明天起，做一个幸福的人

喂马、劈柴、周游世界

从明天起，关心粮食和蔬菜

我有一所房子，面朝大海，春暖花开



从明天起，和每一个亲人通信

告诉他们我的幸福

那幸福的闪电告诉我的

我将告诉每一个人



给每一条河每一座山取一个温暖的名字

陌生人，我也为你祝福

愿你有一个灿烂的前程

愿你有情人终成眷属

愿你在尘世获得幸福

我只愿面朝大海，春暖花开



下面使用`open`函数读取图片、音频、视频文件，mode参数要加上`b`，以二进制格式读取文件内容，否则，以文本格式读取文件内容会出错，因为这些非文本格式的文件的二进制表示无法被正确地转换为任何一种有效的字符编码（如UTF-8，UTF-16，GBK等）。

<b><font color=red>注意：</font></b>通常使用专门的包（package）处理（读取、写入、修改等）图片、音频、视频等文件，而不显式地直接使用`open`方法，下面使用`open`方法读取图片和音视频的代码仅用于深入理解`open`函数。

In [29]:
# 读取图片文件
f = open('./image.jpeg', 'rb')
img_content = f.readline()
f.close()
img_content

b'\xff\xd8\xff\xe1\x1fPExif\x00\x00MM\x00*\x00\x00\x00\x08\x00\x0c\x01\x00\x00\x03\x00\x00\x00\x01\x04\x00\x00\x00\x01\x01\x00\x03\x00\x00\x00\x01\x02\x9e\x00\x00\x01\x02\x00\x03\x00\x00\x00\x03\x00\x00\x00\x9e\x01\x06\x00\x03\x00\x00\x00\x01\x00\x02\x00\x00\x01\x12\x00\x03\x00\x00\x00\x01\x00\x01\x00\x00\x01\x15\x00\x03\x00\x00\x00\x01\x00\x03\x00\x00\x01\x1a\x00\x05\x00\x00\x00\x01\x00\x00\x00\xa4\x01\x1b\x00\x05\x00\x00\x00\x01\x00\x00\x00\xac\x01(\x00\x03\x00\x00\x00\x01\x00\x02\x00\x00\x011\x00\x02\x00\x00\x00\x1e\x00\x00\x00\xb4\x012\x00\x02\x00\x00\x00\x14\x00\x00\x00\xd2\x87i\x00\x04\x00\x00\x00\x01\x00\x00\x00\xe8\x00\x00\x01 \x00\x08\x00\x08\x00\x08\x00\n'

In [30]:
type(img_content)

bytes

In [31]:
# 读取图片文件
f = open('./image.jpeg', 'rb')
img_content = f.readlines()
f.close()
img_content

[b'\xff\xd8\xff\xe1\x1fPExif\x00\x00MM\x00*\x00\x00\x00\x08\x00\x0c\x01\x00\x00\x03\x00\x00\x00\x01\x04\x00\x00\x00\x01\x01\x00\x03\x00\x00\x00\x01\x02\x9e\x00\x00\x01\x02\x00\x03\x00\x00\x00\x03\x00\x00\x00\x9e\x01\x06\x00\x03\x00\x00\x00\x01\x00\x02\x00\x00\x01\x12\x00\x03\x00\x00\x00\x01\x00\x01\x00\x00\x01\x15\x00\x03\x00\x00\x00\x01\x00\x03\x00\x00\x01\x1a\x00\x05\x00\x00\x00\x01\x00\x00\x00\xa4\x01\x1b\x00\x05\x00\x00\x00\x01\x00\x00\x00\xac\x01(\x00\x03\x00\x00\x00\x01\x00\x02\x00\x00\x011\x00\x02\x00\x00\x00\x1e\x00\x00\x00\xb4\x012\x00\x02\x00\x00\x00\x14\x00\x00\x00\xd2\x87i\x00\x04\x00\x00\x00\x01\x00\x00\x00\xe8\x00\x00\x01 \x00\x08\x00\x08\x00\x08\x00\n',
 b"\xfc\x80\x00\x00'\x10\x00\n",
 b"\xfc\x80\x00\x00'\x10Adobe Photoshop CS6 (Windows)\x002020:02:06 01:04:41\x00\x00\x00\x00\x04\x90\x00\x00\x07\x00\x00\x00\x040221\xa0\x01\x00\x03\x00\x00\x00\x01\xff\xff\x00\x00\xa0\x02\x00\x04\x00\x00\x00\x01\x00\x00\x01\x90\xa0\x03\x00\x04\x00\x00\x00\x01\x00\x00\x00\xe7\x00\x00\x00\x

In [32]:
# 读取图片文件
f = open('./image.jpeg', 'rb')
img_content = f.read()
f.close()
img_content

b'\xff\xd8\xff\xe1\x1fPExif\x00\x00MM\x00*\x00\x00\x00\x08\x00\x0c\x01\x00\x00\x03\x00\x00\x00\x01\x04\x00\x00\x00\x01\x01\x00\x03\x00\x00\x00\x01\x02\x9e\x00\x00\x01\x02\x00\x03\x00\x00\x00\x03\x00\x00\x00\x9e\x01\x06\x00\x03\x00\x00\x00\x01\x00\x02\x00\x00\x01\x12\x00\x03\x00\x00\x00\x01\x00\x01\x00\x00\x01\x15\x00\x03\x00\x00\x00\x01\x00\x03\x00\x00\x01\x1a\x00\x05\x00\x00\x00\x01\x00\x00\x00\xa4\x01\x1b\x00\x05\x00\x00\x00\x01\x00\x00\x00\xac\x01(\x00\x03\x00\x00\x00\x01\x00\x02\x00\x00\x011\x00\x02\x00\x00\x00\x1e\x00\x00\x00\xb4\x012\x00\x02\x00\x00\x00\x14\x00\x00\x00\xd2\x87i\x00\x04\x00\x00\x00\x01\x00\x00\x00\xe8\x00\x00\x01 \x00\x08\x00\x08\x00\x08\x00\n\xfc\x80\x00\x00\'\x10\x00\n\xfc\x80\x00\x00\'\x10Adobe Photoshop CS6 (Windows)\x002020:02:06 01:04:41\x00\x00\x00\x00\x04\x90\x00\x00\x07\x00\x00\x00\x040221\xa0\x01\x00\x03\x00\x00\x00\x01\xff\xff\x00\x00\xa0\x02\x00\x04\x00\x00\x00\x01\x00\x00\x01\x90\xa0\x03\x00\x04\x00\x00\x00\x01\x00\x00\x00\xe7\x00\x00\x00\x00\x00\x00\

In [33]:
# 读取音频文件
f = open('./audio.mp3', 'rb')
audio_content = f.read()
f.close()
audio_content

b'ID3\x04\x00\x00\x00\x00\x01\x00TXXX\x00\x00\x00\x12\x00\x00\x03major_brand\x00dash\x00TXXX\x00\x00\x00\x11\x00\x00\x03minor_version\x000\x00TXXX\x00\x00\x00\x1c\x00\x00\x03compatible_brands\x00iso6mp41\x00TSSE\x00\x00\x00\x0f\x00\x00\x03Lavf58.19.102\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\xff\xfb\x90\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00Info\x00\x00\x00\x0f\x00\x00\x00\x91\x00\x00\xee]\x00\x05\x07\n\x0c\x0f\x11\x15\x16\x1a\x1c\x1d!#&(+-12689=?BDGIMNPTUY[^`ceijlpquwz|\x7f\x81\x83\x87\x88\x8c\x8e\x91\x93\x96\x98\x9c\x9d\x9f\xa3\xa4\xa8\xaa\xad\xaf\xb2\xb4\xb6\xb9\xbb\xbf\xc0\xc4\xc6\xc9\xcb\xce\xd0\xd2\xd5\xd7\xdb\xdc\xe0\xe2\xe5\xe7\xe9\xec\xee\xf1\xf3\xf7\xf8\xfc\xfe\x00\x00\x00\x00Lavc58.34\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00$\x06@\x00\x00\x00\x00\x00\x00\xee]\xe1\x08\xb3\xbc\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00

In [34]:
# 读取音频文件
f = open('./audio.mp3', 'rb')
audio_content = f.readline()
f.close()
audio_content

b'ID3\x04\x00\x00\x00\x00\x01\x00TXXX\x00\x00\x00\x12\x00\x00\x03major_brand\x00dash\x00TXXX\x00\x00\x00\x11\x00\x00\x03minor_version\x000\x00TXXX\x00\x00\x00\x1c\x00\x00\x03compatible_brands\x00iso6mp41\x00TSSE\x00\x00\x00\x0f\x00\x00\x03Lavf58.19.102\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\xff\xfb\x90\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00Info\x00\x00\x00\x0f\x00\x00\x00\x91\x00\x00\xee]\x00\x05\x07\n'

In [35]:
# 读取音频文件
f = open('./audio.mp3', 'rb')
audio_content = f.readlines()
f.close()
audio_content

[b'ID3\x04\x00\x00\x00\x00\x01\x00TXXX\x00\x00\x00\x12\x00\x00\x03major_brand\x00dash\x00TXXX\x00\x00\x00\x11\x00\x00\x03minor_version\x000\x00TXXX\x00\x00\x00\x1c\x00\x00\x03compatible_brands\x00iso6mp41\x00TSSE\x00\x00\x00\x0f\x00\x00\x03Lavf58.19.102\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\xff\xfb\x90\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00Info\x00\x00\x00\x0f\x00\x00\x00\x91\x00\x00\xee]\x00\x05\x07\n',
 b"\x0c\x0f\x11\x15\x16\x1a\x1c\x1d!#&(+-12689=?BDGIMNPTUY[^`ceijlpquwz|\x7f\x81\x83\x87\x88\x8c\x8e\x91\x93\x96\x98\x9c\x9d\x9f\xa3\xa4\xa8\xaa\xad\xaf\xb2\xb4\xb6\xb9\xbb\xbf\xc0\xc4\xc6\xc9\xcb\xce\xd0\xd2\xd5\xd7\xdb\xdc\xe0\xe2\xe5\xe7\xe9\xec\xee\xf1\xf3\xf7\xf8\xfc\xfe\x00\x00\x00\x00Lavc58.34\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00$\x06@\x00\x00\x00\x00\x00\x00\xee]\xe1\x08\xb3\xbc\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\

In [36]:
# 读取视频文件
f = open('./video.mp4', 'rb')
video_content = f.read()
f.close()
video_content

b'\x00\x00\x00 ftypisom\x00\x00\x02\x00isomiso2avc1mp41\x00\x00\x11\xe0moov\x00\x00\x00lmvhd\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x03\xe8\x00\x00\x10\xc8\x00\x01\x00\x00\x01\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x01\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x01\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00@\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x03\x00\x00\x07\xb6trak\x00\x00\x00\\tkhd\x00\x00\x00\x03\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x01\x00\x00\x00\x00\x00\x00\x10\x90\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x01\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x01\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00@\x00\x00\x00\x02\xba\x00\x00\x01\xe0\x00\x00\x00\x00\x00$edts\x00\x00\x00\x1celst\x00\x00\x00\x00\x00\x00\x00\x01\x00\x00\x10\x90\x00\x00\x02\x80\x00\x01\x00\x00\x00\x00\x07.mdia\x00\x

In [37]:
# 读取视频文件
f = open('./video.mp4', 'rb')
video_content = f.readline()
f.close()
video_content

b'\x00\x00\x00 ftypisom\x00\x00\x02\x00isomiso2avc1mp41\x00\x00\x11\xe0moov\x00\x00\x00lmvhd\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x03\xe8\x00\x00\x10\xc8\x00\x01\x00\x00\x01\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x01\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x01\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00@\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x03\x00\x00\x07\xb6trak\x00\x00\x00\\tkhd\x00\x00\x00\x03\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x01\x00\x00\x00\x00\x00\x00\x10\x90\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x01\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x01\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00@\x00\x00\x00\x02\xba\x00\x00\x01\xe0\x00\x00\x00\x00\x00$edts\x00\x00\x00\x1celst\x00\x00\x00\x00\x00\x00\x00\x01\x00\x00\x10\x90\x00\x00\x02\x80\x00\x01\x00\x00\x00\x00\x07.mdia\x00\x

In [38]:
# 读取视频文件
f = open('./video.mp4', 'rb')
video_content = f.readlines()
f.close()
video_content

[b'\x00\x00\x00 ftypisom\x00\x00\x02\x00isomiso2avc1mp41\x00\x00\x11\xe0moov\x00\x00\x00lmvhd\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x03\xe8\x00\x00\x10\xc8\x00\x01\x00\x00\x01\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x01\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x01\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00@\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x03\x00\x00\x07\xb6trak\x00\x00\x00\\tkhd\x00\x00\x00\x03\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x01\x00\x00\x00\x00\x00\x00\x10\x90\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x01\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x01\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00@\x00\x00\x00\x02\xba\x00\x00\x01\xe0\x00\x00\x00\x00\x00$edts\x00\x00\x00\x1celst\x00\x00\x00\x00\x00\x00\x00\x01\x00\x00\x10\x90\x00\x00\x02\x80\x00\x01\x00\x00\x00\x00\x07.mdia\x00\

**图像处理**：常用的处理图像的Python包有：`Pillow`，`Matplotlib`，`opencv-python`，`scikit-image`。有些包Anaconda中未包含，需要使用`pip`命令安装。

In [39]:
# 使用matplotlib显示图像
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
import numpy as np
I = mpimg.imread('./image.jpeg')
plt.imshow(I)

<matplotlib.image.AxesImage at 0x7f7216049f60>

<b><font color=Chocolate>拓展学习：</font></b>
<a href="https://blog.csdn.net/hjxu2016/article/details/79104607" target="_blank">python读取图像的几种方法</a>

<b><font color=red>思考题</font></b>：通过查询网络资料，了解常用的图像、音频、视频处理Python包，了解其各个包的优缺点和应用领域，了解各个包的基本用法。

**音频处理**：常用的处理音频的Python包有：`librosa`，`soundfile`，`wave`，`pydub`。有些包Anaconda中未包含，需要使用`pip`命令安装。

<b><font color=Chocolate>拓展学习：</font></b>

<a href="https://segmentfault.com/a/1190000020905581" target="_blank">Python3.7 读取 mp3 音频文件生成波形图</a>

<a href="https://blog.csdn.net/lujian1989/article/details/110479941" target="_blank">python读写音频文件小结</a>

**视频处理**：常用的处理音频的Python包有：`imageio`，`opencv-python`。有些包Anaconda中未包含，需要使用`pip`命令安装。

<b><font color=Chocolate>拓展学习：</font></b>
<a href="https://blog.csdn.net/aa846555831/article/details/52382173" target="_blank">Python: 读取视频的两种方法（imageio和cv2）</a>

### 写文件练习

下面，以文本文件为例，练习文件的写入方法`write`和`writelines`

<b><font color=red>`w`模式会覆盖掉文件中的已有内容，一旦成功运行，文件中的内容就没了，对于重要文件，采用`w`模式打开前一定备份，备份，备份！！！</font></b>

In [40]:
# 使用haizi_intro变量保存海子生平简介
haizi_intro = '''海子出生于安徽省怀宁县的高河镇查湾村。在农村度过了少年时代。1979年以15岁之龄进入北京大学法律系[1]，1983年毕业后任教于中国政法大学。在极其朴素的生活中坚持写诗，只有部分得以发表。海子最好的作品，大多是在死后才发表的。'''

In [41]:
haizi_intro

'海子出生于安徽省怀宁县的高河镇查湾村。在农村度过了少年时代。1979年以15岁之龄进入北京大学法律系[1]，1983年毕业后任教于中国政法大学。在极其朴素的生活中坚持写诗，只有部分得以发表。海子最好的作品，大多是在死后才发表的。'

In [42]:
# w表示写入模式
# 如果文件已经存在，新内容会覆盖文件中原有内容
# 如果文件不存在，新建文件，并将内容写入

f = open('./intro.txt','w')
f.write(haizi_intro)
f.close()

In [43]:
poems = [
    '《小站》',
    '《河流》',
    '《麦地之瓮》',
    '《海子诗全集》'
]

In [44]:
f = open('./intro.txt','a')
f.writelines(poems) # 相当于 f.write(''.join(poems))
f.close()

In [45]:
lyrics = '''我怀念的是无话不说

我怀念的是一起作梦

我怀念的是争吵以后

还是想要爱你的冲动'''

In [46]:
lyrics

'我怀念的是无话不说\n\n我怀念的是一起作梦\n\n我怀念的是争吵以后\n\n还是想要爱你的冲动'

In [47]:
# a表示追加模式
# 如果文件已经存在，新内容会追加在文件中已有内容之后
# 如果文件不存在，新建文件，并将内容写入

f = open('./lyrics.txt','a')
f.write(lyrics)
f.close()

<b><font color=red>思考题</font></b>：在`lyrics.txt`中新加一行`姚若龙 作词`，代码怎么写。

In [48]:
# 下面代码能正确运行吗
# f = open('./lyrics.txt','r')
# f.write(lyrics)
# f.close()

In [49]:
# 下面代码能正确运行吗
# f = open('./new_lyrics.txt','r+')
# f.write(lyrics)
# f.close()

In [50]:
# 下面代码能正确运行吗
# f = open('./new_lyrics.txt','a+')
# f.write(lyrics)
# f.close()

In [51]:
# 下面代码能正确运行吗
# f = open('./new_lyrics.txt','r+')
# f.write(lyrics)
# f.close()

In [52]:
# 下面代码能正确运行吗，new_lyrics.txt文件有变化吗
# f = open('./new_lyrics.txt','w')
# f.read()
# f.close()

In [53]:
# 下面代码能正确运行吗，new_lyrics.txt文件有变化吗
# f = open('./new_lyrics.txt','a')
# f.read()
# f.close()

`+`表示可读可写。

## 9.3 文件迭代

一行一行访问文件:

```for eachLine in f:
	do something```
    
在这个循环里，`eachLine` 代表文本文件的**一行**（包括末尾的行结束符），你可以使用它做任何想做的事情。

In [54]:
f = open('./text.txt')
for line in f:
    print(line)
f.close()

从明天起，做一个幸福的人

喂马、劈柴、周游世界

从明天起，关心粮食和蔬菜

我有一所房子，面朝大海，春暖花开



从明天起，和每一个亲人通信

告诉他们我的幸福

那幸福的闪电告诉我的

我将告诉每一个人



给每一条河每一座山取一个温暖的名字

陌生人，我也为你祝福

愿你有一个灿烂的前程

愿你有情人终成眷属

愿你在尘世获得幸福

我只愿面朝大海，春暖花开



<b><font color=red>
对文件进行读写操作时，一定要在处理完之后关闭文件对象，即`f.close()`    
</font></b>

<b><font color=red>
如果担心会忘记关闭文件对象，强烈建议，强烈建议，强烈建议，使用如下`with`语句打开文件，`with`中的语句执行完毕后会自动关闭文件对象，老师再也不用担心我忘记关闭文件对象了，^_^。
</font></b>

```
with open(file, mode) as f:
  do something
```

In [55]:
# 迭代打印文件中每行文本
with open('./text.txt') as f:
    for line in f:
        print(line)

从明天起，做一个幸福的人

喂马、劈柴、周游世界

从明天起，关心粮食和蔬菜

我有一所房子，面朝大海，春暖花开



从明天起，和每一个亲人通信

告诉他们我的幸福

那幸福的闪电告诉我的

我将告诉每一个人



给每一条河每一座山取一个温暖的名字

陌生人，我也为你祝福

愿你有一个灿烂的前程

愿你有情人终成眷属

愿你在尘世获得幸福

我只愿面朝大海，春暖花开



<b><font color=red>思考题</font></b>：把上面使用`f = open(file, mode)`写的代码，全部用with语句重写一遍。

## 9.4 文件内移动

### 获取读写位置

文件内游标移动以字节（byte）为单位，如果操作成功，则返回新的文件位置，如果操作失败，则函数返回-1。

- `f.tell()`, 获取文件内读写位置
- `f.seek(offset, [whence])`，文件内读写位置移动：
  - `offset`：偏移量，也就是代表需要移动偏移的字节数，**不能为负**；
  - `whence`：给`offset`参数一个定义，表示要从哪个位置开始偏移；0代表从文件开头开始算起，1代表从当前位置开始算起，2代表从文件末尾算起。`whence`值默认为0。`t`模式时，只能为0，不能为1和2，`b`模式可以取0、1、2。

In [56]:
with open('./text.txt') as f:
    line1 = f.readline()
    print(line1, 'length: {}'.format(len(line1)), 'offset: {}'.format(f.tell()))

从明天起，做一个幸福的人
 length: 13 offset: 37


In [57]:
with open('./text.txt') as f:
    content = f.read()

In [58]:
content[:13]

'从明天起，做一个幸福的人\n'

<b><font color=red>思考题</font></b>：为什么上面的代码中`line1`的长度（length）为13，但是`f.tell()`的值为37。

In [59]:
f = open('./text.txt', 'rb')

In [60]:
f.seek(37)

37

In [61]:
line1 = f.readline()

In [62]:
line1.decode('utf-8')

'喂马、劈柴、周游世界\n'

In [63]:
# 从当前位置移动37 bytes
f.seek(37, 1)

105

In [64]:
# 这一行的代码，运行结果是什么
# line2 = f.readline()
# line2.decode('utf-8')

In [65]:
f.close()

In [66]:
# 不使用b模式，游标只能从文件头开始移动
# with open('./text.txt', 'r') as f:
#     f.seek(37, 2)
#     f.seek(37, 1)

In [67]:
# 从文件头开始，移动100000 bytes
with open('./text.txt', 'rb') as f:
    f.seek(100000, 0)
    print(f.read())

b''


In [68]:
# 从文件末开始，移动0 byte
with open('./text.txt', 'rb') as f:
    f.seek(0, 2)
    print(f.read())

b''


In [69]:
# 从当前位置开始，移动100000 bytes
with open('./text.txt', 'rb') as f:
    f.seek(100000, 1)
    print(f.read())

b''


In [70]:
# 从当前位置开始，移动0 bytes
with open('./text.txt', 'rb') as f:
    f.seek(0, 0)
    content = f.readline()
content.decode('utf-8')

'从明天起，做一个幸福的人\n'

## 9.5 将`print`的结果写入到文件

In [71]:
with open('./wu.txt', 'w') as f:
    print('为你写诗，为你静止，为你做不可能的事', file = f)

In [72]:
with open('./wu.txt', 'r') as f:
    content = f.read()

In [73]:
content

'为你写诗，为你静止，为你做不可能的事\n'

In [74]:
with open('./wu.txt', 'w') as f:
    print('为你写诗，为你静止，为你做不可能的事', end = '#', file = f)

In [75]:
with open('./wu.txt', 'r') as f:
    content = f.read()

In [76]:
content

'为你写诗，为你静止，为你做不可能的事#'

In [77]:
print('为你写诗，为你静止，为你做不可能的事')

为你写诗，为你静止，为你做不可能的事


In [78]:
print('为你写诗，为你静止，为你做不可能的事', end = '#')

为你写诗，为你静止，为你做不可能的事#

`end`参数用来设定以什么结尾。默认值是换行符`\n`，我们可以换成其他字符串。文件中换行符是不可见的。

**示例**：接收键盘输入，屏幕输出，并写入文件

In [79]:
left_text = '南通州，北通州，南北通州通南北' # 东当铺，西当铺，东西当铺当东西
right_text = input('上联是：{}，请您赐下联：'.format(left_text))
with open('./duilian.txt', 'w') as f:
    print('我的上联是：{}'.format(left_text))
    print(left_text, file = f)
    print('您的下联是：{}'.format(right_text))
    print(right_text, file = f)

上联是：南通州，北通州，南北通州通南北，请您赐下联：东当铺，西当铺，东西当铺当东西
我的上联是：南通州，北通州，南北通州通南北
您的下联是：东当铺，西当铺，东西当铺当东西


<b><font color=red>思考题</font></b>：修改上面代码，使得文件中的对联呈竖形，如下：

![竖形对联](https://raw.githubusercontent.com/zhangjianzhang/programming_basics/master/files/codes/lecture_9/dui_lian.jpg)

## 9.6 文件内置属性

In [80]:
f = open('./text.txt') 

In [81]:
# 是否关闭
f.closed

False

In [82]:
# 编码方式
f.encoding

'UTF-8'

In [83]:
# 模式
f.mode

'r'

In [84]:
# 文件名
f.name

'./text.txt'

In [85]:
# 一定要记住关闭，关闭，关闭，文件对象
f.close()

<b><font color=red>思考题</font></b>：如下有各个同学的语文成绩和数学成绩，请编程计算各个同学的平均成绩并输入到txt格式文件中。

<br>
<div align=center>
<img width="350" height="550" src="https://raw.githubusercontent.com/zhangjianzhang/programming_basics/master/files/codes/lecture_9/grade.png">

<p><center><font>成绩单</font></center></p>
</div>

In [86]:
print('END')

END
