# <center>1.5 文件读写</center>

Python对文件的读写，尤其是对数据文件的读写是数据分析中比较基础的操作，但是使用场景非常丰富。

本节将详细介绍如何对txt，word，excel格式的文件进行文件的读写操作。

## 1.5.1编码

### 1. 什么是编码

相信大家都有遇到过这样的情况：打开一个文档的时候，发现文档中的内容全部是乱码，其实这就是编码错误的问题。那编码为什么会影响文档内容的显示呢？在计算机中所有数据的原型都是 0 或 1，只有这样计算机才能正常地解读各类数据，但在日常的使用过程中，输入的都是各种字符，计算机需要把这些字符转化为0和1的语言，而这个过程就是编码。

计算机编码也分为多种，例如常见的ASCII、GB2312、GBK、GB18030、Unicode、Utf-8等，接下来会做一个简单的介绍：


### 2. ASCII码

ASCII码(American Standard Code for Information Interchange)是基于罗马字母表的一套电脑编码系统，主要用于显示现代英语和其他西欧语言。它是最早的单字节编码系统，只能是用8位来表示（1个字节），最多只能表示256个符号，也就是只能包括英文大小写字母、特殊符号和阿拉伯数字。

### 3. GB2312编码

GB2312又称为GB2312-80字符集，由原中国国家标准总局发布，覆盖99.75%的简体中文汉字，没有覆盖到繁体中文汉字。GB2312中简体中文用16位表示（2个字节），半角下的英文字母和数字用8位表示（1个字节），全角下的英文字母和数字用16位表示（2个字节）。

### 4. GBK编码

GBK字节集是在GB2312的扩展版，覆盖到繁体中文字，完全兼容GB2312编码。GBK中简繁体中文用16位表示（2个字节），半角下的英文字母和数字用8位表示（1个字节），全角下的英文字母和数字用16位表示（2个字节）。

### 5. GB18030编码

GB18030的全称是GB18030-2000《信息交换用汉字编码字符集基本集的扩充》，是我国政府于2000年3月17日发布的新的汉字编码国家标准。GB18030是在GBK的基础上进行了扩展，该标准的字符总编码空间超过150万个编码位，收录了27484个汉字，覆盖中文、日文、朝鲜语和中国少数民族文字。

### 6. Unicode编码

Unicode字符集编码（Universal Multiple-Octet Coded Character Set，通用多八位编码字符集），简称为UCS，是支持世界上超过650种语言的国际字符集。Unicode字符集编码有以下两种标准：

UCS-2标准：规定一个字符必须是2个字节存储，大于2个字节的，需要用UCS-4标准。

UCS-4标准：规定一个字符全部用4个字节存储。

### 7. Utf-8编码

Utf-8是Unicode编码的压缩和优化版本，其中ASCII码中的内容在utf-8中占用1个字节保存、欧洲字符在utf-8中占用2个字节保存，东南亚字符在utf-8中占用3个字节保存，辅助平面字符则使用4字节。

还有Utf-16和Utf-32编码，utf-8最少用一个字节去表示，utf-16最少用两个字节去表示。


### 8. Python的默认编码及编码的转化

Python3的默认编码方式是Unicode。

虽然目前有了Unicode和Utf-8，通用性已经得到了解决，但是由于历史原因，市面上的文件和程序依然是存在着各类编码。那么，在实际应用中就涉及了编码的转化。

在讲解编码的转化前，我们需要先了解一下encode与decode：decode（解码）的作用是将其他编码的字符串转换成Unicode编码，encode（编码）的作用是将Unicode编码转换成其他编码的字符串。

对于编码的转化，任何转化都是以Unicode作为媒介的，要进行编码转换，都需要先用 decode方法将其转换成Unicode编码，再使用encode方法将其转换成其他编码。通常，在没有指定特定的编码方式时，都是使用的系统默认编码创建的代码文件。


## 1.5.2 读取文本文件

文件的读写有三种形式：读、写和追加。

### 1. 读模式 r 和读写模式 r+

#### (1)	读模式 r

读模式r特点：

①	只能读，不能写；

②	文件必须存在，否则会报错。

In [None]:
f = open('data/demo.txt','r',encoding='utf-8')
contents = f.read()
print(contents)

解析：

①如果被读取的文件在当前目录，可以直接写文件名，否则需添加路径；

②open()函数：顾名思义，open函数的意思就是打开一个文件，open函数接收的参数为文件存放的路径，返回的是一个表示文件的对象。在这里，open(“demo.txt”)的意思就是返回一个文件名为“demo.txt”的对象；

③ read()函数：有了表示“demo.txt”的文件对象后，我们使用方法read()读取这个文件的全部内容，并将其作为一个长长的字符串存储在变量contents中。这样，通过输入contents的值，就可将这个文本文件的全部内容显示出来；

④如果不写 'r'，即写成  f = open('books.txt')，也是默认读模式；

⑤有时需要添加解码格式 encoding ,格式为：
f = open('demo.txt','r',encoding='utf-8')


#### (2)	读写模式 r+

读写模式r+特点：
 
①可以读，也可以写；

②写的时候是覆盖写，会把文件最前面的内容覆盖；

③文件必须存在，否则会报错。

In [None]:
f = open('data/demo.txt','r+',encoding='utf-8')
f.write('郭靖')
f.seek(0)#将文件指针移到开头，在后面部分会详细说明
contents=f.read()
print(contents)

### 2. 写模式 w 和写读模式 w+

#### (1)	写模式

写模式w特点：

①只能写，不能读；

②写的时候是覆盖写，会把原来文件的内容清空；

③当文件不存在时，打开即默认创建一个新文件。

例如，写入‘郭靖’时，原来的内容全部被清空：

In [None]:
f=open('data/demo.txt','w',encoding='utf-8')
f.write('郭靖')

#### (2)	写读模式 w+

写读模式w+特点：

①可以写，也可以读；

②写的时候是覆盖写，会把原来文件的内容清空；

③当文件不存在时，打开即默认创建一个新文件。

### 3. 追加模式a和追加读模式a+

#### (1)	追加模式a

追加模式a特点：

①只能写，不能读；

②写的时候是追加写，即在原内容末尾添加新内容；

③当文件不存在时，打开即默认创建一个新文件。

In [None]:
f=open('demo.txt','a',encoding='utf-8')
f.write('\n黄蓉')
#将“黄蓉”加入到文本的末尾

#### (2)	追加读a+模式

追加读a+模式特点：

①可以读，也可以写；

②写的时候是追加写，即在原内容末尾添加新内容；

③当文件不存在时，打开即默认创建一个新文件。

上述的形态字符串都可以再加一个b字符，如rb、wb、ab，加入b 字符用来告诉函数库打开的文件为二进制文件，而非纯文字文件。

|文件打开模式	|对应的特点|
| :-: | :-: |
r	| 只读。该文件必须已存在。
r+	|可读可写。该文件必须已存在，是覆盖写，会把文件最前面的内容覆盖。
rb	|表示以二进制方式读取文件。该文件必须已存在。
w	|只写。打开即默认创建一个新文件，如果文件已存在，则覆盖写。
w+	|写读。打开创建新文件并写入数据，如果文件已存在，则覆盖写。
wb	|表示以二进制写方式打开，只能写文件， 如果文件不存在，创建该文件；如果文件已存在，则覆盖写。
a	|追加写。若打开的是已有文件则直接对已有文件操作，若打开文件不存在则创建新文件，只能执行写（追加在后面），不能读。
a+	|追加读写。打开文件方式与写入方式和'a'一样，但是可以读。
ab	|表示以二进制方式追加写。若打开的是已有文件则直接对已有文件操作，若打开文件不存在则创建新文件，只能执行写（追加在后面），不能读。


### 4. 文件指针

文件指针是用来获取当前位于文件字符串的位置。

文件指针是很重要的，我们透过以下例子能够看到，read将demo.txt的内容全部读了出来，但是readline什么都没有读出来。

In [1]:
f=open('data/demo.txt','r',encoding='utf-8')
print('read读取的内容:',f.read())
print('readline读取的内容:',f.readline())

read读取的内容: 射雕英雄传
倚天屠龙记
碧血剑
Wu Xia
readline读取的内容: 


原因就是read读完之后，文件指针此时是在文件末尾，接着readline（读取第一行内容）是从这个位置（末尾）开始读取的，所以肯定是没有内容的。因此，这时就需要对指针的位置进行调整。

seek()函数是用来移动文件指针的，在上述例子中，加一句f.seek(0)，即可将指针移动开头，此时，readline就是从头开始进行读取了，需要注意的是，seek(num)中的num指的是字符，不是行。

可以移动文件指针，移动后只是针对读模式，用追加模式写的时候，还是在末尾写。

In [2]:
f=open('data/demo.txt','r',encoding='utf-8')
print('read读取的内容:',f.read())
f.seek(0)
print('readline读取的内容:',f.readline())

read读取的内容: 射雕英雄传
倚天屠龙记
碧血剑
Wu Xia
readline读取的内容: 射雕英雄传



### 5.	关闭文件

关闭文件有两种方式：

一是通过f.close来进行关闭：

In [None]:
f=open('data/demo.txt','r',encoding='utf-8')
contents=f.read()
print(contents)
f.close()

二是使用with 可以自动关闭文件：

In [None]:
with open('data/books.txt','r',encoding='utf-8') as f:
    contents=f.read()
    print(contents)

### 6.	其他常用操作

|操作|描述
| :-: | :-: |
print(f.readline())	|读取第一行
print(f.readlines())	|读取每一行，并且放到一个list里
print(f.readline(num))|	输出前num个字符
print(f.tell())|	输出当前指针位置
print(f.encoding)|	输出当前使用的字符编码
print(f.name)	|输出文件名
print(f.flush())	|刷新
f.truncate()|	清空文件
f.truncate(num)	|从头开始，第12个字符后截断并清除


## 1.5.3 Word文件与Excel文件读取

我们一般通过docx和excel的扩展包来实现对Word和Excel文件的读取，本节只是简单的展示一下如何通过这两种扩展包来实现文件的读取，读者如果想进一步了解相关的操作，可以去学习一下其他扩展包的使用方法，限于篇幅，这里不再展开讲解。

### 1. 读取Word文件

①安装Python-docx扩展包：pip install python-docx

②导入docx模块并打开demo文件

In [None]:
pip install python-docx

In [3]:
from docx import Document
docx1=Document('data/demo.docx')

#创建空白文档使用document = Document()

ModuleNotFoundError: No module named 'docx'

In [None]:
#进一步可以查看Documnet类中提供的属性与方法。
dir(docx1)

尽管比较少用python直接操作word文件，但是您如果有项目要自动生成word格式的报告，那么此处介绍的方法就可以帮助到您，生成完成的word文件，保存后可以使用word查看。

### 2. 读取Excel文件

①安装xlrd扩展包：pip install openpyxl

②导入load_workbook模块并打开demo文件

In [None]:
pip install openpyxl

In [None]:
from openpyxl import load_workbook
wb=load_workbook('data/demo.xlsx')
print(wb.sheetnames)

同样的，您可以使用python来直接操作excel文件。但是由于excel文件中基本上存放都是表格数据，所以excel文件的操作与分析主要会用到第3章要学习的pandas来解决。