# 文件操作

Python使用文件对象与计算机上的外部文件交互。这些文件对象可以是你电脑上的任何类型的文件，无论是音频文件、文本文件、电子邮件、Excel文档等等。注意:您可能需要安装某些库或模块来与这些不同的文件类型交互，但它们很容易获得。

在本教程中，您将学习如何使用Python处理文件。
用任何编程语言读写文件都是一个重要的特性。如果没有它，所有的变量和信息都存储在易失性内存中，当计算机关闭或程序结束时，这些内存就会丢失。当您将数据保存到永久文件时，您可以在以后检索它而不用担心。


- 二进制文件和文本文件之间的区别
- 在哪里可以找到Python的内置文件I/O函数和工具
- 如何在Python中打开和关闭文件
- 在Python中从文件读取数据的各种方法
- 如何写数据到一个文件对象在Python
- 文件寻找在Python和移动读/写指针
- 用Python编辑现有的文本文件

## 二进制文件与文本文件

Python可以处理两种不同类型的文件:二进制文件和文本文件。了解两者之间的区别是很重要的。  
在正常计算机使用期间使用的大多数文件实际上是二进制文件，而不是文本。没错，那个Microsoft Word .doc文件实际上是一个二进制文件，即使它里面只有文本。二进制文件的其他例子包括:
- 图像文件包括.jpg， .png， .bmp， .gif等
- 数据库文件，包括.mdb，.frm，和.sqlite
- 文档包括.doc、.xls、.pdf等。

这是因为这些文件都需要特殊的处理，并且需要特定类型的软件来打开它。例如，需要Excel来打开一个.xls文件，需要一个数据库程序来打开一个.sqlite文件。  

另一方面，文本文件没有特定的编码，可以由标准的文本编辑器打开，无需任何特殊处理。但是，每个文本文件必须遵守一组规则:  
- 文本文件必须是可读的。它们可以(而且经常)包含许多特殊的编码，特别是HTML或其他标记语言，但您仍然能够知道它说的是什么
- 文本文件中的数据是按行组织的。在大多数情况下，每一行都是一个独立的元素，无论它是一行指令还是一条命令。  

此外，文本文件在每一行的末尾都有一个不可见的字符，这让文本编辑器知道应该有一个新行。当通过编程与这些文件交互时，可以利用这种特性。在Python中，它由“\n”表示。

## 打开文件

在python2和python3中，open()命令将返回一个在参数中指定的file对象。open()的基本函数用法如下:
> file_object = open(filename, mode)

在此实例中，filename是要与之交互的文件的名称，其中包含文件扩展名。也就是说，如果有一个名为workData.txt的文本文件，文件名不只是“workData”。而是“workData.txt”。   
还可以指定文件所在的确切路径，例如,如果你使用的是Windows，则“C:\ThisFolder\workData.txt”。
但是请记住，对于Python来说，字符串中的一个反斜杠表示字符串文字的开始。所以这里有个问题，因为这两个意思会冲突…  
幸运的是，Python有两种方法来处理这个问题。第一种是使用双反斜杠，像这样:“C:\\ThisFolder\\workData.txt”。第二种是使用斜杠:“C:/ThisFolder/workData.txt”。

open函数中的模式(mode)告诉Python你想对文件做什么。在处理文本文件时，可以指定多种模式。
- 'w' -写入模式:当需要更改文件和更改或添加信息时使用此模式。请记住，这将擦除现有文件以创建一个新文件。文件指针位于文件的开头。
- 'r' -读取模式:当文件中的信息仅用于读取且不以任何方式更改时使用此模式。文件指针位于文件的开头。
- 'a'-附加模式:此模式自动在文件末尾添加信息。文件指针放置在文件的末尾。
- 'r+' -读/写模式:当你要对文件进行更改并从中读取信息时使用。文件指针位于文件的开头。
- 'a+' -追加和读取模式:打开一个文件，允许数据被添加到文件的末尾，也让你的程序读取信息。文件指针放置在文件的末尾。

在使用二进制文件时，将使用相同的模式说明符。但是，在末尾添加一个b。所以二进制文件的写模式说明符是'wb'。其他的分别是'rb'， 'ab'， 'r+b'和'a+b'。

在python3中，添加了一个新模式:  
'x' -独占创建模式(Exclusive Creation Mode):该模式专门用于创建文件。如果已经存在同名文件，则函数调用将失败。

在使用open()函数时，通常会将其结果分配给变量。给定一个名为workData.txt的文件，打开文件进行读写的正确代码如下:

In [27]:
data_file = open("workData.txt", "r+")

这将创建一个名为data_file的对象，然后我们可以使用Pythons文件对象方法对其进行操作。  
在这个代码示例中，我们使用了'r+'访问模式，它告诉Python我们要打开文件进行读写。这给了我们很大的灵活性，但通常你可能想限制你的程序只读或只读一个文件，这就是其他模式派上用场的地方。

In [28]:
data_file.read()

'This data is on line 1\nThis data is on line 2\nThis data is on line 3'

如果再读一遍会发生什么？

In [29]:
data_file.read()

''

可以发现再读一遍之后，内容是空的。这是因为在读取文件后，读取的“游标”位于文件的末尾。所以没有什么可读的了。   
我们可以这样重置“光标”:

In [32]:
data_file.seek(0)

0

In [33]:
#重读一次
data_file.read()

'This data is on line 1\nThis data is on line 2\nThis data is on line 3'

打开文件一般需要用close关闭文件。

In [36]:
data_file.close()

In [37]:
data_file.read()

ValueError: I/O operation on closed file.

在Python中，打开和关闭文件的最佳实践使用with关键字。这个关键字在嵌套代码块完成后自动关闭文件:

In [39]:
with open("workData.txt", "r+") as workData:
    # File object is now open.
    # Do stuff with the file:
    workData.read()

# File object is now closed.
# Do other things...

如果不使用with关键字或使用fileobject.close()函数，那么Python将通过内置的垃圾收集器自动关闭并销毁文件对象。但是，根据您的代码，这种垃圾收集可以在任何时候发生。
因此，建议使用with关键字来控制何时关闭文件——即在内部代码块完成执行之后。

## 从Python文件中读取数据

In [41]:
with open("workData.txt", "r+") as work_data:
    print("This is the file name: ", work_data.name)
    line = work_data.read()
    print(line)

This is the file name:  workData.txt
This data is on line 1
This data is on line 2
This data is on line 3


### readline()一行一行读

In [43]:
with open("workData.txt", "r+") as work_data:
     print("This is the file name: ", work_data.name)
     line_data = work_data.readline()
     print(line_data)

This is the file name:  workData.txt
This data is on line 1



你可以不断重复上述过程。


一个类似的方法是fileobject.readlines()调用(注意复数形式)，它返回文件中所有行的列表：

In [47]:
with open("workData.txt", "r+") as work_data:
    print(work_data.readlines())

['This data is on line 1\n', 'This data is on line 2\n', 'This data is on line 3']


这将把整个文件读入内存，并将其分割为几行。但是这只适用于文本文件。二进制文件只是一团数据——它并没有真正理解一行是什么。

在Python中，逐行处理整个文本文件的最简单方法是使用一个简单的循环:

In [51]:
with open("workData.txt", "r+") as work_data:
    for line in work_data:
        print(line)

This data is on line 1

This data is on line 2

This data is on line 3


## 写文件

如果不能向文件写入数据，文件就没有任何用处。所以我们来讨论一下如何写文件。

**当创建一个新的file对象时，如果文件不存在，Python将创建该文件。第一次创建文件时，应该使用a+或w+模式。**

通常最好使用a+模式，因为数据将默认添加到文件的末尾。使用w+将清除文件中的任何现有数据，并给你一个空白文件开始。

In [54]:
with open("workData.txt", "a+") as work_data:
    work_data.write("This data is on line 4\n")

如果您想将一些不是字符串的内容写入文本文件，例如一系列数字，您必须使用转换代码将它们转换或“强制转换”为字符串。  
例如，如果您想要将整数1234、5678、9012添加到work_data文件中，您需要执行以下操作。首先，你把你的非字符串转换为字符串，然后你写字符串到你的文件对象:

In [64]:
values = [1234, 5678, 9012]

with open("workData1.txt", "a+") as work_data:
    for value in values:
        str_value = str(value)
        work_data.write(str_value)
        work_data.write("\n")

## 用Python编辑现有的文本文件

有时，您需要编辑现有文件，而不仅仅是向其添加数据。你不能只用w+模式来做。请记住，模式w将完全覆盖文件，因此即使使用fileobject.seek()，也无法做到这一点。而a+总是会在文件的末尾插入任何数据。

最简单的方法是取出整个文件并使用它创建一个列表或数组数据类型。一旦创建了列表，就可以使用该列表了。insert(i, x)方法插入新数据。一旦创建了新的列表，您就可以将其合并在一起，并将其写入您的文件。

例如，使用我们的"workData.txt"文件，假设我们需要在第一行和第二行之间插入文本“This goes between line 1 and 2”。代码是:

In [72]:
# Open the file as read-only
with open("workData.txt", "r") as work_data:
    work_data_contents = work_data.readlines()
    
work_data_contents.insert(1, "This goes between line 1 and 2\n")
work_data_contents = "".join(work_data_contents)


# Re-open in write-only format to overwrite old file
with open("workData.txt", "w") as work_data:
    work_data.write(work_data_contents)

# 目录操作

## 获取目录

假设你当前的工作目录有一个叫 my_directory 的子目录，该目录包含如下内容：

├── file1.py  
├── file2.csv  
├── file3.txt  
├── sub_dir  
│   ├── bar.py  
│   └── foo.py  
├── sub_dir_b  
│   └── file4.txt  
└── sub_dir_c  
    ├── config.py  
    └── file5.txt  

Python内置的 os 模块有很多有用的方法能被用来列出目录内容和过滤结果。为了获取文件系统中特定目录的所有文件和文件夹列表，可以在遗留版本的Python中使用 os.listdir() 或 在Python 3.x 中使用 os.scandir() 。 如果你还想获取文件和目录属性(如文件大小和修改日期)，那么 os.scandir() 则是首选的方法。

In [74]:
import os
entries = os.listdir('my_directory')
print(entries)

['file1.csv', 'file1.py', 'file3.txt', 'sub_dir_a', 'sub_dir_b', 'sub_dir_c']


目录列表现在看上去不容易阅读，对 os.listdir() 的调用结果使用循环打印有助于查看。

In [76]:
for entry in entries:
    print(entry)

file1.csv
file1.py
file3.txt
sub_dir_a
sub_dir_b
sub_dir_c


在现代Python版本中，可以使用 os.scandir() 和 pathlib.Path 来替代 os.listdir() 。

In [78]:
import os
entries = os.scandir('my_directory')
print(entries)

<nt.ScandirIterator object at 0x000001CB3919BB40>


In [79]:
import os
with os.scandir('my_directory') as entries:
    for entry in entries:
        print(entry.name)

file1.csv
file1.py
file3.txt
sub_dir_a
sub_dir_b
sub_dir_c


这里 os.scandir() 和with语句一起使用，因为它支持上下文管理协议。使用上下文管理器关闭迭代器并在迭代器耗尽后自动释放获取的资源。在 my_directory 打印文件名的结果就和在 os.listdir() 例子中看到的一样

另一个获取目录列表的方法是使用 pathlib 模块：

In [80]:
from pathlib import Path

entries = Path('my_directory')
for entry in entries.iterdir():
    print(entry.name)

file1.csv
file1.py
file3.txt
sub_dir_a
sub_dir_b
sub_dir_c


pathlib.Path() 返回的是 PosixPath 或 WindowsPath 对象，这取决于操作系统。

pathlib.Path() 对象有一个 .iterdir() 的方法用于创建一个迭代器包含该目录下所有文件和目录。由 .iterdir() 生成的每个条目都包含文件或目录的信息，例如其名称和文件属性。pathlib 在Python3.4时被第一次引入，并且是对Python一个很好的加强，它为文件系统提供了面向对象的接口。

在上面的例子中，你调用 pathlib.Path() 并传入了一个路径参数。然后调用 .iterdir() 来获取 my_directory 下的所有文件和目录列表。

pathlib 提供了一组类，以简单并且面向对象的方式提供了路径上的大多数常见的操作。使用 pathlib 比起使用 os 中的函数更加有效。和 os 相比，使用 pathlib 的另一个好处是减少了操作文件系统路径所导入包或模块的数量。想要了解更多信息，可以阅读 Python 3’s pathlib Module: Taming the File System 。

使用 pathlib.Path() 或 os.scandir() 来替代 os.listdir() 是获取目录列表的首选方法，尤其是当你需要获取文件类型和文件属性信息的时候。pathlib.Path() 提供了在 os 和 shutil 中大部分处理文件和路径的功能，并且它的方法比这些模块更加有效。我们将讨论如何快速的获取文件属性。

| 函数 | 描述 |
| ------------------------ | -------------------------------------------------------- | 
| os.listdir() | 以列表的方式返回目录中所有的文件和文件夹 | 
| os.scandir() | 返回一个迭代器包含目录中所有的对象，对象包含文件属性信息 | 
| pathlib.Path().iterdir() | 返回一个迭代器包含目录中所有的对象，对象包含文件属性信息 |

### 列出目录中的所有文件

这节将向你展示如何使用 os.listdir() ，os.scandir() 和 pathlib.Path() 打印出目录中文件的名称。为了过滤目录并仅列出 os.listdir() 生成的目录列表的文件，要使用 os.path ：

In [83]:
import os

base_path = 'my_directory'
for entry in os.listdir(basepath):
    # 使用os.path.isfile判断该路径是否是文件类型
    if os.path.isfile(os.path.join(base_path, entry)):
        print(entry)

file1.csv
file1.py
file3.txt


在这里调用 os.listdir() 返回指定路径中所有内容的列表，接着使用 os.path.isfile() 过滤列表让其只显示文件类型而非目录类型。代码执行结果如下：

一个更简单的方式来列出一个目录中所有的文件是使用 os.scandir() 或 pathlib.Path() :



In [84]:
import os

basepath = 'my_directory'
with os.scandir(basepath) as entries:
    for entry in entries:
        if entry.is_file():
            print(entry.name)

file1.csv
file1.py
file3.txt


使用 os.scandir() 比起 os.listdir() 看上去更清楚和更容易理解。对 ScandirIterator 的每一项调用 entry.isfile() ，如果返回 True 则表示这一项是一个文件。

接着，展示如何使用 pathlib.Path() 列出一个目录中的文件：

In [86]:
from pathlib import Path

base_path = Path('my_directory')
for entry in base_path.iterdir():
    if entry.is_file():
        print(entry.name)

file1.csv
file1.py
file3.txt


如果将for循环和if语句组合成单个生成器表达式，则上述的代码可以更加简洁。

In [87]:
from pathlib import Path

base_path = Path('my_directory')
files_in_basepath = (entry for entry in base_path.iterdir() if entry.is_file())
for item in files_in_basepath:
    print(item.name)

file1.csv
file1.py
file3.txt


### 列出子目录

如果要列出子目录而不是文件，请使用下面的方法。现在展示如何使用 os.listdir() 和 os.path() :

In [88]:
import os

basepath = 'my_directory'
for entry in os.listdir(basepath):
    if os.path.isdir(os.path.join(basepath, entry)):
        print(entry)

sub_dir_a
sub_dir_b
sub_dir_c


当你多次调用 os.path,join() 时，以这种方式操作文件系统就会变得很笨重。下面是如何使用 os.scandir() ：

In [89]:
import os

base_path = 'my_directory'
with os.scandir(base_pathpath) as entries:
    for entry in entries:
        if entry.is_dir():
            print(entry.name)

sub_dir_a
sub_dir_b
sub_dir_c


与文件列表中的示例一样，此处在 os.scandir() 返回的每一项上调用 .is_dir() 。如果这项是目录，则 is_dir() 返回 True，并打印出目录的名称。输出结果和上面相同。

下面是如何使用 pathlib.Path() ：

In [92]:
from pathlib import Path

base_path = Path('my_directory')
for entry in base_path.iterdir():
    if entry.is_dir():
        print(entry.name)

sub_dir_a
sub_dir_b
sub_dir_c


## 练习

读取test.txt文件，统计文件的行数、大小写字母个数、非字母个数、单词数。