* TOC
{:toc}

## 第八章：文件操作和输入输出 

### 第一节：文件读写和上下文管理器以及输入输出流 

在Python中，文件读写是一种常见的操作，用于从文件中读取数据或向文件中写入数据。Python提供了内置的函数和方法来处理文件I/O（输入/输出），同时也提供了上下文管理器来确保文件资源的正确管理。

#### 1.1、文件读写基本操作 

##### 1.1.1、打开文件 

使用内置的`open`函数打开文件。`open`函数返回一个文件对象，并接受两个主要参数：文件路径和模式（读、写、追加等）。


In [None]:
f = open('example.txt', 'r')  # 打开文件进行读取


模式参数包括：

 *  `'r'`：读取（默认模式）。
 *  `'w'`：写入（会先截断文件）。
 *  `'a'`：追加（写入到文件的末尾）。
 *  `'b'`：二进制模式。
 *  `'+'`：更新（读取和写入）。

##### 1.1.2、读取文件 

使用文件对象的方法如`read()`, `readline()`, 或 `readlines()`来读取文件内容。


In [None]:
content = f.read()  # 读取整个文件
line = f.readline()  # 读取下一行
lines = f.readlines()  # 读取所有行到一个列表


##### 1.1.3、写入文件 

使用文件对象的`write()`或`writelines()`方法写入文件。


In [None]:
f.write('Hello, world!')  # 写入字符串到文件
f.writelines(['Hello', 'World'])  # 写入一个字符串列表到文件


##### 1.1.4、关闭文件 

使用`close()`方法关闭文件。关闭文件后，文件将不能进行进一步的读写操作。


In [None]:
f.close()


#### 1.2、上下文管理器和`with`语句 

为了确保文件正确关闭，即使在读写过程中发生异常，Python提供了上下文管理器（通过`with`语句使用）。使用`with`语句可以自动管理资源，确保使用完毕后正确关闭文件，这是处理文件I/O时的推荐做法。


In [None]:
with open('example.txt', 'r') as f:
    content = f.read()
    # 文件在with块结束时自动关闭


#### 1.3、输入输出流 

在Python中，输入输出流（I/O流）是指在程序与外部环境（如文件、网络、终端等）之间传输数据的渠道。标准输入（stdin）、标准输出（stdout）和标准错误（stderr）是最常见的I/O流。

 *  `sys.stdin`：标准输入流，用于接收来自键盘或其他标准输入的数据。
 *  `sys.stdout`：标准输出流，用于向终端或其他标准输出显示数据。
 *  `sys.stderr`：标准错误流，用于输出错误信息和警告。


In [None]:
import sys

sys.stdout.write('This is standard output.\n')
sys.stderr.write('This is standard error.\n')

input_str = sys.stdin.readline()  # 读取一行从标准输入


总结

Python中的文件读写操作简单直观，而上下文管理器（`with`语句）提供了一种安全管理文件资源的方式，确保文件在使用后被正确关闭。标准的输入输出流则允许程序与用户或其他程序交互，是程序通信的重要方式。理解和掌握这些概念对于进行有效的数据处理和程序开发至关重要。

#### 1.4、python中关于文件读写和上下文管理器以及输入输出流相关的面试题 

##### 面试题1 

面试题目：  
编写一个Python程序，使用`with`语句创建一个日志文件，并在用户输入的每个字符串前添加时间戳，直到用户输入"exit"为止。请展示如何使用循环控制语句来处理用户输入，并确保所有输入都正确写入文件。

面试考题知识点：

 *  文件读写
 *  上下文管理器`with`语句
 *  输入输出流
 *  时间戳
 *  循环控制语句

答案或代码：


In [None]:
import datetime

def write_log_with_timestamp():
    with open('user_log.txt', 'a') as log_file:  # 使用上下文管理器打开文件
        while True:  # 使用无限循环等待用户输入
            user_input = input("请输入日志信息，或输入'exit'退出：")
            if user_input.lower() == 'exit':  # 检查是否退出循环
                break
            # 获取当前时间戳并格式化
            timestamp = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
            # 将时间戳和用户输入写入文件
            log_file.write(f"{timestamp} - {user_input}\n")

# 调用函数
write_log_with_timestamp()


答案或代码解析：  
这个程序首先导入了`datetime`模块，用于生成时间戳。`write_log_with_timestamp`函数使用`with`语句和`open`函数以追加模式(`'a'`)打开一个名为`user_log.txt`的文件。`with`语句确保文件最终会被关闭，即使在写入过程中发生异常。

程序使用`while True`创建了一个无限循环，等待用户输入。如果用户输入了"exit"（不区分大小写），则使用`break`语句退出循环。否则，程序获取当前的时间戳，格式化它为一个可读的字符串，并将其与用户输入一起写入文件，每个条目后跟一个换行符。

这个面试题考察了应聘者对文件I/O操作、上下文管理器、输入处理和循环控制的理解和应用能力。它也涉及基本的字符串格式化和日期时间处理。这样的问题可以展示应聘者如何编写结构清晰、资源管理得当的Python代码。

##### 面试题2 

面试题目：  
编写一个Python程序，该程序能够监控一个指定的日志文件（例如`app.log`），并实时将包含错误级别“ERROR”的新日志行复制到另一个文件`error_log.txt`中。请展示如何使用上下文管理器和循环控制语句来实现这一功能，并考虑到效率和资源安全性。

面试考题知识点：

 *  文件读写
 *  上下文管理器`with`语句
 *  实时监控文件变化
 *  字符串操作
 *  循环控制语句

答案或代码：


In [None]:
import time

def monitor_log_file(source_file, target_file):
    with open(source_file, 'r') as src, open(target_file, 'a') as tgt:
        src.seek(0, 2)  # 移动到文件末尾
        while True:
            line = src.readline()
            if not line:
                time.sleep(1)  # 简单的阻塞等待，避免CPU过度使用
                continue
            if "ERROR" in line:
                tgt.write(line)
                tgt.flush()  # 确保即时写入

# 调用函数
monitor_log_file('app.log', 'error_log.txt')


答案或代码解析：  
这个程序首先定义了一个函数`monitor_log_file`，接收两个参数：`source_file`（源日志文件路径）和`target_file`（目标文件路径，用于存储错误日志）。函数内部使用`with`语句同时打开这两个文件，`src`以只读模式打开源文件，`tgt`以追加模式打开目标文件。

通过`src.seek(0, 2)`将`src`文件指针移动到文件末尾，开始从当前位置监控新的日志行。然后，使用`while True`创建一个无限循环来不断读取新的日志行。如果`readline()`返回空字符串，意味着已到达文件末尾，此时程序通过`time.sleep(1)`暂停一秒，避免过度占用CPU资源。

当读取到新的日志行时，程序检查该行是否包含字符串"ERROR"。如果包含，说明这是一条错误日志，随即将其写入目标文件`tgt`。使用`tgt.flush()`确保每条错误日志都被即时写入，而不是留在缓冲区中。

这个面试题考察了应聘者对文件I/O操作、上下文管理器、实时数据处理和字符串操作的理解和应用能力。通过这个问题，可以评估应聘者编写高效、资源友好型代码的能力。

##### 面试题3 

面试题目：  
编写一个Python程序，该程序能够合并多个文本文件的内容到一个新的文件中。每个原始文件的内容应该添加一个标题（文件名），并且在每个文件内容之间插入分隔符。使用上下文管理器来确保所有文件都被正确处理，并使用循环控制语句来遍历文件列表。

面试考题知识点：

 *  文件读写
 *  上下文管理器`with`语句
 *  字符串格式化
 *  循环控制语句

答案或代码：


In [None]:
def merge_files(file_list, output_file):
    with open(output_file, 'w') as outfile:
        for file_name in file_list:
            with open(file_name, 'r') as infile:
                # 写入文件标题，即文件名
                outfile.write(f"--- {file_name} ---\n")
                # 写入文件内容
                outfile.write(infile.read())
                # 插入分隔符
                outfile.write("\n\n--- End of File ---\n\n")

# 调用函数，合并文件列表中的文件到一个新文件中
merge_files(['file1.txt', 'file2.txt', 'file3.txt'], 'merged_output.txt')


答案或代码解析：  
这个程序定义了一个函数`merge_files`，它接收两个参数：`file_list`（一个包含要合并的文件名的列表）和`output_file`（合并后内容将写入的新文件名）。函数使用`with`语句打开输出文件`output_file`进行写操作。

函数内部通过一个`for`循环遍历`file_list`中的每个文件名。对于每个文件名，使用嵌套的`with`语句打开对应的文件，并首先写入一个标题，该标题由文件名组成，格式为`--- file_name ---`。然后，使用`infile.read()`读取整个文件内容并写入到输出文件中。最后，插入`--- End of File ---`作为分隔符。

这个面试题考察了应聘者对文件读写、资源管理、字符串处理和循环控制的理解和应用。它还检验了应聘者处理文件和组织数据的能力，以及编写清晰、结构化代码的能力。

##### 面试题4 

面试题目：  
编写一个Python程序，该程序能够监控一个目录下的文本文件变化，并将新增的文本内容实时同步到一个指定的汇总文件中。要求使用上下文管理器确保文件操作的安全性，并使用循环来处理目录下的多个文件。

面试考题知识点：

 *  文件监控
 *  目录遍历
 *  实时文件同步
 *  上下文管理器`with`语句
 *  循环控制语句

答案或代码：


In [None]:
import os
import time

def sync_directory_files_to_summary(directory, summary_file):
    file_offsets = {file: 0 for file in os.listdir(directory) if file.endswith('.txt')}
    
    with open(summary_file, 'a') as summary:
        while True:
            for file, offset in file_offsets.items():
                file_path = os.path.join(directory, file)
                with open(file_path, 'r') as f:
                    f.seek(offset)
                    new_content = f.read()
                    if new_content:
                        summary.write(f"\n--- {file} ---\n")
                        summary.write(new_content)
                        summary.flush()
                    file_offsets[file] = f.tell()
            time.sleep(1)  # Wait for 1 second before checking for updates

# Call the function to start monitoring and syncing
sync_directory_files_to_summary('log_directory', 'summary_log.txt')


答案或代码解析：  
这个程序定义了一个函数`sync_directory_files_to_summary`，它接收两个参数：`directory`（要监控的目录路径）和`summary_file`（汇总文件的路径）。首先，函数创建一个字典`file_offsets`来跟踪每个文本文件的当前读取位置，初始化为0（文件开始位置）。

函数使用`with`语句打开汇总文件`summary_file`进行追加写入。然后，进入一个无限循环，每次循环遍历`file_offsets`中的每个文件。对于每个文件，函数打开文件，将文件指针移动到上次读取的位置（`offset`），然后读取新内容。如果有新内容，将文件名作为标题和新内容写入汇总文件，并使用`summary.flush()`确保内容被写入磁盘。最后，更新`file_offsets`中的偏移量为当前文件指针的位置。

循环的末尾有一个`time.sleep(1)`调用，这样程序会在每次检查更新之间等待1秒，以减少资源消耗。

这个面试题考察了应聘者对于文件I/O、目录处理、实时数据同步和资源管理的理解。它也测试了应聘者编写能够长时间运行且稳定的代码的能力。

##### 面试题5 

面试题目：  
编写一个Python程序，该程序能够从一个大型的日志文件中读取最新的N行日志条目，并将它们写入到新的文件中。这个任务应该使用文件的seek方法来优化性能，避免读取整个文件。请展示如何使用上下文管理器来安全地操作文件，并使用循环控制语句来逆序读取文件的行。

面试考题知识点：

 *  文件读写
 *  文件定位和移动（seek和tell）
 *  上下文管理器`with`语句
 *  逆序文件处理
 *  循环控制语句

答案或代码：


In [None]:
def tail_log_file(log_file_path, output_file_path, n_lines):
    with open(log_file_path, 'rb') as log_file, open(output_file_path, 'wb') as output_file:
        log_file.seek(0, os.SEEK_END)  # 移动到文件末尾
        lines_count = 0
        buffer_size = 1024
        log_file.seek(0, os.SEEK_END)
        position = log_file.tell()
        while position >= 0 and lines_count < n_lines:
            position = max(position - buffer_size, 0)
            log_file.seek(position)
            buffer = log_file.read(min(buffer_size, log_file.tell()))
            lines_count += buffer.count(b'\n')
            if lines_count >= n_lines:
                last_lines = buffer.splitlines()[-n_lines:]
                output_file.writelines(line + b'\n' for line in last_lines)
                break
            elif position == 0:
                output_file.writelines(buffer.splitlines() + [b'\n'])
                break

# 调用函数，从'large_log.log'中读取最后10行并写入'last_10_lines.log'
tail_log_file('large_log.log', 'last_10_lines.log', 10)


答案或代码解析：  
这个程序定义了一个函数`tail_log_file`，它接收三个参数：`log_file_path`（日志文件路径），`output_file_path`（输出文件路径），和`n_lines`（需要读取的日志行数）。函数使用`with`语句同时以二进制模式打开日志文件和输出文件。

函数首先将日志文件的指针移动到文件末尾，然后定义一个`lines_count`变量来跟踪已读取的行数，以及一个`buffer_size`变量来指定每次读取的字节数。通过一个`while`循环，逐步向文件开头移动，并读取`buffer_size`大小的数据块。每次读取后，使用`buffer.count(b'\n')`计算该数据块中的换行符数量，并更新`lines_count`。

当读取到足够数量的行时，使用`buffer.splitlines()`获取最后`n_lines`行，并将它们写入到输出文件中。如果到达文件开头，将剩余的行写入输出文件。这里使用二进制模式读写文件是为了避免编码问题，并且确保能够正确处理跨平台的换行符。

这个面试题考察了应聘者对文件操作的深入理解，特别是文件的随机访问能力，以及他们编写高效且资源节约的代码的能力。这种类型的问题对于需要处理大型文件或日志数据的应用程序非常相关。

##### 面试题6 

面试题目：  
编写一个Python程序，该程序能够将一个CSV文件转换为相应的JSON文件。要求使用上下文管理器来处理文件读写操作，并确保程序能够处理具有多列数据的CSV文件。使用循环控制语句来遍历CSV文件的每一行，并将每行数据转换为JSON对象的一部分。

面试考题知识点：

 *  文件读写
 *  上下文管理器`with`语句
 *  CSV到JSON的转换
 *  循环控制语句
 *  数据格式化和处理

答案或代码：


In [None]:
import csv
import json

def csv_to_json(csv_file_path, json_file_path):
    with open(csv_file_path, mode='r', newline='') as csv_file, open(json_file_path, mode='w') as json_file:
        csv_reader = csv.DictReader(csv_file)
        json_list = []
        
        for row in csv_reader:
            json_list.append(row)
        
        json_file.write(json.dumps(json_list, indent=4))

# 调用函数，将'example.csv'转换为'output.json'
csv_to_json('example.csv', 'output.json')


答案或代码解析：  
这个程序定义了一个函数`csv_to_json`，接收两个参数：`csv_file_path`（CSV文件路径）和`json_file_path`（生成的JSON文件路径）。函数使用`with`语句同时打开CSV文件和JSON文件，前者用于读取，后者用于写入。

使用`csv.DictReader`读取CSV文件，这个类将每行CSV数据转换为一个字典对象，其中字典的键是CSV文件的列头。通过遍历`csv_reader`中的每一行，将每行数据（字典）添加到一个列表`json_list`中。

最后，使用`json.dumps`将列表转换为JSON格式的字符串，并写入到JSON文件中。`indent=4`参数是为了使生成的JSON文件具有更好的可读性，通过在每个层级添加4个空格的缩进。

这个面试题考察了应聘者处理不同数据格式的能力，特别是CSV和JSON，这在数据处理和转换中非常常见。同时，它也检验了应聘者使用Python标准库进行文件操作和数据处理的熟练程度。

##### 面试题7 

面试题目：  
编写一个Python程序，该程序能够读取一个文本文件，并统计文件中每个单词出现的次数。要求使用上下文管理器来处理文件读写操作，并使用循环控制语句来遍历文件的每一行和每个单词。

面试考题知识点：

 *  文件读写
 *  上下文管理器`with`语句
 *  字符串处理
 *  数据统计
 *  循环控制语句

答案或代码：


In [None]:
import re

def word_count(file_path):
    word_freq = {
            }

    with open(file_path, 'r') as file:
        for line in file:
            words = re.findall(r'\b\w+\b', line.lower())
            for word in words:
                word_freq[word] = word_freq.get(word, 0) + 1

    return word_freq

频，并将结果打印出来。


In [None]:
# 调用函数，统计'text_file.txt'中每个单词的出现次数
word_frequencies = word_count('text_file.txt')

# 打印每个单词及其出现次数
for word, count in sorted(word_frequencies.items(), key=lambda item: item[1], reverse=True):
    print(f"{word}: {count}")


答案或代码解析：  
这个程序定义了一个函数`word_count`，接收一个参数：`file_path`（文本文件路径）。函数使用`with`语句打开文件进行读取操作。

在`with`语句块中，程序通过一个`for`循环遍历文件的每一行。使用正则表达式`re.findall(r'\b\w+\b', line.lower())`来查找并分割出每行中的单词，这里`\b\w+\b`模式用于匹配单词边界之间的单词，`line.lower()`确保统计时不区分大小写。

对于每个单词，使用字典`word_freq`来记录其出现次数。如果单词已存在于字典中，则增加其计数；如果不存在，则将其添加到字典中并设置计数为1。这通过字典的`get`方法实现，该方法返回指定键的值，如果键不存在则返回默认值（这里是0）。

最后，函数返回包含单词频率的字典`word_freq`。调用函数后，通过一个额外的`for`循环遍历并打印每个单词及其出现次数。使用`sorted()`函数对字典项进行排序，以便按出现次数降序排列单词。

这个面试题考察了应聘者对文件操作、字符串处理、正则表达式以及数据统计的理解和应用能力。它也检验了应聘者编写清晰、高效代码的能力，特别是在处理文本数据和进行数据分析时。

##### 面试题8 

面试题目：  
编写一个Python程序，用于将日志文件中的错误信息按照发生的小时分组。假设日志文件的每一行都以时间戳开始，格式为`YYYY-MM-DD HH:MM:SS`，并且错误行包含单词"ERROR"。要求使用上下文管理器来处理文件读写操作，并使用循环控制语句来处理日志文件的内容。

面试考题知识点：

 *  文件读写
 *  上下文管理器`with`语句
 *  字符串处理和时间解析
 *  数据分组
 *  循环控制语句

答案或代码：


In [None]:
from collections import defaultdict
import re

def group_errors_by_hour(log_file_path):
    errors_by_hour = defaultdict(list)

    with open(log_file_path, 'r') as log_file:
        for line in log_file:
            if "ERROR" in line:
                hour = re.search(r'\d{4}-\d{2}-\d{2} (\d{2}):\d{2}:\d{2}', line).group(1)
                errors_by_hour[hour].append(line.strip())

    return errors_by_hour

# 调用函数，将日志文件'log_file.txt'中的错误按小时分组
errors_grouped = group_errors_by_hour('log_file.txt')

# 打印分组后的错误信息
for hour, errors in sorted(errors_grouped.items()):
    print(f"Hour: {hour}")
    for error in errors:
        print(error)
    print("\n")


答案或代码解析：  
这个程序定义了一个函数`group_errors_by_hour`，它接收一个参数：`log_file_path`（日志文件路径）。函数使用`with`语句打开文件进行读取操作。

在`with`语句块中，程序通过一个`for`循环遍历文件的每一行。如果行中包含单词"ERROR"，则使用正则表达式`re.search()`来查找时间戳，并通过`.group(1)`获取小时部分。

使用`defaultdict`来创建一个默认值为列表的字典`errors_by_hour`，并以小时为键，将错误信息添加到对应小时的列表中。这样，所有同一小时发生的错误都会被分组在一起。

最后，函数返回包含按小时分组的错误信息的字典`errors_by_hour`。调用函数后，通过一个额外的`for`循环遍历并打印每个小时及其对应的错误信息。

这个面试题考察了应聘者对文件操作、正则表达式、数据分组以及时间处理的理解和应用能力。同时，它也检验了应聘者编写能够解析和组织复杂数据结构的代码的能力。

##### 面试题9 

面试题目：  
编写一个Python程序，用于从给定的文本文件中删除所有空行，并将结果保存到新文件中。要求使用上下文管理器来确保文件的安全打开和关闭，并使用循环控制语句来遍历原文件的每一行。

面试考题知识点：

 *  文件读写
 *  上下文管理器`with`语句
 *  空行检测
 *  循环控制语句

答案或代码：


In [None]:
def remove_empty_lines(input_file_path, output_file_path):
    with open(input_file_path, 'r') as input_file, open(output_file_path, 'w') as output_file:
        for line in input_file:
            if line.strip():  # 检查去除两端空白后的行是否为空
                output_file.write(line)

# 调用函数，从'input.txt'中删除空行并保存到'output.txt'
remove_empty_lines('input.txt', 'output.txt')


答案或代码解析：  
这个程序定义了一个函数`remove_empty_lines`，它接受两个参数：`input_file_path`（输入文件的路径）和`output_file_path`（输出文件的路径）。函数使用`with`语句同时打开输入和输出文件，其中输入文件用于读取，输出文件用于写入。

函数内部通过一个`for`循环遍历输入文件的每一行。使用`line.strip()`移除每行的前后空白字符，然后检查处理后的行是否为空。如果不为空，说明这是一个非空行，随即将其写入到输出文件中。

这个面试题考察了应聘者对于文件内容处理、空行检测以及使用上下文管理器进行资源管理的理解和应用能力。此外，它也展示了应聘者编写简洁有效代码的能力。

##### 面试题10 

面试题目：  
编写一个Python程序，该程序能够将一个目录下的所有文本文件(`.txt`)合并为一个大的Markdown文件(`.md`)。在每个文件的内容前，添加一个Markdown标题，该标题是原文件的名称。要求使用上下文管理器来处理文件的打开和关闭，并使用循环控制语句来遍历目录下的每个文件。

面试考题知识点：

 *  文件读写
 *  上下文管理器`with`语句
 *  目录遍历
 *  字符串格式化
 *  循环控制语句

答案或代码：


In [None]:
import os

def merge_txt_files_to_md(directory, output_md_file):
    with open(output_md_file, 'w') as md_file:
        for filename in os.listdir(directory):
            if filename.endswith('.txt'):
                file_path = os.path.join(directory, filename)
                with open(file_path, 'r') as txt_file:
                    md_file.write(f"# {filename[:-4]}\n\n")  # 添加Markdown标题
                    md_file.write(txt_file.read() + "\n\n")  # 写入文件内容并添加空行

# 调用函数，将目录'docs'下的所有文本文件合并到'merged_docs.md'
merge_txt_files_to_md('docs', 'merged_docs.md')


答案或代码解析：  
这个程序定义了一个函数`merge_txt_files_to_md`，它接收两个参数：`directory`（包含文本文件的目录路径）和`output_md_file`（输出的Markdown文件路径）。函数使用`with`语句打开输出的Markdown文件进行写入操作。

函数内部通过一个`for`循环遍历指定目录下的每个文件名。如果文件名以`.txt`结尾，使用`os.path.join`构造完整的文件路径，并通过嵌套的`with`语句打开该文本文件进行读取。

在读取每个文本文件的内容之前，程序首先向Markdown文件写入一个以原文件名（去除`.txt`后缀）为标题的Markdown标题。然后，将文本文件的内容写入Markdown文件，并在内容后添加两个换行符，以确保在Markdown文件中正确分隔各个文件的内容。

这个面试题考察了应聘者对文件和目录操作的熟练程度，特别是在处理多文件和格式转换方面的能力。同时，它也检验了应聘者使用Python标准库进行文件I/O操作和数据组织的技能。