# Python 文件操作学习指南

## 目录
1. [文件操作基础](#1-文件操作基础)
2. [文件的打开与关闭](#2-文件的打开与关闭)
3. [文本文件读取](#3-文本文件读取)
4. [文本文件写入](#4-文本文件写入)
5. [with语句（上下文管理器）](#5-with语句上下文管理器)
6. [文件指针操作](#6-文件指针操作)
7. [二进制文件操作](#7-二进制文件操作)
8. [文件模式详解](#8-文件模式详解)
9. [编码与解码](#9-编码与解码)
10. [实践练习](#10-实践练习)
11. [总结](#11-总结)


## 1. 文件操作基础

文件操作是编程中的基础技能，Python提供了简单而强大的文件操作功能。

### 文件操作的基本流程：
1. **打开文件**：使用`open()`函数打开文件，返回文件对象
2. **读写文件**：通过文件对象进行读取或写入操作
3. **关闭文件**：使用`close()`方法关闭文件，释放资源

### 文件类型：
- **文本文件**：以文本形式存储，如`.txt`、`.py`、`.md`等
- **二进制文件**：以二进制形式存储，如`.jpg`、`.png`、`.exe`等

### 重要提示：
- 文件操作完成后必须关闭文件，否则可能导致资源泄漏
- 推荐使用`with`语句自动管理文件的打开和关闭
- 处理文件时要注意编码问题（特别是中文文件）


In [None]:
# 文件操作基础示例

# 导入os模块用于文件路径操作
import os

# 检查当前工作目录
print(f"当前工作目录: {os.getcwd()}")

# 列出当前目录的文件
print(f"\n当前目录的文件:")
for item in os.listdir('.'):
    if os.path.isfile(item):
        print(f"  - {item}")

print("\n文件操作基础准备完成！")


## 2. 文件的打开与关闭

### open()函数

`open()`函数用于打开文件，基本语法：
```python
file = open(filename, mode='r', encoding=None)
```

### 参数说明：
- **filename**：文件路径（字符串）
- **mode**：打开模式（'r'读取，'w'写入，'a'追加等）
- **encoding**：文件编码（如'utf-8'，'gbk'等）

### 文件关闭

使用`close()`方法关闭文件：
```python
file.close()
```

**重要**：文件使用完毕后必须关闭，否则可能导致：
- 资源泄漏
- 文件被锁定
- 数据未完全写入


In [None]:
# ========== 文件的打开与关闭示例 ==========

# 示例1：打开文件（读取模式）
# 注意：如果文件不存在会报错
try:
    # 打开文件（文本模式，默认）
    file = open('test_file.txt', 'r', encoding='utf-8')
    print("文件打开成功！")
    print(f"文件对象类型: {type(file)}")
    print(f"文件对象: {file}")
    
    # 关闭文件
    file.close()
    print("文件已关闭")
except FileNotFoundError:
    print("文件不存在，先创建一个测试文件")
    # 创建测试文件
    with open('test_file.txt', 'w', encoding='utf-8') as f:
        f.write("这是第一行\n这是第二行\n这是第三行")
    print("测试文件已创建")

# 示例2：检查文件是否已关闭
file = open('test_file.txt', 'r', encoding='utf-8')
print(f"\n文件是否关闭: {file.closed}")  # False表示未关闭
file.close()
print(f"关闭后，文件是否关闭: {file.closed}")  # True表示已关闭

# 示例3：文件对象的其他属性
file = open('test_file.txt', 'r', encoding='utf-8')
print(f"\n文件对象属性:")
print(f"文件名: {file.name}")
print(f"打开模式: {file.mode}")
print(f"编码: {file.encoding}")
file.close()


## 3. 文本文件读取

Python提供了多种读取文本文件的方法：

### 读取方法：
1. **read(size)**：读取指定字节数，不指定则读取全部
2. **readline()**：读取一行
3. **readlines()**：读取所有行，返回列表
4. **迭代文件对象**：逐行读取（推荐方式）

### 注意事项：
- 读取大文件时，建议逐行读取，避免内存溢出
- 读取后的内容是字符串类型
- 行尾的换行符`\n`会被保留


In [None]:
# ========== 文本文件读取示例 ==========

# 准备测试文件
with open('test_read.txt', 'w', encoding='utf-8') as f:
    f.write("第一行内容\n")
    f.write("第二行内容\n")
    f.write("第三行内容\n")
    f.write("第四行内容")

print("测试文件已创建\n")

# 方法1：read() - 读取全部内容
print("=" * 50)
print("方法1：read() - 读取全部内容")
print("=" * 50)
file = open('test_read.txt', 'r', encoding='utf-8')
content = file.read()  # 读取全部内容
print(f"全部内容:\n{repr(content)}")  # 使用repr显示换行符
print(f"\n内容类型: {type(content)}")
print(f"内容长度: {len(content)} 字符")
file.close()

# 方法2：read(size) - 读取指定字节数
print("\n" + "=" * 50)
print("方法2：read(size) - 读取指定字节数")
print("=" * 50)
file = open('test_read.txt', 'r', encoding='utf-8')
first_10 = file.read(10)  # 读取前10个字符
print(f"前10个字符: {repr(first_10)}")
remaining = file.read()  # 读取剩余内容
print(f"剩余内容: {repr(remaining)}")
file.close()

# 方法3：readline() - 读取一行
print("\n" + "=" * 50)
print("方法3：readline() - 读取一行")
print("=" * 50)
file = open('test_read.txt', 'r', encoding='utf-8')
line1 = file.readline()  # 读取第一行（包含换行符）
line2 = file.readline()  # 读取第二行
print(f"第一行: {repr(line1)}")
print(f"第二行: {repr(line2)}")
file.close()

# 方法4：readlines() - 读取所有行
print("\n" + "=" * 50)
print("方法4：readlines() - 读取所有行")
print("=" * 50)
file = open('test_read.txt', 'r', encoding='utf-8')
lines = file.readlines()  # 返回列表，每行是一个元素
print(f"所有行（列表）: {lines}")
print(f"行数: {len(lines)}")
for i, line in enumerate(lines, 1):
    print(f"第{i}行: {repr(line)}")
file.close()

# 方法5：迭代文件对象（推荐方式，内存友好）
print("\n" + "=" * 50)
print("方法5：迭代文件对象（推荐）")
print("=" * 50)
file = open('test_read.txt', 'r', encoding='utf-8')
print("逐行读取:")
for line_num, line in enumerate(file, 1):
    print(f"第{line_num}行: {repr(line.rstrip())}")  # rstrip()去除行尾换行符
file.close()

# 方法6：去除换行符的读取
print("\n" + "=" * 50)
print("方法6：去除换行符")
print("=" * 50)
file = open('test_read.txt', 'r', encoding='utf-8')
lines_no_newline = [line.rstrip() for line in file]  # 列表推导式去除换行符
print(f"去除换行符后的行: {lines_no_newline}")
file.close()


In [None]:
# ========== 文本文件写入示例 ==========

# 方法1：write() - 写入字符串
print("=" * 50)
print("方法1：write() - 写入字符串")
print("=" * 50)
file = open('test_write.txt', 'w', encoding='utf-8')
file.write("第一行内容\n")  # 写入第一行，注意添加换行符
file.write("第二行内容\n")
file.write("第三行内容")
file.close()
print("文件写入完成")

# 读取验证
with open('test_write.txt', 'r', encoding='utf-8') as f:
    print(f"写入的内容:\n{f.read()}")

# 方法2：writelines() - 写入字符串序列
print("\n" + "=" * 50)
print("方法2：writelines() - 写入字符串序列")
print("=" * 50)
lines = ["第四行内容\n", "第五行内容\n", "第六行内容\n"]
file = open('test_write.txt', 'a', encoding='utf-8')  # 追加模式
file.writelines(lines)  # 写入多行
file.close()
print("追加写入完成")

# 读取验证
with open('test_write.txt', 'r', encoding='utf-8') as f:
    print(f"追加后的内容:\n{f.read()}")

# 方法3：写入模式（'w'）会覆盖原文件
print("\n" + "=" * 50)
print("方法3：写入模式会覆盖原文件")
print("=" * 50)
file = open('test_write.txt', 'w', encoding='utf-8')  # 注意：'w'模式会覆盖
file.write("这是新内容\n")
file.write("原内容已被覆盖")
file.close()
print("文件已覆盖")

# 读取验证
with open('test_write.txt', 'r', encoding='utf-8') as f:
    print(f"覆盖后的内容:\n{f.read()}")

# 方法4：追加模式（'a'）在文件末尾添加
print("\n" + "=" * 50)
print("方法4：追加模式在文件末尾添加")
print("=" * 50)
file = open('test_write.txt', 'a', encoding='utf-8')  # 追加模式
file.write("\n这是追加的内容")
file.close()
print("内容已追加")

# 读取验证
with open('test_write.txt', 'r', encoding='utf-8') as f:
    print(f"追加后的内容:\n{f.read()}")

# 方法5：写入格式化内容
print("\n" + "=" * 50)
print("方法5：写入格式化内容")
print("=" * 50)
data = [
    ("张三", 20, 85),
    ("李四", 21, 92),
    ("王五", 19, 78)
]
file = open('test_format.txt', 'w', encoding='utf-8')
file.write("姓名\t年龄\t成绩\n")  # 表头
file.write("-" * 20 + "\n")
for name, age, score in data:
    file.write(f"{name}\t{age}\t{score}\n")  # 使用f-string格式化
file.close()
print("格式化内容写入完成")

# 读取验证
with open('test_format.txt', 'r', encoding='utf-8') as f:
    print(f"格式化内容:\n{f.read()}")


## 5. with语句（上下文管理器）

### with语句的优势

`with`语句是Python推荐的文件操作方式，它自动管理文件的打开和关闭。

### 语法：
```python
with open(filename, mode, encoding) as file:
    # 文件操作代码
    pass
# 文件自动关闭
```

### 优点：
- **自动关闭**：即使发生异常也会自动关闭文件
- **代码简洁**：不需要手动调用`close()`
- **异常安全**：确保资源被正确释放
- **推荐使用**：这是Python文件操作的最佳实践


In [None]:
# ========== with语句示例 ==========

# 示例1：基本使用
print("=" * 50)
print("示例1：with语句基本使用")
print("=" * 50)
with open('test_with.txt', 'w', encoding='utf-8') as f:
    f.write("使用with语句写入的内容\n")
    f.write("文件会自动关闭")
    print(f"文件是否关闭: {f.closed}")  # False，文件还未关闭

# with语句块结束后，文件自动关闭
print(f"with块外，文件是否关闭: True（已自动关闭）")

# 读取验证
with open('test_with.txt', 'r', encoding='utf-8') as f:
    content = f.read()
    print(f"\n读取的内容:\n{content}")

# 示例2：异常安全性
print("\n" + "=" * 50)
print("示例2：with语句的异常安全性")
print("=" * 50)
try:
    with open('test_exception.txt', 'w', encoding='utf-8') as f:
        f.write("第一行\n")
        f.write("第二行\n")
        # 模拟异常
        # raise ValueError("发生错误")
        f.write("第三行")
    print("文件操作完成，即使发生异常也会自动关闭")
except ValueError as e:
    print(f"捕获异常: {e}")
    # 文件已经自动关闭，无需手动处理

# 示例3：嵌套使用
print("\n" + "=" * 50)
print("示例3：嵌套使用with语句")
print("=" * 50)
with open('source.txt', 'w', encoding='utf-8') as source:
    source.write("这是源文件的内容\n")
    source.write("需要复制到目标文件")

# 复制文件内容
with open('source.txt', 'r', encoding='utf-8') as source:
    with open('target.txt', 'w', encoding='utf-8') as target:
        content = source.read()
        target.write(content)
        print("文件复制完成")

# 验证复制结果
with open('target.txt', 'r', encoding='utf-8') as f:
    print(f"目标文件内容:\n{f.read()}")

# 示例4：同时打开多个文件
print("\n" + "=" * 50)
print("示例4：同时打开多个文件")
print("=" * 50)
with open('file1.txt', 'w', encoding='utf-8') as f1, \
     open('file2.txt', 'w', encoding='utf-8') as f2:
    f1.write("文件1的内容")
    f2.write("文件2的内容")
    print("两个文件同时写入完成")

# 验证
with open('file1.txt', 'r', encoding='utf-8') as f:
    print(f"文件1: {f.read()}")
with open('file2.txt', 'r', encoding='utf-8') as f:
    print(f"文件2: {f.read()}")

# 示例5：读取大文件（推荐方式）
print("\n" + "=" * 50)
print("示例5：使用with语句读取大文件（逐行）")
print("=" * 50)
# 创建测试文件
with open('large_file.txt', 'w', encoding='utf-8') as f:
    for i in range(5):
        f.write(f"这是第{i+1}行内容\n")

# 逐行读取（内存友好）
with open('large_file.txt', 'r', encoding='utf-8') as f:
    line_count = 0
    for line in f:
        line_count += 1
        print(f"第{line_count}行: {line.rstrip()}")
    print(f"\n总共读取了 {line_count} 行")


## 6. 文件指针操作

文件指针（文件位置）指示当前读写的位置。

### 相关方法：
- **tell()**：返回当前文件指针位置（字节数）
- **seek(offset, whence)**：移动文件指针到指定位置

### seek()参数：
- **offset**：偏移量（字节数）
- **whence**：参考位置
  - `0`（或`os.SEEK_SET`）：文件开头
  - `1`（或`os.SEEK_CUR`）：当前位置
  - `2`（或`os.SEEK_END`）：文件末尾

### 注意事项：
- 文本模式下，seek()只能相对于文件开头（whence=0）
- 二进制模式下，可以使用所有whence值
- 文件指针位置以字节为单位


In [None]:
# ========== 文件指针操作示例 ==========

import os

# 准备测试文件
with open('test_seek.txt', 'w', encoding='utf-8') as f:
    f.write("0123456789ABCDEF")  # 16个字符

print("=" * 50)
print("文件指针操作示例")
print("=" * 50)

# 示例1：tell() - 获取当前指针位置
print("\n示例1：tell() - 获取当前指针位置")
with open('test_seek.txt', 'r', encoding='utf-8') as f:
    print(f"初始位置: {f.tell()}")  # 0，文件开头
    f.read(5)  # 读取5个字符
    print(f"读取5个字符后位置: {f.tell()}")  # 5
    f.read(3)  # 再读取3个字符
    print(f"再读取3个字符后位置: {f.tell()}")  # 8

# 示例2：seek() - 移动文件指针（文本模式）
print("\n示例2：seek() - 移动文件指针（文本模式）")
with open('test_seek.txt', 'r', encoding='utf-8') as f:
    content = f.read()
    print(f"全部内容: {content}")
    
    # 移动到文件开头
    f.seek(0)
    print(f"seek(0)后位置: {f.tell()}")
    print(f"当前位置的字符: {f.read(1)}")
    
    # 移动到位置5
    f.seek(5)
    print(f"seek(5)后位置: {f.tell()}")
    print(f"从位置5开始读取: {f.read()}")

# 示例3：seek() - 相对于文件开头
print("\n示例3：seek() - 相对于文件开头（whence=0）")
with open('test_seek.txt', 'r', encoding='utf-8') as f:
    f.read(10)  # 先读取10个字符
    print(f"读取10个字符后位置: {f.tell()}")
    f.seek(0, 0)  # 或 f.seek(0)，回到文件开头
    print(f"seek(0, 0)后位置: {f.tell()}")
    print(f"重新读取: {f.read(5)}")

# 示例4：二进制模式下的seek（支持所有whence值）
print("\n示例4：二进制模式下的seek（支持所有whence值）")
with open('test_seek.txt', 'rb') as f:  # 二进制模式
    print(f"文件内容（字节）: {f.read()}")
    
    # 移动到文件开头
    f.seek(0, os.SEEK_SET)  # 或 f.seek(0, 0)
    print(f"seek(0, SEEK_SET)后位置: {f.tell()}")
    
    # 移动到文件末尾
    f.seek(0, os.SEEK_END)  # 或 f.seek(0, 2)
    print(f"seek(0, SEEK_END)后位置: {f.tell()}")
    
    # 相对于当前位置
    f.seek(-5, os.SEEK_CUR)  # 或 f.seek(-5, 1)，向前移动5个字节
    print(f"seek(-5, SEEK_CUR)后位置: {f.tell()}")
    print(f"当前位置的内容: {f.read().decode('utf-8')}")

# 示例5：使用seek()实现部分读取
print("\n示例5：使用seek()实现部分读取")
with open('test_seek.txt', 'r', encoding='utf-8') as f:
    # 读取中间部分（位置5到10）
    f.seek(5)
    middle = f.read(5)  # 读取5个字符
    print(f"位置5到10的内容: {middle}")
    
    # 回到开头读取前5个字符
    f.seek(0)
    start = f.read(5)
    print(f"前5个字符: {start}")
    
    # 读取最后5个字符（需要知道文件大小）
    f.seek(0, os.SEEK_END)
    file_size = f.tell()
    f.seek(file_size - 5)
    end = f.read()
    print(f"最后5个字符: {end}")


## 7. 二进制文件操作

二进制文件以字节形式存储，如图片、视频、可执行文件等。

### 二进制模式：
- 使用`'b'`模式打开文件：`'rb'`（读取）、`'wb'`（写入）、`'ab'`（追加）

### 特点：
- 读取返回`bytes`对象，不是字符串
- 写入需要`bytes`对象
- 不涉及编码问题
- 可以精确控制字节位置

### 常见应用：
- 图片处理
- 文件复制
- 数据序列化
- 网络传输


In [None]:
# ========== 二进制文件操作示例 ==========

# 示例1：二进制写入和读取
print("=" * 50)
print("示例1：二进制写入和读取")
print("=" * 50)

# 写入二进制数据
with open('test_binary.bin', 'wb') as f:  # 'wb'表示二进制写入模式
    # 写入字节数据
    data = b'Hello, World!'  # bytes对象
    f.write(data)
    print(f"写入的字节数据: {data}")
    print(f"数据类型: {type(data)}")

# 读取二进制数据
with open('test_binary.bin', 'rb') as f:  # 'rb'表示二进制读取模式
    content = f.read()
    print(f"\n读取的字节数据: {content}")
    print(f"数据类型: {type(content)}")
    print(f"数据长度: {len(content)} 字节")

# 示例2：写入整数和数字的二进制表示
print("\n" + "=" * 50)
print("示例2：写入数字的二进制表示")
print("=" * 50)

with open('test_numbers.bin', 'wb') as f:
    # 写入整数（需要转换为bytes）
    number = 12345
    # 方法1：使用struct模块（推荐）
    import struct
    f.write(struct.pack('i', number))  # 'i'表示32位整数
    print(f"写入整数: {number}")

# 读取整数
with open('test_numbers.bin', 'rb') as f:
    import struct
    number = struct.unpack('i', f.read(4))[0]  # 读取4字节并解包
    print(f"读取的整数: {number}")

# 示例3：二进制文件复制
print("\n" + "=" * 50)
print("示例3：二进制文件复制")
print("=" * 50)

# 创建源文件
source_data = b'This is binary data for copying.'
with open('source_binary.bin', 'wb') as f:
    f.write(source_data)

# 复制文件（二进制模式）
with open('source_binary.bin', 'rb') as source:
    with open('copy_binary.bin', 'wb') as target:
        # 方法1：一次性读取（适合小文件）
        data = source.read()
        target.write(data)
        print("文件复制完成（一次性）")

# 验证复制
with open('copy_binary.bin', 'rb') as f:
    copied_data = f.read()
    print(f"源文件内容: {source_data}")
    print(f"复制文件内容: {copied_data}")
    print(f"复制是否成功: {source_data == copied_data}")

# 示例4：分块读取大文件（推荐方式）
print("\n" + "=" * 50)
print("示例4：分块读取大文件")
print("=" * 50)

# 创建较大的测试文件
large_data = b'X' * 1000  # 1000个字节
with open('large_binary.bin', 'wb') as f:
    f.write(large_data)

# 分块读取（每次读取指定字节数）
chunk_size = 100  # 每次读取100字节
with open('large_binary.bin', 'rb') as f:
    chunks = []
    while True:
        chunk = f.read(chunk_size)
        if not chunk:  # 读取完毕
            break
        chunks.append(chunk)
        print(f"读取块，大小: {len(chunk)} 字节")

print(f"\n总共读取了 {len(chunks)} 个块")
print(f"总大小: {sum(len(c) for c in chunks)} 字节")

# 示例5：二进制和文本的转换
print("\n" + "=" * 50)
print("示例5：二进制和文本的转换")
print("=" * 50)

# 文本转二进制
text = "你好，世界！"
text_bytes = text.encode('utf-8')  # 编码为字节
print(f"文本: {text}")
print(f"编码为字节: {text_bytes}")

# 写入二进制文件
with open('text_to_binary.bin', 'wb') as f:
    f.write(text_bytes)

# 从二进制文件读取并解码
with open('text_to_binary.bin', 'rb') as f:
    read_bytes = f.read()
    decoded_text = read_bytes.decode('utf-8')  # 解码为文本
    print(f"读取的字节: {read_bytes}")
    print(f"解码为文本: {decoded_text}")

# 示例6：使用seek()在二进制文件中定位
print("\n" + "=" * 50)
print("示例6：在二进制文件中使用seek()")
print("=" * 50)

with open('test_binary.bin', 'rb') as f:
    # 读取前5个字节
    f.seek(0)
    first_5 = f.read(5)
    print(f"前5个字节: {first_5}")
    
    # 从位置7开始读取
    f.seek(7)
    from_7 = f.read()
    print(f"从位置7开始: {from_7}")
    
    # 从文件末尾向前读取
    f.seek(-5, os.SEEK_END)  # 最后5个字节
    last_5 = f.read()
    print(f"最后5个字节: {last_5}")


In [None]:
# ========== 文件模式详解示例 ==========

# 示例1：'r' - 只读模式（文本）
print("=" * 50)
print("示例1：'r' - 只读模式（文本）")
print("=" * 50)
with open('test_read.txt', 'w', encoding='utf-8') as f:
    f.write("只读模式测试")

with open('test_read.txt', 'r', encoding='utf-8') as f:  # 只读
    content = f.read()
    print(f"读取内容: {content}")
    # f.write("尝试写入")  # 这会报错：io.UnsupportedOperation

# 示例2：'w' - 写入模式（覆盖）
print("\n" + "=" * 50)
print("示例2：'w' - 写入模式（覆盖）")
print("=" * 50)
with open('test_write_mode.txt', 'w', encoding='utf-8') as f:
    f.write("第一版内容\n")

with open('test_write_mode.txt', 'r', encoding='utf-8') as f:
    print(f"第一次写入后: {f.read()}")

with open('test_write_mode.txt', 'w', encoding='utf-8') as f:  # 覆盖模式
    f.write("第二版内容（覆盖了第一版）\n")

with open('test_write_mode.txt', 'r', encoding='utf-8') as f:
    print(f"第二次写入后（覆盖）: {f.read()}")

# 示例3：'a' - 追加模式
print("\n" + "=" * 50)
print("示例3：'a' - 追加模式")
print("=" * 50)
with open('test_append.txt', 'w', encoding='utf-8') as f:
    f.write("原始内容\n")

with open('test_append.txt', 'a', encoding='utf-8') as f:  # 追加模式
    f.write("追加的内容1\n")
    f.write("追加的内容2\n")

with open('test_append.txt', 'r', encoding='utf-8') as f:
    print(f"追加后的内容:\n{f.read()}")

# 示例4：'x' - 独占创建模式
print("\n" + "=" * 50)
print("示例4：'x' - 独占创建模式")
print("=" * 50)
try:
    with open('test_exclusive.txt', 'x', encoding='utf-8') as f:  # 文件不存在，创建成功
        f.write("独占创建的内容\n")
    print("文件创建成功")
except FileExistsError:
    print("文件已存在，创建失败")

# 再次尝试创建（文件已存在）
try:
    with open('test_exclusive.txt', 'x', encoding='utf-8') as f:
        f.write("再次创建")
except FileExistsError as e:
    print(f"文件已存在，无法创建: {e}")

# 示例5：'r+' - 读写模式
print("\n" + "=" * 50)
print("示例5：'r+' - 读写模式")
print("=" * 50)
with open('test_rplus.txt', 'w', encoding='utf-8') as f:
    f.write("原始内容\n第二行\n")

with open('test_rplus.txt', 'r+', encoding='utf-8') as f:  # 读写模式
    content = f.read()
    print(f"读取内容: {repr(content)}")
    
    # 写入内容（会覆盖当前位置的内容）
    f.seek(0)  # 回到开头
    f.write("修改后的内容\n")  # 覆盖原内容

with open('test_rplus.txt', 'r', encoding='utf-8') as f:
    print(f"修改后的内容:\n{f.read()}")

# 示例6：'w+' - 读写模式（覆盖）
print("\n" + "=" * 50)
print("示例6：'w+' - 读写模式（覆盖）")
print("=" * 50)
with open('test_wplus.txt', 'w+', encoding='utf-8') as f:  # 读写模式，覆盖
    f.write("写入的内容\n")
    f.seek(0)  # 回到开头读取
    content = f.read()
    print(f"写入后立即读取: {content}")

# 示例7：'a+' - 追加读写模式
print("\n" + "=" * 50)
print("示例7：'a+' - 追加读写模式")
print("=" * 50)
with open('test_aplus.txt', 'w', encoding='utf-8') as f:
    f.write("原始内容\n")

with open('test_aplus.txt', 'a+', encoding='utf-8') as f:  # 追加读写模式
    f.write("追加的内容\n")
    f.seek(0)  # 回到开头读取
    content = f.read()
    print(f"追加后读取:\n{content}")

# 示例8：二进制模式对比
print("\n" + "=" * 50)
print("示例8：二进制模式对比")
print("=" * 50)

# 文本模式写入
with open('test_text.txt', 'w', encoding='utf-8') as f:
    f.write("文本模式")

# 二进制模式写入
with open('test_binary_mode.bin', 'wb') as f:
    f.write(b"Binary mode")

# 读取对比
with open('test_text.txt', 'r', encoding='utf-8') as f:
    text_content = f.read()
    print(f"文本模式读取: {text_content}, 类型: {type(text_content)}")

with open('test_binary_mode.bin', 'rb') as f:
    binary_content = f.read()
    print(f"二进制模式读取: {binary_content}, 类型: {type(binary_content)}")


## 9. 编码与解码

### 字符编码

文本文件涉及字符编码，常见编码：
- **UTF-8**：最常用，支持所有字符（推荐）
- **GBK/GB2312**：中文Windows系统常用
- **ASCII**：仅支持英文字符

### 编码问题：
- 读取文件时，编码必须与文件实际编码一致
- 写入文件时，指定编码决定文件存储格式
- 编码不匹配会导致乱码或错误

### 方法：
- **encode()**：字符串编码为字节
- **decode()**：字节解码为字符串


In [None]:
# ========== 编码与解码示例 ==========

# 示例1：UTF-8编码（推荐）
print("=" * 50)
print("示例1：UTF-8编码（推荐）")
print("=" * 50)
text = "你好，世界！Hello, World!"
print(f"原始文本: {text}")

# 编码为字节
encoded = text.encode('utf-8')
print(f"UTF-8编码: {encoded}")
print(f"编码后类型: {type(encoded)}")
print(f"编码后长度: {len(encoded)} 字节")

# 写入文件（UTF-8）
with open('test_utf8.txt', 'w', encoding='utf-8') as f:
    f.write(text)

# 读取文件（UTF-8）
with open('test_utf8.txt', 'r', encoding='utf-8') as f:
    read_text = f.read()
    print(f"读取的文本: {read_text}")

# 示例2：GBK编码（中文Windows常用）
print("\n" + "=" * 50)
print("示例2：GBK编码")
print("=" * 50)
chinese_text = "这是中文内容"

# 使用GBK编码写入
with open('test_gbk.txt', 'w', encoding='gbk') as f:
    f.write(chinese_text)
    print(f"使用GBK编码写入: {chinese_text}")

# 使用GBK编码读取
with open('test_gbk.txt', 'r', encoding='gbk') as f:
    read_text = f.read()
    print(f"使用GBK编码读取: {read_text}")

# 示例3：编码不匹配的问题
print("\n" + "=" * 50)
print("示例3：编码不匹配的问题")
print("=" * 50)

# 使用UTF-8写入
with open('test_encoding.txt', 'w', encoding='utf-8') as f:
    f.write("编码测试：你好")

# 尝试用错误的编码读取
try:
    with open('test_encoding.txt', 'r', encoding='gbk') as f:
        content = f.read()
        print(f"用GBK读取UTF-8文件: {content}")  # 可能乱码
except UnicodeDecodeError as e:
    print(f"编码错误: {e}")

# 正确的编码读取
with open('test_encoding.txt', 'r', encoding='utf-8') as f:
    content = f.read()
    print(f"用UTF-8读取UTF-8文件: {content}")

# 示例4：encode()和decode()方法
print("\n" + "=" * 50)
print("示例4：encode()和decode()方法")
print("=" * 50)

# 字符串编码为字节
text = "Python编程"
bytes_data = text.encode('utf-8')
print(f"文本: {text}")
print(f"编码为字节: {bytes_data}")

# 字节解码为字符串
decoded_text = bytes_data.decode('utf-8')
print(f"解码为文本: {decoded_text}")

# 不同编码的转换
gbk_bytes = text.encode('gbk')
print(f"GBK编码: {gbk_bytes}")
print(f"GBK编码长度: {len(gbk_bytes)} 字节")
print(f"UTF-8编码长度: {len(bytes_data)} 字节")

# 示例5：处理编码错误
print("\n" + "=" * 50)
print("示例5：处理编码错误")
print("=" * 50)

# 创建UTF-8文件
with open('test_error_handling.txt', 'w', encoding='utf-8') as f:
    f.write("测试内容：编码错误处理")

# 读取时处理编码错误
with open('test_error_handling.txt', 'rb') as f:  # 二进制模式读取
    raw_bytes = f.read()

# 尝试不同编码解码
encodings = ['utf-8', 'gbk', 'ascii', 'latin-1']
for enc in encodings:
    try:
        decoded = raw_bytes.decode(enc)
        print(f"使用 {enc} 解码成功: {decoded}")
    except UnicodeDecodeError:
        print(f"使用 {enc} 解码失败")

# 使用错误处理参数
try:
    # errors='ignore'：忽略错误字符
    decoded_ignore = raw_bytes.decode('ascii', errors='ignore')
    print(f"\n使用ascii解码（ignore）: {decoded_ignore}")
    
    # errors='replace'：用替换字符替代错误字符
    decoded_replace = raw_bytes.decode('ascii', errors='replace')
    print(f"使用ascii解码（replace）: {decoded_replace}")
except Exception as e:
    print(f"解码错误: {e}")

# 示例6：检测文件编码（简单方法）
print("\n" + "=" * 50)
print("示例6：文件编码检测")
print("=" * 50)

# 使用chardet库检测编码（如果可用）
try:
    import chardet
    with open('test_utf8.txt', 'rb') as f:
        raw_data = f.read()
        result = chardet.detect(raw_data)
        print(f"检测到的编码: {result['encoding']}")
        print(f"置信度: {result['confidence']:.2%}")
except ImportError:
    print("chardet库未安装，无法自动检测编码")
    print("建议：明确指定文件编码，通常使用UTF-8")

# 示例7：默认编码
print("\n" + "=" * 50)
print("示例7：默认编码")
print("=" * 50)
import sys
print(f"系统默认编码: {sys.getdefaultencoding()}")
print(f"文件系统默认编码: {sys.getfilesystemencoding()}")

# 不指定encoding时的行为（使用系统默认，不推荐）
# 在Windows上可能是gbk，在Linux/Mac上通常是utf-8
# 建议：始终明确指定encoding='utf-8'


## 10. 实践练习

通过以下练习来巩固文件操作的知识。


### 练习1：文件复制工具

创建一个函数，实现文本文件的复制功能。


In [None]:
# ========== 练习1：文件复制工具 ==========

def copy_file(source_path, target_path, encoding='utf-8'):
    """
    复制文本文件
    
    参数:
        source_path: 源文件路径
        target_path: 目标文件路径
        encoding: 文件编码（默认utf-8）
    
    返回:
        bool: 复制是否成功
    """
    try:
        with open(source_path, 'r', encoding=encoding) as source:
            with open(target_path, 'w', encoding=encoding) as target:
                # 方法1：一次性读取（适合小文件）
                content = source.read()
                target.write(content)
        print(f"文件复制成功: {source_path} -> {target_path}")
        return True
    except FileNotFoundError:
        print(f"错误: 源文件 '{source_path}' 不存在")
        return False
    except Exception as e:
        print(f"错误: {e}")
        return False

# 创建测试文件
with open('source_file.txt', 'w', encoding='utf-8') as f:
    f.write("这是源文件的内容\n")
    f.write("需要复制到目标文件\n")
    f.write("包含多行文本")

# 测试复制功能
copy_file('source_file.txt', 'copied_file.txt')

# 验证复制结果
with open('copied_file.txt', 'r', encoding='utf-8') as f:
    print(f"\n复制后的内容:\n{f.read()}")


### 练习2：文件内容统计

创建一个函数，统计文本文件的行数、字符数和单词数。


In [None]:
# ========== 练习2：文件内容统计 ==========

def count_file_stats(file_path, encoding='utf-8'):
    """
    统计文件的行数、字符数和单词数
    
    参数:
        file_path: 文件路径
        encoding: 文件编码
    
    返回:
        dict: 包含统计信息的字典
    """
    try:
        with open(file_path, 'r', encoding=encoding) as f:
            lines = f.readlines()
            line_count = len(lines)
            
            # 重新读取以统计字符数
            f.seek(0)
            content = f.read()
            char_count = len(content)
            
            # 统计单词数（简单方法，按空格分割）
            words = content.split()
            word_count = len(words)
            
            stats = {
                '行数': line_count,
                '字符数': char_count,
                '单词数': word_count,
                '文件路径': file_path
            }
            return stats
    except FileNotFoundError:
        print(f"错误: 文件 '{file_path}' 不存在")
        return None
    except Exception as e:
        print(f"错误: {e}")
        return None

# 创建测试文件
test_content = """Python是一种高级编程语言
它简洁而强大
广泛应用于Web开发、数据科学、人工智能等领域
"""
with open('test_stats.txt', 'w', encoding='utf-8') as f:
    f.write(test_content)

# 统计文件信息
stats = count_file_stats('test_stats.txt')
if stats:
    print("文件统计信息:")
    print("=" * 40)
    for key, value in stats.items():
        print(f"{key}: {value}")


### 练习3：日志记录器

创建一个简单的日志记录功能，将信息追加到日志文件中。


In [None]:
# ========== 练习3：日志记录器 ==========

import datetime

def write_log(message, log_file='app.log', encoding='utf-8'):
    """
    写入日志信息到文件
    
    参数:
        message: 日志消息
        log_file: 日志文件路径
        encoding: 文件编码
    """
    # 获取当前时间
    timestamp = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')
    
    # 格式化日志条目
    log_entry = f"[{timestamp}] {message}\n"
    
    # 追加写入文件
    with open(log_file, 'a', encoding=encoding) as f:
        f.write(log_entry)

# 测试日志记录
print("写入日志...")
write_log("程序启动")
write_log("执行任务1")
write_log("执行任务2")
write_log("程序结束")

# 读取并显示日志
print("\n日志内容:")
print("=" * 50)
with open('app.log', 'r', encoding='utf-8') as f:
    print(f.read())


### 练习4：CSV文件读写

实现简单的CSV文件读写功能。


In [None]:
# ========== 练习4：CSV文件读写 ==========

def write_csv(data, filename, encoding='utf-8'):
    """
    写入CSV文件（简单实现）
    
    参数:
        data: 二维列表，每行是一个列表
        filename: 文件名
        encoding: 文件编码
    """
    with open(filename, 'w', encoding=encoding) as f:
        for row in data:
            # 将每行数据用逗号连接
            line = ','.join(str(item) for item in row)
            f.write(line + '\n')
    print(f"CSV文件已写入: {filename}")

def read_csv(filename, encoding='utf-8'):
    """
    读取CSV文件（简单实现）
    
    参数:
        filename: 文件名
        encoding: 文件编码
    
    返回:
        list: 二维列表
    """
    data = []
    with open(filename, 'r', encoding=encoding) as f:
        for line in f:
            # 去除换行符并按逗号分割
            row = line.strip().split(',')
            data.append(row)
    return data

# 准备数据
student_data = [
    ['姓名', '年龄', '成绩'],
    ['张三', 20, 85],
    ['李四', 21, 92],
    ['王五', 19, 78]
]

# 写入CSV文件
write_csv(student_data, 'students.csv')

# 读取CSV文件
read_data = read_csv('students.csv')
print("\n读取的CSV数据:")
for row in read_data:
    print(row)


### 练习5：二进制文件操作

实现二进制文件的读写和复制。


In [None]:
# ========== 练习5：二进制文件操作 ==========

def copy_binary_file(source_path, target_path, chunk_size=1024):
    """
    复制二进制文件（分块读取，适合大文件）
    
    参数:
        source_path: 源文件路径
        target_path: 目标文件路径
        chunk_size: 每次读取的字节数（默认1024）
    
    返回:
        bool: 复制是否成功
    """
    try:
        with open(source_path, 'rb') as source:
            with open(target_path, 'wb') as target:
                while True:
                    chunk = source.read(chunk_size)
                    if not chunk:  # 读取完毕
                        break
                    target.write(chunk)
        print(f"二进制文件复制成功: {source_path} -> {target_path}")
        return True
    except FileNotFoundError:
        print(f"错误: 源文件 '{source_path}' 不存在")
        return False
    except Exception as e:
        print(f"错误: {e}")
        return False

# 创建测试二进制文件
test_data = b'This is binary data for testing file operations.' * 10
with open('test_binary_source.bin', 'wb') as f:
    f.write(test_data)
print(f"创建测试文件，大小: {len(test_data)} 字节")

# 复制二进制文件
copy_binary_file('test_binary_source.bin', 'test_binary_copy.bin')

# 验证复制
with open('test_binary_source.bin', 'rb') as f1:
    source_data = f1.read()

with open('test_binary_copy.bin', 'rb') as f2:
    copy_data = f2.read()

print(f"\n验证结果:")
print(f"源文件大小: {len(source_data)} 字节")
print(f"复制文件大小: {len(copy_data)} 字节")
print(f"复制是否成功: {source_data == copy_data}")


### 练习6：文件搜索工具

创建一个函数，在文件中搜索指定内容。


In [None]:
# ========== 练习6：文件搜索工具 ==========

def search_in_file(file_path, search_text, encoding='utf-8'):
    """
    在文件中搜索指定文本
    
    参数:
        file_path: 文件路径
        search_text: 要搜索的文本
        encoding: 文件编码
    
    返回:
        list: 包含匹配行的列表（行号和内容）
    """
    matches = []
    try:
        with open(file_path, 'r', encoding=encoding) as f:
            for line_num, line in enumerate(f, 1):
                if search_text in line:
                    matches.append({
                        'line': line_num,
                        'content': line.rstrip()
                    })
        return matches
    except FileNotFoundError:
        print(f"错误: 文件 '{file_path}' 不存在")
        return []
    except Exception as e:
        print(f"错误: {e}")
        return []

# 创建测试文件
test_content = """Python是一种编程语言
Python广泛应用于各个领域
学习Python很有趣
Python的语法简洁
"""
with open('test_search.txt', 'w', encoding='utf-8') as f:
    f.write(test_content)

# 搜索内容
search_term = "Python"
results = search_in_file('test_search.txt', search_term)

print(f"在文件中搜索 '{search_term}':")
print("=" * 50)
if results:
    print(f"找到 {len(results)} 处匹配:")
    for match in results:
        print(f"  第{match['line']}行: {match['content']}")
else:
    print("未找到匹配内容")


## 11. 总结

### 文件操作核心要点

1. **文件打开与关闭**
   - 使用`open()`函数打开文件
   - 必须使用`close()`关闭文件，或使用`with`语句自动管理
   - 推荐使用`with open()`语句

2. **文件读取方法**
   - `read()`：读取全部或指定字节数
   - `readline()`：读取一行
   - `readlines()`：读取所有行
   - 迭代文件对象：逐行读取（推荐）

3. **文件写入方法**
   - `write()`：写入字符串
   - `writelines()`：写入字符串序列
   - 注意换行符需要手动添加

4. **文件模式**
   - `'r'`：只读
   - `'w'`：写入（覆盖）
   - `'a'`：追加
   - `'b'`：二进制模式
   - `'+'`：读写模式

5. **文本文件 vs 二进制文件**
   - 文本文件：使用字符串，需要指定编码
   - 二进制文件：使用字节，不涉及编码

6. **编码处理**
   - 推荐使用UTF-8编码
   - 读取和写入时编码要一致
   - 使用`encode()`和`decode()`进行转换

### 最佳实践

1. **始终使用with语句**
   ```python
   with open('file.txt', 'r', encoding='utf-8') as f:
       content = f.read()
   ```

2. **明确指定编码**
   - 始终指定`encoding='utf-8'`（除非有特殊需求）

3. **大文件处理**
   - 使用迭代方式逐行读取，避免一次性加载到内存

4. **异常处理**
   - 使用try-except处理文件操作异常
   - 检查文件是否存在

5. **资源管理**
   - 确保文件在使用后关闭
   - 使用with语句自动管理资源

### 常见错误

1. **忘记关闭文件**：导致资源泄漏
2. **编码不匹配**：导致乱码或错误
3. **文件不存在**：未检查文件是否存在就打开
4. **覆盖原文件**：使用'w'模式时未注意会覆盖
5. **路径错误**：使用错误的文件路径

### 进一步学习

- **pathlib模块**：现代路径操作（Python 3.4+）
- **csv模块**：CSV文件处理
- **json模块**：JSON文件处理
- **pickle模块**：Python对象序列化
- **shutil模块**：高级文件操作

### 相关资源

- Python官方文档：https://docs.python.org/zh-cn/3/library/functions.html#open
- 文件操作教程：https://docs.python.org/zh-cn/3/tutorial/inputoutput.html#reading-and-writing-files

**祝学习愉快！**


In [None]:
# ========== 清理测试文件（可选） ==========
# 如果需要清理之前创建的测试文件，可以取消下面的注释

# import os
# import glob
# 
# # 清理测试文件
# test_files = [
#     'test_file.txt', 'test_read.txt', 'test_write.txt', 'test_format.txt',
#     'test_with.txt', 'test_exception.txt', 'source.txt', 'target.txt',
#     'file1.txt', 'file2.txt', 'large_file.txt', 'test_seek.txt',
#     'test_binary.bin', 'test_numbers.bin', 'source_binary.bin', 'copy_binary.bin',
#     'large_binary.bin', 'text_to_binary.bin', 'test_binary_mode.bin',
#     'test_read.txt', 'test_write_mode.txt', 'test_append.txt',
#     'test_exclusive.txt', 'test_rplus.txt', 'test_wplus.txt', 'test_aplus.txt',
#     'test_text.txt', 'test_utf8.txt', 'test_gbk.txt', 'test_encoding.txt',
#     'test_error_handling.txt', 'source_file.txt', 'copied_file.txt',
#     'test_stats.txt', 'app.log', 'students.csv',
#     'test_binary_source.bin', 'test_binary_copy.bin', 'test_search.txt'
# ]
# 
# for file in test_files:
#     if os.path.exists(file):
#         try:
#             os.remove(file)
#             print(f"已删除: {file}")
#         except Exception as e:
#             print(f"删除 {file} 时出错: {e}")

print("学习完成！")
print("\n提示：")
print("1. 可以尝试修改上面的练习代码")
print("2. 在实际项目中应用这些知识")
print("3. 探索Python的其他文件操作模块")
print("4. 学习pathlib模块作为现代路径操作方式")
