# 七、文件操作
## 1. 路径处理相关模块
### 1.1 os模块
`os`: 提供跨平台的文件和目录操作接口，其中 `os.path` 子模块包含路径拼接、分割、规范化、判断等常用函数。

`os.getcwd()`: 创建多级目录

In [37]:
import os
osCwd = os.getcwd()
print(osCwd)

`os.mkdir("path")`: 创建单个目录

In [7]:
os.mkdir("test")

`os.makedirs("path/to/project", exist_ok=True)`: 创建多级目录

- `exists_ok`: 是否在目录存在时触发异常，默认为`False`; 如果为`True`不触发异常
- `os.mkdir` 不支持 `exist_ok`参数
- `os.makedirs` 支持 `exist_ok`参数

In [11]:
os.makedirs("test/ttest/tttest")

`os.listdir('path')`: 列出目录内容

In [13]:
files = os.listdir("metadata/EN/")
for file in files:
    print(file)

EN_B00000.jsonl
EN_B00001.jsonl
EN_B00002.jsonl
EN_B00003.jsonl
EN_B00004.jsonl
EN_B00005.jsonl
EN_B00006.jsonl
EN_B00007.jsonl
EN_B00008.jsonl
EN_B00009.jsonl


`os.path`: 提供了一系列用于获取文件和目录属性的方法

|方法|作用|
|-|-|
|os.path.join(path1[, path2[, ...]])|路径拼接|
|os.path.abspath(path)|返回绝对路径|
|os.path.basename(path)|返回路径中的文件名部分|
|os.path.dirname(path)|返回路径中的目录部分|
|os.path.exists(path)|判断路径是否存在|
|os.path.isfile(path)|判断路径是否为文件|
|os.path.isdir(path)|判断路径是否为目录|

In [36]:
mypath = "EN_B00000.jsonl"
mypath_absolute = os.path.join("metadata", "EN", mypath)
print(mypath_absolute)
print(os.path.abspath("test.txt"))
print(os.path.basename(mypath_absolute))
print(os.path.dirname(mypath_absolute))
print(os.path.exists(mypath_absolute))
print(os.path.isfile(mypath_absolute))
print(os.path.isdir(mypath_absolute))

metadata\EN\EN_B00000.jsonl

EN_B00000.jsonl
metadata\EN
True
True
False


## 1.2 pathlib模块
`pathlib`: 使用**面向对象**的编程方式来表示文件系统路径，可用于替换`os.path`

`Path.cwd()`: 获取当前工作目录

In [40]:
from pathlib import Path
myPath = Path.cwd()
print(myPath)

`Path(...).mkdir(parents = True, exists_ok = True)`: 创建目录

- `parents = True`: 当设置为 True ，将创建所有必要的父目录 (即创建多级目录)
- `exists_ok`: 是否在目录存在时触发异常，默认为`False`; 如果为`True`不触发异常

In [26]:
myPath = Path("test")
myPath.mkdir(exist_ok=True)

`Path(...).iterdir()`: 返回指定目录中的所有文件和子目录的迭代器

In [30]:
dirList = [dir for dir in Path('metadata/ZH').iterdir()]
for dir in dirList:
    print(dir)

metadata\ZH\ZH_B00000.jsonl
metadata\ZH\ZH_B00001.jsonl
metadata\ZH\ZH_B00002.jsonl
metadata\ZH\ZH_B00003.jsonl
metadata\ZH\ZH_B00004.jsonl
metadata\ZH\ZH_B00005.jsonl
metadata\ZH\ZH_B00006.jsonl
metadata\ZH\ZH_B00007.jsonl
metadata\ZH\ZH_B00008.jsonl
metadata\ZH\ZH_B00009.jsonl


In [31]:
myPath = Path("metadata/ZH/ZH_B00000.jsonl")
print(myPath.name)
print(myPath.suffix)
print(myPath.stem)
print(myPath.parent)

ZH_B00000.jsonl
.jsonl
ZH_B00000
metadata\ZH


路径判断:

- `Path(...).exists()`: 判断路径是否存在
- `Path(...).is_file()`: 判断路径是否为文件
- `Path(...).is_dir()`: 判断路径是否为目录

In [34]:
myPath = Path("metadata/ZH/ZH_B00000.jsonl")
print(myPath.exists())
print(myPath.is_file())
print(myPath.is_dir())

True
True
False


`Path('folder').joinpath('subfolder', 'file.txt')`: 路径拼接


In [5]:
print(Path('metadata').joinpath('ZH', 'ZH_B00000.jsonl'))

# 或者直接一点：
print(Path('metadata')/'ZH'/'ZH_B00000.jsonl')

metadata\ZH\ZH_B00000.jsonl
metadata\ZH\ZH_B00000.jsonl


## 2. 文件操作

文件打开模式：

|打开模式|文件类型|操作方式|文件不存在时|是否覆盖写|
|-|-|-|-|-|
|'r'|文本文件|可读|报错|否|
|'r+'|文本文件|可读可写|报错|否|
|'w'|文本文件|可写|创建新文件|是|
|'w+'|文本文件|可读可写|创建新文件|是|
|'a'|文本文件|可追加写|创建新文件|否|
|'a+'|文本文件|可读可追加写|创建新文件|否|
|'rb'|二进制文件|可读|报错|否|
|'rb+'|二进制文件|可读可写|报错|否|
|'wb'|二进制文件|可写|创建新文件|是|
|'wb+'|二进制文件|可读可写|创建新文件|是|
|'ab'|二进制文件|可追加写|创建新文件|否|
|'ab+'|二进制文件|可读可追加写|创建新文件|否|

文件操作：

- `with open(filepath, mode) as f:`: 打开和关闭文件
- `myStr = f.readline()`: 读出当前行，返回一个字符串
- `myList = f.readlines()`: 读取文件中的所有行，并返回一个包含每行文本的列表
- `f.write(...)`: 将字符串写入文件

例1：读取单个jsonl

In [26]:
from pathlib import Path
import json
file_name = 'ZH_B00000.jsonl'
file_path = Path(f"metadata/{file_name.split('_')[0]}/{file_name}")
with open(file_path, 'r') as f:
    lines = f.readlines()
    for line in lines:
        obj = json.loads(line)
        print(obj['id'])

ZH_B00000_S00000_W000000
ZH_B00000_S00000_W000001
ZH_B00000_S00000_W000002
ZH_B00000_S00000_W000003
ZH_B00000_S00000_W000004
ZH_B00000_S00000_W000005
ZH_B00000_S00000_W000006
ZH_B00000_S00000_W000007
ZH_B00000_S00000_W000008
ZH_B00000_S00001_W000000
ZH_B00000_S00001_W000001
ZH_B00000_S00001_W000002
ZH_B00000_S00001_W000003
ZH_B00000_S00001_W000004
ZH_B00000_S00001_W000005
ZH_B00000_S00001_W000006
ZH_B00000_S00001_W000007
ZH_B00000_S00001_W000008
ZH_B00000_S00001_W000009
ZH_B00000_S00001_W000010
ZH_B00000_S00001_W000011
ZH_B00000_S00001_W000012
ZH_B00000_S00001_W000013
ZH_B00000_S00001_W000014
ZH_B00000_S00001_W000015
ZH_B00000_S00001_W000016
ZH_B00000_S00001_W000017
ZH_B00000_S00001_W000018
ZH_B00000_S00001_W000019
ZH_B00000_S00001_W000020
ZH_B00000_S00001_W000021
ZH_B00000_S00001_W000022
ZH_B00000_S00001_W000023
ZH_B00000_S00001_W000024
ZH_B00000_S00001_W000025
ZH_B00000_S00001_W000026
ZH_B00000_S00001_W000027
ZH_B00000_S00001_W000028
ZH_B00000_S00001_W000029
ZH_B00000_S00001_W000030


例2：批量过滤音频元数据文件

需求描述：处理多语言音频元数据文件集（metadata），包含以下结构：

- 两个语言文件夹：EN（英语）和 ZH（中文）
- 每个语言文件夹下包含10个 JSONL 文件
- 每个 JSONL 文件包含100条音频记录
- 每条记录包含音频信息：id、text、duration、speaker、language、dnsmos等字段

任务目标：根据质量标准过滤数据

- 音频时长 > 5秒
- DNSMOS评分 > 3.4
- 将过滤后的数据保存到新的目录结构中
- 统计并输出过滤后的数据量

`tqdm`库：用于显示进度条，监控Python运行

- 语法：`from i in tqdm(iterator, desc = "")`
  - iterator：任意可迭代对象，如 list、tuple、dict、range、文件对象、生成器等，用于产生循环序列
  - desc: 进度条的前缀/描述

In [25]:
from tqdm import tqdm
from pathlib import Path
import json

langs = ['ZH', 'EN']
row_num = {}

for lang in tqdm(langs):
    row_num[lang] = {}
    input_dir = Path('metadata') / lang
    jsons = [d for d in input_dir.iterdir()]
    output_dir = Path('metadata_filter') / lang
    output_dir.mkdir(parents = True, exist_ok=True)
    for json_path in jsons:
        results = []
        # 读
        with open(json_path, 'r') as f:
            lines = f.readlines()
            for line in lines:
                obj = json.loads(line)
                duration = obj["duration"]
                dnsmos = obj["dnsmos"]
                if duration > 5 and dnsmos > 3.4:
                    results.append(obj)
        
        row_num[lang][json_path.name] = len(results)
        
        # 写
        output_json = output_dir / json_path.name
        with open(output_json, 'w', encoding="utf-8") as f:
            for result in results:
                f.write(json.dumps(result, ensure_ascii=False) + '\n')

print("\n----------------")
print(f"Filtered data statistics:")
for lang in langs:
    print(f"{lang}:")
    for key, value in row_num[lang].items():
        print(f'    {key}: {value}')

100%|██████████| 2/2 [00:00<00:00, 62.04it/s]


----------------
Filtered data statistics:
ZH:
    ZH_B00000.jsonl: 23
    ZH_B00001.jsonl: 5
    ZH_B00002.jsonl: 5
    ZH_B00003.jsonl: 79
    ZH_B00004.jsonl: 13
    ZH_B00005.jsonl: 2
    ZH_B00006.jsonl: 6
    ZH_B00007.jsonl: 2
    ZH_B00008.jsonl: 17
    ZH_B00009.jsonl: 3
EN:
    EN_B00000.jsonl: 27
    EN_B00001.jsonl: 4
    EN_B00002.jsonl: 0
    EN_B00003.jsonl: 6
    EN_B00004.jsonl: 6
    EN_B00005.jsonl: 6
    EN_B00006.jsonl: 4
    EN_B00007.jsonl: 12
    EN_B00008.jsonl: 6
    EN_B00009.jsonl: 17



