In [6]:
import json
import os

# 输入和输出文件路径
input_file = '../dataset/pretrain_4096.jsonl'
output_file = '../dataset/pretrain_4096_new.jsonl'

# # 确保输入文件路径是相对于当前工作目录的
input_path = os.path.join(os.getcwd(), input_file)
output_path = os.path.join(os.getcwd(), output_file)

# 处理文件
with open(input_path, 'r', encoding='utf-8') as f_in, open(output_path, 'w', encoding='utf-8') as f_out:
    for line in f_in:
        if line.strip():  # 跳过空行
            try:
                # 解析JSON
                data = json.loads(line.strip())
                
                # 创建新的字典，只包含text字段
                new_data = {}
                
                # 如果存在"content"键，将其重命名为"text"
                if "content" in data:
                    new_data["text"] = data["content"]
                
                # 写入转换后的JSON
                f_out.write(json.dumps(new_data, ensure_ascii=False) + '\n')
            except json.JSONDecodeError:
                print(f"警告：无法解析行: {line}")
                # 对于无法解析的行，保持原样写入
                f_out.write(line)

print(f"处理完成！原始文件: {input_file}")
print(f"新文件已保存为: {output_file}")

处理完成！原始文件: ../dataset/pretrain_4096.jsonl
新文件已保存为: ../dataset/pretrain_4096_new.jsonl


In [7]:
import os
import json
import glob
from tqdm import tqdm

# 设置输入和输出路径
downloads_dir = os.path.join(os.path.dirname(os.path.dirname(os.path.abspath("__file__"))), "downloads")
output_file = os.path.join(os.path.dirname(os.path.dirname(os.path.abspath("__file__"))), "dataset", "merged_data.jsonl")

# 确保输出目录存在
os.makedirs(os.path.dirname(output_file), exist_ok=True)

# 获取所有的jsonl文件
jsonl_files = glob.glob(os.path.join(downloads_dir, "*.jsonl"))

print(f"找到 {len(jsonl_files)} 个JSONL文件，开始合并...")

# 统计信息
total_lines = 0
processed_files = 0
error_lines = 0

# 合并文件
with open(output_file, 'w', encoding='utf-8') as outfile:
    # 使用tqdm包装文件列表，显示文件处理进度
    for file_path in tqdm(jsonl_files, desc="处理文件进度"):
        file_name = os.path.basename(file_path)
        
        try:
            # 首先获取文件行数，用于tqdm进度条
            with open(file_path, 'r', encoding='utf-8') as f:
                line_count = sum(1 for _ in f)
            
            with open(file_path, 'r', encoding='utf-8') as infile:
                file_lines = 0
                # 使用tqdm显示每个文件内部的处理进度
                for line in tqdm(infile, total=line_count, desc=f"处理 {file_name}", leave=False):
                    try:
                        # 验证JSON格式是否正确
                        json.loads(line.strip())
                        outfile.write(line)
                        file_lines += 1
                    except json.JSONDecodeError:
                        error_lines += 1
                        continue
                
                total_lines += file_lines
                processed_files += 1
                print(f"  - 已处理 {file_lines} 行")
        except UnicodeDecodeError:
            # 尝试使用GBK编码
            try:
                # 首先获取文件行数，用于tqdm进度条
                with open(file_path, 'r', encoding='gbk') as f:
                    line_count = sum(1 for _ in f)
                
                with open(file_path, 'r', encoding='gbk') as infile:
                    file_lines = 0
                    # 使用tqdm显示每个文件内部的处理进度
                    for line in tqdm(infile, total=line_count, desc=f"处理 {file_name} (GBK编码)", leave=False):
                        try:
                            # 验证JSON格式是否正确
                            json.loads(line.strip())
                            outfile.write(line)
                            file_lines += 1
                        except json.JSONDecodeError:
                            error_lines += 1
                            continue
                    
                    total_lines += file_lines
                    processed_files += 1
                    print(f"  - 已处理 {file_lines} 行 (GBK编码)")
            except Exception as e:
                print(f"  - 无法处理文件 {file_name}: {str(e)}")

print("\n合并完成！")
print(f"总共处理了 {processed_files} 个文件")
print(f"合并了 {total_lines} 行数据")
print(f"跳过了 {error_lines} 行无效数据")
print(f"合并后的文件已保存为: {os.path.basename(output_file)}")

找到 15 个JSONL文件，开始合并...


处理文件进度:   7%|▋         | 1/15 [00:02<00:40,  2.91s/it]

  - 已处理 34 行


处理文件进度:  13%|█▎        | 2/15 [00:11<01:24,  6.48s/it]

  - 已处理 275596 行


处理文件进度:  20%|██        | 3/15 [00:29<02:21, 11.78s/it]

  - 已处理 655747 行


处理文件进度:  27%|██▋       | 4/15 [00:35<01:43,  9.42s/it]

  - 已处理 396209 行


处理文件进度:  33%|███▎      | 5/15 [01:47<05:17, 31.80s/it]

  - 已处理 1574271 行


处理文件进度:  40%|████      | 6/15 [01:47<03:09, 21.11s/it]

  - 已处理 15 行


处理文件进度:  47%|████▋     | 7/15 [03:50<07:14, 54.33s/it]

  - 已处理 2228317 行


处理文件进度:  53%|█████▎    | 8/15 [04:07<04:58, 42.59s/it]

  - 已处理 631744 行


处理文件进度:  60%|██████    | 9/15 [04:25<03:29, 34.84s/it]

  - 已处理 389483 行


处理文件进度:  67%|██████▋   | 10/15 [05:03<02:59, 35.86s/it]

  - 已处理 337993 行


处理文件进度:  73%|███████▎  | 11/15 [05:16<01:54, 28.66s/it]

  - 已处理 770086 行


处理文件进度:  80%|████████  | 12/15 [05:50<01:31, 30.53s/it]

  - 已处理 836075 行


处理文件进度:  87%|████████▋ | 13/15 [06:54<01:21, 40.68s/it]

  - 已处理 4060616 行


处理文件进度:  93%|█████████▎| 14/15 [07:03<00:30, 30.90s/it]

  - 已处理 254547 行


处理文件进度: 100%|██████████| 15/15 [07:21<00:00, 29.45s/it]

  - 已处理 1043224 行

合并完成！
总共处理了 15 个文件
合并了 13453957 行数据
跳过了 0 行无效数据
合并后的文件已保存为: merged_data.jsonl



