In [1]:
import json
import os

# --- 配置 ---
file_path = "../dataset/pretrain_hq.jsonl"
# 设置你想查看的最多行数，现在固定为 100
max_lines_to_show = 100

# --- 主逻辑 ---
if not os.path.exists(file_path):
    print(f"错误：文件不存在于路径 '{file_path}'")
else:
    print(f"--- 开始读取文件 (最多显示前 {max_lines_to_show} 行): {file_path} ---")
    try:
        line_count = 0
        with open(file_path, "r", encoding="utf-8") as f:
            for line in f:
                # 检查是否已经达到需要显示的行数限制（在处理当前行之前检查）
                # 这样可以确保我们准确地处理第 1 到 第 100 行
                if line_count >= max_lines_to_show:
                    print(f"\n--- 已显示前 {max_lines_to_show} 行，停止读取 ---")
                    break  # 跳出 for 循环

                line_count += 1  # 行数计数器加 1 (代表这是第 line_count 行)
                line = line.strip()  # 去除行首尾的空白符（包括换行符）

                print(f"--- 行 {line_count} ---")

                if not line:  # 跳过空行，但仍然计数
                    print("(空行)")
                    continue  # 继续下一轮循环

                try:
                    # 解析当前行的 JSON 字符串为 Python 对象 (通常是字典)
                    data = json.loads(line)

                    # 打印解析后的 Python 对象 (为了更好的可读性，使用 json.dumps 格式化输出)
                    print(json.dumps(data, indent=2, ensure_ascii=False))

                except json.JSONDecodeError as e:
                    print(f"错误：无法解析此行为 JSON: {e}")
                    print(f"原始行内容: {line}")

        # 如果文件总行数少于 max_lines_to_show，循环会自然结束
        if line_count < max_lines_to_show:
            print(f"\n--- 文件读取结束 (文件总共只有 {line_count} 行) ---")
        # else: # 如果是因为达到 100 行而 break 的，上面的 break 处已经打印了提示信息
        #     pass

    except FileNotFoundError:
        # 这个检查理论上在上面 os.path.exists 已经处理了，但为了健壮性再加一层
        print(f"错误：再次确认，文件未找到 '{file_path}'")
    except Exception as e:
        print(f"读取或处理文件时发生意外错误: {e}")

--- 开始读取文件 (最多显示前 100 行): ../dataset/pretrain_hq.jsonl ---
--- 行 1 ---
{
  "text": "<s>鉴别一组中文文章的风格和特点，例如官方、口语、文言等。需要提供样例文章才能准确鉴别不同的风格和特点。</s> <s>好的，现在帮我查一下今天的天气怎么样?今天的天气依据地区而异。请问你需要我帮你查询哪个地区的天气呢？</s> <s>打开闹钟功能，定一个明天早上七点的闹钟。好的，我已经帮您打开闹钟功能，闹钟将在明天早上七点准时响起。</s> <s>为以下场景写一句话描述：一个孤独的老人坐在公园长椅上看着远处。一位孤独的老人坐在公园长椅上凝视远方。</s> <s>非常感谢你的回答。请告诉我，这些数据是关于什么主题的？这些数据是关于不同年龄段的男女人口比例分布的。</s> <s>帮我想一个有趣的标题。这个挺有趣的：\"如何成为一名成功的魔术师\" 调皮的标题往往会吸引读者的注意力。</s> <s>回答一个问题，地球的半径是多少？地球的平均半径约为6371公里，这是地球自赤道到两极的距离的平均值。</s> <s>识别文本中的语气，并将其分类为喜悦、悲伤、惊异等。\n文本：“今天是我的生日！”这个文本的语气是喜悦。</s>"
}
--- 行 2 ---
{
  "text": "<s>根据输入的内容，编写一个类别标签。\n这是一篇介绍如何阅读心电图的文章类别标签: 医学/心电图阅读指南</s> <s>帮我搜索一下最近的天气情况。当然，我可以帮您搜索最新的天气情况。请问您需要查询哪个城市的天气情况呢？</s> <s>帮我讲一个令人开心的笑话。好的，我帮您讲一个关于细菌的笑话。为什么细菌不会上网？因为连接总是断开了！</s> <s>现在给我生成一首关于大海的五言诗。碧波万顷月满天，海天相接处天地间。波涛滚滚江山美，海鸟翱翔日月闲。</s> <s>谢谢你，这篇文章很有用。不客气，我很高兴能够为您提供帮助。如果您还有其他问题或需求，随时可以对我说。</s> <s>你好，我想下载一个视频编辑软件，你有什么推荐吗？您好！当然，有很多选择。您想要免费软件还是愿意付费？</s> <s>为什么我的程序不输出正确结果？可能是代码逻辑有误，或者输入数据有误，需要仔细调试代码逻辑和输入数据。</s> <s>谢谢你的回答。现在我想