- jsonl：json lines

| 特性                | JSON                            | JSONL                           |
|---------------------|---------------------------------|---------------------------------|
| **数据结构**        | 完整对象或数组                  | 每行一个独立的 JSON 对象        |
| **易读性**          | 可视化层次结构清晰              | 更适合机器处理，人工可读性较低  |
| **存取效率**        | 一次性读取整个文件              | 可逐行读取，效率高               |
| **文件大小**        | 一般较大，因为包含整体结构       | 较小，无需整体结构开销           |
| **应用场景**        | 配置文件、API 交互              | 日志文件、流数据、ML 数据集       |

In [7]:
import json

# 构造一个字典或列表
data = {
    "name": "Alice",
    "age": 25,
    "hobbies": ["reading", "cycling"]
}

# 写入 JSON 文件
with open("./data/data.json", "w", encoding="utf-8") as f:
    json.dump(data, f, ensure_ascii=False, indent=4)  # `ensure_ascii=False` 保留中文，`indent=4` 格式化

JSON 文件已生成：data.json


In [9]:
# 读取 JSON 文件
with open("./data/data.json", "r", encoding="utf-8") as f:
    data = json.load(f)
print("读取到的 JSON 数据：", data)

读取到的 JSON 数据： {'name': 'Alice', 'age': 25, 'hobbies': ['reading', 'cycling']}


In [10]:
import json

# 构造一个列表，每个元素是一个独立的字典
data = [
    {"name": "Alice", "age": 25, "hobbies": ["reading", "cycling"]},
    {"name": "Bob", "age": 30, "hobbies": ["gaming", "hiking"]}
]

# 写入 JSONL 文件
with open("./data/data.jsonl", "w", encoding="utf-8") as f:
    for record in data:
        f.write(json.dumps(record, ensure_ascii=False) + "\n")  # 每行写入一个 JSON 对象

In [13]:
# 逐行读取 JSONL 文件
data = []
with open("./data/data.jsonl", "r", encoding="utf-8") as f:
    for line in f:
        record = json.loads(line.strip())  # 将每行的 JSON 反序列化为字典
        data.append(record)
print("读取到的 JSONL 数据：", data)

读取到的 JSONL 数据： [{'name': 'Alice', 'age': 25, 'hobbies': ['reading', 'cycling']}, {'name': 'Bob', 'age': 30, 'hobbies': ['gaming', 'hiking']}]


In [14]:
import jsonlines

with jsonlines.open('./data/data.jsonl', 'r') as reader:
    for obj in reader:
        print(obj)

{'name': 'Alice', 'age': 25, 'hobbies': ['reading', 'cycling']}
{'name': 'Bob', 'age': 30, 'hobbies': ['gaming', 'hiking']}
