# SFT微调数据转换

上传csv格式的标注数据，转换成SFT微调要求的JSON格式

## 数据格式转换

目标格式alpaca格式数据集示例：

```
[
  {
    "instruction": "用户指令",
    "input": "用户输入的问题",
    "output": "模型输出的答案",
    "system": "系统提示词",
    "history": [
      ["第一轮对话用户输入的问题", "第一轮对话模型输出的答案"],
      ["第二轮对话用户输入的问题", "第二轮对话模型输出的答案"]
    ]
  }
]
```

配置文件：

```
"custom_dataset_name": {
  "format": "alpaca",
  "columns": {
    "prompt": "instruction",
    "query": "input",
    "response": "output",
    "system": "system",
    "history": "history"
  }
}
```

In [None]:
import json
import os
import csv

def get_sft_data_from_csv(file_path):
    sft_data = []
    # 读取 CSV 文件
    with open(file_path, mode='r', encoding='utf-8') as file:
        csv_reader = csv.reader(file)
        # header = next(csv_reader)
        # print(header)
        for row in csv_reader:
            # print(row)
            if row[1] != '' and row[0] != '模型名称':
                sft_data.push(row)
    return sft_data

# 定义要保存的jsonl文件名
output_file = '/root/pfs/datasets/sft_data.json'
input_file = '/root/pfs/datasets/raw_data.csv'

# 读取csv数据
sft_data = get_sft_data_from_csv(input_file)

# 写入到json文件
with open(output_file, 'w') as f:
    json.dump(sft_data, f, indent=4, ensure_ascii=False)