### 处理QA1.csv

In [1]:
import csv
import json
from ChatGPT import ChatGPT
from tqdm import tqdm

def get_type(title, answer):
    chatgpt = ChatGPT()
    prompt = f"""
        假设你现在是一个数据结构与算法课程的老师，我现在需要你帮我分析一下一道数据结构与算法题目的类别。
        我会给你一道题目和答案，你要帮我分析一下这个题目的类别。
        这个类别就是指这个题目属于哪个章节的内容。
        具体的章节包括以下这些：
        1. 绪论（数据结构的整体介绍）
        2. 线性表
        3. 栈和队列
        4. 串
        5. 数组和广义表
        6. 树和二叉树
        7. 图
        8. 动态存储管理
        9. 查找
        10. 内部排序
        11. 外部排序
        你根据我的题目，给出的类别应该是上面给出的11个中的一个或者多个，需要注意一下的是我第一个类别绪论后面的括号只是补充解释，你如果要说是绪论这个类别，只需要说是绪论即可，不需要给出括号后面的内容。
        现在，我给你一个题目和答案，请你根据我的提示词，给出这个题目的类别。
        题目：{title}
        答案：{answer}
        你只需要返回一个上面十一个类别之一的名词即可。
    """
    try:
        response = chatgpt.chat(prompt)
        return response["content"].strip()
    except Exception as e:
        return f"获取描述失败：{e}"

def add_type_to_csv(input_csv, output_csv):
    # 先计算CSV的总行数以便tqdm正确显示进度
    with open(input_csv, 'r', encoding='utf-8') as f:
        total_rows = sum(1 for row in f) - 1  # 减去标题行

    with open(input_csv, 'r', encoding='utf-8') as f_in, open(output_csv, 'w', encoding='utf-8', newline='') as f_out:
        reader = csv.reader(f_in)
        writer = csv.writer(f_out)
        
        # 读取并写入标题行，同时添加新的“类别”列
        header = next(reader)
        header.append('类别')
        writer.writerow(header)
        
        # 使用tqdm显示进度条
        for row in tqdm(reader, total=total_rows, desc="Processing rows"):
            if len(row) < 2:
                # 如果行中列数不足，跳过该行
                row.append("数据不完整")
            else:
                title, answer = row[:2]
                type_ = get_type(title, answer)
                row.append(type_)
            writer.writerow(row)

if __name__ == "__main__":
    input_csv = './QA1.csv'
    output_csv = './QA1_with_type.csv'
    add_type_to_csv(input_csv, output_csv)
    print(f"已完成，将带有类别的新文件保存为 {output_csv}")


Processing rows: 100%|██████████| 68/68 [01:15<00:00,  1.11s/it]

已完成，将带有类别的新文件保存为 ./QA1_with_type.csv





### 处理QA2.csv

In [2]:
import csv
import json
from ChatGPT import ChatGPT
from tqdm import tqdm

def get_type(title, answer):
    chatgpt = ChatGPT()
    prompt = f"""
        假设你现在是一个数据结构与算法课程的老师，我现在需要你帮我分析一下一道数据结构与算法题目的类别。
        我会给你一道题目和答案，你要帮我分析一下这个题目的类别。
        这个类别就是指这个题目属于哪个章节的内容。
        具体的章节包括以下这些：
        1. 绪论（数据结构的整体介绍）
        2. 线性表
        3. 栈和队列
        4. 串
        5. 数组和广义表
        6. 树和二叉树
        7. 图
        8. 动态存储管理
        9. 查找
        10. 内部排序
        11. 外部排序
        你根据我的题目，给出的类别应该是上面给出的11个中的一个或者多个，需要注意一下的是我第一个类别绪论后面的括号只是补充解释，你如果要说是绪论这个类别，只需要说是绪论即可，不需要给出括号后面的内容。
        现在，我给你一个题目和答案，请你根据我的提示词，给出这个题目的类别。
        题目：{title}
        答案：{answer}
        你只需要返回一个上面十一个类别之一的名词即可。
    """
    try:
        response = chatgpt.chat(prompt)
        return response["content"].strip()
    except Exception as e:
        return f"获取描述失败：{e}"

def add_type_to_csv(input_csv, output_csv):
    # 先计算CSV的总行数以便tqdm正确显示进度
    with open(input_csv, 'r', encoding='utf-8') as f:
        total_rows = sum(1 for row in f) - 1  # 减去标题行

    with open(input_csv, 'r', encoding='utf-8') as f_in, open(output_csv, 'w', encoding='utf-8', newline='') as f_out:
        reader = csv.reader(f_in)
        writer = csv.writer(f_out)
        
        # 读取并写入标题行，同时添加新的“类别”列
        header = next(reader)
        header.append('类别')
        writer.writerow(header)
        
        # 使用tqdm显示进度条
        for row in tqdm(reader, total=total_rows, desc="Processing rows"):
            if len(row) < 2:
                # 如果行中列数不足，跳过该行
                row.append("数据不完整")
            else:
                title, answer = row[:2]
                type_ = get_type(title, answer)
                row.append(type_)
            writer.writerow(row)

if __name__ == "__main__":
    input_csv = './QA2.csv'
    output_csv = './QA2_with_type.csv'
    add_type_to_csv(input_csv, output_csv)
    print(f"已完成，将带有类别的新文件保存为 {output_csv}")


Processing rows: 100%|██████████| 74/74 [01:25<00:00,  1.15s/it]

已完成，将带有类别的新文件保存为 ./QA2_with_type.csv





### QA1的题目类型转换

In [5]:
import csv
import json
from ChatGPT import ChatGPT
from tqdm import tqdm

def transform_question(original_question, original_answer, category, question_type):
    chatgpt = ChatGPT()
    
    # 构建提示词（Prompt）根据题型不同
    if question_type == '判断题':
        prompt = f"""
            你是一个资深的数据结构与算法课程老师。请将以下选择题转换为一个判断题（答案只能是“对”或“错”）。
            请保持题目的类别为：{category}。
            
            原始题目：{original_question}
            原始答案：{original_answer}
            
            请提供转换后的题目和答案，格式如下：
            题目：<转换后的题目>
            答案：<转换后的答案>
            """
    elif question_type == '填空题':
        prompt = f"""
            你是一个资深的数据结构与算法课程老师。请将以下选择题转换为一个填空题。
            请保持题目的类别为：{category}。
            
            原始题目：{original_question}
            原始答案：{original_answer}
            
            请提供转换后的题目和答案，格式如下：
            题目：<转换后的题目>
            答案：<转换后的答案>
            """
    elif question_type == '简答题':
        prompt = f"""
            你是一个资深的数据结构与算法课程老师。请将以下选择题转换为一个简答题。
            请保持题目的类别为：{category}。
            
            原始题目：{original_question}
            原始答案：{original_answer}
            
            请提供转换后的题目和答案，格式如下：
            题目：<转换后的题目>
            答案：<转换后的答案>
            """
    else:
        return "无效的题型", "无效的题型"

    try:
        response = chatgpt.chat(prompt)
        content = response.get("content", "").strip()
        transformed_question = ""
        transformed_answer = ""
        
        for line in content.split('\n'):
            if line.startswith("题目："):
                transformed_question = line.replace("题目：", "").strip()
            elif line.startswith("答案："):
                transformed_answer = line.replace("答案：", "").strip()
        
        if not transformed_question or not transformed_answer:
            raise ValueError("转换后的题目或答案缺失。")
        
        return transformed_question, transformed_answer
    
    except Exception as e:
        print(f"转换失败（{question_type}）：{e}")
        return "转换失败", "转换失败"

def transform_csv(input_csv, output_csv):
    """
    读取原始CSV文件，转换题目类型，并写入新的CSV文件。

    参数：
        input_csv (str): 输入的CSV文件路径。
        output_csv (str): 输出的CSV文件路径。
    """
    # 先计算CSV的总行数以便tqdm正确显示进度
    with open(input_csv, 'r', encoding='utf-8') as f:
        total_rows = sum(1 for row in f) - 1  # 减去标题行

    with open(input_csv, 'r', encoding='utf-8') as f_in, \
         open(output_csv, 'w', encoding='utf-8', newline='') as f_out:
        
        reader = csv.reader(f_in)
        writer = csv.writer(f_out)
        
        # 写入标题行
        header = ['题目', '答案', '类别', '题目类型']
        writer.writerow(header)
        
        next(reader)  # 跳过原始标题行

        for row in tqdm(reader, total=total_rows, desc="转换题目类型"):
            if len(row) < 3:
                # 如果行中列数不足，标记转换失败
                original_question = row[0] if len(row) > 0 else ""
                original_answer = row[1] if len(row) > 1 else ""
                category = row[2] if len(row) > 2 else ""
                transformed_questions = [("数据不完整", "数据不完整")] * 3
                question_types = ['判断题', '填空题', '简答题']
            else:
                original_question, original_answer, category = row[:3]
                question_types = ['判断题', '填空题', '简答题']
                transformed_questions = [
                    transform_question(original_question, original_answer, category, q_type)
                    for q_type in question_types
                ]
            
            for q_type, (trans_q, trans_a) in zip(question_types, transformed_questions):
                writer.writerow([trans_q, trans_a, category, q_type])

    print(f"已完成，将转换后的文件保存为 {output_csv}")

if __name__ == "__main__":
    input_csv = './QA1_with_type.csv'
    output_csv = './QA1_transformed.csv'
    transform_csv(input_csv, output_csv)


转换题目类型:  82%|████████▏ | 56/68 [08:11<01:40,  8.36s/it]

转换失败（简答题）：转换后的题目或答案缺失。


转换题目类型: 100%|██████████| 68/68 [10:02<00:00,  8.86s/it]

已完成，将转换后的文件保存为 ./QA1_transformed.csv





### QA2的题目类型转换

In [6]:
import csv
import json
from ChatGPT import ChatGPT
from tqdm import tqdm

def transform_question(original_question, original_answer, category, question_type):
    chatgpt = ChatGPT()
    
    # 构建提示词（Prompt）根据题型不同
    if question_type == '判断题':
        prompt = f"""
            你是一个资深的数据结构与算法课程老师。请将以下选择题转换为一个判断题（答案只能是“对”或“错”）。
            请保持题目的类别为：{category}。
            
            原始题目：{original_question}
            原始答案：{original_answer}
            
            请提供转换后的题目和答案，格式如下：
            题目：<转换后的题目>
            答案：<转换后的答案>
            """
    elif question_type == '填空题':
        prompt = f"""
            你是一个资深的数据结构与算法课程老师。请将以下选择题转换为一个填空题。
            请保持题目的类别为：{category}。
            
            原始题目：{original_question}
            原始答案：{original_answer}
            
            请提供转换后的题目和答案，格式如下：
            题目：<转换后的题目>
            答案：<转换后的答案>
            """
    elif question_type == '简答题':
        prompt = f"""
            你是一个资深的数据结构与算法课程老师。请将以下选择题转换为一个简答题。
            请保持题目的类别为：{category}。
            
            原始题目：{original_question}
            原始答案：{original_answer}
            
            请提供转换后的题目和答案，格式如下：
            题目：<转换后的题目>
            答案：<转换后的答案>
            """
    else:
        return "无效的题型", "无效的题型"

    try:
        response = chatgpt.chat(prompt)
        content = response.get("content", "").strip()
        transformed_question = ""
        transformed_answer = ""
        
        for line in content.split('\n'):
            if line.startswith("题目："):
                transformed_question = line.replace("题目：", "").strip()
            elif line.startswith("答案："):
                transformed_answer = line.replace("答案：", "").strip()
        
        if not transformed_question or not transformed_answer:
            raise ValueError("转换后的题目或答案缺失。")
        
        return transformed_question, transformed_answer
    
    except Exception as e:
        print(f"转换失败（{question_type}）：{e}")
        return "转换失败", "转换失败"

def transform_csv(input_csv, output_csv):
    """
    读取原始CSV文件，转换题目类型，并写入新的CSV文件。

    参数：
        input_csv (str): 输入的CSV文件路径。
        output_csv (str): 输出的CSV文件路径。
    """
    # 先计算CSV的总行数以便tqdm正确显示进度
    with open(input_csv, 'r', encoding='utf-8') as f:
        total_rows = sum(1 for row in f) - 1  # 减去标题行

    with open(input_csv, 'r', encoding='utf-8') as f_in, \
         open(output_csv, 'w', encoding='utf-8', newline='') as f_out:
        
        reader = csv.reader(f_in)
        writer = csv.writer(f_out)
        
        # 写入标题行
        header = ['题目', '答案', '类别', '题目类型']
        writer.writerow(header)
        
        next(reader)  # 跳过原始标题行

        for row in tqdm(reader, total=total_rows, desc="转换题目类型"):
            if len(row) < 3:
                # 如果行中列数不足，标记转换失败
                original_question = row[0] if len(row) > 0 else ""
                original_answer = row[1] if len(row) > 1 else ""
                category = row[2] if len(row) > 2 else ""
                transformed_questions = [("数据不完整", "数据不完整")] * 3
                question_types = ['判断题', '填空题', '简答题']
            else:
                original_question, original_answer, category = row[:3]
                question_types = ['判断题', '填空题', '简答题']
                transformed_questions = [
                    transform_question(original_question, original_answer, category, q_type)
                    for q_type in question_types
                ]
            
            for q_type, (trans_q, trans_a) in zip(question_types, transformed_questions):
                writer.writerow([trans_q, trans_a, category, q_type])

    print(f"已完成，将转换后的文件保存为 {output_csv}")

if __name__ == "__main__":
    input_csv = './QA2_with_type.csv'
    output_csv = './QA2_transformed.csv'
    transform_csv(input_csv, output_csv)


转换题目类型:  64%|██████▎   | 47/74 [07:35<05:25, 12.05s/it]

转换失败（简答题）：转换后的题目或答案缺失。


转换题目类型: 100%|██████████| 74/74 [12:03<00:00,  9.77s/it]

已完成，将转换后的文件保存为 ./QA2_transformed.csv





### 合并成一个大的all_question.csv文件

In [7]:
import pandas as pd

def merge_csv_files():
    # 文件路径
    qa1_with_type = './QA1_with_type.csv'
    qa1_transformed = './QA1_transformed.csv'
    qa2_with_type = './QA2_with_type.csv'
    qa2_transformed = './QA2_transformed.csv'
    
    # 读取QA1_with_type.csv，并添加题目类型列为“多选题”
    try:
        df_qa1_with = pd.read_csv(qa1_with_type, encoding='utf-8')
        df_qa1_with['题目类型'] = '多选题'
        # 确保列顺序为：题目, 答案, 类别, 题目类型
        df_qa1_with = df_qa1_with[['题目', '答案', '类别', '题目类型']]
    except Exception as e:
        print(f"读取或处理文件 {qa1_with_type} 时出错: {e}")
        return
    
    # 读取QA1_transformed.csv，确保列顺序为：题目, 答案, 类别, 题目类型
    try:
        df_qa1_trans = pd.read_csv(qa1_transformed, encoding='utf-8')
        # 如果列顺序不对，可以重新排列
        df_qa1_trans = df_qa1_trans[['题目', '答案', '类别', '题目类型']]
    except Exception as e:
        print(f"读取或处理文件 {qa1_transformed} 时出错: {e}")
        return
    
    # 读取QA2_with_type.csv，并添加题目类型列为“单选题”
    try:
        df_qa2_with = pd.read_csv(qa2_with_type, encoding='utf-8')
        df_qa2_with['题目类型'] = '单选题'
        # 确保列顺序为：题目, 答案, 类别, 题目类型
        df_qa2_with = df_qa2_with[['题目', '答案', '类别', '题目类型']]
    except Exception as e:
        print(f"读取或处理文件 {qa2_with_type} 时出错: {e}")
        return
    
    # 读取QA2_transformed.csv，确保列顺序为：题目, 答案, 类别, 题目类型
    try:
        df_qa2_trans = pd.read_csv(qa2_transformed, encoding='utf-8')
        # 如果列顺序不对，可以重新排列
        df_qa2_trans = df_qa2_trans[['题目', '答案', '类别', '题目类型']]
    except Exception as e:
        print(f"读取或处理文件 {qa2_transformed} 时出错: {e}")
        return
    
    # 合并所有DataFrame
    try:
        all_questions = pd.concat([df_qa1_with, df_qa1_trans, df_qa2_with, df_qa2_trans], ignore_index=True)
    except Exception as e:
        print(f"合并DataFrame时出错: {e}")
        return
    
    # 导出到all_question.csv
    try:
        all_questions.to_csv('./all_question.csv', index=False, encoding='utf-8-sig')
        print("已成功将四个文件合并为 all_question.csv")
    except Exception as e:
        print(f"导出到 all_question.csv 时出错: {e}")

if __name__ == "__main__":
    merge_csv_files()


已成功将四个文件合并为 all_question.csv


### 合并成train.json

In [9]:
import csv
import json
from tqdm import tqdm

def convert_csv_to_json(input_csv, output_json, log_file):
    data = []
    skipped_rows = []
    
    # 计算总行数以便tqdm正确显示进度
    try:
        with open(input_csv, 'r', encoding='utf-8-sig') as f:  # 使用 utf-8-sig 编码处理BOM
            total_rows = sum(1 for row in f) - 1  # 减去标题行
    except Exception as e:
        print(f"读取文件 {input_csv} 时出错: {e}")
        return

    # 读取CSV并转换为JSON格式
    try:
        with open(input_csv, 'r', encoding='utf-8-sig') as csvfile:  # 使用 utf-8-sig 编码处理BOM
            reader = csv.DictReader(csvfile)
            for row in tqdm(reader, total=total_rows, desc="转换CSV到JSON"):
                # 获取每一列的值，确保存在
                title = row.get('题目', '').strip()
                answer = row.get('答案', '').strip()
                category = row.get('类别', '').strip()
                question_type = row.get('题目类型', '').strip()
                
                # 检查必要字段是否存在
                if not title or not answer or not category or not question_type:
                    skipped_rows.append(row)
                    continue
                
                # 构建human和gpt的value
                human_value = f"请你给我出一道关于{category}类型的数据结构与算法的{question_type}"
                gpt_value = f"题目是:\n{title}\n答案是:\n{answer}"
                
                # 构建对话对象
                conversation = {
                    "conversations": [
                        {
                            "from": "human",
                            "value": human_value
                        },
                        {
                            "from": "gpt",
                            "value": gpt_value
                        }
                    ]
                }
                
                # 添加到数据列表
                data.append(conversation)
    except Exception as e:
        print(f"处理文件 {input_csv} 时出错: {e}")
        return

    # 将数据写入JSON文件
    try:
        with open(output_json, 'w', encoding='utf-8') as jsonfile:
            json.dump(data, jsonfile, ensure_ascii=False, indent=2)
        print(f"成功将 {input_csv} 转换为 {output_json}")
    except Exception as e:
        print(f"写入文件 {output_json} 时出错: {e}")
    
    # 如果有跳过的行，写入日志文件
    if skipped_rows:
        try:
            with open(log_file, 'w', encoding='utf-8') as logf:
                json.dump(skipped_rows, logf, ensure_ascii=False, indent=2)
            print(f"跳过了 {len(skipped_rows)} 行，详情见 {log_file}")
        except Exception as e:
            print(f"写入日志文件 {log_file} 时出错: {e}")

if __name__ == "__main__":
    input_csv = './all_question.csv'
    output_json = './ds_train.json'
    log_file = './skipped_rows.json'
    convert_csv_to_json(input_csv, output_json, log_file)


转换CSV到JSON: 100%|██████████| 568/568 [00:00<00:00, 128616.57it/s]

成功将 ./all_question.csv 转换为 ./ds_train.json



