在根目录新建concept文件夹，将解压的学业水平评估文件夹（原文件罗外学业评估数据.zip）放进去

在根目录新建detail文件夹，将解压的学业考试的明细文件夹（原文件2023-2024每周学业评估.zip）放进去


### 把中文括号换成英文括号
以下是代码部分

In [26]:
import os

base_path = r'D:\python_test\KT\concept\2024-2025学年第一学期'

# 遍历文件夹并修正中文括号为对应的英文括号
for root, dirs, files in os.walk(base_path):
    for dir_name in dirs:
        original_path = os.path.join(root, dir_name)

        # 单独替换左括号为英文左括号，右括号为英文右括号
        fixed_name = dir_name.replace("（", "(").replace("）", ")")

        # 如果修正后的名称不同于原名称，则进行重命名
        if fixed_name != dir_name:
            fixed_path = os.path.join(root, fixed_name)
            print(f'重命名: {original_path} -> {fixed_path}')
            os.rename(original_path, fixed_path)


### 把文件夹中的所有不规范命名规范化
| **文件类型** | **原文件名（示例）**             | **规范更改后文件名（目标格式）**     | **命名规则**                                   |
|--------------|---------------------------------|------------------------|-----------------------------------------------|
| `.xlsx`      | 初二道法知识点及答案 第2周.xlsx  | 初二道法知识点及答案（第2周）.xlsx   | `{年级}{学科}知识点及答案（{周次}）.xlsx`     |
| `.docx`      | 知识点.docx                     | 初二道法学业水平评估试卷（第2周）.docx | `{年级}{学科}学业水平评估试卷（{周次}）.docx`|

以下是代码部分

In [12]:
import os
import re

def extract_info_from_folder(folder):
    """
    从文件夹路径中提取年级、周次和学科
    """
    # 提取年级
    grade_match = re.search(r"(初[一二三])", folder)
    grade = grade_match.group(1) if grade_match else "未知年级"

    # 提取周次
    week_match = re.search(r"第(\d+)周", folder)
    week = f"第{week_match.group(1)}周" if week_match else "未知周次"

    # 提取学科
    subjects = ["语文", "数学", "英语", "地理", "生物", "道法", "物理", "历史", "化学", "科学"]
    subject = next((s for s in subjects if s in folder), "未知学科")

    return grade, week, subject

def generate_new_name(folder, file_name):
    """
    根据文件扩展名生成新文件名
    """
    # 提取文件扩展名，支持大小写不敏感
    ext = os.path.splitext(file_name)[1].lower()

    # 从文件夹路径提取信息
    grade, week, subject = extract_info_from_folder(folder)

    # 替换中文括号为英文括号
    file_name = re.sub(r'[（）]', lambda x: '(' if x.group() == '(' else ')', file_name)

    # 针对不同类型的文件生成文件名
    if ext == ".xlsx":
        return f"{grade}{subject}知识点及答案({week}){ext}"
    elif ext == ".docx":
        return f"{grade}{subject}学业水平评估试卷({week}){ext}"
    else:
        return file_name  # 其他文件类型不修改

def batch_rename_files(root_dir):
    """
    遍历所有文件夹并批量重命名文件，并记录更改
    """
    changes = []  # 用于记录更改的文件
    for folder, _, files in os.walk(root_dir):
        for file in files:
            old_path = os.path.join(folder, file)
            new_name = generate_new_name(folder, file)
            new_path = os.path.join(folder, new_name)

            # 调试打印文件信息
            print(f"Debug: OldName={file}, GeneratedNewName={new_name}")

            # 仅重命名指定类型的文件
            if old_path != new_path and file.lower().endswith((".xlsx", ".docx")):
                try:
                    os.rename(old_path, new_path)
                    changes.append((old_path, new_path))  # 记录更改
                except Exception as e:
                    print(f"Failed to rename {old_path} -> {new_path}: {e}")
            elif old_path == new_path:
                print(f"No change needed: {old_path} (Name already correct)")

    # 打印更改结果
    if changes:
        print("\n=== 文件更改清单 ===")
        for old, new in changes:
            print(f"{old} -> {new}")

        # 保存更改清单到文件
        with open("rename_log.txt", "w", encoding="utf-8") as log_file:
            log_file.write("=== 文件更改清单 ===\n")
            for old, new in changes:
                log_file.write(f"{old} -> {new}\n")
        print("\n更改清单已保存至 rename_log.txt")
    else:
        print("\n没有需要更改的文件！")

# 指定新的根目录
root_directory = r"D:\python_test\KT\concept\2023-2024学年第二学期"
batch_rename_files(root_directory)


Debug: OldName=初一历史学业水平评估试卷（第16周）.docx, GeneratedNewName=初一历史学业水平评估试卷(第16周).docx
Debug: OldName=初一历史知识点及答案（第16周）.xlsx, GeneratedNewName=初一历史知识点及答案(第16周).xlsx
Debug: OldName=初一地理学业水平评估试卷（第16周）.docx, GeneratedNewName=初一地理学业水平评估试卷(第16周).docx
Debug: OldName=初一地理知识点及答案（第16周）.xlsx, GeneratedNewName=初一地理知识点及答案(第16周).xlsx
Debug: OldName=初一数学学业水平评估试卷(第16周).doc, GeneratedNewName=初一数学学业水平评估试卷(第16周).doc
No change needed: D:\python_test\KT\concept\2023-2024学年第二学期\初一年级学业水平评估(第16周)\数学\初一数学学业水平评估试卷(第16周).doc (Name already correct)
Debug: OldName=初一数学知识点及答案（第16周）.xlsx, GeneratedNewName=初一数学知识点及答案(第16周).xlsx
Debug: OldName=初一生物学业水平评估试卷（第16周）.docx, GeneratedNewName=初一生物学业水平评估试卷(第16周).docx
Debug: OldName=初一生物知识点及答案（第16周）.xlsx, GeneratedNewName=初一生物知识点及答案(第16周).xlsx
Debug: OldName=初一英语学业水平评估试卷（第16周）.docx, GeneratedNewName=初一英语学业水平评估试卷(第16周).docx
Debug: OldName=初一英语知识点及答案（第16周）.xlsx, GeneratedNewName=初一英语知识点及答案(第16周).xlsx
Debug: OldName=初一语文学业水平评估试卷（第16周）.docx, GeneratedNewName=初一语文学业水平评估试卷(第16周).docx
Debug


### 合并一周内各科目的知识点清单

每一周的的知识点清单由各科老师负责填写，被分成了若干的excel文档放在了各科目的文件夹中，需要将他们合并成一个excel文件，便于后续匹配题目知识点

In [41]:
# 基础版本
import pandas as pd
import os
import glob

# 基础路径和相关参数
grade = '一'  # 年级，例如 1, 2, 3
subjects = ['物理','地理', '历史', '生物', '数学', '英语', '语文', '道法','化学']  # 科目列表
base_path = r'D:\python_test\KT\concept\2023-2024学年第一学期'

# 用于拼接所有Excel文件的空数据框
combined_df = pd.DataFrame()

# 遍历每个周次，从1到17周
for week in range(9, 11):
    base_folder = fr'{base_path}\初{grade}年级学业水平评估(第{week}周)'  # 动态设置基础文件夹路径
    combined_df = combined_df[0:0]  # 清空数据框，准备存储新的数据

    # 遍历每个科目文件夹
    for subject in subjects:
        # 构建科目文件夹的路径
        folder_path = os.path.join(base_folder, subject)

        # 使用glob进行模糊匹配，找到文件夹中的xlsx文件
        file_pattern = os.path.join(folder_path, '*.xlsx')
        matched_files = glob.glob(file_pattern)

        if matched_files:
            print(matched_files)
            for file_path in matched_files:
                # 读取文件并从第二行开始，跳过第一行
                df = pd.read_excel(file_path, skiprows=0)
                # 读取文件并将内容添加到combined_df中
                combined_df = pd.concat([combined_df, df], ignore_index=True)
        else:
            print(f'文件夹 {folder_path} 中没有找到符合条件的文件，跳过该文件夹。')

    # 检查done文件夹是否存在，如果不存在则创建它
    done_folder = os.path.join(base_path, 'done')
    if not os.path.exists(done_folder):
        os.makedirs(done_folder)

    # 保存合并后的数据到新的Excel文件
    output_path = fr'{done_folder}\初{grade}年级学业水平评估知识点清单（第{week}周）.xlsx'
    combined_df.to_excel(output_path, index=False)


文件夹 D:\python_test\KT\concept\2023-2024学年第一学期\初一年级学业水平评估(第9周)\物理 中没有找到符合条件的文件，跳过该文件夹。
文件夹 D:\python_test\KT\concept\2023-2024学年第一学期\初一年级学业水平评估(第9周)\地理 中没有找到符合条件的文件，跳过该文件夹。
文件夹 D:\python_test\KT\concept\2023-2024学年第一学期\初一年级学业水平评估(第9周)\历史 中没有找到符合条件的文件，跳过该文件夹。
文件夹 D:\python_test\KT\concept\2023-2024学年第一学期\初一年级学业水平评估(第9周)\生物 中没有找到符合条件的文件，跳过该文件夹。
文件夹 D:\python_test\KT\concept\2023-2024学年第一学期\初一年级学业水平评估(第9周)\数学 中没有找到符合条件的文件，跳过该文件夹。
文件夹 D:\python_test\KT\concept\2023-2024学年第一学期\初一年级学业水平评估(第9周)\英语 中没有找到符合条件的文件，跳过该文件夹。
文件夹 D:\python_test\KT\concept\2023-2024学年第一学期\初一年级学业水平评估(第9周)\语文 中没有找到符合条件的文件，跳过该文件夹。
文件夹 D:\python_test\KT\concept\2023-2024学年第一学期\初一年级学业水平评估(第9周)\道法 中没有找到符合条件的文件，跳过该文件夹。
文件夹 D:\python_test\KT\concept\2023-2024学年第一学期\初一年级学业水平评估(第9周)\化学 中没有找到符合条件的文件，跳过该文件夹。
文件夹 D:\python_test\KT\concept\2023-2024学年第一学期\初一年级学业水平评估(第10周)\物理 中没有找到符合条件的文件，跳过该文件夹。
['D:\\python_test\\KT\\concept\\2023-2024学年第一学期\\初一年级学业水平评估(第10周)\\地理\\初一地理知识点及答案(第10周).xlsx']
['D:\\python_test\\KT\\concept\\2023-2024学年第

### 将每周的答题明细表数据进行格式转换

现有的得分明细数据是每个学生一行记录，包含所有题目的得分。现在需要转换成每个学生都有多行记录，每一题对应一行记录。

现在：

 学号 姓名  题1  题2  ...  题66 

 1   张三   1   0    ...   0   

目的：

 学号 姓名  题目  得分

 1   张三   题1  1   
 
 1   张三   题2  0   

...

1   张三   题66  0   



In [2]:
import pandas as pd
import os

# 父文件夹路径
parent_folder = r'D:\python_test\KT\detail\单科成绩-科学-初一15周学业评估-海云天测试学校2023'
done_folder = os.path.join(parent_folder, 'Done')

# 如果 Done 文件夹不存在，则创建
if not os.path.exists(done_folder):
    os.makedirs(done_folder)

# 遍历 1 到 20 班的文件夹
for class_num in range(1, 21):  # 班级编号从 1 到 20
    class_folder = os.path.join(parent_folder, str(class_num))
    input_file = os.path.join(class_folder, f'科学-小题分-{class_num}.xlsx')

    # 检查文件是否存在
    if not os.path.exists(input_file):
        print(f"班级 {class_num} 的文件 {input_file} 不存在，跳过...")
        continue

    # 读取班级 Excel 文件
    df = pd.read_excel(input_file)

    # 提取学号和姓名列
    id_name_cols = ['考号', '姓名']  # 修改为实际列名

    # 获取所有题目列（假设以 "客观_" 开头）
    question_cols = [col for col in df.columns if col.startswith("客观_")]

    # 转换数据格式
    df_melted = df.melt(id_vars=id_name_cols,
                        value_vars=question_cols,
                        var_name='题目',
                        value_name='得分')

    # 输出结果文件路径
    output_file = os.path.join(done_folder, f'班级{class_num}_转换结果.xlsx')

    # 保存转换后的结果
    df_melted.to_excel(output_file, index=False)
    print(f"班级 {class_num} 的数据已处理并保存到：{output_file}")

print("所有班级的数据处理完成！")


  warn("Workbook contains no default style, apply openpyxl's default")


班级 1 的数据已处理并保存到：D:\python_test\KT\detail\单科成绩-科学-初一15周学业评估-海云天测试学校2023\Done\班级1_转换结果.xlsx
班级 2 的数据已处理并保存到：D:\python_test\KT\detail\单科成绩-科学-初一15周学业评估-海云天测试学校2023\Done\班级2_转换结果.xlsx


  warn("Workbook contains no default style, apply openpyxl's default")
  warn("Workbook contains no default style, apply openpyxl's default")


班级 3 的数据已处理并保存到：D:\python_test\KT\detail\单科成绩-科学-初一15周学业评估-海云天测试学校2023\Done\班级3_转换结果.xlsx
班级 4 的数据已处理并保存到：D:\python_test\KT\detail\单科成绩-科学-初一15周学业评估-海云天测试学校2023\Done\班级4_转换结果.xlsx


  warn("Workbook contains no default style, apply openpyxl's default")
  warn("Workbook contains no default style, apply openpyxl's default")


班级 5 的数据已处理并保存到：D:\python_test\KT\detail\单科成绩-科学-初一15周学业评估-海云天测试学校2023\Done\班级5_转换结果.xlsx
班级 6 的数据已处理并保存到：D:\python_test\KT\detail\单科成绩-科学-初一15周学业评估-海云天测试学校2023\Done\班级6_转换结果.xlsx


  warn("Workbook contains no default style, apply openpyxl's default")
  warn("Workbook contains no default style, apply openpyxl's default")


班级 7 的数据已处理并保存到：D:\python_test\KT\detail\单科成绩-科学-初一15周学业评估-海云天测试学校2023\Done\班级7_转换结果.xlsx
班级 8 的数据已处理并保存到：D:\python_test\KT\detail\单科成绩-科学-初一15周学业评估-海云天测试学校2023\Done\班级8_转换结果.xlsx


  warn("Workbook contains no default style, apply openpyxl's default")
  warn("Workbook contains no default style, apply openpyxl's default")


班级 9 的数据已处理并保存到：D:\python_test\KT\detail\单科成绩-科学-初一15周学业评估-海云天测试学校2023\Done\班级9_转换结果.xlsx
班级 10 的数据已处理并保存到：D:\python_test\KT\detail\单科成绩-科学-初一15周学业评估-海云天测试学校2023\Done\班级10_转换结果.xlsx


  warn("Workbook contains no default style, apply openpyxl's default")
  warn("Workbook contains no default style, apply openpyxl's default")


班级 11 的数据已处理并保存到：D:\python_test\KT\detail\单科成绩-科学-初一15周学业评估-海云天测试学校2023\Done\班级11_转换结果.xlsx
班级 12 的数据已处理并保存到：D:\python_test\KT\detail\单科成绩-科学-初一15周学业评估-海云天测试学校2023\Done\班级12_转换结果.xlsx


  warn("Workbook contains no default style, apply openpyxl's default")
  warn("Workbook contains no default style, apply openpyxl's default")


班级 13 的数据已处理并保存到：D:\python_test\KT\detail\单科成绩-科学-初一15周学业评估-海云天测试学校2023\Done\班级13_转换结果.xlsx
班级 14 的数据已处理并保存到：D:\python_test\KT\detail\单科成绩-科学-初一15周学业评估-海云天测试学校2023\Done\班级14_转换结果.xlsx


  warn("Workbook contains no default style, apply openpyxl's default")
  warn("Workbook contains no default style, apply openpyxl's default")


班级 15 的数据已处理并保存到：D:\python_test\KT\detail\单科成绩-科学-初一15周学业评估-海云天测试学校2023\Done\班级15_转换结果.xlsx
班级 16 的数据已处理并保存到：D:\python_test\KT\detail\单科成绩-科学-初一15周学业评估-海云天测试学校2023\Done\班级16_转换结果.xlsx


  warn("Workbook contains no default style, apply openpyxl's default")
  warn("Workbook contains no default style, apply openpyxl's default")


班级 17 的数据已处理并保存到：D:\python_test\KT\detail\单科成绩-科学-初一15周学业评估-海云天测试学校2023\Done\班级17_转换结果.xlsx


  warn("Workbook contains no default style, apply openpyxl's default")


班级 18 的数据已处理并保存到：D:\python_test\KT\detail\单科成绩-科学-初一15周学业评估-海云天测试学校2023\Done\班级18_转换结果.xlsx
班级 19 的数据已处理并保存到：D:\python_test\KT\detail\单科成绩-科学-初一15周学业评估-海云天测试学校2023\Done\班级19_转换结果.xlsx


  warn("Workbook contains no default style, apply openpyxl's default")
  warn("Workbook contains no default style, apply openpyxl's default")


班级 20 的数据已处理并保存到：D:\python_test\KT\detail\单科成绩-科学-初一15周学业评估-海云天测试学校2023\Done\班级20_转换结果.xlsx
所有班级的数据处理完成！


### 将知识点清单的知识点根据题号匹配到答题明细表中，并将匹配好的内容都拼接在一个文件中

上述操作分别得到每周的题目知识点对应关系，以及每周的答题明细，现在需要将知识点清单的知识点根据题号匹配到答题明细表中，并将匹配好的内容都拼接在一个文件中



In [3]:
import pandas as pd

# 1. 读取答题明细文件
answer_detail_file = r'D:\python_test\KT\detail\单科成绩-科学-初一年级第六周学业评估-罗湖外语初中学校\科学-小题分-转换结果.xlsx'
answer_detail_df = pd.read_excel(answer_detail_file)

# 2. 读取知识点清单文件
concept_file = r'D:\python_test\KT\concept\2023-2024学年第一学期\done\初一年级学业水平评估知识点清单（第15周）.xlsx'
concept_df = pd.read_excel(concept_file)

# 3. 自动生成中文题号到阿拉伯数字题号的映射关系
# 假设中文题号格式是"客观_1"、"客观_2"、...，直到100题为止
question_mapping = {f"客观_{i}": i for i in range(1, 101)}

# 4. 创建一个字典来映射题号到知识点
concept_dict = dict(zip(concept_df['题号'], concept_df['知识点']))

# 5. 将中文题号转换为数字并获取对应知识点
def get_knowledge_point(chinese_question):
    # 获取映射后的阿拉伯数字题号
    question_number = question_mapping.get(chinese_question)
    # 如果映射成功，返回对应的知识点，否则返回'未知'
    return concept_dict.get(question_number, '未知') if question_number else '未知'

# 6. 将题号从中文转换为阿拉伯数字
answer_detail_df['题号'] = answer_detail_df['题目'].apply(lambda x: question_mapping.get(x, '未知'))

# 7. 应用函数获取知识点
answer_detail_df['知识点'] = answer_detail_df['题目'].apply(get_knowledge_point)

# 8. 调整列顺序
answer_detail_df = answer_detail_df[['考号', '姓名', '题号', '知识点', '得分', '时间（年级-周）']]

# 9. 根据时间（年级-周）字段生成文件名
time_period = str(answer_detail_df['时间（年级-周）'].iloc[0])  # 假设所有记录时间相同
output_filename = f'D:/python_test/KT/Done/{time_period}.xlsx'

# 10. 保存新的 Excel 文件
answer_detail_df.to_excel(output_filename, index=False)

print(f"文件已保存为: {output_filename}")


文件已保存为: D:/python_test/KT/Done/106.xlsx


In [1]:
import pandas as pd
import os

# 定义 Done 文件夹路径
done_folder = r'D:\python_test\KT\detail\单科成绩-科学-初一15周学业评估-海云天测试学校2023\Done'
output_file = os.path.join(done_folder, '单科成绩-科学-初一第15周学业评估Done.xlsx')

# 初始化空列表，用于存储每个班级的数据
all_data = []

# 遍历 Done 文件夹中的所有文件
for file in os.listdir(done_folder):
    # 只处理 Excel 文件（确保是之前转换的结果）
    if file.endswith('_转换结果.xlsx'):
        file_path = os.path.join(done_folder, file)

        # 读取 Excel 文件
        df = pd.read_excel(file_path)

        # 添加新的列 "时间（年级-周）"，值为 115
        df['时间（年级-周）'] = '115'

        # 将数据添加到列表中
        all_data.append(df)

# 拼接所有班级的数据
final_df = pd.concat(all_data, ignore_index=True)

# 保存拼接后的数据到一个新的 Excel 文件
final_df.to_excel(output_file, index=False)
print(f"所有数据已拼接完成并保存到：{output_file}")


所有数据已拼接完成并保存到：D:\python_test\KT\detail\单科成绩-科学-初一15周学业评估-海云天测试学校2023\Done\单科成绩-科学-初一第15周学业评估Done.xlsx


In [40]:
import pandas as pd

# 输入文件路径
input_file = r'D:\python_test\KT\detail\单科成绩-科学-初二第15周学业评估-海云天测试学校2023\科学-小题分-海云天测试学校2023.xlsx'

# 输出文件路径
output_file = r'D:\python_test\KT\detail\单科成绩-科学-初二第15周学业评估-海云天测试学校2023\科学-小题分--转换结果.xlsx'

# 读取 Excel 文件
df = pd.read_excel(input_file)

# 提取学号和姓名列
id_name_cols = ['考号', '姓名']  # 确保这些列名和文件中的列名一致

# 提取客观题列
question_cols = [col for col in df.columns if col.startswith("客观_")]

# 转换数据格式
df_melted = df.melt(id_vars=id_name_cols,
                    value_vars=question_cols,
                    var_name='题目',
                    value_name='得分')

# 添加新的列 "时间（年级-周）"，值为 318
df_melted['时间（年级-周）'] = '215'

# 保存转换后的结果到新的 Excel 文件
df_melted.to_excel(output_file, index=False)

print(f"转换完成，结果保存至：{output_file}")


  warn("Workbook contains no default style, apply openpyxl's default")


转换完成，结果保存至：D:\python_test\KT\detail\单科成绩-科学-初二第15周学业评估-海云天测试学校2023\科学-小题分--转换结果.xlsx


In [16]:
import os
import pandas as pd
import re

# Define the paths for the folders
concept_folder = r"D:\Common\罗外KT数据\test\concept\done"
detail_folder = r"D:\Common\罗外KT数据\test\detail\done"
output_folder = r"D:\Common\罗外KT数据\test\match"

# Create output folder if it doesn't exist
if not os.path.exists(output_folder):
    os.makedirs(output_folder)

# Get a list of all files in the two folders
concept_files = [f for f in os.listdir(concept_folder) if f.endswith('.xlsx')]
detail_files = [f for f in os.listdir(detail_folder) if f.endswith('.xlsx')]

# Initialize an empty DataFrame to store all merged results
all_merged_df = pd.DataFrame()

# Iterate through detail files to find matching concept files
for detail_file in detail_files:
    # Extract grade and week information from the detail file name using regex
    match = re.search(r'(\u521d\u4e00).*?(\u7b2c\d+\u5468)', detail_file)
    if match:
        grade, week = match.groups()
        
        # Find the corresponding concept file based on grade and week
        for concept_file in concept_files:
            if grade in concept_file and week in concept_file:
                # Load the matching detail and concept files
                detail_file_path = os.path.join(detail_folder, detail_file)
                concept_file_path = os.path.join(concept_folder, concept_file)
                
                details_df = pd.read_excel(detail_file_path)
                knowledge_df = pd.read_excel(concept_file_path)
                
                # Cleaning up the knowledge dataframe to keep only necessary columns
                knowledge_df_clean = knowledge_df[['题号', '知识点']]
                
                # Merging the two dataframes based on the '题号' column
                merged_df = details_df.merge(knowledge_df_clean, on='题号', how='left')
                
                # Append the merged dataframe to the cumulative DataFrame
                all_merged_df = pd.concat([all_merged_df, merged_df], ignore_index=True)
                
                # Print a confirmation message
                print(f"Merged file processed: {detail_file} with {concept_file}")
                break  # Move to the next detail file once a match is found

# Save the final concatenated DataFrame to the output folder
output_file_path = os.path.join(output_folder, "all_merged_results.xlsx")
all_merged_df.to_excel(output_file_path, index=False)

print("All matching and merging completed. Final merged file saved.")


All matching and merging completed. Final merged file saved.
