# 教育反馈数据分析 - 数据清洗

这个 notebook 用于清洗教育反馈数据，为后续分析做准备。

In [21]:
# 导入必要的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 设置显示选项
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.width', None)

# 设置图表样式
plt.style.use('seaborn-v0_8')
%matplotlib inline

## 1. 数据加载

In [22]:
# 加载数据
file_path = '../../data/raw/比赛数据.csv'
df = pd.read_csv(file_path, encoding='gbk')

# 显示数据的基本信息
print("数据集形状:", df.shape)
print("\n数据集列名:")
print(df.columns.tolist())
print("\n数据集前5行:")
display(df.head())

数据集形状: (18318, 193)

数据集列名:
['您目前所在的专业', '您目前所在的专业.1', '您目前所在的年级是', '您的性别是', '您的政治面貌是', '本学年，您的学习情况如何（课前运用网络课程平台、教材或资料进行自主预学，梳理知识并发现问题）', '本学年，您的学习情况如何（课前运用网络课程平台、教材或资料进行自主预学，梳理知识并发现问题）2', '本学年，您的学习情况如何（课堂上能跟上老师的讲解，主动提问或参与讨论，每节课学有所获）', '本学年，您的学习情况如何（课堂上能跟上老师的讲解，主动提问或参与讨论，每节课学有所获）2', '本学年，您的学习情况如何（课后复习笔记及总结课堂教学相关知识）', '本学年，您的学习情况如何（课后复习笔记及总结课堂教学相关知识）2', '本学年，您的学习情况如何（除了阅读教材，还延伸阅读教师推荐的其他相关书目）', '本学年，您的学习情况如何（除了阅读教材，还延伸阅读教师推荐的其他相关书目）2', '完成作业', '除作业外的自习（如预习、复习、资料阅读）', '阅读专业相关的课外书籍', '花费在网络课程平台上的时间', '做实验/科研项目', '参与专业相关社团活动', '参与学科竞赛活动', '参与其他学习活动（如升学）', '本学年，您和其他同学的学习互动情况如何（和同学合作完成课程任务或作业）', '本学年，您和其他同学的学习互动情况如何（和同学合作完成课程任务或作业）2', '本学年，您和其他同学的学习互动情况如何（和同学一起参与老师科研团队）', '本学年，您和其他同学的学习互动情况如何（和同学一起参与老师科研团队）2', '本学年，您和其他同学的学习互动情况如何（和同学一起参加学科竞赛）', '本学年，您和其他同学的学习互动情况如何（和同学一起参加学科竞赛）2', '本学年，您和其他同学的学习互动情况如何（从同学那里学习、吸收好的学习方法）', '本学年，您和其他同学的学习互动情况如何（从同学那里学习、吸收好的学习方法）2', '您与任课教师课下交流的平均频度', '您对本校思想政治课的满意度（总体满意度）', '您对本校思想政治课的满意度（总体满意度）2', '您对本校思想政治课的满意度（课程设置）', '您对本校思想政治课的满意度（课程设置）2', '您对本校思想政治课的满意度（教

Unnamed: 0,您目前所在的专业,您目前所在的专业.1,您目前所在的年级是,您的性别是,您的政治面貌是,本学年，您的学习情况如何（课前运用网络课程平台、教材或资料进行自主预学，梳理知识并发现问题）,本学年，您的学习情况如何（课前运用网络课程平台、教材或资料进行自主预学，梳理知识并发现问题）2,本学年，您的学习情况如何（课堂上能跟上老师的讲解，主动提问或参与讨论，每节课学有所获）,本学年，您的学习情况如何（课堂上能跟上老师的讲解，主动提问或参与讨论，每节课学有所获）2,本学年，您的学习情况如何（课后复习笔记及总结课堂教学相关知识）,本学年，您的学习情况如何（课后复习笔记及总结课堂教学相关知识）2,本学年，您的学习情况如何（除了阅读教材，还延伸阅读教师推荐的其他相关书目）,本学年，您的学习情况如何（除了阅读教材，还延伸阅读教师推荐的其他相关书目）2,完成作业,除作业外的自习（如预习、复习、资料阅读）,阅读专业相关的课外书籍,花费在网络课程平台上的时间,做实验/科研项目,参与专业相关社团活动,参与学科竞赛活动,参与其他学习活动（如升学）,本学年，您和其他同学的学习互动情况如何（和同学合作完成课程任务或作业）,本学年，您和其他同学的学习互动情况如何（和同学合作完成课程任务或作业）2,本学年，您和其他同学的学习互动情况如何（和同学一起参与老师科研团队）,本学年，您和其他同学的学习互动情况如何（和同学一起参与老师科研团队）2,本学年，您和其他同学的学习互动情况如何（和同学一起参加学科竞赛）,本学年，您和其他同学的学习互动情况如何（和同学一起参加学科竞赛）2,本学年，您和其他同学的学习互动情况如何（从同学那里学习、吸收好的学习方法）,本学年，您和其他同学的学习互动情况如何（从同学那里学习、吸收好的学习方法）2,您与任课教师课下交流的平均频度,您对本校思想政治课的满意度（总体满意度）,您对本校思想政治课的满意度（总体满意度）2,您对本校思想政治课的满意度（课程设置）,您对本校思想政治课的满意度（课程设置）2,您对本校思想政治课的满意度（教学内容）,您对本校思想政治课的满意度（教学内容）2,您对本校思想政治课的满意度（教学质量）,您对本校思想政治课的满意度（教学质量）2,您对本校思想政治课的满意度（教学效果）,您对本校思想政治课的满意度（教学效果）2,请您评价本学年所修专业课在以下方面的情况（课程将知识、能力、素养进行了有机融合）,请您评价本学年所修专业课在以下方面的情况（课程将知识、能力、素养进行了有机融合）2,请您评价本学年所修专业课在以下方面的情况（课程教学培养了我解决复杂问题的综合能力）,请您评价本学年所修专业课在以下方面的情况（课程教学培养了我解决复杂问题的综合能力）2,请您评价本学年所修专业课在以下方面的情况（课程内容注重学科间的交叉与融合）,请您评价本学年所修专业课在以下方面的情况（课程内容注重学科间的交叉与融合）2,请您评价本学年所修专业课在以下方面的情况（课程教学内容重视实践与理论的结合）,请您评价本学年所修专业课在以下方面的情况（课程教学内容重视实践与理论的结合）2,请您评价本学年所修专业课在以下方面的情况（需要非常努力才能达到课程要求）,请您评价本学年所修专业课在以下方面的情况（需要非常努力才能达到课程要求）2,请您评价本学年所修专业课在以下方面的情况（课程内容反映了学科发展的前沿内容）,请您评价本学年所修专业课在以下方面的情况（课程内容反映了学科发展的前沿内容）2,请您评价专业课任课教师的教学方式（课程以传统的教师讲授为主）,请您评价专业课任课教师的教学方式（课程以传统的教师讲授为主）2,请您评价专业课任课教师的教学方式（课堂中加入互动环节，注重学生参与（提问、讨论））,请您评价专业课任课教师的教学方式（课堂中加入互动环节，注重学生参与（提问、讨论））2,请您评价专业课任课教师的教学方式（提供案例或实例讨论）,请您评价专业课任课教师的教学方式（提供案例或实例讨论）2,请您评价专业课任课教师的教学方式（采用小组合作的项目式教学方式）,请您评价专业课任课教师的教学方式（采用小组合作的项目式教学方式）2,本学年，您参加过以下哪种课程考核方式（多选）（卷面考试）,本学年，您参加过以下哪种课程考核方式（多选）（随堂提问或测试）,本学年，您参加过以下哪种课程考核方式（多选）（课程论文或实验报告）,本学年，您参加过以下哪种课程考核方式（多选）（课堂展示）,本学年，您参加过以下哪种课程考核方式（多选）（个人独立完成的课程作业）,本学年，您参加过以下哪种课程考核方式（多选）（小组合作完成的课程作业）,本学年，您参加过以下哪种课程考核方式（多选）（以上均没参加过）,请您评价本校的体育、美育、劳动教育的满意度（体育教育（如课内外体育活动、俱乐部等））,请您评价本校的体育、美育、劳动教育的满意度（体育教育（如课内外体育活动、俱乐部等））2,请您评价本校的体育、美育、劳动教育的满意度（美育教育（如公共艺术课程、艺术节、美育专题讲座等））,请您评价本校的体育、美育、劳动教育的满意度（美育教育（如公共艺术课程、艺术节、美育专题讲座等））2,请您评价本校的体育、美育、劳动教育的满意度（劳动教育（如劳动类课程、勤工助学、社会公益活动等））,请您评价本校的体育、美育、劳动教育的满意度（劳动教育（如劳动类课程、勤工助学、社会公益活动等））2,本学年，您是否参加过以下活动（多选）（学生社团活动）,本学年，您是否参加过以下活动（多选）（校园文化活动（如文化节、辩论赛、运动会等））,本学年，您是否参加过以下活动（多选）（创新创业活动（如创新创业课程、创新创业活动和竞赛等））,本学年，您是否参加过以下活动（多选）（国际交流活动（如海外访学、国际科研项目、参加国际会议、与来华交流的海外访学团交流等））,本学年，您是否参加过以下活动（多选）（社会实践活动（如本校组织的志愿服务、参观考察等））,本学年，您是否参加过以下活动（多选）（以上均未参与）,请您评价学生社团活动的满意度（请您评价学生社团活动的满意度）,请您评价学生社团活动的满意度（请您评价学生社团活动的满意度）2,请您评价校园文化活动（如文化节、辩论赛、运动会等）的满意度（请您评价校园文化活动（如文化节、辩论赛、运动会等）的满意度）,请您评价校园文化活动（如文化节、辩论赛、运动会等）的满意度（请您评价校园文化活动（如文化节、辩论赛、运动会等）的满意度）2,请您评价创新创业活动（如创新创业课程、创新创业活动和竞赛等）的满意度（请您评价创新创业活动（如创新创业课程、创新创业活动和竞赛等）的满意度）,请您评价创新创业活动（如创新创业课程、创新创业活动和竞赛等）的满意度（请您评价创新创业活动（如创新创业课程、创新创业活动和竞赛等）的满意度）2,请您评价国际交流活动（如海外访学、国际科研项目、参加国际会议、与来华交流的海外访学团交流等）的满意度（请您评价国际交流活动（如海外访学、国际科研项目、参加国际会议、与来华交流的海外访学团交流等）的满意度）,请您评价国际交流活动（如海外访学、国际科研项目、参加国际会议、与来华交流的海外访学团交流等）的满意度（请您评价国际交流活动（如海外访学、国际科研项目、参加国际会议、与来华交流的海外访学团交流等）的满意度）2,请您评价社会实践活动（如本校组织的志愿服务、参观考察等）的满意度（请您评价社会实践活动（如本校组织的志愿服务、参观考察等）的满意度）,请您评价社会实践活动（如本校组织的志愿服务、参观考察等）的满意度（请您评价社会实践活动（如本校组织的志愿服务、参观考察等）的满意度）2,请您评价本校实习实践各方面的满意度（实习实践的内容）,请您评价本校实习实践各方面的满意度（实习实践的内容）2,请您评价本校实习实践各方面的满意度（实习实践时间安排）,请您评价本校实习实践各方面的满意度（实习实践时间安排）2,请您评价本校实习实践各方面的满意度（实习实践场地及设备）,请您评价本校实习实践各方面的满意度（实习实践场地及设备）2,请您评价本校实习实践各方面的满意度（实习指导情况）,请您评价本校实习实践各方面的满意度（实习指导情况）2,请您评价本校实习实践各方面的满意度（这道题选择“比较满意”即可，请不要选择其他项）,请您评价本校实习实践各方面的满意度（这道题选择“比较满意”即可，请不要选择其他项）2,您对在校学习收获的评价（分析问题、解决问题能力提升）,您对在校学习收获的评价（分析问题、解决问题能力提升）2,您对在校学习收获的评价（自主学习能力提升）,您对在校学习收获的评价（自主学习能力提升）2,您对在校学习收获的评价（合作能力提升）,您对在校学习收获的评价（合作能力提升）2,您对在校学习收获的评价（书面表达和沟通能力提升）,您对在校学习收获的评价（书面表达和沟通能力提升）2,您对在校学习收获的评价（有能力规划未来工作生活）,您对在校学习收获的评价（有能力规划未来工作生活）2,在核心素养提升方面，您的满意度是（人文底蕴（人文积淀、人文情怀、审美情趣等））,在核心素养提升方面，您的满意度是（人文底蕴（人文积淀、人文情怀、审美情趣等））2,在核心素养提升方面，您的满意度是（科学精神（理性思维、批判质疑、勇于探究等））,在核心素养提升方面，您的满意度是（科学精神（理性思维、批判质疑、勇于探究等））2,在核心素养提升方面，您的满意度是（学会学习（乐学善学、勤于反思、信息意识等））,在核心素养提升方面，您的满意度是（学会学习（乐学善学、勤于反思、信息意识等））2,在核心素养提升方面，您的满意度是（健康生活（珍爱生命、健全人格、自我管理等））,在核心素养提升方面，您的满意度是（健康生活（珍爱生命、健全人格、自我管理等））2,在核心素养提升方面，您的满意度是（责任担当（社会责任、国家认同、国际理解等））,在核心素养提升方面，您的满意度是（责任担当（社会责任、国家认同、国际理解等））2,在核心素养提升方面，您的满意度是（实践创新（劳动意识、问题解决、技术应用等））,在核心素养提升方面，您的满意度是（实践创新（劳动意识、问题解决、技术应用等））2,在核心素养提升方面，您的满意度是（自我提升（变得自信、善于交友、学会包容等））,在核心素养提升方面，您的满意度是（自我提升（变得自信、善于交友、学会包容等））2,您对本学年本校教师在以下方面的满意度（依法依规，履行教师职责）,您对本学年本校教师在以下方面的满意度（依法依规，履行教师职责）2,您对本学年本校教师在以下方面的满意度（关心爱护学生）,您对本学年本校教师在以下方面的满意度（关心爱护学生）2,您对本学年本校教师在以下方面的满意度（师德师风及精神面貌）,您对本学年本校教师在以下方面的满意度（师德师风及精神面貌）2,您对本学年本校教师在以下方面的满意度（教学投入）,您对本学年本校教师在以下方面的满意度（教学投入）2,您对本学年本校教师在以下方面的满意度（总体教学满意度）,您对本学年本校教师在以下方面的满意度（总体教学满意度）2,请评价本学年您的任课教师的教学行为（清楚地向学生解释了所学课程的目标和要求）,请评价本学年您的任课教师的教学行为（清楚地向学生解释了所学课程的目标和要求）2,请评价本学年您的任课教师的教学行为（课堂上激发学生的学习兴趣）,请评价本学年您的任课教师的教学行为（课堂上激发学生的学习兴趣）2,请评价本学年您的任课教师的教学行为（课后为学生提供辅导答疑）,请评价本学年您的任课教师的教学行为（课后为学生提供辅导答疑）2,请评价本学年您的任课教师的教学行为（重视立德树人，注重发挥课程育人的作用）,请评价本学年您的任课教师的教学行为（重视立德树人，注重发挥课程育人的作用）2,请评价本学年您的任课教师的教学行为（教学方法灵活多样，引导学生进行创造性思考）,请评价本学年您的任课教师的教学行为（教学方法灵活多样，引导学生进行创造性思考）2,请您评价本校服务及教育教学是否符合以下情况（学生服务能够做到“一站式”的服务与解决，体现了对学生的关怀）,请您评价本校服务及教育教学是否符合以下情况（学生服务能够做到“一站式”的服务与解决，体现了对学生的关怀）2,请您评价本校服务及教育教学是否符合以下情况（重视实验实训的安全教育与管理）,请您评价本校服务及教育教学是否符合以下情况（重视实验实训的安全教育与管理）2,请您评价本校服务及教育教学是否符合以下情况（任课教师积极参与学生活动）,请您评价本校服务及教育教学是否符合以下情况（任课教师积极参与学生活动）2,请您评价本校服务及教育教学是否符合以下情况（校内学术讲座报告活动多）,请您评价本校服务及教育教学是否符合以下情况（校内学术讲座报告活动多）2,请您评价本校服务及教育教学是否符合以下情况（这道题选择“比较符合”即可，请不要选择其他项）,请您评价本校服务及教育教学是否符合以下情况（这道题选择“比较符合”即可，请不要选择其他项）2,请您评价本校的学生工作的满意度（心理健康教育/咨询）,请您评价本校的学生工作的满意度（心理健康教育/咨询）2,请您评价本校的学生工作的满意度（职业生涯规划和就业创业指导）,请您评价本校的学生工作的满意度（职业生涯规划和就业创业指导）2,请您评价本校的学生工作的满意度（班主任、辅导员工作）,请您评价本校的学生工作的满意度（班主任、辅导员工作）2,请您评价本校的学生工作的满意度（学业指导工作）,请您评价本校的学生工作的满意度（学业指导工作）2,请您评价本校的学生工作的满意度（重视家庭经济困难学生资助工作）,请您评价本校的学生工作的满意度（重视家庭经济困难学生资助工作）2,您是否接受过下述学业指导服务（学校或学院提供的辅导课程或相关活动）,您是否接受过下述学业指导服务（学业指导网站相关服务）,您是否接受过下述学业指导服务（任课教师帮助解决相关问题）,您是否接受过下述学业指导服务（本科生导师帮助解决相关问题）,您是否接受过下述学业指导服务（辅导员帮助解决相关问题）,您是否接受过下述学业指导服务（没有接受过学业指导服务）,请您评价本校资源条件的满意度（教室及教学设备）,请您评价本校资源条件的满意度（教室及教学设备）2,请您评价本校资源条件的满意度（实验实训室条件）,请您评价本校资源条件的满意度（实验实训室条件）2,请您评价本校资源条件的满意度（图书馆资源）,请您评价本校资源条件的满意度（图书馆资源）2,请您评价本校资源条件的满意度（网络资源）,请您评价本校资源条件的满意度（网络资源）2,请您评价本校资源条件的满意度（体育文化等基础设施）,请您评价本校资源条件的满意度（体育文化等基础设施）2,请您评价本校资源条件的满意度（住宿条件）,请您评价本校资源条件的满意度（住宿条件）2,您对学校的整体满意度（您对学校的整体满意度）,您对学校的整体满意度（您对学校的整体满意度）2,提交序号,扩展字段,OpenId,微信账号信息,修改用户,提交用户,提交时间,答题时长,修改时间,备注
0,计算机与信息技术学院\t,软件工程,大二,男,群众,一般,60,一般,60,一般,60,一般,60,7,6,8,10,32,10,0,32,经常,60,从不,20,从不,20,经常,60,每周至少一次,比较满意,80,比较满意,80,比较满意,80,比较满意,80,比较满意,80,一般,60,比较符合,80,一般,60,一般,60,一般,60,比较符合,80,比较符合,80,一般,60,一般,60,一般,60,1,1,1,1,1,1,0,比较满意,100,一般,80,一般,80,1,1,0,0,0,0,一般,60,一般,60,,0,,0,,0,比较满意,80,比较满意,80,比较满意,80,比较满意,80,比较满意,80,一般,60,比较符合,80,一般,60,一般,60,一般,60,一般,60,一般,60,比较满意,80,一般,60,一般,60,一般,60,一般,60,比较满意,80,一般,60,比较满意,80,一般,60,一般,60,比较符合,80,一般,60,比较符合,80,比较符合,80,一般,60,比较符合,80,一般,60,一般,60,一般,60,比较符合,80,一般,60,一般,60,比较满意,80,一般,60,比较满意,80,0,0,1,0,1,0,比较满意,80,一般,60,比较满意,80,一般,60,一般,60,比较满意,80,一般,60,18318,,,,,,2024-09-06 16:39:17,650,,
1,计算机与信息技术学院\t,软件工程,大二,男,群众,一般,60,一般,60,一般,60,一般,60,3,3,2,6,0,0,0,0,偶尔,40,从不,20,从不,20,偶尔,40,每学期至少一次,非常满意,100,非常满意,100,非常满意,100,非常满意,100,非常满意,100,一般,60,一般,60,一般,60,一般,60,一般,60,一般,60,一般,60,比较符合,80,比较符合,80,比较符合,80,1,1,1,1,1,1,0,一般,80,未参加过相关内容,20,比较满意,100,0,0,0,0,0,1,,0,,0,,0,,0,,0,比较满意,80,非常满意,100,一般,60,一般,60,比较满意,80,比较符合,80,比较符合,80,比较符合,80,比较符合,80,比较符合,80,比较满意,80,一般,60,比较满意,80,比较满意,80,比较满意,80,比较满意,80,比较满意,80,非常满意,100,非常满意,100,非常满意,100,非常满意,100,非常满意,100,非常符合,100,非常符合,100,非常符合,100,非常符合,100,非常符合,100,比较符合,80,比较符合,80,一般,60,一般,60,比较符合,80,一般,60,一般,60,非常满意,100,比较满意,80,比较满意,80,1,0,0,0,0,0,比较满意,80,比较满意,80,比较满意,80,比较满意,80,比较满意,80,比较满意,80,比较满意,80,18317,,,,,,2024-09-06 16:38:09,774,,
2,计算机与信息技术学院\t,软件工程,大二,女,共青团员,非常符合,100,比较符合,80,非常符合,100,比较符合,80,6,12,15,10,8,10,8,16,总是,80,经常,60,经常,60,总是,80,每学期至少一次,非常满意,100,非常满意,100,非常满意,100,非常满意,100,非常满意,100,非常符合,100,比较符合,80,非常符合,100,比较符合,80,比较符合,80,比较符合,80,比较符合,80,非常符合,100,非常符合,100,非常符合,100,1,1,0,1,1,1,0,非常满意,120,比较满意,100,比较满意,100,0,1,1,0,0,0,,0,非常满意,100,非常满意,100,,0,,0,非常满意,100,非常满意,100,非常满意,100,非常满意,100,比较满意,80,非常符合,100,非常符合,100,非常符合,100,非常符合,100,比较符合,80,非常满意,100,非常满意,100,非常满意,100,非常满意,100,非常满意,100,比较满意,80,非常满意,100,非常满意,100,非常满意,100,非常满意,100,非常满意,100,非常满意,100,非常符合,100,非常符合,100,非常符合,100,非常符合,100,比较符合,80,非常符合,100,比较符合,80,非常符合,100,比较符合,80,比较符合,80,比较满意,80,比较满意,80,非常满意,100,非常满意,100,非常满意,100,1,1,1,0,1,0,非常满意,100,非常满意,100,非常满意,100,比较满意,80,非常满意,100,比较满意,80,比较满意,80,18316,,,,,,2024-09-06 16:36:05,620,,
3,计算机与信息技术学院\t,软件工程,大二,男,群众,比较符合,80,一般,60,比较符合,80,比较符合,80,4,5,6,5,2,2,4,1,经常,60,偶尔,40,经常,60,偶尔,40,每月至少一次,比较满意,80,比较满意,80,比较满意,80,比较满意,80,比较满意,80,比较符合,80,比较符合,80,比较符合,80,非常符合,100,一般,60,比较符合,80,一般,60,一般,60,一般,60,比较符合,80,1,1,1,1,1,0,0,比较满意,100,一般,80,比较满意,100,1,0,0,0,0,0,比较满意,80,,0,,0,,0,,0,比较满意,80,比较满意,80,比较满意,80,比较满意,80,比较满意,80,比较符合,80,比较符合,80,一般,60,一般,60,比较符合,80,比较满意,80,比较满意,80,比较满意,80,非常满意,100,比较满意,80,比较满意,80,比较满意,80,非常满意,100,非常满意,100,非常满意,100,非常满意,100,非常满意,100,非常符合,100,比较符合,80,非常符合,100,比较符合,80,比较符合,80,比较符合,80,比较符合,80,比较符合,80,比较符合,80,比较符合,80,比较满意,80,比较满意,80,比较满意,80,比较满意,80,比较满意,80,0,0,1,1,1,0,比较满意,80,比较满意,80,一般,60,一般,60,一般,60,比较满意,80,比较满意,80,18315,,,,,,2024-09-06 16:34:26,556,,
4,计算机与信息技术学院\t,软件工程,大二,女,共青团员,非常符合,100,非常符合,100,非常符合,100,比较符合,80,12,10,5,5,0,5,0,5,经常,60,从不,20,从不,20,总是,80,每周至少一次,非常满意,100,非常满意,100,非常满意,100,非常满意,100,非常满意,100,非常符合,100,非常符合,100,非常符合,100,非常符合,100,一般,60,非常符合,100,比较符合,80,非常符合,100,非常符合,100,非常符合,100,1,1,1,1,1,1,0,非常满意,120,非常满意,120,非常满意,120,1,0,0,0,0,0,非常满意,100,,0,,0,,0,,0,非常满意,100,非常满意,100,非常满意,100,非常满意,100,比较满意,80,非常符合,100,非常符合,100,非常符合,100,非常符合,100,非常符合,100,非常满意,100,非常满意,100,非常满意,100,非常满意,100,非常满意,100,非常满意,100,非常满意,100,非常满意,100,非常满意,100,非常满意,100,非常满意,100,非常满意,100,非常符合,100,非常符合,100,非常符合,100,非常符合,100,非常符合,100,非常符合,100,非常符合,100,非常符合,100,非常符合,100,比较符合,80,非常满意,100,非常满意,100,非常满意,100,非常满意,100,非常满意,100,1,1,1,1,1,0,非常满意,100,非常满意,100,非常满意,100,非常满意,100,非常满意,100,非常满意,100,非常满意,100,18314,,,,,,2024-09-06 16:33:16,460,,


In [23]:
# 检查数据类型和缺失值
print("数据类型:")
print(df.dtypes)
print("\n缺失值统计:")
missing_values = df.isnull().sum()
print(missing_values[missing_values > 0])

数据类型:
您目前所在的专业       object
您目前所在的专业.1     object
您目前所在的年级是      object
您的性别是          object
您的政治面貌是        object
               ...   
提交用户          float64
提交时间           object
答题时长            int64
修改时间          float64
备注            float64
Length: 193, dtype: object

缺失值统计:
您目前所在的专业.1                                                                                                  228
请您评价学生社团活动的满意度（请您评价学生社团活动的满意度）                                                                             3094
请您评价校园文化活动（如文化节、辩论赛、运动会等）的满意度（请您评价校园文化活动（如文化节、辩论赛、运动会等）的满意度）                                               5781
请您评价创新创业活动（如创新创业课程、创新创业活动和竞赛等）的满意度（请您评价创新创业活动（如创新创业课程、创新创业活动和竞赛等）的满意度）                                     7431
请您评价国际交流活动（如海外访学、国际科研项目、参加国际会议、与来华交流的海外访学团交流等）的满意度（请您评价国际交流活动（如海外访学、国际科研项目、参加国际会议、与来华交流的海外访学团交流等）的满意度）    16221
请您评价社会实践活动（如本校组织的志愿服务、参观考察等）的满意度（请您评价社会实践活动（如本校组织的志愿服务、参观考察等）的满意度）                                         5462
扩展字段                                         

## 2. 数据清洗步骤

### 2.1 清理列名

首先，我们发现列名中有很多成对出现的列，前一个列的值是文字评价，后一个标题后面有数字2的列的值是数字评价，另外有很多列是全空列，没有意义，需要进行清理。

In [24]:
# 1. 识别需要处理的列对
#    - 创建一个列表来存储将被删除的“文字评价”列名。
#    - 创建一个字典来存放“数字评价”列的重命名规则（{旧列名: 新列名}）。
columns_to_drop = []
rename_map = {}

# 为了高效查找，我们先将所有列名放入一个集合中
all_columns = set(df.columns)

# 遍历 DataFrame 的所有列名
for col_name in df.columns:
    # 检查当前列名是否以 '2' 结尾。这是判断数字评价列的关键。
    if col_name.endswith('2'):
        # 构造对应的、潜在的“文字评价”列名（即去掉末尾的 '2'）
        potential_text_col = col_name[:-1]

        # 检查这个潜在的“文字评价”列名是否真的存在于 DataFrame 的列中
        if potential_text_col in all_columns:
            # 如果存在，说明我们找到了一对符合“文字评价”和“数字评价（带'2'）”标准的列

            # 我们需要删除原始的“文字评价”列，所以将 `potential_text_col` 加入待删除列表
            columns_to_drop.append(potential_text_col)

            # 我们需要将“数字评价”列 (`col_name`) 重命名为不带 '2' 的名字 (`potential_text_col`)
            # 构建重命名映射：{当前列名: 目标新列名}
            rename_map[col_name] = potential_text_col

# --- 执行重命名和删除操作 ---

# 只有在找到了需要处理的列对时才执行操作
if rename_map:
    print(f"成功识别到 {len(rename_map)} 对需要处理的列。开始执行操作...")

    # 2. 执行列删除
    #    - 删除所有识别到的“文字评价”列。
    #    - columns_to_drop 列表中存储的就是这些原始的文字评价列的列名。
    #    - inplace=True 表示直接在原 DataFrame 上修改。
    df.drop(columns=columns_to_drop, inplace=True)

    # 3. 执行列重命名
    #    - 将所有识别到的“数字评价”列（带'2'）重命名为不带'2'的名字。
    #    - inplace=True 表示直接在原 DataFrame 上修改。
    df.rename(columns=rename_map, inplace=True)



    print("批量处理完成！")
else:
    print("未在 DataFrame 中找到符合条件的成对列（即没有列名以 '2' 结尾，且对应的原始列名也存在的配对）。")

# 处理空列
df.dropna(axis=1, how='all', inplace=True)

# 因为提交序号，提交时间和答题时长没有任何的参考价值所以这里也一并删除
columns_to_drop_specific = ["提交序号", "提交时间", "答题时长"]
existing_columns_to_drop = [col for col in columns_to_drop_specific if col in df.columns]
if existing_columns_to_drop:
    print(f"正在删除以下列: {existing_columns_to_drop}")
    df.drop(columns=existing_columns_to_drop, inplace=True)
    print("指定列已成功删除。")
else:
    print("您尝试删除的列 ('提交序号', '提交时间', '答题时长') 在 DataFrame 中均不存在。")

print("\n--- 处理后 DataFrame 的列名 ---")
print(df.columns.tolist())

# 打印处理后的 DataFrame 的前几行，以便您验证结果
print("\n--- 处理后 DataFrame 示例 ---")
print(df.head())

成功识别到 75 对需要处理的列。开始执行操作...
批量处理完成！
正在删除以下列: ['提交序号', '提交时间', '答题时长']
指定列已成功删除。

--- 处理后 DataFrame 的列名 ---
['您目前所在的专业', '您目前所在的专业.1', '您目前所在的年级是', '您的性别是', '您的政治面貌是', '本学年，您的学习情况如何（课前运用网络课程平台、教材或资料进行自主预学，梳理知识并发现问题）', '本学年，您的学习情况如何（课堂上能跟上老师的讲解，主动提问或参与讨论，每节课学有所获）', '本学年，您的学习情况如何（课后复习笔记及总结课堂教学相关知识）', '本学年，您的学习情况如何（除了阅读教材，还延伸阅读教师推荐的其他相关书目）', '完成作业', '除作业外的自习（如预习、复习、资料阅读）', '阅读专业相关的课外书籍', '花费在网络课程平台上的时间', '做实验/科研项目', '参与专业相关社团活动', '参与学科竞赛活动', '参与其他学习活动（如升学）', '本学年，您和其他同学的学习互动情况如何（和同学合作完成课程任务或作业）', '本学年，您和其他同学的学习互动情况如何（和同学一起参与老师科研团队）', '本学年，您和其他同学的学习互动情况如何（和同学一起参加学科竞赛）', '本学年，您和其他同学的学习互动情况如何（从同学那里学习、吸收好的学习方法）', '您与任课教师课下交流的平均频度', '您对本校思想政治课的满意度（总体满意度）', '您对本校思想政治课的满意度（课程设置）', '您对本校思想政治课的满意度（教学内容）', '您对本校思想政治课的满意度（教学质量）', '您对本校思想政治课的满意度（教学效果）', '请您评价本学年所修专业课在以下方面的情况（课程将知识、能力、素养进行了有机融合）', '请您评价本学年所修专业课在以下方面的情况（课程教学培养了我解决复杂问题的综合能力）', '请您评价本学年所修专业课在以下方面的情况（课程内容注重学科间的交叉与融合）', '请您评价本学年所修专业课在以下方面的情况（课程教学内容重视实践与理论的结合）', '请您评价本学年所修专业课在以下方面的情况（需要非常努力才能达到课程要求）', '请您评价本学年所修专业课在以下方面的情况（课程内容反映了学科发展的前沿内容）',

### 接下来这些数值评分做缩放（到0-1尺度）

In [29]:
from sklearn.preprocessing import MinMaxScaler

# 实例化一个scaler
scaler = MinMaxScaler(feature_range=(0, 1))

for col in columns_to_drop:
    df[col] = scaler.fit_transform(df[[col]]) # scaler期望一个二维数据

print(df[columns_to_drop])

       本学年，您的学习情况如何（课前运用网络课程平台、教材或资料进行自主预学，梳理知识并发现问题）  \
0                                                0.50   
1                                                0.50   
2                                                1.00   
3                                                0.75   
4                                                1.00   
...                                               ...   
18313                                            0.50   
18314                                            0.00   
18315                                            1.00   
18316                                            1.00   
18317                                            1.00   

       本学年，您的学习情况如何（课堂上能跟上老师的讲解，主动提问或参与讨论，每节课学有所获）  \
0                                             0.50   
1                                             0.50   
2                                             0.75   
3                                             0.50   
4                                            

In [30]:
# 查看原始列名
print("原始列名数量:", len(df.columns))
for i, col in enumerate(df.columns[:]):
    print(f"{i+1:2d}. {col}")

原始列名数量: 108
 1. 您目前所在的专业
 2. 您目前所在的专业.1
 3. 您目前所在的年级是
 4. 您的性别是
 5. 您的政治面貌是
 6. 本学年，您的学习情况如何（课前运用网络课程平台、教材或资料进行自主预学，梳理知识并发现问题）
 7. 本学年，您的学习情况如何（课堂上能跟上老师的讲解，主动提问或参与讨论，每节课学有所获）
 8. 本学年，您的学习情况如何（课后复习笔记及总结课堂教学相关知识）
 9. 本学年，您的学习情况如何（除了阅读教材，还延伸阅读教师推荐的其他相关书目）
10. 完成作业
11. 除作业外的自习（如预习、复习、资料阅读）
12. 阅读专业相关的课外书籍
13. 花费在网络课程平台上的时间
14. 做实验/科研项目
15. 参与专业相关社团活动
16. 参与学科竞赛活动
17. 参与其他学习活动（如升学）
18. 本学年，您和其他同学的学习互动情况如何（和同学合作完成课程任务或作业）
19. 本学年，您和其他同学的学习互动情况如何（和同学一起参与老师科研团队）
20. 本学年，您和其他同学的学习互动情况如何（和同学一起参加学科竞赛）
21. 本学年，您和其他同学的学习互动情况如何（从同学那里学习、吸收好的学习方法）
22. 您与任课教师课下交流的平均频度
23. 您对本校思想政治课的满意度（总体满意度）
24. 您对本校思想政治课的满意度（课程设置）
25. 您对本校思想政治课的满意度（教学内容）
26. 您对本校思想政治课的满意度（教学质量）
27. 您对本校思想政治课的满意度（教学效果）
28. 请您评价本学年所修专业课在以下方面的情况（课程将知识、能力、素养进行了有机融合）
29. 请您评价本学年所修专业课在以下方面的情况（课程教学培养了我解决复杂问题的综合能力）
30. 请您评价本学年所修专业课在以下方面的情况（课程内容注重学科间的交叉与融合）
31. 请您评价本学年所修专业课在以下方面的情况（课程教学内容重视实践与理论的结合）
32. 请您评价本学年所修专业课在以下方面的情况（需要非常努力才能达到课程要求）
33. 请您评价本学年所修专业课在以下方面的情况（课程内容反映了学科发展的前沿内容）
34. 请您评价专业课任课教师的教学方式（课程以传统的教师讲授为主）
35. 请您评价专业课任课教师的教学方式（课堂中加入

In [31]:
# 由于很多列名称实在是太长，所以我们要建立一个列名映射来精简数据列名

# 创建列名映射字典
column_mapping = {
    '您目前所在的专业': '学院',
    '您目前所在的专业.1': '专业',
    '您目前所在的年级是': '年级',
    '您的性别是': '性别',
    '您的政治面貌是': '政治面貌',
    # 学习情况相关
    '本学年，您的学习情况如何（课前运用网络课程平台、教材或资料进行自主预学，梳理知识并发现问题）': '课前预学',
    '本学年，您的学习情况如何（课堂上能跟上老师的讲解，主动提问或参与讨论，每节课学有所获）': '课堂参与',
    '本学年，您的学习情况如何（课后复习笔记及总结课堂教学相关知识）': '课后复习',
    '本学年，您的学习情况如何（除了阅读教材，还延伸阅读教师推荐的其他相关书目）': '延伸阅读',
    '完成作业': '完成作业时间',
    '除作业外的自习（如预习、复习、资料阅读）': '自习时间',
    '阅读专业相关的课外书籍': '课外阅读时间',
    '花费在网络课程平台上的时间': '网络课程时间',
    '做实验/科研项目': '实验科研时间',
    '参与专业相关社团活动': '社团活动时间',
    '参与学科竞赛活动': '竞赛活动时间',
    '参与其他学习活动（如升学）': '其他学习时间',
    # 学习互动情况
    '本学年，您和其他同学的学习互动情况如何（和同学合作完成课程任务或作业）': '同学合作',
    '本学年，您和其他同学的学习互动情况如何（和同学一起参与老师科研团队）': '参与科研团队',
    '本学年，您和其他同学的学习互动情况如何（和同学一起参加学科竞赛）': '参与学科竞赛',
    '本学年，您和其他同学的学习互动情况如何（从同学那里学习、吸收好的学习方法）': '学习同学方法',
    '您与任课教师课下交流的平均频度': '师生交流频度',
    # 思想政治课满意度
    '您对本校思想政治课的满意度（总体满意度）': '思政课总体满意度',
    '您对本校思想政治课的满意度（课程设置）': '思政课设置满意度',
    '您对本校思想政治课的满意度（教学内容）': '思政课内容满意度',
    '您对本校思想政治课的满意度（教学质量）': '思政课质量满意度',
    '您对本校思想政治课的满意度（教学效果）': '思政课效果满意度',
    # 专业课评价
    '请您评价本学年所修专业课在以下方面的情况（课程将知识、能力、素养进行了有机融合）': '专业课知识融合',
    '请您评价本学年所修专业课在以下方面的情况（课程教学培养了我解决复杂问题的综合能力）': '专业课解决问题能力',
    '请您评价本学年所修专业课在以下方面的情况（课程内容注重学科间的交叉与融合）': '专业课交叉融合',
    '请您评价本学年所修专业课在以下方面的情况（课程教学内容重视实践与理论的结合）': '专业课实践结合',
    '请您评价本学年所修专业课在以下方面的情况（需要非常努力才能达到课程要求）': '专业课努力程度',
    '请您评价本学年所修专业课在以下方面的情况（课程内容反映了学科发展的前沿内容）': '专业课前沿内容',
    # 教师教学方式
    '请您评价专业课任课教师的教学方式（课程以传统的教师讲授为主）': '传统讲授',
    '请您评价专业课任课教师的教学方式（课堂中加入互动环节，注重学生参与（提问、讨论））': '课堂互动',
    '请您评价专业课任课教师的教学方式（提供案例或实例讨论）': '案例讨论',
    '请您评价专业课任课教师的教学方式（采用小组合作的项目式教学方式）': '小组合作',
    # 课程考核方式
    '本学年，您参加过以下哪种课程考核方式（多选）（卷面考试）': '卷面考试',
    '本学年，您参加过以下哪种课程考核方式（多选）（随堂提问或测试）': '随堂测试',
    '本学年，您参加过以下哪种课程考核方式（多选）（课程论文或实验报告）': '论文报告',
    '本学年，您参加过以下哪种课程考核方式（多选）（课堂展示）': '课堂展示',
    '本学年，您参加过以下哪种课程考核方式（多选）（个人独立完成的课程作业）': '个人作业',
    '本学年，您参加过以下哪种课程考核方式（多选）（小组合作完成的课程作业）': '小组作业',
    '本学年，您参加过以下哪种课程考核方式（多选）（以上均没参加过）': '无考核方式',
    # 体育、美育、劳动教育满意度
    '请您评价本校的体育、美育、劳动教育的满意度（体育教育（如课内外体育活动、俱乐部等））': '体育教育满意度',
    '请您评价本校的体育、美育、劳动教育的满意度（美育教育（如公共艺术课程、艺术节、美育专题讲座等））': '美育教育满意度',
    '请您评价本校的体育、美育、劳动教育的满意度（劳动教育（如劳动类课程、勤工助学、社会公益活动等））': '劳动教育满意度',
    # 校园活动参与
    '本学年，您是否参加过以下活动（多选）（学生社团活动）': '参与社团活动',
    '本学年，您是否参加过以下活动（多选）（校园文化活动（如文化节、辩论赛、运动会等））': '参与校园文化',
    '本学年，您是否参加过以下活动（多选）（创新创业活动（如创新创业课程、创新创业活动和竞赛等））': '参与创新创业',
    '本学年，您是否参加过以下活动（多选）（国际交流活动（如海外访学、国际科研项目、参加国际会议、与来华交流的海外访学团交流等））': '参与国际交流',
    '本学年，您是否参加过以下活动（多选）（社会实践活动（如本校组织的志愿服务、参观考察等））': '参与社会实践',
    '本学年，您是否参加过以下活动（多选）（以上均未参与）': '未参与活动',
    # 各类活动满意度
    '请您评价学生社团活动的满意度（请您评价学生社团活动的满意度）': '社团活动满意度',
    '请您评价校园文化活动（如文化节、辩论赛、运动会等）的满意度（请您评价校园文化活动（如文化节、辩论赛、运动会等）的满意度）': '校园文化满意度',
    '请您评价创新创业活动（如创新创业课程、创新创业活动和竞赛等）的满意度（请您评价创新创业活动（如创新创业课程、创新创业活动和竞赛等）的满意度）': '创新创业满意度',
    '请您评价国际交流活动（如海外访学、国际科研项目、参加国际会议、与来华交流的海外访学团交流等）的满意度（请您评价国际交流活动（如海外访学、国际科研项目、参加国际会议、与来华交流的海外访学团交流等）的满意度）': '国际交流满意度',
    '请您评价社会实践活动（如本校组织的志愿服务、参观考察等）的满意度（请您评价社会实践活动（如本校组织的志愿服务、参观考察等）的满意度）': '社会实践满意度',
    # 实习实践满意度
    '请您评价本校实习实践各方面的满意度（实习实践的内容）': '实习内容满意度',
    '请您评价本校实习实践各方面的满意度（实习实践时间安排）': '实习时间满意度',
    '请您评价本校实习实践各方面的满意度（实习实践场地及设备）': '实习场地满意度',
    '请您评价本校实习实践各方面的满意度（实习指导情况）': '实习指导满意度',
    '请您评价本校实习实践各方面的满意度（这道题选择“比较满意”即可，请不要选择其他项）': '实习总体满意度',
    # 学习收获评价
    '您对在校学习收获的评价（分析问题、解决问题能力提升）': '问题解决能力提升',
    '您对在校学习收获的评价（自主学习能力提升）': '自主学习能力提升',
    '您对在校学习收获的评价（合作能力提升）': '合作能力提升',
    '您对在校学习收获的评价（书面表达和沟通能力提升）': '表达沟通能力提升',
    '您对在校学习收获的评价（有能力规划未来工作生活）': '未来规划能力提升',
    # 核心素养提升
    '在核心素养提升方面，您的满意度是（人文底蕴（人文积淀、人文情怀、审美情趣等））': '人文底蕴提升',
    '在核心素养提升方面，您的满意度是（科学精神（理性思维、批判质疑、勇于探究等））': '科学精神提升',
    '在核心素养提升方面，您的满意度是（学会学习（乐学善学、勤于反思、信息意识等））': '学会学习提升',
    '在核心素养提升方面，您的满意度是（健康生活（珍爱生命、健全人格、自我管理等））': '健康生活提升',
    '在核心素养提升方面，您的满意度是（责任担当（社会责任、国家认同、国际理解等））': '责任担当提升',
    '在核心素养提升方面，您的满意度是（实践创新（劳动意识、问题解决、技术应用等））': '实践创新提升',
    '在核心素养提升方面，您的满意度是（自我提升（变得自信、善于交友、学会包容等））': '自我提升',
    # 教师评价
    '您对本学年本校教师在以下方面的满意度（依法依规，履行教师职责）': '教师履职满意度',
    '您对本学年本校教师在以下方面的满意度（关心爱护学生）': '关爱学生满意度',
    '您对本学年本校教师在以下方面的满意度（师德师风及精神面貌）': '师德师风满意度',
    '您对本学年本校教师在以下方面的满意度（教学投入）': '教学投入满意度',
    '您对本学年本校教师在以下方面的满意度（总体教学满意度）': '教师总体满意度',
    # 教师教学行为评价
    '请评价本学年您的任课教师的教学行为（清楚地向学生解释了所学课程的目标和要求）': '课程目标解释',
    '请评价本学年您的任课教师的教学行为（课堂上激发学生的学习兴趣）': '激发学习兴趣',
    '请评价本学年您的任课教师的教学行为（课后为学生提供辅导答疑）': '课后辅导答疑',
    '请评价本学年您的任课教师的教学行为（重视立德树人，注重发挥课程育人的作用）': '立德树人',
    '请评价本学年您的任课教师的教学行为（教学方法灵活多样，引导学生进行创造性思考）': '创造性思考',
    # 学校服务评价
    '请您评价本校服务及教育教学是否符合以下情况（学生服务能够做到“一站式”的服务与解决，体现了对学生的关怀）': '一站式服务',
    '请您评价本校服务及教育教学是否符合以下情况（重视实验实训的安全教育与管理）': '实训安全管理',
    '请您评价本校服务及教育教学是否符合以下情况（任课教师积极参与学生活动）': '教师参与活动',
    '请您评价本校服务及教育教学是否符合以下情况（校内学术讲座报告活动多）': '学术讲座多',
    '请您评价本校服务及教育教学是否符合以下情况（这道题选择“比较符合”即可，请不要选择其他项）': '服务总体符合',
    # 学生工作满意度
    '请您评价本校的学生工作的满意度（心理健康教育/咨询）': '心理健康满意度',
    '请您评价本校的学生工作的满意度（职业生涯规划和就业创业指导）': '职业规划满意度',
    '请您评价本校的学生工作的满意度（班主任、辅导员工作）': '班主任工作满意度',
    '请您评价本校的学生工作的满意度（学业指导工作）': '学业指导满意度',
    '请您评价本校的学生工作的满意度（重视家庭经济困难学生资助工作）': '资助工作满意度',
    # 学业指导服务
    '您是否接受过下述学业指导服务（学校或学院提供的辅导课程或相关活动）': '接受辅导课程',
    '您是否接受过下述学业指导服务（学业指导网站相关服务）': '接受网站指导',
    '您是否接受过下述学业指导服务（任课教师帮助解决相关问题）': '接受教师帮助',
    '您是否接受过下述学业指导服务（本科生导师帮助解决相关问题）': '接受导师帮助',
    '您是否接受过下述学业指导服务（辅导员帮助解决相关问题）': '接受辅导员帮助',
    '您是否接受过下述学业指导服务（没有接受过学业指导服务）': '未接受指导',
    # 资源条件满意度
    '请您评价本校资源条件的满意度（教室及教学设备）': '教室设备满意度',
    '请您评价本校资源条件的满意度（实验实训室条件）': '实训室满意度',
    '请您评价本校资源条件的满意度（图书馆资源）': '图书馆满意度',
    '请您评价本校资源条件的满意度（网络资源）': '网络资源满意度',
    '请您评价本校资源条件的满意度（体育文化等基础设施）': '体育设施满意度',
    '请您评价本校资源条件的满意度（住宿条件）': '住宿条件满意度',
    # 学校整体满意度
    '您对学校的整体满意度（您对学校的整体满意度）': '学校整体满意度',
}

# 应用列名映射
df_cleaned = df.rename(columns=column_mapping)

# 检查新列名
print("清洗后的列名数量:", len(df_cleaned.columns))
for i, col in enumerate(df_cleaned.columns[:]):
    print(f"{i+1:2d}. {col}")

清洗后的列名数量: 108
 1. 学院
 2. 专业
 3. 年级
 4. 性别
 5. 政治面貌
 6. 课前预学
 7. 课堂参与
 8. 课后复习
 9. 延伸阅读
10. 完成作业时间
11. 自习时间
12. 课外阅读时间
13. 网络课程时间
14. 实验科研时间
15. 社团活动时间
16. 竞赛活动时间
17. 其他学习时间
18. 同学合作
19. 参与科研团队
20. 参与学科竞赛
21. 学习同学方法
22. 师生交流频度
23. 思政课总体满意度
24. 思政课设置满意度
25. 思政课内容满意度
26. 思政课质量满意度
27. 思政课效果满意度
28. 专业课知识融合
29. 专业课解决问题能力
30. 专业课交叉融合
31. 专业课实践结合
32. 专业课努力程度
33. 专业课前沿内容
34. 传统讲授
35. 课堂互动
36. 案例讨论
37. 小组合作
38. 卷面考试
39. 随堂测试
40. 论文报告
41. 课堂展示
42. 个人作业
43. 小组作业
44. 无考核方式
45. 体育教育满意度
46. 美育教育满意度
47. 劳动教育满意度
48. 参与社团活动
49. 参与校园文化
50. 参与创新创业
51. 参与国际交流
52. 参与社会实践
53. 未参与活动
54. 社团活动满意度
55. 校园文化满意度
56. 创新创业满意度
57. 国际交流满意度
58. 社会实践满意度
59. 实习内容满意度
60. 实习时间满意度
61. 实习场地满意度
62. 实习指导满意度
63. 实习总体满意度
64. 问题解决能力提升
65. 自主学习能力提升
66. 合作能力提升
67. 表达沟通能力提升
68. 未来规划能力提升
69. 人文底蕴提升
70. 科学精神提升
71. 学会学习提升
72. 健康生活提升
73. 责任担当提升
74. 实践创新提升
75. 自我提升
76. 教师履职满意度
77. 关爱学生满意度
78. 师德师风满意度
79. 教学投入满意度
80. 教师总体满意度
81. 课程目标解释
82. 激发学习兴趣
83. 课后辅导答疑
84. 立德树人
85. 创造性思考
86. 一站式服务
87. 实训安全管理
88. 教师参与活动
89. 学术讲座多
90. 服务总体符合
91. 心理健康满意度

### 3.2 处理缺失值

In [32]:
# 检查缺失值情况
missing_values = df_cleaned.isnull().sum()
missing_percent = (missing_values / len(df_cleaned)) * 100

missing_df = pd.DataFrame({
    '缺失数量': missing_values,
    '缺失百分比': missing_percent
})

missing_df = missing_df[missing_df['缺失数量'] > 0].sort_values('缺失数量', ascending=False)
print("缺失值统计（按数量排序）:")
print(missing_df)

缺失值统计（按数量排序）:
    缺失数量     缺失百分比
专业   228  1.244677


### 难受的是这个专业的缺失是因为前面学院的地方出现了某种奇怪的东西（XX方向、中外合办），然后专业留空，这些数据根本不符合大部分数据遵从的逻辑
### 所以还是直接先给这些加一个占位符，等待后续模型训练时再做特别处理


In [43]:
df_cleaned['专业'] = df_cleaned['专业'].fillna("未指定")

print(df_cleaned[df_cleaned['专业'] == '未指定'])

           学院   专业  年级 性别         政治面貌  课前预学  课堂参与  课后复习  延伸阅读  完成作业时间  自习时间  \
41     创意写作方向  未指定  大四  女         共青团员  0.75  0.75  0.75  0.75       2     2   
327    创意写作方向  未指定  大四  男         共青团员  0.75  0.75  0.75  0.75      13    10   
328    创意写作方向  未指定  大四  男         共青团员  1.00  1.00  1.00  1.00       8    14   
344    创意写作方向  未指定  大二  女         共青团员  0.75  0.75  0.75  0.75      14     3   
368    创意写作方向  未指定  大三  女         共青团员  0.50  0.75  0.75  0.75       5     2   
...       ...  ...  .. ..          ...   ...   ...   ...   ...     ...   ...   
17177    数学方向  未指定  大二  男         共青团员  0.50  0.50  0.50  0.50      14     2   
17342  中外合作办学  未指定  大五  女  中共党员（含预备党员）  0.00  0.00  0.00  0.00       1     1   
17978  中外合作办学  未指定  大四  女         共青团员  0.75  0.75  0.75  0.75      10    10   
18190    数学方向  未指定  大三  男         共青团员  0.75  0.75  0.50  0.75       4     1   
18192    数学方向  未指定  大三  女         共青团员  0.75  0.50  0.75  0.50       6     6   

       课外阅读时间  网络课程时间  实验科研时间  社团活动时间  

### 3.4 处理异常值

In [44]:
# 检查数值型列的基本统计信息
numeric_columns = df_cleaned.select_dtypes(include=[np.number]).columns
print("数值型列的基本统计信息:")
display(df_cleaned[numeric_columns].describe())

数值型列的基本统计信息:


Unnamed: 0,课前预学,课堂参与,课后复习,延伸阅读,完成作业时间,自习时间,课外阅读时间,网络课程时间,实验科研时间,社团活动时间,竞赛活动时间,其他学习时间,同学合作,参与科研团队,参与学科竞赛,学习同学方法,思政课总体满意度,思政课设置满意度,思政课内容满意度,思政课质量满意度,思政课效果满意度,专业课知识融合,专业课解决问题能力,专业课交叉融合,专业课实践结合,专业课努力程度,专业课前沿内容,传统讲授,课堂互动,案例讨论,小组合作,卷面考试,随堂测试,论文报告,课堂展示,个人作业,小组作业,无考核方式,体育教育满意度,美育教育满意度,劳动教育满意度,参与社团活动,参与校园文化,参与创新创业,参与国际交流,参与社会实践,未参与活动,社团活动满意度,校园文化满意度,创新创业满意度,国际交流满意度,社会实践满意度,实习内容满意度,实习时间满意度,实习场地满意度,实习指导满意度,实习总体满意度,问题解决能力提升,自主学习能力提升,合作能力提升,表达沟通能力提升,未来规划能力提升,人文底蕴提升,科学精神提升,学会学习提升,健康生活提升,责任担当提升,实践创新提升,自我提升,教师履职满意度,关爱学生满意度,师德师风满意度,教学投入满意度,教师总体满意度,课程目标解释,激发学习兴趣,课后辅导答疑,立德树人,创造性思考,一站式服务,实训安全管理,教师参与活动,学术讲座多,服务总体符合,心理健康满意度,职业规划满意度,班主任工作满意度,学业指导满意度,资助工作满意度,接受辅导课程,接受网站指导,接受教师帮助,接受导师帮助,接受辅导员帮助,未接受指导,教室设备满意度,实训室满意度,图书馆满意度,网络资源满意度,体育设施满意度,住宿条件满意度,学校整体满意度
count,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0,18318.0
mean,0.780721,0.784365,0.780748,0.74233,6.603341,5.687302,3.961513,5.341795,5.567147,5.186865,3.676002,7.499345,0.695291,0.470757,0.447138,0.688903,0.858855,0.835913,0.850502,0.855402,0.84462,0.837168,0.824626,0.837892,0.835558,0.781076,0.827806,0.780571,0.843924,0.847541,0.836663,0.951196,0.884649,0.809586,0.792608,0.722786,0.847418,0.003931,0.866809,0.851185,0.856382,0.830713,0.683917,0.593405,0.113222,0.699967,0.032263,0.713975,0.599236,0.513648,0.1025,0.611355,0.813094,0.801534,0.803063,0.806502,0.77705,0.822292,0.827028,0.825267,0.818389,0.79733,0.828911,0.822388,0.831436,0.842928,0.845671,0.826687,0.833879,0.869691,0.864669,0.871397,0.86561,0.862444,0.861871,0.846722,0.853505,0.864095,0.852208,0.832774,0.839229,0.837237,0.813721,0.786085,0.837673,0.821337,0.853996,0.836677,0.850639,0.727481,0.611148,0.771973,0.630473,0.685118,0.01796,0.797904,0.809586,0.840348,0.82857,0.807703,0.73859,0.841017
std,0.186671,0.182226,0.187086,0.21212,6.196241,5.833839,4.315807,5.370994,10.536866,8.355518,7.856273,15.040952,0.236953,0.322977,0.321945,0.249966,0.155879,0.17022,0.160734,0.161235,0.163234,0.158687,0.166839,0.163703,0.167348,0.193188,0.169205,0.187543,0.157937,0.160361,0.16738,0.215465,0.319454,0.392638,0.40545,0.447635,0.359594,0.062573,0.138476,0.158322,0.150935,0.375015,0.464958,0.491211,0.316873,0.458284,0.176704,0.343482,0.419542,0.435846,0.288631,0.411939,0.16916,0.177077,0.177761,0.174306,0.107035,0.156993,0.159919,0.161422,0.165158,0.177402,0.160003,0.163643,0.161239,0.158923,0.15758,0.163801,0.158879,0.147836,0.153598,0.148394,0.153902,0.152472,0.148868,0.16058,0.158343,0.15318,0.156557,0.166093,0.162663,0.164779,0.17653,0.111818,0.164443,0.176419,0.162828,0.168197,0.16349,0.445267,0.487503,0.419572,0.48269,0.464481,0.132811,0.203673,0.183174,0.168101,0.173358,0.18975,0.243661,0.159299
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,0.75,0.75,0.75,0.5,2.0,2.0,1.0,2.0,1.0,1.0,0.0,1.0,0.666667,0.333333,0.333333,0.666667,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,1.0,1.0,1.0,1.0,0.0,1.0,0.0,0.8,0.8,0.8,1.0,0.0,0.0,0.0,0.0,0.0,0.8,0.0,0.0,0.0,0.0,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.0,0.0,1.0,0.0,0.0,0.0,0.75,0.75,0.75,0.75,0.75,0.75,0.75
50%,0.75,0.75,0.75,0.75,5.0,4.0,2.0,4.0,2.0,2.0,1.0,2.0,0.666667,0.333333,0.333333,0.666667,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.8,0.8,0.8,1.0,1.0,1.0,0.0,1.0,0.0,0.8,0.8,0.8,0.0,0.8,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,1.0,1.0,1.0,1.0,1.0,0.75,0.75,0.75,1.0,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,1.0,1.0,1.0,1.0,1.0,0.0,0.75,0.75,0.75,0.75,0.75,0.75,0.75
75%,1.0,1.0,1.0,1.0,8.0,7.0,5.0,7.0,5.0,6.0,3.0,6.0,1.0,0.666667,0.666667,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,1.0,0.0,1.0,1.0,0.8,0.0,1.0,1.0,1.0,1.0,1.0,0.75,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.75,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
max,1.0,1.0,1.0,1.0,30.0,30.0,30.0,30.0,80.0,80.0,80.0,80.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0


### 可以看到并没有什么夸张异常的地方。加之之前已经将满意度缩放到了1-0的尺度，我认为没有再处理的必要了

## 4. 清洗后数据概览

In [45]:
# 显示清洗后的数据基本信息
print("清洗后的数据集形状:", df_cleaned.shape)
print("\n清洗后的数据集信息:")
print(df_cleaned.info())

# 显示清洗后的前几行
print("\n清洗后的数据集前5行:")
display(df_cleaned.head())

清洗后的数据集形状: (18318, 108)

清洗后的数据集信息:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18318 entries, 0 to 18317
Columns: 108 entries, 学院 to 学校整体满意度
dtypes: float64(75), int64(27), object(6)
memory usage: 15.1+ MB
None

清洗后的数据集前5行:


Unnamed: 0,学院,专业,年级,性别,政治面貌,课前预学,课堂参与,课后复习,延伸阅读,完成作业时间,自习时间,课外阅读时间,网络课程时间,实验科研时间,社团活动时间,竞赛活动时间,其他学习时间,同学合作,参与科研团队,参与学科竞赛,学习同学方法,师生交流频度,思政课总体满意度,思政课设置满意度,思政课内容满意度,思政课质量满意度,思政课效果满意度,专业课知识融合,专业课解决问题能力,专业课交叉融合,专业课实践结合,专业课努力程度,专业课前沿内容,传统讲授,课堂互动,案例讨论,小组合作,卷面考试,随堂测试,论文报告,课堂展示,个人作业,小组作业,无考核方式,体育教育满意度,美育教育满意度,劳动教育满意度,参与社团活动,参与校园文化,参与创新创业,参与国际交流,参与社会实践,未参与活动,社团活动满意度,校园文化满意度,创新创业满意度,国际交流满意度,社会实践满意度,实习内容满意度,实习时间满意度,实习场地满意度,实习指导满意度,实习总体满意度,问题解决能力提升,自主学习能力提升,合作能力提升,表达沟通能力提升,未来规划能力提升,人文底蕴提升,科学精神提升,学会学习提升,健康生活提升,责任担当提升,实践创新提升,自我提升,教师履职满意度,关爱学生满意度,师德师风满意度,教学投入满意度,教师总体满意度,课程目标解释,激发学习兴趣,课后辅导答疑,立德树人,创造性思考,一站式服务,实训安全管理,教师参与活动,学术讲座多,服务总体符合,心理健康满意度,职业规划满意度,班主任工作满意度,学业指导满意度,资助工作满意度,接受辅导课程,接受网站指导,接受教师帮助,接受导师帮助,接受辅导员帮助,未接受指导,教室设备满意度,实训室满意度,图书馆满意度,网络资源满意度,体育设施满意度,住宿条件满意度,学校整体满意度
0,计算机与信息技术学院\t,软件工程,大二,男,群众,0.5,0.5,0.5,0.5,7,6,8,10,32,10,0,32,0.666667,0.0,0.0,0.666667,每周至少一次,0.75,0.75,0.75,0.75,0.75,0.5,0.75,0.5,0.5,0.5,0.75,0.75,0.5,0.5,0.5,1,1,1,1,1,1,0,0.8,0.6,0.6,1,1,0,0,0,0,0.6,0.6,0.0,0.0,0.0,0.75,0.75,0.75,0.75,0.75,0.5,0.75,0.5,0.5,0.5,0.5,0.5,0.75,0.5,0.5,0.5,0.5,0.75,0.5,0.75,0.5,0.5,0.75,0.5,0.75,0.75,0.5,0.75,0.5,0.5,0.5,0.75,0.5,0.5,0.75,0.5,0.75,0,0,1,0,1,0,0.75,0.5,0.75,0.5,0.5,0.75,0.5
1,计算机与信息技术学院\t,软件工程,大二,男,群众,0.5,0.5,0.5,0.5,3,3,2,6,0,0,0,0,0.333333,0.0,0.0,0.333333,每学期至少一次,1.0,1.0,1.0,1.0,1.0,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.75,0.75,0.75,1,1,1,1,1,1,0,0.6,0.0,0.8,0,0,0,0,0,1,0.0,0.0,0.0,0.0,0.0,0.75,1.0,0.5,0.5,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.5,0.75,0.75,0.75,0.75,0.75,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.75,0.75,0.5,0.5,0.75,0.5,0.5,1.0,0.75,0.75,1,0,0,0,0,0,0.75,0.75,0.75,0.75,0.75,0.75,0.75
2,计算机与信息技术学院\t,软件工程,大二,女,共青团员,1.0,0.75,1.0,0.75,6,12,15,10,8,10,8,16,1.0,0.666667,0.666667,1.0,每学期至少一次,1.0,1.0,1.0,1.0,1.0,1.0,0.75,1.0,0.75,0.75,0.75,0.75,1.0,1.0,1.0,1,1,0,1,1,1,0,1.0,0.8,0.8,0,1,1,0,0,0,0.0,1.0,1.0,0.0,0.0,1.0,1.0,1.0,1.0,0.75,1.0,1.0,1.0,1.0,0.75,1.0,1.0,1.0,1.0,1.0,0.75,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.75,1.0,0.75,1.0,0.75,0.75,0.75,0.75,1.0,1.0,1.0,1,1,1,0,1,0,1.0,1.0,1.0,0.75,1.0,0.75,0.75
3,计算机与信息技术学院\t,软件工程,大二,男,群众,0.75,0.5,0.75,0.75,4,5,6,5,2,2,4,1,0.666667,0.333333,0.666667,0.333333,每月至少一次,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,1.0,0.5,0.75,0.5,0.5,0.5,0.75,1,1,1,1,1,0,0,0.8,0.6,0.8,1,0,0,0,0,0,0.8,0.0,0.0,0.0,0.0,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.5,0.5,0.75,0.75,0.75,0.75,1.0,0.75,0.75,0.75,1.0,1.0,1.0,1.0,1.0,1.0,0.75,1.0,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0.75,0,0,1,1,1,0,0.75,0.75,0.5,0.5,0.5,0.75,0.75
4,计算机与信息技术学院\t,软件工程,大二,女,共青团员,1.0,1.0,1.0,0.75,12,10,5,5,0,5,0,5,0.666667,0.0,0.0,1.0,每周至少一次,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.5,1.0,0.75,1.0,1.0,1.0,1,1,1,1,1,1,0,1.0,1.0,1.0,1,0,0,0,0,0,1.0,0.0,0.0,0.0,0.0,1.0,1.0,1.0,1.0,0.75,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.75,1.0,1.0,1.0,1.0,1.0,1,1,1,1,1,0,1.0,1.0,1.0,1.0,1.0,1.0,1.0


## 5. 保存清洗后的数据

In [46]:
# 保存清洗后的数据
output_path = '../../data/intermediate/初步清洗_比赛数据.csv'
df_cleaned.to_csv(output_path, index=False, encoding='utf-8')
print(f"清洗后的数据已保存到: {output_path}")

# 同时保存为pickle格式，保留数据类型
pickle_path = '../../data/intermediate/cleaned_比赛数据.pkl'
df_cleaned.to_pickle(pickle_path)
print(f"清洗后的数据已保存为pickle格式: {pickle_path}")

清洗后的数据已保存到: ../../data/intermediate/初步清洗_比赛数据.csv
清洗后的数据已保存为pickle格式: ../../data/intermediate/cleaned_比赛数据.pkl
