We create an open dataset of China Postgraduate Entrance Exam Record (CPEER) for data analysis.
由张诚,黄青林,玉晨甫共同发起的制作考研数据集的课程项目,由2020届“Python数据处理”课程内同学共同收集数据。
我们公开数据集供所有人使用(请引用我们: CPEER dataset)
简体中文 | English
Note: The English version is generated by ChatGPT and proofread manually but it may still contain inaccurate information.
- 要收集的院校过多
- 多数院校的信息格式不同,存储形式不同,难以获取结构化数据
- 很多同学说python数据处理的课程设计在收集数据这块很困难,主要是python在pdf爬取有bug以及栏目名字不统一,实现全自动与半自动获取数据比较困难,如果每个同学都一个一个pdf搞会很棘手以及每个人都重复一件事效率低下
- 我们希望我们的数据集能在未来被重复使用
- 本着从简与搭建基础的原则,我们提供最基础的数据集列的信息,并鼓励大家基于我们的数据集添加更多信息(例如985/211,QS排名, 是否全日制,是否调剂等)用于数据分析
收集哪些信息(i.e. 列)是一个重要和基础的问题。我们筛选出了一些最基本的列名在绝大多数情况下都可以满足。空列太多会使得数据质量下降。所以我们希望最好不要出现空列。 经过我们的讨论,我们最终决定数据集的列名如下(下表数据仅供展示,非真实数据):
院校 | 年份 | 院系 | 专业 | 初试成绩 | 复试成绩 | 复试满分 | 总成绩 | 是否录取 |
---|---|---|---|---|---|---|---|---|
华中师范大学 | 2022 | 人工智能教育学部 | 人工智能 | 400 | 384 | 400 | 92 | 是 |
华中科技大学 | 2023 | 计算学部 | 计算机科学与技术 | 421 | 91 | 100 | 96 | 是 |
说明: 每一行代表一个考生,出于保护考生信息的隐私,以及考虑到考生信息对数据分析的作用不大,我们不记录考生信息,每一行就代表一名考生
每一列的信息如下:
列名 | 描述 |
---|---|
院校 | 院校的名称 |
年份 | 考生考研的年份,格式(2021/2022/2023...) |
院系 | 考生所在的学院 |
专业 | 考生所在的专业,由于专业可能会存在大方向专业与细分专业的问题,我们最终决定这一列自由填写 |
初试成绩 | 考生研究生考试初试的成绩 * 关于考试科目:由于收集每个学校的初试考核内容相当困难,此处只提供最后的初试成绩。因为每个学校每个专业的初试考核内容不同,成绩在横向对比时可能存在偏差。因此建议在对比初试分数时结合[ 专业 ]考虑* 关于学硕与专硕:由于绝大部分数据都是学硕,以及想要收集是否是学硕或专硕相当困难。因此在此数据库中不做区分 |
复试成绩 | 这一列的情况比较复杂,因为有的学校会给出复试的细分,但是有的学校不给出,因此我们选择只记录复试的综合成绩(从简原则),如需分析复试的细分成绩请自行扩充数据 |
复试满分 | 该专业复试的满分。由于不同学校的复试满分不同,我们添加这一列使得不同学校之间的复试成绩具有可比性 |
总成绩 | 学校给出的文档中考生的总成绩(可能存在不同学校加权不同的情况,仅作参考) |
是否录取 | 考生是否被录取,格式(是/否) |
包含的数据条数:27567
包含的院校: 共58所
Version | rows | #University |
---|---|---|
v1.0 | 7349 | 10 |
v1.1 | 14592 | 30 |
v1.2 | 26173 | 55 |
Contributers:{黄青林,玉晨甫,张诚,杨名宇,李淑芳,张梓莹,梁思思,缪秉辰,王镜淇,陈凯旋,何瑛琪,方瑞哲,闫一诺,张馨妍,杨名宇,陈星宇,苗惠清,姚玉函,王崇尧,王宁,高一}
Please cite us as: CPEER dataset.
1,放弃:少数民族/夏令营/调剂考生等特殊的数据不添加
2,不同院校复试满分不一样的现象
3, 所有成型的version版本是经过如下规范化格式处理,以及人为剔除极个别特殊数据的stable版本,有可能出现因为我们修整后,造成你的理解产生偏差
data = pd.read_excel('CPEER.xlsx')
data = data.replace('\t','', regex=True).replace('\n','', regex=True).replace(' ', '', regex=True).replace('(','(', regex=True).replace(')',')', regex=True)
data['院校'] = data['院校'].astype(str)
data['年份'] = data['年份'].astype(int)
data['院系'] = data['院系'].astype(str)
data['专业'] = data['专业'].astype(str)
data['初试成绩'] = data['初试成绩'].astype(float)
data['复试成绩'] = data['复试成绩'].astype(float)
data['复试满分'] = data['复试满分'].astype(float)
data['总成绩'] = data['总成绩'].astype(float)
data['是否录取'] = data['是否录取'].astype(str)
data.to_excel('CPEER.xlsx', sheet_name='data',index=False)
4, 请注意 不同院校但相同专业的名字可能存在出入,例如有个院校在电子信息类中直接描述为:'电子信息',但有些为:'085422-电子信息',推荐在跨院校筛选信息时使用模糊搜索
如果你也苦于如何获取PDF内的数据,希望下面能帮助到你 :)
- 推荐辅助提取软件:Adobe Acrobat(付费/免费试用)
如果你希望自己搞一套处理PDF的程序,希望下面能帮助到你:)
- 一份自己写的不好用的半自动批处理PDF的py:PDFProcessTool(A Failed Product)
包含的院校: 共58所
# | 北京大学 | 华东师范大学 | 北京师范大学 | 同济大学 | 电子科技大学 |
---|---|---|---|---|---|
5 | 西安电子科技大学 | 北京邮电大学 | 新疆大学 | 北京科技大学 | 中国地质大学(北京) |
10 | 北京航空航天大学 | 上海财经大学 | 武汉大学 | 西南财经大学 | 上海大学 |
15 | 南京理工大学 | 南京航天航空大学 | 北京理工大学 | 华中师范大学 | 华中科技大学 |
20 | 中南财经政法大学 | 哈尔滨工业大学 | 东北师范大学 | 北京化工大学 | 中央音乐学院 |
25 | 江南大学 | 华中农业大学 | 大连海事大学 | 南昌大学 | 海南大学 |
30 | 安徽大学 | 福州大学 | 河北工业大学 | 西北大学 | 宁夏大学 |
35 | 西藏大学 | 南开大学 | 长安大学 | 中国矿业大学(北京) | 中国矿业大学 |
40 | 中国科学院大学 | 清华大学 | 中国地质大学(武汉) | 华南理工大学 | 厦门大学 |
45 | 四川大学 | 天津大学 | 中央财经大学 | 延边大学 | 辽宁大学 |
50 | 贵州大学 | 湖南师范大学 | 南京大学 | 宁波大学 | 成都理工大学 |
55 | 西南交通大学 | 河海大学 | 广西大学 |
欢迎大家贡献自己的一份力量,支持共享与互惠
请严格按照数据集的结构上传您的文件(支持.csv/.xlsx格式),方便我们更新数据集。
上传要求:
- 将文件上传到课程QQ群文件中
- 以学校为最小单位上传文档(参照文件格式:XXX大学.csv 或 XXX大学.xlsx),请在统计时尽量统计好所有相关专业的信息,提供有效准确的数据,为了保证数据集的质量我们会在审核后增加到数据集
- 为了数据的普适性,我们会剔除特殊招生计划:强军计划、夏历营、港澳台,以及调剂考生,这些特殊群体数据
- 请在工作前查看文件夹是否已经有相关院校,注意不要上传重复的学校,避免重复劳动
- 请严格按照如下表头:院校|年份|院系|专业|初试成绩|复试成绩|复试满分|总成绩|是否录取
从2023年5月30日起至2023年6月17日,我们将会定期根据同学上传数据的负责维护和更新数据集。
2023年7月26日,课程结束后更新细节内容并存档
如果你有任何新的意见或者建议,欢迎随时联系^_^
QQ: 2285421427