Skip to content

We create an open dataset of China Postgraduate Entrance Exam Record (CPEER) for data analysis

License

Notifications You must be signed in to change notification settings

Younai2021/CPEER-Dataset

Repository files navigation

CPEER-Dataset

We create an open dataset of China Postgraduate Entrance Exam Record (CPEER) for data analysis.
由张诚,黄青林,玉晨甫共同发起的制作考研数据集的课程项目,由2020届“Python数据处理”课程内同学共同收集数据。
我们公开数据集供所有人使用(请引用我们: CPEER dataset)

简体中文 | English
Note: The English version is generated by ChatGPT and proofread manually but it may still contain inaccurate information.

Motivation

  • 要收集的院校过多
  • 多数院校的信息格式不同,存储形式不同,难以获取结构化数据
  • 很多同学说python数据处理的课程设计在收集数据这块很困难,主要是python在pdf爬取有bug以及栏目名字不统一,实现全自动与半自动获取数据比较困难,如果每个同学都一个一个pdf搞会很棘手以及每个人都重复一件事效率低下
  • 我们希望我们的数据集能在未来被重复使用
  • 本着从简与搭建基础的原则,我们提供最基础的数据集列的信息,并鼓励大家基于我们的数据集添加更多信息(例如985/211,QS排名, 是否全日制,是否调剂等)用于数据分析

Dataset Structure

收集哪些信息(i.e. 列)是一个重要和基础的问题。我们筛选出了一些最基本的列名在绝大多数情况下都可以满足。空列太多会使得数据质量下降。所以我们希望最好不要出现空列。 经过我们的讨论,我们最终决定数据集的列名如下(下表数据仅供展示,非真实数据):

院校 年份 院系 专业 初试成绩 复试成绩 复试满分 总成绩 是否录取
华中师范大学 2022 人工智能教育学部 人工智能 400 384 400 92
华中科技大学 2023 计算学部 计算机科学与技术 421 91 100 96

说明: 每一行代表一个考生,出于保护考生信息的隐私,以及考虑到考生信息对数据分析的作用不大,我们不记录考生信息,每一行就代表一名考生

每一列的信息如下:

列名 描述
院校 院校的名称
年份 考生考研的年份,格式(2021/2022/2023...)
院系 考生所在的学院
专业 考生所在的专业,由于专业可能会存在大方向专业与细分专业的问题,我们最终决定这一列自由填写
初试成绩 考生研究生考试初试的成绩
* 关于考试科目:由于收集每个学校的初试考核内容相当困难,此处只提供最后的初试成绩。因为每个学校每个专业的初试考核内容不同,成绩在横向对比时可能存在偏差。因此建议在对比初试分数时结合[专业]考虑
* 关于学硕与专硕:由于绝大部分数据都是学硕,以及想要收集是否是学硕或专硕相当困难。因此在此数据库中不做区分
复试成绩 这一列的情况比较复杂,因为有的学校会给出复试的细分,但是有的学校不给出,因此我们选择只记录复试的综合成绩(从简原则),如需分析复试的细分成绩请自行扩充数据
复试满分 该专业复试的满分。由于不同学校的复试满分不同,我们添加这一列使得不同学校之间的复试成绩具有可比性
总成绩 学校给出的文档中考生的总成绩(可能存在不同学校加权不同的情况,仅作参考)
是否录取 考生是否被录取,格式(是/否)

SQLite 数据库文件结构: image
image

Collection Progress View

image

Dataset Information

包含的数据条数:27567

包含的院校: 共58

image
image

Some Data Analysis Results

展示部分数据分析的结果
image
image
image
image

Archives

Version rows #University
v1.0 7349 10
v1.1 14592 30
v1.2 26173 55

Citation

Contributers:{黄青林,玉晨甫,张诚,杨名宇,李淑芳,张梓莹,梁思思,缪秉辰,王镜淇,陈凯旋,何瑛琪,方瑞哲,闫一诺,张馨妍,杨名宇,陈星宇,苗惠清,姚玉函,王崇尧,王宁,高一}

Please cite us as: CPEER dataset.

Notations

1,放弃:少数民族/夏令营/调剂考生等特殊的数据不添加

image

2,不同院校复试满分不一样的现象

image

3, 所有成型的version版本是经过如下规范化格式处理,以及人为剔除极个别特殊数据的stable版本,有可能出现因为我们修整后,造成你的理解产生偏差

data = pd.read_excel('CPEER.xlsx')
data = data.replace('\t','', regex=True).replace('\n','', regex=True).replace(' ', '', regex=True).replace('(','(', regex=True).replace(')',')', regex=True)
data['院校'] = data['院校'].astype(str)
data['年份'] = data['年份'].astype(int)
data['院系'] = data['院系'].astype(str)
data['专业'] = data['专业'].astype(str)
data['初试成绩'] = data['初试成绩'].astype(float)
data['复试成绩'] = data['复试成绩'].astype(float)
data['复试满分'] = data['复试满分'].astype(float)
data['总成绩'] = data['总成绩'].astype(float)
data['是否录取'] = data['是否录取'].astype(str)
data.to_excel('CPEER.xlsx', sheet_name='data',index=False)

4, 请注意 不同院校但相同专业的名字可能存在出入,例如有个院校在电子信息类中直接描述为:'电子信息',但有些为:'085422-电子信息',推荐在跨院校筛选信息时使用模糊搜索

Digression

如果你也苦于如何获取PDF内的数据,希望下面能帮助到你 :)

如果你希望自己搞一套处理PDF的程序,希望下面能帮助到你:)

University Details

包含的院校: 共58

# 北京大学 华东师范大学 北京师范大学 同济大学 电子科技大学
5 西安电子科技大学 北京邮电大学 新疆大学 北京科技大学 中国地质大学(北京)
10 北京航空航天大学 上海财经大学 武汉大学 西南财经大学 上海大学
15 南京理工大学 南京航天航空大学 北京理工大学 华中师范大学 华中科技大学
20 中南财经政法大学 哈尔滨工业大学 东北师范大学 北京化工大学 中央音乐学院
25 江南大学 华中农业大学 大连海事大学 南昌大学 海南大学
30 安徽大学 福州大学 河北工业大学 西北大学 宁夏大学
35 西藏大学 南开大学 长安大学 中国矿业大学(北京) 中国矿业大学
40 中国科学院大学 清华大学 中国地质大学(武汉) 华南理工大学 厦门大学
45 四川大学 天津大学 中央财经大学 延边大学 辽宁大学
50 贵州大学 湖南师范大学 南京大学 宁波大学 成都理工大学
55 西南交通大学 河海大学 广西大学

Upload Requirements (deprecated)

欢迎大家贡献自己的一份力量,支持共享与互惠
严格按照数据集的结构上传您的文件(支持.csv/.xlsx格式),方便我们更新数据集。
上传要求:

  • 将文件上传到课程QQ群文件中
  • 以学校为最小单位上传文档(参照文件格式:XXX大学.csv 或 XXX大学.xlsx),请在统计时尽量统计好所有相关专业的信息,提供有效准确的数据,为了保证数据集的质量我们会在审核后增加到数据集
  • 为了数据的普适性,我们会剔除特殊招生计划:强军计划、夏历营、港澳台,以及调剂考生,这些特殊群体数据
  • 请在工作前查看文件夹是否已经有相关院校,注意不要上传重复的学校,避免重复劳动
  • 请严格按照如下表头:院校|年份|院系|专业|初试成绩|复试成绩|复试满分|总成绩|是否录取

Maintainment and Update

从2023年5月30日起至2023年6月17日,我们将会定期根据同学上传数据的负责维护和更新数据集。

2023年7月26日,课程结束后更新细节内容并存档
如果你有任何新的意见或者建议,欢迎随时联系^_^
QQ: 2285421427

About

We create an open dataset of China Postgraduate Entrance Exam Record (CPEER) for data analysis

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages