Skip to content

Lying-cocktail/JiangSu-CEE-data

Repository files navigation

JiangSu-CEE-data

江苏高考分析助手


数据来源:gaoxiao.jszs.com
2021年数来自: www.jseea.cn

运行环境:python3.7 + lxml + Texttable

原理:

  • 高考比的不是得分绝对值 ,而是得分相对值,也就是排名。通过参考相近排名的往年录取情况,将来对志愿填报具有比较大借鉴意义的。

文件:

  • 高校录取数据.py - 爬虫,自动抓取历年录取信息保存并生成相应的json文件
  • 高校录取归档.py - 把爬虫生成的json数据保存到sqlite数据
  • 高校录取查询.py - 参数是全省位次,找出历年该位次区间的学生被哪些学校所收档,为自己填报志愿提供一点参考
  • 2021分数线.py - 下载一分一档的图片,调用OCR工具转换成文字,手工合并成2021排名.csv 这个数据文件为导入2021年录取数据做准备,因为考试院的数据是分数,不是排名。

运行方式:


1 apt install python3-lxml
2 pip3 install texttable  requests 
3 mkdir -p data/hair
4 python3 高校录取数据.py 
5 python3 高校录取归档.py 
6 python3 高校录取查询.py <全省名次>

运行结果如下:

+--------+--------------------+------+------------------+------+------+------+
|  年份  |      学校名称      | 类别 |       批次       | 代码 | 位次 | 人数 |
+--------+--------------------+------+------------------+------+------+------+
| 2020年 |  中国科学技术大学  | 理科 |   本科第一批次   | 2301 | 867  | 148  |
+--------+--------------------+------+------------------+------+------+------+
......


查出来的是不低于这个名次的最接近的30条数据记录,按照年份逆序排列。

如果您觉得有用,请给个星星!


2022年6月更新

  • 从省招办下载2021年数据,江苏才试志愿投档线下载.py

  • 从下载的xls里读取投档数据 江苏才试志愿投档线归档.py

  • 插入sqlite数据库,学习了INSERT OR UPDATE,仅INSERT还是会有主键重复问题

  • 有兴趣自己做界面的可以下载cee-2021.db,数据库结构在高校录取归档.py的尾部

  • 增加自动适配分数段

  • https://www.sohu.com/a/560678889_594272 获得一分一段 tesseract -l eng+chi_sim 图片OCR成文本

  • 从2021年招生计划专刊PDF中获得专业组信息