民國104到108年度學測偏好分數排名。
令某年度申請入學有系所數目 N、學生數目 T,則假設對所有考生有一組偏好分數$$a_1$$~
關於此模型可參考:
Python3 (+ Jupyter Notebook)
爬蟲-108年學測交叉查榜.ipynb: 以selenium搭配Xpath從交叉查榜網站爬取爬取資料集
資料集 10*fin/
- department_id10*.csv
- school_choose10*_fin.csv
- student10*_fin.csv
資料前處理: 過濾備不上的考生、只有一個系所可選的考生等,以dict資料結構儲存考生與其正備取科系
- preprocess1_delba.py
- preprocess2_test.py
sgd 模型
- model.py
- model_tocsv.py
模型輸出檔案 10*fin/
- department_dic_10*.pkl
- student_choice_10*.pkl
- student_dic_10*.pkl
- model10*_w_erlstp.npy: 各科系偏好分數
各科系排名結果整理
- department_rank10*_erlstp (0.05) v.csv