## 107臺大學測查榜

#### 主題發想
    來自於高中常用的「交叉查榜網站」，當時因為有這個網站的協助，讓自己能更精準的預估自己的落點。偶然和同學閒聊時發現，這個網站似乎是台大資工系的學長在多年前念大三時寫出來的。當時覺得這位學長非常厲害，本身就讀資訊相關科系，未來希望自己也能建造一個像這樣能造福社會的程式。這一次期中Project我決定實作簡易版的查榜系統，由於108學測尚未放榜，故本網站使用資料為107學年榜單。

#### 資料來源
1. [「國立臺灣大學 107 學年度學士班個人申請入學招生考試錄取名單」:](http://reg.aca.ntu.edu.tw/107applause/acc.asp)


導入re以應用regular expression

In [21]:
#import necessary library
import pandas as pd
import numpy as np
from ipywidgets import interact
import re
#used for regular expression

#### 根據"國立臺灣大學 107 學年度學士班個人申請入學招生考試錄取名單"進行資料預處理
    由於網路上可得的資料僅有PDF版本，我先將PDF上的文字全選複製並儲存至一txt檔以方便python讀取。接著使用大量replace及re.sub()中的雜訊清除，並處理成整齊的格式。

In [22]:
#將資料中用來隱藏中間名的特殊字元以較易於用鍵盤打出的"@"取代
privacyChar = '@'

In [23]:
textFile = open("107_college_entrance.txt", 'r', encoding = "utf-8")
textFile.close
textContent = textFile.read()
#origin = textContent#used for convenience to debug

textContent = textContent.replace("國立臺灣大學 107 學年度學士班個人申請入學招生考試錄取名單國立臺灣大學 107 學年度學士班個人申請入學招生考試錄取名單\n", "")
textContent = textContent.replace("國立臺灣大學 107 學年度學士班個人申請入學招生考試錄取名單\n", "")
textContent = textContent.replace("學系組別：\n", "")
textContent = textContent.replace("報名編號\n", "")
textContent = textContent.replace("姓 名 錄取別\n", "")
textContent = textContent.replace(" ○", "@")
textContent = textContent.replace("○", "@")
textContent = textContent.replace(" ", ",")
textContent = re.sub(r"(備取)第,(\d+),名", r"\1,\2", textContent)
textContent = re.sub(r"(,名)(.+系.*)(,第,\d+,頁\n)", r"\1\n!\2\n", textContent)
textContent = re.sub(r"以上合計,\d+,名\n*", r"", textContent)
textContent = re.sub(r"(備取,\d+)(.*系.*),第,\d+,頁", r"\1\n!\2", textContent)
textContent = re.sub(r"(正取)(.*系.*),第,\d+,頁", r"\1\n!\2", textContent)
textContent = re.sub(r"(.*系)(,第,\d*,頁)", r"\1", textContent)#針對第一排
textContent = textContent.replace("正取", "正取,NAN")
textContent = re.sub(r"\ufeff(.*系)", r"!\1", textContent)

#deal with the utf-8 編碼衝突
textContent = textContent.replace("理", "理")
textContent = textContent.replace("緯", "緯")
textContent = textContent.replace("林", "林")
# print(textContent)

data = textContent.splitlines()

department = ""
for i in range(len(data)):
    if('!' in data[i]):
        department = data[i][1:]
    else:
        data[i] = department + ',' + data[i]
        
textContent = "\n".join(data)
textContent = re.sub(r"!.*\n", r"", textContent)

將方才整理好的資料字串轉變為columns數為5的pd.DataFrame格式

In [24]:
merit_list = re.split(r"\n|,", textContent)
merit_list = np.array(merit_list)
merit_list = merit_list.reshape(int(len(merit_list)/5), 5)
merit_list = pd.DataFrame(merit_list, columns=["系所", "報名編號", "姓名", "錄取別", "名次(用於備取)"])
merit_list[merit_list["名次(用於備取)"] == "NAN"].replace("NAN", np.nan, inplace = True)

def func(x):
    if(x == "NAN"):
        return np.nan
    else:
        return x
        #若有需要可回傳int(x)，但因為x不做數值運算，故傳回x即可
    
merit_list["名次(用於備取)"] = merit_list["名次(用於備取)"].map(func)

In [25]:
merit_list.head()

Unnamed: 0,系所,報名編號,姓名,錄取別,名次(用於備取)
0,中國文學系,700007,劉@妤,正取,
1,中國文學系,700034,葉@余,正取,
2,中國文學系,700047,朱@萱,正取,
3,中國文學系,700038,傅@恩,正取,
4,中國文學系,700043,蔡@廷,正取,


In [26]:
def searchByName(name):
    global merit_list
    matchName = str()
    if (len(name) == 2):
        matchName = name[:1] + privacyChar
    elif(len(name) >= 3 ):
        matchName = name[:1] + privacyChar + name[2:]
        
    return merit_list[merit_list["姓名"].map(lambda x:x.encode("utf8") == matchName.encode("utf8"))]

In [27]:
def searchByID(ID):
    global merit_list
    return merit_list[merit_list["報名編號"] == ID]

In [28]:
def searchByDepartment(department):
    global merit_list

    def filter(x):
        if x.find(department) == -1:
            return False
        else:
            return True
        
    return merit_list[merit_list["系所"].map(filter)]

#### 查榜
    由於中文字元編碼問題，有些輸入無法找到結果，使用報名編號查詢能完全迴避此問題

In [29]:
print("Search By Name:")
interact(searchByName, name = str())

print("Search By ID:")
interact(searchByID, ID = str())

print("Search By Department")
interact(searchByDepartment, department = str())

Search By Name:


interactive(children=(Text(value='', description='name'), Output()), _dom_classes=('widget-interact',))

Search By ID:


interactive(children=(Text(value='', description='ID'), Output()), _dom_classes=('widget-interact',))

Search By Department


interactive(children=(Text(value='', description='department'), Output()), _dom_classes=('widget-interact',))

<function __main__.searchByDepartment(department)>

#### 心得
    實作這一次的Project，除了讓我對pandas和numpy的掌握更熟練，為了進行資料預處理，我也特別去學習regular expression的相關知識。這一次re套件的強大讓我大大驚豔。
    最後能將自己從前一直嚮往的功能復刻出來，我對於自己資訊能力的進步感到非常開心。

#### 未來改進方向
    這一次的Project，我發現在資料來源中，有一些字元雖然和我從鍵盤中打出來的文字，其字形在python中完全一致，但是utf-8編碼卻並不相同。將類似的字組輸入網站(https://www.fileformat.info/index.htm)查詢後，兩個文字的確都代表同一文字，也確實擁有不同的文字編碼。這一點會造成python在判讀時將同字形的兩字原判定為不同，從而使有些輸入無法找到對應的結果。
    這樣的問題我並未在網路上找到可行的解法，此點可成為未來改善系統的一環。