#### Task: 將歷年考選部跟法律有關的題目之 pdf 檔案都轉成 dataframe 並以 excel 形式儲存。
要求:
1. 申論題與多選題分開
2. 若（多選題）有答案，請附上

TODO:
1. 下載完 112 年的相關檔案
2. 113 年刪除所有「英文」試題

2025 / 03 / 23 進度：
- 完成了 113 年的所有考試整理。

In [1]:
import pandas as pd
from utils import *
import os

In [16]:
essay_question = pd.DataFrame(columns = ["question", "source", "year"])
mcq_question = pd.DataFrame(columns = ["question", "A", "B", "C", "D", "answer", "source"])
errors = pd.DataFrame(columns = ["content", "source", "year", "note"])
#
# * Year loop
# for year in os.listdir("raw"):
for year in ['113']:
    if year not in [".DS_Store", "憲法與行政法"]:

        print(f"+++++++++++++++++++++++ {year} +++++++++++++++++++++++")
        os.makedirs(f"output/{year}", exist_ok = True)

        # * 處理純申論題
        print("== processing essay questions ==")
        for file in os.listdir(f"raw/{year}/essay"):
            if file != ".DS_Store":
                print(f"  --{file}")
                text = pdf_to_text(f"./raw/{year}/essay/{file}")
                question_lst = get_essay(text)
                for element in question_lst:
                    essay_question.loc[len(essay_question), ["question", "source", "year"]] = [element, file, year]
        
        # * 處理純多選題
        print("== processing mcq questions ==")
        for file in os.listdir(f"raw/{year}/mcq"):
            if file != ".DS_Store":
                print(f"  --{file}")
                text = pdf_to_text(f"./raw/{year}/mcq/{file}")
                question_lst = get_mcq(text)

                # * 嘗試取得多選題答案
                if file in os.listdir(f"raw/{year}/answers"):
                    answer_text = pdf_to_text(f"raw/{year}/answers/{file}")
                    answer_list = get_answers(answer_text)
                else:
                    answer_list = ["" for i in range(len(question_lst))]

                for element, ans in zip(question_lst, answer_list):
                    try:
                        mcq_question.loc[len(mcq_question), ["question", "A", "B", "C", "D", "answer", "source", "year"]] = element + [ans, file, year]
                    except:
                        errors.loc[len(errors), ["content", "source", "year"]] = [str(element), file, year]
        
        # * 處理混合型檔案
        print("== processing mixed questions ==")
        for file in os.listdir(f"raw/{year}/mixed"):
            if file != ".DS_Store":
                print(f"  --{file}")
                text = pdf_to_text(f"./raw/{year}/mixed/{file}")
                essay_text, mcq_text = get_mixed(text)

                # * 申論題
                essay_question_list = get_essay(essay_text)
                for element in essay_question_list:
                    essay_question.loc[len(essay_question), ["question", "source", "year"]] = [element, file, year]
                
                # * 選擇題
                mcq_question_list = get_mcq(mcq_text)
                # 嘗試取得答案
                if file in os.listdir(f"raw/{year}/answers") and file != ".DS_Store":
                    answer_text = pdf_to_text(f"raw/{year}/answers/{file}")
                    answer_list = get_answers(answer_text)
                else:
                    answer_list = ["" for i in range(len(question_lst))]

                for element, ans in zip(question_lst, answer_list):
                    try:
                        mcq_question.loc[len(mcq_question), ["question", "A", "B", "C", "D", "answer", "source", "year"]] = element + [ans, file, year]
                    except:
                        errors.loc[len(errors), ["content", "source", "year"]] = [str(element), file, year]

        essay_question.dropna(how = 'all').to_excel(f"output/{year}/{year}_essay_question.xlsx", index = False)
        mcq_question.dropna(how = 'all').to_excel(f"output/{year}/{year}_mcq_question.xlsx", index = False)

+++++++++++++++++++++++ 113 +++++++++++++++++++++++
== processing essay questions ==
  --司法三等_破產法與消費者債務清理條例.pdf
  --司法三等_行政程序法與行政執行法.pdf
  --司法三等_公證法與非訟事件法.pdf
  --司律二_刑法與刑事訴訟法.pdf
  --司法四等_法警_法院組織法.pdf
  --司法三等_民事訴訟法.pdf
  --司法三等_刑事訴訟法與保安處分執行法.pdf
  --司法三等_海岸巡防人員_刑法與刑事訴訟法.pdf
  --司法三等_民法總則與親屬繼承編.pdf
  --司法四等_書記官_行政法概要.pdf
  --司律二_海商法與海洋法.pdf
  --司法三等_少年事件處理法.pdf
  --司法三等_訴願法與行政訴訟法.pdf
  --司法三等_民法.pdf
  --司律二_公司法.pdf
  --外特國際法組_國際海洋法及人權法.pdf
  --國防法務官_陸海空軍刑法與軍事審判法.pdf
  --司律二_財稅法.pdf
  --司法三等_調查人員_施工法.pdf
  --司律二_民法與民事訴訟法二.pdf
  --司法三等_刑法與刑事訴訟法.pdf
  --司法三等_家事事件法.pdf
  --司律二_勞動社會法.pdf
  --司法三等_監獄行刑法與羈押法.pdf
  --司法三等_智慧財產權法.pdf
  --司法三等_刑法與少年事件處理法.pdf
  --外特國際法組_國際公法與條約法.pdf
  --司律二_智慧財產法.pdf
  --司法三等_強制執行法與國際私法 .pdf
  --司法四等_執達員執行員_強制直刑法概要.pdf
  --司法四等_法警_刑事訴訟法概要.pdf
  --司律二_民法與民事訴訟法一.pdf
  --司法三等_強制執行法與商事法.pdf
  --司法三等_商事法.pdf
  --司法三等_刑法.pdf
  --司法四等_法院書記官執達員_民事訴訟法概要與刑事訴訟法概要.pdf
  --司法三等_證券交易法與商業會計法.pdf
== processing mcq questions ==
  --原特_原住民族行政及法規.pdf
  --司法五等_錄事_法學大意.pdf
  --司法三等

### Notes


1. 每個考試裡面的共同類科考試，考題可能不同，因此要分別處理。若為同一考科但考的職位不同，會在檔案前方註明考試職位（尤其司法四等）。
2. 憲法與行政法的結構跟一般申論題結構有點不同，之後再處理。

### 進度紀錄
