# Stage 3: Useful Tools for Training Data Preparation

In [1]:
import pandas as pd
from pathlib import Path
from di_parser import document_from_xml, Document
from common import stringify_md # This is a useful function for converting documents to markdown

## Load Data

In [2]:
resource_path = Path("./resources/2024-Oct-cleaned")

documents: list[Document] = []
for file in resource_path.glob("*.di"):
    with open(file, "r", encoding="utf-8") as f:
        doc = document_from_xml(f)
        documents.append(doc)

print(dummy := documents[0])

簽 | ◯◯室 | 113年10月23日
為配合推動「◯◯◯數位研習實施計畫」一案，簽請核示。
說明：
一、 依據本府113年◯◯月◯◯日府授教學字第1234567890號函辦理。
二、 旨揭實施計畫係本府為強化本府所屬人員之◯◯◯◯，落實◯◯◯◯，所規劃之訓練，相關資訊如下：
(一) 參加對象：
１、 未參加113年度◯◯教育實體講習之簡任人員：有◯◯◯局長、◯◯◯副局長及◯◯◯專門委員等3人，◯◯◯代理副局長、◯◯◯簡任高級分析師已參加實體課程（附件1）。
２、 薦任及委任人員（含約聘人員、約僱人員）。
(二) 課程內容：
１、 課程名稱：◯◯◯。
２、 課程網址：https://google.com.tw
３、 選課密碼：12345678
(三) 研習期程：即日起至113年◯◯月◯◯日，期間內完成2小時數位課程，並通過正式測驗（70分及格）。
三、 為利控管及填報本局執行情形（附件2），請人事室協助提供本局應參加研習人員清冊並註明官職等（附件3），及協助提供本局人員學習情形，俾利本室彙整提報◯◯局。
四、 為提高本局參訓情形，請各單位務必轉知所屬於◯◯月◯◯日前完成本次指定課程研習。
擬辦：
本室將於本局TaipeiON群組加強宣導，俟人事室提供受訓情形後，統計結果再另陳核，依限回覆◯◯局。


We can notice that the bullet points in original document are complicated, hence not a good choice to be used as training data.

To solve this issue, we'll introduce some useful tools to help us prepare the training data.

## Document to Simplified Structed Data

**Stringify** is a tool for flattening nested lists, and assign proper bullet points to each items.

This is the original **description** section.

In [3]:
print(dummy.description)

說明：
一、 依據本府113年◯◯月◯◯日府授教學字第1234567890號函辦理。
二、 旨揭實施計畫係本府為強化本府所屬人員之◯◯◯◯，落實◯◯◯◯，所規劃之訓練，相關資訊如下：
(一) 參加對象：
１、 未參加113年度◯◯教育實體講習之簡任人員：有◯◯◯局長、◯◯◯副局長及◯◯◯專門委員等3人，◯◯◯代理副局長、◯◯◯簡任高級分析師已參加實體課程（附件1）。
２、 薦任及委任人員（含約聘人員、約僱人員）。
(二) 課程內容：
１、 課程名稱：◯◯◯。
２、 課程網址：https://google.com.tw
３、 選課密碼：12345678
(三) 研習期程：即日起至113年◯◯月◯◯日，期間內完成2小時數位課程，並通過正式測驗（70分及格）。
三、 為利控管及填報本局執行情形（附件2），請人事室協助提供本局應參加研習人員清冊並註明官職等（附件3），及協助提供本局人員學習情形，俾利本室彙整提報◯◯局。
四、 為提高本局參訓情形，請各單位務必轉知所屬於◯◯月◯◯日前完成本次指定課程研習。


Now we'll use **stringify** to overwrite original bullet points to make it simpler.

In [4]:
print(dummy.description.stringify(overwrite_sequence_bullet="-"))

說明：
- 依據本府113年◯◯月◯◯日府授教學字第1234567890號函辦理。
- 旨揭實施計畫係本府為強化本府所屬人員之◯◯◯◯，落實◯◯◯◯，所規劃之訓練，相關資訊如下：
- 參加對象：
- 未參加113年度◯◯教育實體講習之簡任人員：有◯◯◯局長、◯◯◯副局長及◯◯◯專門委員等3人，◯◯◯代理副局長、◯◯◯簡任高級分析師已參加實體課程（附件1）。
- 薦任及委任人員（含約聘人員、約僱人員）。
- 課程內容：
- 課程名稱：◯◯◯。
- 課程網址：https://google.com.tw
- 選課密碼：12345678
- 研習期程：即日起至113年◯◯月◯◯日，期間內完成2小時數位課程，並通過正式測驗（70分及格）。
- 為利控管及填報本局執行情形（附件2），請人事室協助提供本局應參加研習人員清冊並註明官職等（附件3），及協助提供本局人員學習情形，俾利本室彙整提報◯◯局。
- 為提高本局參訓情形，請各單位務必轉知所屬於◯◯月◯◯日前完成本次指定課程研習。


We also provided a switch to ignore the section name.

In [5]:
print(dummy.description.stringify(overwrite_sequence_bullet="", ignore_section_type=True))

 依據本府113年◯◯月◯◯日府授教學字第1234567890號函辦理。
 旨揭實施計畫係本府為強化本府所屬人員之◯◯◯◯，落實◯◯◯◯，所規劃之訓練，相關資訊如下：
 參加對象：
 未參加113年度◯◯教育實體講習之簡任人員：有◯◯◯局長、◯◯◯副局長及◯◯◯專門委員等3人，◯◯◯代理副局長、◯◯◯簡任高級分析師已參加實體課程（附件1）。
 薦任及委任人員（含約聘人員、約僱人員）。
 課程內容：
 課程名稱：◯◯◯。
 課程網址：https://google.com.tw
 選課密碼：12345678
 研習期程：即日起至113年◯◯月◯◯日，期間內完成2小時數位課程，並通過正式測驗（70分及格）。
 為利控管及填報本局執行情形（附件2），請人事室協助提供本局應參加研習人員清冊並註明官職等（附件3），及協助提供本局人員學習情形，俾利本室彙整提報◯◯局。
 為提高本局參訓情形，請各單位務必轉知所屬於◯◯月◯◯日前完成本次指定課程研習。
