# 租稅法總論稿件合併

這個 notebook 會將 `_Material/1121稿/Filtered_租稅法總論` 中的逐次講義整合成單一的 Word 檔案，並依據每份檔案的 YAML 前言建立段落標題。


In [9]:
# 如環境尚未安裝相關套件，可以先執行這個區塊。
%pip install -q python-docx pyyaml


Note: you may need to restart the kernel to use updated packages.


In [10]:
from pathlib import Path
import re
import yaml
from docx import Document
from docx.oxml.ns import qn

BASE_DIR = Path.cwd()
possible_roots = [BASE_DIR, BASE_DIR / 'work'] + list(BASE_DIR.parents) + list((BASE_DIR / 'work').parents)


def resolve_existing(relative: Path) -> Path | None:
    candidate = Path(relative)
    if candidate.is_absolute():
        return candidate if candidate.exists() else None
    for base in possible_roots:
        target = (Path(base) / candidate).resolve()
        if target.exists():
            return target
    return None


SOURCE_CANDIDATES = [
    Path('mkdocs/My_Notes/Filtered_租稅法總論'),
    Path('_Material/1121稿/Filtered_租稅法總論'),
]

SOURCE_DIR = None
SOURCE_RELATIVE = None
for candidate in SOURCE_CANDIDATES:
    resolved = resolve_existing(candidate)
    if resolved is not None:
        SOURCE_RELATIVE = candidate
        SOURCE_DIR = resolved
        break

if SOURCE_DIR is None:
    joined = '\n - '.join(str(c) for c in SOURCE_CANDIDATES)
    raise FileNotFoundError('找不到講義資料夾，已嘗試:- ' + joined)

OUTPUT_PATH = SOURCE_DIR / '租稅法總論_合併.docx'

print(f'Working directory: {BASE_DIR}')
print(f'使用資料夾     : {SOURCE_RELATIVE}')
print(f'Source directory : {SOURCE_DIR}')
print(f'Output file      : {OUTPUT_PATH}')


Working directory: /home/jovyan
使用資料夾     : mkdocs/My_Notes/Filtered_租稅法總論
Source directory : /home/jovyan/work/mkdocs/My_Notes/Filtered_租稅法總論
Output file      : /home/jovyan/work/mkdocs/My_Notes/Filtered_租稅法總論/租稅法總論_合併.docx


In [None]:
from pathlib import Path
import re
import yaml
from docx import Document
from docx.oxml.ns import qn

# === 全域設定 ===
PREFERRED_METADATA_KEYS = ['課程', '日期', '周次', '節次']
SUPPORTED_EXTENSIONS = ('.md',)
EAST_ASIA_FONT = '標楷體'
HEADING_PATTERN = re.compile(r'^(#{1,6})\s+(.*)$')
SHOW_METADATA_AFTER_HEADING = False

# === YAML front matter 解析 ===
def parse_front_matter(raw_text):
    """
    解析 Markdown 檔案開頭的 front matter。
    支援全形冒號、自動去除註解與空白，
    若 YAML 格式無效仍能逐行正確解析。
    並移除所有含「課程」字樣的欄位。
    """
    raw_text = raw_text.lstrip('﻿')
    pattern = r'^---\s*\n(.*?)\n---\s*\n?'
    match = re.match(pattern, raw_text, flags=re.DOTALL)
    if not match:
        return {}, raw_text.strip()

    meta_block = match.group(1)
    meta = {}

    # 逐行手動解析，保證鍵值對被正確拆分
    for line in meta_block.splitlines():
        line = line.strip()
        if not line or line.startswith('#'):
            continue
        # 將全形冒號統一為半形
        line = line.replace('：', ':', 1)
        if ':' not in line:
            continue
        key, value = line.split(':', 1)
        key = key.strip().replace(':', '').replace('：', '')
        value = value.strip()
        # 移除任何含「課程」的欄位
        if '課程' in key:
            continue
        meta[key] = value

    body = raw_text[match.end():].lstrip('\r\n')
    return meta, body


# === 字型設定 ===
def apply_run_font(run):
    run.font.name = EAST_ASIA_FONT
    r = run._element
    rPr = getattr(r, "rPr", None)
    if rPr is None or len(rPr) == 0:
        rPr = r.get_or_add_rPr()
    rFonts = getattr(rPr, "rFonts", None)
    if rFonts is None or len(rFonts) == 0:
        rFonts = rPr.get_or_add_rFonts()
    rFonts.set(qn('w:eastAsia'), EAST_ASIA_FONT)
    rFonts.set(qn('w:ascii'), EAST_ASIA_FONT)
    rFonts.set(qn('w:hAnsi'), EAST_ASIA_FONT)


# === 標題生成 ===
def build_heading(metadata, fallback_label):
    """生成講次小標（已保證不含課程欄位）。"""
    if not metadata:
        return fallback_label

    # 保險：再過濾一次
    metadata = {
        k: v
        for k, v in metadata.items()
        if '課程' not in str(k).replace('：', '').replace(':', '').strip()
    }

    parts = []
    if metadata.get('周次'):
        w = str(metadata['周次'])
        parts.append(f"第{w}週" if not w.startswith('第') else w)
    if metadata.get('節次'):
        s = str(metadata['節次'])
        parts.append(f"第{s}節" if not s.startswith('第') else s)
    if metadata.get('日期'):
        parts.append(str(metadata['日期']))

    if not parts:
        extras = [str(v).strip() for v in metadata.values() if v and str(v).strip()]
        return '｜'.join(extras) if extras else fallback_label
    return '｜'.join(parts)


# === 解析 Markdown ===
def extract_blocks(body_text):
    blocks, buf = [], []
    for line in body_text.splitlines():
        if not line.strip():
            if buf:
                blocks.append(('paragraph', '\n'.join(buf).rstrip()))
                buf = []
            continue
        m = HEADING_PATTERN.match(line.rstrip())
        if m:
            if buf:
                blocks.append(('paragraph', '\n'.join(buf).rstrip()))
                buf = []
            blocks.append(('heading', len(m.group(1)), m.group(2).strip()))
        else:
            buf.append(line.rstrip())
    if buf:
        blocks.append(('paragraph', '\n'.join(buf).rstrip()))
    return blocks


# === 收集所有條目 ===
def collect_entries(source_dir):
    """讀取 Markdown 並再次過濾所有含課程欄位。"""
    if not source_dir.exists():
        raise FileNotFoundError(f'找不到資料夾: {source_dir}')

    files = sorted([p for ext in SUPPORTED_EXTENSIONS for p in source_dir.glob(f'*{ext}')])
    if not files:
        raise RuntimeError('資料夾中沒有找到任何支援的檔案 (.md)')

    entries = []
    for path in files:
        raw = path.read_text(encoding='utf-8')
        meta, body = parse_front_matter(raw)

        # **再次清理**
        meta = {
            k: v
            for k, v in meta.items()
            if '課程' not in str(k).replace('：', '').replace(':', '').strip()
        }

        blocks = extract_blocks(body)
        entries.append({'path': path, 'meta': meta or {}, 'blocks': blocks})
    return entries


# === Word 輔助函式 ===
def add_text_paragraph(doc, text):
    p = doc.add_paragraph()
    for i, line in enumerate(text.split('\n')):
        if i > 0:
            p.add_run().add_break()
        run = p.add_run(line)
        apply_run_font(run)

def add_heading(doc, text, level):
    h = doc.add_heading(text, level=level)
    for run in h.runs:
        apply_run_font(run)

def add_metadata_block(doc, metadata):
    """美觀列印 metadata（已確保無課程鍵）。"""
    metadata = {
        k: v
        for k, v in metadata.items()
        if '課程' not in str(k).replace('：', '').replace(':', '').strip()
    }
    if not metadata:
        return
    items = []
    for k in PREFERRED_METADATA_KEYS:
        if k in metadata:
            items.append((k, metadata[k]))
    for k, v in metadata.items():
        if k in PREFERRED_METADATA_KEYS:
            continue
        items.append((k, v))
    for k, v in items:
        para = doc.add_paragraph(f"{k}: {v}", style='List Bullet')
        for run in para.runs:
            apply_run_font(run)
    doc.add_paragraph('')


# === 文件主流程 ===
def make_document(entries, output_path):
    doc = Document()
    add_heading(doc, '租稅法總論講義彙編', 1)
    doc.add_page_break()
    # print(entries)

    for i, entry in enumerate(entries):
        heading = build_heading(entry['meta'], entry['path'].stem)
        add_heading(doc, heading, 2)

        if SHOW_METADATA_AFTER_HEADING:
            add_metadata_block(doc, entry['meta'])

        for b in entry['blocks']:
            if b[0] == 'heading':
                lvl, text = b[1], b[2]
                add_heading(doc, text, min(lvl + 2, 9))
            else:
                add_text_paragraph(doc, b[1])

        if i != len(entries) - 1:
            doc.add_page_break()

    output_path.parent.mkdir(parents=True, exist_ok=True)
    doc.save(output_path)
    return output_path


# === 主控 ===
def compile_word_document():
    entries = collect_entries(SOURCE_DIR)
    path = make_document(entries, OUTPUT_PATH)
    print(f'完成：{path}')

# === 執行 ===
compile_word_document()

[{'path': PosixPath('/home/jovyan/work/mkdocs/My_Notes/Filtered_租稅法總論/001_20230905_03_租稅法總論.md'), 'meta': {'日期': '2023/09/05', '周次': '1', '節次': '1'}, 'blocks': [('paragraph', '稅，有些人把他稱之為叫租稅，或者有些人把他稱之為叫稅賦。不管是稅、捐、租、賦，大概在稱呼稅的名詞上面，都有人用。'), ('paragraph', '舉例來講，田賦。農地課徵的田賦。租，我們現在比較少用這個，在民事契約裡面還有租賃契約（不同意義）。捐，我們現在還有菸品健康捐。稅，現在用最多。稅捐，這個是我們今天第一節課，要跟各位先做定義。為什麼要做定義？因為如果不作定義的話，往往都會變成，你講的稅不是我想的稅。所以這個名詞經過定義以後，原則上，相約成俗，我們就不亂用，我也是透過這個地方來告訴各位，定義的重要性，其實就是讓大家知道，我們講述的對象，我們指涉的對象是什麼？ 除了稅或租稅這個名詞以外，我們今天上課還會跟各位談公課。這個概念在歐洲國家裡面，歐陸法系的國家都有這個類似的概念，為了公共目的，而課徵的，言外之意是指金錢給付。'), ('paragraph', '我今天的課程，重要的就是跟各位講這兩個基礎概念。稅法是以租稅為中心的法律規範。那我們在下個禮拜的課程會談稅法規範體系稅法規範概念。今天我們就專注在討論我們談的這個對象。目前我們的現行不管是憲法或法律，我剛剛所講的那些跟稅法有關的法條：憲法增修條文、地方稅法通則、財政收支劃分法、稅捐稽徵法、納保法、行政程序法、行政罰法、訴願法、行政訴訟法，甚至連課稅的所得稅法、遺產贈與稅法、營業稅法，沒有一個條文寫，何謂稅？ 這就是我們國家的特色，你知道的，你知道。沒有定義，所以我們現在目前所談的稅這個概念，基本上法律上面沒有任何定義。'), ('paragraph', '那為什麼會有稅這個概念？其實我們大致上都是因為我們自己的法秩序沒有定義，那我們就在全球範圍裡面去找到。一個國家的法律對稅做得最清楚而完整的定義，那個國家就是德國。德國將租稅定在他們的租稅通則第3條，第一項清楚的把租稅的定義把他寫在上面。由於他的涵蓋性完整也比較全面，德國人的特色就是可以把這一些邏輯思考的結果，用