# Milestone 04: 文字處理工具箱 - 需求規格書

## 📋 專案概述

本專案旨在整合 **Ch12-15** 的核心概念，建立一個功能完整的文字處理工具箱。透過模組化的函式設計，展示函式式程式設計的威力。

### 技術整合重點
- **Ch12 函式設計基礎**: 模組化設計、參數處理、文件字串
- **Ch13 作用域與生命週期**: 內嵌函式、閉包、變數作用域
- **Ch14 高階函式與 Lambda**: map/filter/reduce、函式組合
- **Ch15 遞迴思維**: 遞迴檔案處理、分治法應用

---

## 🎯 功能需求詳細規格

### 模組 1: 文字統計模組 (statistics)

#### 必須實作的函式:

**1. 基本統計函式**

In [None]:
def count_characters(text):
    """
    統計文字字元數量（含空格與標點）
    
    參數:
        text (str): 要統計的文字
    
    回傳:
        dict: 包含各種字元統計資訊
        {
            'total_chars': int,      # 總字元數
            'alphabetic': int,       # 字母數量
            'numeric': int,          # 數字數量
            'whitespace': int,       # 空白字元數
            'punctuation': int       # 標點符號數
        }
    
    範例:
        >>> count_characters("Hello, World! 123")
        {'total_chars': 17, 'alphabetic': 10, 'numeric': 3, 'whitespace': 2, 'punctuation': 2}
    """
    pass

def count_words(text):
    """
    統計詞彙數量與詞頻
    
    參數:
        text (str): 要分析的文字
    
    回傳:
        dict: 詞彙統計結果
        {
            'total_words': int,           # 總詞數
            'unique_words': int,          # 不重複詞數
            'word_frequency': dict,       # 詞頻字典 {word: count}
            'average_word_length': float  # 平均詞長
        }
    
    範例:
        >>> count_words("Python is great. Python is powerful.")
        {
            'total_words': 6,
            'unique_words': 5,
            'word_frequency': {'python': 2, 'is': 2, 'great': 1, 'powerful': 1},
            'average_word_length': 5.5
        }
    """
    pass

def count_lines(text):
    """
    統計行數相關資訊
    
    參數:
        text (str): 要分析的文字
    
    回傳:
        dict: 行數統計結果
        {
            'total_lines': int,       # 總行數
            'non_empty_lines': int,   # 非空白行數
            'empty_lines': int,       # 空白行數
            'average_line_length': float  # 平均行長
        }
    """
    pass

def analyze_text_statistics(text):
    """
    綜合文字統計分析（整合上述所有函式）
    展示 Ch12 函式組合概念
    
    參數:
        text (str): 要分析的文字
    
    回傳:
        dict: 完整統計報告
    """
    pass

**範例輸入與輸出:**

In [None]:
# 測試資料
sample_text = """
Python 是一種高階程式語言。
它易於學習且功能強大。

許多公司都使用 Python 開發軟體。
Python 的語法簡潔優雅。
"""

# 期望輸出範例
expected_output = {
    'characters': {
        'total_chars': 65,
        'alphabetic': 35,
        'numeric': 0,
        'whitespace': 15,
        'punctuation': 4
    },
    'words': {
        'total_words': 18,
        'unique_words': 15,
        'word_frequency': {
            'python': 3,
            '是': 1,
            '一種': 1,
            # ... 其他詞彙
        },
        'average_word_length': 2.8
    },
    'lines': {
        'total_lines': 6,
        'non_empty_lines': 4,
        'empty_lines': 2,
        'average_line_length': 16.25
    }
}

### 模組 2: 文字搜尋模組 (search)

#### 必須實作的函式:

In [None]:
def find_keyword(text, keyword, case_sensitive=False):
    """
    在文字中搜尋關鍵字
    
    參數:
        text (str): 要搜尋的文字
        keyword (str): 關鍵字
        case_sensitive (bool): 是否區分大小寫
    
    回傳:
        dict: 搜尋結果
        {
            'keyword': str,           # 搜尋的關鍵字
            'count': int,             # 出現次數
            'positions': list,        # 出現位置列表 [start_index, ...]
            'line_numbers': list,     # 出現行號列表 [line_num, ...]
            'context_lines': list     # 包含關鍵字的完整行內容
        }
    """
    pass

def find_multiple_keywords(text, keywords, case_sensitive=False):
    """
    同時搜尋多個關鍵字
    展示 Ch14 map 函式應用
    
    參數:
        text (str): 要搜尋的文字
        keywords (list): 關鍵字列表
        case_sensitive (bool): 是否區分大小寫
    
    回傳:
        dict: {keyword: search_result} 的字典
    """
    pass

def search_in_lines(text, pattern, filter_func=None):
    """
    按行搜尋並支援自訂過濾條件
    展示 Ch14 filter 函式與 Lambda 應用
    
    參數:
        text (str): 要搜尋的文字
        pattern (str): 搜尋模式
        filter_func (callable): 自訂過濾函式
    
    回傳:
        list: 符合條件的行列表
        [
            {
                'line_number': int,
                'content': str,
                'match_count': int
            },
            ...
        ]
    
    範例:
        # 搜尋包含 "Python" 且行長度 > 10 的行
        >>> search_in_lines(text, "Python", lambda line: len(line) > 10)
    """
    pass

### 模組 3: 文字轉換模組 (transform)

#### 必須實作的函式:

In [None]:
def transform_case(text, mode='lower'):
    """
    轉換文字大小寫
    
    參數:
        text (str): 要轉換的文字
        mode (str): 轉換模式 ('lower', 'upper', 'title', 'capitalize')
    
    回傳:
        str: 轉換後的文字
    """
    pass

def replace_text_advanced(text, replacements, use_regex=False):
    """
    進階文字替換功能
    
    參數:
        text (str): 原始文字
        replacements (dict): 替換規則 {old: new}
        use_regex (bool): 是否使用正規表達式
    
    回傳:
        str: 替換後的文字
    
    範例:
        >>> replace_text_advanced("Hello World", {"Hello": "Hi", "World": "Python"})
        "Hi Python"
    """
    pass

def create_text_transformer(config):
    """
    建立客製化文字轉換器（展示 Ch13 閉包概念）
    
    參數:
        config (dict): 轉換設定
        {
            'case_mode': str,      # 大小寫模式
            'remove_punctuation': bool,
            'replace_numbers': bool,
            'custom_replacements': dict
        }
    
    回傳:
        function: 轉換函式（閉包）
    
    範例:
        >>> transformer = create_text_transformer({
        ...     'case_mode': 'lower',
        ...     'remove_punctuation': True
        ... })
        >>> transformer("Hello, World!")
        "hello world"
    """
    pass

def batch_transform_texts(text_list, transform_func):
    """
    批次處理文字列表（展示 Ch14 map 函式）
    
    參數:
        text_list (list): 文字列表
        transform_func (callable): 轉換函式
    
    回傳:
        list: 轉換後的文字列表
    """
    pass

### 模組 4: 文字格式化模組 (format)

#### 必須實作的函式:

In [None]:
def align_text(text, width=80, alignment='left'):
    """
    文字對齊處理
    
    參數:
        text (str): 要對齊的文字
        width (int): 對齊寬度
        alignment (str): 對齊方式 ('left', 'right', 'center')
    
    回傳:
        str: 對齊後的文字
    """
    pass

def indent_lines(text, indent_size=4, indent_char=' '):
    """
    為文字行添加縮排
    
    參數:
        text (str): 要縮排的文字
        indent_size (int): 縮排大小
        indent_char (str): 縮排字元
    
    回傳:
        str: 縮排後的文字
    """
    pass

def create_columns(text_list, columns=2, separator='  |  '):
    """
    將文字列表格式化為多欄顯示
    
    參數:
        text_list (list): 文字列表
        columns (int): 欄數
        separator (str): 欄分隔符
    
    回傳:
        str: 格式化後的多欄文字
    
    範例:
        >>> create_columns(['Apple', 'Banana', 'Cherry', 'Date'], columns=2)
        "Apple   |  Banana\nCherry  |  Date"
    """
    pass

def format_table(data, headers=None, align='left'):
    """
    格式化資料為表格
    
    參數:
        data (list): 資料列表，每個元素為一行資料
        headers (list): 表頭列表
        align (str): 對齊方式
    
    回傳:
        str: 格式化的表格字串
    """
    pass

### 模組 5: 文字分析模組 (analysis)

#### 必須實作的函式:

In [None]:
def analyze_sentences(text):
    """
    句子分析
    
    參數:
        text (str): 要分析的文字
    
    回傳:
        dict: 句子分析結果
        {
            'sentence_count': int,
            'sentences': list,           # 所有句子列表
            'average_sentence_length': float,
            'longest_sentence': str,
            'shortest_sentence': str
        }
    """
    pass

def detect_duplicates(text, min_length=5):
    """
    檢測重複片段
    
    參數:
        text (str): 要檢測的文字
        min_length (int): 最小重複長度
    
    回傳:
        list: 重複片段列表
        [
            {
                'fragment': str,      # 重複片段
                'count': int,         # 重複次數
                'positions': list     # 出現位置
            },
            ...
        ]
    """
    pass

def calculate_readability_score(text):
    """
    計算文字可讀性分數（簡化版）
    
    參數:
        text (str): 要分析的文字
    
    回傳:
        dict: 可讀性分析結果
        {
            'avg_sentence_length': float,
            'avg_word_length': float,
            'complexity_score': float,   # 0-100，越低越容易閱讀
            'difficulty_level': str      # 'Easy', 'Medium', 'Hard'
        }
    """
    pass

## 🚀 進階需求 (選做，額外加分)

### 模組 6: 遞迴檔案處理 (recursive) - Ch15 重點

#### 展示遞迴思維的函式:

In [None]:
def search_files_recursive(directory, pattern, file_extension='.txt', max_depth=5):
    """
    遞迴搜尋目錄中的文字檔案
    
    參數:
        directory (str): 搜尋目錄路徑
        pattern (str): 搜尋模式
        file_extension (str): 檔案副檔名
        max_depth (int): 最大搜尋深度
    
    回傳:
        list: 搜尋結果列表
        [
            {
                'file_path': str,     # 檔案路徑
                'matches': int,       # 符合次數
                'depth': int,         # 目錄深度
                'file_size': int      # 檔案大小
            },
            ...
        ]
    
    注意: 必須展示遞迴的三要素：
    1. 基本情況（Base Case）：達到最大深度或沒有子目錄
    2. 遞迴情況（Recursive Case）：對子目錄進行遞迴搜尋
    3. 狀態改變：深度遞增
    """
    pass

def count_pattern_recursive(text, pattern):
    """
    遞迴計算模式出現次數
    
    參數:
        text (str): 要搜尋的文字
        pattern (str): 搜尋模式
    
    回傳:
        int: 模式出現次數
    
    注意: 這是展示遞迴思維的練習，實際應用中直接使用 text.count() 更高效
    """
    pass

def parse_nested_structure(text, open_tag='[', close_tag=']'):
    """
    遞迴解析巢狀結構（如括號匹配）
    
    參數:
        text (str): 要解析的文字
        open_tag (str): 開始標記
        close_tag (str): 結束標記
    
    回傳:
        dict: 解析結果
        {
            'is_balanced': bool,      # 是否平衡
            'max_depth': int,         # 最大巢狀深度
            'structure': list         # 巢狀結構列表
        }
    
    範例:
        >>> parse_nested_structure("[A[B[C]D]E]")
        {'is_balanced': True, 'max_depth': 3, 'structure': ['A', ['B', ['C'], 'D'], 'E']}
    """
    pass

### 模組 7: 高階函式應用 (functional) - Ch14 重點

#### 展示函式式程式設計的函式:

In [None]:
def create_text_pipeline(*operations):
    """
    建立文字處理流水線（展示函式組合）
    
    參數:
        *operations: 可變數量的處理函式
    
    回傳:
        function: 組合後的處理函式
    
    範例:
        >>> pipeline = create_text_pipeline(
        ...     lambda x: x.lower(),
        ...     lambda x: x.replace(' ', '_'),
        ...     lambda x: x.strip()
        ... )
        >>> pipeline("  Hello World  ")
        "hello_world"
    """
    pass

def apply_text_filters(text_list, *filters):
    """
    依序套用多個過濾器（展示 filter 函式連鎖）
    
    參數:
        text_list (list): 文字列表
        *filters: 可變數量的過濾函式
    
    回傳:
        list: 過濾後的文字列表
    
    範例:
        >>> apply_text_filters(
        ...     ["hello", "", "world", "python"],
        ...     lambda x: x != "",           # 移除空字串
        ...     lambda x: len(x) > 4         # 保留長度 > 4 的詞
        ... )
        ["hello", "world", "python"]
    """
    pass

def reduce_text_analysis(text_list, analysis_func):
    """
    使用 reduce 進行文字分析聚合
    
    參數:
        text_list (list): 文字列表
        analysis_func (callable): 分析函式
    
    回傳:
        dict: 聚合分析結果
    
    範例:
        >>> reduce_text_analysis(
        ...     ["hello world", "python rocks"],
        ...     lambda acc, text: {
        ...         'total_words': acc.get('total_words', 0) + len(text.split()),
        ...         'total_chars': acc.get('total_chars', 0) + len(text)
        ...     }
        ... )
        {'total_words': 4, 'total_chars': 23}
    """
    pass

def create_custom_filters():
    """
    建立常用的 Lambda 過濾器集合
    
    回傳:
        dict: 過濾器字典
        {
            'non_empty': lambda,           # 非空過濾器
            'min_length': lambda,          # 最小長度過濾器（返回高階函式）
            'contains_keyword': lambda,    # 包含關鍵字過濾器（返回高階函式）
            'starts_with': lambda,         # 開頭匹配過濾器（返回高階函式）
            'ends_with': lambda            # 結尾匹配過濾器（返回高階函式）
        }
    
    範例:
        >>> filters = create_custom_filters()
        >>> min_5_chars = filters['min_length'](5)
        >>> min_5_chars("hello")  # True
        >>> min_5_chars("hi")     # False
    """
    pass

## 🔧 系統整合需求

### 主程式結構

In [None]:
def create_text_toolkit():
    """
    建立文字處理工具箱主介面
    展示 Ch12 模組化設計
    
    回傳:
        dict: 工具箱字典，包含所有模組功能
        {
            'statistics': {
                'count_characters': function,
                'count_words': function,
                'count_lines': function,
                'analyze_text_statistics': function
            },
            'search': {
                'find_keyword': function,
                'find_multiple_keywords': function,
                'search_in_lines': function
            },
            'transform': {
                'transform_case': function,
                'replace_text_advanced': function,
                'create_text_transformer': function,
                'batch_transform_texts': function
            },
            'format': {
                'align_text': function,
                'indent_lines': function,
                'create_columns': function,
                'format_table': function
            },
            'analysis': {
                'analyze_sentences': function,
                'detect_duplicates': function,
                'calculate_readability_score': function
            },
            # 進階模組（選做）
            'recursive': {
                'search_files_recursive': function,
                'count_pattern_recursive': function,
                'parse_nested_structure': function
            },
            'functional': {
                'create_text_pipeline': function,
                'apply_text_filters': function,
                'reduce_text_analysis': function,
                'create_custom_filters': function
            }
        }
    """
    pass

def interactive_menu():
    """
    互動式選單系統
    
    功能選單:
    1. 文字統計分析
    2. 文字搜尋功能
    3. 文字轉換工具
    4. 文字格式化
    5. 文字深度分析
    6. 遞迴檔案處理 (進階)
    7. 函式式處理 (進階)
    0. 結束程式
    """
    pass

def handle_menu_choice(choice, toolkit):
    """
    處理選單選擇
    
    參數:
        choice (str): 使用者選擇
        toolkit (dict): 工具箱物件
    """
    pass

## 📊 測試需求

### 必須通過的測試案例

In [None]:
def test_text_toolkit():
    """
    完整功能測試套件
    所有實作都必須通過這些測試
    """
    
    # 測試資料
    test_text = """
    Python 是一種高階程式語言。
    Python 易於學習且功能強大。
    許多公司都使用 Python 開發軟體。
    Python 的語法簡潔優雅。
    """
    
    print("🧪 開始測試文字處理工具箱...")
    
    # 測試 1: 文字統計
    print("\n1. 測試文字統計模組")
    stats = analyze_text_statistics(test_text)
    assert 'characters' in stats, "缺少字元統計"
    assert 'words' in stats, "缺少詞彙統計"
    assert 'lines' in stats, "缺少行數統計"
    assert stats['words']['word_frequency']['python'] == 4, "詞頻統計錯誤"
    print("✅ 文字統計測試通過")
    
    # 測試 2: 搜尋功能
    print("\n2. 測試文字搜尋模組")
    search_result = find_keyword(test_text, "Python")
    assert search_result['count'] == 4, "搜尋計數錯誤"
    assert len(search_result['positions']) == 4, "位置記錄錯誤"
    print("✅ 文字搜尋測試通過")
    
    # 測試 3: 轉換功能
    print("\n3. 測試文字轉換模組")
    lower_text = transform_case(test_text, 'lower')
    assert 'PYTHON' not in lower_text, "大小寫轉換失敗"
    print("✅ 文字轉換測試通過")
    
    # 測試 4: 格式化功能
    print("\n4. 測試文字格式化模組")
    aligned = align_text("Test", width=10, alignment='center')
    assert len(aligned.strip()) <= 10, "對齊寬度錯誤"
    print("✅ 文字格式化測試通過")
    
    # 測試 5: 分析功能
    print("\n5. 測試文字分析模組")
    sentence_analysis = analyze_sentences(test_text)
    assert sentence_analysis['sentence_count'] > 0, "句子分析失敗"
    print("✅ 文字分析測試通過")
    
    # 測試 6: 高階函式（Ch14 重點）
    print("\n6. 測試高階函式應用")
    lines = test_text.strip().split('\n')
    non_empty_lines = list(filter(lambda x: x.strip() != '', lines))
    assert len(non_empty_lines) == 4, "filter 函式應用錯誤"
    
    uppercase_lines = list(map(lambda x: x.upper(), non_empty_lines))
    assert all('PYTHON' in line for line in uppercase_lines), "map 函式應用錯誤"
    print("✅ 高階函式測試通過")
    
    # 測試 7: 遞迴功能（Ch15 重點）
    print("\n7. 測試遞迴功能")
    recursive_count = count_pattern_recursive(test_text, "Python")
    assert recursive_count == 4, "遞迴計數錯誤"
    print("✅ 遞迴功能測試通過")
    
    # 測試 8: 閉包功能（Ch13 重點）
    print("\n8. 測試閉包功能")
    transformer = create_text_transformer({
        'case_mode': 'lower',
        'remove_punctuation': True
    })
    transformed = transformer("Hello, World!")
    assert transformed == "hello world", "閉包轉換器錯誤"
    print("✅ 閉包功能測試通過")
    
    print("\n🎉 所有測試通過！工具箱功能正常。")

# 效能測試
def performance_test():
    """
    效能測試（選做）
    測試大文字處理的效能
    """
    import time
    
    # 生成大文字 (10MB)
    large_text = "Python is awesome! " * 500000
    
    print("⏱️ 開始效能測試...")
    
    start_time = time.time()
    stats = analyze_text_statistics(large_text)
    end_time = time.time()
    
    processing_time = end_time - start_time
    print(f"📊 處理 {len(large_text):,} 字元耗時: {processing_time:.2f} 秒")
    
    if processing_time < 5:  # 5秒內完成視為合格
        print("✅ 效能測試通過")
    else:
        print("⚠️ 效能需要優化")

## 📝 程式碼品質要求

### 1. 文件字串 (Docstring) 要求
- 所有函式必須有完整的文件字串
- 包含參數說明、回傳值說明、使用範例
- 遵循 Google Style 或 NumPy Style

### 2. 程式碼風格
- 遵循 PEP 8 規範
- 使用有意義的變數名稱
- 適當的註解說明複雜邏輯

### 3. 錯誤處理
- 處理空字串、None 等邊界情況
- 使用 try-except 處理可能的例外
- 提供有意義的錯誤訊息

### 4. 函式設計原則
- 單一職責原則：每個函式只做一件事
- 函式長度控制在 20-30 行內
- 避免全域變數，優先使用參數傳遞
- 盡量使用純函式（無副作用）

## 🎯 章節概念對應表

| 章節 | 核心概念 | 對應函式 | 展示重點 |
|:-----|:---------|:---------|:---------|
| **Ch12 函式設計基礎** | 模組化設計、參數處理、文件字串 | `create_text_toolkit()`, `analyze_text_statistics()` | 函式分解、介面設計 |
| **Ch13 作用域與生命週期** | 內嵌函式、閉包、變數作用域 | `create_text_transformer()`, `create_text_pipeline()` | 閉包實作、狀態保存 |
| **Ch14 高階函式與 Lambda** | map/filter/reduce、函式組合 | `apply_text_filters()`, `batch_transform_texts()` | 函式式程式設計 |
| **Ch15 遞迴思維** | 遞迴結構、終止條件、分治法 | `search_files_recursive()`, `count_pattern_recursive()` | 遞迴應用場景 |

## 📈 評分權重分配

| 評分項目 | 配分 | 詳細說明 |
|:---------|:-----|:---------|
| **基本功能實作** | 70% | 5個基本模組功能正常運作 |
| **Ch12-15 概念應用** | 20% | 各章節核心概念的正確展示 |
| **程式碼品質** | 10% | 文件、風格、錯誤處理、架構 |
| **進階功能** | +30% | 遞迴檔案處理、函式式程式設計等 |

**總分上限**: 130% (基本 100% + 進階 30%)

## 🚀 開發建議

### 開發順序建議:
1. **階段 1**: 實作基本統計模組（熟悉專案結構）
2. **階段 2**: 實作搜尋和轉換模組（核心功能）
3. **階段 3**: 實作格式化和分析模組（完善功能）
4. **階段 4**: 整合所有模組，建立主介面
5. **階段 5**: 實作進階功能（遞迴、高階函式）
6. **階段 6**: 測試、優化、文件完善

### 技術難點提示:
- **閉包應用**: 注意外層變數的正確引用
- **遞迴設計**: 確保有明確的終止條件
- **高階函式**: 理解 map/filter/reduce 的適用場景
- **錯誤處理**: 考慮各種邊界情況

### 除錯建議:
- 每完成一個函式立即測試
- 使用 `print()` 輸出中間結果除錯
- 從簡單範例開始，逐步增加複雜度
- 善用 Python 互動模式測試小片段程式碼

---

**祝你開發順利！記得展示每個章節的核心概念！**