# 10. Python 標準函式庫概覽 (Brief Tour of the Standard Library)

## 10.1 作業系統介面 (Operating System Interface)

* `os` 和 `shutil` 模組是 Python 進行檔案和系統管理的基礎。

* 這兩個模組功能相輔相成：

    * `os` 模組：提供了與作業系統互動的基礎功能，如路徑處理、目錄操作、執行命令等。

    * `shutil` 模組：提供了更高階的檔案操作，像是複製、移動、刪除整個目錄樹等，讓日常管理任務更簡單。

1. **作業系統介面 (`os` 模組)**

    * `os` 模組提供了數十個與作業系統溝通的函式。

    ```python
    import os

    # 1. 獲取目前的工作目錄 (Current Working Directory)
    >>> os.getcwd()
    'C:\\Python310'  # 範例輸出 (在 Windows 上)
    # 在 Linux/macOS 上可能是 '/home/user'

    # 2. 變更目前的工作目錄
    >>> os.chdir('/server/accesslogs')
    # 注意：路徑必須存在，否則會報錯

    # 3. 執行系統 shell 命令
    >>> os.system('mkdir today')  # 在 shell 中執行 'mkdir today' 命令
    0  # 傳回值 0 通常代表執行成功
    ```

    * 重要提醒： 務必使用 `import os` 而非 `from os import *`。這將避免因系統不同而有實作差異的 `os.open()` 覆蓋內建函式 `open()`。

    * `os` 模組的更多常用函式

    ```python
    # 4. 列出目錄內容
    # 會回傳一個包含所有檔案和子目錄名稱的清單 (list)
    >>> os.listdir('.')  # '.' 代表目前目錄
    ['data.db', 'archive.db', 'today', 'README.txt']

    # 5. 建立目錄
    >>> os.mkdir('new_project')  # 只能建立一層目錄，如果 'new_project' 已存在會報錯

    # 6. 遞迴建立多層目錄
    # 這非常有用，例如你想建立 'a/b/c'
    >>> os.makedirs('data/images/thumbnails', exist_ok=True)
    # exist_ok=True 是一個好用的參數，如果目錄已經存在，它不會報錯

    # 7. 刪除檔案
    >>> os.remove('data.db')

    # 8. 刪除 "空" 的目錄
    >>> os.rmdir('today')  # 如果 'today' 目錄不是空的，會報錯

    # 9. 獲取環境變數
    # 這在讀取 API 金鑰或設定時非常有用
    >>> os.getenv('PATH')
    '/usr/bin:/bin:/usr/sbin:...'
    >>> os.getenv('NON_EXISTENT_VAR')  # 如果變數不存在，回傳 None

    # 你也可以用 os.environ 字典來存取
    >>> os.environ['PATH']
    # (同上，但如果變數不存在，會拋出 KeyError)

    ```

    * `os.path`：處理路徑的關鍵子模組

        * 在 `os` 模組中，`os.path` 子模組對於處理檔案路徑至關重要，它能確保您的程式碼在 Windows, Linux 和 macOS 之間都能正確運作。
    
    ```python
    import os

    # 1. 智慧地拼接路徑 (非常重要！)
    # 這是跨平台寫作的標準做法，它會自動使用正確的分隔符 ('\' 或 '/')
    >>> path1 = os.path.join('data', 'images', 'photo.jpg')
    >>> print(path1)
    # Windows 輸出: 'data\\images\\photo.jpg'
    # Linux/macOS 輸出: 'data/images/photo.jpg'

    # 2. 檢查路徑是否存在 (檔案或目錄)
    >>> os.path.exists('data/images')
    True

    # 3. 檢查是否為檔案
    >>> os.path.isfile('data/images/photo.jpg')
    True

    # 4. 檢查是否為目錄
    >>> os.path.isdir('data/images')
    True

    # 5. 獲取檔案大小 (單位：bytes)
    >>> os.path.getsize('data/images/photo.jpg')
    123456  # 範例大小

    # 6. 拆分路徑
    >>> os.path.basename(path1)  # 獲取檔名
    'photo.jpg'
    >>> os.path.dirname(path1)   # 獲取目錄名
    'data/images'
    >>> os.path.split(path1)     # 將 (目錄, 檔名) 拆成一個 tuple
    ('data/images', 'photo.jpg')
    ```

2. 高階檔案操作 (`shutil` 模組)

    * 對於日常檔案和目錄管理任務，`shutil`（Shell Utilities）模組提供了更容易使用的高階介面。

    * 基礎操作

    ```python
    import shutil

    # 1. 複製檔案 (僅內容)
    >>> shutil.copyfile('data.db', 'archive.db')
    'archive.db'
    # 注意：copyfile 只複製內容，不包含檔案權限等元資料 (metadata)

    # 2. 移動 / 重新命名 檔案或目錄
    >>> shutil.move('/build/executables', 'installdir')
    'installdir'
    # 這也可以用來重新命名檔案：shutil.move('old_name.txt', 'new_name.txt')
    ```

    * `shutil` 模組的更多常用函式

    ```python
    # 3. 複製檔案 (更推薦)
    # copy 會嘗試保留檔案權限
    >>> shutil.copy('data.db', 'backup_folder/')
    # 如果第二個參數是目錄，它會將檔案複製到該目錄下

    # 4. 複製檔案 (包含所有元資料)
    # copy2 類似 copy，但會額外嘗試保留所有元資料，如最後修改時間
    >>> shutil.copy2('data.db', 'archive_full.db')
    'archive_full.db'

    # 5. 遞迴複製整個目錄樹
    # 這會將 'my_project' 目錄下的 "所有" 內容 (包含子目錄和檔案) 複製到 'project_backup'
    >>> shutil.copytree('my_project', 'project_backup')
    'project_backup'

    # 6. 遞迴刪除整個目錄樹
    # (!!!) 這是一個非常強大且危險的操作，請小心使用 (!!!)
    # 它會刪除 'old_project' 目錄及其包含的所有內容，無論目錄是否為空
    >>> shutil.rmtree('old_project')

    # 7. 尋找程式執行檔的路徑 (像 Linux 的 'which' 命令)
    >>> shutil.which('python')
    '/usr/bin/python' # 範例輸出
    >>> shutil.which('git')
    'C:\\Program Files\\Git\\bin\\git.exe' # 範例輸出
    ```

3. 學習與探索

    * 在使用 `os` 諸如此類大型模組時，搭配內建函式 `dir()` 和 `help()` 非常有用

    ```python
    >>> import os
    >>> import shutil

    # 查看模組提供了哪些功能
    >>> dir(os)
    <returns a list of all module functions>

    >>> dir(shutil)
    <returns a list of all module functions>

    # 查看特定功能的詳細說明文件 (docstrings)
    >>> help(os.path.join)
    <returns extensive help on how to use os.path.join>

    >>> help(shutil.copytree)
    <returns extensive help on how to use shutil.copytree>
    ```

4. 總結：

* `os`：處理路徑 (`os.path`)、讀取環境變數 (`os.getenv`)、建立/刪除空目錄 (`os.mkdir`, `os.rmdir`)、執行命令 (`os.system`)。

* `shutil`：處理檔案 (`shutil.copy2`, `shutil.move`)、處理非空目錄 (`shutil.copytree`, `shutil.rmtree`)。

* 最佳實踐：永遠使用 `os.path.join()` 來組合路徑，以確保您的程式碼可以跨平台執行。

## 10.2 檔案之萬用字元 (File Wildcards)

* `glob` 模組雖然小，但在需要批次處理檔案時非常實用。

* 檔案萬用字元 (`glob` 模組)

    * `glob` 模組提供了一個函式 `glob.glob()`，它可以使用類似 shell 在命令列中使用的「萬用字元」（Wildcards），來搜尋符合特定模式的檔案和目錄，並回傳一個包含所有匹配路徑的清單（list）。

    * 基礎操作
        
        * glob 最常見的用法：找出目前目錄下所有符合特定副檔名的檔案。

        ```python
        import glob

        # 找出所有以 .py 結尾的檔案
        >>> glob.glob('*.py')
        ['primes.py', 'random.py', 'quote.py'] # 範例輸出
        ```

* `glob` 模組的常用函式與用法

    * `glob` 主要就是 `glob()` 這個函式，但它的強大之處在於靈活運用不同的萬用字元。

1. 常用的萬用字元

    * `*` (星號): 代表 0 個或多個任意字元。

    * `?` (問號): 代表剛好 1 個任意字元。

    * `[]` (方括號): 代表匹配方括號中指定的任一字元。

    ```python
    # 範例 1: 使用 * 匹配多個字元

    # 找出所有 .txt 檔案
    >>> glob.glob('*.txt')
    ['log1.txt', 'notes.txt', 'readme.txt']

    # 找出所有檔名以 'data' 開頭的檔案
    >>> glob.glob('data*')
    ['data_2024.csv', 'data_2025.csv', 'database.db']

    # 找出檔名中包含 'report' 的檔案
    >>> glob.glob('*report*.pdf')
    ['final_report.pdf', 'report_summary.pdf', 'draft_report_v2.pdf']

    # ---

    # 範例 2: 使用 ? 匹配單一字元

    # 找出檔名為 'log' 加上 "剛好一個字元" 再加上 '.csv' 的檔案
    >>> glob.glob('log?.csv')
    # 會匹配到: 'log1.csv', 'logA.csv', 'log9.csv'
    # 不會匹配到: 'log10.csv' (因為 '10' 是兩個字元)

    # ---

    # 範例 3: 使用 [] 匹配特定字元

    # 找出檔名為 'file' 加上 '1' 或 '2' 或 '3' 的檔案
    >>> glob.glob('file[123].txt')
    # 會匹配到: 'file1.txt', 'file2.txt', 'file3.txt'

    # 使用連字號 '-' 表示範圍
    # 找出檔名為 'image' 加上 '0' 到 '5' 之間的數字
    >>> glob.glob('image[0-5].png')
    ['image0.png', 'image1.png', 'image3.png', 'image5.png']

    # 找出檔名為 'data' 加上 'a' 或 'b' 或 'c' 開頭的檔案
    >>> glob.glob('data[a-c]*.csv')
    ['data_apple.csv', 'data_banana.csv']
    ```

2. 遞迴搜尋 (搜尋子目錄)

    * 在 Python 3.5+ 中，`glob` 變得更加強大。你可以使用 `**` 搭配 `recursive=True` 參數來遞迴地搜尋所有子目錄。

    * `**`：代表匹配任意層級的目錄（包含 0 層，也就是目前目錄）。

    ```python
    # 範例 4: 遞迴搜尋所有 .py 檔案

    # 假設你有以下目錄結構:
    # .
    # ├── main.py
    # ├── project/
    # │   ├── __init__.py
    # │   └── utils.py
    # └── data/
    #     └── scripts/
    #         └── process.py

    # 在 "所有" 子目錄中找出 .py 檔案
    >>> glob.glob('**/*.py', recursive=True)
    [
    'main.py',
    'project/__init__.py',
    'project/utils.py',
    'data/scripts/process.py'
    ]

    # 範例 5: 只搜尋特定目錄下的所有 .csv 檔案

    # 找出 'data/' 目錄及其所有子目錄下的 .csv 檔案
    >>> glob.glob('data/**/*.csv', recursive=True)
    ['data/report_2024.csv', 'data/archive/2023/sales.csv']
    ```

3. 搭配 `os` 模組使用

    * `glob` 經常和 `os` 模組一起使用，例如 `os.path.join`，來建立跨平台的安全路徑。

    ```python
    import os

    # 假設你想搜尋 'C:\Users\MyUser\Documents' (Windows)
    # 或 '/home/MyUser/Documents' (Linux)
    search_path = os.path.join(os.getenv('HOME'), 'Documents', '*.pdf') # Linux/macOS
    # (在 Windows 上，你可能需要用 os.getenv('USERPROFILE'))

    # glob 會正確處理組合好的路徑
    >>> glob.glob(search_path)
    ['/home/MyUser/Documents/resume.pdf', '/home/MyUser/Documents/manual.pdf']
    ```

4. `iglob`：迭代器版本

    * 如果預期匹配的檔案非常多（例如數十萬個），使用 `glob.glob()` 會一次將所有路徑載入記憶體，可能消耗大量資源。

    * 這時，可以使用 `glob.iglob()`，它會回傳一個迭代器 (iterator)。迭代器允許你一次只處理一個檔案路徑，更節省記憶體。

    ```python
    # 範例 6: 處理大量日誌檔案

    # 找出 'logs/' 目錄下所有的 .log 檔案
    # 假設這裡有 100,000 個檔案
    file_iterator = glob.iglob('logs/*.log')

    # 這不會立刻載入所有檔名，而是等到 for 迴圈需要時才一個個抓
    for filepath in file_iterator:
        # 逐一處理檔案，例如讀取並分析
        print(f"Processing: {filepath}")

    # 這在遞迴搜尋時也同樣適用
    recursive_iterator = glob.iglob('**/*.tmp', recursive=True)
    for f in recursive_iterator:
        print(f"Deleting temp file: {f}")
        # os.remove(f) # 範例：可以搭配 os.remove 刪除
    ```

* 總結：

    * `glob` 是你在 Python 中需要尋找符合特定模式的檔案時的首選工具。

        * 用 `*`, `?`, `[]` 來定義你的搜尋模式。

        * 當需要深入子目錄時，使用 `**` 配合 `recursive=True`。

        * 當預期檔案數量非常多時，使用 `iglob()` 來節省記憶體。

## 10.3. 命令列引數 (Command Line Arguments)

當您在終端機執行一個 Python 腳本時，您可以在腳本名稱後面加上額外的資訊，這些就是「命令列引數」。

1. 基本方式：`sys.argv` 模組

* `sys` 模組是 Python 內建的系統相關模組。它有一個 `argv` 屬性 (argument vector)，這是一個字串列表 (list)，包含了所有傳遞給腳本的引數。

    * `sys.argv[0]`：永遠是腳本自己的名稱。

    * `sys.argv[1]`：是第一個引數。

    * `sys.argv[2]`：是第二個引數，以此類推。

* `sys.argv` 的缺點：
    * 所有引數都是字串，需要手動轉型別和錯誤處理。

    * 難以處理「選用引數」(optional arguments) 或「旗標」(flags)，例如 `-l` 或 `--lines`。

    * 需要手動撰寫說明文件 (例如 `-h` 或 `--help`)。


2. 進階且推薦的方式：`argparse` 模組

* `argparse` 模組（Python 內建）是處理命令列引數的黃金標準。它讓您定義腳本需要哪些引數，然後它會自動從 `sys.argv` 中解析這些引數，並免費提供強大的功能：

    * 自動進行型別轉換 (如 `type=int`)。

    * 設定預設值 (如 `default=10`)。

    * 自動產生 `-h` 或 `--help` 說明訊息。

    * 輕鬆處理「位置引數」(Positional) 和「選用引數」(Optional)。

In [None]:
# 範例
# 以下腳本可擷取一個或多個檔案名稱，並可選擇要顯示的行數：

# top.py
import argparse

# 1. 建立解析器 (Parser)
parser = argparse.ArgumentParser(
    prog='top',    # 程式名稱 (顯示在 help 訊息中)
    description='從每個檔案中顯示開頭的幾行'    # 程式描述
)

# 2. 新增引數
# 'filenames' 是一個 "位置引數" (Positional Argument)
# 位置引數是必要的 (除非有特殊設定)
parser.add_argument('filenames',
                    nargs='+',  # nargs='+' 代表 "1 個或多個"
                    help='要處理的檔案名稱列表')

# '--lines' 是一個 "選用引數" (Optional Argument)
# 因為它以 '-' 或 '--' 開頭
parser.add_argument('-l', '--lines',    # '-l' 是簡寫, '--lines' 是全名
                    type=int,           # 自動將輸入值轉為 int
                    default=10,         # 如果使用者未提供此引數，預設值為 10
                    help='要顯示的行數 (預設: 10)')

# 3. 解析引數
# parse_args() 會自動從 sys.argv 讀取引數
args = parser.parse_args()

# 4. 使用引數
print(args) # args 是一個物件，儲存了所有解析後的引數

# --- 實際應用 ---
print(f"\n將顯示 {args.lines} 行，從 {len(args.filenames)} 個檔案中：")
for filename in args.filenames:
    print(f"正在處理 {filename}...")
    # (此處可以加入 open(filename) ... 等實際讀取檔案的程式碼)


執行結果：

* 執行 `python top.py --lines=5 alpha.txt beta.txt`

    * `argparse` 會解析 `sys.argv` (`['top.py', '--lines=5', 'alpha.txt', 'beta.txt']`)

    * `print(args)` 的輸出會是：`Namespace(filenames=['alpha.txt', 'beta.txt'], lines=5)`

    * `args.lines` 會是 `5` (int)

    * `args.filenames` 會是 `['alpha.txt', 'beta.txt']` (list)

* 執行 `python top.py notes.txt` (不提供 `--lines`)

    * `print(args)` 的輸出會是：`Namespace(filenames=['notes.txt'], lines=10)`

    * `args.lines` 會使用預設值 `10`


* `argparse` 的強大之處：免費的 `--help` 訊息

    * 如果您執行 `python top.py --help` 或 `python top.py -h`，`argparse` 會自動產生說明文件：

    ```
    usage: top [-h] [-l LINES] filenames [filenames ...]

    從每個檔案中顯示開頭的幾行

    positional arguments:
    filenames             要處理的檔案名稱列表

    options:
    -h, --help            show this help message and exit
    -l LINES, --lines LINES
                        要顯示的行數 (預設: 10)
    ```

* `argparse` 的更多實用範例

**範例 1：布林旗標 (Boolean Flag / Switch)**

* 有時候您只需要一個「開關」，例如 `--verbose` (囉嗦模式) 或 `--quiet` (安靜模式)。

In [None]:
import argparse
parser = argparse.ArgumentParser()

# action='store_true' 的意思是：
# 如果提供了 -v 或 --verbose，就將 args.verbose 設為 True
# 如果沒提供，預設為 False
parser.add_argument('-v', '--verbose',
                    action='store_true',
                    help='開啟詳細資訊模式')

args = parser.parse_args()

if args.verbose:
    print("詳細模式已開啟。")
else:
    print("標準模式。")


* 執行 `python script.py` -> 輸出: `標準模式。` (`args.verbose` 是 `False`)

* 執行 `python script.py -v` -> 輸出: `詳細模式已開啟。` (`args.verbose` 是 `True`)

**範例 2：限定選項 (Choices)**

* 您可以限制引數只能是某幾個特定的值。

In [None]:
import argparse
parser = argparse.ArgumentParser()

parser.add_argument('--mode',
                    choices=['dev', 'prod', 'test'],    # 只能是這三者之一
                    default='dev',
                    help='設定執行模式')

args = parser.parse_args()
print(f"目前模式: {args.mode}")

* 執行 `python script.py --mode prod` -> 輸出: `目前模式: prod`

* 執行 `python script.py --mode staging`

    * `argparse` 會自動報錯並退出：

    * `usage: script.py [-h] [--mode {dev,prod,test}]`

    * `script.py: error: argument --mode: invalid choice: 'staging' (choose from 'dev', 'prod', 'test')`

總結：

* `sys.argv`：簡單、快速，適用於只有一兩個簡單引數的小腳本。

* `argparse`：功能強大、穩健，是撰寫任何「工具型」或「給他人使用」的腳本時的標準首選。它能自動處理型別、預設值、錯誤和說明文件。

## 10.4. 錯誤輸出重新導向與程式終止 (Error Output Redirection and Program Termination)

* `sys` 模組提供了三個標準的「I/O 串流」(stream)，它們是 Python 與終端機溝通的橋樑：

    * `sys.stdin` (標準輸入): 預設是您的鍵盤。`input()` 函式就是從這裡讀取資料。

    * `sys.stdout` (標準輸出): 預設是您的螢幕。`print()` 函式預設會將內容寫入到這裡。

    * `sys.stderr` (標準錯誤輸出): 預設也是您的螢幕。它專門用來輸出警告和錯誤訊息。

1. `stdout` 與 `stderr` 的區別 (為何重要)

    * `stdout` 用於程式的「正常」輸出 (結果)，而 `stderr` 用於錯誤、警告或日誌訊息。

    * 這樣區分的最大好處是，您可以將「乾淨的資料」和「吵雜的錯誤訊息」分開。

基礎範例：

* 即使您將 `stdout` 重新導向（例如存到檔案中），`stderr` 仍然會顯示在您的螢幕上，讓您能即時看到問題。

```python
>>> import sys

# 試著寫入一條警告訊息到 "標準錯誤"
>>> sys.stderr.write('Warning, log file not found starting a new one\n')
Warning, log file not found starting a new one
```

注意：`.write()` 是個較低階的函式，它不會自動換行，所以我們手動加上 `\n`。

實戰範例：重新導向

* 讓我們建立一個腳本 `demo.py` 來看看實際效果：
```python
# demo.py
import sys

# 1. 寫入 "標準輸出" (正常的資料)
sys.stdout.write("這是正常的資料輸出 (stdout)\n")

# 2. 寫入 "標準錯誤" (錯誤/警告)
sys.stderr.write("這是一個錯誤訊息 (stderr)\n")

# 3. 再次寫入 "標準輸出"
sys.stdout.write("這是另一筆正常的資料 (stdout)\n")
```

在您的終端機 (命令列) 中執行：

* **情況 1：正常執行**
    * 如果您直接執行它，`stdout` 和 `stderr` 都會印在螢幕上：

    ```bash
    $ python demo.py
    這是正常的資料輸出 (stdout)
    這是一個錯誤訊息 (stderr)
    這是另一筆正常的資料 (stdout)
    ```

* **情況 2：重新導向**
    * `stdout` (關鍵！) 使用 `>` 符號，您可以將 `stdout` 的內容「重新導向」到一個檔案中，例如 `data.txt`。

    ```bash
    $ python demo.py > data.txt
    ```

    * 執行結果：

        * 在您的螢幕上 (終端機)：
            ```
            這是一個錯誤訊息 (stderr)
            ```
            * (注意！只有 `stderr` 的訊息出現了，讓您立刻看到發生了錯誤。)

        * 在 `data.txt` 檔案中：
            ```
            這是正常的資料輸出 (stdout)
            這是另一筆正常的資料 (stdout)
            ```
            * (檔案中只包含「乾淨」的資料，沒有被錯誤訊息汙染。)

**`print()` 的進階用法 (更推薦)**

* 在 Python 3+，您不需要使用 `sys.stderr.write()`。`print()` 函式有一個 `file` 參數，讓您可以輕鬆地將訊息印到 `stderr`：

```python
import sys

print("這是一筆正常資料。") # 預設 file=sys.stdout
print("錯誤：找不到必要的設定！", file=sys.stderr)
print("處理完成。")
```

* 這是在 Python 中印出錯誤訊息的最佳實踐。

2. 程式終止 (`sys.exit()`)

* 終止腳本最直接的方式就是利用 `sys.exit()`。

    * 當您的程式遇到無法繼續的嚴重錯誤時（例如：必要的檔案不存在、網路連線失敗），您應該使用 `sys.exit()` 來立即停止腳本執行。

    * 更重要的是：`sys.exit()` 可以傳回一個「結束代碼」(Exit Code)。

        * 結束代碼 `0`：代表成功。

        * 非 0 的數字 (通常是 `1`)：代表失敗或錯誤。

    * 這對於其他程式或 shell 腳本來說非常有用，它們可以根據您的腳本是成功 (0) 還是失敗 (非 0) 來決定下一步要做什麼。

In [None]:
# check_file.py
import sys
import os

# 檢查使用者是否提供了足夠的引數 (至少 1 個)
if len(sys.argv) < 2:
    print(f"用法錯誤: {sys.argv[0]} <filename>", file=sys.stderr)
    sys.exit(1) # 傳回錯誤代碼 1，代表 "用法錯誤"

# 獲取檔名
filename = sys.argv[1]

# 檢查檔案是否存在
if not os.path.exists(filename):
    print(f"錯誤: 檔案 '{filename}' 不存在。", file=sys.stderr)
    sys.exit(2) # 傳回錯誤代碼 2，代表 "檔案找不到"

# 如果一切正常...
print(f"成功: 檔案 '{filename}' 存在。")
sys.exit(0) # 傳回成功代碼 0

在終端機中執行：

* 情況 1：用法錯誤

    ```
    $ python check_file.py
    用法錯誤: check_file.py <filename>
    ```

* 情況 2：檔案不存在

    ```
    $ python check_file.py non_existent_file.txt
    錯誤: 檔案 'non_existent_file.txt' 不存在。
    ```

* 情況 3：成功 (假設您有一個 `demo.py` 檔案)

    ```
    $ python check_file.py demo.py
    成功: 檔案 'demo.py' 存在。
    ```

* 在 Linux/macOS 中，您可以用 `echo $?` 來查看上一個命令的結束代碼；
* 在 Windows 中用 `echo %ERRORLEVEL%`。這在自動化腳本中非常有用。

總結：

* 使用 `print(..., file=sys.stderr)` 來輸出錯誤和警告。

* 使用 `sys.exit(0)` 來表示腳本成功結束。

* 使用 `sys.exit(非 0 數字)` 來表示腳本因錯誤而終止。

## 10.5. 字串樣式比對 (String Pattern Matching)

* `re`（正規表示式）是一個極其強大的工具，

    * 但「殺雞焉用牛刀」，如果簡單的字串方法 (string methods) 能解決問題，就應該優先使用它們。

* 在 Python 中處理字串時，您有兩種主要的選擇：

    1. **字串內建方法 (String Methods)**：用於固定的、簡單的字串操作（如替換、尋找、分割）。可讀性高，易於除錯。

    2. **`re` 模組 (正規表示式)**：用於複雜的、模式(Pattern)導向的比對與操作（如驗證 Email 格式、擷取所有數字、移除重複的單字）。

1. 基礎：字串內建方法 (String Methods)

    * 當您只需要處理簡單、固定的字串時，使用字串本身的方法是比較建議的，因為可讀性高。

In [None]:
'tea for too'.replace('too', 'two')

'tea for two'

In [None]:
text = "  Hello, World! Welcome to Python.  "

# 1. .strip() - 移除開頭和結尾的空白
print(text.strip())

# 2. .startswith() / .endswith() - 檢查開頭/結尾
print(text.strip().startswith('Hello'))
print(text.strip().endswith('Java'))

# 3. .find() - 尋找子字串的 "第一個" 索引
print(text.find('World'))   # 'W' 在索引 9 的位置
print(text.find('Mars'))    # 找不到時回傳 -1

# 4. .split() - 用 "固定" 的分隔符號分割字串
csv_line = "apple,banana,orange"
print(csv_line.split(','))

# 5. .lower() / .upper() - 轉換大小寫
print("Python".lower())

Hello, World! Welcome to Python.
True
False
9
-1
['apple', 'banana', 'orange']
python


何時會不夠用？ 如果您想「用逗號 或 分號」來分割，`split()` 就做不到了。這時 `re` 就派上用場了。

2. 進階：正規表示式 (`re` 模組)

    * `re` 模組提供正規表示式 (Regular Expression) 來做進階的字串處理。
        
        * 當要處理複雜的比對以及基於模式的操作時，正規表示式是簡潔且經過最佳化的解決方案。

    * 一個重要提示： 在 Python 中定義 regex 模式時，請一律使用「原始字串」(Raw String)，在字串前加上 `r` (例如 `r'\n'` 而非 `'\n'`)。 這能防止 Python 誤解 `\` 符號（例如 `\b` 在 Python 字串中是「退格鍵」，但在 regex 中是「單字邊界」）。使用 `r'\b'` 能確保它被當作 regex 的 `\b`。

In [None]:
import re

# 1. re.findall() - 找出所有匹配的字串
# 模式 r'\bf[a-z]*' 的意思是：
# \b : 必須是 "單字邊界" (word boundary)，確保 'f' 是一個單字的開頭
# f  : 必須以 'f' 開頭
# [a-z]* : 後面跟著 0 個或多個 ( * ) 小寫字母 ( [a-z] )
print(re.findall(r'\bf[a-z]*', 'which foot or hand fell fastest'))

# (如果沒有 \b，它也會匹配到 'which' 裡面的 'hich'，如果模式是 r'h[a-z]*')

# 2. re.sub() - 搜尋並替換
# 模式 r'(\b[a-z]+) \1' 的意思是：
# (\b[a-z]+) : ( ) 是一個 "擷取組 (Group 1)"。
#             \b[a-z]+ 匹配一個 "完整的單字"
#            : 後面跟著一個空格
# \1         : "反向參考 (backreference)"，代表「必須匹配跟 Group 1 完全一樣的內容」
#
# 替換 r'\1' 的意思是：
# 把 "單字 + 空格 + 重複的單字" (例如 'the the') 替換成 "只有 Group 1 的內容" (例如 'the')
print(re.sub(r'(\b[a-z]+) \1', r'\1', 'cat in the the hat'))

['foot', 'fell', 'fastest']
cat in the hat


**`re` 模組的更多常用函式與用法**



1. `re.search(pattern, string)` - 尋找「第一個」匹配項

    * `re.search()` 會掃描整個字串，並回傳第一個匹配的「Match 物件」，如果找不到則回傳 `None`。
    
        * 這非常適合用來「驗證」字串是否包含某種模式。

In [None]:
text = "User's email is example@domain.com, please contact him."

# 模式：(一個或多個單字字元) + @ + (一個或多個單字字元) + . + (一個或多個單字字元)
# \w+ : 1 個以上的 [a-zA-Z0-9_]
# \.  : 匹配真正的 '.' 符號 (因為 '.' 在 regex 中是特殊字元)
pattern = r'[\w.-]+@[\w.-]+\.[\w]+'

match = re.search(pattern, text)

if match:
    print(f"找到了 Email: {match.group(0)}") # .group(0) 或 .group() 回傳完整匹配的字串
else:
    print("沒有找到 Email。")

找到了 Email: example@domain.com


2. `re.match(pattern, string)` - 從「開頭」開始匹配

    * `re.match()` 只會從字串的開頭（索引 `0`）開始嘗試匹配。如果開頭不符，就立刻回傳 `None`。

        * 這適合用來「驗證」整個字串是否符合特定格式。

In [None]:
# 範例：驗證 SKU (商品編號) 是否為 'SKU-12345' 格式
pattern = r'SKU-\d{5}' # \d{5} 代表 5 個數字

a = re.match(pattern, 'SKU-12345')
# <re.Match object; span=(0, 9), match='SKU-12345'>
print(a)

b = re.match(pattern, 'Product SKU-12345') # 開頭不是 'SKU'
# None # 匹配失敗
print(b)

# re.search 則會在中間找到
c = re.search(pattern, 'Product SKU-12345')
# <re.Match object; span=(8, 17), match='SKU-12345'>
print(c)

<re.Match object; span=(0, 9), match='SKU-12345'>
None
<re.Match object; span=(8, 17), match='SKU-12345'>


3. `re.split(pattern, string)` - 用「模式」分割

    * 這比 `str.split()` 強大。您可以用「多種」或「不固定」的分隔符來分割。

In [None]:
text = "apple,banana;cherry orange\tgrape" # 混雜了 4 種分隔符

# 模式 r'[,\s;]+' 的意思是：
# [,\s;] : 匹配 ',' 或 ' ' (空白) 或 '\t' (Tab) 或 ';'
# +       : 匹配 1 次或多次 (這可以處理 'apple,,banana' 這樣連續的分隔符)
# (\s 代表任何空白字元，包含空格、Tab、換行)

re.split(r'[,\s;]+', text)

['apple', 'banana', 'cherry', 'orange', 'grape']

4. `re.sub(pattern, replacement, string)` - 強大的替換

    * `re.sub()` 可以用模式來替換。

In [None]:
# 範例：將所有 "數字" 替換為 [REDACTED]
text = "My phone is 0912-345-678, my order ID is 98765."

# \d+ : 匹配 1 個或多個連續的數字
a = re.sub(r'\d+', '[REDACTED]', text)
print(a)

# 範例：只替換連字號
b = re.sub(r'-', ' ', text)
print(b)

My phone is [REDACTED]-[REDACTED]-[REDACTED], my order ID is [REDACTED].
My phone is 0912 345 678, my order ID is 98765.


5. `re.findall(pattern, string)` - 找出「所有」匹配項

    * 這是擷取資料最好用的函式之一。

In [None]:
# 範例：從一段文字中擷取所有的 "標籤" (Hashtags)
text = "This is a #great day for #Python and #Regex! #learning"

# 模式 r'#\w+' 的意思是：
# # : 匹配 '#' 符號
# \w+ : 匹配 1 個或多個 "單字字元" (字母, 數字, 底線)
re.findall(r'#\w+', text)

['#great', '#Python', '#Regex', '#learning']

**總結建議**

1. 優先使用字串方法：如果您的需求是「把 'A' 換成 'B'」、「檢查是否以 'http' 開頭」、「用 ',' 分割」，請使用 `.replace()`, `.startswith()`, `.split()`。

2. 升級到 `re` 模組：當您的需求變成：

    * 「把『重複的單字』換成『單個單字』」 (-> `re.sub`)

    * 「檢查是否 看起來 像一個 Email」 (-> `re.search`)

    * 「用『逗號、分號或空格』分割」 (-> `re.split`)

    * 「找出所有『$』符號後面的數字」 (-> `re.findall`)

## 10.6. 數學相關 (Mathematics)

Python 在其「標準函式庫」中內建了許多強大的**數學**、**隨機數**和**統計模組**。

1. **`math` 模組 (數學運算)**

    * `math` 模組提供了 C 函式庫中底層的浮點數運算的函式。
    * 它專注於**精確的浮點數數學**，但不包含複數 (complex numbers，複數有專門的 `cmath` 模組)。

In [None]:
import math

# 三角函數 (cos)，參數是 "弧度" (radians)
print(math.cos(math.pi / 4))   # math.pi 是圓周率 (π)

# 對數 (Logarithm)
print(math.log(1024, 2)) # 1024 以 2 為底的對數 (log₂(1024))


0.7071067811865476
10.0


In [None]:
# --- 常用常數 ---
math.pi # 圓周率 π
# 3.141592653589793
math.e  # 自然常數 e
# 2.718281828459045

# --- 取整數相關 ---

# 4. ceil() (Ceiling)：無條件進位，取 "大於等於" x 的最小整數
math.ceil(5.2)
# 6
math.ceil(-5.8) # 注意負數
# -5

# 5. floor()：無條件捨去，取 "小於等於" x 的最大整數
math.floor(5.8)
# 5
math.floor(-5.2) # 注意負數
# -6

# 6. trunc() (Truncate)：無條件捨去 "小數部分"，只取整數 (朝向 0)
math.trunc(5.8)
# 5
math.trunc(-5.2)
# -5

# --- 冪次與開方 ---

# 7. sqrt() (Square Root)：開平方根
math.sqrt(64)
# 8.0

# 8. pow(x, y)：計算 x 的 y 次方 (等同於 x ** y，但 math.pow 恆定回傳 float)
math.pow(2, 10)
# 1024.0

# 9. exp(x)：計算 e 的 x 次方 (e**x)
math.log(math.e) # log(e)
# 1.0

# --- 角度轉換 (非常重要) ---
# math 的三角函數 (sin, cos, tan) 預設都使用 "弧度" (radians)，
# 但我們日常習慣用 "角度" (degrees)，因此需要轉換。

# 10. radians()：將 "角度" 轉為 "弧度"
math.radians(180) # 180 度 = π 弧度
# 3.141592653589793

# 11. degrees()：將 "弧度" 轉為 "角度"
math.degrees(math.pi)
# 180.0

# 實用範例：計算 90 度的 sin 值
math.sin(math.radians(90)) # 先把 90 度轉為弧度
# 1.0

# --- 其他 ---

# 12. factorial(n)：計算 n 的階乘 (n!)
math.factorial(5) # 5 * 4 * 3 * 2 * 1
# 120

# 13. gcd(a, b)：計算 a 和 b 的最大公因數
math.gcd(80, 64)
# 16

16

2. **`random` 模組 (隨機選擇)**

    * `random` 模組提供了產生各種隨機數的工具。

In [None]:
import random

# 1. choice(seq)：從一個序列 (list, tuple) 中隨機選 1 個元素
random.choice(['apple', 'pear', 'banana'])
# 'apple' # 範例輸出

# 2. sample(population, k)：從 population 中隨機選出 k 個 "不重複" 的元素
random.sample(range(100), 10)   # 從 0~99 中選 10 個不重複的
# [30, 83, 16, 4, 8, 81, 41, 50, 18, 33] # 範例輸出

# 3. random()：產生 0.0 <= X < 1.0 之間的一個隨機浮點數
random.random()
# 0.17970987693706186 # 範例輸出

# 4. randrange(stop)：從 range(stop) [即 0 到 stop-1] 中隨機選 1 個整數
random.randrange(6) # 等同於 choice([0, 1, 2, 3, 4, 5])
# 4 # 範例輸出

2

In [None]:
# random 模組的更多常用函式與用法：

# 5. randint(a, b)：產生 a <= X <= b 之間的一個隨機整數 (包含 a 和 b)
# (這和 randrange(a, b) 不同，randrange 不包含 b)
random.randint(1, 6) # 模擬擲骰子 (1, 2, 3, 4, 5, 6)
# 3 # 範例輸出

# 6. shuffle(list)："原地" 打亂一個 list 的順序 (In-place)
# (注意：這個函式 "沒有" 回傳值，它直接修改原來的 list)
cards = ['A', 'K', 'Q', 'J']
random.shuffle(cards)
# ['Q', 'A', 'J', 'K'] # 範例輸出

# 7. uniform(a, b)：產生 a <= X <= b 之間的一個隨機浮點數
random.uniform(1.5, 10.0)
# 8.345... # 範例輸出 (等同於 random.random() 的指定範圍版本)

# 8. seed(a)：設定隨機數種子
# 預設情況下，random 模組使用目前系統時間當種子，所以每次執行都不同。
# 如果你設定了 "種子"，那麼 "接下來" 產生的隨機數序列將會是固定的。
# 這在除錯或需要 "可重現" 的隨機性時非常有用。

random.seed(10)
random.random()
# 0.5714025946899135
random.random()
# 0.4288890546751146
# --- 重新執行 ---
random.seed(10) # 只要種子相同
random.random() # 第一次 random 必是 0.5714...
# 0.5714025946899135
random.random() # 第二次 random 必是 0.4288...
# 0.4288890546751146

0.4288890546751146

3. **`statistics` 模組 (基本統計)**

    * `statistics` 模組提供了替數值資料計算基本統計量（包括平均、中位數、變異量數等）的功能。

In [None]:
import statistics

data = [2.75, 1.75, 1.25, 0.25, 0.5, 1.25, 3.5]

# 1. mean()：計算平均數
statistics.mean(data)
# 1.6071428571428572

# 2. median()：計算中位數 (資料排序後的正中間值)
statistics.median(data)
# 1.25

# 3. variance()：計算樣本變異數
statistics.variance(data)
# 1.3720238095238095

1.3720238095238095

In [None]:
# statistics 模組的更多常用函式與用法：
data = [1, 2, 2, 3, 4, 5, 10]
data_with_mode = [1, 5, 2, 8, 5, 3, 5, 1]

# 4. stdev() (Standard Deviation)：計算樣本標準差
# (標準差就是 "變異數的平方根"，描述資料的離散程度)
statistics.stdev(data)
# 2.943920288775949

# (驗證： math.sqrt(statistics.variance(data)) == statistics.stdev(data))

# 5. mode()：計算眾數 (資料中出現最多次的數)
statistics.mode(data_with_mode)
# 5 # (因為 5 出現了 3 次，最多)
# statistics.mode([1, 2, 3]) # (如果沒有眾數，會引發 StatisticsError)

# 6. fmean()：計算浮點數平均值 (Python 3.8+ 新增)
# (它和 mean() 類似，但速度更快，且會先將所有資料轉為 float)
statistics.fmean(data)
# 3.857142857142857

# 7. median_low() / median_high()：處理中位數 (當資料個數為 "偶數" 時)
even_data = [1, 2, 3, 4, 5, 100]
# 排序後: [1, 2, 3, 4, 5, 100]
# 中間是 3 和 4

statistics.median(even_data) # 預設是取兩者平均
# 3.5

statistics.median_low(even_data) # 取較小的那一個
# 3

statistics.median_high(even_data) # 取較大的那一個
# 4

4

* 如果需要進行更複雜的數值計算，例如矩陣運算、訊號處理或科學計算， `NumPy` 和 `SciPy` 專案 (https://scipy.org) 才是更專業的工具。

## 10.7. 網路存取 (Internet Access)

PASS

## 10.8. 日期與時間 (Dates and Times)

PASS

## 10.9. 資料壓縮 (Data Compression)

PASS

## 10.10. 效能量測 (Performance Measurement)

* 兩種不同層級的效能分析工具：

    1. `timeit`：用於「微觀」的效能測試，精確測量小程式碼片段 (snippets) 的執行速度。

    2. `profile` / `pstats`：用於「宏觀」的效能分析，找出大型程式中的效能瓶頸（時間關鍵區塊）。

1. `timeit` 模組 (微觀效能測試)

    * `timeit` 模組專門用於精確測量小段程式碼的執行時間。它比您自己手動記錄「開始時間」和「結束時間」要準確得多，因為它會：

        * 重複執行程式碼非常多次（預設 100 萬次）來取平均值，消除單次運行的隨機干擾。

        * 在測試期間暫時關閉「垃圾回收」(Garbage Collection, GC)機制，避免 GC 突然啟動影響測試結果。

        

In [None]:
# 這個範例比較了兩種交換變數的方式：(a) 傳統的暫存變數 vs. (b) Python 的 tuple 打包機制。

from timeit import Timer

# 1. 傳統方式
# stmt (statement): 要測量的程式碼
# setup: 測試 "之前" 執行一次的準備程式碼
t_traditional = Timer('t=a; a=b; b=t', 'a=1; b=2')
t_traditional.timeit() # 預設執行 1,000,000 次
#0.57535828626024577 # (範例：總共花了 0.575 秒)

# 2. Tuple 交換方式
t_tuple = Timer('a,b = b,a', 'a=1; b=2')
t_tuple.timeit()
#0.54962537085770791 # (範例：總共花了 0.549 秒)

# 結論： 從這個快速測試中，我們可以看到 tuple 交換 (a,b = b,a) 的效能略微進步 (速度稍快)。

0.01333106600031897

* `timeit` 模組的更多常用函式與用法

    * `timeit` 模組提供了一個更簡單的函式 `timeit.timeit()`，它封裝了 `Timer` 物件，使用起來更方便。

        * `timeit.timeit(stmt, setup, number=1000000)`

In [None]:
# 範例 1：for 迴圈 vs. 列表推導式 (List Comprehension)

import timeit

# 1. 準備程式碼：建立一個 1000 個數字的 range
# (注意：setup 中的變數 'items' 在 stmt 中可以存取到)
setup_code = "items = range(1000)"

# 2. 要測量的程式碼 (stmt1)：使用 for 迴圈
stmt_loop = """
new_list = []
for i in items:
    new_list.append(i * i)
"""

# 3. 要測量的程式碼 (stmt2)：使用列表推導式
stmt_comprehension = "[i * i for i in items]"

# --- 開始測試 ---
# 為了讓結果更明顯，我們設定 number=10000 (執行 1 萬次)

# 測試 for 迴圈
timeit.timeit(stmt=stmt_loop, setup=setup_code, number=10000)
# 0.435... # (範例：花了 0.435 秒)

# 測試列表推導式
timeit.timeit(stmt=stmt_comprehension, setup=setup_code, number=10000)
# 0.218... # (範例：花了 0.218 秒)

# 結論： 列表推導式在建立新列表時，效能幾乎是 for 迴圈的兩倍快。

0.36798930700024357

In [None]:
# 範例 2：字串串接 ( + vs. join )

import timeit

# 準備程式碼：一個包含 1000 個短字串的列表
setup_code = "words = ['hello'] * 1000"

# 方式 1：使用 += 迴圈
stmt_plus = """
s = ''
for w in words:
    s += w
"""

# 方式 2：使用 .join()
stmt_join = "''.join(words)"

# --- 開始測試 --- (執行 1 萬次)
timeit.timeit(stmt=stmt_plus, setup=setup_code, number=10000)
# 0.085... # (範例：花了 0.085 秒)

timeit.timeit(stmt=stmt_join, setup=setup_code, number=10000)
# 0.009... # (範例：花了 0.009 秒)

# 結論： 在處理大量字串串接時，.join() 的效能比 += 迴圈快了近 10 倍。

0.14979837100054283

In [None]:
# 範例 3：使用 repeat 參數
# .timeit() 只執行一次測試 (包含 100 萬次運算)。但有時您可能想執行「多次測試」來檢查結果是否穩定。這時可以使用 Timer 物件的 .repeat() 方法。

from timeit import Timer

t = Timer('a,b = b,a', 'a=1; b=2')

# repeat=5: 執行 5 次完整的 timeit 測試
# number=1000000: 每次測試中，stmt 執行 100 萬次
t.repeat(repeat=5, number=1000000)
# [0.551, 0.548, 0.549, 0.552, 0.547] # (範例：回傳一個包含 5 次結果的 list)

# 這可以幫助您取 min() (最快的一次，通常最接近真實效能) 或 mean() (平均) 來得到更可靠的數據。

[0.011003795999386057,
 0.01216975899933459,
 0.011304022999865992,
 0.012442052000551485,
 0.011868525999489066]

2. **`profile` 與 `pstats` 模組 (宏觀效能分析)**

* 相對於 `timeit` 模組提供這麼細的粒度 (granularity)，`profile`（或更快的 `cProfile`）模組則提供了不同的功能：分析您的完整程式。

* 當您的程式碼很龐大且執行緩慢時，您通常不知道「瓶頸」在哪裡。`profile` 模組會執行您的整個腳本，並產生一份詳細報告，告訴您：

    * 哪個函式被呼叫了最多次？

    * 哪個函式（包含它呼叫的子函式）總共花了最多時間？

    * 哪個函式「本身」花了最多時間？

* `pstats` 模組則是 用來讀取和分析 `profile` 產生的報告的工具。

如何使用 (簡易範例)：

* 假設您有一個很慢的腳本 `my_slow_script.py`。

* 步驟 1：在終端機中執行 `cProfile`. `cProfile` 會執行您的腳本，並將分析報告儲存到 `output.prof` 檔案中。

```bash
$ python -m cProfile -o output.prof my_slow_script.py
```

* 步驟 2：使用 `pstats` 分析報告 在 Python 解譯器中：

```python
import pstats
from pstats import SortKey

# 1. 讀取報告檔案
p = pstats.Stats('output.prof')

# 2. 排序並印出報告
# .sort_stats() 可以用 'cumulative' (累計時間) 或 'tottime' (函式自身時間) 排序
# .print_stats(10) 只印出前 10 名
p.sort_stats(SortKey.CUMULATIVE).print_stats(10)
```

* 這將會印出一個表格，顯示您的程式中前 10 個最耗時的函式，讓您可以準確地找出效能瓶頸（時間關鍵區塊）並進行優化。

**在 Python 程式碼中直接使用 `cProfile`**

* `cProfile` 有兩種主要的使用方式：

    * 簡單方式 (`cProfile.run()`)：直接執行一個函式呼叫的字串，並將結果印到終端機。

    * 推薦方式 (`cProfile.Profile` 物件)：使用物件來啟用/停用分析器，並將結果儲存到檔案中，以便稍後使用 `pstats` 模組進行更詳細的分析。

方法一：簡單方式 (`cProfile.run()`)

這是最快的方法，適用於快速檢查單一函式呼叫的效能。

In [None]:
import cProfile
import time

def slow_function():
    """一個刻意做得很慢的函式"""
    total = 0
    for i in range(10**6):
        total += i
    time.sleep(0.1) # 模擬 I/O 延遲
    return total

def fast_function():
    """一個很快的函式，但會被呼叫很多次"""
    return 1 + 1

def main():
    """主程式，呼叫其他函式"""
    print("開始執行...")
    slow_function()

    for _ in range(500000):
        fast_function()

    print("執行完畢。")

if __name__ == "__main__":
    # 執行 'main()' 函式並立即印出 cProfile 報告
    print("--- 開始 cProfile.run() 測試 ---")
    cProfile.run('main()')
    print("--- cProfile.run() 測試結束 ---")

--- 開始 cProfile.run() 測試 ---
開始執行...
執行完畢。
         501297 function calls (501268 primitive calls) in 0.514 seconds

   Ordered by: standard name

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        5    0.000    0.000    0.000    0.000 <frozen abc>:121(__subclasscheck__)
       11    0.000    0.000    0.000    0.000 <frozen importlib._bootstrap>:1390(_handle_fromlist)
      2/1    0.081    0.040    0.277    0.277 <string>:1(<module>)
        4    0.000    0.000    0.000    0.000 __init__.py:183(dumps)
        1    0.000    0.000    0.023    0.023 _base.py:337(_invoke_callbacks)
        1    0.000    0.000    0.023    0.023 _base.py:537(set_result)
        2    0.000    0.000    0.000    0.000 _weakrefset.py:85(add)
        3    0.000    0.000    0.001    0.000 asyncio.py:206(_handle_events)
        2    0.000    0.000    0.000    0.000 asyncio.py:216(call_at)
        2    0.000    0.000    0.000    0.000 asyncio.py:231(add_callback)
        3    0.000    0.

如何閱讀：

* `ncalls`：呼叫次數。

* `tottime` (Total Time)：函式本身執行的總時間（不包含它呼叫的子函式）。

* `cumtime` (Cumulative Time)：函式包含子函式在內所花費的總時間。

* `percall`： `tottime` / `ncalls`。

觀察：

* `slow_function` 的 `tottime` 是 `0.036` 秒，但 `cumtime` 是 `0.136` 秒。這中間的 `0.1` 秒差在哪？在 `time.sleep` (下一行)。

* `fast_function` 被呼叫了 `50` 萬次，總共也花了 `0.082` 秒。

**方法二：推薦方式 (`cProfile.Profile` + `pstats`)**

* 這種方法更靈活、更強大。您可以將分析結果儲存到檔案中，然後使用 `pstats` 模組以各種方式（例如按 `cumtime` 排序）來分析報告。

* 這是您在優化大型應用程式時真正會使用的方法。

In [None]:
import cProfile
import pstats
import io # 用於在程式碼中讀取
import time

# --- (這裡使用與方法一相同的範例函式) ---
def slow_function():
    """一個刻意做得很慢的函式"""
    total = 0
    for i in range(10**6):
        total += i
    time.sleep(0.1) # 模擬 I/O 延遲
    return total

def fast_function():
    """一個很快的函式，但會被呼叫很多次"""
    return 1 + 1

def main():
    """主程式，呼叫其他函式"""
    print("開始執行...")
    slow_function()

    for _ in range(500000):
        fast_function()

    print("執行完畢。")

if __name__ == "__main__":

    # 1. 建立 Profile 物件
    profiler = cProfile.Profile()

    # 2. 啟用分析器並執行您的程式碼
    profiler.enable()
    main() # 執行主函式
    profiler.disable()

    # 3. (可選) 將結果儲存到檔案
    # profiler.dump_stats("profile_output.pstat")
    #
    # (或者，我們可以在記憶體中直接處理它)

    # 4. 建立 pstats.Stats 物件來讀取分析結果
    # (我們使用 io.StringIO 來假裝 profiler 是一個檔案)
    s = io.StringIO()
    # sort_stats('cumulative') 告訴 pstats 按 "累計時間" 排序
    ps = pstats.Stats(profiler, stream=s).sort_stats('cumulative')

    # 5. 印出報告
    ps.print_stats()

    print("--- cProfile.Profile + pstats 測試 (按 cumulative time 排序) ---")
    print(s.getvalue()) # 印出排序後的結果

    # --- 6. 展示另一種排序方式 ---
    s = io.StringIO()
    # 這次按 'tottime' (函式自身時間) 排序
    ps = pstats.Stats(profiler, stream=s).sort_stats('tottime')

    # 我們也可以只印出前 5 名
    ps.print_stats(5)

    print("\n--- 測試 (按 tottime 排序, 僅顯示前 5 名) ---")
    print(s.getvalue())

開始執行...
執行完畢。
--- cProfile.Profile + pstats 測試 (按 cumulative time 排序) ---
         500869 function calls (500838 primitive calls) in 0.457 seconds

   Ordered by: cumulative time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        5    0.000    0.000    0.447    0.089 /usr/lib/python3.12/asyncio/base_events.py:1922(_run_once)
        5    0.000    0.000    0.440    0.088 /usr/lib/python3.12/selectors.py:451(select)
        1    0.178    0.178    0.232    0.232 /tmp/ipython-input-762172104.py:19(main)
        4    0.090    0.023    0.207    0.052 {method 'poll' of 'select.epoll' objects}
        1    0.033    0.033    0.100    0.100 /tmp/ipython-input-762172104.py:7(slow_function)
   500000    0.071    0.000    0.071    0.000 /tmp/ipython-input-762172104.py:15(fast_function)
        4    0.000    0.000    0.007    0.002 /usr/lib/python3.12/asyncio/events.py:86(_run)
        4    0.000    0.000    0.007    0.002 {method 'run' of '_contextvars.Context' objects

觀察：

* 在第一個報告中（按 `cumtime` 排序），`main` 函式排在最前面，因為它包含了「所有」執行時間 (`0.232` 秒)。

* 在第二個報告中（按 `tottime` 排序），`time.sleep` (`0.067` 秒) 排在第一，`slow_function` (`0.033` 秒) 排在第二。這告訴您，瓶頸在於 `time.sleep`，其次才是 `slow_function` 中的 `for` 迴圈。

總結：

* 使用 `cProfile.run()` 進行快速測試。

* 使用 `cProfile.Profile` 和 `pstats` 進行詳細分析、排序和儲存結果。

## 10.11. 品質控管 (Quality Control)

**品質控管（Quality Control, QC)** 是軟體開發中極為重要的一環。

* Python 內建的兩個主要測試框架：`doctest` 和 `unittest`。

* 這兩種方法目的相同（確保程式碼正確），但適用情境不同：

    * `doctest`：簡單、輕量，將測試「嵌入」到文件字串 (docstring) 中。

    * `unittest`：功能完整、結構化，將測試「獨立」撰寫成測試集 (test suite)。

* 達到高品質軟體的一個方法，是在開發時對每個函式寫測試，並在開發過程中不斷地執行這些測試。

1. **`doctest` 模組 (文件即測試)**

* `doctest` 模組提供了一個工具，它會掃描模組並根據程式中內嵌的文件字串 (docstrings) 執行測試。

* 核心概念： 撰寫測試就像在 Python 互動式 shell (REPL) 中一樣，簡單地將函式呼叫 (以 >>> 開頭) 及其「精確的」預期輸出結果剪下並貼上到文件字串中。

* 這有雙重好處：

    1. 強化文件：它為使用者提供了清晰可執行的範例。

    2. 驗證程式：`doctest` 模組可以自動確認程式碼的執行結果與說明文件中的範例一致。

基礎範例：

In [None]:
def average(values):
    """Computes the arithmetic mean of a list of numbers.

    (這裡是 doctest)
    >>> print(average([20, 30, 70]))
    40.0
    """
    return sum(values) / len(values)

* 如何執行 `doctest`：

    * 您可以將這段程式碼儲存為 `my_math.py`，並在檔案末尾加入以下程式碼：

    ```python
    if __name__ == "__main__":
        import doctest
        doctest.testmod()   # 自動驗證此模組中內嵌的測試
    ```

當您執行 `python my_math.py` 時，

* `doctest` 會執行 `>>> print(average([20, 30, 70]))`，並檢查其輸出是否「完全等於」 下一行的 `40.0`。
    * 如果一致，它會安靜地通過；
    * 如果不一致，它會印出詳細的失敗報告。

In [None]:
def average(values):
    """Computes the arithmetic mean of a list of numbers.

    (這裡是 doctest)
    >>> print(average([20, 30, 70]))
    40.0
    """
    return sum(values) / len(values)

if __name__ == "__main__":
    import doctest
    doctest.testmod()   # 自動驗證此模組中內嵌的測試

In [None]:
def average(values):
    """Computes the arithmetic mean of a list of numbers.

    (這裡是 doctest)
    >>> print(average([20, 30, 70]))
    25.0
    """
    return sum(values) / len(values)

if __name__ == "__main__":
    import doctest
    doctest.testmod()   # 自動驗證此模組中內嵌的測試


**********************************************************************
File "__main__", line 5, in __main__.average
Failed example:
    print(average([20, 30, 70]))
Expected:
    25.0
Got:
    40.0
**********************************************************************
1 items had failures:
   1 of   1 in __main__.average
***Test Failed*** 1 failures.


`doctest` 的更多用法與範例：

**範例 1：處理多個測試和邊界情況 (Edge Cases)**

`doctest` 會執行文件字串中 所有 的 `>>>` 範例。

In [None]:
def average(values):
    """Computes the arithmetic mean of a list of numbers.

    >>> print(average([20, 30, 70]))
    40.0

    測試單一元素：
    >>> print(average([5]))
    5.0

    測試浮點數：
    >>> print(average([1.5, 2.5, 3.5]))
    2.5
    """
    return sum(values) / len(values)

def get_greeting(name):
    """Returns a personalized greeting.

    >>> print(get_greeting("Alice"))
    Hello, Alice!

    測試預設值：
    >>> print(get_greeting(None))
    Hello, World!
    """
    if name:
        return f"Hello, {name}!"
    else:
        return "Hello, World!"

if __name__ == "__main__":
    import doctest
    doctest.testmod()

**範例 2：預期錯誤 (Exceptions)**

如果您的函式應該拋出錯誤，`doctest` 也需要捕捉「精確的」錯誤追蹤訊息 (`traceback`)。

In [None]:
def average(values):
    """Computes the arithmetic mean...

    ... (其他測試) ...

    測試空列表 (應引發 ZeroDivisionError):
    >>> print(average([]))
    Traceback (most recent call last):
        ...
    ZeroDivisionError: division by zero
    """
    if not values:
        # 為了讓 doctest 運作，我們必須確保錯誤訊息一致
        # 但在實務上，更好的做法是自訂錯誤
        # raise ValueError("List cannot be empty")
        pass # 暫時跳過，以符合下面的範例

    return sum(values) / len(values)

注意：`doctest` 對錯誤追蹤的格式要求非常嚴格，`...` 是一個萬用字元，可以忽略可能變動的中間路徑。

**`doctest` 的優缺點：**

* 優點：非常簡單，強迫您撰寫良好的文件和範例。

* 缺點：對於複雜的邏輯、浮點數的精確度、或需要複雜設定 (setup) 的測試，`doctest` 會變得很麻煩。

2. **unittest 模組 (完整的測試集)**

* `unittest` 模組（也稱為 "PyUnit"）不像 `doctest` 模組這般容易上手，但它是一個功能齊全的測試框架 (基於 xUnit 概念)，讓您可以在獨立的測試檔案中撰寫更完整、更結構化的測試集。

* 核心概念：

    1. **測試案例 (Test Case)**：建立一個繼承自 `unittest.TestCase` 的類別。

    2. **測試方法 (Test Method)**：在類別中定義以 `test_` 開頭的方法。

    3. **斷言 (Assertions)**：使用 `self.assertEqual`、`self.assertTrue`、`self.assertRaises` 等方法來驗證結果。

    4. **測試執行器 (Test Runner)**：使用 `unittest.main()` 或命令列來執行測試。

基礎範例：

假設您將 `average` 函式存在 `my_math.py` 中。您可以建立一個新的檔案 `test_my_math.py`：

In [None]:
# test_my_math.py
import unittest
from my_math import average # 匯入您要測試的函式

class TestStatisticalFunctions(unittest.TestCase):

    # 每個 test_ 方法都是一個獨立的測試案例
    def test_average(self):
        # 1. 斷言 'assertEqual'：檢查 average([20, 30, 70]) 是否 "等於" 40.0
        self.assertEqual(average([20, 30, 70]), 40.0)

        # 2. 斷言浮點數 (您範例中的 round 是一種方法)
        self.assertEqual(round(average([1, 5, 7]), 1), 4.3)

        # 3. 斷言 'assertRaises' (使用 'with' 語法更推薦)
        # 檢查當呼叫 average([]) 時，是否 "拋出了" ZeroDivisionError
        with self.assertRaises(ZeroDivisionError):
            average([])

        # 4. 檢查型別錯誤
        with self.assertRaises(TypeError):
            # 這裡的 lambda 是必要的，因為 average() 需要一個 list
            # 我們不能直接寫 average(20, 30, 70)
            average(20, 30, 70)

if __name__ == "__main__":
    unittest.main()  # 呼叫 unittest 的主程式來執行所有測試

如何執行 `unittest`：

* 在命令列中執行 `python test_my_math.py`。

* `unittest.main()` 會自動尋找 `TestStatisticalFunctions` 類別中所有 `test_` 開頭的方法並執行它們。

**`unittest` 的更多常用函式與用法**

`unittest` 的強大之處在於其豐富的「斷言方法」和「測試裝置 (Fixtures)」。

1. 更多常用的「斷言方法」：

In [2]:
import unittest

class TestMoreAssertions(unittest.TestCase):

    def test_boolean_and_identity(self):
        self.assertTrue(5 > 3)
        self.assertFalse(3 > 5)

        my_var = None
        self.assertIsNone(my_var)
        self.assertIsNotNone("Hello")

    def test_membership(self):
        my_list = ['a', 'b', 'c']
        self.assertIn('b', my_list)
        self.assertNotIn('z', my_list)

    def test_floating_point(self):
        # 處理浮點數時，"不要" 用 assertEqual，因為有精度問題
        # (例如 0.1 + 0.2 不等於 0.3)
        # 應使用 'assertAlmostEqual'
        self.assertAlmostEqual(0.1 + 0.2, 0.3, places=7)
        self.assertAlmostEqual(average([1, 5, 7]), 4.3333333, places=5)

2. **測試裝置 (Test Fixtures)：`setUp` 和 `tearDown`**

* 當許多測試都需要「相同的前置作業」（例如建立一個資料庫連線、建立一個複雜物件）時，您可以使用 `setUp` 和 `tearDown`。

    * `setUp(self)`：在每一個 `test_` 方法執行之前都會被呼叫。

    * `tearDown(self)`：在每一個 `test_` 方法執行之後都會被呼叫 (無論測試成功或失敗)。

範例：測試一個「購物車」類別

In [None]:
# shopping_cart.py (假設您有這個檔案)
class ShoppingCart:
    def __init__(self):
        self.items = {}

    def add_item(self, item, price, quantity=1):
        if item in self.items:
            self.items[item]['quantity'] += quantity
        else:
            self.items[item] = {'price': price, 'quantity': quantity}

    def get_total_price(self):
        total = 0
        for item, info in self.items.items():
            total += info['price'] * info['quantity']
        return total

    def get_item_count(self):
        return sum(info['quantity'] for info in self.items.values())

# test_shopping_cart.py
import unittest
from shopping_cart import ShoppingCart

class TestShoppingCart(unittest.TestCase):

    # 1. 前置作業：建立一個 "乾淨" 的購物車供 "每個" 測試使用
    def setUp(self):
        # self.cart 會在 test_add_single_item 和 test_add_multiple_items 中被使用
        self.cart = ShoppingCart()
        print("\n[Running setUp]: Creating a new cart...")

    # 2. 測試 1
    def test_add_single_item(self):
        self.cart.add_item("apple", 0.5, 1)
        self.assertEqual(self.cart.get_item_count(), 1)
        self.assertEqual(self.cart.get_total_price(), 0.5)

    # 3. 測試 2
    def test_add_multiple_items(self):
        self.cart.add_item("apple", 0.5, 2)
        self.cart.add_item("banana", 0.25, 3)
        self.assertEqual(self.cart.get_item_count(), 5) # 2 (apples) + 3 (bananas)
        self.assertEqual(self.cart.get_total_price(), (0.5 * 2) + (0.25 * 3)) # 1.0 + 0.75 = 1.75

    # 4. 測試 3
    def test_add_existing_item(self):
        self.cart.add_item("apple", 0.5, 1) # 第一次加
        self.cart.add_item("apple", 0.5, 3) # 第二次加
        self.assertEqual(self.cart.get_item_count(), 4) # 1 + 3
        self.assertEqual(self.cart.get_total_price(), 0.5 * 4) # 2.0

    # 5. 清理作業 (範例：如果需要關閉檔案或資料庫連線)
    def tearDown(self):
        print("[Running tearDown]: Cleaning up...")
        # 在這個例子中，self.cart 會自動被銷毀，但如果是檔案或連線，可以在這裡 .close()

if __name__ == "__main__":
    unittest.main()

**執行上述測試，您會看到 `setUp` 和 `tearDown` 在 每個 測試（共 3 個）前後都被執行，確保了測試之間的隔離性。**

總結建議：

* `doctest`：用於簡單的函式，尤其是數學工具或資料處理函式。它可以確保您的文件範例永遠是正確的。

* `unittest`：用於您應用程式的核心邏輯、類別 (Class) 和模組。當您需要處理複雜的設定 (`setUp`)、清理 (`tearDown`) 或需要多種斷言時，這是標準的選擇。