# Chapter 25: CSV 資料處理 | CSV Data Processing

## Part I: 理論基礎

### 📋 章節概覽

| 項目 | 內容 |
|:-----|:-----|
| **學習目標** | 掌握 CSV 資料格式的讀寫與處理 |
| **先備知識** | 檔案操作、字典、列表、JSON |
| **預計時長** | 90 分鐘 |
| **重點觀念** | 結構化資料、資料清理、格式轉換 |

### 🔑 核心概念

#### 什麼是 CSV？

**CSV（Comma-Separated Values）** 是一種簡單的文字檔案格式，用於儲存表格資料：

```
姓名,年齡,城市
張三,25,台北
李四,30,高雄
王五,28,台中
```

#### First Principles: 為什麼需要 CSV？

**問題**：如何在不同系統、不同軟體之間交換表格資料？

```
Excel ─────?────→ Python 程式
   ↓                    ↓
工作表              DataFrame/Dict
```

**解決方案**：使用純文字格式（CSV）作為中介

```
Excel ─[匯出]→ CSV 檔案 ─[讀取]→ Python ─[處理]→ CSV 檔案 ─[匯入]→ Excel
```

#### CSV 的優勢

| 優勢 | 說明 | 範例 |
|:-----|:-----|:-----|
| **簡單** | 純文字，人類可讀 | 用記事本即可開啟 |
| **通用** | 幾乎所有軟體都支援 | Excel, Google Sheets, Python |
| **輕量** | 檔案小，傳輸快 | 比 Excel 檔小 10 倍以上 |
| **可攜** | 跨平台、跨系統 | Windows, Mac, Linux |

#### CSV vs JSON

| 特性 | CSV | JSON |
|:-----|:----|:-----|
| **結構** | 扁平表格（二維） | 層次結構（樹狀） |
| **可讀性** | 極高（表格） | 中等（樹狀） |
| **資料型別** | 全是字串 | 多種型別 |
| **檔案大小** | 小 | 較大 |
| **適用場景** | 資料匯出、統計分析 | API 資料交換 |

### 📦 Python 的 csv 模組

Python 提供內建的 `csv` 模組處理 CSV 資料：

#### 核心類別（4 個）

1. **`csv.reader`**: 讀取 CSV → 列表 (list)
2. **`csv.writer`**: 寫入 CSV ← 列表 (list)
3. **`csv.DictReader`**: 讀取 CSV → 字典 (dict) ⭐推薦
4. **`csv.DictWriter`**: 寫入 CSV ← 字典 (dict) ⭐推薦

```python
import csv

# 選擇指南：
# - 有標題列 → 使用 DictReader/DictWriter
# - 無標題列 → 使用 reader/writer
# - 需要欄位名稱存取 → DictReader/DictWriter
# - 只需順序處理 → reader/writer
```

## Part II: 實作演練

---

### 範例 1：CSV 格式基礎

**目標**：理解 CSV 的基本結構與特性

In [None]:
import csv
from pathlib import Path

# 建立測試目錄
test_dir = Path('csv_examples')
test_dir.mkdir(exist_ok=True)

# 1. 最簡單的 CSV: 逗號分隔
simple_csv = test_dir / 'simple.csv'
simple_csv.write_text(
    '''姓名,年齡,城市
張三,25,台北
李四,30,高雄
王五,28,台中''',
    encoding='utf-8'
)

print("=== 簡單 CSV 內容 ===")
print(simple_csv.read_text(encoding='utf-8'))
print()

# 2. 含特殊字元的 CSV: 使用引號
special_csv = test_dir / 'special.csv'
special_csv.write_text(
    '''姓名,職稱,城市
"張三, PhD",教授,台北
李四,"經理, 業務部",高雄
王五,工程師,台中''',
    encoding='utf-8'
)

print("=== 含特殊字元的 CSV ===")
print(special_csv.read_text(encoding='utf-8'))
print()

# 3. 結構分析
print("=== 結構分析 ===")
print("CSV 由三個部分組成：")
print("1. 標題列 (Header Row): 欄位名稱")
print("2. 資料列 (Data Rows): 實際資料")
print("3. 分隔符號 (Delimiter): 預設為逗號 ,")
print()
print("特殊處理：")
print("- 欄位含逗號 → 用雙引號包裹")
print("- 欄位含換行 → 用雙引號包裹")
print("- 欄位含引號 → 用兩個引號跳脫 (\"\")")

**重點**：
- CSV 以逗號分隔欄位，換行符號分隔列
- 第一列通常是標題列（欄位名稱）
- 含特殊字元的欄位需用雙引號包裹
- CSV 是純文字格式，可用任何文字編輯器開啟

---

### 範例 2：csv.reader() 基本讀取

**目標**：使用 csv.reader() 讀取 CSV 檔案

In [None]:
import csv

csv_file = test_dir / 'simple.csv'

print("=== 方法 1: 基本讀取 ===")
with open(csv_file, encoding='utf-8') as f:
    reader = csv.reader(f)
    for row in reader:
        print(row)  # 每列是一個列表
        print(f"  型態: {type(row)}")
print()

print("=== 方法 2: 分離標題與資料 ===")
with open(csv_file, encoding='utf-8') as f:
    reader = csv.reader(f)
    
    # 讀取標題列
    headers = next(reader)
    print(f"標題: {headers}")
    print()
    
    # 讀取資料列
    print("資料:")
    for i, row in enumerate(reader, 1):
        print(f"  第 {i} 列: {row}")
print()

print("=== 方法 3: 存取特定欄位 ===")
with open(csv_file, encoding='utf-8') as f:
    reader = csv.reader(f)
    headers = next(reader)  # 跳過標題
    
    for row in reader:
        name = row[0]  # 第一欄
        age = int(row[1])  # 第二欄（轉整數）
        city = row[2]  # 第三欄
        print(f"{name} 今年 {age} 歲，住在 {city}")
print()

print("=== 方法 4: 轉換為列表 ===")
with open(csv_file, encoding='utf-8') as f:
    reader = csv.reader(f)
    all_rows = list(reader)
    
print(f"總共 {len(all_rows)} 列（含標題）")
print(f"標題: {all_rows[0]}")
print(f"資料: {all_rows[1:]}")

**重點**：
- `csv.reader(file_object)` 傳回 reader 物件
- 每列是字串列表：`['張三', '25', '台北']`
- 使用 `next(reader)` 可讀取或跳過特定列
- **注意**：所有資料都是字串，需手動轉換型別
- 適合無標題列或只需順序處理的情況

---

### 範例 3：csv.writer() 基本寫入

**目標**：使用 csv.writer() 寫入 CSV 檔案

In [None]:
import csv

# 準備資料
students = [
    ['姓名', '年齡', '成績'],  # 標題列
    ['Alice', 20, 85],
    ['Bob', 21, 92],
    ['Charlie', 19, 78]
]

output_file = test_dir / 'students.csv'

print("=== 方法 1: 一次寫入多列 (writerows) ===")
with open(output_file, 'w', newline='', encoding='utf-8') as f:
    writer = csv.writer(f)
    writer.writerows(students)  # 寫入所有列

print("已寫入 students.csv")
print("檔案內容：")
print(output_file.read_text(encoding='utf-8'))
print()

print("=== 方法 2: 逐列寫入 (writerow) ===")
output_file2 = test_dir / 'products.csv'

with open(output_file2, 'w', newline='', encoding='utf-8') as f:
    writer = csv.writer(f)
    
    # 寫入標題
    writer.writerow(['產品', '價格', '庫存'])
    
    # 逐列寫入資料
    writer.writerow(['蘋果', 50, 100])
    writer.writerow(['香蕉', 30, 150])
    writer.writerow(['橘子', 40, 80])

print("已寫入 products.csv")
print("檔案內容：")
print(output_file2.read_text(encoding='utf-8'))
print()

print("=== 方法 3: 處理特殊字元 ===")
special_data = [
    ['姓名', '備註'],
    ['張三', '專長: Python, Java, C++'],  # 含逗號
    ['李四', '興趣: 閱讀\n旅遊\n攝影'],  # 含換行
    ['王五', '座右銘: "努力不懈"']  # 含引號
]

output_file3 = test_dir / 'special.csv'

with open(output_file3, 'w', newline='', encoding='utf-8') as f:
    writer = csv.writer(f)
    writer.writerows(special_data)

print("已寫入 special.csv（自動處理特殊字元）")
print("檔案內容：")
print(output_file3.read_text(encoding='utf-8'))

**重點**：
- `csv.writer(file_object)` 傳回 writer 物件
- `writerow([...])` 寫入單列，`writerows([[...], [...]])` 寫入多列
- **重要**：開啟檔案時使用 `newline=''` 避免多餘空行
- csv 模組會自動處理特殊字元（加引號、跳脫）
- 資料會自動轉換為字串

---

### 範例 4：csv.DictReader() 字典讀取 ⭐

**目標**：使用 DictReader 進行結構化讀取（推薦）

In [None]:
import csv

csv_file = test_dir / 'students.csv'

print("=== 基本使用 ===")
with open(csv_file, encoding='utf-8') as f:
    reader = csv.DictReader(f)
    
    for row in reader:
        print(row)  # 每列是一個字典 (OrderedDict)
        print(f"  型態: {type(row)}")
print()

print("=== 透過欄位名稱存取資料 ===")
with open(csv_file, encoding='utf-8') as f:
    reader = csv.DictReader(f)
    
    for row in reader:
        name = row['姓名']  # 用欄位名稱存取
        age = int(row['年齡'])
        score = int(row['成績'])
        print(f"{name} ({age}歲) 的成績是 {score} 分")
print()

print("=== 檢視欄位名稱 ===")
with open(csv_file, encoding='utf-8') as f:
    reader = csv.DictReader(f)
    print(f"欄位名稱: {reader.fieldnames}")
    
    # 讀取第一列
    first_row = next(reader)
    print(f"第一列資料: {first_row}")
print()

print("=== 轉換為列表（用於資料分析）===")
with open(csv_file, encoding='utf-8') as f:
    reader = csv.DictReader(f)
    students_list = list(reader)

print(f"共有 {len(students_list)} 位學生")
print("所有學生資料：")
for student in students_list:
    print(f"  {student}")
print()

# 資料分析範例
total_score = sum(int(s['成績']) for s in students_list)
avg_score = total_score / len(students_list)
print(f"平均成績: {avg_score:.1f} 分")

**重點**：
- `DictReader` 自動將第一列當作欄位名稱
- 每列是字典（OrderedDict）：`{'姓名': 'Alice', '年齡': '20', '成績': '85'}`
- 用欄位名稱存取資料，**更清楚、更不易出錯**
- `reader.fieldnames` 可取得欄位名稱列表
- **推薦使用**：大多數情況下比 reader 更好用

---

### 範例 5：csv.DictWriter() 字典寫入 ⭐

**目標**：使用 DictWriter 進行結構化寫入（推薦）

In [None]:
import csv

# 準備資料（字典格式）
employees = [
    {'姓名': '張三', '部門': '工程部', '薪資': 50000},
    {'姓名': '李四', '部門': '業務部', '薪資': 45000},
    {'姓名': '王五', '部門': '人資部', '薪資': 48000}
]

output_file = test_dir / 'employees.csv'

print("=== 基本使用 ===")
with open(output_file, 'w', newline='', encoding='utf-8') as f:
    # 定義欄位名稱（順序）
    fieldnames = ['姓名', '部門', '薪資']
    writer = csv.DictWriter(f, fieldnames=fieldnames)
    
    # 寫入標題列
    writer.writeheader()
    
    # 寫入資料
    writer.writerows(employees)

print("已寫入 employees.csv")
print("檔案內容：")
print(output_file.read_text(encoding='utf-8'))
print()

print("=== 逐列寫入 ===")
output_file2 = test_dir / 'books.csv'

with open(output_file2, 'w', newline='', encoding='utf-8') as f:
    fieldnames = ['書名', '作者', '價格', '庫存']
    writer = csv.DictWriter(f, fieldnames=fieldnames)
    
    writer.writeheader()
    
    # 逐列寫入
    writer.writerow({'書名': 'Python 入門', '作者': '張三', '價格': 450, '庫存': 50})
    writer.writerow({'書名': '資料科學', '作者': '李四', '價格': 550, '庫存': 30})
    writer.writerow({'書名': '機器學習', '作者': '王五', '價格': 680, '庫存': 20})

print("已寫入 books.csv")
print("檔案內容：")
print(output_file2.read_text(encoding='utf-8'))
print()

print("=== 處理缺失欄位 ===")
incomplete_data = [
    {'姓名': '趙六', '部門': '工程部'},  # 缺少薪資
    {'姓名': '錢七', '薪資': 52000},  # 缺少部門
]

output_file3 = test_dir / 'incomplete.csv'

with open(output_file3, 'w', newline='', encoding='utf-8') as f:
    fieldnames = ['姓名', '部門', '薪資']
    writer = csv.DictWriter(f, fieldnames=fieldnames, restval='N/A')  # 預設值
    
    writer.writeheader()
    writer.writerows(incomplete_data)

print("已寫入 incomplete.csv（缺失值填入 N/A）")
print("檔案內容：")
print(output_file3.read_text(encoding='utf-8'))

**重點**：
- `DictWriter` 需要指定 `fieldnames`（欄位名稱與順序）
- `writeheader()` 寫入標題列（欄位名稱）
- `writerow(dict)` 寫入單列，`writerows([dict, ...])` 寫入多列
- `restval` 參數設定缺失欄位的預設值
- **推薦使用**：程式碼更清楚、更易維護

---

### 範例 6：處理不同分隔符號

**目標**：處理使用 Tab、分號等其他分隔符號的檔案

In [None]:
import csv

# 1. Tab 分隔（TSV - Tab-Separated Values）
tsv_file = test_dir / 'data.tsv'
tsv_file.write_text(
    '''姓名\t年齡\t城市
張三\t25\t台北
李四\t30\t高雄''',
    encoding='utf-8'
)

print("=== 讀取 TSV 檔案（Tab 分隔）===")
with open(tsv_file, encoding='utf-8') as f:
    reader = csv.DictReader(f, delimiter='\t')  # 指定分隔符號
    for row in reader:
        print(row)
print()

# 2. 分號分隔（常見於歐洲地區）
semicolon_file = test_dir / 'data_semicolon.csv'
semicolon_file.write_text(
    '''姓名;年齡;城市
張三;25;台北
李四;30;高雄''',
    encoding='utf-8'
)

print("=== 讀取分號分隔檔案 ===")
with open(semicolon_file, encoding='utf-8') as f:
    reader = csv.DictReader(f, delimiter=';')
    for row in reader:
        print(row)
print()

# 3. 管線分隔（PSV - Pipe-Separated Values）
psv_file = test_dir / 'data.psv'
psv_file.write_text(
    '''姓名|年齡|城市
張三|25|台北
李四|30|高雄''',
    encoding='utf-8'
)

print("=== 讀取 PSV 檔案（管線分隔）===")
with open(psv_file, encoding='utf-8') as f:
    reader = csv.DictReader(f, delimiter='|')
    for row in reader:
        print(row)
print()

# 4. 寫入自訂分隔符號
output_file = test_dir / 'output.tsv'

data = [
    {'產品': '蘋果', '價格': 50, '庫存': 100},
    {'產品': '香蕉', '價格': 30, '庫存': 150}
]

print("=== 寫入 TSV 檔案 ===")
with open(output_file, 'w', newline='', encoding='utf-8') as f:
    writer = csv.DictWriter(f, fieldnames=['產品', '價格', '庫存'], delimiter='\t')
    writer.writeheader()
    writer.writerows(data)

print("已寫入 output.tsv")
print("檔案內容：")
print(repr(output_file.read_text(encoding='utf-8')))  # 用 repr 顯示 \t

**重點**：
- 使用 `delimiter` 參數指定分隔符號
- 常見分隔符號：`,`（逗號）、`\t`（Tab）、`;`（分號）、`|`（管線）
- **為何需要不同分隔符號**：資料內容可能包含逗號
- TSV（Tab）在資料含逗號時很有用
- 分號常見於歐洲地區（小數點用逗號）

---

### 範例 7：處理引號與跳脫字元

**目標**：正確處理包含特殊字元的 CSV 資料

In [None]:
import csv

print("=== 問題：資料中包含特殊字元 ===")
special_data = [
    {'姓名': '張三', '備註': '專長: Python, Java, C++'},  # 含逗號
    {'姓名': '李四', '備註': '座右銘: "努力不懈"'},  # 含引號
    {'姓名': '王五', '備註': '興趣:\n閱讀\n旅遊'},  # 含換行
]

output_file = test_dir / 'special_chars.csv'

print("1. csv 模組自動處理特殊字元")
with open(output_file, 'w', newline='', encoding='utf-8') as f:
    writer = csv.DictWriter(f, fieldnames=['姓名', '備註'])
    writer.writeheader()
    writer.writerows(special_data)

print("\n寫入的檔案內容：")
content = output_file.read_text(encoding='utf-8')
print(content)
print()

print("2. 讀取時自動還原")
with open(output_file, encoding='utf-8') as f:
    reader = csv.DictReader(f)
    for row in reader:
        print(f"姓名: {row['姓名']}")
        print(f"備註: {row['備註']}")
        print()
print()

print("=== 引號模式（quoting）===")
data = [
    {'產品': '蘋果', '價格': 50},
    {'產品': '香蕉', '價格': 30}
]

# 不同的引號模式
quote_modes = [
    (csv.QUOTE_MINIMAL, 'QUOTE_MINIMAL', '僅在需要時加引號（預設）'),
    (csv.QUOTE_ALL, 'QUOTE_ALL', '所有欄位都加引號'),
    (csv.QUOTE_NONNUMERIC, 'QUOTE_NONNUMERIC', '非數字欄位加引號'),
    (csv.QUOTE_NONE, 'QUOTE_NONE', '不加引號（需指定 escapechar）'),
]

for quote_mode, mode_name, description in quote_modes:
    print(f"\n{mode_name}: {description}")
    output = test_dir / f'quote_{mode_name.lower()}.csv'
    
    try:
        with open(output, 'w', newline='', encoding='utf-8') as f:
            writer = csv.DictWriter(
                f,
                fieldnames=['產品', '價格'],
                quoting=quote_mode,
                escapechar='\\' if quote_mode == csv.QUOTE_NONE else None
            )
            writer.writeheader()
            writer.writerows(data)
        
        print(output.read_text(encoding='utf-8'))
    except Exception as e:
        print(f"錯誤: {e}")

**重點**：
- csv 模組**自動處理**特殊字元（加引號、跳脫）
- 四種引號模式：
  - `QUOTE_MINIMAL`（預設）：僅在需要時加引號
  - `QUOTE_ALL`：所有欄位都加引號
  - `QUOTE_NONNUMERIC`：非數字欄位加引號
  - `QUOTE_NONE`：不加引號（需指定跳脫字元）
- 大多數情況使用預設值即可

---

### 範例 8：編碼處理

**目標**：正確處理不同編碼的 CSV 檔案

In [None]:
import csv

# 準備測試資料
chinese_data = [
    {'姓名': '張三', '城市': '台北市'},
    {'姓名': '李四', '城市': '高雄市'}
]

print("=== 常見編碼 ===")
encodings = [
    ('utf-8', 'UTF-8', '通用編碼（推薦）'),
    ('utf-8-sig', 'UTF-8 with BOM', 'Excel 相容（Windows）'),
    ('big5', 'Big5', '繁體中文（舊版 Windows）'),
    ('gbk', 'GBK', '簡體中文'),
]

for encoding, name, description in encodings:
    print(f"\n{name}: {description}")
    output_file = test_dir / f'encoding_{encoding.replace("-", "_")}.csv'
    
    try:
        # 寫入
        with open(output_file, 'w', newline='', encoding=encoding) as f:
            writer = csv.DictWriter(f, fieldnames=['姓名', '城市'])
            writer.writeheader()
            writer.writerows(chinese_data)
        
        # 檢視檔案大小
        file_size = output_file.stat().st_size
        print(f"  檔案大小: {file_size} bytes")
        
        # 讀取驗證
        with open(output_file, encoding=encoding) as f:
            reader = csv.DictReader(f)
            first_row = next(reader)
            print(f"  讀取成功: {first_row}")
    
    except Exception as e:
        print(f"  錯誤: {e}")

print("\n" + "="*50)
print("=== 編碼偵測與處理 ===")
print()

# 試錯法讀取未知編碼的檔案
def read_csv_auto_encoding(file_path, possible_encodings=['utf-8', 'big5', 'gbk', 'latin1']):
    """嘗試不同編碼讀取 CSV 檔案"""
    for encoding in possible_encodings:
        try:
            with open(file_path, encoding=encoding) as f:
                reader = csv.DictReader(f)
                data = list(reader)  # 嘗試讀取全部
                return data, encoding
        except (UnicodeDecodeError, UnicodeError):
            continue
    
    raise ValueError(f"無法以任何編碼讀取檔案: {possible_encodings}")

# 測試
test_file = test_dir / 'encoding_big5.csv'
if test_file.exists():
    data, detected_encoding = read_csv_auto_encoding(test_file)
    print(f"偵測到的編碼: {detected_encoding}")
    print(f"讀取的資料: {data}")
    print()

print("=== 實務建議 ===")
print("1. 新檔案：統一使用 UTF-8")
print("2. Excel 相容：使用 UTF-8-sig（含 BOM）")
print("3. 舊系統：根據來源系統選擇（Big5/GBK）")
print("4. 不確定：使用試錯法自動偵測")

**重點**：
- **UTF-8**：通用編碼，新專案首選
- **UTF-8-sig**：含 BOM，Excel 可正確顯示中文
- **Big5**：繁體中文，舊版 Windows
- **GBK**：簡體中文
- 不確定編碼時使用試錯法
- **建議**：統一使用 UTF-8，避免編碼問題

---

### 範例 9：資料清理與驗證

**目標**：處理真實世界中不完美的 CSV 資料

In [None]:
import csv

# 建立髒資料檔案
dirty_csv = test_dir / 'dirty_data.csv'
dirty_csv.write_text(
    '''姓名,年齡,Email,薪資
張三,25,zhang@example.com,50000
李四,,li@example.com,45000
,30,wang@invalid,48000
趙六,abc,zhao@example.com,52000
錢七,28,qian@example.com,
孫八,27,sun@example.com,48000
''',
    encoding='utf-8'
)

print("=== 原始髒資料 ===")
print(dirty_csv.read_text(encoding='utf-8'))
print()

print("=== 問題分析 ===")
problems = []

with open(dirty_csv, encoding='utf-8') as f:
    reader = csv.DictReader(f)
    
    for i, row in enumerate(reader, 1):
        row_problems = []
        
        # 檢查姓名
        if not row['姓名'].strip():
            row_problems.append("姓名為空")
        
        # 檢查年齡
        try:
            age = int(row['年齡'])
            if age < 0 or age > 120:
                row_problems.append("年齡不合理")
        except ValueError:
            row_problems.append("年齡格式錯誤")
        
        # 檢查 Email
        if '@' not in row['Email'] or '.' not in row['Email'].split('@')[-1]:
            row_problems.append("Email 格式錯誤")
        
        # 檢查薪資
        try:
            salary = int(row['薪資'])
            if salary < 0:
                row_problems.append("薪資為負數")
        except ValueError:
            row_problems.append("薪資格式錯誤")
        
        if row_problems:
            problems.append((i, row, row_problems))

print(f"發現 {len(problems)} 列有問題：\n")
for line_num, row, issues in problems:
    print(f"第 {line_num} 列: {row}")
    for issue in issues:
        print(f"  - {issue}")
    print()

print("=== 資料清理 ===")
clean_data = []

with open(dirty_csv, encoding='utf-8') as f:
    reader = csv.DictReader(f)
    
    for row in reader:
        # 跳過空白姓名
        if not row['姓名'].strip():
            continue
        
        # 清理年齡
        try:
            age = int(row['年齡'])
        except ValueError:
            age = None  # 無法轉換則設為 None
        
        # 清理薪資
        try:
            salary = int(row['薪資'])
        except ValueError:
            salary = 0  # 預設值
        
        # 驗證 Email
        email = row['Email']
        if '@' not in email or '.' not in email.split('@')[-1]:
            email = 'invalid@example.com'  # 修正為預設值
        
        # 建立乾淨的資料
        clean_row = {
            '姓名': row['姓名'].strip(),
            '年齡': age if age is not None else 0,
            'Email': email,
            '薪資': salary
        }
        clean_data.append(clean_row)

print(f"清理後剩餘 {len(clean_data)} 列有效資料\n")

# 寫入乾淨的資料
clean_csv = test_dir / 'clean_data.csv'

with open(clean_csv, 'w', newline='', encoding='utf-8') as f:
    writer = csv.DictWriter(f, fieldnames=['姓名', '年齡', 'Email', '薪資'])
    writer.writeheader()
    writer.writerows(clean_data)

print("=== 清理後的資料 ===")
print(clean_csv.read_text(encoding='utf-8'))

print("\n=== 清理策略總結 ===")
print("1. 空值處理: 跳過或填入預設值")
print("2. 格式錯誤: 嘗試轉換或使用預設值")
print("3. 無效資料: 修正或移除")
print("4. 異常值: 檢測並標記或移除")

**重點**：
- 真實 CSV 資料常有問題：空值、格式錯誤、無效資料
- 清理策略：
  1. **空值**：跳過或填入預設值
  2. **格式錯誤**：嘗試轉換或使用預設值
  3. **無效資料**：修正或移除整列
  4. **異常值**：檢測並處理
- 記錄清理過程以便稽核

---

### 範例 10：大型 CSV 檔案處理

**目標**：高效處理大型 CSV 檔案（串流處理）

In [None]:
import csv
from pathlib import Path
import time

# 建立大型測試檔案
large_csv = test_dir / 'large_data.csv'

print("=== 建立大型測試檔案 ===")
print("生成 10,000 筆資料...")

with open(large_csv, 'w', newline='', encoding='utf-8') as f:
    writer = csv.DictWriter(f, fieldnames=['ID', '姓名', '分數', '城市'])
    writer.writeheader()
    
    cities = ['台北', '台中', '台南', '高雄', '新竹']
    for i in range(1, 10001):
        writer.writerow({
            'ID': i,
            '姓名': f'學生{i}',
            '分數': (i * 7) % 100,  # 模擬分數
            '城市': cities[i % 5]
        })

file_size = large_csv.stat().st_size
print(f"檔案已建立: {file_size:,} bytes ({file_size/1024/1024:.2f} MB)\n")

print("=== 錯誤方法：一次載入全部 ===")
start_time = time.time()

with open(large_csv, encoding='utf-8') as f:
    reader = csv.DictReader(f)
    all_data = list(reader)  # ❌ 將全部資料載入記憶體

elapsed = time.time() - start_time
print(f"載入 {len(all_data)} 筆資料")
print(f"耗時: {elapsed:.3f} 秒")
print(f"記憶體使用: 約 {len(str(all_data)) / 1024 / 1024:.2f} MB")
print("⚠️ 大型檔案會記憶體不足\n")

print("=== 正確方法：串流處理 ===")
start_time = time.time()
count = 0
high_scores = []

with open(large_csv, encoding='utf-8') as f:
    reader = csv.DictReader(f)
    
    # 逐列處理，不載入全部
    for row in reader:
        count += 1
        
        # 只保留高分學生
        score = int(row['分數'])
        if score >= 90:
            high_scores.append(row)

elapsed = time.time() - start_time
print(f"處理 {count} 筆資料")
print(f"找到 {len(high_scores)} 位高分學生")
print(f"耗時: {elapsed:.3f} 秒")
print("✓ 記憶體使用穩定\n")

print("=== 批次處理 ===")
batch_size = 1000
batch_count = 0
current_batch = []

with open(large_csv, encoding='utf-8') as f:
    reader = csv.DictReader(f)
    
    for row in reader:
        current_batch.append(row)
        
        # 每 1000 筆處理一次
        if len(current_batch) >= batch_size:
            batch_count += 1
            # 處理這批資料
            avg_score = sum(int(r['分數']) for r in current_batch) / len(current_batch)
            print(f"批次 {batch_count}: 平均分數 {avg_score:.1f}")
            current_batch = []  # 清空批次
    
    # 處理剩餘資料
    if current_batch:
        batch_count += 1
        avg_score = sum(int(r['分數']) for r in current_batch) / len(current_batch)
        print(f"批次 {batch_count}: 平均分數 {avg_score:.1f}")

print(f"\n總共處理 {batch_count} 個批次\n")

print("=== 效能建議 ===")
print("1. ✓ 使用 for 迴圈逐列處理（串流）")
print("2. ✗ 避免 list(reader) 載入全部")
print("3. ✓ 批次處理平衡記憶體與效能")
print("4. ✓ 只保留需要的資料")

**重點**：
- **串流處理**：逐列讀取，不載入全部到記憶體
- **批次處理**：累積一定數量再處理，平衡效能
- **避免**：`list(reader)` 會載入全部資料
- **適用**：處理 GB 級別的大型 CSV 檔案
- **原則**：只保留需要的資料

---

### 範例 11：CSV 與 JSON 格式轉換

**目標**：在 CSV 和 JSON 格式之間轉換

In [None]:
import csv
import json

# 準備測試資料
csv_file = test_dir / 'students.csv'
json_file = test_dir / 'students.json'

print("=== CSV → JSON ===")

# 讀取 CSV
with open(csv_file, encoding='utf-8') as f:
    reader = csv.DictReader(f)
    students = list(reader)

print("CSV 資料：")
print(csv_file.read_text(encoding='utf-8'))
print()

# 寫入 JSON
with open(json_file, 'w', encoding='utf-8') as f:
    json.dump(students, f, ensure_ascii=False, indent=2)

print("轉換為 JSON：")
print(json_file.read_text(encoding='utf-8'))
print()

print("=== JSON → CSV ===")

# 讀取 JSON
with open(json_file, encoding='utf-8') as f:
    data = json.load(f)

print(f"JSON 資料: {len(data)} 筆")
print()

# 寫入 CSV
output_csv = test_dir / 'students_from_json.csv'

if data:  # 確保有資料
    fieldnames = list(data[0].keys())  # 從第一筆資料取得欄位名稱
    
    with open(output_csv, 'w', newline='', encoding='utf-8') as f:
        writer = csv.DictWriter(f, fieldnames=fieldnames)
        writer.writeheader()
        writer.writerows(data)
    
    print("轉換為 CSV：")
    print(output_csv.read_text(encoding='utf-8'))
    print()

print("=== 通用轉換函數 ===")

def csv_to_json(csv_path, json_path):
    """將 CSV 檔案轉換為 JSON"""
    with open(csv_path, encoding='utf-8') as f:
        reader = csv.DictReader(f)
        data = list(reader)
    
    with open(json_path, 'w', encoding='utf-8') as f:
        json.dump(data, f, ensure_ascii=False, indent=2)
    
    return len(data)

def json_to_csv(json_path, csv_path):
    """將 JSON 檔案轉換為 CSV"""
    with open(json_path, encoding='utf-8') as f:
        data = json.load(f)
    
    if not data:
        raise ValueError("JSON 資料為空")
    
    fieldnames = list(data[0].keys())
    
    with open(csv_path, 'w', newline='', encoding='utf-8') as f:
        writer = csv.DictWriter(f, fieldnames=fieldnames)
        writer.writeheader()
        writer.writerows(data)
    
    return len(data)

# 測試
test_csv = test_dir / 'test.csv'
test_json = test_dir / 'test.json'

# 先建立測試 CSV
test_data = [
    {'產品': '蘋果', '價格': 50, '庫存': 100},
    {'產品': '香蕉', '價格': 30, '庫存': 150}
]

with open(test_csv, 'w', newline='', encoding='utf-8') as f:
    writer = csv.DictWriter(f, fieldnames=['產品', '價格', '庫存'])
    writer.writeheader()
    writer.writerows(test_data)

# 轉換測試
count = csv_to_json(test_csv, test_json)
print(f"✓ CSV → JSON: {count} 筆資料")

count = json_to_csv(test_json, test_dir / 'test_output.csv')
print(f"✓ JSON → CSV: {count} 筆資料")

print("\n=== 格式比較 ===")
print("CSV:")
print("+ 檔案小，適合大量資料")
print("+ 表格結構，易讀")
print("- 只能表達扁平資料")
print("- 所有資料都是字串\n")

print("JSON:")
print("+ 支援巢狀結構")
print("+ 保留資料型別")
print("- 檔案較大")
print("- 不適合超大資料集")

**重點**：
- CSV ↔ JSON 轉換很常見
- CSV → JSON：使用 `DictReader` + `json.dump`
- JSON → CSV：使用 `json.load` + `DictWriter`
- **選擇指南**：
  - 表格資料、大檔案 → CSV
  - 巢狀結構、API 資料 → JSON
  - 需要型別資訊 → JSON

---

### 範例 12：實戰 - 學生成績管理系統

**目標**：整合所有技術，建立完整的 CSV 資料管理系統

In [None]:
import csv
from pathlib import Path

class GradeManager:
    """學生成績管理系統"""
    
    def __init__(self, csv_file):
        self.csv_file = Path(csv_file)
        self.fieldnames = ['學號', '姓名', '數學', '英文', '程式設計']
        
        # 如果檔案不存在，建立空檔案
        if not self.csv_file.exists():
            self._create_empty_file()
    
    def _create_empty_file(self):
        """建立空的 CSV 檔案"""
        with open(self.csv_file, 'w', newline='', encoding='utf-8') as f:
            writer = csv.DictWriter(f, fieldnames=self.fieldnames)
            writer.writeheader()
    
    def add_student(self, student_id, name, math, english, programming):
        """新增學生成績"""
        student = {
            '學號': student_id,
            '姓名': name,
            '數學': math,
            '英文': english,
            '程式設計': programming
        }
        
        # 檢查學號是否已存在
        if self.find_student(student_id):
            return False, "學號已存在"
        
        # 追加到檔案
        with open(self.csv_file, 'a', newline='', encoding='utf-8') as f:
            writer = csv.DictWriter(f, fieldnames=self.fieldnames)
            writer.writerow(student)
        
        return True, "新增成功"
    
    def find_student(self, student_id):
        """查詢學生成績"""
        with open(self.csv_file, encoding='utf-8') as f:
            reader = csv.DictReader(f)
            for row in reader:
                if row['學號'] == student_id:
                    return row
        return None
    
    def list_all_students(self):
        """列出所有學生"""
        with open(self.csv_file, encoding='utf-8') as f:
            reader = csv.DictReader(f)
            return list(reader)
    
    def update_student(self, student_id, **kwargs):
        """更新學生成績"""
        students = self.list_all_students()
        updated = False
        
        for student in students:
            if student['學號'] == student_id:
                # 更新欄位
                for key, value in kwargs.items():
                    if key in student:
                        student[key] = value
                updated = True
                break
        
        if not updated:
            return False, "找不到該學生"
        
        # 重寫整個檔案
        with open(self.csv_file, 'w', newline='', encoding='utf-8') as f:
            writer = csv.DictWriter(f, fieldnames=self.fieldnames)
            writer.writeheader()
            writer.writerows(students)
        
        return True, "更新成功"
    
    def delete_student(self, student_id):
        """刪除學生"""
        students = self.list_all_students()
        original_count = len(students)
        
        # 過濾掉要刪除的學生
        students = [s for s in students if s['學號'] != student_id]
        
        if len(students) == original_count:
            return False, "找不到該學生"
        
        # 重寫整個檔案
        with open(self.csv_file, 'w', newline='', encoding='utf-8') as f:
            writer = csv.DictWriter(f, fieldnames=self.fieldnames)
            writer.writeheader()
            writer.writerows(students)
        
        return True, "刪除成功"
    
    def calculate_average(self, student_id):
        """計算學生平均成績"""
        student = self.find_student(student_id)
        if not student:
            return None
        
        scores = [
            int(student['數學']),
            int(student['英文']),
            int(student['程式設計'])
        ]
        return sum(scores) / len(scores)
    
    def get_statistics(self):
        """取得統計資訊"""
        students = self.list_all_students()
        
        if not students:
            return None
        
        stats = {
            '總人數': len(students),
            '數學平均': 0,
            '英文平均': 0,
            '程式設計平均': 0
        }
        
        for subject in ['數學', '英文', '程式設計']:
            scores = [int(s[subject]) for s in students]
            stats[f'{subject}平均'] = sum(scores) / len(scores)
        
        return stats

# 使用範例
print("=== 學生成績管理系統 ===")
print()

manager = GradeManager(test_dir / 'grades.csv')

# 1. 新增學生
print("1. 新增學生")
manager.add_student('A001', '張三', 85, 90, 92)
manager.add_student('A002', '李四', 78, 85, 88)
manager.add_student('A003', '王五', 92, 88, 95)
print("✓ 已新增 3 位學生\n")

# 2. 查詢學生
print("2. 查詢學生 (A001)")
student = manager.find_student('A001')
if student:
    print(f"姓名: {student['姓名']}")
    print(f"數學: {student['數學']}, 英文: {student['英文']}, 程式設計: {student['程式設計']}")
    avg = manager.calculate_average('A001')
    print(f"平均: {avg:.1f}\n")

# 3. 列出所有學生
print("3. 所有學生")
students = manager.list_all_students()
for s in students:
    avg = manager.calculate_average(s['學號'])
    print(f"{s['學號']} {s['姓名']}: 平均 {avg:.1f} 分")
print()

# 4. 更新成績
print("4. 更新成績 (A002 的數學改為 95)")
success, msg = manager.update_student('A002', 數學='95')
print(f"✓ {msg}\n")

# 5. 統計資訊
print("5. 統計資訊")
stats = manager.get_statistics()
print(f"總人數: {stats['總人數']}")
print(f"數學平均: {stats['數學平均']:.1f}")
print(f"英文平均: {stats['英文平均']:.1f}")
print(f"程式設計平均: {stats['程式設計平均']:.1f}\n")

# 6. 刪除學生
print("6. 刪除學生 (A003)")
success, msg = manager.delete_student('A003')
print(f"✓ {msg}\n")

# 7. 檢視檔案
print("7. 最終檔案內容")
print((test_dir / 'grades.csv').read_text(encoding='utf-8'))

**重點**：
- 完整的 CRUD 操作（Create, Read, Update, Delete）
- 使用 `DictReader`/`DictWriter` 進行結構化操作
- 新增：`mode='a'` 追加寫入
- 更新/刪除：讀取全部 → 修改 → 重寫整個檔案
- 封裝為類別，提供清楚的 API
- 適合中小型資料集（< 10 萬筆）

## Part III: 本章總結

---

### 📚 知識回顧

#### 核心方法總結

| 類別 | 功能 | 適用情況 |
|:-----|:-----|:---------|
| `csv.reader` | 讀取 → 列表 | 無標題列、順序處理 |
| `csv.writer` | 寫入 ← 列表 | 無標題列、順序寫入 |
| `csv.DictReader` ⭐ | 讀取 → 字典 | 有標題列、欄位存取（推薦）|
| `csv.DictWriter` ⭐ | 寫入 ← 字典 | 有標題列、結構化寫入（推薦）|

#### 重要參數

```python
# 開啟檔案
open(file, mode='r', newline='', encoding='utf-8')
#            ↑        ↑          ↑
#            模式    避免空行    編碼

# reader/writer
csv.reader(f, delimiter=',', quotechar='"')
#             ↑            ↑
#             分隔符號    引號字元

# DictWriter
csv.DictWriter(f, fieldnames=[], restval='', extrasaction='raise')
#                 ↑              ↑          ↑
#                 欄位名稱      預設值     額外欄位處理
```

#### 常見模式

```python
# 模式 1: 讀取並處理
with open('data.csv', encoding='utf-8') as f:
    reader = csv.DictReader(f)
    for row in reader:
        process(row)

# 模式 2: 寫入資料
with open('output.csv', 'w', newline='', encoding='utf-8') as f:
    writer = csv.DictWriter(f, fieldnames=['A', 'B'])
    writer.writeheader()
    writer.writerows(data)

# 模式 3: 追加資料
with open('data.csv', 'a', newline='', encoding='utf-8') as f:
    writer = csv.DictWriter(f, fieldnames=['A', 'B'])
    writer.writerow(new_data)
```

### ⚠️ 常見誤區

#### 誤區 1：忘記 newline=''
```python
# ✗ 錯誤（Windows 會產生多餘空行）
with open('data.csv', 'w', encoding='utf-8') as f:
    writer = csv.writer(f)

# ✓ 正確
with open('data.csv', 'w', newline='', encoding='utf-8') as f:
    writer = csv.writer(f)
```

#### 誤區 2：混淆 reader 和 DictReader
```python
# reader 傳回列表
row = ['張三', '25', '台北']
name = row[0]  # 需要記住索引

# DictReader 傳回字典（推薦）
row = {'姓名': '張三', '年齡': '25', '城市': '台北'}
name = row['姓名']  # 清楚明確
```

#### 誤區 3：忘記資料都是字串
```python
# ✗ 錯誤
age = row['年齡']
if age > 18:  # TypeError: 字串無法比較

# ✓ 正確
age = int(row['年齡'])
if age > 18:
```

#### 誤區 4：一次載入大檔案
```python
# ✗ 不佳（記憶體問題）
with open('huge.csv', encoding='utf-8') as f:
    reader = csv.reader(f)
    all_data = list(reader)  # 載入全部

# ✓ 正確（串流處理）
with open('huge.csv', encoding='utf-8') as f:
    reader = csv.reader(f)
    for row in reader:  # 逐列處理
        process(row)
```

### ✅ 自我檢核

完成本章後，您應該能夠回答：

1. **CSV 格式的優勢是什麼？與 JSON 有何差異？**
2. **何時使用 reader，何時使用 DictReader？**
3. **為什麼開啟 CSV 檔案時需要 `newline=''`？**
4. **如何處理不同分隔符號的 CSV 檔案？**
5. **如何處理包含中文的 CSV 檔案？**
6. **如何處理大型 CSV 檔案避免記憶體問題？**
7. **CSV 中的資料型別是什麼？如何轉換？**
8. **如何進行 CSV 資料清理與驗證？**

若能清楚回答以上問題，表示您已掌握本章核心概念！

### 🔗 延伸閱讀

#### 官方文件
- [Python csv 模組](https://docs.python.org/3/library/csv.html)
- [CSV RFC 4180 標準](https://tools.ietf.org/html/rfc4180)

#### 實用工具
- [csvkit](https://csvkit.readthedocs.io/) - CSV 命令列工具
- [pandas](https://pandas.pydata.org/) - 強大的資料分析庫
- [Tabulate](https://github.com/astanin/python-tabulate) - 表格美化輸出

#### 進階主題
- pandas DataFrame - 更強大的 CSV 處理
- Dask - 平行處理大型 CSV
- Polars - 高效能資料處理
- Arrow - 跨語言資料格式

#### 下一步
- **Chapter 26**: 路徑管理（pathlib）
- **Chapter 27**: 模組與套件
- **Milestone 7**: 待辦事項管理系統（CSV 儲存）

---

### 🎯 本章重點

1. **CSV 是通用的表格資料格式**，簡單、輕量、跨平台
2. **推薦使用 DictReader/DictWriter**，程式碼更清楚
3. **開啟檔案時使用 `newline=''`**，避免空行問題
4. **所有資料都是字串**，需要手動轉換型別
5. **處理大檔案用串流**，避免載入全部到記憶體
6. **編碼使用 UTF-8**，Excel 相容用 UTF-8-sig
7. **真實資料需清理**，檢查空值、格式、異常值

**下一章預告**：我們將學習 pathlib 模組，更優雅地處理檔案路徑與目錄操作。