# Chapter 24: 結構化資料：JSON | Structured Data: JSON

## Part I: 理論基礎

### 📋 章節概覽

| 項目 | 內容 |
|:-----|:-----|
| **學習目標** | 掌握 JSON 資料格式的讀寫與處理 |
| **先備知識** | 字典、列表、檔案操作 |
| **預計時長** | 90 分鐘 |
| **重點觀念** | 序列化、反序列化、資料交換格式 |

### 🔑 核心概念

#### 什麼是 JSON？

**JSON（JavaScript Object Notation）** 是一種輕量級的資料交換格式，具有以下特性：

1. **人類可讀**：使用文字格式，易於閱讀和編輯
2. **機器可解析**：結構明確，程式易於處理
3. **語言無關**：任何程式語言都可以使用
4. **廣泛應用**：Web API、設定檔、資料儲存

#### First Principles: 為什麼需要 JSON？

**問題**：如何在不同系統、不同程式語言之間傳遞資料？

```
Python 程式 ─────?────→ JavaScript 網頁
      ↓                        ↓
   dict, list              object, array
```

**解決方案**：使用中間格式（JSON）作為橋樑

```
Python ─[序列化]→ JSON 字串 ─[傳輸]→ JSON 字串 ─[反序列化]→ JavaScript
```

#### JSON 的六種資料型態

| JSON 型態 | Python 型態 | 範例 |
|:----------|:------------|:-----|
| object | dict | `{"name": "Alice"}` |
| array | list | `[1, 2, 3]` |
| string | str | `"hello"` |
| number | int/float | `42`, `3.14` |
| boolean | bool | `true`, `false` |
| null | None | `null` |

### 📦 Python 的 json 模組

Python 提供內建的 `json` 模組處理 JSON 資料：

#### 核心方法（4 個）

1. **`dumps()`**: Python → JSON 字串 (string)
2. **`loads()`**: JSON 字串 → Python (string)
3. **`dump()`**: Python → JSON 檔案 (file)
4. **`load()`**: JSON 檔案 → Python (file)

```python
import json

# 記憶方法：
# - dump/load：檔案操作
# - dumps/loads：字串操作（s = string）
```

## Part II: 實作演練

---

### 範例 1：JSON 基礎結構

**目標**：理解 JSON 的基本語法與結構

In [None]:
import json

# JSON 的基本結構範例

# 1. Object（物件）- 對應 Python 字典
json_object = '''
{
    "name": "Alice",
    "age": 25,
    "is_student": false,
    "address": null
}
'''

# 2. Array（陣列）- 對應 Python 列表
json_array = '''
[
    "apple",
    "banana",
    "cherry"
]
'''

# 3. 巢狀結構
json_nested = '''
{
    "students": [
        {"name": "Alice", "score": 95},
        {"name": "Bob", "score": 87}
    ],
    "course": "Python Programming"
}
'''

# 解析 JSON 字串
obj = json.loads(json_object)
arr = json.loads(json_array)
nested = json.loads(json_nested)

print("Object:", obj)
print("Type:", type(obj))  # <class 'dict'>
print()

print("Array:", arr)
print("Type:", type(arr))  # <class 'list'>
print()

print("Nested:", nested)
print("第一位學生:", nested['students'][0]['name'])  # Alice

**重點**：
- JSON 使用雙引號（不能用單引號）
- 布林值為 `true`/`false`（小寫）
- 空值為 `null`（不是 `None`）
- 解析後自動轉換為對應的 Python 型態

---

### 範例 2：json.dumps() - Python → JSON 字串

**目標**：將 Python 資料結構轉換為 JSON 字串

In [None]:
import json

# Python 資料
student = {
    "name": "小明",
    "age": 20,
    "scores": [85, 90, 92],
    "is_active": True,
    "notes": None
}

# 轉換為 JSON 字串
json_string = json.dumps(student)

print("原始資料（Python dict）:")
print(student)
print(f"型態: {type(student)}")
print()

print("JSON 字串:")
print(json_string)
print(f"型態: {type(json_string)}")
print()

# 觀察型態轉換
print("注意：")
print(f"- Python True → JSON true")
print(f"- Python None → JSON null")
print(f"- 整體變成字串型態")

**重點**：
- `dumps()` 的 s 代表 string
- 回傳的是字串，不是 dict
- 可用於網路傳輸或儲存

---

### 範例 3：json.loads() - JSON 字串 → Python

**目標**：將 JSON 字串解析為 Python 資料結構

In [None]:
import json

# 模擬從 API 收到的 JSON 回應
api_response = '''
{
    "status": "success",
    "data": {
        "user_id": 12345,
        "username": "alice_chen",
        "email": "alice@example.com"
    },
    "timestamp": "2025-10-08T10:30:00Z"
}
'''

# 解析 JSON 字串
response = json.loads(api_response)

print("解析後的資料:")
print(response)
print(f"型態: {type(response)}")
print()

# 存取資料
print("存取欄位:")
print(f"狀態: {response['status']}")
print(f"使用者名稱: {response['data']['username']}")
print(f"Email: {response['data']['email']}")
print()

# 錯誤處理
invalid_json = '{"name": "test", }'
try:
    json.loads(invalid_json)
except json.JSONDecodeError as e:
    print(f"JSON 格式錯誤: {e}")

**重點**：
- 解析後可用字典方式存取
- 格式錯誤會引發 `JSONDecodeError`
- 實務中常用於處理 API 回應

---

### 範例 4：json.dump() - 寫入 JSON 檔案

**目標**：將 Python 資料儲存為 JSON 檔案

In [None]:
import json

# 應用程式設定資料
config = {
    "app_name": "學生管理系統",
    "version": "1.0.0",
    "database": {
        "host": "localhost",
        "port": 5432,
        "name": "student_db"
    },
    "features": {
        "dark_mode": True,
        "auto_save": True,
        "max_users": 100
    }
}

# 寫入 JSON 檔案
with open('config.json', 'w', encoding='utf-8') as f:
    json.dump(config, f, ensure_ascii=False, indent=2)

print("設定檔已儲存到 config.json")
print()

# 讀取並顯示檔案內容
with open('config.json', 'r', encoding='utf-8') as f:
    content = f.read()
    print("檔案內容:")
    print(content)

**重點**：
- `dump()` 直接寫入檔案物件
- `ensure_ascii=False` 保留中文字元
- `indent=2` 使輸出格式化（易讀）
- 常用於儲存設定檔

---

### 範例 5：json.load() - 從檔案讀取 JSON

**目標**：從 JSON 檔案載入資料到 Python

In [None]:
import json
import os

# 讀取 JSON 檔案
if os.path.exists('config.json'):
    with open('config.json', 'r', encoding='utf-8') as f:
        config = json.load(f)
    
    print("載入的設定:")
    print(f"應用程式: {config['app_name']}")
    print(f"版本: {config['version']}")
    print(f"資料庫位址: {config['database']['host']}:{config['database']['port']}")
    print()
    
    # 修改設定
    config['features']['dark_mode'] = False
    config['version'] = '1.0.1'
    
    # 儲存更新
    with open('config.json', 'w', encoding='utf-8') as f:
        json.dump(config, f, ensure_ascii=False, indent=2)
    
    print("設定已更新")
else:
    print("找不到 config.json 檔案")

**重點**：
- `load()` 直接從檔案物件讀取
- 載入後即為 Python dict，可直接操作
- 實務模式：讀取 → 修改 → 寫回

---

### 範例 6：Pretty Printing - 格式化輸出

**目標**：使 JSON 輸出更易讀

In [None]:
import json

data = {
    "students": [
        {"id": 1, "name": "Alice", "scores": [85, 90, 92]},
        {"id": 2, "name": "Bob", "scores": [78, 85, 88]},
        {"id": 3, "name": "Charlie", "scores": [92, 95, 98]}
    ],
    "course": "Python 程式設計"
}

print("1. 預設輸出（壓縮）:")
print(json.dumps(data, ensure_ascii=False))
print()

print("2. 格式化輸出（indent=2）:")
print(json.dumps(data, ensure_ascii=False, indent=2))
print()

print("3. 格式化 + 排序鍵（sort_keys=True）:")
print(json.dumps(data, ensure_ascii=False, indent=2, sort_keys=True))
print()

print("4. Tab 縮排:")
print(json.dumps(data, ensure_ascii=False, indent='\t'))

**重點**：
- `indent`: 控制縮排（數字或字串）
- `sort_keys=True`: 按鍵名排序
- `ensure_ascii=False`: 保留非 ASCII 字元
- 格式化用於除錯和人類閱讀

---

### 範例 7：處理中文 - ensure_ascii 參數

**目標**：正確處理中文字元的顯示

In [None]:
import json

data = {
    "姓名": "王小明",
    "城市": "台北市",
    "興趣": ["閱讀", "旅遊", "攝影"]
}

print("1. 預設行為（ensure_ascii=True，預設值）:")
json_default = json.dumps(data, indent=2)
print(json_default)
print()

print("2. 保留中文（ensure_ascii=False）:")
json_chinese = json.dumps(data, ensure_ascii=False, indent=2)
print(json_chinese)
print()

# 兩者都能正確解析
print("3. 解析驗證:")
parsed1 = json.loads(json_default)
parsed2 = json.loads(json_chinese)
print(f"解析結果相同: {parsed1 == parsed2}")
print()

# 檔案大小比較
print("4. 檔案大小比較:")
print(f"ASCII 編碼: {len(json_default)} bytes")
print(f"UTF-8 編碼: {len(json_chinese)} bytes")
print("建議：若需人類閱讀，使用 ensure_ascii=False")

**重點**：
- 預設會將中文轉為 `\uXXXX` 格式（Unicode 轉義）
- `ensure_ascii=False` 保留原始中文
- 兩種格式都能正確解析
- 建議：中文內容使用 `ensure_ascii=False`

---

### 範例 8：自訂 JSON 編碼器

**目標**：處理 JSON 不支援的資料型態

In [None]:
import json
from datetime import datetime, date

# 自訂編碼器
class CustomEncoder(json.JSONEncoder):
    def default(self, obj):
        # 處理日期時間
        if isinstance(obj, datetime):
            return obj.strftime('%Y-%m-%d %H:%M:%S')
        if isinstance(obj, date):
            return obj.strftime('%Y-%m-%d')
        # 處理集合
        if isinstance(obj, set):
            return list(obj)
        # 其他交給父類處理
        return super().default(obj)

# 測試資料
data = {
    "name": "專案報告",
    "created_at": datetime(2025, 10, 8, 14, 30, 0),
    "deadline": date(2025, 10, 15),
    "tags": {"Python", "JSON", "教學"},  # set
    "priority": "high"
}

print("1. 使用自訂編碼器:")
json_string = json.dumps(data, cls=CustomEncoder, ensure_ascii=False, indent=2)
print(json_string)
print()

# 方法 2：使用 default 函數
def custom_serializer(obj):
    if isinstance(obj, (datetime, date)):
        return obj.isoformat()
    if isinstance(obj, set):
        return list(obj)
    raise TypeError(f"無法序列化型態 {type(obj)}")

print("2. 使用 default 函數:")
json_string2 = json.dumps(data, default=custom_serializer, ensure_ascii=False, indent=2)
print(json_string2)

**重點**：
- JSON 原生只支援 6 種基本型態
- 自訂編碼器可處理特殊型態
- 兩種方法：繼承 `JSONEncoder` 或使用 `default` 參數
- 常見需求：datetime、set、自訂類別

---

### 範例 9：處理日期時間

**目標**：日期時間的序列化與反序列化

In [None]:
import json
from datetime import datetime

# 事件資料
event = {
    "title": "Python 工作坊",
    "start_time": datetime(2025, 10, 15, 9, 0, 0),
    "end_time": datetime(2025, 10, 15, 17, 0, 0),
    "location": "台北資策會"
}

# 序列化：datetime → str
def datetime_serializer(obj):
    if isinstance(obj, datetime):
        return obj.isoformat()  # ISO 8601 格式
    raise TypeError(f"無法序列化 {type(obj)}")

json_string = json.dumps(event, default=datetime_serializer, ensure_ascii=False, indent=2)
print("序列化結果:")
print(json_string)
print()

# 反序列化：str → datetime
def datetime_deserializer(dct):
    for key, value in dct.items():
        if isinstance(value, str):
            # 嘗試解析 ISO 8601 格式
            try:
                dct[key] = datetime.fromisoformat(value)
            except ValueError:
                pass  # 不是日期格式，保持原樣
    return dct

loaded_event = json.loads(json_string, object_hook=datetime_deserializer)
print("反序列化結果:")
print(loaded_event)
print(f"開始時間型態: {type(loaded_event['start_time'])}")
print()

# 驗證
duration = loaded_event['end_time'] - loaded_event['start_time']
print(f"活動時長: {duration.total_seconds() / 3600} 小時")

**重點**：
- `isoformat()` 生成標準 ISO 8601 格式
- `object_hook` 參數用於自訂反序列化
- 完整的往返轉換（round-trip）
- 實務中常用於 API 時間欄位

---

### 範例 10：處理複雜物件

**目標**：自訂類別的序列化

In [None]:
import json

# 自訂類別
class Student:
    def __init__(self, student_id, name, scores):
        self.student_id = student_id
        self.name = name
        self.scores = scores
    
    def average(self):
        return sum(self.scores) / len(self.scores)
    
    # 序列化方法
    def to_dict(self):
        return {
            "student_id": self.student_id,
            "name": self.name,
            "scores": self.scores,
            "average": self.average()
        }
    
    # 反序列化方法（類別方法）
    @classmethod
    def from_dict(cls, data):
        return cls(
            student_id=data['student_id'],
            name=data['name'],
            scores=data['scores']
        )
    
    def __repr__(self):
        return f"Student({self.student_id}, {self.name}, avg={self.average():.1f})"

# 建立學生物件
students = [
    Student(1, "Alice", [85, 90, 92]),
    Student(2, "Bob", [78, 85, 88]),
    Student(3, "Charlie", [92, 95, 98])
]

# 序列化
students_data = [s.to_dict() for s in students]
json_string = json.dumps(students_data, ensure_ascii=False, indent=2)

print("序列化結果:")
print(json_string)
print()

# 儲存到檔案
with open('students.json', 'w', encoding='utf-8') as f:
    json.dump(students_data, f, ensure_ascii=False, indent=2)

# 從檔案載入
with open('students.json', 'r', encoding='utf-8') as f:
    loaded_data = json.load(f)

# 反序列化為物件
loaded_students = [Student.from_dict(data) for data in loaded_data]

print("反序列化結果:")
for student in loaded_students:
    print(student)

**重點**：
- 提供 `to_dict()` 方法進行序列化
- 提供 `from_dict()` 類別方法進行反序列化
- 維持物件的完整性（包含計算欄位）
- 常用模式：物件 ↔ 字典 ↔ JSON

---

### 範例 11：JSON 驗證與錯誤處理

**目標**：檢測並處理 JSON 格式錯誤

In [None]:
import json

def validate_json(json_string):
    """驗證 JSON 格式是否正確"""
    try:
        json.loads(json_string)
        return True, "格式正確"
    except json.JSONDecodeError as e:
        return False, f"錯誤: {e.msg} (第 {e.lineno} 行, 第 {e.colno} 列)"

# 測試案例
test_cases = [
    # 正確
    ('{"name": "Alice", "age": 25}', "正確範例"),
    
    # 錯誤：使用單引號
    ("{'name': 'Alice'}", "錯誤：單引號"),
    
    # 錯誤：trailing comma
    ('{"name": "Alice",}', "錯誤：多餘逗號"),
    
    # 錯誤：未閉合
    ('{"name": "Alice"', "錯誤：未閉合"),
    
    # 錯誤：使用 Python 布林值
    ('{"active": True}', "錯誤：Python True"),
]

for json_str, description in test_cases:
    is_valid, message = validate_json(json_str)
    status = "✓" if is_valid else "✗"
    print(f"{status} {description}")
    print(f"  {message}")
    print()

# 安全的 JSON 載入函數
def safe_load_json(json_string, default=None):
    """安全載入 JSON，失敗時返回預設值"""
    try:
        return json.loads(json_string)
    except json.JSONDecodeError as e:
        print(f"JSON 解析失敗: {e}")
        return default

# 使用範例
result = safe_load_json("invalid json", default={})
print(f"安全載入結果: {result}")

**重點**：
- `JSONDecodeError` 提供詳細錯誤資訊
- 常見錯誤：單引號、trailing comma、未閉合
- 實務中應提供預設值或錯誤處理
- 使用 JSON 驗證工具（如 jsonlint）輔助除錯

---

### 範例 12：實戰 - API 資料處理

**目標**：模擬處理真實 API 回應

In [None]:
import json

# 模擬 API 回應（天氣資料）
api_response = '''
{
  "location": {
    "city": "台北市",
    "district": "信義區"
  },
  "current": {
    "temperature": 28.5,
    "humidity": 75,
    "condition": "多雲",
    "wind_speed": 12.3
  },
  "forecast": [
    {"day": "Monday", "high": 30, "low": 24, "rain_chance": 20},
    {"day": "Tuesday", "high": 29, "low": 23, "rain_chance": 40},
    {"day": "Wednesday", "high": 27, "low": 22, "rain_chance": 60}
  ],
  "timestamp": "2025-10-08T14:30:00+08:00"
}
'''

# 解析 API 回應
weather = json.loads(api_response)

# 提取關鍵資訊
print("=== 天氣資訊 ===")
print(f"地點: {weather['location']['city']} - {weather['location']['district']}")
print(f"目前溫度: {weather['current']['temperature']}°C")
print(f"天氣狀況: {weather['current']['condition']}")
print(f"濕度: {weather['current']['humidity']}%")
print()

print("=== 未來三天預報 ===")
for day_forecast in weather['forecast']:
    print(f"{day_forecast['day']:10s} "
          f"高溫 {day_forecast['high']}°C / 低溫 {day_forecast['low']}°C "
          f"降雨機率 {day_forecast['rain_chance']}%")
print()

# 資料分析
avg_high = sum(day['high'] for day in weather['forecast']) / len(weather['forecast'])
max_rain_chance = max(day['rain_chance'] for day in weather['forecast'])

print("=== 分析結果 ===")
print(f"平均高溫: {avg_high:.1f}°C")
print(f"最高降雨機率: {max_rain_chance}%")
print()

# 儲存處理後的資料
summary = {
    "地點": f"{weather['location']['city']}-{weather['location']['district']}",
    "目前溫度": weather['current']['temperature'],
    "平均高溫": round(avg_high, 1),
    "需要帶傘": max_rain_chance > 50
}

with open('weather_summary.json', 'w', encoding='utf-8') as f:
    json.dump(summary, f, ensure_ascii=False, indent=2)

print("摘要已儲存到 weather_summary.json")

**重點**：
- 處理巢狀 JSON 結構
- 提取和分析資料
- 生成摘要報告
- 實務流程：解析 → 處理 → 儲存

## Part III: 本章總結

---

### 📚 知識回顧

#### 核心方法總結

| 方法 | 功能 | 使用時機 |
|:-----|:-----|:---------|
| `json.dumps()` | Python → JSON 字串 | 準備傳輸或顯示 |
| `json.loads()` | JSON 字串 → Python | 解析接收到的資料 |
| `json.dump()` | Python → JSON 檔案 | 儲存資料 |
| `json.load()` | JSON 檔案 → Python | 載入資料 |

#### 重要參數

```python
json.dumps(
    obj,
    indent=2,              # 格式化縮排
    ensure_ascii=False,    # 保留中文
    sort_keys=True,        # 排序鍵
    default=serializer,    # 自訂序列化
    cls=CustomEncoder      # 自訂編碼器
)

json.loads(
    s,
    object_hook=deserializer  # 自訂反序列化
)
```

#### 型態對應

| Python | JSON | 注意事項 |
|:-------|:-----|:---------|
| dict | object | 鍵必須是字串 |
| list, tuple | array | tuple 會變成 list |
| str | string | 必須雙引號 |
| int, float | number | - |
| True, False | true, false | 小寫 |
| None | null | - |
| datetime, set | - | 需要自訂編碼器 |

### ⚠️ 常見誤區

#### 誤區 1：混淆字典與 JSON 字串
```python
# ✗ 錯誤
json_str = '{"name": "Alice"}'
print(json_str['name'])  # TypeError

# ✓ 正確
data = json.loads(json_str)
print(data['name'])  # Alice
```

#### 誤區 2：忘記處理中文
```python
# ✗ 不佳（中文變成 \uXXXX）
json.dumps(data)

# ✓ 正確
json.dumps(data, ensure_ascii=False)
```

#### 誤區 3：直接序列化特殊型態
```python
# ✗ 錯誤
data = {"time": datetime.now()}
json.dumps(data)  # TypeError

# ✓ 正確
data = {"time": datetime.now().isoformat()}
json.dumps(data)
```

#### 誤區 4：不處理格式錯誤
```python
# ✗ 不安全
data = json.loads(user_input)

# ✓ 安全
try:
    data = json.loads(user_input)
except json.JSONDecodeError as e:
    print(f"格式錯誤: {e}")
    data = {}
```

### ✅ 自我檢核

完成本章後，您應該能夠回答：

1. **JSON 的六種資料型態是什麼？各對應 Python 的哪些型態？**
2. **`dumps()` 和 `dump()` 有什麼差別？`loads()` 和 `load()` 呢？**
3. **如何格式化 JSON 輸出使其易讀？**
4. **如何正確處理包含中文的 JSON 資料？**
5. **如何序列化 JSON 不支援的型態（如 datetime、set）？**
6. **如何處理 JSON 格式錯誤？**
7. **在實務中，JSON 常用於哪些場景？**

若能清楚回答以上問題，表示您已掌握本章核心概念！

### 🔗 延伸閱讀

#### 官方文件
- [Python json 模組](https://docs.python.org/3/library/json.html)
- [JSON 規範 RFC 8259](https://tools.ietf.org/html/rfc8259)

#### 實用工具
- [JSONLint](https://jsonlint.com/) - JSON 驗證工具
- [JSON Formatter](https://jsonformatter.org/) - JSON 格式化工具
- [Public APIs](https://github.com/public-apis/public-apis) - 免費 API 列表

#### 進階主題
- JSON Schema - 資料結構驗證
- JSONP - 跨域資料請求
- JSON Lines - 串流 JSON 處理
- msgpack - 二進位 JSON 替代格式

#### 下一步
- **Chapter 25**: CSV 資料處理
- **Chapter 26**: 路徑管理（pathlib）
- **Milestone 7**: 待辦事項管理系統

---

### 🎯 本章重點

1. **JSON 是資料交換的通用格式**，語言無關
2. **四個核心方法**：dumps/loads（字串）、dump/load（檔案）
3. **處理中文**：務必使用 `ensure_ascii=False`
4. **格式化輸出**：使用 `indent` 和 `sort_keys`
5. **自訂編碼器**：處理 datetime、set 等特殊型態
6. **錯誤處理**：捕捉 `JSONDecodeError`
7. **實務應用**：API 資料、設定檔、資料儲存

**下一章預告**：我們將學習另一種常見的資料格式 CSV，並比較 JSON 與 CSV 的差異與應用場景。