## 程式碼結構與說明
### 1. 匯入模組
```python
import multiprocessing
```
- 匯入 multiprocessing 模組，讓程式能透過多核心 CPU 執行平行任務。

### 2. 定義 Map 函數
```python
def map_func(x):
    return x*x
```
- 這是 map 階段的處理函數。
- 每個元素 x 都會被平方（如 2 → 4）。

### 3. 定義 Reduce 函數
```python
def reduce_func(y):
    return sum(y)
```
- 將 map 的結果集合（list）作總和運算。
- 就是 reduce 階段的加總。

### 4. 建立輸入資料
```python
data = [1,2,3,4]
```

- 輸入資料是一組整數清單。

### 5. 初始化處理池（Process Pool）
```python
pool = multiprocessing.Pool(processes=2)
print("Pool size: ", pool._processes)
```
- 建立一個包含 **2 個子行程（processes）**的處理池 pool。

- `pool._processes` 用來顯示實際啟用的子行程數。

### 6. 平行執行 map 任務
```python
results = pool.map(map_func, data)
```

- `pool.map()` 方法會將 map_func 套用至 data 中的每個元素。
- 多個子行程會分工處理這些任務，加快處理速度。
- 結果為平方後的新清單：[1, 4, 9, 16]

### 7. 執行 Reduce 階段
```python
print("Map result:", results)
print("Final result:", reduce_func(results))
```

- 輸出 map 結果。

- 使用 reduce_func() 將平方後的結果加總：

- 1 + 4 + 9 + 16 = 30

### 執行結果預期
Pool size: 2

Map result: [1, 4, 9, 16]

Final result: 30




In [1]:
import multiprocessing

# Map function
def map_func(x):
    return x*x

# Reduce function
def reduce_func(y):
    return sum(y)

In [2]:
# Input data
data = [1,2,3,4]

# Initialize pool
pool = multiprocessing.Pool(processes=2)
print("Pool size: ", pool._processes)

# Parallel map
results = pool.map(map_func, data)

# Reduce result
print("Map result:", results)
print("Final result:", reduce_func(results))

Pool size:  2
Map result: [1, 4, 9, 16]
Final result: 30


## 什麼是 MapReduce？

MapReduce 是一種處理大量資料的分散式計算模型，由 Google 提出，主要分為兩個階段：

### Map 階段：

- 對每筆輸入資料進行獨立處理，產生中間結果。

- 通常形式為 key → value 配對。

### Reduce 階段：

- 收集所有來自 Map 階段的資料，針對相同的 key 做彙整、聚合（如加總、平均等）。

### MapReduce 的特色是：

- 可平行化處理大量資料

- 可彈性擴展到多台機器（cluster）

- 適合實作在 Hadoop、Spark 等大數據平台上

## 此程式與真正 MapReduce 的差異與關聯（條列式）
### 相同點（關聯）

- 利用 Map 階段 對每筆資料產出 (key, value) 結果。

- 利用 Reduce 階段 聚合相同 key 的資料。

- 採用 平行處理（透過 multiprocessing.Pool()）模擬分散式運算。

- 適合用於統計、聚合等工作負載的基礎練習。

### 不同點（差異）

- 執行環境

  - 本程式：單機、多核心平行處理
  - MapReduce：分散式叢集（Hadoop、Spark）

- 資料規模

  - 本程式：小型資料，記憶體內即可處理
  - MapReduce：PB 級大數據，支援橫向擴展

- 容錯能力

  - 本程式：無容錯設計
  - MapReduce：內建節點錯誤偵測與重試機制

- Map / Reduce 階段自動管理

  - 本程式：使用者手動寫好 Map / Reduce 邏輯與資料分配
  - MapReduce：系統自動調度資料分區與任務

- Key-Value 結構完整性

  - 本程式：可模擬 key-value 聚合邏輯
  - MapReduce：強制使用 key-value 資料模型，並提供排序、分群等機制

- 資料來源與儲存

    - 本程式：資料直接寫在程式內，或簡單切割
    - MapReduce：通常從 HDFS 或其他分散式檔案系統中讀取與寫入

Key-Value（key-value aggregation） 的 MapReduce 模式版本。模擬類似 Hadoop 的「單字計數（Word Count）」邏輯：

### 字數統計

- Map 階段：將輸入資料轉為 (key, value) 格式

- Reduce 階段：針對相同的 key 做彙總
