# 卷積的矩陣化

這樣的做法主要是能提升卷積計算的效能。

In [58]:
import numpy as np

# im2row 的第一個版本，使用雙層迴圈遍歷空間維度
# 這個版本的效率較低，因為 Python 的迴圈性能不佳，實際使用中建議改用基於索引的版本 (im2row_indices)
# 參數：x: 輸入圖片 (N, C, H, W), kH: 卷積核高度, kW: 卷積核寬度, S: 步長 (Stride)
def im2row(x, kH, kW, S=1):
    # N: 樣本數, C: 通道數, H: 影像高度, W: 影像寬度
    N, C, H, W = x.shape
    
    # 計算輸出特徵圖 (Feature Map) 的空間維度
    oH = (H - kH) // S + 1
    oW = (W - kW) // S + 1
    
    # 初始化一個空的矩陣來存放結果
    # 列數 (Rows)：總共會取出的區塊數量 (N * 輸出高度 * 輸出寬度)
    # 欄數 (Cols)：每個區塊攤平後的總像素點 (卷積核高 * 卷積核寬 * 通道數)
    row = np.empty((N * oH * oW, kH * kW * C))
    
    oSize = oH * oW  # 單張圖片產生的區塊總數
    
    # 透過雙層迴圈遍歷所有輸出的座標點 (h, w)
    for h in range(oH):
        hS = h * S           # 窗口在原始影像上的垂直起始位置
        hS_kH = hS + kH      # 窗口在原始影像上的垂直結束位置
        h_start = h * oW     # 這是為了定位目前在 oSize 中的相對索引
        
        for w in range(oW):
            wS = w * S       # 窗口在原始影像上的水平起始位置
            
            # 1. 擷取區塊 (Patch)：從所有樣本中取出該位置的窗口
            # patch 的維度維 (N, C, kH, kW)
            patch = x[:, :, hS:hS_kH, wS:wS + kW]
            
            # 2. 攤平並填入矩陣：
            # 利用步進切片 (Step Slicing) [h_start+w::oSize] 
            # 將 N 個樣本的相同位置區塊，分散填入對應的 Row
            # 例如：row[0] 是第一個樣本的區塊1, row[oSize] 是第二個樣本的區塊1
            row[h_start + w::oSize, :] = np.reshape(patch, (N, -1))
            
    return row

In [59]:
# x = np.arange(15).reshape(3, 1, 1, 5)  # (N=3, C=1, H=1, W=5) 的輸入影像
# print("Input Image (N, C, H, W):")
# print(x)

# x_row = im2row(x, 1, 4, S=1)
# print("\nOutput of im2row (N*oH*oW, kH*kW*C):")
# print(x_row)

In [60]:
x = np.arange(18).reshape(1, 2, 3, 3)  # (N=1, C=2, H=3, W=3)
print("Input Image (N, C, H, W):")
print(x)

x_row = im2row(x, 2, 2, S=1)
print("\nOutput of im2row (N*oH*oW, kH*kW*C):")
print(x_row)

Input Image (N, C, H, W):
[[[[ 0  1  2]
   [ 3  4  5]
   [ 6  7  8]]

  [[ 9 10 11]
   [12 13 14]
   [15 16 17]]]]

Output of im2row (N*oH*oW, kH*kW*C):
[[ 0.  1.  3.  4.  9. 10. 12. 13.]
 [ 1.  2.  4.  5. 10. 11. 13. 14.]
 [ 3.  4.  6.  7. 12. 13. 15. 16.]
 [ 4.  5.  7.  8. 13. 14. 16. 17.]]


In [61]:
# x = np.arange(36).reshape(2, 2, 3, 3)  # (N=2, C=2, H=3, W=3) 的輸入影像
# print("Input Image (N, C, H, W):")
# print(x)

# x_row = im2row(x, 2, 2, S=1)
# print("\nOutput of im2row (N*oH*oW, kH*kW*C):")
# print(x_row)

In [62]:
def conv_forward(X, K, S=1, P=0):
    """
    卷積層的前向傳播 (Forward Pass)
    """
    N, C, H, W  = X.shape      # 輸入資料的維度 (Batch, Channel, Height, Width)
    F, C_k, kH, kW = K.shape   # 卷積核 (Kernel/Filter) 維度
    
    # 處理補零 (Padding)
    if P == 0:
        X_pad = X
    else:
        # 在 H 與 W 維度進行常數補零
        X_pad = np.pad(X, ((0, 0), (0, 0), (P, P), (P, P)), 'constant')
   
    # 核心優化：將圖片區塊轉換成矩陣行 (im2row)，方便後續進行矩陣運算 (Matrix Multiplication)
    X_row = im2row(X_pad, kH, kW, S)
    
    # 將卷積核攤平 (Flatten) 並轉置，準備進行點積
    K_col = K.reshape(K.shape[0], -1).transpose()    
    
    # 執行矩陣相乘，這是卷積運算效能最高的核心步驟
    Z_row = np.dot(X_row, K_col)
    
    # 計算輸出特徵圖 (Feature Map) 的空間維度
    oH = (X_pad.shape[2] - kH) // S + 1
    oW = (X_pad.shape[3] - kW) // S + 1
    
    # 將結果從矩陣形式 Reshape 回 (N, C, H, W) 格式
    Z = Z_row.reshape(N, oH, oW, -1)
    Z = Z.transpose(0, 3, 1, 2) # 調整維度順序為 (Batch, Filter, Height, Width)
    return Z

In [63]:
import numpy as np

# 假設之前的 im2row 與 conv_forward 已定義
x = np.arange(9).reshape(1, 1, 3, 3) + 1  # 數值 1~9
k = np.arange(4).reshape(1, 1, 2, 2) + 1  # 數值 1~4

print("--- 輸入影像 (Input) ---")
print(x[0, 0])

print("\n--- 卷積核 (Kernel) ---")
print(k[0, 0])

# 呼叫 im2row (輸入, 卷積核高, 卷積核寬, 步長)
x_row = im2row(x, 2, 2, S=1)

print("\n--- im2row 後的矩陣形式 (X_row) ---")
# 每一列代表一個滑動窗口
print(x_row)

z = conv_forward(x, k)

print("\n--- 輸出結果 (Output Z) ---")
print("Shape:", z.shape)
print(z[0, 0])

--- 輸入影像 (Input) ---
[[1 2 3]
 [4 5 6]
 [7 8 9]]

--- 卷積核 (Kernel) ---
[[1 2]
 [3 4]]

--- im2row 後的矩陣形式 (X_row) ---
[[1. 2. 4. 5.]
 [2. 3. 5. 6.]
 [4. 5. 7. 8.]
 [5. 6. 8. 9.]]

--- 輸出結果 (Output Z) ---
Shape: (1, 1, 2, 2)
[[37. 47.]
 [67. 77.]]


In [64]:
import numpy as np

# 建立輸入資料 (Input Tensor)，維度為 (N=2, C=2, H=3, W=3)
x = np.arange(36).reshape(2, 2, 3, 3)

# 建立卷積核 (Kernel)，維度為 (F=2, C=2, kH=2, kW=2)
k = np.arange(16).reshape(2, 2, 2, 2)

# 執行卷積的前向傳播運算
z = conv_forward(x, k)

# 印出輸出張量的維度 (Shape)
print(z.shape)

# 印出運算後的數值結果
print(z)

(2, 2, 2, 2)
[[[[ 268.  296.]
   [ 352.  380.]]

  [[ 684.  776.]
   [ 960. 1052.]]]


 [[[ 772.  800.]
   [ 856.  884.]]

  [[2340. 2432.]
   [2616. 2708.]]]]
