# 矩阵乘法的原理和实现

本笔记本介绍了矩阵乘法的原理、代码实现以及在TensorFlow中的实现方法。

In [None]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

## 1. 矩阵乘法的基本原理

In [None]:
print("矩阵乘法的基本原理:")
print("- 矩阵A (m×k) 与矩阵B (k×n) 相乘，结果为矩阵C (m×n)")
print("- 矩阵C的元素C[i][j] = A的第i行与B的第j列的点积")
print("- 矩阵乘法满足结合律，但不满足交换律")

print("\n矩阵乘法的数学表示:")
print("C = A × B")
print("其中 C[i][j] = Σ(A[i][k] * B[k][j]) ，k从1到矩阵A的列数")

## 2. 手动实现矩阵乘法

In [None]:
def matrix_multiply(A, B):
    """
    手动实现矩阵乘法
    
    参数:
    A: 第一个矩阵 (m×k)
    B: 第二个矩阵 (k×n)
    
    返回:
    C: 矩阵乘积 (m×n)
    """
    # 检查矩阵维度是否匹配
    if A.shape[1] != B.shape[0]:
        raise ValueError("矩阵维度不匹配: A的列数必须等于B的行数")
    
    # 获取矩阵维度
    m, k = A.shape
    _, n = B.shape
    
    # 初始化结果矩阵
    C = np.zeros((m, n))
    
    # 计算矩阵乘积
    for i in range(m):
        for j in range(n):
            for p in range(k):
                C[i, j] += A[i, p] * B[p, j]
    
    return C

# 测试手动实现的矩阵乘法
A = np.array([[1, 2, 3], [4, 5, 6]])
B = np.array([[7, 8], [9, 10], [11, 12]])

print("矩阵A:")
print(A)

print("\n矩阵B:")
print(B)

C_manual = matrix_multiply(A, B)
print("\n手动实现的矩阵乘积C:")
print(C_manual)

## 3. 使用NumPy实现矩阵乘法

In [None]:
# 使用NumPy的dot函数实现矩阵乘法
C_numpy = np.dot(A, B)
print("NumPy实现的矩阵乘积C:")
print(C_numpy)

# 验证两种方法的结果是否一致
print("\n结果是否一致:", np.allclose(C_manual, C_numpy))

# 也可以使用@运算符 (Python 3.5+)
C_at = A @ B
print("\n使用@运算符的矩阵乘积C:")
print(C_at)

## 4. 矩阵乘法的性能对比

In [None]:
import time

# 生成较大的随机矩阵
size = 100
A_large = np.random.rand(size, size)
B_large = np.random.rand(size, size)

# 测试手动实现的性能
start_time = time.time()
C_manual_large = matrix_multiply(A_large, B_large)
manual_time = time.time() - start_time
print(f"手动实现的运行时间: {manual_time:.6f} 秒")

# 测试NumPy实现的性能
start_time = time.time()
C_numpy_large = np.dot(A_large, B_large)
numpy_time = time.time() - start_time
print(f"NumPy实现的运行时间: {numpy_time:.6f} 秒")

# 计算性能提升
speed_up = manual_time / numpy_time
print(f"NumPy比手动实现快 {speed_up:.2f} 倍")

## 5. TensorFlow中的矩阵乘法

In [None]:
try:
    import tensorflow as tf
    print(f"TensorFlow版本: {tf.__version__}")
    
    # 创建TensorFlow张量
    tf_A = tf.constant(A)
    tf_B = tf.constant(B)
    
    # 使用tf.matmul实现矩阵乘法
    tf_C = tf.matmul(tf_A, tf_B)
    print("\nTensorFlow实现的矩阵乘积C:")
    print(tf_C.numpy())
    
    # 也可以使用@运算符
    tf_C_at = tf_A @ tf_B
    print("\n使用@运算符的TensorFlow矩阵乘积C:")
    print(tf_C_at.numpy())
    
    # 验证结果是否一致
    print("\n与NumPy结果是否一致:", np.allclose(tf_C.numpy(), C_numpy))
    
except ImportError:
    print("TensorFlow未安装，跳过TensorFlow示例")
    print("请使用 'pip install tensorflow' 安装TensorFlow")

## 6. 矩阵乘法在神经网络中的应用

In [None]:
print("矩阵乘法在神经网络中的应用:")
print("1. 线性变换层: Z = W × X + b")
print("   - W: 权重矩阵")
print("   - X: 输入特征矩阵")
print("   - b: 偏置向量")
print("   - Z: 线性变换结果")

print("\n2. 批量处理:")
print("   - 输入形状: (batch_size, input_features)")
print("   - 权重形状: (input_features, output_features)")
print("   - 输出形状: (batch_size, output_features)")

print("\n3. 前向传播:")
print("   - 每一层的计算都涉及矩阵乘法")
print("   - 向量化实现大大提高了计算效率")

## 7. 矩阵乘法的实际应用示例

In [None]:
# 神经网络中的线性变换示例
def neural_network_linear_layer(X, W, b):
    """
    神经网络中的线性变换层
    
    参数:
    X: 输入特征 (batch_size, input_features)
    W: 权重矩阵 (input_features, output_features)
    b: 偏置向量 (output_features,)
    
    返回:
    Z: 线性变换结果 (batch_size, output_features)
    """
    return np.dot(X, W) + b

# 示例参数
batch_size = 32
input_features = 64
output_features = 32

# 生成随机数据
X = np.random.rand(batch_size, input_features)
W = np.random.randn(input_features, output_features) * np.sqrt(2 / input_features)
b = np.zeros(output_features)

# 执行线性变换
Z = neural_network_linear_layer(X, W, b)
print(f"输入形状: {X.shape}")
print(f"权重形状: {W.shape}")
print(f"偏置形状: {b.shape}")
print(f"输出形状: {Z.shape}")

## 8. 矩阵乘法总结

In [None]:
print("矩阵乘法总结:")
print("1. 基本原理: 矩阵A (m×k) 与矩阵B (k×n) 相乘得到矩阵C (m×n)")
print("2. 实现方法:")
   "- 手动实现: 三层嵌套循环，效率低")
   "- NumPy实现: 使用np.dot()或@运算符，效率高")
   "- TensorFlow实现: 使用tf.matmul()或@运算符，支持GPU加速")
print("3. 在神经网络中的应用:")
   "- 线性变换层的计算")
   "- 批量数据的并行处理")
   "- 前向传播和反向传播")
print("4. 性能考虑:")
   "- 向量化实现比标量实现快得多")
   "- NumPy和TensorFlow利用了底层优化")
   "- 对于大规模计算，考虑使用GPU加速")