# 矩阵运算示例

### 使用Python代码创建矩阵

In [None]:
# 使用Python代码构建矩阵示例
# 用嵌套列表构造矩阵
A = [[1,2],
     [3,4],
     [5,6]]

# 取出行向量
print(A[0])
print([A[0]])

# 取出列向量
print([row[1] for row in A])
print([[row[1] for row in A]])  

In [None]:
# 矩阵加法运算示例
A = [[1, 2], [3, 4], [5, 6]]
B = [[7, 8], [9, 10], [11, 12]]
C = [[0 for _ in range(2)] for _ in range(3)]

for i in range(3):      # 遍历行
    for j in range(2):  # 遍历列
        C[i][j] = A[i][j] + B[i][j]

print("矩阵A + 矩阵B 的结果：")
for row in C:
    print(row)
    

In [None]:
# 矩阵乘法运算示例，矩阵乘法要求A的列数要等于B的行数，结果矩阵的行数量等于A的行数，列数量等于B的列数
# 定义3x2矩阵和2x3矩阵
A = [[1, 2], [3, 4], [5, 6]]
B = [[7, 8, 9], [10, 11, 12]]
C = [[0 for _ in range(3)] for _ in range(3)]

for i in range(3):            # 遍历第一个矩阵的行
    for j in range(3):        # 遍历第二个矩阵的列
        for k in range(2):    # 遍历第一个矩阵的列（或第二个矩阵的行）
            C[i][j] += A[i][k] * B[k][j]

print("矩阵A x 矩阵B 的结果：")
for row in C:
    print(row)

### 在NumPy中使用矩阵

In [None]:
# NumPy数组的属性
import numpy as np

arr = np.array([[1, 2, 3], [4, 5, 6]], dtype=np.float64)

print(f"\nArray:\n{arr}")
print(f"ndim: {arr.ndim}")      # 输出: 2
print(f"shape: {arr.shape}")    # 输出: (2, 3)
print(f"size: {arr.size}")      # 输出: 6
print(f"dtype: {arr.dtype}")    # 输出: float64
print(f"itemsize: {arr.itemsize}") # 输出: 8 (因为是 float64)
print(f"Transpose:\n{arr.T}")   # 输出转置后的数组
# Transpose:
# [[1. 4.]
#  [2. 5.]
#  [3. 6.]]

In [None]:
# 在NumPy中创建数组
import numpy as np

# 从 Python 列表创建一个一维数组
list1 = [1, 2, 3, 4, 5]
arr_from_list = np.array(list1)
print("从列表创建的数组:\n", arr_from_list)

# 从 Python 嵌套列表创建一个二维数组
list2d = [[1, 2, 3], [4, 5, 6]]
arr_from_list2d = np.array(list2d)
print("\n从嵌套列表创建的数组:\n", arr_from_list2d)

# 从 Python 元组创建一个数组
tuple1 = (10, 20, 30)
arr_from_tuple = np.array(tuple1)
print("\n从元组创建的数组:\n", arr_from_tuple)

# 指定数据类型创建数组
arr_with_dtype = np.array([1, 2, 3], dtype=np.float64)
print("\n指定数据类型为 float64 的数组:\n", arr_with_dtype)

# 指定最小维数
arr_ndmin = np.array([1, 2, 3], ndmin=2) # 创建一个形状为 (1, 3) 的二维数组
print("\n指定最小维数为 2 的数组:\n", arr_ndmin)
print("形状:", arr_ndmin.shape)

# 从现有 NumPy 数组创建 (默认会复制)
original_arr = np.array([1, 2, 3])
copied_arr = np.array(original_arr) # 默认 copy=True
copied_arr[0] = 99
print("\n原始数组:", original_arr)
print("复制的数组 (修改后):", copied_arr)

# 不复制数据 (如果可能)
original_arr2 = np.array([1, 2, 3])
# 如果 original_arr2 已经是 ndarray 并且符合要求，将不会创建新的底层数据缓冲区
view_arr = np.array(original_arr2, copy=False)
view_arr[0] = 99
print("\n原始数组:", original_arr2) # 注意：原始数组也被修改了，因为它们共享数据
print("视图数组 (修改后):", view_arr)

In [None]:
# 创建在一定区间内均匀分隔的数组
import numpy as np

# 创建一个从 0 到 10 之间包含 5 个均匀间隔点的数组 (包含 0 和 10)
arr1 = np.linspace(0, 10, 5)
print("np.linspace(0, 10, 5):\n", arr1)

# 创建一个从 0 到 10 之间包含 5 个点，但不包含 10
arr2 = np.linspace(0, 10, 5, endpoint=False)
print("\nnp.linspace(0, 10, 5, endpoint=False):\n", arr2)

# 创建一个从 -5 到 5 之间包含 11 个点的数组，并返回步长
arr3, step = np.linspace(-5, 5, 11, retstep=True)
print("\nnp.linspace(-5, 5, 11, retstep=True):\n", arr3)
print("步长:", step)

# 创建包含 20 个点的数组，数据类型为 float32
arr4 = np.linspace(0, 1, 20, dtype=np.float32)
print("\nnp.linspace(0, 1, 20, dtype=np.float32):\n", arr4)

#### 数组形状操作

In [None]:
# 改变形状
import numpy as np
a = np.arange(12) # [ 0  1  2  3  4  5  6  7  8  9 10 11]
b = a.reshape(3, 4)
print("\nreshape() example:")
print("Original (a):\n", a)
print("Reshaped (b):\n", b)
# [[ 0  1  2  3]
#  [ 4  5  6  7]
#  [ 8  9 10 11]]

# 尝试修改 reshape 后的数组，看是否影响原数组（判断是视图还是副本）
b[0, 0] = 99
print("Modified b:\n", b)
print("Original a after b modification:\n", a) # a[0] 也变成了 99，说明 b 是 a 的视图

In [None]:
# 改变数组大小
import numpy as np

c = np.array([[1, 2], [3, 4]])
print("\nresize() example:")
print("Original c:\n", c)
c.resize((3, 2)) # 就地修改 c
print("Resized c (larger, filled with 0):\n", c)
# [[1 2]
#  [3 4]
#  [0 0]]

d = np.arange(6) # 创建均匀间隔的数组
print("Original d:", d)
d.resize((2, 2))
print("Resized d (smaller, truncated):", d) # [[0 1] [2 3]]

In [None]:
# 展平数组
import numpy as np

arr_2d = np.array([[1, 2, 3], [4, 5, 6]])
print("\nravel() example:")
print("Original 2D array:\n", arr_2d)
arr_raveled = arr_2d.ravel()
print("Raveled array:", arr_raveled) # [1 2 3 4 5 6]

# 尝试修改 flattened 数组
arr_flattened = arr_2d.flatten()
arr_flattened[0] = 200
print("Modified flattened array:", arr_flattened)
print("Original 2D array after modification:\n", arr_2d) # arr_2d[0,0] 未变，是副本

# 尝试修改 raveled 数组
arr_raveled[0] = 100
print("Modified raveled array:", arr_raveled)
print("Original 2D array after modification:\n", arr_2d) # arr_2d[0,0] 也变了，是视图

#### 计算与统计示例

In [None]:
import numpy as np

arr = np.array([[1, 2, 3], [4, 5, 6]])
print("\nsum() example:")
print("Original array:\n", arr)
print("Sum of all elements:", arr.sum())            # 1+2+3+4+5+6 = 21
print("Sum along axis 0 (columns):", arr.sum(axis=0)) # [1+4, 2+5, 3+6] = [5 7 9]
print("Sum along axis 1 (rows):", arr.sum(axis=1))    # [1+2+3, 4+5+6] = [ 6 15]
print("Sum with keepdims=True (axis=1):\n", arr.sum(axis=1, keepdims=True))
# [[ 6]
#  [15]] (shape is (2, 1))

print("\nmean() example:")
print("Mean of all elements:", arr.mean())       # 21 / 6 = 3.5
print("Mean along axis 0:", arr.mean(axis=0)) # [2.5 3.5 4.5]
print("Mean along axis 1:", arr.mean(axis=1)) # [2. 5.]

# 方差与标准差
print("\n整个数组的标准差:", np.std(arr))          # 输出: 整个数组的标准差: 1.707825127659933
print("按列标准差:", np.std(arr, axis=0))      # 输出: 按列标准差: [1.5 1.5 1.5]

print("\n整个数组的方差:", np.var(arr))          # 输出: 整个数组的方差: 2.9166666666666665
print("按列方差:", np.var(arr, axis=0))      # 输出: 按列方差: [2.25 2.25 2.25]

#### 排序示例

In [None]:
import numpy as np

arr = np.array([[3, 1, 4], [1, 5, 9]])
print("\nsort() example:")
print("Original array:\n", arr)
arr.sort(axis=1) # 沿行排序 (就地修改)
print("Sorted along axis 1 (rows):\n", arr)
# [[1 3 4]
#  [1 5 9]]
arr.sort(axis=0) # 沿列排序 (就地修改)
print("Sorted along axis 0 (columns):\n", arr)
# [[1 3 4]
#  [1 5 9]] (在上一步基础上排序)

#### 随机数生成示例

In [None]:
import numpy as np

print("\n--- Legacy API - rand / randn ---")
print("np.random.rand(2, 3):\n", np.random.rand(2, 3)) # 2x3 均匀分布

print("np.random.randn(2, 2):\n", np.random.randn(2, 2)) # 2x2 标准正态分布

print("np.random.normal(10, 2, size=5):", np.random.normal(10, 2, size=5)) # 均值 10，标准差 2

### 矩阵运算示例

#### 初始化

In [None]:
import numpy as np

# 设置随机种子以确保结果可复现（可选）
np.random.seed(42)

# --- 初始化矩阵 ---
# 初始化一个 3x4 的矩阵 A，元素为 [0, 1) 之间的随机浮点数
A = np.random.rand(3, 4)
# 初始化一个 4x3 的矩阵 B，元素为 [0, 1) 之间的随机浮点数
B = np.random.rand(4, 3)
# 初始化一个与 A 形状相同的矩阵 C，用于演示元素级运算
C = np.random.rand(3, 4)
# 初始化一个标量
scalar = 0.5
# 初始化一个偏置向量（将在广播中使用）
# 假设用于 A @ B 的结果（3x3），偏置可以是 (3,) 或 (1, 3)
bias = np.random.rand(3) # Shape (3,)

print("--- 初始化矩阵 ---")
print(f"矩阵 A (3x4):\n{A}\n")
print(f"矩阵 B (4x3):\n{B}\n")
print(f"矩阵 C (3x4):\n{C}\n")
print(f"标量 scalar: {scalar}\n")
print(f"偏置向量 bias (shape {bias.shape}): {bias}\n")

#### 矩阵乘法

In [None]:
# --- 1. 矩阵乘法 (Dot Product) ---
# 这是大模型中最核心的运算之一，用于线性变换等
# A (3x4) @ B (4x3) 结果是 3x3
matmul_AB = A @ B
# 或者使用 np.dot()
# matmul_AB = np.dot(A, B)
print("--- 1. 矩阵乘法 (A @ B) ---")
print(f"形状: {matmul_AB.shape}")
print(f"结果 (3x3):\n{matmul_AB}\n")

# B (4x3) @ A (3x4) 结果是 4x4
matmul_BA = B @ A
print("--- 1. 矩阵乘法 (B @ A) ---")
print(f"形状: {matmul_BA.shape}")
print(f"结果 (4x4):\n{matmul_BA}\n")

#### 元素加法 (Element-wise Addition) & 广播

In [None]:
# --- 2. 元素加法 (Element-wise Addition) & 广播 ---
# 用于添加偏置、残差连接等
# 两个形状相同的矩阵相加
add_AC = A + C
print("--- 2. 元素加法 (A + C) ---")
print(f"形状: {add_AC.shape}")
print(f"结果 (3x4):\n{add_AC}\n")

# 广播示例：将偏置向量 bias 加到 matmul_AB (3x3) 的每一行
# bias (3,) 会被广播成 (1, 3)，然后扩展到 (3, 3) 与 matmul_AB 相加
add_bias = matmul_AB + bias
print("--- 2. 元素加法 (广播) (A @ B + bias) ---")
print(f"形状: {add_bias.shape}")
print(f"结果 (3x3):\n{add_bias}\n")

#### 元素乘法 (Element-wise Multiplication / Hadamard Product)

In [None]:
# --- 3. 元素乘法 (Element-wise Multiplication / Hadamard Product) ---
# 用于门控机制、缩放等
# 两个形状相同的矩阵 A 和 C 进行元素乘法
elemwise_mul = A * C
print("--- 3. 元素乘法 (A * C) ---")
print(f"形状: {elemwise_mul.shape}")
print(f"结果 (3x4):\n{elemwise_mul}\n")

#### 转置 (Transpose)

In [None]:
# 在注意力机制等处常用
transpose_A = A.T
transpose_B = B.T
print("--- 4. 转置 ---")
print(f"A 的转置 (A.T) (形状 {transpose_A.shape}):\n{transpose_A}\n")
print(f"B 的转置 (B.T) (形状 {transpose_B.shape}):\n{transpose_B}\n")

#### 激活函数 (Element-wise Activation - 以 ReLU 为例)

In [None]:
# --- 5. 激活函数 (Element-wise Activation - 以 ReLU 为例) ---
# 对矩阵 A 的每个元素应用 ReLU: max(0, element)
relu_A = np.maximum(0, A) # 这里 A 恰好都是正数，换个包含负数的例子更明显
temp_mat = np.random.randn(3, 4) # 标准正态分布，包含负数
relu_temp = np.maximum(0, temp_mat)
print("--- 5. 激活函数 (ReLU 应用于随机矩阵) ---")
print(f"临时随机矩阵 (3x4):\n{temp_mat}\n")
print(f"应用 ReLU 后的结果 (3x4):\n{relu_temp}\n")

#### 求和/归约 (Summation/Reduction)

In [None]:
# --- 6. 求和/归约 (Summation/Reduction) ---
# 用于归一化、损失计算等
sum_A_all = np.sum(A) # 对 A 中所有元素求和
sum_A_axis0 = np.sum(A, axis=0) # 沿着轴 0 (行) 求和，得到每列的和 (shape (4,))
sum_A_axis1 = np.sum(A, axis=1) # 沿着轴 1 (列) 求和，得到每行的和 (shape (3,))
print("--- 6. 求和/归约 ---")
print(f"A 所有元素之和: {sum_A_all}")
print(f"A 沿轴 0 (列) 求和 (shape {sum_A_axis0.shape}): {sum_A_axis0}")
print(f"A 沿轴 1 (行) 求和 (shape {sum_A_axis1.shape}): {sum_A_axis1}\n")
# mean() 的用法类似
mean_A_axis1 = np.mean(A, axis=1)
print(f"A 沿轴 1 (行) 求均值 (shape {mean_A_axis1.shape}): {mean_A_axis1}\n")

#### 标量乘法 (Scalar Multiplication)

In [None]:
# --- 7. 标量乘法 (Scalar Multiplication) ---
# 用于缩放、学习率调整等
scalar_mul_A = scalar * A
print("--- 7. 标量乘法 (scalar * A) ---")
print(f"形状: {scalar_mul_A.shape}")
print(f"结果 (3x4):\n{scalar_mul_A}\n")

#### 其他常用运算（在大模型中不那么核心，但基础）

In [None]:
# 求逆 (Inverse) - 仅适用于方阵，且可逆
# matmul_AB 是 3x3 方阵，我们尝试求逆
try:
    inv_matmul_AB = np.linalg.inv(matmul_AB)
    print("--- 其他：求逆 (Inverse of A @ B) ---")
    print(f"形状: {inv_matmul_AB.shape}")
    print(f"结果 (3x3):\n{inv_matmul_AB}\n")
    # 验证: (A @ B) @ inv(A @ B) 应该接近单位矩阵 I
    identity_check = matmul_AB @ inv_matmul_AB
    print(f"验证 (A@B @ inv(A@B)) - 接近单位矩阵:\n{np.round(identity_check, decimals=5)}\n") # round 用于显示清晰
except np.linalg.LinAlgError:
    print("矩阵 matmul_AB 是奇异矩阵（不可逆）。\n")

# 行列式 (Determinant) - 仅适用于方阵
det_matmul_AB = np.linalg.det(matmul_AB)
print("--- 其他：行列式 (Determinant of A @ B) ---")
print(f"结果 (标量): {det_matmul_AB}\n")

# 迹 (Trace) - 仅适用于方阵
trace_matmul_AB = np.trace(matmul_AB)
print("--- 其他：迹 (Trace of A @ B) ---")
print(f"结果 (标量): {trace_matmul_AB}\n")


#### 奇异值分解 (Singular Value Decomposition - SVD)

In [None]:
# 适用于任意矩阵 (m x n)
# U: m x m 正交矩阵，其列是 AA^T 的特征向量 (左奇异向量)
# s: 奇异值 (一维数组，通常是按降序排列)
# Vh: n x n 正交矩阵的共轭转置，其行是 A^T A 的特征向量 (右奇异向量)
# 对于实数矩阵，Vh 就是 V 的转置
U, s, Vh = np.linalg.svd(A)
print("--- 新增：奇异值分解 (SVD) for A ---")
print(f"矩阵 A (3x4):\n{A}\n")
print(f"左奇异向量 U (形状 {U.shape}):\n{U}\n")
print(f"奇异值 s (形状 {s.shape}):\n{s}\n")
print(f"右奇异向量的共轭转置 Vh (形状 {Vh.shape}):\n{Vh}\n")

# 验证 SVD 分解: U @ Sigma @ Vh 应该还原原始矩阵 A
# 注意：奇异值 s 是一个一维数组，需要将其转换为对角矩阵才能进行矩阵乘法
Sigma = np.zeros(A.shape) # 创建一个与 A 相同形状的零矩阵
Sigma[:A.shape[0], :A.shape[0]] = np.diag(s) # 将奇异值填充到对角线
reconstructed_A = U @ Sigma @ Vh
print(f"通过 SVD 重构的矩阵 A (接近原始 A):\n{np.round(reconstructed_A, decimals=5)}\n")

#### 矩阵/向量范数 (Norm)

In [None]:
# np.linalg.norm(x, ord=None, axis=None, keepdims=False)
# ord 参数指定范数的类型
# ord=1: L1 范数 (向量元素绝对值之和，矩阵是列向量绝对值之和的最大值)
# ord=2: L2 范数 (向量元素平方和的平方根，矩阵是最大奇异值)
# ord='fro': Frobenius 范数 (矩阵所有元素平方和的平方根)

print("--- 新增：矩阵/向量范数 ---")

# L1 范数 (曼哈顿范数)
norm_A_L1 = np.linalg.norm(A, ord=1)
print(f"矩阵 A 的 L1 范数 (列和范数): {norm_A_L1:.4f}\n")

# L2 范数 (欧几里得范数 / 谱范数)
norm_A_L2 = np.linalg.norm(A, ord=2)
print(f"矩阵 A 的 L2 范数 (最大奇异值): {norm_A_L2:.4f}\n")

# Frobenius 范数 (F-范数)
norm_A_Fro = np.linalg.norm(A, ord='fro')
print(f"矩阵 A 的 Frobenius 范数: {norm_A_Fro:.4f}\n")

# 向量 bias 的 L1 范数
norm_bias_L1 = np.linalg.norm(bias, ord=1)
print(f"向量 bias 的 L1 范数: {norm_bias_L1:.4f}\n")

# 向量 bias 的 L2 范数
norm_bias_L2 = np.linalg.norm(bias, ord=2)
print(f"向量 bias 的 L2 范数: {norm_bias_L2:.4f}\n")