# 行/列提取
$A\in R^{m\times n}$，下面$e_i, e_j$为列向量
- 提取矩阵第 i 行：$v = e_i^T A$，$e_i \in R^{m}$
- 提取部分行：比如要提取1，3，5，就构造$mask=[e_1, e_3, e_5]$，result = $mask^T$ @ $A$
- 提取矩阵第 j 列：$u = Ae_j$，$e_j \in R^{n}$
- 提取部分列：比如要提取2，4，6，就构造$mask=[e_2, e_4, e_6]$，result = $A$ @ $mask$

In [3]:
import numpy as np

A = np.random.randint(0, 10, size=(10, 3))
i, j, k = 0, 0, 0
rows_idx = [1, 3 ,5]
# 提取单行
row_i = A[i]         

# 提取多行
rows = A[[i, j, k], :]  # 第i,j,k行
rows = A[rows_idx, :]   # rows_idx为索引数组

# 提取列
col_j = A[:, j]      # 第j列
cols = A[:, [j, k]]  # 第j,k列

# 向量化常用

In [None]:
# ========================================== 构造one-hot ==================================================== #
# 比如说，现在有一个向量y，形状是(样本数，类别数)，每个位置是该样本所属的类别
# e.g. y = [0, 9, 2, ..., 1]^T, 0 ≤ y[i] < num_classes
# 现在有一个概率矩阵P，形状是(样本数，类别数)，记录了每个样本的分类概率
# 希望提取每个样本所属真实类别的概率，所以要构造一个矩阵，每一列为one-hot，形状为(样本数，类别数)，仅真实类别处值为1

num_items = 3
num_classes = 10
y = np.array([0, 9, 2])
one_hot_mat = np.zeros((num_items, num_classes))
one_hot_mat[np.arange(num_items), y] = 1
one_hot_mat

array([[1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 1.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0.]])

In [None]:
# ========================================== 构造mask PART 1 ================================================ #
# 比如说，现在要给数据加padding，但是我们不希望padding也参与最后的loss计算
vocal_size = 5050
padding_id = vocal_size + 1
example_data = np.array([5052, 12, 33, 105, 5053, 5051, 5051, 5051, 5051])
mask = (example_data != padding_id)
# loss = mask * loss
mask

array([ True,  True,  True,  True,  True, False, False, False, False])

In [None]:
# ========================================== 构造mask PART 2 ================================================= #
# 比如说，transformer的当前块应该只能看到自己和之前的块，所以我们需要构造上三角的因果mask
def extract_upper_triangle(A):
    mask = np.triu(np.ones_like(A, dtype=bool))
    return A[mask]

# 向量化版本
def extract_upper_triangle_vectorized(A):
    n = A.shape[0]
    U = np.triu(np.ones((n, n)))
    return (A * U)[U.astype(bool)]
