### Tensor操作

#### 转化为其它数据类型：
- 如果是标量，使用.item()可转化；
- 如果是向量，先使用.numpy()

### Tensor张量操作

#### 张量维度的操作
- tensor.expand(*sizes)  
    - 这是一个整型序列，指定了想要“扩展”到的新形状（每个维度的大小）。
    - 对应维度上，只有原来是 1 的维度才可以被扩展到更大的值; 写成 -1 表示“保持原来的大小”。
- tensor.expand_as(other),相当于torch.expand(other.shape)

In [1]:
import torch
a = torch.tensor([1,2,3])
a.unsqueeze(0)
a.expand(2,3)

tensor([[1, 2, 3],
        [1, 2, 3]])

### Tensor 代数

#### 创建矩阵
- 创建单位阵： torch.eye(n)
- 创建上三角阵： torch.triu(input, diagonal=0) (triangular upper)， 
  - input是另一个张量，不能只输入形状；
  - diagonal=0表示对角线为0，diagonal=1表示从对角线上一行开始，diagonal=-1表示从对角线下一行开始；
  - 上部值为1，下部值为0；
- 创建下三角阵： torch.tril(input, diagonal=0) (triangular lower)
- 创建对角阵：torch.diag(input, diagonal=0)
    - input如果是向量，则创建对角阵，如果是二维矩阵则返回对角线，不支持高维


In [1]:
import torch

v = torch.tensor([1, 2, 3, 4])  # 一维张量
D = torch.diag(v)
print(D)

M = torch.tensor([[1, 2, 3],
                  [4, 5, 6],
                  [7, 8, 9]])
d = torch.diag(M)
print(d)

tensor([[1, 0, 0, 0],
        [0, 2, 0, 0],
        [0, 0, 3, 0],
        [0, 0, 0, 4]])
tensor([1, 5, 9])


### 一些函数

##### torch.tensordot()

In [5]:
import torch

# 创建两个张量
a = torch.tensor([[1, 2], 
                [3, 4]])
b = torch.tensor([[5, 6], 
                [7, 8]])

# 在最后一个维度上进行点积; 只指定一个维度时是第一个张量的后n个维度与第二个张量的前n个维度做内积
result = torch.tensordot(a, b, dims=1) 
print(result)

tensor([[19, 22],
        [43, 50]])


In [6]:
# 二维矩阵在最后维度上的点积
a = torch.tensor([[1, 2],
                  [3, 4]])
b = torch.tensor([[5, 6],
                  [7, 8]])
c = torch.tensordot(a, b, dims=1)
print("\n二维矩阵在最后维度上的点积:")
print(c)
# 输出:
# tensor([[17, 23],
#         [39, 53]])

# 详细计算过程:
# c[0,0] = a[0,:]·b[0,:] = (1*5 + 2*7) = 17
# c[0,1] = a[0,:]·b[1,:] = (1*6 + 2*8) = 23
# c[1,0] = a[1,:]·b[0,:] = (3*5 + 4*7) = 39
# c[1,1] = a[1,:]·b[1,:] = (3*6 + 4*8) = 53


二维矩阵在最后维度上的点积:
tensor([[19, 22],
        [43, 50]])


In [13]:
import torch
a = torch.arange(24).reshape(2, 3, 4)  # shape: (2,3,4)
b = torch.arange(24).reshape(3, 2, 4)  # shape: (3,2,4)

print(a)
print(b)
# 在指定维度上进行张量点积
# dims=([1],[0]) 表示a的第1维(大小为3)和b的第0维(大小为3)进行收缩
result = torch.tensordot(a, b, dims=([1],[0]))
print(result)
print(result.shape)

tensor([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]],

        [[12, 13, 14, 15],
         [16, 17, 18, 19],
         [20, 21, 22, 23]]])
tensor([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7]],

        [[ 8,  9, 10, 11],
         [12, 13, 14, 15]],

        [[16, 17, 18, 19],
         [20, 21, 22, 23]]])
tensor([[[[160, 172, 184, 196],
          [208, 220, 232, 244]],

         [[184, 199, 214, 229],
          [244, 259, 274, 289]],

         [[208, 226, 244, 262],
          [280, 298, 316, 334]],

         [[232, 253, 274, 295],
          [316, 337, 358, 379]]],


        [[[448, 496, 544, 592],
          [640, 688, 736, 784]],

         [[472, 523, 574, 625],
          [676, 727, 778, 829]],

         [[496, 550, 604, 658],
          [712, 766, 820, 874]],

         [[520, 577, 634, 691],
          [748, 805, 862, 919]]]])
torch.Size([2, 4, 2, 4])


In [4]:
a = torch.randn(2, 3, 4)
b = torch.randn(2, 4, 3)
print(f"a 张量\n:{a}")
print(f"b 张量\n:{b}")
# 指定a的第0和2维，b的第0和1维收缩
result = torch.tensordot(a, b, dims=([0, 2], [0, 1]))
print(f"result 张量\n:{result}")
print(result.shape)  # torch.Size([3, 3])

a 张量
:tensor([[[ 0.3984,  0.3069, -1.0578,  0.7269],
         [ 0.2161,  0.7968,  1.0643,  1.4901],
         [-0.5727,  2.4418,  0.1298,  0.4969]],

        [[-0.1357, -0.1951,  0.7969, -0.2274],
         [ 0.0797,  1.1234, -0.1277,  2.3351],
         [-1.4290, -0.6711, -1.5325, -0.7372]]])
b 张量
:tensor([[[-0.1563, -1.4337, -0.1802],
         [ 0.4768, -1.4177, -0.0887],
         [-0.2966, -1.0002, -1.5477],
         [ 1.4982,  2.5524, -0.9826]],

        [[ 0.7916,  0.1740,  0.0315],
         [-2.0614,  0.0284, -0.9232],
         [ 1.0376,  0.4370, -0.3258],
         [-0.3902, -0.0320, -0.6299]]])
result 张量
:tensor([[ 2.6971,  2.2334,  0.8834],
        [-1.0334,  1.2148, -5.6850],
        [ 0.9095, -2.4160,  0.7360]])
torch.Size([3, 3])


##### torch.einsum()


 einsum与tensordot的不同
 1. 从输出结果看出，einsum的结果是特tensordot的特例，（tensordot返回的第一个元素的第一列和第二个元素的第二列是einsum的第一行和第二行，这是因为tensordot循环了所有结果，einsum只循环了指定结果。）

In [9]:
import torch
# 批量矩阵-向量乘法，但只在特定维度
batch = torch.tensor([[[1, 2, 3],
                      [4, 5, 6], 
                      [7, 8, 9],
                      [10, 11, 12],
                      [13, 14, 15]],
                     [[2, 3, 4],
                      [5, 6, 7],
                      [8, 9, 10], 
                      [11, 12, 13],
                      [14, 15, 16]]])  # shape: (2,5,3)
vectors = torch.tensor([[1, 2, 3],
                       [2, 3, 4]])  # shape: (2,3)
# 对每个批次，将最后一个维度相乘
result1 = torch.tensordot(batch, vectors, dims=([2], [1]))

print(result1)
result2 = torch.einsum('bij,bj->bi', batch, vectors)
print(result2)




tensor([[[ 14,  20],
         [ 32,  47],
         [ 50,  74],
         [ 68, 101],
         [ 86, 128]],

        [[ 20,  29],
         [ 38,  56],
         [ 56,  83],
         [ 74, 110],
         [ 92, 137]]])
tensor([[ 14,  32,  50,  68,  86],
        [ 29,  56,  83, 110, 137]])


einsum求和的外积：  
m维向量$\vec{a}$和n维向量$\vec{b}$的外积：
$\vec{a}*\vec{b}^T$  
中的元素为:$c_{ij}=a_i*b_j$,  
用爱因斯坦求和写为："i,j->ij"


In [10]:
# 举例说明外积
a = torch.tensor([1, 2, 3])  # 3维向量
b = torch.tensor([4, 5])     # 2维向量

# 使用einsum计算外积
c = torch.einsum('i,j->ij', a, b)

print("向量a:", a)
print("向量b:", b) 
print("外积结果:")
print(c)
# 结果是一个3x2的矩阵，其中c[i,j] = a[i] * b[j]


向量a: tensor([1, 2, 3])
向量b: tensor([4, 5])
外积结果:
tensor([[ 4,  5],
        [ 8, 10],
        [12, 15]])


##### torch.repeat(*sizes)

In [1]:
import torch

# 创建一个张量
x = torch.tensor([1, 2, 3])

x.repeat(2,3)

tensor([[1, 2, 3, 1, 2, 3, 1, 2, 3],
        [1, 2, 3, 1, 2, 3, 1, 2, 3]])

##### torch.split(tensor, split_size_or_sections, dim=0)
- tensor：要分割的张量
- split_size_or_sections：  
如果是整数，表示每块的大小  
如果是列表或元组，表示每块的具体大小
- dim：在哪个维度上分割，默认是第0维
- 返回的是元组
- 与np.split不同的是np.split的indices_or_sections参数是按按索引列表切分的；

In [5]:
#split_size_or_sections是整数情况
import torch

x = torch.arange(10)
print("原始张量:", x)  # tensor([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

# 按3分割
parts = torch.split(x, 3)
print(parts)

原始张量: tensor([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
(tensor([0, 1, 2]), tensor([3, 4, 5]), tensor([6, 7, 8]), tensor([9]))


In [None]:
#split_size_or_sections是列表情况
import torch
x = torch.arange(10)
parts = torch.split(x, [2, 4, 4])
print(parts)

(tensor([0, 1]), tensor([2, 3, 4, 5]), tensor([6, 7, 8, 9]))


In [4]:
#多维情况，要指定划分维度
import torch
x = torch.arange(12).reshape(3, 4)
print("原始张量:\n", x)
# tensor([[ 0,  1,  2,  3],
#         [ 4,  5,  6,  7],
#         [ 8,  9, 10, 11]])

# 按列分割，每块2列
parts = torch.split(x, 2, dim=1)
print(parts)

原始张量:
 tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])
(tensor([[0, 1],
        [4, 5],
        [8, 9]]), tensor([[ 2,  3],
        [ 6,  7],
        [10, 11]]))


##### torch.mul和torch.matmul的区别  
torch.mul是逐元素相乘，torch.matmul是矩阵乘法。  
torch.mm只适用于二维矩阵，torch.matmul支持批量矩阵乘法
- **示例 1：基本批量矩阵乘法**

   ```python
   import torch

   # 张量 A，形状为 [batch_size, M, K]
   A = torch.randn(10, 3, 4)  # 10 个 3x4 的矩阵

   # 张量 B，形状为 [batch_size, K, N]
   B = torch.randn(10, 4, 5)  # 10 个 4x5 的矩阵

   # 执行批量矩阵乘法
   C = torch.matmul(A, B)  # 结果形状为 [10, 3, 5]
   print(C.shape)
   # 输出：torch.Size([10, 3, 5])
   ```

   - **示例 2：广播批量维度**

   ```python
   import torch

   # 张量 A，形状为 [batch_size_A, M, K]
   A = torch.randn(2, 3, 4)  # 2 个 3x4 的矩阵

   # 张量 B，形状为 [K, N]
   B = torch.randn(4, 5)     # 单个 4x5 的矩阵

   # B 的批量维度将被广播为 2
   C = torch.matmul(A, B)  # 结果形状为 [2, 3, 5]
   print(C.shape)
   # 输出：torch.Size([2, 3, 5])
   ```

   在这个示例中，`B` 的形状被视为 `[1, 4, 5]`，然后在第一个维度上广播为 `2`，以匹配 `A` 的批量维度。

   - **示例 3：高维批量矩阵乘法**

   ```python
   import torch

   # 张量 A，形状为 [D1, D2, M, K]
   A = torch.randn(2, 3, 4, 5)

   # 张量 B，形状为 [D1, D2, K, N]
   B = torch.randn(2, 3, 5, 6)

   # 结果形状为 [2, 3, 4, 6]
   C = torch.matmul(A, B)
   print(C.shape)
   # 输出：torch.Size([2, 3, 4, 6])
   ```

   在这里，`A`和 `B` 都有批量维度 `[2, 3]`，`torch.matmul` 会在这两个维度上逐元素地执行矩阵乘法。










In [1]:
import torch

a = torch.tensor([[1, 2], [3, 4]])
b = torch.tensor([[10, 20], [30, 40]])

result = torch.mul(a, b)
print(result)

tensor([[ 10,  40],
        [ 90, 160]])


In [2]:
import torch

a = torch.tensor([[1, 2], [3, 4]])
b = torch.tensor([[5, 6], [7, 8]])

result = torch.matmul(a, b)
print(result)

tensor([[19, 22],
        [43, 50]])


#### torch.pdist(input,p)
计算成对距离；p指定范数，input是二维[N,D],返回结果是距离矩阵的上三角部分按顺序输出；

### 基础应用:
知道基础知识后最重要的点就是：
- unique
- 计数
- 排序
- 采样
- 选择与替换
- 向量操作（对行列的整体操作）
- 自定义函数的应用
- 与其它数据类型转化

#### unique
- torch.unique(input, sorted=True, return_inverse=False, return_counts=False, dim=None)  
    - 没有return_index选项，但可以使用如下方法获得元素第一次出现时的索引：  

In [3]:
import torch
input = torch.randint(0,4,(10,2))
unique,inverse = torch.unique(input, return_inverse=True,dim=0)
src = torch.arange(len(input))
unique_index = torch.full((len(unique),),len(input),dtype=torch.int64)
unique_index.scatter_reduce_(0,inverse,src,reduce='min') # min似乎会和原来tensor值比,所以需要index原来的值为最大值；
print(unique_index)

tensor([0, 8, 3, 5, 4, 2])


#### 排序
- torch.sort(input, dim=-1, descending=False, stable=False)
- torch.argsort(input,dim=-1,descending=False)

#### 采样
- torch.randperm(n,)
生成随机排列索引的常用函数。它会返回一个包含 [0, 1, 2, …, n-1] 且完全随机打乱顺序的整数张量，常用于**无放回抽样**、打乱数据顺序等场景
- torch.multinomial(input, num_samples, replacement=False)
  - input (Tensor)
    一维或二维张量，表示每个元素（或类别）的非负权重（概率权重）。  
    - 如果是一维张量，形状为 (N,)，表示从 0…N-1 中采样。
    - 如果是二维张量，形状为 (B, N)，则对每行单独采样，返回形状 (B, num_samples)。
  - num_samples (int)
    要抽取的样本数量。
  - replacement (bool, optional, 默认 False)
    - False：无放回抽样——抽到某索引后不会再次被抽中。
    - True ：有放回抽样——每一次抽样都基于同一分布，不论之前是否抽中过。

In [None]:
# 权重可以自动归一化
import torch
weights = torch.tensor([1,2,3],dtype=float)
torch.multinomial(weights, 2, replacement=True)

tensor([2, 0])

##### 适用torch.randperm()进行不放回抽样的例子

In [2]:
# 从100个数里抽10个
import torch
data = torch.rand(100)
sample_index = torch.randperm(100)[:10]
sampled_data = data[sample_index]
print(sampled_data)

tensor([0.9092, 0.6047, 0.1946, 0.5106, 0.4763, 0.1430, 0.6893, 0.9243, 0.1575,
        0.6141])


#### 将源张量的值根据某种规则聚合到目标张量中： tensor.scatter_reduce_(dim, index, src, reduce, *, include_self=True)
| 参数名 | 说明 |
|--------|------|
| tensor | 目标张量，会被原地修改。 |
| dim | 进行操作的维度。 |
| index | 一个张量，指定 src 中的每个元素在 tensor 的哪个位置聚合。必须和 src 形状相同。 |
| src | 源张量，包含要聚合的值。 |
| reduce | 字符串："sum"、"prod"、"mean"、"amax"、"amin" 等。表示用哪种方式聚合。 |
| include_self | 如果为 True，目标张量中原有的值也参与归约；否则先清零再聚合。 |


In [None]:
## 按索引求和
import torch

# 初始目标张量
out = torch.zeros(5)

# 索引张量
index = torch.tensor([0, 1, 1, 2, 3])

# 源张量
src = torch.tensor([10, 20, 30, 40, 50])

# 原地 scatter + reduce 操作：将 src 中的值根据 index 添加到 out 中
out.scatter_reduce_(0, index, src, reduce="sum", include_self=True)

print(out)


#### 选择/替换张量指定索引/指定条件的元素
- 在很多情况下，这两者可以用整数索引代替
- 一个使用tensor.scatter_的独特例子见 “一些场景”部分，主要是利用reduce参数；

##### 选择tensor中指定索引的元素
- 整数索引
- tensor.gather(input,dim,index):  
    - index (LongTensor)：索引张量，其形状必须与输入张量在除了指定维度以外的维度保持一致
    - **以上约束使得返回张量的形状与input只在指定维度dim有不同**，例如以下例子中取的张量第0维度肯定是2.


In [None]:
# 假设有2个样本，每个样本有4个类别的得分
logits = torch.tensor([[0.1, 0.5, 0.3, 0.2],
                       [0.7, 0.2, 0.1, 0.8]])
# 每个样本的预测类别（注意每个样本不同）
pred = torch.tensor([1, 3])
torch.gather(logits,1,pred.unsqueeze(1))


tensor([[0.5000],
        [0.8000]])

##### 选择tensor中满足特定条件的元素
- torch.where(condition,x,y):
    - 注意只有condition条件时返回满足条件的坐标，有x,y时返回值

In [None]:
# 返回坐标
x = torch.tensor([[1, 0, 0],
                  [0, 2, 0],
                  [0, 0, 3]])

indices = torch.where(x > 0)
print(indices)

(tensor([0, 1, 2]), tensor([0, 1, 2]))


In [None]:
# 返回值
a = torch.tensor([1, 2, 3, 4])
b = torch.tensor([10, 20, 30, 40])
cond = torch.tensor([True, False, True, False])

# 三个参数：返回值
out = torch.where(cond, a, b)
print(out)
# 输出: tensor([ 1, 20,  3, 40])


tensor([ 1, 20,  3, 40])


##### 替换张量指定维度的元素值
- tensor.scatter_(dim,index,src) 或 tensor.scatter(dim,index,src)
    - 下划线表示是否原地操作；
    

## 写代码时的疑问

## 一些场景

### 使用torch把标签转化为one-hot编码
- 自动实现： torch.functional.one_hot(labels,num_classes)
- 手动实现：Tensor.scatter_(dim, index, src, reduce='none')  
把src中的值放到index指定的tensor位置中；reduce用来处理当多个源值要写入同一目标时的行为；

In [2]:
import torch
import torch.nn.functional as F
labels = torch.tensor([0,1,2,3])
one_hot = F.one_hot(labels,num_classes=4)
print(one_hot)

tensor([[1, 0, 0, 0],
        [0, 1, 0, 0],
        [0, 0, 1, 0],
        [0, 0, 0, 1]])


In [None]:
import torch
num_classes = 4
labels = torch.tensor([0,2,2,3])
one_hot = torch.zeros(labels.size(0),num_classes)
one_hot.scatter_(1, labels.unsqueeze(1), 1)
print(one_hot)

tensor([[1., 0., 0., 0.],
        [0., 0., 1., 0.],
        [0., 0., 1., 0.],
        [0., 0., 0., 1.],
        [0., 1., 0., 0.]])


## 序列

### RNN的pack_padded_sequence(input,lengths,batch_first=False,enforce_sorted=True)和pad_packed_sequence(sequence,batch_first=False,)

## Loss选择

### 关于torch.nn.BCEloss： 二分类或者多分类多标签(n个类的二分类任务)
~~1. 可以用在numpy吗？数据类型可以是long吗？~~  
~~不行，数据类型必须是float~~
1. input和target的位置不能调换，第一个是input,第二个是target,  
BCELoss input和target数据类型都是float;
3. 关于input和target的维度:相同，任意
4. 需要先初始化

In [None]:
import torch
import numpy as np
criterion = torch.nn.BCELoss()
label = torch.randint(0,2,(10,))
print(label.dtype)
pred = torch.tensor(np.random.rand(10),dtype=torch.float32)
criterion(pred, label.float())

torch.int64


tensor(1.3228)

### 关于torch.nn.CrossEntropyLoss()
1. 输入数据类型: preds必须是float,target必须是long,除非目标是每个样本属于每个类的概率
2. 维度要求：preds的维度是(batch_size,num_classes, d1, d2, d3, ...),target的维度是(batch_size,d1, d2, d3, ...);
3. 需要先初始化
4. CrossEntropyLoss适用于互斥的多类别

In [None]:
import torch
batch_size, seq_len, vocab_size = 10, 5, 5
preds = torch.rand(batch_size, vocab_size, seq_len)
labels = torch.randint(0,2,size=(batch_size,seq_len), dtype=torch.long)
criterion = torch.nn.CrossEntropyLoss()
loss = criterion(preds, labels)
print(loss)

tensor(1.6657)


## Dataloader

In [None]:
import torch


## 模块

### 遍历一个模块的子模块，参数，缓冲区
- .named_modules() ：
  - 返回一个子模块名称和指向该子模块的引用；（注意第一个返回的是这个模块）
  - 也会返回子模块的子模块
- .named_parameters() ：返回一个参数名称和指向该参数的引用；

In [7]:
import torch
import torch.nn as nn

class sub_module(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = nn.Linear(10, 20)
        
    def forward(self, x):
        return self.linear(x)

class MyNet(nn.Module):
    def __init__(self):
        super().__init__()
        self.encoder = nn.Linear(10, 20)   # 子模块
        self.relu = nn.ReLU()
        self.decoder = nn.Linear(20, 5)
        self.sub_module = sub_module()

    def forward(self, x):
        x = self.encoder(x)
        x = self.relu(x)
        x = self.decoder(x)
        return x

mynet = MyNet()

for name, param in mynet.named_parameters():
    print(f"{name}: {param.shape}")

print("--------------------------------")
for name, module in mynet.named_modules():
    print(f"{name}: {module.__class__.__name__}")





encoder.weight: torch.Size([20, 10])
encoder.bias: torch.Size([20])
decoder.weight: torch.Size([5, 20])
decoder.bias: torch.Size([5])
sub_module.linear.weight: torch.Size([20, 10])
sub_module.linear.bias: torch.Size([20])
--------------------------------
: MyNet
encoder: Linear
relu: ReLU
decoder: Linear
sub_module: sub_module
sub_module.linear: Linear


## 保存和加载模型
- 有两种方式，一种是保存整个模型，一种是保存模型状态的字典；
- 保存状态字典的方法是：
```python
torch.save(model.state_dict(), 'model.pth')
a = torch.load('model.pth')
model.load_state_dict(a)
```
- 保存整个模型的方法是：
```python
torch.save(model,'entire_model.pth')
model = torch.load('entire_model.pth')
```
- 除此之外还看到有保存checkpoint的：
1. checkpoint
```python
torch.save({
    'epoch': 10,
    'model_state_dict': model.state_dict(),
    'optimizer_state_dict': optimizer.state_dict(),
    'loss': loss,
}, 'checkpoint.pth') 
```

## 查看显存管理
torch.cuda.empty_cache():清空分配的显存  
torch.cuda.memory_summary(device=None):查看显存使用情况  
torch.cuda.memory_allocated(device=None):查看当前分配的显存  
torch.cuda.memory_reserved(device=None):查看当前保留的显存  
device用来指定设备

## 多进程
torch.multiprocessing

#### 关于cuda
三种gpu共享模型：
- MIG(multi instance gpu): 将一个gpu切分成数个实例；
- MPS(multi process service)：
- compute mode:default
不知道是啥：MPI 作业（MPI Job）指的是使用 Message Passing Interface（消息传递接口，简称 MPI）标准来执行的并行计算任务。

#### MPS

启用MPS:  
- sudo nvidia-cuda-mps-control -d 这里的-d是daemon,既以守护进程的方式运行；
参看MPS server和client:
- echo get_server_list | nvidia-cuda-mps-control
- echo get_client_list <server_id>| nvidia-cuda-mps-control

停止MPS:
- echo quit | nvidia-cuda-mps-control

##### MPS 中一个进程报错是否会导致所有进程报错？  
MPS（Multi-Process Service）并不总是 "一个进程报错就导致所有进程报错".
1. MPS 的核心机制回顾
MPS 让多个进程共享同一个 CUDA 上下文（GPU "工作环境"），而不是每个进程独立一个。  
优势：减少内存开销，提高并发效率。  
潜在缺点：共享意味着一个进程的资源密集错误（如 OOM）可能污染整个上下文，影响其他进程。  
来自 NVIDIA 官方文档（CUDA Toolkit）：MPS 提供隔离，但不保证完全独立；如果上下文崩溃，整个 MPS 服务器可能受影响，导致客户端（进程）失败。  
2. 什么时候一个进程报错会导致所有进程报错？  
不是所有错误都会连锁
- 非致命错误（如计算逻辑错误、loss NaN）：通常只影响该进程，其他进程继续运行。MPS 会隔离这些。  
示例：如果一个进程在计算中除以零，只那个进程抛异常，其他进程不受影响。  
- 会连锁的错误类型（如您的案例）：  
    - 内存相关错误 (OOM, illegal access)：是的，这些往往导致连锁失败。  
原因：所有进程共享内存池。如果一个进程尝试分配过多内存（导致 OOM），它可能触发 GPU 驱动的保护机制，重置或污染上下文。结果其他进程尝试访问共享资源时，也会遇到 "illegal memory access"（非法内存访问）。   
    - 其他连锁场景：    
        - GPU 内核崩溃（kernel panic）。  
        - 超时或驱动 bug。  
        - 高负载下，MPS 服务器崩溃（罕见，但可能）。  

### 一些cuda命令
nvidia-smi -q: q是query的意思，用于查看详细信息；

In [1]:
%%bash
echo "Hello World"

Couldn't find program: 'bash'
