# 🐍 PyTorch `torch` 模块速查表

---

## 🔹 1. 张量创建（Tensor creation）
| 方法 | 说明 |
|------|------|
| `torch.tensor(data)` | 从数据创建张量 |
| `torch.empty(size)` | 未初始化的张量 |
| `torch.zeros(size)` | 全 0 张量 |
| `torch.ones(size)` | 全 1 张量 |
| `torch.full(size, fill_value)` | 固定值填充，size：张量的形状,fill_value:填充值 |
| `torch.arange(start, end, step)` | 范围序列 |
| `torch.linspace(start, end, steps)` | 均匀分布序列 |
| `torch.logspace(start, end, steps)` | 对数分布序列 |
| `torch.eye(n)` | 单位矩阵（对角线元素为1，其余为0），n:指定输出矩阵的行数，m=None:指定输出矩阵的列数 |
| `torch.rand(size)` | 均匀分布 [0,1) |
| `torch.randn(size)` | 标准正态分布 |
| `torch.randint(low, high, size)` | 均匀整数分布，low：随机整数下限(包含)，high：随机整数上限(不包含)，size：张量的形状 |

---

## 🔹 2. 张量操作（Tensor ops）
| 方法 | 说明 |
|------|------|
| `torch.reshape(t, shape)` | 改变形状。t：要改变形状的输入张量。shape：目标形状，可以是tuple或list |
| `torch.view(t, shape)` | 改变形状（共享内存） |
| `torch.transpose(t, dim0, dim1)` | 交换维度(返回新的张量,共享内存)。t:要交换维度的输入张量。 dim0:要交换的第一个维度索引（从 0 开始）,dim1:要交换的第二个维度索引（从 0 开始）|
| `torch.permute(t, dims)` | 任意维度换位(返回新的张量,共享内存)。dims: 新维度顺序的元组（必须包含所有维度的排列）|
| `torch.cat([t1, t2], dim)` | 拼接（共享内存） t1、t2：要连接的张量(形状必须相同，除了dim维度。dim：沿着哪个维度拼接，默认dim=0)|
| `torch.stack([t1, t2], dim)` | 堆叠（创建新维度） t1、t2：要堆叠的张量（形状必须完全相同）。dim：新维度的插入位置（默认dim=0）|
| `torch.chunk(t, chunks, dim)` | 均匀分块(返回一个张量列表,共享内存)。chunks：分割的块数（不是每一块的大小）。 |
| `torch.split(t, split_size, dim)` | 按大小分块(返回一个张量列表,共享内存)。split_size：每块的大小(int)或各块大小列表(list) |
| `torch.tensor_split(t,indices_or_sections,dim)` | 不均匀分割。分割策略：(int:分割的块数，或, list of ints:指定分割位置的索引列表) |
| `torch.squeeze(t)` | 去掉长度为 1 的维度 |
| `torch.unsqueeze(t, dim)` | 增加维度(返回的是原始张量的视图（共享存储）):用于在指定位置插入长度为1的维度 |

---

## 🔹 3. 数学运算（Math ops）
| 类别 | 方法 |
|------|------|
| 基本运算 |逐元素：加减乘除 `add`：+ / `sub`：- / `mul`：* / `div`：/ 。原地操作：函数_(),例如：add_()|
| 幂与根 | `pow`：幂运算/ `sqrt`： 平方根。/ 原地操作：函数_(),例如：pow_(2)|
| 指数对数 | `exp`： 自然指数函数​（以 e为底）/ `log`：自然对数​（以 e为底） / `log10` / `log2` |
| 三角函数 | `sin` / `cos` / `tan` / `atan2` |
| 统计 | `mean`： 平均值/ `median`：中位数 / `mode`：众数 / `std`： 标准差/ `var`： 方差|
| 归约 | `sum`： 求和/ `prod`： 连乘/ `cumsum`： 累积和/ `cumprod`： 累积乘积|
| 矩阵运算 | `mm`：严格的二维矩阵乘法 / `matmul`：广义矩阵乘法​（支持广播和高维张量） / `bmm`：批量矩阵乘法(3D张量) |
| 线性代数 | `inverse`： 计算方阵的逆矩阵/ `det`：计算方阵的行列式 / `svd`：计算矩阵的奇异值分解 / `linalg.eig`：计算方阵的特征值与特征向量 |

---

## 🔹 4. 比较 & 逻辑
| 方法 | 说明 |
|------|------|
| `torch.eq` / `torch.ne` | 相等 / 不等 / 举例：torch.eq(x,y) 等价写法：x == y|
| `torch./absgt` / `torch.ge` | 大于 / 大于等于 /  举例：torch.gt(x,y) 等价写法：x > y|
| `torch.lt` / `torch.le` | 小于 / 小于等于 /  举例：torch.le(x,y) 等价写法：x <= y |
| `torch.all` / `torch.any` |all：判断张量中所有元素是否均为 True​（或非零/非空）/any:判断张量中是否存在至少一个 True​（或非零/非空） |
| `torch.isfinite`：：检测张量中的有限数值​（非无穷且非NaN） / `torch.isnan` / `torch.isinf` | 判断数值状态 |

---

## 🔹 5. 随机数
| 方法 | 说明 |
|------|------|
| `torch.manual_seed(seed)` | 固定随机种子 |
| `rand` / `randn` / `randint` | 常用分布:均匀分布[0,1)/标准准态分布（0，1）/离散均匀分布[最小值，最大值） |
| `bernoulli` | 伯努利分布 |
| `normal(mean, std)` | 正态分布 |
| `multinomial` | 多项分布 |
| `randperm(n)` | 随机排列 |

---

## 🔹 6. 自动求导（Autograd）
| 方法 | 说明 |
|------|------|
| `torch.autograd.backward(tensors, grad_tensors)` | 反向传播 |
| `torch.autograd.grad(outputs, inputs)` | 手动求导 |
| `torch.set_grad_enabled(mode)` | 控制梯度开关 |
| `torch.no_grad()` | 禁用梯度（推理时用） |

---

## 🔹 7. 神经网络 & 优化
| 模块 | 说明 |
|------|------|
| `torch.nn` | 神经网络层、损失函数 |
| `torch.nn.functional` | 函数式 API (如 `F.relu`) |
| `torch.optim` | 优化器 (SGD, Adam...) |

---

## 🔹 8. 数据加载
| 方法 | 说明 |
|------|------|
| `torch.utils.data.Dataset` | 数据集抽象类 |
| `torch.utils.data.DataLoader` | 数据批加载 |
| `torchvision.datasets` | 常用图像数据集 |

---

## 🔹 9. 设备与并行
| 方法 | 说明 |
|------|------|
| `torch.device("cpu"/"cuda")` | 指定设备 |
| `torch.cuda.is_available()` | CUDA 是否可用 |
| `torch.cuda.manual_seed(seed)` | CUDA 随机种子 |
| `torch.cuda.empty_cache()` | 清理显存 |
| `torch.nn.DataParallel` | 多 GPU |
| `torch.distributed` | 分布式训练 |

---

## 🔹 10. 保存与加载
| 方法 | 说明 |
|------|------|
| `torch.save(obj, path)` | 保存模型/张量 |
| `torch.load(path)` | 加载 |
| `torch.jit` | TorchScript 序列化 |

---

## 🔹 11. 其他常用
| 方法 | 说明 |
|------|------|
| `torch.clone(t)` | 克隆张量 |
| `torch.detach()` | 去掉梯度信息 |
| `torch.numel(t)` | 元素个数 |
| `torch.size(t)` / `t.shape` | 形状 |
| `torch.topk(t, k)` | 取前 k 大值 |
| `torch.argmax` / `torch.argmin` | 最大/最小索引 |
| `torch.where(cond, x, y)` | 条件选择 |
| `torch.nonzero(t)` | 非零索引 |

---
### ✅ 总结：**torch = 张量创建 + 操作 + 计算 + 自动求导 + 神经网络 + 优化 + 数据加载 + 并行 + 序列化**。

---

# 1.1、torch

# 🧭 torch.tensor() 

## 📌1) 基本签名与作用

- torch.tensor(`data`, *, `dtype`=None, `device`=None, `requires_grad`=False, `pin_memory`=False)

✅作用：把 `Python` 数据（标量、list/嵌套list、tuple、NumPy 数组、其他张量等）转换成一个新的 `torch.Tensor`。

- 核心特性：默认会拷贝数据（与 `torch.as_tensor` 不同），因此`不会`与原始输入`共享内存`。

---

## 📌2) 主要参数

| 参数              | 说明                                                       |
| --------------- | -------------------------------------------------------- |
| `data`          | Python 数据（标量、list/嵌套 list、tuple、NumPy、Tensor）            |
| `dtype`         | 数据类型（默认：整数→`torch.int64`，浮点→`torch.get_default_dtype()`） |
| `device`        | 存放设备，如 `'cpu'`、`'cuda:0'`                                |
| `requires_grad` | 是否参与自动求导（仅浮点/复数有效）                                       |
| `pin_memory`    | 是否固定在页锁内存，加速 CPU→GPU 拷贝（仅对 CPU 张量有效）                     |

---

## 📌3) dtype 推断与默认行为

全是整数 → torch.int64

含浮点 → 默认浮点类型（torch.float32，可用 torch.get_default_dtype() 查看/设置）

布尔 → torch.bool

混合类型 → 类型提升，如 [1, 2.5] → float32

---

## 📌4) 形状与维度

标量 → 0 维张量（shape == ()）。

扁平 list → 1 维；嵌套 list → 多维。必须是规则矩阵（每层列表长度一致），否则报错。

---

## 📌5) 拷贝/共享内存：与其他构造器的区别

这块是很多人最容易踩坑的地方：
| 构造方式                   | 是否复制           | 与输入共享内存                              | 是否保留梯度图（当输入是 Tensor）                            |
| ---------------------- | -------------- | ------------------------------------ | ----------------------------------------------- |
| `torch.tensor(x)`      | **总是尽量复制**     | 否                                    | **不保留**（会断开计算图；且默认 `requires_grad=False`）       |
| `torch.as_tensor(x)`   | 尽量**不复制**      | 尽可能共享（尤其是来自 `np.ndarray` 或已有 Tensor） | 是（若 `x` 本身是 Tensor，就直接返回它，保留图与 `requires_grad`） |
| `torch.from_numpy(nd)` | **不复制**（满足条件时） | 是（与 `nd` 共享内存）                       | 不涉及计算图；对 `nd` 的写会反映到张量，反之亦然                     |

| 方法                          | 是否拷贝  | 是否共享内存 | 梯度计算图             |
| --------------------------- | ----- | ------ | ----------------- |
| `torch.tensor(x)`           | ✅ 拷贝  | ❌ 不共享  | ❌ 不保留（断开）         |
| `torch.as_tensor(x)`        | 尽量不拷贝 | 尽量共享   | ✅ 保留              |
| `torch.from_numpy(ndarray)` | ❌ 不拷贝 | ✅ 共享   | 无计算图；与 NumPy 共享数据 |
| `x.clone()`                 | ✅ 拷贝  | ❌ 不共享  | ✅ 保留梯度属性          |
| `x.detach()`                | ❌ 不拷贝 | ✅ 共享   | ❌ 切断梯度            |


### 示例要点

In [None]:
import numpy as np
import torch

a = np.array([1, 2, 3], dtype=np.int64)  # a 指向一块内存：[1, 2, 3]

t1 = torch.tensor(a)        # ✅ 复制数据（新建内存）
t2 = torch.as_tensor(a)     # 🔗 共享内存（不复制）
t3 = torch.from_numpy(a)    # 🔗 共享内存（不复制）

a[0] = 999  # 修改原始 NumPy 数组的第一个元素

结果：
t1[0] 仍然是 1 → 因为 t1 是复制的，修改 a 不影响它。
t2[0] 变成 999
t3[0] 变成 999
👉 因为 t2 和 t3 共享 a 的内存，所以 a[0] = 999 修改了那块内存，t2 和 t3 读取时自然看到变化。



# 1) 基本创建
a = torch.tensor([1, 2, 3])                    # int64
b = torch.tensor([1.0, 2, 3])                  # float32
c = torch.tensor([[1, 2], [3, 4]], dtype=torch.float64)

# 2) 指定设备 & 梯度
g = torch.tensor([0.1, 0.2], device='cuda', requires_grad=True)

# 3) NumPy 互操作
import numpy as np
arr = np.arange(6).reshape(2,3)
t1 = torch.tensor(arr)         # 拷贝
t2 = torch.from_numpy(arr)     # 共享内存
arr[0,0] = 999                 # t2[0,0] 跟着变，t1 不变

# 4) 标量 / 0维张量
s = torch.tensor(3.14)         # shape: ()
float(s)                       # -> 3.14 (Python float)

# 5) 修改默认浮点 dtype
torch.set_default_dtype(torch.float64)
u = torch.tensor([1.0, 2.0])   # float64



### 对已有 Tensor 的行为

In [None]:
x = torch.tensor([1., 2., 3.], requires_grad=True)
y = torch.tensor(x)         # 新张量，拷贝数据，计算图被断开，默认 requires_grad=False
z = torch.as_tensor(x)      # 返回 x 本身（或视图），保留计算图与 requires_grad=True
w = x.clone()               # 拷贝数据，保留 dtype/device，仍在同一计算图上（对 autograd 通常更安全）
d = x.detach()              # 不拷贝数据的“视图”，但切断梯度（不再参与反向）


### 👉小结： 
需要拷贝且不保留梯度 → torch.tensor(x)；\
能不拷贝就不拷贝 → torch.as_tensor(x) / torch.from_numpy(nd)；\
拷贝但保留梯度属性 → x.clone()（或 x.clone().detach() 视场景）。

---

## 📌6) device 与 pin_memory

直接指定设备：

t = torch.tensor([1,2,3], device='cuda')    # 直接在 GPU 上创建

若无可用 GPU 会报错。

pinned memory（仅 CPU 张量）：

t = torch.tensor([1,2,3], pin_memory=True)  # 之后 t.to('cuda') 更快

pin_memory=True 不能用于 device='cuda' 的创建。

---

## 📌7) requires_grad 与 autograd

只有浮点或复数张量才能 requires_grad=True。整型/布尔会报错或被忽略。

若你打算把这个张量作为可训练参数或参与可微运算，设置：

w = torch.tensor([0.1, 0.2], dtype=torch.float32, requires_grad=True)

用 torch.tensor(tensor_input) 会把 requires_grad 复位为 False 且断开图，很多人因此梯度为 None。保持图请用 as_tensor 或 clone()。

---

## 📌8) 常用示例

In [None]:
# 1) 基本创建（自动推断）
a = torch.tensor([1, 2, 3])                          # int64
b = torch.tensor([1.0, 2, 3])                        # float32（默认浮点）
c = torch.tensor([[1, 2], [3, 4]], dtype=torch.float64)

# 2) 指定设备 & 梯度
g = torch.tensor([0.1, 0.2], device='cuda', requires_grad=True)

# 3) 从 NumPy（是否共享内存对比）
import numpy as np
arr = np.arange(6).reshape(2,3)
t_copy = torch.tensor(arr)        # 拷贝
t_share = torch.from_numpy(arr)   # 共享
arr[0,0] = 999                    # 仅 t_share 受影响

# 4) 标量/0维张量
s = torch.tensor(3.14)            # shape: ()
float(s)                          # 3.14（Python 标量）

# 5) 修改默认浮点 dtype（谨慎）
torch.set_default_dtype(torch.float64)
u = torch.tensor([1.0, 2.0])      # 现在是 float64


---

## 9) 常见坑（踩雷清单）

无意中断开计算图：
用 torch.tensor(existing_tensor) 会断开图且 requires_grad=False。想保留 → existing_tensor.clone() 或直接用 as_tensor(existing_tensor)。

误以为一定共享内存：
torch.tensor(np_array) 是拷贝；要共享用 torch.from_numpy() 或 as_tensor(np_array)。

在 GPU 上设 pinned memory：
pin_memory=True 只对 CPU 张量有效；GPU 上无意义且可能报错。

整数/布尔设 requires_grad=True：
梯度只对浮点/复数有效，整型/布尔不行。

不规则嵌套 list：
形状必须规则，否则报错。

默认 dtype 误判：
整数默认 int64，浮点默认 get_default_dtype()；跨项目时若有人改过默认浮点为 float64，会导致显存翻倍或数值差异。

---

## 10) 什么时候不用 torch.tensor()？

需要就地初始化（不从现有数据来）→ 用工厂函数更快：

torch.zeros/ones/empty/full/rand/randn/arange/linspace 等，并能直接指定 dtype/device。

想与 NumPy 高效互操作（共享内存）→ torch.from_numpy() / torch.as_tensor()。

想保留梯度信息复制一个已有张量 → x.clone()（必要时再 .detach()）。

---

# 🚨 常见坑清单

### 1、断开计算图

y = torch.tensor(x)   # 会拷贝数据 & requires_grad=False

→ 想保留梯度：用 x.clone() 或 torch.as_tensor(x)。

### 2、误以为总是共享内存

torch.tensor(np_array) 是 拷贝，要共享请用 torch.from_numpy() 或 torch.as_tensor()。

### 3、在 GPU 上用 pin_memory
pin_memory=True 仅对 CPU 张量 有效；GPU 张量会报错。

### 4、整数/布尔张量设 requires_grad=True
只有浮点/复数支持梯度，整型/布尔不行。

### 5、不规则嵌套 list
形状必须规则，否则报错。

### 6、默认 dtype 被改动
项目中若有人 torch.set_default_dtype(torch.float64)，会导致显存翻倍或数值不一致。

---

## ✅ 建议：

数据初始化 → 用 torch.zeros/ones/rand/... 更高效

NumPy 转 Tensor 且需要共享 → torch.from_numpy()

需要保留梯度 → x.clone()（或 x.clone().detach()）