# PyTorch

In [4]:
import math

import torch
import numpy as np

本笔记本涵盖PyTorch深度学习框架的核心概念和实践应用，从基础到高级特性，特别关注大模型开发相关技术。

## 目录
1. **PyTorch基础**
   - 张量(Tensor)基础操作
   - 自动微分(Autograd)
   - 神经网络模块(nn.Module)
   - 优化器(Optimizer)
   - 数据加载与处理(DataLoader)

2. **模型构建与训练**
   - 线性模型与多层感知机
   - 卷积神经网络(CNN)
   - 循环神经网络(RNN)
   - Transformer架构
   - 损失函数与评估指标

3. **高级特性**
   - 分布式训练
   - 混合精度训练
   - 模型量化与优化
   - TorchScript与模型部署
   - CUDA编程与GPU加速

4. **大模型应用**
   - 预训练模型加载与使用
   - 微调(Fine-tuning)技术
   - 模型并行与流水线并行
   - 梯度检查点(Gradient Checkpointing)
   - 模型蒸馏与压缩


## 1. PyTorch基础
- 张量(Tensor)基础操作
- 自动微分(Autograd)
- 神经网络模块(nn.Module)
- 优化器(Optimizer)
- 数据加载与处理(DataLoader)

### 1.1 张量的基础操作

张量(Tensor)是PyTorch中的核心数据结构，类似于NumPy的多维数组，但可以在GPU上运行并支持自动微分。

#### 创建张量
- 从Python列表或NumPy数组创建
- 使用预定义函数(zeros, ones, rand等)创建
- 指定设备(CPU/GPU)和数据类型

In [2]:
# 从Python列表创建张量
data = [[1, 2], [3, 4]]
x_data = torch.tensor(data)
print(f"从列表创建的张量:\n{x_data}")

# 从NumPy数组创建张量
np_array = np.array(data)
x_np = torch.from_numpy(np_array)
print(f"从NumPy数组创建的张量:\n{x_np}")

# 使用预定义函数创建张量
x_ones = torch.ones(2, 3)  # 全1张量
x_zeros = torch.zeros(2, 3)  # 全0张量
x_rand = torch.rand(2, 3)  # 随机张量(0-1均匀分布)
x_randn = torch.randn(2, 3)  # 随机张量(标准正态分布)

print(f"全1张量:\n{x_ones}")
print(f"全0张量:\n{x_zeros}")
print(f"随机张量(均匀分布):\n{x_rand}")
print(f"随机张量(正态分布):\n{x_randn}")

# 指定数据类型
x_float = torch.zeros(2, 2, dtype=torch.float32)
x_long = torch.zeros(2, 2, dtype=torch.int64)
print(f"float类型张量:\n{x_float}")
print(f"long类型张量:\n{x_long}")

# 指定设备
# 检查是否有可用的GPU
if torch.cuda.is_available():
    device = torch.device("cuda")
    x_gpu = torch.rand(2, 2, device=device)  # 直接在GPU上创建
    x_cpu = torch.rand(2, 2)  # 在CPU上创建
    x_gpu2 = x_cpu.to(device)  # CPU张量转移到GPU
    print(f"GPU张量设备: {x_gpu.device}")
    print(f"CPU张量转GPU后设备: {x_gpu2.device}")
else:
    print("当前环境没有可用的GPU")

从列表创建的张量:
tensor([[1, 2],
        [3, 4]])
从NumPy数组创建的张量:
tensor([[1, 2],
        [3, 4]])
全1张量:
tensor([[1., 1., 1.],
        [1., 1., 1.]])
全0张量:
tensor([[0., 0., 0.],
        [0., 0., 0.]])
随机张量(均匀分布):
tensor([[0.7765, 0.1617, 0.3345],
        [0.3911, 0.3256, 0.9005]])
随机张量(正态分布):
tensor([[-0.5779,  1.6642, -0.6261],
        [ 0.5650,  1.7616,  1.0969]])
float类型张量:
tensor([[0., 0.],
        [0., 0.]])
long类型张量:
tensor([[0, 0],
        [0, 0]])
当前环境没有可用的GPU


#### 基本操作
- 算术运算(加减乘除)
- 索引与切片
- 形状操作(reshape, view, squeeze等)
- 数学函数(sin, exp, log等)

In [7]:
# 算术运算
a = torch.tensor([1, 2, 3])
b = torch.tensor([4, 5, 6])

# 加法
print(f"加法: {a + b}")
print(f"加法函数: {torch.add(a, b)}")

# 减法
print(f"减法: {b - a}")
print(f"减法函数: {torch.sub(b, a)}")

# 乘法
print(f"乘法: {a * b}")
print(f"乘法函数: {torch.mul(a, b)}")

# 除法
print(f"除法: {b / a}")
print(f"除法函数: {torch.div(b, a)}")

# 矩阵乘法
m1 = torch.tensor([[1, 2], [3, 4]])
m2 = torch.tensor([[5, 6], [7, 8]])
print(f"矩阵乘法:\n{torch.matmul(m1, m2)}")
print(f"矩阵乘法(另一种写法):\n{m1 @ m2}")

# 索引与切片
x = torch.tensor([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(f"原始张量:\n{x}")
print(f"第一行: {x[0]}")
print(f"第一列: {x[:, 0]}")
print(f"子矩阵:\n{x[0:2, 1:3]}")

# 形状操作
x = torch.randn(4, 4)
print(f"原始张量形状: {x.shape}")

# 改变形状
y = x.view(16)  # 展平为一维
print(f"view后形状: {y.shape}")

# reshape操作
z = x.reshape(2, 8)  # 重塑为2x8
print(f"reshape后形状: {z.shape}")

# 添加维度
x_unsqueezed = x.unsqueeze(0)  # 在第0维添加维度
print(f"unsqueeze后形状: {x_unsqueezed.shape}")

# 删除维度
x_squeezed = x_unsqueezed.squeeze(0)  # 删除第0维(如果是1)
print(f"squeeze后形状: {x_squeezed.shape}")

# 转置
x_t = x.t()
print(f"转置后形状: {x_t.shape}")

# 数学函数
x = torch.tensor([0.0, math.pi/2, math.pi])
print(f"x: {x}")
print(f"sin(x): {torch.sin(x)}")
print(f"cos(x): {torch.cos(x)}")
print(f"exp(x): {torch.exp(x)}")
print(f"log(exp(x)): {torch.log(torch.exp(x))}")

# 聚合函数
x = torch.tensor([[1.0, 2, 3], [4, 5, 6]])
print(f"x:\n{x}")
print(f"求和: {x.sum()}")
print(f"按行求和: {x.sum(dim=1)}")
print(f"按列求和: {x.sum(dim=0)}")
print(f"最大值: {x.max()}")
print(f"最小值: {x.min()}")
print(f"平均值: {x.mean()}")


加法: tensor([5, 7, 9])
加法函数: tensor([5, 7, 9])
减法: tensor([3, 3, 3])
减法函数: tensor([3, 3, 3])
乘法: tensor([ 4, 10, 18])
乘法函数: tensor([ 4, 10, 18])
除法: tensor([4.0000, 2.5000, 2.0000])
除法函数: tensor([4.0000, 2.5000, 2.0000])
矩阵乘法:
tensor([[19, 22],
        [43, 50]])
矩阵乘法(另一种写法):
tensor([[19, 22],
        [43, 50]])
原始张量:
tensor([[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]])
第一行: tensor([1, 2, 3])
第一列: tensor([1, 4, 7])
子矩阵:
tensor([[2, 3],
        [5, 6]])
原始张量形状: torch.Size([4, 4])
view后形状: torch.Size([16])
reshape后形状: torch.Size([2, 8])
unsqueeze后形状: torch.Size([1, 4, 4])
squeeze后形状: torch.Size([4, 4])
转置后形状: torch.Size([4, 4])
x: tensor([0.0000, 1.5708, 3.1416])
sin(x): tensor([ 0.0000e+00,  1.0000e+00, -8.7423e-08])
cos(x): tensor([ 1.0000e+00, -4.3711e-08, -1.0000e+00])
exp(x): tensor([ 1.0000,  4.8105, 23.1407])
log(exp(x)): tensor([0.0000, 1.5708, 3.1416])
x:
tensor([[1., 2., 3.],
        [4., 5., 6.]])
求和: 21.0
按行求和: tensor([ 6., 15.])
按列求和: tensor([5., 7., 9.])
最大值: 6.0
最小值: 1

#### 广播机制
- 不同形状张量间的自动扩展规则
- 提高计算效率和代码简洁性

In [8]:
# 广播机制示例
x = torch.tensor([1, 2, 3])
y = torch.tensor([[1], [2]])

# 广播相加
z = x + y
print(f"x形状: {x.shape}")
print(f"y形状: {y.shape}")
print(f"广播后z形状: {z.shape}")
print(f"z:\n{z}")

# 广播乘法
a = torch.tensor([1, 2, 3])
b = torch.tensor(5)
print(f"a * b: {a * b}")

# 广播矩阵运算
matrix = torch.tensor([[1, 2], [3, 4]])
vector = torch.tensor([10, 20])
print(f"matrix + vector:\n{matrix + vector}")

x形状: torch.Size([3])
y形状: torch.Size([2, 1])
广播后z形状: torch.Size([2, 3])
z:
tensor([[2, 3, 4],
        [3, 4, 5]])
a * b: tensor([ 5, 10, 15])
matrix + vector:
tensor([[11, 22],
        [13, 24]])


#### 设备间移动
- CPU与GPU之间的数据传输
- 使用.to()方法指定设备

In [9]:
# 检查CUDA是否可用
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"当前设备: {device}")

# 创建张量并移动到指定设备
x = torch.randn(3, 4)
print(f"原始张量设备: {x.device}")

# 移动到GPU (如果可用)
x_device = x.to(device)
print(f"移动后张量设备: {x_device.device}")

# 在设备上进行计算
y_device = x_device * 2
print(f"计算结果设备: {y_device.device}")

# 如需要，可以将结果移回CPU
y_cpu = y_device.to("cpu")
print(f"移回CPU后设备: {y_cpu.device}")

当前设备: cpu
原始张量设备: cpu
移动后张量设备: cpu
计算结果设备: cpu
移回CPU后设备: cpu


#### 与NumPy的互操作性
- tensor与ndarray的相互转换
- 共享内存优化


In [10]:
# PyTorch张量转NumPy数组
tensor = torch.ones(3, 4)
numpy_array = tensor.numpy()
print(f"PyTorch张量:\n{tensor}")
print(f"NumPy数组:\n{numpy_array}")

# NumPy数组转PyTorch张量
numpy_array = np.random.rand(2, 3)
tensor_from_numpy = torch.from_numpy(numpy_array)
print(f"NumPy数组:\n{numpy_array}")
print(f"PyTorch张量:\n{tensor_from_numpy}")

# 注意：共享内存，修改一个会影响另一个
numpy_array[0, 0] = 100
print(f"修改后NumPy数组:\n{numpy_array}")
print(f"对应的PyTorch张量:\n{tensor_from_numpy}")

PyTorch张量:
tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]])
NumPy数组:
[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]
NumPy数组:
[[0.1557848  0.41081753 0.67040709]
 [0.77537471 0.97119819 0.54644364]]
PyTorch张量:
tensor([[0.1558, 0.4108, 0.6704],
        [0.7754, 0.9712, 0.5464]], dtype=torch.float64)
修改后NumPy数组:
[[100.           0.41081753   0.67040709]
 [  0.77537471   0.97119819   0.54644364]]
对应的PyTorch张量:
tensor([[100.0000,   0.4108,   0.6704],
        [  0.7754,   0.9712,   0.5464]], dtype=torch.float64)


## 1.2 自动微分

PyTorch的自动微分系统是深度学习框架的核心功能，它能够自动计算神经网络中的梯度。

#### 主要特点
- 动态计算图：PyTorch使用动态计算图，可以在运行时改变网络结构
- 反向传播：自动计算梯度，用于模型参数更新
- 高效计算：针对GPU优化的梯度计算

#### 基本用法
- `requires_grad=True`：标记需要计算梯度的张量
- `.backward()`：执行反向传播计算梯度
- `.grad`：访问计算得到的梯度
- `with torch.no_grad()`：临时禁用梯度计算
- `torch.autograd.grad()`：直接计算梯度

#### 高级功能
- 高阶导数计算
- 自定义自动微分函数
- 梯度检查与调试

## 2. 模型构建与训练
- 线性模型与多层感知机
- 卷积神经网络(CNN)
- 循环神经网络(RNN)
- Transformer架构
- 损失函数与评估指标

## 3. 高级特性
- 分布式训练
- 混合精度训练
- 模型量化与优化
- TorchScript与模型部署
- CUDA编程与GPU加速

## 4. 大模型应用
- 预训练模型加载与使用
- 微调(Fine-tuning)技术
- 模型并行与流水线并行
- 梯度检查点(Gradient Checkpointing)
- 模型蒸馏与压缩
