In [9]:
#softmax回归实现
import torch
from IPython import display
from d2l import torch as d2l

batch_size = 256 
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)

num_inputs = 784
num_outputs = 10
W = torch.normal(0, 0.01, size=(num_inputs, num_outputs),requires_grad=True)
b = torch.zeros(num_outputs,requires_grad=True)
# 定义softmax操作
def softmax(X):
    X_exp = torch.exp(X)
    par = X_exp.sum(1,keepdim=True)
    return X_exp / par

x = torch.tensor([[1.0, 2.0, 3.0],[4.0, 5.0, 6.0]])
print(x.sum(axis = 0,keepdim=True))
print(x.sum(axis = 1,keepdim=True))

X = torch.normal(0, 0.01,(2, 5))
X_cal = softmax(X)
print(X_cal) 
print(X_cal.sum(1, keepdim=True))

# 定义模型
def net(X):
    return softmax(torch.matual(X.reshape((-1, W.shape[0])), W) + b)

#定义损失函数
def cross_entropy(y_hat, y):
    return -torch.log(y_hat[range(len(y_hat)),y])
    

tensor([[5., 7., 9.]])
tensor([[ 6.],
        [15.]])
tensor([[0.2006, 0.1992, 0.2005, 0.1981, 0.2015],
        [0.1987, 0.2004, 0.1999, 0.1989, 0.2022]])
tensor([[1.],
        [1.]])


## pytorch张量

In [10]:
import torch

# 创建一个 2x3 的全 0 张量
a = torch.zeros(2, 3)
print(a)

# 创建一个 2x3 的全 1 张量
b = torch.ones(2, 3)
print(b)

# 创建一个 2x3 的随机数张量
c = torch.randn(2, 3)
print(c)

# 从 NumPy 数组创建张量
import numpy as np
numpy_array = np.array([[1, 2], [3, 4]])
tensor_from_numpy = torch.from_numpy(numpy_array)
print(tensor_from_numpy)

# 在指定设备（CPU/GPU）上创建张量
#device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
device = torch.device("cpu")
print(device)
d = torch.randn(2, 3, device=device)
print(d)

tensor([[0., 0., 0.],
        [0., 0., 0.]])
tensor([[1., 1., 1.],
        [1., 1., 1.]])
tensor([[-0.6874, -1.3592,  0.3876],
        [ 1.1140,  0.9391, -0.6689]])
tensor([[1, 2],
        [3, 4]], dtype=torch.int32)
cpu
tensor([[ 0.7606,  1.0468, -2.3401],
        [-0.7889, -0.2347, -0.1253]])


## 移动到GPU进行运算

In [11]:
# 将张量移动到GPU进行加速
if torch.cuda.is_available():
    tensor_gpu = tensor_from_list.to('cuda')
    print(tensor_gpu)

## 梯度和自动微分

In [12]:
tensor_requires_grad = torch.randn(2, 3, requires_grad=True)
tensor_result = tensor_requires_grad * 2
print(tensor_result)
# 计算张量的梯度，记得要求和
tensor_result.sum().backward()
print(tensor_requires_grad.grad)

tensor([[ 1.0149,  1.4972, -0.6675],
        [ 4.9121,  3.0807,  1.2811]], grad_fn=<MulBackward0>)
tensor([[2., 2., 2.],
        [2., 2., 2.]])


## 优化内存管理方法

`.clone()`

`.detach()`

`.to()`

In [13]:
#.clone() 方法会创建一个张量的副本，但不会保留梯度信息
x = torch.tensor([1.0,2],requires_grad=True)
y = x.clone()
y[0] = -1
print(x)
print(y)
y.sum().backward()
print(y.grad)
print(x.grad)

tensor([1., 2.], requires_grad=True)
tensor([-1.,  2.], grad_fn=<CopySlices>)
None
tensor([0., 1.])


  print(y.grad)


`.detach()` 用于从计算图中分离张量，生成一个不需要梯度计算的副本。分离后的张量不再参与反向传播，这在以下情况中非常有用：
冻结网络参数：在迁移学习中，你可能希望冻结某些层的参数，阻止它们更新梯度。
减少内存开销：通过移除不需要梯度的张量，可以减小计算图的规模，从而节省内存。

In [14]:
# .detach()
a = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)
# 分离意味着b不会跟踪任何操作历史
b = a.detach()
# requires_grad的属性会被设置为False
print(b.requires_grad)  # 输出: False

False


## 神经网络nn.Mudule

In [15]:
import torch.nn as nn
import torch.optim as optim

# 定义一个简单的全连接神经网络
class SimpleNN(nn.Module):
    def __init__(self):
        super(SimpleNN, self).__init__()
        # 输入 x (1×2) 与权重矩阵 W₁ (2×2) 相乘，然后加上偏置 b₁ (2)，结果形状: (1, 2)
        self.fc1 = nn.Linear(2, 2)  # 输入层到隐藏层
        # 隐藏层输出 (1×2) 与权重矩阵 W₂ (2×1) 相乘，然后加上偏置 b₂ (1)，结果形状: (1, 1)
        self.fc2 = nn.Linear(2, 1)  # 隐藏层到输出层
    
    def forward(self, x):
        x = torch.relu(self.fc1(x))  # ReLU 激活函数
        # ReLu激活函数定义f(x) = max(0, x)，正区间的梯度恒为1
        #这里将Relu激活函数作用在全连接层的输出上，它激活了部分特征（正值），抑制了其他特征（负值）
        x = self.fc2(x)
        # 经过ReLu的处理后的数据再传入第二层全连接层，得到最终的输出
        return x

# 创建网络实例
model = SimpleNN()

# 打印模型结构
print(model)

SimpleNN(
  (fc1): Linear(in_features=2, out_features=2, bias=True)
  (fc2): Linear(in_features=2, out_features=1, bias=True)
)


## 训练过程

### 前向传播（Forward Propagation）： 

在前向传播阶段，输入数据通过网络层传递，每层应用权重和激活函数，直到产生输出。

### 计算损失（Calculate Loss）： 

根据网络的输出和真实标签，计算损失函数的值。

In [16]:
import torch
# 随机输入
x = torch.randn(1, 2)
print(x)
# 前向传播
output = model(x) # model在前面定义神经网络中出现过
print(output)

# 定义损失函数（例如均方误差 MSE）
criterion = nn.MSELoss()

# 假设目标值为 1
target = torch.randn(1, 1)
print(target)

# 计算损失
# output：模型的预测值；target：期望的目标值，二者都是(1,1)的张量
loss = criterion(output, target) #计算均方误差
print(loss)

tensor([[0.6315, 0.0088]])
tensor([[0.7926]], grad_fn=<AddmmBackward0>)
tensor([[-0.1386]])
tensor(0.8672, grad_fn=<MseLossBackward0>)


### 优化器(Optimizers)


优化器在训练过程中更新神经网络的参数，以减少损失函数的值。

PyTorch 提供了多种优化器，例如 SGD、Adam 等。

使用优化器进行参数更新：

In [17]:
# 查看model里所有的模型参数
for name, param in model.named_parameters():
    print(f"{name}: {param.shape}")

# 输出类似：
# fc1.weight: torch.Size([2, 2])
# fc1.bias: torch.Size([2])
# fc2.weight: torch.Size([1, 2])
# fc2.bias: torch.Size([1])

fc1.weight: torch.Size([2, 2])
fc1.bias: torch.Size([2])
fc2.weight: torch.Size([1, 2])
fc2.bias: torch.Size([1])


In [18]:
# 定义优化器（使用 Adam 优化器）
optimizer = optim.Adam(model.parameters(), lr=0.001)
# 当调用 parameters() 方法时，它会递归地收集所有这些参数

# 训练步骤
optimizer.zero_grad()  # 清空梯度
loss.backward()  # 反向传播
# 每次调用 optimizer.step() 时，会使用计算出的梯度更新这些参数
optimizer.step()  # 更新参数

### 训练模型

模型通常包括以下几个步骤：  

#### 数据准备：  

- 收集和处理数据，包括清洗、标准化和归一化。  
- 将数据分为训练集、验证集和测试集。  

#### 定义模型：  

- 选择模型架构，例如决策树、神经网络等。  
- 初始化模型参数（权重和偏置）。  

#### 选择损失函数：  

- 根据任务类型（如分类、回归）选择合适的损失函数。  

#### 选择优化器：  

- 选择一个优化算法，如SGD、Adam等，来更新模型参数。  

#### 前向传播：  

- 在每次迭代中，将输入数据通过模型传递，计算预测输出。  

#### 计算损失：  

- 使用损失函数评估预测输出与真实标签之间的差异。  

#### 反向传播：  

- 利用自动求导计算损失相对于模型参数的梯度。  

#### 参数更新：  

- 根据计算出的梯度和优化器的策略更新模型参数。  

#### 迭代优化：  

- 重复步骤5-8，直到模型在验证集上的性能不再提升或达到预定的迭代次数。  

#### 评估和测试：  

- 使用测试集评估模型的最终性能，确保模型没有过拟合。  

#### 模型调优：  

- 根据模型在测试集上的表现进行调参，如改变学习率、增加正则化等。  

#### 部署模型：  

- 将训练好的模型部署到生产环境中，用于实际的预测任务。

In [19]:
import torch
import torch.nn as nn
import torch.optim as optim

# 1. 定义一个简单的神经网络模型
class SimpleNN(nn.Module):
    def __init__(self):
        super(SimpleNN, self).__init__()
        self.fc1 = nn.Linear(2, 2)  # 输入层到隐藏层
        self.fc2 = nn.Linear(2, 1)  # 隐藏层到输出层
    
    def forward(self, x):
        x = torch.relu(self.fc1(x))  # ReLU 激活函数
        x = self.fc2(x)
        return x

# 2. 创建模型实例
model = SimpleNN()

# 3. 定义损失函数和优化器
criterion = nn.MSELoss()  # 均方误差损失函数
optimizer = optim.Adam(model.parameters(), lr=0.001)  # Adam 优化器

# 4. 假设我们有训练数据 X 和 Y
X = torch.randn(10, 2)  # 10 个样本，2 个特征
Y = torch.randn(10, 1)  # 10 个目标值

# 5. 训练循环
for epoch in range(100):  # 训练 100 轮
    optimizer.zero_grad()  # 清空之前的梯度
    output = model(X)  # 前向传播
    loss = criterion(output, Y)  # 计算损失
    loss.backward()  # 反向传播
    optimizer.step()  # 更新参数
    
    # 每 10 轮输出一次损失
    if (epoch+1) % 10 == 0:
        print(f'Epoch [{epoch+1}/100], Loss: {loss.item():.4f}')

Epoch [10/100], Loss: 1.4844
Epoch [20/100], Loss: 1.4643
Epoch [30/100], Loss: 1.4461
Epoch [40/100], Loss: 1.4306
Epoch [50/100], Loss: 1.4166
Epoch [60/100], Loss: 1.4040
Epoch [70/100], Loss: 1.3924
Epoch [80/100], Loss: 1.3818
Epoch [90/100], Loss: 1.3720
Epoch [100/100], Loss: 1.3629
