## Review 16-18

In [2]:
import numpy as np
import matplotlib.pyplot as plt
import torch

# Lecture 16: 神经网络基础-Numpy实现

## 1. 人工智能与神经网络的历史
- 神经元网络模型的提出
- 多层感知机方案能模拟任何逻辑算子
- 启动了第一轮人工智能浪潮

## 2. 函数回归与梯度下降法
- 神经元拟合逻辑计算
- 最小二乘拟合与函数回归
- 单神经元：Sigmoid函数
- 单元神经网络拟合布尔逻辑
- 多层网络实现XOR运算
- 单神经元网络的局限性：XOR问题
- 多元函数梯度下降回归
- 多元函数MSE loss
- 多元函数偏导与梯度向量
- 随机梯度下降法求解

## 3. 单层神经网络回归
- 线性函数最小二乘回归
- 梯度下降法
- MSE loss的偏导与梯度向量（batch size = m）
- 梯度下降回归
- 生成批量数据
- 随机梯度下降

In [3]:
# 最小二乘回归
from sklearn.linear_model import LinearRegression
model = LinearRegression(fit_intercept=True)
print(model)
# x为数据，未给出
X = x[:, np.newaxis]
X.shape

model.fit(X, X)

LinearRegression()


NameError: name 'x' is not defined

## 4. 多层神经网络建模与反向梯度传播训练
- 神经元网络模型回归
- 最小化loss，最大似然
- 最大后验概率
- Logistic Regression
- 梯度下降法：计算损失函数的梯度函数
- 多分类问题: 矩阵降维 + 激活函数 → MSE
- 多分类问题：$X = \{ x1, x2, x3, x4 \} → Y = \{′cat′,′ dog′,′ chicken′\}$
- One-hot encoding：$Y = \{1,0,0\}, \{0,1,0\}, \{0,0,1\}$

### 网络结构：
- $o_1 = x1w_{11} + x2w_{12} + x3w_{13} + x4w_{14} + b1$
- $o_2 = x1w_{21} + x2w_{22} + x3w_{23} + x4w_{24} + b2$
- $o_3 = x1w_{31} + x2w_{32} + x3w_{33} + x4w_{34} + b3$

### Softmax推断与交叉熵loss
- Softmax运算：
- Softmax推断：
- Softmax与交叉熵损失函数
- 熵 (Entropy) 与交叉熵 (Cross-Entropy)
- 熵：$H(P) = -\sum_j P_j \log P_j$
- 交叉熵：$H(P,Q) = -\sum_j P_j \log Q_j - Q_j \log P(j)$
- 交叉熵损失函数：
- logistic回归对参数求偏导

## 5. 用numpy实现一个神经网络
- 神经网络的向前传播机制（predict）
  - 输入层输入特征
  - 按模型权重与偏置量实现向前传播
  - Softmax得到结果分布
- 单层前馈网络：
  - 输入变量: $a= [a1, a2, a3]$
  - 权值: $W = \begin{bmatrix} w_{11} & w_{12} & w_{13} \\ w_{21} & w_{22} & w_{23} \end{bmatrix}$
  - 输出: $Z = [z1, z2] = g(W \cdot a)$
  - 权值是通过训练得到的。
- 多层神经网络
  - $a^{(1)}, a^{(2)}, z$是网络中传输的向量数据
  - $b^{(1)}, b^{(2)}, W^{(1)}和W^{(2)}$是网络的参数
  - $a^{(2)} = g(W^{(1)} \cdot a^{(1)} + b^{(1)})$
  - $Z = g(W^{(2)} \cdot a^{(2)} + b^{(2)})$
- Sigmoid激活函数

### 前馈神经网络（Feedforward Networks）
- 向前传播的计算流
- 矩阵数据（batch）进行前馈计算

### 多层BP神经网络模型学习
- 多层多分类网络与激活函数
- 反向传播学习

### 模型学习流程 - 反向梯度传播
- 模型学习流程：
  - 向前传播：矩阵计算 + 激活函数 + pooling + norm
  - 计算loss
  - 反向梯度回传回归模型参数
- 链式法则
- 反向传播与梯度下降训练法

### 假设损失函数为：$$MSE = \frac{(y - p)^2}{2}; p = g(W \cdot x + b)$$
- 目标：求得一组参数，使得MSE最小。(最优化问题)
- W和b更新算法：
  - 计算W和b的梯度：$\Delta W = \frac{\partial MSE}{\partial W}, \Delta b = \frac{\partial MSE}{\partial b}$
  - $W = W - \lambda \cdot \Delta W$
  - $b = b - \lambda \cdot \Delta b$($\lambda$为学习率)
- 循环上述过程，直到损失函数足够小。
- 批量梯度：每轮权重更新所有样本都参与训练
- 随机梯度下降：每轮权重更新只随机选取一个样本参与训练
- 梯度下降法与局部最优解
- 训练过程：向前传播-计算loss-反向梯度优化

### 向前传播（模型计算）
- 多层网络计算流程符号体系

### 反向梯度传播思想
- 从后向前计算
- 每层梯度计算都可以看作是一个独立的网络，链式法则
- $L-1$层梯度的计算与$L$层的梯度计算有关
- 反向传播推导与总结
- 反向传播计算流程
- 反向传播梯度下降权重修正计算公式

## 6. 例子：数据生成与网络模型
- 网络模型：2层网络，Sigmoid激活函数
- 激活函数求导
  - Sigmoid激活函数求导
- 定义向前传播及反向计算梯度函数
- 模型初始化及训练

### 梯度消失与激活函数选择
- 模型拟合与冗余
- 梯度消失问题
- 常见的激活函数
  - Sigmoid
    - $f(x) = \frac{1}{1 + e^{-x}}$
    - $f'(x) = \frac{e^{-x}}{(1 + e^{-x})^2} = \frac{1}{1 + e^{-x}} - \frac{1}{(1 + e^{-x})^2}$
  - Tanh
    - $f(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$
    - $f'(x) = \frac{(e^x + e^{-x})^2 - (e^x - e^{-x})^2}{(e^x + e^{-x})^2} = 1 - f(x)^2$
  - Relu
    - $f(x) = \begin{cases} 0 & x < 0 \\ x & x \geq 0 \end{cases}$
    - $f'(x) = \begin{cases} 0 & x < 0 \\ 1 & x \geq 0 \end{cases}$

# Lecture 18: 神经网络基础-PyTorch的NN架构

# 神经网络基础与PyTorch的nn架构复习笔记

## 1. 神经网络模型基础

### 1.1 多层神经网络学习
- **多层多分类网络与激活函数**
- **反向传播学习**

### 1.2 模型学习流程 - 反向梯度传播
1. **向前传播**：矩阵计算 + 激活函数
2. **计算损失函数** (例如：均方误差 MSE)
3. **反向梯度回传**：使用链式法则计算梯度，并回归模型参数
4. **更新参数**：使用梯度下降法更新权重和偏置

### 1.3 反向梯度传播与梯度下降训练法
- **损失函数**: $ \text{MSE} = \frac{(y - p)^2}{2} $, 其中 $ p = g(W \cdot x + b) $
- **目标**: 最小化 MSE
- **参数更新**:
  - 计算梯度: $ \Delta W = \frac{\partial \text{MSE}}{\partial W} $, $ \Delta b = \frac{\partial \text{MSE}}{\partial b} $
  - 更新公式: 
    - $ W = W - \lambda \cdot \Delta W $
    - $ b = b - \lambda \cdot \Delta b $ （$ \lambda $ 为学习率）

## 2. 常见激活函数及其导数

### 2.1 Sigmoid
- **公式**: $ f(x) = \frac{1}{1 + e^{-x}} $
- **导数**: $ f'(x) = f(x) \cdot (1 - f(x)) $

### 2.2 Tanh
- **公式**: $ f(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}} $
- **导数**: $ f'(x) = 1 - f(x)^2 $

### 2.3 ReLU
- **公式**: $ f(x) = \max(0, x) $
- **导数**: 
  - $ f'(x) = 0 $ if $ x < 0 $
  - $ f'(x) = 1 $ if $ x \geq 0 $

## 3. PyTorch的基本运算

### 3.1 Tensor的声明与初始化

In [4]:
import torch

# 初始化一个tensor
x = torch.tensor([1, 2, 3])

### 3.2 Tensor的运算

In [5]:
# 基本运算示例
y = x + 2
z = x * 3

### 3.3 使用GPU加速

In [6]:
# 将tensor移至GPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
x = x.to(device)

### 4. 神经网络模型设计基本框架
#### 4.1 模型层定义
+ 线性(全连接)层
+ 非线性激活层
+ 损失函数设定
#### 4.2 优化器
+ 学习率与学习策略
+ 常用优化器：SGD, Adam
#### 4.3 数据加载与预处理

In [7]:
from torchvision import datasets, transforms

# 数据变换与增强
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.5,), (0.5,))
])

# 加载数据集
trainset = datasets.MNIST(root='./data', train=True, download=True, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=64, shuffle=True)

### 5. 卷积神经网络 (CNN)
#### 5.1 基本架构
+ 卷积层 (nn.Conv2d)
+ 激活层 (nn.ReLU)
+ 池化层 (nn.MaxPool2d)
+ 全连接层 (nn.Linear)
+ 输出层 (nn.LogSoftmax 用于多分类)
#### 5.2 卷积层定义

In [8]:
import torch.nn as nn

class SimpleCNN(nn.Module):
    def __init__(self):
        super(SimpleCNN, self).__init__()
        self.conv1 = nn.Conv2d(1, 32, 3, 1)
        self.conv2 = nn.Conv2d(32, 64, 3, 1)
        self.fc1 = nn.Linear(9216, 128)
        self.fc2 = nn.Linear(128, 10)
        self.dropout = nn.Dropout(0.25)
        
    def forward(self, x):
        x = self.conv1(x)
        x = nn.ReLU()(x)
        x = self.conv2(x)
        x = nn.ReLU()(x)
        x = nn.MaxPool2d(2)(x)
        x = self.dropout(x)
        x = torch.flatten(x, 1)
        x = self.fc1(x)
        x = nn.ReLU()(x)
        x = self.fc2(x)
        output = nn.LogSoftmax(dim=1)(x)
        return output

#### 5.3 训练过程

In [9]:
import torch.optim as optim

model = SimpleCNN().to(device)
optimizer = optim.Adam(model.parameters(), lr=0.001)
criterion = nn.CrossEntropyLoss()

def train(model, device, trainloader, optimizer, epoch):
    model.train()
    for batch_idx, (data, target) in enumerate(trainloader):
        data, target = data.to(device), target.to(device)
        optimizer.zero_grad()
        output = model(data)
        loss = criterion(output, target)
        loss.backward()
        optimizer.step()
        if batch_idx % 100 == 0:
            print(f'Train Epoch: {epoch} [{batch_idx * len(data)}/{len(trainloader.dataset)}] Loss: {loss.item():.6f}')

# 训练模型
for epoch in range(1, 11):
    train(model, device, trainloader, optimizer, epoch)

Train Epoch: 1 [0/60000] Loss: 2.301147
Train Epoch: 1 [6400/60000] Loss: 0.412155
Train Epoch: 1 [12800/60000] Loss: 0.152496
Train Epoch: 1 [19200/60000] Loss: 0.156423
Train Epoch: 1 [25600/60000] Loss: 0.091935
Train Epoch: 1 [32000/60000] Loss: 0.021849
Train Epoch: 1 [38400/60000] Loss: 0.080303
Train Epoch: 1 [44800/60000] Loss: 0.023446
Train Epoch: 1 [51200/60000] Loss: 0.070930
Train Epoch: 1 [57600/60000] Loss: 0.151295
Train Epoch: 2 [0/60000] Loss: 0.020539
Train Epoch: 2 [6400/60000] Loss: 0.011961
Train Epoch: 2 [12800/60000] Loss: 0.019574
Train Epoch: 2 [19200/60000] Loss: 0.030182
Train Epoch: 2 [25600/60000] Loss: 0.132227
Train Epoch: 2 [32000/60000] Loss: 0.004022
Train Epoch: 2 [38400/60000] Loss: 0.038181
Train Epoch: 2 [44800/60000] Loss: 0.152739
Train Epoch: 2 [51200/60000] Loss: 0.068500
Train Epoch: 2 [57600/60000] Loss: 0.068467
Train Epoch: 3 [0/60000] Loss: 0.020998
Train Epoch: 3 [6400/60000] Loss: 0.001969
Train Epoch: 3 [12800/60000] Loss: 0.085834
Tra

KeyboardInterrupt: 

### 6. 评价指标
+ 准确率 (Accuracy): 预测正确的样本比例
+ 精确率 (Precision): 预测为正的样本中正确预测的比例
+ 召回率 (Recall): 实际为正的样本中被正确预测的比例
+ F1-Measure: 精确率和召回率的调和均值

In [10]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

def evaluate(model, device, testloader):
    model.eval()
    test_loss = 0
    correct = 0
    all_preds = []
    all_targets = []
    with torch.no_grad():
        for data, target in testloader:
            data, target = data.to(device), target.to(device)
            output = model(data)
            test_loss += criterion(output, target).item()
            pred = output.argmax(dim=1, keepdim=True)
            correct += pred.eq(target.view_as(pred)).sum().item()
            all_preds.extend(pred.cpu().numpy())
            all_targets.extend(target.cpu().numpy())
    
    test_loss /= len(testloader.dataset)
    accuracy = accuracy_score(all_targets, all_preds)
    precision = precision_score(all_targets, all_preds, average='macro')
    recall = recall_score(all_targets, all_preds, average='macro')
    f1 = f1_score(all_targets, all_preds, average='macro')
    
    print(f'Test set: Average loss: {test_loss:.4f}, Accuracy: {correct}/{len(testloader.dataset)} ({accuracy * 100:.2f}%)')
    print(f'Precision: {precision:.4f}, Recall: {recall:.4f}, F1-Score: {f1:.4f}')

In [11]:
# 加载测试数据
testset = datasets.MNIST(root='./data', train=False, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=1000, shuffle=False)

# 评估模型
evaluate(model, device, testloader)

Test set: Average loss: 0.0000, Accuracy: 9894/10000 (98.94%)
Precision: 0.9896, Recall: 0.9892, F1-Score: 0.9893


### 7. 正则化与优化
#### 7.1 正则化
+ L1 正则化: $ L(w) = \text{Loss} + \lambda |w|_1 $
+ L2 正则化: $ L(w) = \text{Loss} + \lambda |w|_2 $
#### 7.2 优化器
+ SGD
+ AdaGrad
+ RMSProp
+ Adam

In [12]:
# 使用Adam优化器并加上L2正则化
optimizer = optim.Adam(model.parameters(), lr=0.001, weight_decay=1e-5)

#### 7.3 数据增强

In [13]:
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.5,), (0.5,))
])