# week8
*time: 2024-05-27 to 2024-06-01*
# Deep Learning 
> 说明：`C1_W1`没有编码作业，所以本周没有`C1_W1`对应的文件夹
## C1_W1_引言

### 1.1 深度学习简介
- **定义**：深度学习是一种通过多层神经网络来自动提取特征并进行学习的技术。
- **结构**：由输入层、多个隐藏层和输出层组成。
- **应用**：图像识别、语音识别、自然语言处理等。

### 1.2 卷积神经网络 (CNN)
- **定义**：专门用于处理图像数据的神经网络。
- **主要组件**：
  - **卷积层**：提取局部特征。公式：
  $$ (I * K)(i,j) = \sum_m \sum_n I(i+m,j+n) \cdot K(m,n) $$
  - **池化层**：降维和去噪。常用方法有最大池化和平均池化。
  - **全连接层**：将特征映射到输出空间。
- **实例**：经典模型如LeNet、AlexNet、VGG、ResNet。

#### 示例代码：构建一个简单的CNN
```python
import tensorflow as tf
from tensorflow.keras import layers, models

model = models.Sequential([
    layers.Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1)),
    layers.MaxPooling2D((2, 2)),
    layers.Conv2D(64, (3, 3), activation='relu'),
    layers.MaxPooling2D((2, 2)),
    layers.Conv2D(64, (3, 3), activation='relu'),
    layers.Flatten(),
    layers.Dense(64, activation='relu'),
    layers.Dense(10, activation='softmax')
])

model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])
```

### 1.3 循环神经网络 (RNN)
- **定义**：用于处理序列数据的神经网络。
- **特点**：具有记忆能力，能够捕捉时间序列中的依赖关系。
- **变体**：长短期记忆网络（LSTM）、门控循环单元（GRU）。
- **公式**：隐状态更新$$ h_t = \sigma(W_{hh} h_{t-1} + W_{xh} x_t) $$
- **实例**：用于语言模型、语音识别。

#### 示例代码：构建一个简单的LSTM
```python
model = tf.keras.Sequential([
    tf.keras.layers.Embedding(input_dim=10000, output_dim=64),
    tf.keras.layers.LSTM(128),
    tf.keras.layers.Dense(10, activation='softmax')
])

model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])
```

### 1.4 深度学习评估
- **指标**：准确率、精确率、召回率、F1分数。
- **方法**：交叉验证、混淆矩阵。
- **实例**：在分类任务中使用准确率来评估模型性能。

#### 示例代码：评估模型性能
```python
# Assuming 'model' is a trained model and 'test_images', 'test_labels' are the test dataset
test_loss, test_acc = model.evaluate(test_images, test_labels, verbose=2)
print('\nTest accuracy:', test_acc)
```

## C1_W2_神经网络编程基础

### 2.1 浅层神经网络相关模型构建
- **结构**：输入层、一个隐藏层、输出层。
- **前向传播**：计算输出值。公式$$ a^{[l]} = \sigma(W^{[l]} a^{[l-1]} + b^{[l]}) $$
- **实例**：手写数字识别中的两层神经网络。

#### 示例代码：构建一个简单的浅层神经网络
```python
model = tf.keras.Sequential([
    tf.keras.layers.Flatten(input_shape=(28, 28)),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dense(10, activation='softmax')
])

model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])
```

### 2.2 学习算法的总体结构
- **步骤**：
  1. 初始化参数
  2. 前向传播计算输出
  3. 计算损失函数
  4. 反向传播计算梯度
  5. 更新参数
- **公式**：梯度下降$$\theta = \theta - \alpha \frac{\partial J}{\partial \theta} $$
- **实例**：使用梯度下降法优化神经网络参数。

#### 示例代码：使用梯度下降法
```python
# Manually implementing gradient descent for a simple linear model
import numpy as np

# Data
X = np.array([1, 2, 3, 4], dtype=np.float32)
Y = np.array([2, 4, 6, 8], dtype=np.float32)

# Model parameters
W = np.random.randn()
b = np.random.randn()

# Learning rate
lr = 0.01

# Training loop
for epoch in range(1000):
    # Forward pass
    Y_pred = W * X + b
    loss = np.mean((Y - Y_pred) ** 2)
    
    # Backward pass
    dW = -2 * np.mean(X * (Y - Y_pred))
    db = -2 * np.mean(Y - Y_pred)
    
    # Update parameters
    W -= lr * dW
    b -= lr * db
    
    if epoch % 100 == 0:
        print(f'Epoch {epoch}: Loss {loss}')
```

### 2.3 矢量化进阶
- **定义**：将标量运算转换为向量运算。
- **优点**：提高计算效率。
- **实例**：矩阵乘法代替for循环计算神经网络的前向传播和反向传播。

#### 示例代码：矢量化实现
```python
# Using numpy for vectorized operations
import numpy as np

# Data
X = np.random.rand(1000, 784)  # 1000 samples, 784 features
W = np.random.rand(784, 10)    # weights for 10 classes
b = np.random.rand(10)         # bias for 10 classes

# Forward pass
Z = np.dot(X, W) + b
A = np.maximum(Z, 0)  # ReLU activation
```

### 2.4 广播 (Broadcast)
- **定义**：在不同形状的张量之间进行运算的技术。
- **优点**：提高代码简洁性和效率。
- **实例**：两个不同形状的矩阵相加、乘法等。

#### 广播规则
1. 如果两个数组的轴长度相等，或者其中一个数组的轴长度为1，则认为它们在该轴上是兼容的。
2. 如果数组的形状不同，在缺失和长度为1的维度上进行扩展，使它们形状一致。

#### 示例代码：广播机制的应用
```python
import numpy as np

# 示例 1: 标量和数组相加
A = np.array([1, 2, 3])
B = 2
C = A + B
print("标量和数组相加:\n", C)

# 示例 2: 形状为 (3,1) 的数组和形状为 (1,4) 的数组相加
A = np.array([[1], [2], [3]])
B = np.array([[4, 5, 6, 7]])
C = A + B
print("\n形状为 (3,1) 的数组和形状为 (1,4) 的数组相加:\n", C)

# 示例 3: 两个形状不相同但兼容的数组相乘
A = np.array([[1, 2, 3], [4, 5, 6]])
B = np.array([1, 2, 3])
C = A * B
print("\n两个形状不相同但兼容的数组相乘:\n", C)

# 示例 4: 更复杂的广播应用，形状为 (2,3,4) 的数组与形状为 (3,1) 的数组相加
A = np.ones((2, 3, 4))
B = np.arange(3).reshape((3, 1))
C = A + B
print("\n形状为 (2,3,4) 的数组与形状为 (3,1) 的数组相加:\n", C)

# 示例 5: 广播机制的其他应用，如形状为 (2,3,4) 的数组与形状为 (3,4) 的数组相加
A = np.ones((2, 3, 4))
B = np.arange(12).reshape((3, 4))
C = A + B
print("\n形状为 (2,3,4) 的数组与形状为 (3,4) 的数组相加:\n", C)

# 示例 6: 使用广播机制进行矩阵乘法
A = np.array([[1, 2], [3, 4], [5, 6]])
B = np.array([[7, 8], [9, 10]])
C = A @ B
print("\n使用广播机制进行矩阵乘法:\n", C)

# 示例 7: 广播机制与更高维度数组的加法
A = np.random.rand(5, 1, 4, 1)
B = np.random.rand(1, 3, 1, 2)
C = A + B
print("\n广播机制与更高维度数组的加法:\n", C)
```

### 解释

1. **标量和数组相加**：直接将标量添加到数组的每个元素上。
2. **形状为 (3,1) 的数组和形状为 (1,4) 的数组相加**：数组A沿第二维度扩展，数组B沿第一维度扩展。
3. **两个形状不相同但兼容的数组相乘**：数组A和B的形状为 (2,3) 和 (3)，B沿第一维度扩展。
4. **更复杂的广播应用**：数组A的形状为 (2,3,4)，数组B的形状为 (3,1)，B沿第一和第三维度扩展。
5. **形状为 (2,3,4) 的数组与形状为 (3,4) 的数组相加**：数组B沿第一维度扩展。
6. **矩阵乘法**：矩阵A形状为 (3,2)，矩阵B形状为 (2,2)，使用 @ 运算符进行矩阵乘法。
7. **更高维度数组的加法**：数组A形状为 (5,1,4,1)，数组B形状为 (1,3,1,2)，分别沿对应的维度扩展。


### 2.5 反向传播进阶
- **定义**：计算损失函数对各层参数的梯度，并反向传播这些梯度以更新参数。
- **高级技巧**：
  - **梯度剪裁**：防止梯度爆炸。
  - **动量**：加速收敛。公式$$ v = \beta v + (1-\beta) \nabla J $$
  - **Adam优化**：结合动量和自适应学习率。公式$$ m_t = \beta_1 m_{t-1} + (1-\beta_1)g_t $$
- **实例**：在深度神经网络中使用Adam优化器进行训练。

#### 示例代码：使用Adam优化器
```python
# Using Adam optimizer in a neural network
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# Training the model
model.fit(train_images, train_labels, epochs=10)
```
