# WEEK 9

2024/06/03 - 2024/06/09

# deep learning C1_W3

## 3.1 隐藏单元和隐藏层

- **隐藏单元**：神经网络中的每一个神经元。每个隐藏单元接收输入信号，通过激活函数处理后输出信号。
- **隐藏层**：位于输入层和输出层之间的一层或多层神经元。隐藏层的主要作用是提取输入数据的特征，增加网络的非线性表达能力。
- 示例：
  - 输入层：接受原始数据，例如图像像素值。
  - 隐藏层：通过权重和激活函数对输入数据进行处理，提取特征。
  - 输出层：输出最终结果，例如分类概率。

## 3.2 对神经网络进行随机初始化

- **随机初始化**：用小随机数初始化权重矩阵，避免对称性，使每个神经元能够学习到不同的特征。
- 常见的初始化方法：
  - **均匀分布**：在一个小范围内随机生成。
  - **高斯分布**：按照正态分布随机生成。
- 初始化示例代码：

```python
import numpy as np

def initialize_parameters(n_x, n_h, n_y):
    np.random.seed(1)
    W1 = np.random.randn(n_h, n_x) * 0.01
    b1 = np.zeros((n_h, 1))
    W2 = np.random.randn(n_y, n_h) * 0.01
    b2 = np.zeros((n_y, 1))

    parameters = {"W1": W1,
                  "b1": b1,
                  "W2": W2,
                  "b2": b2}
    
    return parameters
```

## 3.3 实现单隐层的两级分类神经网络

- **单隐层神经网络**：包含一个隐藏层的神经网络，用于二元分类任务。
- 网络架构：
  - 输入层：接收输入特征。
  - 隐藏层：进行特征提取和非线性变换，常用激活函数为ReLU或tanh。
  - 输出层：输出分类结果，常用激活函数为sigmoid。

### 3.3.1 前向传播

- 前向传播步骤：
  1. 计算隐藏层的线性组合： \( Z1 = W1 \cdot X + b1 \)
  2. 应用激活函数： \( A1 = \tanh(Z1) \)
  3. 计算输出层的线性组合： \( Z2 = W2 \cdot A1 + b2 \)
  4. 应用激活函数： \( A2 = \sigma(Z2) \)

```python
def sigmoid(z):
    return 1 / (1 + np.exp(-z))

def forward_propagation(X, parameters):
    W1 = parameters['W1']
    b1 = parameters['b1']
    W2 = parameters['W2']
    b2 = parameters['b2']
    
    Z1 = np.dot(W1, X) + b1
    A1 = np.tanh(Z1)
    Z2 = np.dot(W2, A1) + b2
    A2 = sigmoid(Z2)
    
    cache = {"Z1": Z1,
             "A1": A1,
             "Z2": Z2,
             "A2": A2}
    
    return A2, cache
```

## 3.4 计算交叉熵损失

- **交叉熵损失**：用于评估分类模型的预测结果与实际结果之间的差异。
- 损失函数公式：
\[ J = -\frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)} \log(a^{(i)}) + (1 - y^{(i)}) \log(1 - a^{(i)}) \right] \]
  - 其中， \( m \) 为样本数量， \( y^{(i)} \) 为第 \( i \) 个样本的真实标签， \( a^{(i)} \) 为第 \( i \) 个样本的预测值。

### 3.4.1 实现代码示例

```python
def compute_cost(A2, Y):
    m = Y.shape[1]
    cost = -1/m * np.sum(Y * np.log(A2) + (1 - Y) * np.log(1 - A2))
    cost = np.squeeze(cost)  # 确保成本是一个标量
    
    return cost
```

# deep learning C1_W4

## 4.1 深度神经网络的连续块结构

- **连续块结构**：深度神经网络由多个相同或类似的层块叠加而成。
- 每个块通常包含多个卷积层、激活函数和池化层。
- 通过堆叠这些块，可以构建出具有复杂特征提取能力的深度神经网络。

## 4.2 构建深度 L 层神经网络

### 4.2.1 网络架构

- 输入层：接受输入数据。
- 多个隐藏层：提取特征和进行非线性变换。
- 输出层：生成最终输出。

### 4.2.2 初始化参数

- 初始化参数的步骤：
  1. 为每一层初始化权重矩阵和偏置向量。
  2. 权重矩阵按均匀分布或正态分布随机生成。
  3. 偏置向量初始化为零。

```python
def initialize_parameters_deep(layer_dims):
    np.random.seed(3)
    parameters = {}
    L = len(layer_dims)           
    
    for l in range(1, L):
        parameters['W' + str(l)] = np.random.randn(layer_dims[l], layer_dims[l-1]) / np.sqrt(layer_dims[l-1])
        parameters['b' + str(l)] = np.zeros((layer_dims[l], 1))
        
    return parameters
```

## 4.3 分析矩阵和矢量维度

- 确保矩阵和矢量在计算过程中维度匹配是至关重要的。
- 常见的维度错误包括：
  - 矩阵乘法维度不匹配。
  - 添加偏置项时的维度不匹配。

### 4.3.1 示例

- 输入矩阵 \( X \) 的维度为 (n_x, m)，其中 \( n_x \) 是输入特征数量，\( m \) 是样本数量。
- 权重矩阵 \( W \) 的维度为 (n_h, n_x)，其中 \( n_h \) 是隐藏层单元数量。
- 偏置向量 \( b \) 的维度为 (n_h, 1)。

## 4.4 检查神经网络实现情况

- **前向传播**：确保每层的输出正确。
  - 检查激活函数和线性变换的输出。
- **反向传播**：确保梯度计算正确。
  - 检查梯度计算公式是否正确。
- **参数更新**：确保参数更新正确。
  - 检查每次迭代后的参数变化。

## 4.5 超参数

- **学习率**：决定每次更新步长。较小的学习率可以使得训练更稳定，但需要更多的迭代次数。
- **迭代次数**：训练的总轮数。较多的迭代次数可以使得模型更好地拟合训练数据。
- **隐藏层单元数**：每个隐藏层中的神经元数量。较多的隐藏单元可以提高模型的表达能力，但也增加了计算复杂度和过拟合的风险。

## 4.6 构建双层神经网络

### 4.6.1 前向传播

- 前向传播步骤：
  1. 计算每层的线性组合： \( Z = W \cdot A + b \)
  2. 应用激活函数： \( A = \sigma(Z) \)
  3. 重复上述步骤直到最后一层。

```python
def forward_propagation_deep(X, parameters):
    caches = []
    A = X
    L = len(parameters) // 2  # 神经网络的层数
    
    for l in range(1, L):
        A_prev = A 
        Z = np.dot(parameters['W' + str(l)], A_prev) + parameters['b' + str(l)]
        A = np.maximum(0, Z)  # ReLU 激活函数
        caches.append((A_prev, Z, parameters['W' + str(l)], parameters['b' + str(l)]))
    
    ZL = np.dot(parameters['W' + str(L)], A) + parameters['b' + str(L)]
    AL = sigmoid(ZL)  # 输出层使用 sigmoid 激活函数
    caches.append((A, ZL, parameters['W' + str(L)], parameters['b' + str(L

)]))
    
    return AL, caches
```

### 4.6.2 反向传播

- 反向传播步骤：
  1. 计算输出层的梯度： \( dA = - \left( \frac{Y}{A} - \frac{1-Y}{1-A} \right) \)
  2. 计算每层的梯度： \( dZ = dA \cdot \sigma'(Z) \)，\( dW = \frac{1}{m} \cdot dZ \cdot A_{prev}^T \)，\( db = \frac{1}{m} \cdot \sum dZ \)
  3. 重复上述步骤直到第一层。

```python
def linear_activation_backward(dA, cache, activation):
    A_prev, Z, W, b = cache
    
    if activation == "relu":
        dZ = np.array(dA, copy=True)
        dZ[Z <= 0] = 0
    elif activation == "sigmoid":
        s = 1 / (1 + np.exp(-Z))
        dZ = dA * s * (1 - s)
    
    m = A_prev.shape[1]
    dW = 1/m * np.dot(dZ, A_prev.T)
    db = 1/m * np.sum(dZ, axis=1, keepdims=True)
    dA_prev = np.dot(W.T, dZ)
    
    return dA_prev, dW, db

def backward_propagation_deep(AL, Y, caches):
    grads = {}
    L = len(caches)  # 神经网络的层数
    m = AL.shape[1]
    Y = Y.reshape(AL.shape)
    
    dAL = - (np.divide(Y, AL) - np.divide(1 - Y, 1 - AL))
    
    current_cache = caches[L-1]
    dA_prev_temp, dW_temp, db_temp = linear_activation_backward(dAL, current_cache, activation="sigmoid")
    grads["dA" + str(L-1)] = dA_prev_temp
    grads["dW" + str(L)] = dW_temp
    grads["db" + str(L)] = db_temp
    
    for l in reversed(range(L-1)):
        current_cache = caches[l]
        dA_prev_temp, dW_temp, db_temp = linear_activation_backward(grads["dA" + str(l + 1)], current_cache, activation="relu")
        grads["dA" + str(l)] = dA_prev_temp
        grads["dW" + str(l + 1)] = dW_temp
        grads["db" + str(l + 1)] = db_temp

    return grads
```