# 1
试基于Numpy编写三层BP网络模型，并使用简单数据集进行训练和测试模型性能

In [2]:
import numpy as np

# define sigmoid
def sigmoid(x):
    return 1/(1 + np.exp(-x))

# define sigmoid derivative
def sigmoid_derivative(x):
    return sigmoid(x) * (1-sigmoid(x))

In [6]:
# define three layer BPnetwork class
class BPNetwork:
    # Initial Network Parament
    def __init__(self, input_size, hidden_size, output_size):
        # set the Layer of input hidden output
        self.input_size = input_size
        self.hidden_size = hidden_size
        self.output_size =output_size

        self.W1 = np.random.randn(input_size, hidden_size) # weight from input to hidden
        self.b1 = np.random.randn(hidden_size) # bias of hidden layer
        self.W2 = np.random.randn(hidden_size, output_size) # weight from hidden to output
        self.b2 = np.random.randn(output_size) # bias of output layer

    # Foward Propagation
    def forward(self, X):

        # hidden's IO
        self.Z1 = X.dot(self.W1) + self.b2 # hidden layer input
        self.A1 = sigmoid(self.Z1) # hidden layer output

        # output's IO
        self.Z2 = self.A1.dot(self.W2) +self.b2 # output layer input 
        self.A2 = sigmoid(self.Z2) # ouptput layer output

        return self.A2
    
    # Back Propagation
    def backward(self, X, Y, learning_rate):
        
        # output error and gradient
        error2 = Y-self.A2 # output layer error
        dW2 = self.A1.T.dot(error2 * sigmoid_derivative(self.Z2)) # output layer to hidden layer gradient
        db2 = np.sum(error2 * sigmoid_derivative(self.Z2), axis = 0) # output layer bias gradient

        # hidden error and gradient
        error1 = (error2 * sigmoid_derivative(self.Z2)).dot(self.W2.T) # hidden layer error
        dW1 = X.T.dot(error1 * sigmoid_derivative(self.Z1)) # input layer to hidden layer gradient
        db1 = np.sum(error1 * sigmoid_derivative(self.Z1), axis=0) # hidden layer bias gradient

        # update
        self.W1 += learning_rate * dW1
        self.b1 += learning_rate * db1
        self.W2 += learning_rate * dW2
        self.b2 += learning_rate * db2

    # train
    def train(self, X, Y, learning_rate, epochs):
        for i in range(epochs):

            # FP output
            output = self.forward(X)
            # BP update parament
            self.backward(X, Y, learning_rate)
            # Loss
            loss = np.mean((Y - output) ** 2)
            print(f"Epoch {i+1}, Loss: {loss}")
    
    # Predict
    def predict(self, X):
        output = self.forward(X)
        # replace the output with labels 1 or 0
        labels = np.where(output > 0.5, 1, 0)
        return labels
    
# Three BP NN: input 2 neurons, hidden 4 neurons, output 1 neurons
bp = BPNetwork(2, 4, 1)

# Data
X = np.array([[0,1], [0,1], [1,0], [1,1]]) # Input
Y = np.array([[0], [1], [1], [0]]) # Output

bp.train(X, Y, 0.1, 10000) # (X, Y, learning_rate, epochs)

pred = bp.predict(X)
print(f"Predicted labels: {pred}")

accuracy = np.mean(pred == Y)
print(f"Accuracy: {accuracy}")

Epoch 1, Loss: 0.439440606542712
Epoch 2, Loss: 0.43886152904180614
Epoch 3, Loss: 0.43827218432635856
Epoch 4, Loss: 0.43767231117116356
Epoch 5, Loss: 0.43706163992741087
Epoch 6, Loss: 0.43643989221121426
Epoch 7, Loss: 0.4358067805805903
Epoch 8, Loss: 0.4351620082006131
Epoch 9, Loss: 0.4345052684964831
Epoch 10, Loss: 0.4338362447942813
Epoch 11, Loss: 0.43315460994921084
Epoch 12, Loss: 0.43246002596116584
Epoch 13, Loss: 0.4317521435775184
Epoch 14, Loss: 0.4310306018830731
Epoch 15, Loss: 0.4302950278772048
Epoch 16, Loss: 0.4295450360382809
Epoch 17, Loss: 0.42878022787556636
Epoch 18, Loss: 0.4280001914689186
Epoch 19, Loss: 0.42720450099672047
Epoch 20, Loss: 0.42639271625264463
Epoch 21, Loss: 0.42556438215203085
Epoch 22, Loss: 0.4247190282288597
Epoch 23, Loss: 0.4238561681245461
Epoch 24, Loss: 0.42297529907005676
Epoch 25, Loss: 0.42207590136316553
Epoch 26, Loss: 0.4211574378430312
Epoch 27, Loss: 0.4202193533646933
Epoch 28, Loss: 0.4192610742765589
Epoch 29, Loss: 0

# 2
试分析AlexNet每层要训练的参数

AlexNet是一个经典的卷积神经网络结构，它由卷积层、最大池化层和全连接层组成。为了在两个GPU上训练模型，它使用了分组卷积的技术³。下面是AlexNet每层要训练的参数的分析：

- 第一层是卷积层，使用了96个11x11x3的卷积核，步长为4，没有填充。这一层的参数数量为96x11x11x3+96=34944，其中96是偏置项。
- 第二层是最大池化层，使用了3x3的池化核，步长为2，没有填充。这一层没有参数。
- 第三层是卷积层，使用了256个5x5x48的卷积核，步长为1，填充为2。这一层的参数数量为256x5x5x48+256=614656，其中256是偏置项。
- 第四层是最大池化层，使用了3x3的池化核，步长为2，没有填充。这一层没有参数。
- 第五层是卷积层，使用了384个3x3x256的卷积核，步长为1，填充为1。这一层的参数数量为384x3x3x256+384=885120，其中384是偏置项。
- 第六层是卷积层，使用了192个3x3x192的卷积核，步长为1，填充为1。这一层的参数数量为192x3x3x192+192=331968，其中192是偏置项。
- 第七层是卷积层，使用了192个3x3x192的卷积核，步长为1，填充为1。这一层的参数数量为192x3x3x192+192=331968，其中192是偏置项。
- 第八层是最大池化层，使用了3x3的池化核，步长为2，没有填充。这一层没有参数。
- 第九层是全连接层，连接了9216个输入节点和4096个输出节点。这一层的参数数量为9216x4096+4096=37752832，其中4096是偏置项。
- 第十层是全连接层，连接了4096个输入节点和4096个输出节点。这一层的参数数量为4096x4096+4096=16781312，其中4096是偏置项。
- 第十一层是全连接层，连接了4096个输入节点和1000个输出节点。这一层的参数数量为4096x1000+1000=4100000，其中1000是偏置项。

总结起来，AlexNet共有**62,378,344**个可训练的参数。

# 3
试分析RNN、LSTM、GRU的特点

RNN、LSTM、GRU是三种常用的循环神经网络模型，它们都可以处理具有序列特性的数据，如自然语言、语音、股票等。它们的主要特点如下：

- RNN是最基本的循环神经网络模型，它的结构是将一个全连接神经网络沿着时间序列展开，每个时间步的隐藏层状态由当前输入和上一时间步的隐藏层状态共同决定，输出层则由当前隐藏层状态决定。RNN可以利用历史信息来影响当前的输出，但也容易出现梯度消失或梯度爆炸的问题，导致难以捕捉长期依赖关系¹²。
- LSTM是一种特殊的RNN变体，它引入了门机制来控制信息的流动，包括遗忘门、输入门和输出门。遗忘门决定了哪些信息从细胞状态中丢弃，输入门决定了哪些信息加入到细胞状态中，输出门决定了哪些信息从细胞状态中输出。LSTM通过这种方式可以有效地解决梯度消失或梯度爆炸的问题，增强了模型的长期记忆能力²³。
- GRU是另一种RNN变体，它可以看作是LSTM的简化版本。它将遗忘门和输入门合并为一个更新门，同时将细胞状态和隐藏状态混合为一个状态向量。GRU相比LSTM有更少的参数，计算量也更小，但在某些任务上可能不如LSTM表现好²⁴。

# 4
试分析静态计算图和动态计算图的特点


- 静态计算图是先定义计算图的结构，然后再输入数据进行运算的方式。这种方式的优点是高效，因为不需要每次运行时重新构建计算图，而是直接复用已定义好的计算图¹⁴。另外，静态计算图由于在开始时就确定了整个图的结构，所以更容易进行优化和部署²³。缺点是不灵活，不能根据数据的变化动态调整计算图的结构，而需要使用特定的API来实现条件分支和循环控制等功能¹²⁵。
- 动态计算图是在运行时根据数据的流动动态生成计算图的方式。这种方式的优点是灵活，可以直接使用Python语法来构建和修改计算图，更符合编程直觉¹²³。另外，动态计算图也更方便调试，可以使用任何Python调试工具来检查和修改计算图²³。缺点是效率较低，因为每次运行时都需要重新构建计算图，而不能利用已有的计算图¹⁴。另外，动态计算图也不太适合进行优化和部署，因为没有全局的计算图结构可以参考²³。