## 1.1 TensorFlow implementation Tensorflow实现
 

In [2]:
import tensorflow as tf
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Dense

model = Sequential([
    Dense(units=25, activation='sigmoid', name = 'layer_1'),
    Dense(units=15, activation='sigmoid', name = 'layer_2'),
    Dense(units=1, activation='sigmoid', name = 'layer_3'),
])

接下来模型会调用complie方法，它会将各个参数配置好，并准备好进行训练。
常见参数包括：

optimizer：优化器，如Adam、SGD等。

loss：损失函数，如均方误差（mse）、交叉熵（categorical_crossentropy）等。

metrics：评估指标，如准确率（accuracy）、精确率（precision）等。

loss_weights：各损失函数的权重。

sample_weight_mode：样本权重的计算方式。

weighted_metrics：带权重的评估指标。

target_tensors：目标张量。

**kwargs：其他参数。

In [3]:
from tensorflow.keras.losses import BinaryCrossentropy

二元交叉熵BinaryCrossentropy是一种常用的损失函数，用于二分类问题中，它是交叉熵（Cross-entropy）的一种特殊形式。对于二分类问题，每个样本只有两种可能的标签值，通常用0表示一个类别，用1表示另一个类别。BinaryCrossentropy的计算公式如下：

BinaryCrossentropy=−(ylog(p)+(1−y)log(1−p))

其中，y 表示真实标签的值，p 表示预测的标签概率值。
p可以通过 sigmoid 函数得到

注意：这里只是一个求损失的函数 与 sigmoid函数不要混淆

In [4]:
model.compile(loss = BinaryCrossentropy())

## 1.2 Training Details 训练细节
    这里区分以下Loss Function损失函数 和Cost Function代价函数
    损失函数是指针对单个样本计算的误差，代价函数则是针对所有样本计算的误差的平均值
    
![img1](./img/01.png)
    
    
    
Keras最初是由Francois Chollet开发的一个高级深度学习框架，旨在为开发者提供简单易用的API，快速搭建深度学习模型。最初Keras是基于Theano库实现的，但是随着TensorFlow的流行，Keras也提供了基于TensorFlow的后端实现。

    Backpropagation（反向传播）是一种用于训练神经网络的算法:
在训练神经网络时，我们通过前向传播计算出网络的输出结果，并将其与真实标签进行比较，得到一个误差值。然后，通过反向传播算法，将误差从输出层向输入层反向传播，计算每个权重和偏置对误差的贡献，最终通过梯度下降算法更新每个权重和偏置的值，使得网络的输出与实际输出之间的误差最小化。

## 2.1 Alternatives to the sigmoid activation sigmoid激活函数的替代方案
    
ReLU（Rectified Linear Unit）是一种常用的激活函数，它将所有小于0的输入值置为0，而大于等于0的输入值不做任何处理。具体来说，ReLU的数学表达式为：

$$ f(x)=max(0,x) $$

对于实际的情况，常用三种激活函数：
$$  f(z) = \frac{1}{1 + e^{-z}}  $$
$$  f(z)=max(0,z) $$
$$ f(z)=z$$

注意这里用的z而并非x，第一个函数为sigmoid函数，第二个是ReLU激活函数，第三是线性激活函数

## 2.2 Choosing activation functions 如何选择激活函数
    
**Output Layer** (根据你希望得到的y的值来选择激活函数):
![img2](./img/02.png)

**Hidden Layers:**
    The ReLU function is the most common choice in Hidden Layers
    
**在隐藏层中，我们更倾向于选择ReLU作为激活函数，而不是sigmoid的原因？（以下解答来自chatGPT）**
   
    在隐藏层中，选择ReLU作为激活函数而不是sigmoid的主要原因是，ReLU具有比sigmoid更好的优化性能，能够加速深度神经网络的训练。

    具体来说，当使用sigmoid作为激活函数时，由于其S型曲线，当输入比较大或比较小时，激活函数的导数非常接近于0，导致反向传播过程中的梯度消失问题，使得深度神经网络很难进行有效的训练。而ReLU的导数在正数区间上始终为1，这就避免了梯度消失的问题，并且可以有效地缓解梯度爆炸的问题。

    此外，ReLU还具有计算速度快、实现简单等优点。ReLU的计算只需要比较输入是否大于0即可，而sigmoid则需要进行指数运算，计算量较大。

## 2.3 Why do we need activation functions? 我们为何需要激活函数
    多层神经网络不能在所有层里都使用线性激活函数来作为激活函数

## 3.1 Multiclass 多分类
target y can take more than two possible values


## 3.2 Softmax 
是逻辑回归的泛化
![img3](./img/03.png)
![img4](./img/04.png)

## 3.3 Neural Network with Softmax output 神经网络的Softmax输出
![img5](./img/05.png)

    注意：z和最后输出的a是不一样的，根据不同的激活函数将z带入得到不同的a

In [4]:
# 对于上诉例子
# 对于对十个分类的例子，输出层需要有10个神经元
model = Sequential([
    Dense(units=25, activation='relu', name = 'layer_1'),
    Dense(units=15, activation='relu', name = 'layer_2'),
    Dense(units=10, activation='softmax', name = 'layer_3'),
])

# 代价函数
from tensorflow.keras.losses import SparseCategoricalCrossentropy
model.compilei(loss = SparseCategoricalCrossentropy())

## 3.4 Improved implementation of softmax Softmax的改进实现
    

In [6]:
x1 = 2.0/ 10000
x2 = 1 + (1 / 10000) - (1 - 1 / 10000)
print(f"x1={x1: .18f}")
print(f"x2={x2: .18f}")

x1= 0.000200000000000000
x2= 0.000199999999999978


In [None]:
model = Sequential([
    Dense(units=25, activation='sigmoid', name = 'layer_1'),
    Dense(units=15, activation='sigmoid', name = 'layer_2'),
    Dense(units=1, activation='sigmoid', name = 'layer_3'),
])
model.compile(loss = BinaryCrossentropy())

# ------------------------------------------------ #

#对于上述的代码 为了减小误差 我们做出以下改变
model = Sequential([
    Dense(units=25, activation='sigmoid', name = 'layer_1'),
    Dense(units=15, activation='sigmoid', name = 'layer_2'),
    Dense(units=1, activation='linear', name = 'layer_3'),
])
model.compile(loss = BinaryCrossentropy(from_logits = True))

In [None]:
# 对于Softmax 我们做以下的改进

model = Sequential([
    Dense(units=25, activation='relu', name = 'layer_1'),
    Dense(units=15, activation='relu', name = 'layer_2'),
    Dense(units=10, activation='linear', name = 'layer_3'),
])

# 代价函数
from tensorflow.keras.losses import SparseCategoricalCrossentropy
model.compilei(loss = SparseCategoricalCrossentropy(from_logits = True))

所以我们改进后得到的代码，输出层输出的并非是最后的概率，而是z
对于预测值，我们要想得到正确的结果，就必须将z再次带入Logistic函数中计算得到概率，这是需要注意的地方

## 3.5 Classification with multiple outputs 多标签分类
optional

![img6](./img/06.png)

    注意：注意区分多分类问题与多标签分类
**多分类和多标签分类是两种不同的分类问题。**

**多分类问题是指将一个样本分为多个不同的类别中的一类。在这种情况下，每个样本只能属于一个类别。常见的多分类问题包括图像分类、文本分类、手写数字识别等。**

**而多标签分类问题是指将一个样本分为多个可能属于的类别。在这种情况下，每个样本可以同时属于多个类别。常见的多标签分类问题包括标签预测、图像标注等。**
    

    也可以表述为，多分类问题得到的结果的概率相加为1，而多标签分类问题不一定等于1，也可以大于1，小于1

![img7](./img/07.png)

## 4.1 Advanced Optimization 高级优化方法
It's algorithm which is much faster than GD
For GD, we always have to adjust the learning rate

    Adam
![img8](./img/08.png)  

Adam（Adaptive Moment Estimation）是一种常用的梯度优化算法，它结合了动量梯度下降和自适应学习率的优点，能够高效地更新神经网络的参数。

Adam算法的优点在于它对于不同的参数能够自适应地调整学习率，并且能够有效地防止梯度消失和爆炸问题。在深度学习中，Adam算法常常被用于训练神经网络。

(上述介绍来自chatGPT4)

In [12]:
# 对于代码的改进
from tensorflow.keras.losses import SparseCategoricalCrossentropy
from tensorflow.keras.optimizers import Adam

model = Sequential([
    Dense(units=25, activation='relu', name = 'layer_1'),
    Dense(units=15, activation='relu', name = 'layer_2'),
    Dense(units=10, activation='linear', name = 'layer_3'),
])
model.compile(optimizer = Adam(learning_rate = 1e-3),
    loss = SparseCategoricalCrossentropy(from_logits = True))

## 4.2 Additional Layer Types 其他网络层类型

CNN(卷积神经网络 convolutional neural network):
    Each Neuron only looks at part of the previous layer's inputs
  