# 深度学习基础

In [2]:
import torch
from torch import nn as nn

### 人工神经元

<img src="../img/neurl.png" style="zoom:33%;" />


### nn.Linear 线性层

线性层 (Linear Layer) 又称 全连接层 (Full-connected Layer)，其每个神经元与上一层所有神经元相连，实现对前一层的 线性组合/线性变换。每个神经元都和前一层中的所有神经元相连，每个神经元的计算方式是对上一层的加权求和的过程。因此，线性层可以采用矩阵乘法来实现。


<img src="../img/linear.png" style="zoom:33%;" />


**计算公式：**
$$y = xW^{T} + bias$$

**主要参数：**
+ in_features：输入结点数
+ out_features：输出结点数
+ bias：是否需要偏置

In [5]:
# nn.Linear(in_features, out_features, bias=True)
layer = nn.Linear(20, 30)
x = torch.randn(128, 20)
y = layer(x)
y.shape

torch.Size([128, 30])

### 激活函数层

激活函数 (Activation Function) 是对特征进行非线性变换，赋予多层神经网络具有**深度**的意义

<img src="../img/acf.png" style="zoom:33%;" />

在上面最后一步中，由于矩阵乘法的结合性，我们可以把右边三个权重矩阵先结合相乘，可以得到一个大的权重矩阵$W$。这样我们可以看到，我们的输出实际上就是输入$X$乘以一个大的权重矩阵$W$。

因此，这里的三层线性全连接层实际上等价于一个一层的全连接层，这是由于线性运算当中矩阵乘法的结合性导致的

如果加上**非线性激活函数**，这一结论将不再成立，因此我们说，激活函数赋予了多层神经网络具有**深度**意义。

**不同的激活函数：**

<img src="../img/acf2.png" style="zoom:33%;" />

In [9]:
X = torch.linspace(-2, 2, 5)
relu = nn.ReLU()
y = relu(X)
print(X)
print(y)

tensor([-2., -1.,  0.,  1.,  2.])
tensor([0., 0., 0., 1., 2.])


### 多层网络

例子：两层全连接网络


In [10]:
X = torch.randn(2, 20)
net = nn.Sequential(nn.Linear(20, 256),
                    nn.ReLU(),
                    nn.Linear(256, 10))
y = net(X)
y.shape

torch.Size([2, 10])

### Softmax

我们希望模型的输出 $y_i$ 可以视为输入 $x_i$ 经过网络后计算出属于类$i$的概率，然后选择具有最大输出值的类别 $i$ 作为我们的预测标签

+ 没有限制这些输出数字的总和为1
+ 根据输入的不同，输出可以为负值

<img src="../img/softmax.png" style="zoom:33%;" />

$p_i = softmax(z_i) = \frac{e^{z_i}}{\Sigma_j e^{z_i}}$

In [8]:
X = torch.tensor([3, 1, -2, 2.4])
soft = nn.Softmax(dim=0)
y = soft(X)
y

tensor([0.5914, 0.0800, 0.0040, 0.3246])

### ANN 人工神经网络

<img src="../img/ann.png" style="zoom:33%;" />

In [11]:
# 构建三层的ANN人工神经网络 / 全连接神经网络 Full Connected Neural Network

import torch
from torch import nn

# 输入层的输入
x = torch.randn(28, 28, 1).reshape(1, 784)

# 隐藏层1 -> 隐藏层2 -> 输出
network = nn.Sequential(
    nn.Linear(in_features=784, out_features=300),
    nn.ReLU(),  # 激活函数
    nn.Linear(in_features=300, out_features=100),
    nn.ReLU(),
    nn.Linear(in_features=100, out_features=2),
    nn.Softmax(dim=1)
)

# 将输入传给神经网络, 生成的输出(预测值/概率值)
y = network(x)

print(network)
print(y, y.size())
# 输出自动初始化的权重weights, 偏置bias
print(network[0])
# 获取 (0): Linear(in_features=784, out_features=300, bias=True)的所有状态字典
print(network[0].state_dict()) 
print(network[0].weight.size(), network[0].weight)
print(network[0].bias.size(), network[0].bias)

Sequential(
  (0): Linear(in_features=784, out_features=300, bias=True)
  (1): ReLU()
  (2): Linear(in_features=300, out_features=100, bias=True)
  (3): ReLU()
  (4): Linear(in_features=100, out_features=2, bias=True)
  (5): Softmax(dim=1)
)
tensor([[0.5493, 0.4507]], grad_fn=<SoftmaxBackward0>) torch.Size([1, 2])
Linear(in_features=784, out_features=300, bias=True)
