# 模型初始化
在深度学习模型的训练中，权重的初始值极为重要。一个好的权重值，会使模型收敛速度提高，使模型准确率更精确。为了利于训练和减少收敛时间，我们需要对模型进行合理的初始化。PyTorch也在torch.nn.init中为我们提供了常用的初始化方法。
- 常见的初始化函数
- 初始化函数的使用

In [2]:
# torch.nn.init使用
# 我们通常会根据实际模型来使用torch.nn.init进行初始化
# 通常使用isinstance来进行判断模块（回顾3.4模型构建）属于什么类型。

In [4]:
import torch
import torch.nn as nn

conv = nn.Conv2d(1,3,3)
linear = nn.Linear(10,1)

print(isinstance(conv,nn.Conv2d))
print(isinstance(linear,nn.Conv2d))

True
False


### 对于不同的类型层，我们就可以设置不同的权值初始化的方法。

#### 拿取层参数 
首先我们需要拿到层所随机初始化之后的参数

In [9]:
# 查看随机初始化的函数参数
conv.weight.data

tensor([[[[-0.1801,  0.2297,  0.2328],
          [-0.2041,  0.1175,  0.3318],
          [ 0.0570, -0.2980, -0.1158]]],


        [[[ 0.1025,  0.1727, -0.0621],
          [-0.2068,  0.2554, -0.2688],
          [ 0.1897,  0.0356,  0.0219]]],


        [[[-0.0908,  0.3285,  0.0295],
          [-0.1455, -0.0750,  0.0856],
          [ 0.2112, -0.3247, -0.0712]]]])

In [10]:
# 查看linear的参数
linear.weight.data

tensor([[-0.1371, -0.1165,  0.1790, -0.0335, -0.1937,  0.1473,  0.1356,  0.0920,
          0.2176,  0.2745]])

#### 初始化
选择相对应的函数进行初始化参数

In [12]:
# 对conv进行kaiming初始化
torch.nn.init.kaiming_normal_(conv.weight.data)
print(conv.weight.data)
# 对linear进行常数初始化
torch.nn.init.constant_(linear.weight.data,0.3)
print(linear.weight.data)

tensor([[[[-0.0990, -0.3632, -0.1734],
          [-0.8624, -0.5647,  0.1924],
          [ 0.0384,  0.6536, -0.6042]]],


        [[[-0.4753, -0.0695, -0.1767],
          [-0.2614,  0.0385, -0.3188],
          [-0.4604, -0.3205,  0.6670]]],


        [[[ 0.8137, -0.2370, -0.2146],
          [-0.8852, -0.2923,  0.1341],
          [ 0.5398, -0.6068, -0.8933]]]])
tensor([[0.3000, 0.3000, 0.3000, 0.3000, 0.3000, 0.3000, 0.3000, 0.3000, 0.3000,
         0.3000]])


## 初始化函数的封装
人们常常将各种初始化方法定义为一个initialize_weights()的函数并在模型初始后进行使用。

In [13]:
def initialize_weights(self):
	for m in self.modules():
		# 判断是否属于Conv2d
		if isinstance(m, nn.Conv2d):
			torch.nn.init.xavier_normal_(m.weight.data)
			# 判断是否有偏置
			if m.bias is not None:
				torch.nn.init.constant_(m.bias.data,0.3)
		elif isinstance(m, nn.Linear):
			torch.nn.init.normal_(m.weight.data, 0.1)
			if m.bias is not None:
				torch.nn.init.zeros_(m.bias.data)
		elif isinstance(m, nn.BatchNorm2d):
			m.weight.data.fill_(1) 		 
			m.bias.data.zeros_()	

### 一个例子

In [15]:
# 模型定义
class MLP(nn.Module):
    def __init__(self,**kwargs):
#          调用MLP父类Block的构造函数来进行必要的初始化。
#          这样在构造实例时还可以指定其他函数
        super(MLP,self).__init__(**kwargs)
        self.hidden = nn.Conv2d(1,1,3)
        self.act = nn.ReLU()
        self.output = nn.Linear(10,1)
   # 定义模型的前向计算，即如何根据输入x计算返回所需要的模型输出
    def forward(self, x):
        o = self.act(self.hidden(x))
        return self.output(o)

mlp = MLP()
print(list(mlp.parameters()))
print("-------初始化-------")

initialize_weights(mlp)
print(list(mlp.parameters()))

[Parameter containing:
tensor([[[[ 0.3235, -0.3023, -0.2001],
          [-0.2643, -0.2360,  0.2569],
          [-0.2096, -0.2922,  0.2455]]]], requires_grad=True), Parameter containing:
tensor([-0.0215], requires_grad=True), Parameter containing:
tensor([[ 0.0113,  0.2873,  0.3085, -0.1122, -0.3001, -0.2956,  0.2570,  0.1314,
          0.0714, -0.2100]], requires_grad=True), Parameter containing:
tensor([-0.1672], requires_grad=True)]
-------初始化-------
[Parameter containing:
tensor([[[[-0.2821,  0.1196, -0.2784],
          [ 0.0179, -0.1733, -0.1929],
          [ 0.1880, -0.2099,  0.0288]]]], requires_grad=True), Parameter containing:
tensor([0.3000], requires_grad=True), Parameter containing:
tensor([[-1.3102,  0.8398, -1.0876, -1.0242,  1.3724,  0.8497, -0.7586, -0.0541,
         -0.2608,  0.6487]], requires_grad=True), Parameter containing:
tensor([0.], requires_grad=True)]


# 损失函数
在深度学习广为使用的今天，我们可以在脑海里清晰的知道，一个模型想要达到很好的效果需要学习，也就是我们常说的训练。一个好的训练离不开优质的负反馈，这里的损失函数就是模型的负反馈。

下面我们将开始探索pytorch的所拥有的损失函数。这里将列出PyTorch中常用的损失函数（一般通过torch.nn调用），并详细介绍每个损失函数的功能介绍、数学公式和调用代码。

###  二分类交叉熵损失函数
```python
torch.nn.BCELoss(weight=None, size_average=None, reduce=None, reduction='mean')
```
计算二分类任务时的交叉熵（Cross Entropy）函数。在二分类中，label是{0,1}。对于进入交叉熵函数的input为概率分布的形式。一般来说，input为sigmoid激活层的输出，或者softmax的输出。

In [17]:
m = nn.Sigmoid()
loss = nn.BCELoss()
input = torch.randn(3, requires_grad=True)
target = torch.empty(3).random_(2)
output = loss(m(input), target)
output.backward()

In [18]:
print('BCELoss损失函数的计算结果为',output)

BCELoss损失函数的计算结果为 tensor(0.6264, grad_fn=<BinaryCrossEntropyBackward0>)


更多损失函数待更新！......