#  为什么要有小批量?

为什么会选择mini-batch SGD作为神经网络的入门级优化算法呢?有两个比较主流的原因。第一个是，比起传统梯度下降，mini-batch SGD更可能找到全局最小值

梯度下降是通过最小化损失函数来找对应参数向量的优化算法。对于任意损失函数L(w)而言，如果L(w)在其他点上的值比在w*上的值更小那么L(w*)很可能就是一个局部最小值 (local minimum)。如果L(w)在w*上的值是目标函数在整个定义域上的最小值，那么L(w*)就是全局最小值 (global minimum)。

![image.png](attachment:image.png)

尽可能找到全局最优一直都是优化算法的目标。为什么说mini-batchSGD更容易找到全局最优呢?

![image.png](attachment:image.png)

传统梯度下降是每次迭代时都使用全部数据的梯度下降，所以每次使用的数据是一致的，因此梯度向量的方向和大小都只受到权重w的影响，所以梯度方向的变化相对较小，很多时候看起来梯度甚至是指向一个方向(如上图所示)。这样带来的优势是可以使用较大的步长，快速迭代直到找到最小值。但是缺点也很明显，由于梯度方向不容易发生巨大变化，所以一旦在迭代过程中落入局部最优的范围，传统梯度下降就很难跳出局部最优，再去寻找全局最优解了。

mini-batch SGD的优势是算法不会轻易陷入局部最优，由于每次梯度向量的方向都会发生巨大变化，因此一旦有机会，算法就能够跳出局部最优，走向全局最优(当然也有可能是跳出一个局部最优，走向另一个局部最优》。不过缺点是，需要的迭代次数变得不明。如果最开始就在全局最优的范围内，那可能只需要非常少的迭代次数就收敛，但是如果最开始落入了局部最优的范围，或全局最优与局部最优的差异很小，那可能需要花很长的时间、经过很多次迭代才能够收敛，毕竟不断改变的方向会让迭代的路线变得曲折。

从整体来看，为了mini-batch SGD这“不会轻易被局部最优困住”的优点我们在神经网络中使用它作为优化算法 (或优化算法的基础)。当然还有另一个流传更广、更为认知的理由支持我们使用mini-batch SGD:<b>mini-batch SGD可以提升神经网络的计算效率，让神经网络计算更快。

为了解决计算开销大的问题，我们要使用mini-batch SGD。考虑到可以从全部数据中选出一部分作为全部数据的“近似估计”，然后用选出的这部分数据来进行迭代，每次迭代需要计算的数据量就会更少，计算消耗也会更少，因此神经网络的速度会提升。当然了，这并不是说使用1001个样本进行迭代一定比使用1000个样本进行迭代速度要慢，而是指每次迭代中计算上十万级别的数据，会比迭代中只计算一千个数据慢得多

# batch_size 与 epoches 

在mini-batch SGD中，我们选择的批量batch含有的样本数被称为batch size，批量尺寸，这个尺寸一定是小于数据量的某个正整数值。每次迭代之前，我们需要从数据集中抽取batch size个数据用于训练

在普通梯度下降中，因为没有抽样，所以每次迭代就会将所有数据都使用一次，迭代了次时，算法就将数据学习了次。可以想象，对同样的数据，算法学习得越多，也有应当对数据的状况理解得越深，也就学得越好。然而，并不是对一个数据学习越多越好，毕竟学习得越多，训练时间就越长，同时，我们能够收集到的数据只是“样本”，并不能够代表真实世界的客观情况。例如，我们从几万张猫与狗的照片中学到的内容，并不一定就能适用于全世界所有的猫和狗。如果我们的照片中猫咪都是有毛的，那神经网络对数据学习的程度越深，它就越有可能认不出无毛猫。因此，虽然我们希望算法对数据了解很深，但我们也希望算法不要变成”书呆子“，要保留一些灵活性(保留一些泛化能力) 。关于这一点我们之后会详细展开来说明，但大家现在需要知道的是，算法对同样的数据进行学习的次数并不是越多越好

在mini-batch SGD中，因为每次迭代时都只使用了一小部分数据，所以它迭代的次数并不能代表全体数据一共被学习了多少次。所以我们需要另一个重要概念: epoch，读音/epek/，来定义全体数据一共被学习了多少次。

<li>重要概念:epoch <br>
epoch是衡量训练数据被使用次数的单位，一个epoch表示优化算法将全部训练数据都使用了一次。它与梯度下降中的迭代次数有非常深的关系，我们常使用“完成1个epoch需要n次迭代“这样的语言。

假设一个数据集总共有m个样本，我们选择的batch_size是NB，即每次迭代时都使用NB个样本，则一个epoch所需的迭代次数的计算公式如下

![image.png](attachment:image.png)

In [2]:
# 导入库
import torch
import torch.nn as nn
import torch.optim as optim
from torch.nn import functional as F
# 确定数据、超参数的确定（lr,gamma）
torch.manual_seed(420)
X = torch.rand((500,20),dtype = torch.float32) * 100
y = torch.randint(low = 0,high = 3,size = (500,),dtype = torch.float32)
lr = 0.1
gamma = 0.9
# 定义神经网络的架构类Model,定义类Model需要输入的参数
class Model(nn.Module):
    def __init__(self,in_features = 40,out_features = 2):
        super().__init__()
        self.linear1 = nn.Linear(in_features,13,bias=False)
        self.linear2 = nn.Linear(13,8,bias=False)
        self.output = nn.Linear(8,out_features,bias = True)
    
    def forward(self,x):
        sigma1 = torch.relu(self.linear1(x))
        sigma2 = torch.sigmoid(self.linear2(sigma1))
        zhat = self.output(sigma2)
        return zhat
input_ = X.shape[1] # 特征的数目
output_ = len(y.unique()) # 分类的数目
# 实例化神经网络的类 - 让神经网络准备好进行正向传播
torch.manual_seed(420)
net = Model(in_features=input_,out_features=output_)
# 定义损失函数
criterion = nn.CrossEntropyLoss()
# 定义优化算法
opt = optim.SGD(net.parameters(),lr = lr,  momentum = gamma)

In [6]:
# epoch = 60 让神经网络学习60次全部数据
# 把全数据X划分位10个batch
epoch = 60
batch = 10
for epochs in range(epoch):
    for batch in range(batch):
        # 向前传播
        zhat = net.forward(X) #最后一个线性层的输出结果
        # 计算本轮向前传播的损失函数值
        loss = criterion(zhat,y.reshape(500).long())
        # 反向传播 - 得到梯度
        loss.backward()
        # 更新权重和动量
        opt.step()# 走一步，更新权重w, 更新动量v
        # 清空梯度 - 清除原来计算出来的，基于上一个点的坐标计算的梯度
        opt.zero_grad()
print(loss)
print(net.linear1.weight.data[0][:10])

tensor(0.9717, grad_fn=<NllLossBackward0>)
tensor([ 0.1491, -0.1314,  0.2898, -0.1773, -0.1106, -0.1529,  0.1953,  0.0951,
        -0.1569, -0.1449])


# TensorDataset与DataLoader 

要使用小批量随机梯度下降，我们就需要对数据进行采样、分割等操作。在PyTorch中，操作数据所需要使用的模块是torch.utils，其中utils.data类下面有大量用来执行数据预处理的工具。在MBSGD中，我们需要将数据划分为许多组特征张量+对应标签的形式，因此最开始我们要将数据的特征张量与标签打包成一个对象。之前我们提到过，深度学习中的特征张量维度很少是二维，因此其特征张量与标签几乎总是分开

<li> TensorDataset - 打包特征和标签

In [1]:
import torch
from torch.utils.data import TensorDataset

In [2]:
a = torch.randn(500,2,3)   # 三维数据
b = torch.randn(500,3,4,5) # 四维数据
c = torch.randn(500,1)     # 二维数据

    注：要求被合并的对象第一维度上的值相等

In [4]:
for x in TensorDataset(a,b,c): #generator
    print(x)
    break

(tensor([[-1.0370, -0.3102, -0.5625],
        [ 1.3367,  0.5604,  0.0735]]), tensor([[[-0.0530, -1.8599, -0.8257, -0.0795, -0.2295],
         [ 0.0181,  0.2514, -0.2488, -1.0005, -0.0569],
         [-0.7272, -2.0048,  0.1967,  0.8760,  0.8984],
         [ 1.3492, -0.0774,  1.8516, -1.0274, -0.9041]],

        [[-0.1457, -0.0347, -0.0621,  0.3654,  0.3409],
         [-0.4297, -0.3919,  0.0945, -1.0809, -0.0357],
         [ 1.5465,  0.7500,  0.0719, -1.2099,  0.6157],
         [ 1.1604,  0.1528,  0.0962,  0.1320, -0.9192]],

        [[ 0.5055, -0.3027,  0.9623,  0.7088,  1.2752],
         [ 2.5842, -1.6347,  0.2030,  0.4749, -0.1458],
         [-0.8326,  1.6760, -0.4880, -0.4404,  0.0562],
         [-0.7841,  0.9009,  0.2766,  0.9408, -0.0806]]]), tensor([-0.5153]))


<li> DataLoader - 用来切割小批量的类

In [12]:
from torch.utils.data import DataLoader

In [13]:
data = TensorDataset(a,b,c)
for x in DataLoader(data):
    print(x)
    break

[tensor([[[ 0.0555,  0.0347, -0.0640],
         [-0.6151,  0.5850, -1.3424]]]), tensor([[[[ 1.4229,  0.3269, -0.7064,  0.4886, -0.4457],
          [-0.1819,  1.3381, -0.0515,  0.9612,  0.6173],
          [ 2.1468,  0.0329, -1.3354, -0.2216, -1.2585],
          [-0.0606, -0.7752,  1.5580,  0.8701,  2.0751]],

         [[-0.4195,  0.3641,  1.1461,  1.3315,  0.6182],
          [ 0.4945,  0.4110,  0.4114, -1.9308, -0.2237],
          [ 0.4374,  0.4338,  0.5920,  0.7556, -0.4258],
          [ 1.5789, -0.1794, -0.5889,  1.8905, -0.7718]],

         [[-0.7557, -1.2767,  1.0856,  0.7704,  2.3633],
          [ 0.0490, -0.9121, -0.0489, -1.2371, -1.2507],
          [-2.2677, -0.1536, -0.2799, -0.9272,  1.4546],
          [-0.8360, -0.3864, -0.9757, -0.5694,  0.2240]]]]), tensor([[-0.1178]])]


In [24]:
datas = DataLoader(data
           ,batch_size=120 # 每一个batch有多少个对象
           ,shuffle=True # 划分小批量之前请随机打乱数据
           ,drop_last=False # 是否需要舍弃最后一个batch
          )

In [25]:
for i in  dataset:
    print(i[1].shape)

torch.Size([120, 3, 4, 5])
torch.Size([120, 3, 4, 5])
torch.Size([120, 3, 4, 5])
torch.Size([120, 3, 4, 5])
torch.Size([20, 3, 4, 5])


<li> 属性

In [26]:
# 一共有多少个batch
len(datas)

5

In [27]:
# 里面全部的数据
datas.dataset

<torch.utils.data.dataset.TensorDataset at 0x1dfb5a33460>

In [28]:
# 现在总共有多少个样本
len(datas.dataset)

500

In [29]:
# 单个样本
datas.dataset[0] 

(tensor([[ 0.0555,  0.0347, -0.0640],
         [-0.6151,  0.5850, -1.3424]]),
 tensor([[[ 1.4229,  0.3269, -0.7064,  0.4886, -0.4457],
          [-0.1819,  1.3381, -0.0515,  0.9612,  0.6173],
          [ 2.1468,  0.0329, -1.3354, -0.2216, -1.2585],
          [-0.0606, -0.7752,  1.5580,  0.8701,  2.0751]],
 
         [[-0.4195,  0.3641,  1.1461,  1.3315,  0.6182],
          [ 0.4945,  0.4110,  0.4114, -1.9308, -0.2237],
          [ 0.4374,  0.4338,  0.5920,  0.7556, -0.4258],
          [ 1.5789, -0.1794, -0.5889,  1.8905, -0.7718]],
 
         [[-0.7557, -1.2767,  1.0856,  0.7704,  2.3633],
          [ 0.0490, -0.9121, -0.0489, -1.2371, -1.2507],
          [-2.2677, -0.1536, -0.2799, -0.9272,  1.4546],
          [-0.8360, -0.3864, -0.9757, -0.5694,  0.2240]]]),
 tensor([-0.1178]))

In [32]:
datas.dataset[0][0]

tensor([[ 0.0555,  0.0347, -0.0640],
        [-0.6151,  0.5850, -1.3424]])

In [33]:
# 查看batch_size
datas.batch_size

120

# 附件 

## 使用pandas导入数据 

In [37]:
import torch
import pandas as pd
import numpy  as np
from torch.utils.data import TensorDataset
from torch.utils.data import DataLoader

In [None]:
data = pd.read_csv(r"")
data.shape
data.head()
X = torch.tensor(np.array(data.iloc[:,:-1]),dtype = torch.float32)
y = torch.tensor(np.array(data,iloc[:,-1]),dtype = torch.float32)
data = TensorDataset(X,y)
batchdata = DataLoader(data,batch_size=1000,shuffle=True)
for x,y in batchdata:
    print(x)

##  使用sklearn中的数据

In [38]:
import torch
from sklearn.datasets import load_breast_cancer as LBC
from torch.utils.data import TensorDataset
from torch.utils.data import DataLoader

ModuleNotFoundError: No module named 'sklearn'

In [None]:
data = LBC()
X = torch.tensor(data.data,dtype = torch.float32)
y = torch.tensor(data.target,dtype = torch.float32)

data =  TensorDataset(X,y)
batchdata = DataLoaderata(data,batch_size=5,shffle=True)
for x,y in batchdata:
    print(x)