# menu
- PyTorch介绍
- 理解Tensors
- 计算图自动微分
- 多层神经网络
- 典型训练模式
- 保存和加载模型
- 如何使用GPU(英伟达和苹果GPU)加速训练

AI相关概念说明
![AI概念](https://drek4537l1klr.cloudfront.net/raschka/v-8/Figures/A__image003.png) 
![](https://drek4537l1klr.cloudfront.net/raschka/v-8/Figures/A__image005.png)
大模型在工作和任务上的用途

### 一.PyTorch的发展历史
PyTorch是一个由Facebook人工智能研究院（FAIR）开发的深度学习框架，自2017年1月首次发布。基于Torch结合python的方式进行改造，以打造一个更加易用的机器学习框架。
- 2017年1月：PyTorch 0.1.0发布，这是PyTorch的第一个版本，包括了张量计算和基础的神经网络层 。2017年8月：PyTorch 0.2.0发布，引入了更多张量计算功能，如广播机制和高效的张量操作，同时添加了新的数据加载和预处理工具 。
- 2018年1月：PyTorch 1.0.0发布，标志着框架进入新阶段，引入了动态计算图、高效的内存管理、多GPU支持和更强大的可视化工具，同时支持Python 3.5及以上版本 。
- 2018年9月：PyTorch 1.2.0发布，增加了新的张量操作和改进的模型训练过程，引入了高效的序列建模工具，如LSTM和GRU，并加强了分布式训练的支持 。
- 2019年3月：PyTorch 1.4.0引入了混合精度训练和动态神经网络模块，允许使用低精度数据加速训练并减少内存使用 。
- 2019年9月：PyTorch 1.6.0添加了新的张量运算和自动混合精度训练，提高了训练速度并减少了内存使用，同时改进了模型序列化和分布式训练性能 。
- 2020年3月：PyTorch 1.8.0引入了更强大的数据加载和处理工具，包括DataLoader的并行加载和分布式数据加载，添加了新的激活函数和层 。
- 2021年9月：PyTorch 2.0.0发布，引入了对更高效训练、推理和调试的支持，优化了可扩展性和可维护性，提供了对自动微分和调试工具的改进，并支持更多硬件平台和操作系统。

### PyTorch在学术界的使用情况
![](image1.png)

### PyTorch三大核心组件
![](https://drek4537l1klr.cloudfront.net/raschka/v-8/Figures/A__image001.png)

### 安装PyTorch
https://pytorch.org/get-started/locally/ 安装建议参考网址

pip3 install torch torchvision torchaudio 其中torchvision torchaudio属于可选
![](image2.png)

In [56]:
#pip install torch

In [57]:
#pip install torch==2.0.1

检查torch的版本

In [58]:
import torch
torch.__version__

'2.1.2'

如果有cuda，可以检查安装的pytorch是否支持cuda

In [59]:
torch.cuda.is_available()

False

如果是m系列的macbook，可以用下面的方式来检查pytorch是否支持apple silicon chip的GPU

In [60]:
torch.backends.mps.is_available()

True

目前最新版的pytorch已经实验性支持AMD的GPU，不过只能在linux上使用

如果没有GPU，也没有关系，这次学习主要是学习大模型的基础，并不会强依赖GPU，但后面训练和调优如果有GPU加持，效率会提升很多。如果想体验GPU的话，可以通过科学上网使用google的colab

#### 二.张量tensor

##### tensor(张量)是现代深度学习中最重要一个概念，TensorFlow直接使用tensor来开头命名的。

##### 大学线性代数里都学过标量(scalar),向量(vector)，矩阵(matric),其中标量是0维，向量是1维，矩阵是2维，使用秩(rank)来标识维度

##### tensor是把所有维度的数据统一了起来，同时能够更好的支持计算，在深度学习中最重要的是支持自动微分和支持GPU

##### 在编程上可以把tensor看作一个对象，除了存储多维数据外，里面封装了大量的方法。
![](https://drek4537l1klr.cloudfront.net/raschka/v-8/Figures/A__image011.png)

In [61]:
# 可以使用torch.tensor来创建tensor类
tensor0d = torch.tensor(1)
tensor1d = torch.tensor([1,2,3])
tensor2d = torch.tensor([[1,2],[3,4]])
tensor3d = torch.tensor([[[1,2],[3,4]],[[5,6],[7,8]]])

In [62]:
# tensor data types
print(tensor1d.dtype)

torch.int64


In [63]:
# float类型的tensor
floatvec = torch.tensor([1.0,2.0,3.0])
print(floatvec.dtype)

torch.float32


###### pytorch默认使用32位的float，原因是节省内存和计算量，同时GPU架构对32为做了特殊优化，能够加快训练和推理速度

In [64]:
# 不同精度可以通过.to 方法进行转换
floatvec1 = tensor1d.to(torch.float32)
print(floatvec1.dtype)

torch.float32


更多关于tensor数据类型的介绍，建议参考pytorch的官网：https://pytorch.org/docs/stable/tensors.html

下面介绍对tensor的常用操作方法

In [65]:
#1 torch.tensor()创建新的tensor
tensor2d = torch.tensor([[1,2,3],[4,5,6]])
print(tensor2d)

tensor([[1, 2, 3],
        [4, 5, 6]])


In [66]:
# .shape属性获取tensor的维度或者秩（shape）
print(tensor2d.shape)

torch.Size([2, 3])


In [67]:
# tensor2d 是一个2行，3列的矩阵，如果想把它转换成3行2列的矩阵，可以使用reshpae()
print(tensor2d.reshape(3,2))
print(tensor2d)

tensor([[1, 2],
        [3, 4],
        [5, 6]])
tensor([[1, 2, 3],
        [4, 5, 6]])


In [68]:
# 比reshape更常用的方法是.view()方法，reshape()方法是torch原有的
# view()是NumPy的方式，也是目前深度学习框架最为常用的方式
print(tensor2d.view(3,2))
print(tensor2d)

tensor([[1, 2],
        [3, 4],
        [5, 6]])
tensor([[1, 2, 3],
        [4, 5, 6]])


In [69]:
# .T 转置矩阵,行列内容互换
print(tensor2d.T)
print(tensor2d)

tensor([[1, 4],
        [2, 5],
        [3, 6]])
tensor([[1, 2, 3],
        [4, 5, 6]])


In [70]:
# .matmul()方法张量相乘
print(tensor2d.matmul(tensor2d.T))

tensor([[14, 32],
        [32, 77]])


In [71]:
# 也可以使用@操作符进行张量相乘
print(tensor2d @ tensor2d.T)

tensor([[14, 32],
        [32, 77]])


#### computation graph(计算图)
![](https://media.geeksforgeeks.org/wp-content/uploads/20200527151747/e19.png)

计算图：单向无环图

逻辑回归模型
![](https://drek4537l1klr.cloudfront.net/raschka/v-8/Figures/A__image013.png)

In [72]:
import torch.nn.functional as F

y = torch.tensor([1.0])
x1 = torch.tensor([1.1])
w1 = torch.tensor([2.2])
b = torch.tensor([0.0])
z = x1 * w1 + b
a = torch.sigmoid(z)

loss = F.binary_cross_entropy(a, y)
print(loss)

tensor(0.0852)


#### 自动微分
求极值的方法：

![](https://img2020.cnblogs.com/blog/1522661/202012/1522661-20201217225019636-508712522.png)

沿着导数反方向可以得到极小值，

链式法则

反向传播算法(backpropagation)

![](https://drek4537l1klr.cloudfront.net/raschka/v-8/Figures/A__image015.png)

In [73]:
# 计算梯度通过autograd
import torch.nn.functional as F
from torch.autograd import grad

y = torch.tensor([1.0])
x1 = torch.tensor([1.1])
w1 = torch.tensor([2.2],requires_grad=True)
b = torch.tensor([0.0],requires_grad=True)

z = x1 * w1 + b
a = torch.sigmoid(z)

loss = F.binary_cross_entropy(a, y)

#retain_graph表示每次反向传播（计算微分）后是否保留计算图，这里由于需要对两个参数进行进行计算梯度
#因此第一次计算时候需要保留计算图，第二次就不用保留计算图
grad_L_w1 = grad(loss,w1,retain_graph=True)
grad_L_b = grad(loss,b, retain_graph=True)

In [74]:
print(grad_L_w1)
print(grad_L_b)

(tensor([-0.0898]),)
(tensor([-0.0817]),)


In [75]:
# 上面是手工计算梯度，pytorch提供了更方便的方法，自动计算梯度，并把梯度存储在张量的grad属性上
loss.backward()
print(w1.grad)
print(b.grad)

tensor([-0.0898])
tensor([-0.0817])


###### 如果你忘记了微积分相关领域的知识，对于以上所讲内容不是很理解，也不用担心，你只需记住pytorch提供了.backward方法来自动计算梯度，一个方法帮你搞定最难的地方，这就是pytorch框架厉害之处

#### 多层深层网络实现
pytorch作为深度学习框架，可以很方便的实现深度神经网络

这里咱们通过pytorch实现一个简单的深度神经网络例子

![](https://drek4537l1klr.cloudfront.net/raschka/v-8/Figures/A__image017.png)

In [76]:
# 两层隐藏层的多层神经网络
class NeuralNetwork(torch.nn.Module):
    def __init__(self, num_inputs, num_outputs):
        super().__init__()

        self.layers = torch.nn.Sequential(
            # 第一隐藏层
            torch.nn.Linear(num_inputs, 30),
            torch.nn.ReLU(),

            # 第二隐藏层
            torch.nn.Linear(30,20),
            torch.nn.ReLU(),

            # 输出层
            torch.nn.Linear(20,num_outputs),
        )
    def forward(self, x):
        logits = self.layers(x)
        return logits
    

In [77]:
# 实例化一个模型
model = NeuralNetwork(50,3)

In [78]:
print(model)

NeuralNetwork(
  (layers): Sequential(
    (0): Linear(in_features=50, out_features=30, bias=True)
    (1): ReLU()
    (2): Linear(in_features=30, out_features=20, bias=True)
    (3): ReLU()
    (4): Linear(in_features=20, out_features=3, bias=True)
  )
)


Sequential方法比较方便的将各个神经网络层进行有序组装起来

In [79]:
# 查明所有的参数数量
num_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
print("Total number of trainable model parameters:",num_params)

Total number of trainable model parameters: 2213


In [80]:
print(model.layers[0].weight)
print(model.layers[0].weight.shape)

Parameter containing:
tensor([[ 0.1388,  0.0159,  0.1215,  ...,  0.1032,  0.0296,  0.0102],
        [ 0.0229,  0.0260, -0.0458,  ..., -0.0358,  0.0362,  0.0497],
        [-0.0896,  0.0113,  0.1370,  ...,  0.1037,  0.1230, -0.0929],
        ...,
        [-0.1362, -0.0713, -0.0010,  ...,  0.1176,  0.1054, -0.1012],
        [ 0.1226,  0.0937, -0.1409,  ...,  0.1321, -0.0613,  0.0086],
        [-0.0045, -0.0604,  0.0535,  ...,  0.0697,  0.0373,  0.0923]],
       requires_grad=True)
torch.Size([30, 50])


In [81]:
# 获取偏参数
print(model.layers[0].bias)
print(model.layers[0].bias.shape)

Parameter containing:
tensor([-0.0181,  0.1404,  0.0374,  0.1102,  0.0045,  0.0788,  0.1013,  0.0211,
         0.1191, -0.1204, -0.0152, -0.0222, -0.0056,  0.0466, -0.0365, -0.0321,
         0.0927, -0.1029, -0.0093,  0.1047,  0.1279, -0.1176,  0.0445,  0.0583,
         0.0263,  0.0459, -0.0549,  0.0258,  0.0305,  0.0463],
       requires_grad=True)
torch.Size([30])


大家可以观察下这些张量的值都是比较小的随机值，大家显示的结果和我这边肯定不一样的。原因是在深度学习中，模型参数特意设定为随机值，以此来保证学习的效果，太大容易梯度爆炸，太小容易梯度消失，相同的值导致模型没法学习

那如何保证每次模型参数初始化都一样，这样可以验证每次的结果呢？

In [82]:
torch.manual_seed(123)
model = NeuralNetwork(50,3)
print(model.layers[0].weight)

Parameter containing:
tensor([[-0.0577,  0.0047, -0.0702,  ...,  0.0222,  0.1260,  0.0865],
        [ 0.0502,  0.0307,  0.0333,  ...,  0.0951,  0.1134, -0.0297],
        [ 0.1077, -0.1108,  0.0122,  ...,  0.0108, -0.1049, -0.1063],
        ...,
        [-0.0787,  0.1259,  0.0803,  ...,  0.1218,  0.1303, -0.1351],
        [ 0.1359,  0.0175, -0.0673,  ...,  0.0674,  0.0676,  0.1058],
        [ 0.0790,  0.1343, -0.0293,  ...,  0.0344, -0.0971, -0.0509]],
       requires_grad=True)


咱们接下来看看如何产生输出结果

In [83]:
torch.manual_seed(123)
X = torch.rand((1,50))
out = model(X)
print(out)

tensor([[-0.1262,  0.1080, -0.1792]], grad_fn=<AddmmBackward0>)


简单解释下grad_fn=<AddmmBackward0>,AddmmBackward0 分为Add(加)和mm(matrix multiplication)两个操作，这个是告诉pytorch,是如何产生结果的，然后在计算微分时候，就可以调用对应的求导方法了

如果你是用已经训练好的模型，那么就不用计算微分，也就用不到计算梯度，这样可以节省大量的计算耗时和内存

In [84]:
with torch.no_grad():
    out = model(X)
print(out)
print(out.shape)

tensor([[-0.1262,  0.1080, -0.1792]])
torch.Size([1, 3])


在PyTorch中，结果输出层没有激活函数，因为pytorch会把激活函数和损失函数集成在一个方法中，这样计算更高效，所以如果想计算出输出结果的概率值，需要主动调用softmax函数才行

In [85]:
with torch.no_grad():
    out = torch.softmax(model(X),dim=1)
print(out)

tensor([[0.3113, 0.3934, 0.2952]])


这里要注意下dim=1,model(X)一个(1,3)的矩阵，dim表示是在哪一个维度操作，dim=1表示是在列的维度操作，就是行不变，变化的是列上值。
softmax的公式是
![](image3.png)

#### 如何建立有效的数据加载器
###### 在训练过程中，如何有效加载是一个很重要的事情，这里就简单讨论下如何建立自己的数据加载器

![](https://drek4537l1klr.cloudfront.net/raschka/v-8/Figures/A__image019.png)

In [86]:
# 创建比较小的数据集
X_train = torch.tensor([
    [-1.2,3.1],
    [-0.9,2.9],
    [-0.5,2.6],
    [2.3,-1.1],
    [2.7,-1.5]
])
y_train = torch.tensor([0,0,0,1,1])
X_test = torch.tensor([
    [-0.8,2.1],
    [2.6,-1.6]
])
y_test = torch.tensor([0,1])

In [87]:
#我们创建一个基于上面数据集的Dataset类
from torch.utils.data import Dataset

class ToyDataset(Dataset):
    def __init__(self,X, y):
        self.features = X
        self.labels = y
    def __getitem__(self,index):
        one_x = self.features[index]
        one_y = self.labels[index]
        return one_x,one_y
    
    def __len__(self):
        return self.labels.shape[0]

In [88]:
train_ds = ToyDataset(X_train,y_train)
test_ds = ToyDataset(X_test, y_test)

In [89]:
#实例化数据加载器
from torch.utils.data import DataLoader

torch.manual_seed(123)
train_loader = DataLoader(
    dataset=train_ds,
    batch_size=2,
    shuffle=True,
    num_workers=0
)
test_loader = DataLoader(
    dataset=test_ds,
    batch_size=2,
    shuffle=False,
    num_workers=0
)

In [90]:
#遍历dataloader
for idx, (x,y) in enumerate(train_loader):
    print(f"Batch {idx+1}:",x,y)

Batch 1: tensor([[ 2.3000, -1.1000],
        [-0.9000,  2.9000]]) tensor([1, 0])
Batch 2: tensor([[-1.2000,  3.1000],
        [-0.5000,  2.6000]]) tensor([0, 0])
Batch 3: tensor([[ 2.7000, -1.5000]]) tensor([1])


In [91]:
#遍历dataloader,每次迭代的结果是不一样，这样是刻意设计的，目的是防止“重复更新循环”，
# 提高模型的泛化能力
for idx, (x,y) in enumerate(train_loader):
    print(f"Batch {idx+1}:",x,y)

Batch 1: tensor([[-1.2000,  3.1000],
        [-0.5000,  2.6000]]) tensor([0, 0])
Batch 2: tensor([[ 2.3000, -1.1000],
        [-0.9000,  2.9000]]) tensor([1, 0])
Batch 3: tensor([[ 2.7000, -1.5000]]) tensor([1])


In [92]:
#丢弃最后一个data case,防止训练过程中出现无法收敛的情况
train_loader = DataLoader(
    dataset=train_ds,
    batch_size=2,
    shuffle=True,
    num_workers=0,
    drop_last=True
)

In [93]:
for idx, (x,y) in enumerate(train_loader):
    print(f"Batch {idx+1}:",x,y)

Batch 1: tensor([[-0.9000,  2.9000],
        [ 2.3000, -1.1000]]) tensor([0, 1])
Batch 2: tensor([[ 2.7000, -1.5000],
        [-0.5000,  2.6000]]) tensor([1, 0])


并行数据加载num_workers

![](https://drek4537l1klr.cloudfront.net/raschka/v-8/Figures/A__image021.png)

num_workers=0表示没有并行加载，1或者大于1表示会在后台进行加载数据，并把数据放在队列里，但不建议在小数据量和jupyter notebook里使用。作者建议设置4.

#### 经典的训练过程
典型的训练循环（Training Loop）是机器学习或深度学习中用于模型训练的代码结构。这个循环负责迭代地处理训练数据，执行前向传播和反向传播，以及更新模型的参数。

In [94]:
import torch.nn.functional as F

torch.manual_seed(123)
model = NeuralNetwork(num_inputs=2,num_outputs=2)

#选择优化器模式，主要用于更新模型参数:stochastic gradient descent (SGD) 随机梯度下降算法
#lr表示学习速度,learn rate
optimizer = torch.optim.SGD(model.parameters(),lr=0.5)

num_epochs = 3

for epoch in range(num_epochs):

    #进入训练模式
    model.train()

    for batch_idx, (features, lables) in enumerate(train_loader):
        logits = model(features)

        #交叉墒损失函数
        loss = F.cross_entropy(logits, lables)

        #梯度归零，防止梯度累加
        optimizer.zero_grad()
        loss.backward()
        #更新参数
        optimizer.step()

        print(f"Epoch:{epoch+1:03d}/{num_epochs:03d}"
              f" | Batch {batch_idx+1:03d}/{len(train_loader):03d}"
              f" | Train Loss:{loss:.2f}")
    
    model.eval()



Epoch:001/003 | Batch 001/002 | Train Loss:0.75
Epoch:001/003 | Batch 002/002 | Train Loss:0.65
Epoch:002/003 | Batch 001/002 | Train Loss:0.44
Epoch:002/003 | Batch 002/002 | Train Loss:0.13
Epoch:003/003 | Batch 001/002 | Train Loss:0.03
Epoch:003/003 | Batch 002/002 | Train Loss:0.00


模型更新公式

![](image4.png)

这里学习速率就是所谓的超参，意思需要时人工去调整，太大不容易收敛，太小收敛速度太慢，相当于一个人下坡时候，如果加速度太快，很容易到达谷底时候继续爬上去，如果速度太慢，则需要很长时间才能达到谷底

之前调侃深度学习工程师是调参大师或者炼丹师，就是这个说需要调整这些超参的。训练轮数也是超参。凡是需要人工调整的参数都是超参

那如何来调整这些超参呢，一般做法是从训练数据集里取出一部分数据当作验证集，这些验证集可以多次使用，直到找到合适的超参，而测试数据集只能使用一次就是验证模型结果

model.train()和model.eval()这两个主要是用于告诉pytorch目前模型处于什么阶段，在不同的阶段，模型结构是不一样的，比如在训练阶段，可能会加入dropout()方法，这个主要是随机将一些神经元进行隐藏，不参与训练过程，主要是提高模型的泛化能力的，但在评估阶段和使用阶段，这个dropout就不再需要。这里写的demo暂时不涉及到，但为了训练框架的一致性，也调用了这两个方法。

In [95]:
# 验证下刚才训练好的模型
model.eval()
with torch.no_grad():
    outputs = model(X_train)
print(outputs)

tensor([[ 2.8569, -4.1618],
        [ 2.5382, -3.7548],
        [ 2.0944, -3.1820],
        [-1.4814,  1.4816],
        [-1.7176,  1.7342]])


In [96]:
#获得输出结果对应的概率
#输出结果非科学模式，更易读
torch.set_printoptions(sci_mode=False)
probas = torch.softmax(outputs,dim=1)
print(probas)

tensor([[    0.9991,     0.0009],
        [    0.9982,     0.0018],
        [    0.9949,     0.0051],
        [    0.0491,     0.9509],
        [    0.0307,     0.9693]])


第一行数据表示99.91%概率是class 0.09%属于class 1

那如何直接获取归属到哪个类别呢，就是取每一行值最大的index值

In [97]:
predictions = torch.argmax(probas,dim=1)
print(predictions)

tensor([0, 0, 0, 1, 1])


In [98]:
#我们也可以不用计算输出结果的概率，而是直接获取归属类别
predictions = torch.argmax(outputs,dim=1)
print(predictions)

tensor([0, 0, 0, 1, 1])


In [99]:
#对比模型的结果和实际结果
predictions == y_train

tensor([True, True, True, True, True])

In [100]:
# 还可以计算预测正确的次数
torch.sum(predictions == y_train)

tensor(5)

In [101]:
#评估模型准确度的通用方法

def compute_accuracy(model, dataloader):

    model = model.eval()
    correct = 0.0
    total_examples = 0

    for idx, (features,labels) in enumerate(dataloader):
        with torch.no_grad():
            logits = model(features)
        
        predictions = torch.argmax(logits,dim=1)
        compare = predictions == labels
        correct += torch.sum(compare).item()
        total_examples += len(compare)
    return correct / total_examples

In [102]:
print(compute_accuracy(model,train_loader))

1.0


In [103]:
print(compute_accuracy(model,test_loader))

1.0


#### 保存和加载模型

In [104]:
#保存模型
torch.save(model.state_dict(),"model.pth")

In [105]:
#加载模型
model1 = NeuralNetwork(2,2)
model1.load_state_dict(torch.load("model.pth"))

<All keys matched successfully>

#### 使用GPU加速训练和推理过程

In [106]:
#是否支持cuda
print(torch.cuda.is_available())

False


In [107]:
#实例化两个张量，默认是在CPU上计算
tensor_1 = torch.tensor([1.,2.,3.])
tensor_2 = torch.tensor([4.,5.,6.])
print(tensor_1 + tensor_2)

tensor([5., 7., 9.])


In [108]:
#获取GPU的device
device_name = "cpu"
if torch.cuda.is_available():
    device_name="cuda"
elif torch.backends.mps.is_available():
    device_name="mps"
else:
    device_name="cpu"
device = torch.device(device_name)

In [109]:
tensor_1 = tensor_1.to(device)
tensor_2 = tensor_2.to(device)
print(tensor_1+tensor_2)

tensor([5., 7., 9.], device='mps:0')


In [110]:
#tensor_1 = tensor_1.to(device)
#tensor_2 = tensor_2.to("cpu")
#print(tensor_1+tensor_2)

In [111]:
#模型计算在GPU
import torch.nn.functional as F

torch.manual_seed(123)
model = NeuralNetwork(num_inputs=2,num_outputs=2)
model = model.to(device)

#选择优化器模式，主要用于更新模型参数:stochastic gradient descent (SGD) 随机梯度下降算法
#lr表示学习速度,learn rate
optimizer = torch.optim.SGD(model.parameters(),lr=0.5)

num_epochs = 3

for epoch in range(num_epochs):

    #进入训练模式
    model.train()

    for batch_idx, (features, lables) in enumerate(train_loader):
        features, lables = features.to(device), lables.to(device)
        logits = model(features)

        #交叉墒损失函数
        loss = F.cross_entropy(logits, lables)

        #梯度归零，防止梯度累加
        optimizer.zero_grad()
        loss.backward()
        #更新参数
        optimizer.step()

        print(f"Epoch:{epoch+1:03d}/{num_epochs:03d}"
              f" | Batch {batch_idx+1:03d}/{len(train_loader):03d}"
              f" | Train Loss:{loss:.2f}")
    
    model.eval()



Epoch:001/003 | Batch 001/002 | Train Loss:0.75
Epoch:001/003 | Batch 002/002 | Train Loss:0.65
Epoch:002/003 | Batch 001/002 | Train Loss:0.44
Epoch:002/003 | Batch 002/002 | Train Loss:0.13
Epoch:003/003 | Batch 001/002 | Train Loss:0.03
Epoch:003/003 | Batch 002/002 | Train Loss:0.00
