一个全连接ReLU神经网络，一个隐藏层，没有bias，用x预测y，使用L2 Loss。
- $hidden=W_1X$
- $a=\max{0,h}$
- $\hat{y}=W_2a$

<img style="float: center;" src="images/1.png" width="70%">

# Numpy实现

In [1]:
import numpy as np

# 定义样本数，输入层，隐藏层，输出层的参数
N, D_in, H, D_out = 64, 1000, 100, 10

# 创造训练样本x,y  这里随机产生
x = np.random.randn(N, D_in)
y = np.random.randn(N, D_out)

# 随机初始化参数w1， w2
w1 = np.random.randn(D_in, H)
w2 = np.random.randn(H, D_out)

# 下面就是实现神经网络的计算过程
learning_rate = 1e-6
epochs = 500
for epoch in range(epochs):
    # 前向传播
    h = x.dot(w1)
    h_relu = np.maximum(h, 0)
    y_pred = h_relu.dot(w2)

    # 计算损失
    loss = np.square(y_pred - y).sum()
    print(epoch, loss)

    # 反向传播
    # w2的梯度
    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h_relu.T.dot(grad_y_pred)
    # w1的梯度
    grad_h_relu = grad_y_pred.dot(w2.T)
    grad_h = grad_h_relu.copy()
    grad_h[h < 0] = 0
    grad_w1 = x.T.dot(grad_h)

    # 更新参数
    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2

0 34848658.30776858
1 27919913.38131024
2 23640451.35352008
3 19194798.50954898
4 14211444.132162407
5 9708474.721222695
6 6270075.245039171
7 4016339.630745193
8 2631318.015445441
9 1804874.003446275
10 1302481.3909497717
11 986140.254804362
12 775814.2129708673
13 628556.5741841458
14 520221.7924955993
15 437327.56958528346
16 371932.3703748
17 319149.64604071033
18 275827.0972923096
19 239804.68288548576
20 209548.68773430225
21 183928.50492878968
22 162065.74943500658
23 143320.18707175343
24 127146.64444348807
25 113128.88371182459
26 100933.26452524448
27 90284.99513612804
28 80948.92447333723
29 72745.78491450622
30 65512.74616404729
31 59119.17011638995
32 53455.16750821539
33 48424.00066786786
34 43947.48516964836
35 39953.764226787425
36 36380.86546789486
37 33182.287355434266
38 30311.126212050607
39 27729.033989641204
40 25400.82216291435
41 23298.724489018918
42 21397.37061206995
43 19675.164293673657
44 18112.182990638106
45 16690.824932590247
46 15397.394815834168
47 142

# PyTorch实现

## PyTorch：Tensors

使用PyTorch Tensors来创建前向神经网络，计算损失，以及反向传播

一个PyTorch Tensor很像一个Numpy的ndarray，但是它和Numpy ndarray最大的区别是PyTorch Tensor可以在CPU或者GPU上运算。

In [2]:
import torch

# 定义输入，中间，输出层的个数和上面一样
N, D_in, H, D_out = 64, 1000, 100, 10

# 随机创建训练数据
# 这里的np.random.randn换成Pytorch的写法
x = torch.randn(N, D_in)
y = torch.randn(N, D_out)

# 初始化权重
w1 = torch.randn(D_in, H)
w2 = torch.randn(H, D_out)

#下面训练网络，和上面版本过程一致，只不过有些地方换成了Pytorch的写法而已
learnint_rate = 1e-6
epochs = 500

for epoch in range(epochs):
    # 前向传播   矩阵的点乘这里换成了mm
    h = x.mm(w1)
    # 这个张量里面换成了clamp操作，来保证元素取值控制在区间内
    h_relu = h.clamp(min=0)
    y_pred = h_relu.mm(w2)

    # 计算损失   这里要使用张量的item()取出值来
    loss = (y_pred - y).pow(2).sum().item()
    print(epoch, loss)

    # 反向传播, 转置操作换成了t(). copy()换成了clone()
    # compute the gradient
    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h_relu.t().mm(grad_y_pred)
    grad_h_relu = grad_y_pred.mm(w2.T)
    grad_h = grad_h_relu.clone()
    grad_h[h < 0] = 0
    grad_w1 = x.t().mm(grad_h)

    # 更新参数
    w1 -= learning_rate  * grad_w1
    w2 -= learning_rate * grad_w2

0 21955628.0
1 15223907.0
2 12062296.0
3 10536567.0
4 9763509.0
5 9266741.0
6 8729830.0
7 8016520.0
8 7080399.5
9 6002429.5
10 4890344.0
11 3853970.5
12 2961173.25
13 2237622.5
14 1675854.75
15 1253486.375
16 941928.125
17 714327.875
18 548454.9375
19 427371.71875
20 338461.09375
21 272441.875
22 222792.953125
23 184920.609375
24 155560.171875
25 132427.0625
26 113907.4609375
27 98850.6640625
28 86435.0703125
29 76059.8359375
30 67290.1484375
31 59807.22265625
32 53360.23828125
33 47765.46484375
34 42881.37890625
35 38589.9765625
36 34804.1875
37 31448.328125
38 28464.865234375
39 25805.017578125
40 23429.173828125
41 21303.861328125
42 19395.021484375
43 17677.509765625
44 16130.2802734375
45 14734.1513671875
46 13472.2314453125
47 12331.181640625
48 11296.8740234375
49 10358.7578125
50 9506.853515625
51 8732.298828125
52 8028.26708984375
53 7387.1318359375
54 6802.923828125
55 6270.01025390625
56 5783.439453125
57 5338.7001953125
58 4931.7587890625
59 4559.345703125
60 4218.037597656

436 0.00021648549591191113
437 0.0002113380905939266
438 0.00020656462584156543
439 0.0002019282546825707
440 0.0001975113118533045
441 0.00019344940665178
442 0.00018961212481372058
443 0.00018590792024042457
444 0.00018230588466394693
445 0.00017837768245954067
446 0.00017505422874819487
447 0.00017122755525633693
448 0.00016785830666776747
449 0.00016409126692451537
450 0.00016088952543213964
451 0.0001572921610204503
452 0.0001544049591757357
453 0.0001518621575087309
454 0.000149047642480582
455 0.00014584619202651083
456 0.00014275623834691942
457 0.00014027676661498845
458 0.00013765576295554638
459 0.000134810121380724
460 0.0001319137227255851
461 0.0001298380084335804
462 0.00012732182221952826
463 0.00012489176879171282
464 0.00012299750233069062
465 0.00012081290333298966
466 0.00011855902266688645
467 0.00011668260412989184
468 0.00011462402471806854
469 0.00011299118341412395
470 0.00011079446994699538
471 0.00010901781206484884
472 0.00010707002365961671
473 0.0001046068

## PyTorch：Autograd

只要定义了forward pass（前向神经网络），计算了loss之后，**PyTorch可以自动求导计算模型所有参数的梯度**。

一个PyTorch的Tensor表示计算图的一个节点，如果x是一个Tensor并且x.requires_grad=True，则x.grad是另一个存储x当前梯度（相对于一个scalar，常常是loss）的向量。

In [3]:
x = torch.tensor(1., requires_grad=True)
w = torch.tensor(2., requires_grad=True)
b = torch.tensor(3., requires_grad=True)

y = w * x + b

y.backward()      # 求导只需这一句话

print(w.grad)    # tensor(1.)   也就是x
print(b.grad)    # tensor(1.)    b求导本身为1
print(x.grad)     # tensor(2.)   也就是w

tensor(1.)
tensor(1.)
tensor(2.)


In [4]:
 # N表示训练数据的个数， D_in表示输入的特征数 H是中间层，
N, D_in, H, D_out = 64, 1000, 100, 10

# 随机创建一下训练数据   这里也不变
x = torch.randn(N, D_in)
y = torch.randn(N, D_out)

# 这里随机初始化权重，需要requires_grad=True  需要保留梯度
w1 = torch.randn(D_in, H, requires_grad=True)
w2 = torch.randn(H, D_out, requires_grad=True)

# 开始神经网络计算
learning_rate = 1e-6
epoches = 500

for epoch in range(epoches):
    # 前向传播，简单精简一下
    y_pred = x.mm(w1).clamp(min=0).mm(w2)

    # 计算损失和上面一样
    loss = (y_pred - y).pow(2).sum()
    print(epoch, loss.item())

    # 反向传播  这里我们使用自动求导机制，一句话就搞定
    loss.backward()

    # 更新参数，注意，这时候我们不需要计算w的梯度了，所以得关上梯度计算
    with torch.no_grad():
        w1 -= learning_rate * w1.grad
        w2 -= learning_rate * w2.grad

        # 就是Pytorch的求导机制是默认采用累加的方式，
        # 每一代求完梯度，不会自动清零，下一代的梯度是前一代加上本一代的梯度
        # 候就错了，所以我们得自动每一代之后，梯度清零
        w1.grad.zero_()
        w2.grad.zero_()

0 23264434.0
1 17688668.0
2 14975186.0
3 13191043.0
4 11512871.0
5 9676671.0
6 7759702.0
7 5952597.0
8 4422194.5
9 3225110.25
10 2344057.5
11 1718289.0
12 1282229.0
13 978777.5
14 766086.0
15 614602.375
16 504340.71875
17 421937.625
18 358817.875
19 309202.21875
20 269285.90625
21 236623.859375
22 209396.5
23 186350.78125
24 166623.0
25 149570.671875
26 134711.046875
27 121686.3125
28 110209.7109375
29 100050.0859375
30 91030.7265625
31 82998.265625
32 75826.5625
33 69394.9453125
34 63612.390625
35 58404.09765625
36 53713.53125
37 49467.4453125
38 45622.5703125
39 42134.109375
40 38963.81640625
41 36074.6484375
42 33438.8984375
43 31031.865234375
44 28828.791015625
45 26811.193359375
46 24958.552734375
47 23255.69140625
48 21690.080078125
49 20247.373046875
50 18917.609375
51 17689.28125
52 16553.740234375
53 15503.404296875
54 14530.7783203125
55 13630.421875
56 12794.9619140625
57 12018.7216796875
58 11296.833984375
59 10624.763671875
60 9998.66015625
61 9414.78125
62 8869.9931640625

## PyTorch：nn

使用nn库来创建网络，用PyTorch autograd构建计算图和计算gradients，然后PyTorch会自动计算gradient

In [5]:
import torch.nn as nn

# N表示训练数据的个数，D_in表示输入的特征数 H是中间层，D_out输出特征数
N, D_in, H, D_out = 64, 1000, 100, 10

# 创建训练数据，和上面一样
x = torch.randn(N, D_in)
y = torch.randn(N, D_out)

# 使用nn建立一个模型进行前向传播的过程计算
model = torch.nn.Sequential(
    torch.nn.Linear(D_in, H),
    torch.nn.ReLU(),
    torch.nn.Linear(H, D_out)
)

# 这里我们初始化参数
torch.nn.init.normal_(model[0].weight)
torch.nn.init.normal_(model[2].weight)

# 开始神经网络的计算
loss_fn = nn.MSELoss(reduction='sum')
learning_rate = 1e-6

for it in range(500):
    # 前向传播，建立模型即可, 也是一句话搞定
    y_pred = model(x)

    # 计算损失  这里的损失函数用Pytorch版
    loss = loss_fn(y_pred, y)
    print(it, loss.item())

    # 参数导数归0，然后反向传播，这里会计算所有需要求导参数的梯度保存到一个参数列表中
    model.zero_grad()
    loss.backward()

    # 更新参数
    with torch.no_grad():
        for param in model.parameters():  # param (tensor, grad)的形式
            param -= learning_rate * param.grad


0 26981698.0
1 21301392.0
2 19071156.0
3 17571190.0
4 15619167.0
5 12840374.0
6 9721364.0
7 6829264.5
8 4588547.0
9 3019848.25
10 2004054.0
11 1363382.625
12 963101.25
13 708314.5
14 541563.625
15 428210.34375
16 348034.65625
17 288855.03125
18 243510.65625
19 207714.90625
20 178767.671875
21 154898.34375
22 134948.796875
23 118088.9765625
24 103711.09375
25 91379.328125
26 80733.3359375
27 71507.3125
28 63488.1875
29 56488.6484375
30 50356.72265625
31 44972.4921875
32 40240.68359375
33 36070.97265625
34 32381.34765625
35 29112.912109375
36 26216.935546875
37 23640.271484375
38 21347.04296875
39 19297.017578125
40 17463.69921875
41 15822.119140625
42 14349.65625
43 13027.0205078125
44 11837.2001953125
45 10765.7880859375
46 9799.8681640625
47 8928.1572265625
48 8140.34228515625
49 7428.1416015625
50 6782.8876953125
51 6198.10302734375
52 5667.328125
53 5185.75048828125
54 4747.9921875
55 4349.82666015625
56 3987.4560546875
57 3657.556396484375
58 3356.78759765625
59 3082.565673828125
6

370 0.0001458866463508457
371 0.00014171257498674095
372 0.00013753131497651339
373 0.0001336086861556396
374 0.0001301137963309884
375 0.00012690159201156348
376 0.00012340518878772855
377 0.00012008301564492285
378 0.00011689617531374097
379 0.00011373117740731686
380 0.00011099113908130676
381 0.00010842501069419086
382 0.00010540971561567858
383 0.000102648300526198
384 0.00010015377483796328
385 9.750544995767996e-05
386 9.545563807478175e-05
387 9.275521733798087e-05
388 9.050253720488399e-05
389 8.845969568938017e-05
390 8.64883404574357e-05
391 8.448584412690252e-05
392 8.219618757721037e-05
393 8.043843990890309e-05
394 7.88213947089389e-05
395 7.679622649447992e-05
396 7.511730655096471e-05
397 7.333890971494839e-05
398 7.19240415492095e-05
399 7.025310333119705e-05
400 6.882924935780466e-05
401 6.721360114170238e-05
402 6.567254604306072e-05
403 6.446406041504815e-05
404 6.306471186690032e-05
405 6.208194827195257e-05
406 6.074042175896466e-05
407 5.9497844631550834e-05
408 

## PyTorch：optim

使用optim，不需要手动更新模型的weights。

optim提供各种不同的模型优化方法，包括SGD+momentum，RMSProp，Adam等等

In [6]:
# 定义输入输出层的个数 和上面一样
N, D_in, H, D_out = 64, 1000, 100, 10

# 创造训练集
x = torch.randn(N, D_in)
y = torch.randn(N, D_out)

# 定义模型
model = torch.nn.Sequential(
    torch.nn.Linear(D_in, H),
    torch.nn.ReLU(),
    torch.nn.Linear(H, D_out)
)

# 如果训练效果不好，也可以加上这两句试试，深度学习有点玄学
torch.nn.init.normal_(model[0].weight)
torch.nn.init.normal_(model[2].weight)

# 开始神经网络的计算,但是这里我们使用优化器帮我们更新参数
learning_rate = 1e-6
loss_fn = torch.nn.MSELoss(reduction='sum')
optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)

for it in range(500):
    # 前向传播
    y_pred = model(x)

    # 计算损失
    loss = loss_fn(y_pred, y)
    print(it, loss.item())

    # 梯度清零, 然后反向传播
    optimizer.zero_grad()
    loss.backward()

    # 更新参数，这里只需要一句话
    optimizer.step()

0 25873756.0
1 22215944.0
2 26122002.0
3 35348212.0
4 44965420.0
5 45081676.0
6 31216784.0
7 14377821.0
8 5210768.5
9 2075934.125
10 1138046.625
11 809639.125
12 649270.1875
13 544165.25
14 464122.9375
15 399376.3125
16 345775.5
17 301017.375
18 263473.90625
19 231589.8125
20 204300.859375
21 180853.703125
22 160586.515625
23 143003.859375
24 127679.5625
25 114286.7109375
26 102540.796875
27 92205.3359375
28 83073.8125
29 74982.4140625
30 67802.9921875
31 61413.2734375
32 55714.4921875
33 50615.140625
34 46048.65625
35 41948.828125
36 38261.98828125
37 34943.78515625
38 31952.51953125
39 29256.69921875
40 26822.140625
41 24618.75390625
42 22619.572265625
43 20802.056640625
44 19147.81640625
45 17641.4140625
46 16267.7724609375
47 15015.3671875
48 13871.05078125
49 12823.703125
50 11864.322265625
51 10984.787109375
52 10177.443359375
53 9436.5703125
54 8756.6865234375
55 8130.96240234375
56 7554.638671875
57 7023.662109375
58 6533.68017578125
59 6081.47998046875
60 5664.00341796875
61 5

440 0.00013003050116822124
441 0.00012728417641483247
442 0.00012473102833610028
443 0.00012199918273836374
444 0.00011964886653004214
445 0.00011703946074703708
446 0.00011484477727208287
447 0.00011249604722252116
448 0.00011000184167642146
449 0.000107992222183384
450 0.00010583236144157127
451 0.00010368504445068538
452 0.00010146487329620868
453 9.976165893021971e-05
454 9.747150761540979e-05
455 9.574902651365846e-05
456 9.436137042939663e-05
457 9.212673467118293e-05
458 9.03167383512482e-05
459 8.859511581249535e-05
460 8.69283830979839e-05
461 8.574426465202123e-05
462 8.421616803389043e-05
463 8.263280324172229e-05
464 8.137887198245153e-05
465 7.980850205058232e-05
466 7.829668174963444e-05
467 7.660523260710761e-05
468 7.538454519817606e-05
469 7.451495912391692e-05
470 7.295941759366542e-05
471 7.17140719643794e-05
472 7.050917338347062e-05
473 6.935456622159109e-05
474 6.847990880487487e-05
475 6.72142778057605e-05
476 6.61308440612629e-05
477 6.514685810543597e-05
478 6.

## PyTorch：nn.Modules

定义一个模型，继承自nn.Module类。定义一个比Sequential模型更加复杂的模型。

In [7]:
# 我们定义一个两层的神经网络类，这个继承与nn.Module模块
class TwoLayerNet(torch.nn.Module):

    # 定义成员层
    def __init__(self, D_in, H, D_out):
        super(TwoLayerNet, self).__init__()
        self.linear1 = torch.nn.Linear(D_in, H)
        self.linear2 = torch.nn.Linear(H, D_out)

    # 定义前向传播
    def forward(self, x):
        h_relu = self.linear1(x).clamp(min=0)
        y_pred = self.linear2(h_relu)
        return y_pred


N, D_in, H, D_out = 64, 1000, 100, 10

x = torch.randn(N, D_in)
y = torch.randn(N, D_out)

# 定义一个模型
model = TwoLayerNet(D_in, H, D_out)

# 开始计算神经网络
criterion = torch.nn.MSELoss(reduction='sum')
optimizer = torch.optim.SGD(model.parameters(), lr=1e-4)

for it in range(500):
    # 前向传播
    y_pred = model(x)

    # 计算损失
    loss = criterion(y_pred, y)
    print(it, loss)

    # 反向传播, 更新参数
    optimizer.zero_grad()
    loss.backward()
    
    optimizer.step()

0 tensor(738.6026, grad_fn=<MseLossBackward0>)
1 tensor(683.0803, grad_fn=<MseLossBackward0>)
2 tensor(634.9688, grad_fn=<MseLossBackward0>)
3 tensor(592.5721, grad_fn=<MseLossBackward0>)
4 tensor(554.5476, grad_fn=<MseLossBackward0>)
5 tensor(520.3244, grad_fn=<MseLossBackward0>)
6 tensor(489.1407, grad_fn=<MseLossBackward0>)
7 tensor(460.3612, grad_fn=<MseLossBackward0>)
8 tensor(433.6719, grad_fn=<MseLossBackward0>)
9 tensor(408.8205, grad_fn=<MseLossBackward0>)
10 tensor(385.5893, grad_fn=<MseLossBackward0>)
11 tensor(363.7003, grad_fn=<MseLossBackward0>)
12 tensor(343.0703, grad_fn=<MseLossBackward0>)
13 tensor(323.6469, grad_fn=<MseLossBackward0>)
14 tensor(305.2601, grad_fn=<MseLossBackward0>)
15 tensor(287.8881, grad_fn=<MseLossBackward0>)
16 tensor(271.4402, grad_fn=<MseLossBackward0>)
17 tensor(255.8572, grad_fn=<MseLossBackward0>)
18 tensor(241.1021, grad_fn=<MseLossBackward0>)
19 tensor(227.0517, grad_fn=<MseLossBackward0>)
20 tensor(213.7392, grad_fn=<MseLossBackward0>)
21

189 tensor(0.0258, grad_fn=<MseLossBackward0>)
190 tensor(0.0248, grad_fn=<MseLossBackward0>)
191 tensor(0.0239, grad_fn=<MseLossBackward0>)
192 tensor(0.0230, grad_fn=<MseLossBackward0>)
193 tensor(0.0221, grad_fn=<MseLossBackward0>)
194 tensor(0.0213, grad_fn=<MseLossBackward0>)
195 tensor(0.0205, grad_fn=<MseLossBackward0>)
196 tensor(0.0197, grad_fn=<MseLossBackward0>)
197 tensor(0.0190, grad_fn=<MseLossBackward0>)
198 tensor(0.0183, grad_fn=<MseLossBackward0>)
199 tensor(0.0176, grad_fn=<MseLossBackward0>)
200 tensor(0.0170, grad_fn=<MseLossBackward0>)
201 tensor(0.0163, grad_fn=<MseLossBackward0>)
202 tensor(0.0157, grad_fn=<MseLossBackward0>)
203 tensor(0.0152, grad_fn=<MseLossBackward0>)
204 tensor(0.0146, grad_fn=<MseLossBackward0>)
205 tensor(0.0141, grad_fn=<MseLossBackward0>)
206 tensor(0.0136, grad_fn=<MseLossBackward0>)
207 tensor(0.0131, grad_fn=<MseLossBackward0>)
208 tensor(0.0126, grad_fn=<MseLossBackward0>)
209 tensor(0.0122, grad_fn=<MseLossBackward0>)
210 tensor(0.

363 tensor(7.8490e-05, grad_fn=<MseLossBackward0>)
364 tensor(7.6149e-05, grad_fn=<MseLossBackward0>)
365 tensor(7.3867e-05, grad_fn=<MseLossBackward0>)
366 tensor(7.1662e-05, grad_fn=<MseLossBackward0>)
367 tensor(6.9526e-05, grad_fn=<MseLossBackward0>)
368 tensor(6.7450e-05, grad_fn=<MseLossBackward0>)
369 tensor(6.5438e-05, grad_fn=<MseLossBackward0>)
370 tensor(6.3489e-05, grad_fn=<MseLossBackward0>)
371 tensor(6.1598e-05, grad_fn=<MseLossBackward0>)
372 tensor(5.9768e-05, grad_fn=<MseLossBackward0>)
373 tensor(5.7988e-05, grad_fn=<MseLossBackward0>)
374 tensor(5.6270e-05, grad_fn=<MseLossBackward0>)
375 tensor(5.4602e-05, grad_fn=<MseLossBackward0>)
376 tensor(5.2980e-05, grad_fn=<MseLossBackward0>)
377 tensor(5.1410e-05, grad_fn=<MseLossBackward0>)
378 tensor(4.9881e-05, grad_fn=<MseLossBackward0>)
379 tensor(4.8405e-05, grad_fn=<MseLossBackward0>)
380 tensor(4.6971e-05, grad_fn=<MseLossBackward0>)
381 tensor(4.5584e-05, grad_fn=<MseLossBackward0>)
382 tensor(4.4232e-05, grad_fn=

# FizzBuzz小游戏

游戏规则：从1开始往上数数：
- 当遇到3的倍数，输出fizz
- 当遇到5的倍数，输出buzz
- 当遇到15的倍数，输出fizzbuzz
- 其他情况下正常数数

目的搭建一个网络，让网络玩这个游戏

## 第一步：写编码函数

传进一个数，如果是3的倍数，返回1，是5的倍数，返回2，是15的倍数，返回3，其他情况返回0

In [8]:
def fizz_buzz_encode(i):
    if i % 15 == 0: return 3
    elif i % 5 == 0: return 2
    elif i % 3 == 0: return 1
    else: return 0

## 第二步：写解码函数

根据上面的返回数，得到fizz，buzz和fizzbuzz或是其他

In [9]:
def fizz_buzz_decode(i, prediction):
    return [str(i), "fizz", "buzz", "fizzbuzz"][prediction]

## 第三步：定义模型输入

训练模型的时候，需要把数转换成特征的方式网络才能懂，这里采用二进制编码形式。

In [30]:
import numpy as np
import torch

NUM_DIGITS = 10

def binary_encode(i, num_digits):
    return np.array([i >> d & 1 for d in range(num_digits)])


trX = [binary_encode(i, NUM_DIGITS) for i in range(101, 2 ** NUM_DIGITS)]
trX = torch.Tensor(trX)

trY = [fizz_buzz_encode(i) for i in range(101, 2 ** NUM_DIGITS)]
trY = torch.tensor(trY, dtype=torch.long)

## 第四步：PyTorch定义模型

4分类问题，输入数字，观察模型输出是哪个类别

In [31]:
NUM_HIDDEN = 100
model = torch.nn.Sequential(
    torch.nn.Linear(NUM_DIGITS, NUM_HIDDEN),
    torch.nn.ReLU(),
    torch.nn.Linear(NUM_HIDDEN, 4)
)

## 第五步：模型的训练

- 定义一个损失函数和优化算法
- 优化算法不断优化（降低）损失函数，使得模型在该任务上取得尽可能低的损失值
- 损失值越低，表示模型越好；损失值越高，表示模型越差
- 由于FizzBuzz游戏本质上是一个分类问题，选用Cross Entropy Loss函数
- 优化函数选用SGD

In [32]:
loss_fn = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(model.parameters(), lr = 0.05)
BATCH_SIZE = 128

for epoch in range(10000):
    for start in range(0, len(trX), BATCH_SIZE):
        end = start + BATCH_SIZE
        batchX = trX[start:end]
        batchY = trY[start:end]

        y_pred = model(batchX)
        loss = loss_fn(y_pred, batchY)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

    loss = loss_fn(model(trX),trY).item()
    print(epoch, loss)

0 1.1809709072113037
1 1.1555389165878296
2 1.1490106582641602
3 1.1465617418289185
4 1.1453535556793213
5 1.144621729850769
6 1.1441080570220947
7 1.1437021493911743
8 1.143359661102295
9 1.1430546045303345
10 1.1427743434906006
11 1.1425120830535889
12 1.1422643661499023
13 1.142030119895935
14 1.1418029069900513
15 1.1415858268737793
16 1.1413788795471191
17 1.1411774158477783
18 1.1409865617752075
19 1.1407997608184814
20 1.1406222581863403
21 1.1404505968093872
22 1.1402828693389893
23 1.1401214599609375
24 1.1399646997451782
25 1.1398144960403442
26 1.1396687030792236
27 1.1395230293273926
28 1.1393861770629883
29 1.1392521858215332
30 1.139119267463684
31 1.1389923095703125
32 1.138870120048523
33 1.1387470960617065
34 1.1386291980743408
35 1.138515591621399
36 1.1384024620056152
37 1.1382912397384644
38 1.1381837129592896
39 1.1380716562271118
40 1.1379669904708862
41 1.1378628015518188
42 1.1377583742141724
43 1.1376566886901855
44 1.137558937072754
45 1.1374623775482178
46 1.

398 1.081009864807129
399 1.0806816816329956
400 1.080466628074646
401 1.079709529876709
402 1.0797208547592163
403 1.0790499448776245
404 1.078559160232544
405 1.0780606269836426
406 1.0776573419570923
407 1.0771262645721436
408 1.0769492387771606
409 1.076342225074768
410 1.0758329629898071
411 1.0754350423812866
412 1.0753657817840576
413 1.074677586555481
414 1.0740182399749756
415 1.073839545249939
416 1.0731146335601807
417 1.0726581811904907
418 1.072637915611267
419 1.0717833042144775
420 1.0713350772857666
421 1.0710101127624512
422 1.0705622434616089
423 1.0696913003921509
424 1.06937575340271
425 1.0692882537841797
426 1.0684837102890015
427 1.068373680114746
428 1.0678654909133911
429 1.0669759511947632
430 1.066774606704712
431 1.0664780139923096
432 1.0659985542297363
433 1.0657086372375488
434 1.0650050640106201
435 1.0648252964019775
436 1.0640181303024292
437 1.0641205310821533
438 1.0634194612503052
439 1.0627379417419434
440 1.062408447265625
441 1.0620604753494263
4

797 0.7683379650115967
798 0.7666800022125244
799 0.7675492763519287
800 0.7671660780906677
801 0.7657883167266846
802 0.7644414305686951
803 0.7626870274543762
804 0.7609022855758667
805 0.7610383033752441
806 0.7594332695007324
807 0.7583267688751221
808 0.7583748698234558
809 0.7568257451057434
810 0.7563475966453552
811 0.7544400691986084
812 0.753972589969635
813 0.7521332502365112
814 0.7507259249687195
815 0.7508205771446228
816 0.7477689981460571
817 0.7470926642417908
818 0.7454430460929871
819 0.7455741763114929
820 0.7450852990150452
821 0.7427846789360046
822 0.7423430681228638
823 0.7406968474388123
824 0.7387567162513733
825 0.7382168173789978
826 0.737328827381134
827 0.7371477484703064
828 0.7352784276008606
829 0.7347106337547302
830 0.7333285808563232
831 0.733255922794342
832 0.7309481501579285
833 0.7290166020393372
834 0.7292194962501526
835 0.7283345460891724
836 0.7266041040420532
837 0.7251527309417725
838 0.7241833209991455
839 0.7237420082092285
840 0.72270655

1191 0.3872056007385254
1192 0.3859287202358246
1193 0.38556328415870667
1194 0.38430699706077576
1195 0.38381946086883545
1196 0.3829079568386078
1197 0.38224273920059204
1198 0.381488174200058
1199 0.38087305426597595
1200 0.37991443276405334
1201 0.37895557284355164
1202 0.3786872327327728
1203 0.37739089131355286
1204 0.37731096148490906
1205 0.3764135539531708
1206 0.37586790323257446
1207 0.375235915184021
1208 0.37446075677871704
1209 0.37377768754959106
1210 0.3728121519088745
1211 0.37229031324386597
1212 0.3713158369064331
1213 0.37062519788742065
1214 0.370025634765625
1215 0.3691521883010864
1216 0.3687966465950012
1217 0.3682468831539154
1218 0.36736026406288147
1219 0.3667837679386139
1220 0.36576735973358154
1221 0.3649531304836273
1222 0.36435815691947937
1223 0.36359694600105286
1224 0.3628871738910675
1225 0.3630944490432739
1226 0.3615415394306183
1227 0.3613441288471222
1228 0.3607499897480011
1229 0.3599161207675934
1230 0.3587493300437927
1231 0.3585500121116638
1

1528 0.2217966765165329
1529 0.22149139642715454
1530 0.22105643153190613
1531 0.2208404242992401
1532 0.2205849438905716
1533 0.2201550453901291
1534 0.21981871128082275
1535 0.21944089233875275
1536 0.21927696466445923
1537 0.21890747547149658
1538 0.21870413422584534
1539 0.2183048129081726
1540 0.21785028278827667
1541 0.2176508754491806
1542 0.21742945909500122
1543 0.21701201796531677
1544 0.2167525440454483
1545 0.216501846909523
1546 0.21613068878650665
1547 0.21576815843582153
1548 0.21550843119621277
1549 0.21522921323776245
1550 0.21489852666854858
1551 0.21472370624542236
1552 0.21438449621200562
1553 0.21406666934490204
1554 0.213650643825531
1555 0.21356551349163055
1556 0.213236004114151
1557 0.21287204325199127
1558 0.21258723735809326
1559 0.21238909661769867
1560 0.21195702254772186
1561 0.21166251599788666
1562 0.2113862931728363
1563 0.2111438512802124
1564 0.2108565717935562
1565 0.210510715842247
1566 0.21029874682426453
1567 0.21002846956253052
1568 0.20969766378

1865 0.14649277925491333
1866 0.1463976800441742
1867 0.14621390402317047
1868 0.14602981507778168
1869 0.1459144800901413
1870 0.14569631218910217
1871 0.14564533531665802
1872 0.14540371298789978
1873 0.1453125774860382
1874 0.14512735605239868
1875 0.14501449465751648
1876 0.14483048021793365
1877 0.1446702629327774
1878 0.14448809623718262
1879 0.14435715973377228
1880 0.1441800445318222
1881 0.14403685927391052
1882 0.14389868080615997
1883 0.14366848766803741
1884 0.14355017244815826
1885 0.14345581829547882
1886 0.14325188100337982
1887 0.1431708037853241
1888 0.1430223137140274
1889 0.14280809462070465
1890 0.14266331493854523
1891 0.14257614314556122
1892 0.1424497663974762
1893 0.1421613246202469
1894 0.1420585960149765
1895 0.14189687371253967
1896 0.1417817622423172
1897 0.1415654420852661
1898 0.14148299396038055
1899 0.14132672548294067
1900 0.14116740226745605
1901 0.141004741191864
1902 0.14079751074314117
1903 0.14073696732521057
1904 0.14051243662834167
1905 0.1404689

2200 0.10560034960508347
2201 0.10553290694952011
2202 0.10542678087949753
2203 0.10529789328575134
2204 0.1052974984049797
2205 0.10509975999593735
2206 0.10507702082395554
2207 0.10488874465227127
2208 0.10480576008558273
2209 0.10475020110607147
2210 0.10468640923500061
2211 0.10458442568778992
2212 0.10445410013198853
2213 0.10440193116664886
2214 0.10431601852178574
2215 0.10418763756752014
2216 0.1040877029299736
2217 0.10394592583179474
2218 0.10391451418399811
2219 0.10380633920431137
2220 0.10375682264566422
2221 0.1035938560962677
2222 0.10357475280761719
2223 0.10347259044647217
2224 0.1032993495464325
2225 0.10328502953052521
2226 0.10311746597290039
2227 0.10300853848457336
2228 0.1029488667845726
2229 0.10285548865795135
2230 0.10283958166837692
2231 0.10274629294872284
2232 0.10257935523986816
2233 0.1025073304772377
2234 0.10242258012294769
2235 0.1023700013756752
2236 0.10223352909088135
2237 0.10215090215206146
2238 0.10203032195568085
2239 0.10199708491563797
2240 0.

2536 0.08009753376245499
2537 0.0800597220659256
2538 0.08002737164497375
2539 0.07991819828748703
2540 0.07988203316926956
2541 0.07977742701768875
2542 0.07974885404109955
2543 0.07971745729446411
2544 0.07960864901542664
2545 0.07955656200647354
2546 0.07950459420681
2547 0.0795101448893547
2548 0.07937589287757874
2549 0.07934073358774185
2550 0.07928077131509781
2551 0.07922135293483734
2552 0.0791318267583847
2553 0.0791052058339119
2554 0.07904858887195587
2555 0.07895685732364655
2556 0.0788988471031189
2557 0.07883962243795395
2558 0.07878345996141434
2559 0.07876980304718018
2560 0.07869993895292282
2561 0.0785902589559555
2562 0.07854517549276352
2563 0.07851388305425644
2564 0.07846266776323318
2565 0.07841775566339493
2566 0.07829787582159042
2567 0.07827778160572052
2568 0.07821179181337357
2569 0.0781632512807846
2570 0.07811830192804337
2571 0.07806631177663803
2572 0.07794390618801117
2573 0.07792026549577713
2574 0.07786259055137634
2575 0.07779134064912796
2576 0.077

2880 0.06255356967449188
2881 0.06251506507396698
2882 0.06245893985033035
2883 0.06241891160607338
2884 0.06239556893706322
2885 0.062331367284059525
2886 0.06230020523071289
2887 0.06227267161011696
2888 0.06221052631735802
2889 0.062141917645931244
2890 0.06213751807808876
2891 0.062072765082120895
2892 0.062047675251960754
2893 0.06200752034783363
2894 0.06198519840836525
2895 0.061927154660224915
2896 0.0618753619492054
2897 0.06186337023973465
2898 0.061782076954841614
2899 0.06177888438105583
2900 0.061717890202999115
2901 0.06168373301625252
2902 0.06162906438112259
2903 0.06161398068070412
2904 0.06157441809773445
2905 0.06149665266275406
2906 0.061469193547964096
2907 0.06143004074692726
2908 0.061409320682287216
2909 0.06134915351867676
2910 0.061301764100790024
2911 0.061275381594896317
2912 0.06122565269470215
2913 0.06118503212928772
2914 0.061169639229774475
2915 0.061104509979486465
2916 0.06107716262340546
2917 0.061022184789180756
2918 0.060975655913352966
2919 0.0609

3222 0.05047823116183281
3223 0.05043690279126167
3224 0.05041981115937233
3225 0.050391100347042084
3226 0.05034723877906799
3227 0.050330400466918945
3228 0.050297703593969345
3229 0.05026976764202118
3230 0.05026199296116829
3231 0.050210654735565186
3232 0.05018116533756256
3233 0.05015125125646591
3234 0.050108857452869415
3235 0.05009274557232857
3236 0.050065431743860245
3237 0.050038374960422516
3238 0.050000738352537155
3239 0.04996291175484657
3240 0.04994570463895798
3241 0.049913663417100906
3242 0.04987882822751999
3243 0.04986489564180374
3244 0.04982660710811615
3245 0.04980529099702835
3246 0.04977532476186752
3247 0.04973991587758064
3248 0.04971574246883392
3249 0.049686040729284286
3250 0.04966023191809654
3251 0.04961314797401428
3252 0.04958739131689072
3253 0.04957207664847374
3254 0.04954247921705246
3255 0.04949034005403519
3256 0.04949651286005974
3257 0.049443867057561874
3258 0.04942190274596214
3259 0.049404341727495193
3260 0.04936658963561058
3261 0.049352

3560 0.041762519627809525
3561 0.04175528883934021
3562 0.041731201112270355
3563 0.04170820116996765
3564 0.041683536022901535
3565 0.04165550321340561
3566 0.04163211211562157
3567 0.04162011295557022
3568 0.04159155488014221
3569 0.04157234728336334
3570 0.041552331298589706
3571 0.041533131152391434
3572 0.04150451347231865
3573 0.04150073975324631
3574 0.04145684838294983
3575 0.04143483191728592
3576 0.04141818359494209
3577 0.04139583185315132
3578 0.04136909916996956
3579 0.04136322811245918
3580 0.04133763909339905
3581 0.04131326824426651
3582 0.04128939285874367
3583 0.04126236215233803
3584 0.041234612464904785
3585 0.04121876507997513
3586 0.04120650887489319
3587 0.041171129792928696
3588 0.04115596413612366
3589 0.0411347895860672
3590 0.041123490780591965
3591 0.041091665625572205
3592 0.04107163846492767
3593 0.041054219007492065
3594 0.04103478789329529
3595 0.04100153595209122
3596 0.04098321124911308
3597 0.04095752537250519
3598 0.040954671800136566
3599 0.04091905

3906 0.03510389104485512
3907 0.03508381173014641
3908 0.03506315127015114
3909 0.035047322511672974
3910 0.03503507003188133
3911 0.035019565373659134
3912 0.034999456256628036
3913 0.03498651087284088
3914 0.03496667370200157
3915 0.03494866564869881
3916 0.03493550419807434
3917 0.03491083160042763
3918 0.034904107451438904
3919 0.03488534316420555
3920 0.034865692257881165
3921 0.03485726937651634
3922 0.03483455628156662
3923 0.03480926901102066
3924 0.03480610251426697
3925 0.03477538377046585
3926 0.03477299585938454
3927 0.03475450351834297
3928 0.03472490236163139
3929 0.03472497686743736
3930 0.03470522537827492
3931 0.034689731895923615
3932 0.034678246825933456
3933 0.03465818241238594
3934 0.03464357182383537
3935 0.034618690609931946
3936 0.03460800647735596
3937 0.034589871764183044
3938 0.034572530537843704
3939 0.03455762565135956
3940 0.03454088419675827
3941 0.03452300280332565
3942 0.034516651183366776
3943 0.034486059099435806
3944 0.03448035940527916
3945 0.034466

4251 0.030046211555600166
4252 0.030048703774809837
4253 0.030018875375390053
4254 0.03000672161579132
4255 0.030002495273947716
4256 0.02998613379895687
4257 0.029963849112391472
4258 0.02996186539530754
4259 0.029951518401503563
4260 0.029933996498584747
4261 0.029930775985121727
4262 0.029906878247857094
4263 0.029901187866926193
4264 0.02988601289689541
4265 0.02986943908035755
4266 0.029863694682717323
4267 0.02984406054019928
4268 0.029836032539606094
4269 0.029819991439580917
4270 0.02980561926960945
4271 0.029798418283462524
4272 0.029781468212604523
4273 0.029764067381620407
4274 0.029757702723145485
4275 0.029742874205112457
4276 0.02972750924527645
4277 0.029728025197982788
4278 0.029701068997383118
4279 0.02969292551279068
4280 0.02967889979481697
4281 0.029663298279047012
4282 0.029652398079633713
4283 0.02964535914361477
4284 0.02963090129196644
4285 0.029621442779898643
4286 0.02960490621626377
4287 0.029597431421279907
4288 0.02958112396299839
4289 0.02956424653530121
4

4585 0.02615058235824108
4586 0.02614203840494156
4587 0.02613043412566185
4588 0.02611878141760826
4589 0.026107192039489746
4590 0.02610420063138008
4591 0.026090333238244057
4592 0.02607755921781063
4593 0.026071306318044662
4594 0.02605772577226162
4595 0.0260475967079401
4596 0.026036646217107773
4597 0.02602679468691349
4598 0.02601657062768936
4599 0.02600470744073391
4600 0.025998178869485855
4601 0.025986729189753532
4602 0.025974420830607414
4603 0.025959495455026627
4604 0.02595716528594494
4605 0.025942595675587654
4606 0.025935623794794083
4607 0.025930145755410194
4608 0.025915933772921562
4609 0.025905434042215347
4610 0.02588985115289688
4611 0.02588038705289364
4612 0.025872014462947845
4613 0.025860987603664398
4614 0.025852089747786522
4615 0.02583950199186802
4616 0.025832094252109528
4617 0.025824295356869698
4618 0.025811241939663887
4619 0.02579808235168457
4620 0.025788187980651855
4621 0.025778060778975487
4622 0.02576506696641445
4623 0.02575862593948841
4624 

4920 0.023010089993476868
4921 0.02299906685948372
4922 0.02299867756664753
4923 0.022984134033322334
4924 0.02298014983534813
4925 0.022967278957366943
4926 0.02296198531985283
4927 0.022954044863581657
4928 0.02294469252228737
4929 0.022934651002287865
4930 0.022927481681108475
4931 0.022919224575161934
4932 0.02290893904864788
4933 0.02290327660739422
4934 0.0228965375572443
4935 0.02289113588631153
4936 0.022874703630805016
4937 0.02287270314991474
4938 0.022862069308757782
4939 0.022852512076497078
4940 0.02283959835767746
4941 0.022834187373518944
4942 0.022825129330158234
4943 0.022817332297563553
4944 0.022806793451309204
4945 0.02280866540968418
4946 0.02279960736632347
4947 0.022785602137446404
4948 0.022778647020459175
4949 0.022770261391997337
4950 0.022754378616809845
4951 0.022756753489375114
4952 0.022739777341485023
4953 0.022733502089977264
4954 0.022726690396666527
4955 0.022716859355568886
4956 0.022706802934408188
4957 0.022700779139995575
4958 0.02269238978624344
4

5255 0.02043865993618965
5256 0.020433593541383743
5257 0.020421801134943962
5258 0.02041788212954998
5259 0.0204144399613142
5260 0.020405137911438942
5261 0.020394038408994675
5262 0.02039310894906521
5263 0.02038230188190937
5264 0.020373186096549034
5265 0.020375072956085205
5266 0.02036282978951931
5267 0.02035346068441868
5268 0.020348068326711655
5269 0.020343244075775146
5270 0.020335596054792404
5271 0.020325632765889168
5272 0.020320940762758255
5273 0.020312348380684853
5274 0.02031106688082218
5275 0.020302528515458107
5276 0.020291758701205254
5277 0.02028457075357437
5278 0.020281992852687836
5279 0.02027488499879837
5280 0.02026606909930706
5281 0.02026037871837616
5282 0.02025056630373001
5283 0.020244354382157326
5284 0.020236056298017502
5285 0.020232724025845528
5286 0.020222024992108345
5287 0.0202176533639431
5288 0.020210282877087593
5289 0.020204443484544754
5290 0.02019832283258438
5291 0.020189646631479263
5292 0.020185675472021103
5293 0.02017374336719513
5294

5593 0.018265999853610992
5594 0.018265606835484505
5595 0.01825697347521782
5596 0.01825106516480446
5597 0.01824573054909706
5598 0.018238535150885582
5599 0.01823294349014759
5600 0.018227703869342804
5601 0.01822216622531414
5602 0.018216347321867943
5603 0.018211839720606804
5604 0.018205920234322548
5605 0.018198074772953987
5606 0.018193883821368217
5607 0.01818600669503212
5608 0.01818206161260605
5609 0.018174326047301292
5610 0.018168095499277115
5611 0.018161628395318985
5612 0.018163487315177917
5613 0.018154535442590714
5614 0.018148139119148254
5615 0.01814294047653675
5616 0.018136927857995033
5617 0.01813180185854435
5618 0.018125277012586594
5619 0.018117757514119148
5620 0.018116259947419167
5621 0.018107671290636063
5622 0.018100472167134285
5623 0.018097203224897385
5624 0.018090004101395607
5625 0.018084395676851273
5626 0.018079617992043495
5627 0.01807262748479843
5628 0.01806519739329815
5629 0.01806068606674671
5630 0.01805216260254383
5631 0.01805453933775425


5930 0.016452301293611526
5931 0.01644851639866829
5932 0.016442712396383286
5933 0.016436293721199036
5934 0.01643500104546547
5935 0.0164298377931118
5936 0.016423512250185013
5937 0.01641734503209591
5938 0.01641201414167881
5939 0.0164048932492733
5940 0.016405338421463966
5941 0.016398198902606964
5942 0.016395527869462967
5943 0.01638798415660858
5944 0.016385963186621666
5945 0.01637873984873295
5946 0.0163743756711483
5947 0.016368182376027107
5948 0.016364408656954765
5949 0.01635679043829441
5950 0.016353989019989967
5951 0.0163487009704113
5952 0.016341891139745712
5953 0.016337985172867775
5954 0.016333354637026787
5955 0.016326820477843285
5956 0.016322985291481018
5957 0.016317591071128845
5958 0.016312742605805397
5959 0.016306428238749504
5960 0.016304103657603264
5961 0.016302984207868576
5962 0.016292450949549675
5963 0.016287993639707565
5964 0.01628413423895836
5965 0.0162801630795002
5966 0.016272444278001785
5967 0.01627100259065628
5968 0.016262497752904892
5969 

6265 0.014909911900758743
6266 0.014907892793416977
6267 0.014901839196681976
6268 0.014897188171744347
6269 0.014893309213221073
6270 0.014889824204146862
6271 0.014883307740092278
6272 0.014883562922477722
6273 0.014875938184559345
6274 0.014870700426399708
6275 0.014868639409542084
6276 0.01486357394605875
6277 0.014861035160720348
6278 0.014857040718197823
6279 0.014850359410047531
6280 0.014847877435386181
6281 0.014842942357063293
6282 0.01483996957540512
6283 0.014835750684142113
6284 0.014830635860562325
6285 0.014824407175183296
6286 0.014822294935584068
6287 0.014818316325545311
6288 0.014812438748776913
6289 0.014810596592724323
6290 0.01480769831687212
6291 0.014802508056163788
6292 0.01479609776288271
6293 0.014792150817811489
6294 0.014788758009672165
6295 0.014785495586693287
6296 0.014780715107917786
6297 0.014776920899748802
6298 0.014772715978324413
6299 0.014767020009458065
6300 0.014765230007469654
6301 0.014760454185307026
6302 0.014758060686290264
6303 0.014752442

6601 0.013602904975414276
6602 0.01359720528125763
6603 0.013594591990113258
6604 0.013589859008789062
6605 0.01358762662857771
6606 0.013583456166088581
6607 0.013580309227108955
6608 0.013573998585343361
6609 0.013573714531958103
6610 0.013567857444286346
6611 0.013567336834967136
6612 0.013562577776610851
6613 0.013558993116021156
6614 0.013557474128901958
6615 0.013551067560911179
6616 0.013548814691603184
6617 0.013544424436986446
6618 0.013541306369006634
6619 0.01353609748184681
6620 0.013535131700336933
6621 0.013531745411455631
6622 0.013528730720281601
6623 0.013524388894438744
6624 0.01351889967918396
6625 0.01351832039654255
6626 0.013511890545487404
6627 0.01350888516753912
6628 0.013506613671779633
6629 0.013501476496458054
6630 0.013497814536094666
6631 0.013495256192982197
6632 0.013490535318851471
6633 0.013489151373505592
6634 0.013486429117619991
6635 0.013481125235557556
6636 0.01347996387630701
6637 0.013474693521857262
6638 0.013470107689499855
6639 0.013467829674

6940 0.012489593587815762
6941 0.012486428022384644
6942 0.012481966987252235
6943 0.01247882004827261
6944 0.012475874274969101
6945 0.012473233044147491
6946 0.01246992964297533
6947 0.012465964071452618
6948 0.012464589439332485
6949 0.012459696270525455
6950 0.01245682779699564
6951 0.012454918585717678
6952 0.012450717389583588
6953 0.012449377216398716
6954 0.012443875893950462
6955 0.012442228384315968
6956 0.012437854893505573
6957 0.012435824610292912
6958 0.012433364987373352
6959 0.012431647628545761
6960 0.012428522109985352
6961 0.01242316048592329
6962 0.01242148783057928
6963 0.012417192570865154
6964 0.01241575088351965
6965 0.012411623261868954
6966 0.012410562485456467
6967 0.012405956164002419
6968 0.012402835302054882
6969 0.012399827130138874
6970 0.012398067861795425
6971 0.012394391000270844
6972 0.012390516698360443
6973 0.012388418428599834
6974 0.012384152971208096
6975 0.012382403947412968
6976 0.012378843501210213
6977 0.01237587258219719
6978 0.012372923083

7279 0.011528355069458485
7280 0.011526455171406269
7281 0.011523708701133728
7282 0.011520713567733765
7283 0.01151833776384592
7284 0.01151486486196518
7285 0.011513080447912216
7286 0.011511677876114845
7287 0.011507726274430752
7288 0.011505081318318844
7289 0.011501454748213291
7290 0.011498892679810524
7291 0.011495428159832954
7292 0.011494073085486889
7293 0.011491539888083935
7294 0.011490339413285255
7295 0.011486071161925793
7296 0.01148273516446352
7297 0.011481142602860928
7298 0.01147965993732214
7299 0.011475707404315472
7300 0.01147291250526905
7301 0.01147107407450676
7302 0.011469048447906971
7303 0.011466169729828835
7304 0.011463883332908154
7305 0.011460199020802975
7306 0.01145780086517334
7307 0.011456595733761787
7308 0.011452768929302692
7309 0.011448974721133709
7310 0.011446691118180752
7311 0.011444439180195332
7312 0.011441639624536037
7313 0.011439112015068531
7314 0.01143577042967081
7315 0.01143485028296709
7316 0.011431185528635979
7317 0.01142833009362

7612 0.010703720152378082
7613 0.010701323859393597
7614 0.01069924421608448
7615 0.010697230696678162
7616 0.010695699602365494
7617 0.010691248811781406
7618 0.010689838789403439
7619 0.010687665082514286
7620 0.010684574022889137
7621 0.010682174935936928
7622 0.010680153034627438
7623 0.010678139515221119
7624 0.010676308535039425
7625 0.010674003511667252
7626 0.01067220140248537
7627 0.010669025592505932
7628 0.010667567141354084
7629 0.010665735229849815
7630 0.010661750100553036
7631 0.01066017895936966
7632 0.010656707920134068
7633 0.010655130259692669
7634 0.010653565637767315
7635 0.01065026130527258
7636 0.010647688992321491
7637 0.010646102018654346
7638 0.010644208639860153
7639 0.010641469620168209
7640 0.010639088228344917
7641 0.010637595318257809
7642 0.01063440553843975
7643 0.01063401810824871
7644 0.010631022043526173
7645 0.010629170574247837
7646 0.01062571257352829
7647 0.010623781941831112
7648 0.010621526278555393
7649 0.01061824057251215
7650 0.0106160650029

7949 0.009967140853404999
7950 0.009966466575860977
7951 0.009963535703718662
7952 0.009961945936083794
7953 0.009959468618035316
7954 0.009957490488886833
7955 0.009954742155969143
7956 0.009954014793038368
7957 0.009951873682439327
7958 0.00994979590177536
7959 0.009947182610630989
7960 0.009945536032319069
7961 0.00994375254958868
7962 0.00994060654193163
7963 0.009939311072230339
7964 0.009937756694853306
7965 0.009935019537806511
7966 0.0099334130063653
7967 0.00993072334676981
7968 0.009929175488650799
7969 0.009925558231770992
7970 0.009924896992743015
7971 0.009922465309500694
7972 0.009921696037054062
7973 0.009919711388647556
7974 0.009916333481669426
7975 0.009914824739098549
7976 0.009913204237818718
7977 0.009909930638968945
7978 0.009908526204526424
7979 0.00990663655102253
7980 0.009905644692480564
7981 0.009903168305754662
7982 0.009899831376969814
7983 0.009898887015879154
7984 0.009897665120661259
7985 0.00989501178264618
7986 0.009891468100249767
7987 0.0098912548273

8291 0.009306108579039574
8292 0.009303376078605652
8293 0.009302421472966671
8294 0.009299511089920998
8295 0.009299139492213726
8296 0.009296417236328125
8297 0.00929449312388897
8298 0.009293829090893269
8299 0.0092912707477808
8300 0.00928972102701664
8301 0.009287784807384014
8302 0.00928574986755848
8303 0.009285001084208488
8304 0.009281789883971214
8305 0.009280091151595116
8306 0.009278162382543087
8307 0.009276811964809895
8308 0.009275928139686584
8309 0.009272358380258083
8310 0.009272082708775997
8311 0.009269188158214092
8312 0.009267258457839489
8313 0.009265918284654617
8314 0.009263995103538036
8315 0.009263631887733936
8316 0.009260793216526508
8317 0.009260476566851139
8318 0.009257659316062927
8319 0.0092552425339818
8320 0.009253769181668758
8321 0.009251415729522705
8322 0.009249266237020493
8323 0.009247771464288235
8324 0.009246142581105232
8325 0.009243984706699848
8326 0.009242258965969086
8327 0.009240572340786457
8328 0.009238175116479397
8329 0.009236741811

8631 0.0087192477658391
8632 0.00871745403856039
8633 0.008717305026948452
8634 0.00871412642300129
8635 0.008713259361684322
8636 0.008711582981050014
8637 0.008709952235221863
8638 0.008708220906555653
8639 0.008706008084118366
8640 0.00870435405522585
8641 0.00870343018323183
8642 0.008702275343239307
8643 0.008699871599674225
8644 0.0086991460993886
8645 0.00869698729366064
8646 0.008694215677678585
8647 0.008694835007190704
8648 0.008692747913300991
8649 0.008690337650477886
8650 0.00868935976177454
8651 0.008686710149049759
8652 0.008685870096087456
8653 0.008684239350259304
8654 0.008682414889335632
8655 0.008681319653987885
8656 0.008678429760038853
8657 0.00867808423936367
8658 0.008676442317664623
8659 0.008673430420458317
8660 0.008672635070979595
8661 0.008671090006828308
8662 0.008670460432767868
8663 0.008667455054819584
8664 0.008666005916893482
8665 0.008664685301482677
8666 0.008663208223879337
8667 0.008661255240440369
8668 0.008659487590193748
8669 0.0086583821102976

8972 0.008192028850317001
8973 0.008189622312784195
8974 0.008188636973500252
8975 0.008187199011445045
8976 0.00818559993058443
8977 0.008183860220015049
8978 0.008182480931282043
8979 0.00818206649273634
8980 0.008178994990885258
8981 0.008178814314305782
8982 0.008177513256669044
8983 0.008175291121006012
8984 0.008174706250429153
8985 0.008172495290637016
8986 0.008170734159648418
8987 0.008169771172106266
8988 0.008168556727468967
8989 0.008167239837348461
8990 0.008165798150002956
8991 0.00816402118653059
8992 0.00816221721470356
8993 0.008160639554262161
8994 0.008159440942108631
8995 0.008158537559211254
8996 0.008156844414770603
8997 0.008154714480042458
8998 0.008153758011758327
8999 0.008152463473379612
9000 0.00814969465136528
9001 0.008150112815201283
9002 0.00814749300479889
9003 0.008146371692419052
9004 0.008145114406943321
9005 0.008143543265759945
9006 0.008142937906086445
9007 0.008139905519783497
9008 0.008139658719301224
9009 0.008137780241668224
9010 0.00813546869

9313 0.00771694490686059
9314 0.00771536398679018
9315 0.007713773753494024
9316 0.007712756749242544
9317 0.00771158654242754
9318 0.007709560915827751
9319 0.007709236815571785
9320 0.007707745768129826
9321 0.007706098258495331
9322 0.00770533736795187
9323 0.007703661452978849
9324 0.007702209055423737
9325 0.007700965274125338
9326 0.007698686793446541
9327 0.007699346169829369
9328 0.007696960121393204
9329 0.007695692591369152
9330 0.007694288622587919
9331 0.007692648097872734
9332 0.0076913367956876755
9333 0.0076909190975129604
9334 0.0076887160539627075
9335 0.007688539102673531
9336 0.007686282973736525
9337 0.00768479285761714
9338 0.00768417539075017
9339 0.007681903894990683
9340 0.0076812743209302425
9341 0.007680743001401424
9342 0.00767878070473671
9343 0.007677258923649788
9344 0.007675891742110252
9345 0.007675455417484045
9346 0.007673331070691347
9347 0.007672445848584175
9348 0.007671747822314501
9349 0.0076695713214576244
9350 0.007667783182114363
9351 0.0076673

9653 0.00729189021512866
9654 0.007289278786629438
9655 0.007288090884685516
9656 0.007287323474884033
9657 0.007285646628588438
9658 0.007284475024789572
9659 0.007283006329089403
9660 0.007282220292836428
9661 0.007281840778887272
9662 0.007279564160853624
9663 0.0072784204967319965
9664 0.007277774624526501
9665 0.007276767399162054
9666 0.007275424897670746
9667 0.007273971568793058
9668 0.007272562477737665
9669 0.007271541282534599
9670 0.00727035803720355
9671 0.0072701298631727695
9672 0.007268201559782028
9673 0.007267318665981293
9674 0.007265872787684202
9675 0.007265119813382626
9676 0.0072633507661521435
9677 0.007262492552399635
9678 0.0072615803219377995
9679 0.007259821519255638
9680 0.007258410099893808
9681 0.00725697074085474
9682 0.007256078068166971
9683 0.007255208678543568
9684 0.007253220304846764
9685 0.007252602372318506
9686 0.007251313421875238
9687 0.007250395603477955
9688 0.007249657064676285
9689 0.0072478679940104485
9690 0.007246758323162794
9691 0.007

9994 0.006905298680067062
9995 0.006904655136168003
9996 0.006902913562953472
9997 0.006902235560119152
9998 0.006901415064930916
9999 0.0069002434611320496


## 第六步：预测

使用训练好的模型进行预测

In [34]:
testX = torch.Tensor([binary_encode(i, NUM_DIGITS) for i in range(1, 101)])

# 不进行计算图的构建
with torch.no_grad():
    testY = model(testX)

predictions = zip(range(1, 101), list(testY.max(1)[1].data.tolist()))

print([fizz_buzz_decode(i, x) for (i, x) in predictions])

['1', '2', 'fizz', '4', 'buzz', 'fizz', '7', '8', 'fizz', 'buzz', '11', 'fizz', '13', '14', 'fizzbuzz', '16', '17', 'fizz', '19', 'buzz', '21', '22', '23', 'fizz', 'buzz', '26', 'fizz', '28', '29', 'fizzbuzz', '31', '32', 'buzz', '34', 'buzz', 'fizz', '37', '38', '39', 'buzz', '41', 'fizz', '43', '44', 'fizzbuzz', '46', '47', 'fizz', 'buzz', 'buzz', 'fizz', '52', 'fizz', 'fizz', 'buzz', '56', 'fizz', '58', '59', 'fizzbuzz', '61', '62', 'fizz', '64', 'buzz', 'fizz', '67', '68', 'fizz', 'buzz', '71', 'fizz', '73', '74', 'fizzbuzz', '76', '77', 'fizz', '79', 'buzz', 'fizz', '82', '83', 'fizz', 'buzz', '86', 'fizz', '88', '89', 'fizzbuzz', '91', '92', 'fizz', '94', 'buzz', 'fizz', '97', '98', '99', 'buzz']


In [56]:
print(np.sum(testY.max(1)[1].numpy() == np.array([fizz_buzz_encode(i) for i in range(1,101)])))
testY.max(1)[1].numpy() == np.array([fizz_buzz_encode(i) for i in range(1,101)])

94


array([ True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True, False,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True, False,  True,  True,  True,
        True,  True, False,  True,  True,  True,  True,  True,  True,
        True,  True,  True, False,  True,  True,  True, False,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True, False,
        True])