# Tutoriel pytorch - TP3 - IFT725

Tel que mentionné dans l'énoncé du travail, vous devez recopier les blocs de code du tutoriel suivant

https://pytorch.org/tutorials/beginner/pytorch_with_examples.html

en donnant, pour chaque bloc, une description en format "markdown" de son contenu.

### Entrainement d'un réseau de neurones pleinement connecté
1. On initialise les valeurs du réseau (taille des 'batchs', dimension de la couche d'entrée, dimension de la couche cachée, dimension de la couche de sortie).
2. On créer des données et leur label de façon aléatoire.
3. On initialise les points de façon aléatoire.
4. On fait une 'forward pass' avec ReLu comme fonction d'activation.
5. On calcule la loss (nombre de données mal classées).
6. On fait une 'backward pass' (avec ReLu comme fonction d'activation toujours) afin d'obtenir les gradients de W1 et W2.
7. On met à jour les points de W1 et W2 en fonction du taux d'apprentissage et des gradients (et sans régularisation).

In [1]:
# -*- coding: utf-8 -*-
import numpy as np

# N is batch size; D_in is input dimension;
# H is hidden dimension; D_out is output dimension.
N, D_in, H, D_out = 64, 1000, 100, 10

# Create random input and output data
x = np.random.randn(N, D_in)
y = np.random.randn(N, D_out)

# Randomly initialize weights
w1 = np.random.randn(D_in, H)
w2 = np.random.randn(H, D_out)

learning_rate = 1e-6
for t in range(500):
    # Forward pass: compute predicted y
    h = x.dot(w1)
    h_relu = np.maximum(h, 0)
    y_pred = h_relu.dot(w2)

    # Compute and print loss
    loss = np.square(y_pred - y).sum()
    print(t, loss)

    # Backprop to compute gradients of w1 and w2 with respect to loss
    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h_relu.T.dot(grad_y_pred)
    grad_h_relu = grad_y_pred.dot(w2.T)
    grad_h = grad_h_relu.copy()
    grad_h[h < 0] = 0
    grad_w1 = x.T.dot(grad_h)

    # Update weights
    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2

0 30606577.682283565
1 26445343.057511587
2 23898169.841701783
3 20343851.539352052
4 15645803.666208312
5 10804620.285984784
6 6956480.576706557
7 4370056.446598959
8 2812301.5681008985
9 1908194.186586192
10 1380315.2596094576
11 1057594.005154796
12 847545.7615482457
13 701042.1341442463
14 592576.8205219647
15 508188.9922788909
16 440360.3149520835
17 384487.8505542077
18 337617.35407530674
19 297874.918882014
20 263872.4114888224
21 234648.31463170238
22 209394.73922703465
23 187373.7141780617
24 168086.2509538922
25 151128.2489742464
26 136170.24678755397
27 122954.96784588786
28 111227.35807792441
29 100794.44330118314
30 91493.62032811248
31 83183.02665297635
32 75740.10283750409
33 69071.632084474
34 63082.230791082686
35 57689.29557980199
36 52823.58280005089
37 48425.416161885296
38 44440.918940744756
39 40826.962915448654
40 37545.441655628594
41 34567.60728282349
42 31879.141533205424
43 29426.83495370081
44 27187.038573338505
45 25139.21338333195
46 23265.91475446854
47 2

394 0.005023604248827225
395 0.004839932377662659
396 0.004662998393681714
397 0.004492549049949935
398 0.0043283394969085166
399 0.004170158722164481
400 0.004017761405258034
401 0.0038709371754613205
402 0.003729501600872911
403 0.0035932267100134605
404 0.003461938330507814
405 0.0033354739997600866
406 0.0032136234903250745
407 0.0030962315364220358
408 0.002983148750661298
409 0.0028741921644289807
410 0.002769227919839058
411 0.0026681082305342594
412 0.002570675981100389
413 0.0024768248117552462
414 0.0023863950477388046
415 0.002299266138592219
416 0.0022153289219606466
417 0.0021344579141285664
418 0.0020565432640596275
419 0.001981482152692361
420 0.001909157505989108
421 0.001839481400602507
422 0.0017723599730823535
423 0.0017076785233004442
424 0.001645361579773438
425 0.001585371335670258
426 0.0015279383893683723
427 0.001472612903455889
428 0.00141930551739086
429 0.0013679359940698718
430 0.0013184427604025276
431 0.0012707522449830646
432 0.0012247915919915966
433 0.

### Entrainement d'un réseau de neurones pleinement connecté
1. On fixe le 'type' de processeur à utiliser (CPU / GPU).
2. On initialise les valeurs du réseau (taille des 'batchs', dimension de la couche d'entrée, dimension de la couche cachée, dimension de la couche de sortie).
3. On créer des données et leur label de façon aléatoire.
4. On initialise les points de façon aléatoire.
5. On fait une 'forward pass' avec ReLu comme fonction d'activation.
6. On calcule la loss (nombre de données mal classées).
7. On fait une 'backward pass' (avec ReLu comme fonction d'activation toujours) afin d'obtenir les gradients de W1 et W2.
8. On met à jour les points de W1 et W2 en fonction du taux d'apprentissage et des gradients (et sans régularisation).

In [2]:
# -*- coding: utf-8 -*-

import torch


dtype = torch.float
device = torch.device("cpu")
# device = torch.device("cuda:0") # Uncomment this to run on GPU

# N is batch size; D_in is input dimension;
# H is hidden dimension; D_out is output dimension.
N, D_in, H, D_out = 64, 1000, 100, 10

# Create random input and output data
x = torch.randn(N, D_in, device=device, dtype=dtype)
y = torch.randn(N, D_out, device=device, dtype=dtype)

# Randomly initialize weights
w1 = torch.randn(D_in, H, device=device, dtype=dtype)
w2 = torch.randn(H, D_out, device=device, dtype=dtype)

learning_rate = 1e-6
for t in range(500):
    # Forward pass: compute predicted y
    h = x.mm(w1)
    h_relu = h.clamp(min=0)
    y_pred = h_relu.mm(w2)

    # Compute and print loss
    loss = (y_pred - y).pow(2).sum().item()
    if t % 100 == 99:
        print(t, loss)

    # Backprop to compute gradients of w1 and w2 with respect to loss
    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h_relu.t().mm(grad_y_pred)
    grad_h_relu = grad_y_pred.mm(w2.t())
    grad_h = grad_h_relu.clone()
    grad_h[h < 0] = 0
    grad_w1 = x.t().mm(grad_h)

    # Update weights using gradient descent
    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2

99 273.3194580078125
199 0.7840432524681091
299 0.005499137565493584
399 0.0001786191714927554
499 3.223694511689246e-05


### Entrainement d'un réseau de neurones pleinement connecté
1. On fixe le 'type' de processeur à utiliser (CPU / GPU).
2. On initialise les valeurs du réseau (taille des 'batchs', dimension de la couche d'entrée, dimension de la couche cachée, dimension de la couche de sortie).
3. On créer des données et leur label de façon aléatoire (à l'aide de tenseurs).
4. On initialise les points de façon aléatoire (à l'aide de tenseurs qu'on cherche à garder pour la 'backward pass')).
5. On fait une 'forward pass' avec ReLu comme fonction d'activation.
6. On calcule la loss (nombre de données mal classées).
7. On fait une 'backward pass' (avec ReLu comme fonction d'activation toujours) afin d'obtenir les gradients de W1 et W2. On utilise la fonction 'backward()' d'autograd avec les tenseurs requis (ici, W1 et W2).
8. On met à jour les points de W1 et W2 en fonction du taux d'apprentissage et des gradients (et sans régularisation). Puis on remet à zéro les gradients.

In [3]:
# -*- coding: utf-8 -*-
import torch

dtype = torch.float
device = torch.device("cpu")
# device = torch.device("cuda:0") # Uncomment this to run on GPU

# N is batch size; D_in is input dimension;
# H is hidden dimension; D_out is output dimension.
N, D_in, H, D_out = 64, 1000, 100, 10

# Create random Tensors to hold input and outputs.
# Setting requires_grad=False indicates that we do not need to compute gradients
# with respect to these Tensors during the backward pass.
x = torch.randn(N, D_in, device=device, dtype=dtype)
y = torch.randn(N, D_out, device=device, dtype=dtype)

# Create random Tensors for weights.
# Setting requires_grad=True indicates that we want to compute gradients with
# respect to these Tensors during the backward pass.
w1 = torch.randn(D_in, H, device=device, dtype=dtype, requires_grad=True)
w2 = torch.randn(H, D_out, device=device, dtype=dtype, requires_grad=True)

learning_rate = 1e-6
for t in range(500):
    # Forward pass: compute predicted y using operations on Tensors; these
    # are exactly the same operations we used to compute the forward pass using
    # Tensors, but we do not need to keep references to intermediate values since
    # we are not implementing the backward pass by hand.
    y_pred = x.mm(w1).clamp(min=0).mm(w2)

    # Compute and print loss using operations on Tensors.
    # Now loss is a Tensor of shape (1,)
    # loss.item() gets the scalar value held in the loss.
    loss = (y_pred - y).pow(2).sum()
    if t % 100 == 99:
        print(t, loss.item())

    # Use autograd to compute the backward pass. This call will compute the
    # gradient of loss with respect to all Tensors with requires_grad=True.
    # After this call w1.grad and w2.grad will be Tensors holding the gradient
    # of the loss with respect to w1 and w2 respectively.
    loss.backward()

    # Manually update weights using gradient descent. Wrap in torch.no_grad()
    # because weights have requires_grad=True, but we don't need to track this
    # in autograd.
    # An alternative way is to operate on weight.data and weight.grad.data.
    # Recall that tensor.data gives a tensor that shares the storage with
    # tensor, but doesn't track history.
    # You can also use torch.optim.SGD to achieve this.
    with torch.no_grad():
        w1 -= learning_rate * w1.grad
        w2 -= learning_rate * w2.grad

        # Manually zero the gradients after updating weights
        w1.grad.zero_()
        w2.grad.zero_()


99 1034.2603759765625
199 15.188947677612305
299 0.42791688442230225
399 0.0151599096134305
499 0.0008944608853198588


### Entrainement d'un réseau de neurones pleinement connecté
1. On fixe le 'type' de processeur à utiliser (CPU / GPU).
2. On modifie les fonctions 'forward' et 'backward' sur la base d'autograd.
3. On initialise les valeurs du réseau (taille des 'batchs', dimension de la couche d'entrée, dimension de la couche cachée, dimension de la couche de sortie).
4. On créer des données et leur label de façon aléatoire (à l'aide de tenseurs).
5. On initialise les points de façon aléatoire (à l'aide de tenseurs qu'on cherche à garder pour la 'backward pass')).
6. On fait une 'forward pass' avec ReLu comme fonction d'activation.
7. On calcule la loss (nombre de données mal classées).
8. On fait une 'backward pass' (avec ReLu comme fonction d'activation toujours) afin d'obtenir les gradients de W1 et W2. On utilise la fonction 'backward()' d'autograd avec les tenseurs requis (ici, W1 et W2).
9. On met à jour les points de W1 et W2 en fonction du taux d'apprentissage et des gradients (et sans régularisation). Puis on remet à zéro les gradients.

In [4]:
# -*- coding: utf-8 -*-
import torch


class MyReLU(torch.autograd.Function):
    """
    We can implement our own custom autograd Functions by subclassing
    torch.autograd.Function and implementing the forward and backward passes
    which operate on Tensors.
    """

    @staticmethod
    def forward(ctx, input):
        """
        In the forward pass we receive a Tensor containing the input and return
        a Tensor containing the output. ctx is a context object that can be used
        to stash information for backward computation. You can cache arbitrary
        objects for use in the backward pass using the ctx.save_for_backward method.
        """
        ctx.save_for_backward(input)
        return input.clamp(min=0)

    @staticmethod
    def backward(ctx, grad_output):
        """
        In the backward pass we receive a Tensor containing the gradient of the loss
        with respect to the output, and we need to compute the gradient of the loss
        with respect to the input.
        """
        input, = ctx.saved_tensors
        grad_input = grad_output.clone()
        grad_input[input < 0] = 0
        return grad_input


dtype = torch.float
device = torch.device("cpu")
# device = torch.device("cuda:0") # Uncomment this to run on GPU

# N is batch size; D_in is input dimension;
# H is hidden dimension; D_out is output dimension.
N, D_in, H, D_out = 64, 1000, 100, 10

# Create random Tensors to hold input and outputs.
x = torch.randn(N, D_in, device=device, dtype=dtype)
y = torch.randn(N, D_out, device=device, dtype=dtype)

# Create random Tensors for weights.
w1 = torch.randn(D_in, H, device=device, dtype=dtype, requires_grad=True)
w2 = torch.randn(H, D_out, device=device, dtype=dtype, requires_grad=True)

learning_rate = 1e-6
for t in range(500):
    # To apply our Function, we use Function.apply method. We alias this as 'relu'.
    relu = MyReLU.apply

    # Forward pass: compute predicted y using operations; we compute
    # ReLU using our custom autograd operation.
    y_pred = relu(x.mm(w1)).mm(w2)

    # Compute and print loss
    loss = (y_pred - y).pow(2).sum()
    if t % 100 == 99:
        print(t, loss.item())

    # Use autograd to compute the backward pass.
    loss.backward()

    # Update weights using gradient descent
    with torch.no_grad():
        w1 -= learning_rate * w1.grad
        w2 -= learning_rate * w2.grad

        # Manually zero the gradients after updating weights
        w1.grad.zero_()
        w2.grad.zero_()


99 488.24713134765625
199 1.5386567115783691
299 0.007484573870897293
399 0.0001670164056122303
499 2.833843245753087e-05


### Entrainement d'un réseau de neurones pleinement connecté
1. On initialise les valeurs du réseau (taille des 'batchs', dimension de la couche d'entrée, dimension de la couche cachée, dimension de la couche de sortie).
2. On créer des données et leur label de façon aléatoire (à l'aide de tenseurs).
3. On initialise les points de façon aléatoire (à l'aide de tenseurs toujours). On utilise le paquet 'nn' pour définir différents modules ('linear', 'ReLu').
4. On définit le type de 'loss' qu'on va utiliser (ici, MSE).
5. On fait une 'forward pass' avec ReLu comme fonction d'activation (à l'aide du modèle définit précédemment).
6. On calcule la loss (à l'aide du modèle définit précédemment).
7. On fixe les gardients à zéro.
8. On fait une 'backward pass' (avec ReLu comme fonction d'activation toujours) afin d'obtenir les gradients de W1 et W2. On utilise la fonction 'backward()' d'autograd.
9. On met à jour les points de W1 et W2 en fonction du taux d'apprentissage et des gradients (et sans régularisation).

In [5]:
# -*- coding: utf-8 -*-
import torch

# N is batch size; D_in is input dimension;
# H is hidden dimension; D_out is output dimension.
N, D_in, H, D_out = 64, 1000, 100, 10

# Create random Tensors to hold inputs and outputs
x = torch.randn(N, D_in)
y = torch.randn(N, D_out)

# Use the nn package to define our model as a sequence of layers. nn.Sequential
# is a Module which contains other Modules, and applies them in sequence to
# produce its output. Each Linear Module computes output from input using a
# linear function, and holds internal Tensors for its weight and bias.
model = torch.nn.Sequential(
    torch.nn.Linear(D_in, H),
    torch.nn.ReLU(),
    torch.nn.Linear(H, D_out),
)

# The nn package also contains definitions of popular loss functions; in this
# case we will use Mean Squared Error (MSE) as our loss function.
loss_fn = torch.nn.MSELoss(reduction='sum')

learning_rate = 1e-4
for t in range(500):
    # Forward pass: compute predicted y by passing x to the model. Module objects
    # override the __call__ operator so you can call them like functions. When
    # doing so you pass a Tensor of input data to the Module and it produces
    # a Tensor of output data.
    y_pred = model(x)

    # Compute and print loss. We pass Tensors containing the predicted and true
    # values of y, and the loss function returns a Tensor containing the
    # loss.
    loss = loss_fn(y_pred, y)
    if t % 100 == 99:
        print(t, loss.item())

    # Zero the gradients before running the backward pass.
    model.zero_grad()

    # Backward pass: compute gradient of the loss with respect to all the learnable
    # parameters of the model. Internally, the parameters of each Module are stored
    # in Tensors with requires_grad=True, so this call will compute gradients for
    # all learnable parameters in the model.
    loss.backward()

    # Update the weights using gradient descent. Each parameter is a Tensor, so
    # we can access its gradients like we did before.
    with torch.no_grad():
        for param in model.parameters():
            param -= learning_rate * param.grad

99 1.5541234016418457
199 0.02813657745718956
299 0.0009993292624130845
399 4.3712163460440934e-05
499 2.101813379340456e-06


### Entrainement d'un réseau de neurones pleinement connecté
1. On initialise les valeurs du réseau (taille des 'batchs', dimension de la couche d'entrée, dimension de la couche cachée, dimension de la couche de sortie).
2. On créer des données et leur label de façon aléatoire (à l'aide de tenseurs).
3. On initialise les points de façon aléatoire (à l'aide de tenseurs toujours). On utilise le paquet 'nn' pour définir différents modules ('linear', 'ReLu').
4. On définit le type de 'loss' qu'on va utiliser (ici, MSE).
5. On définit le type d'optimisation qu'on veut (ici, Adam).
6. On fait une 'forward pass' avec ReLu comme fonction d'activation (à l'aide du modèle définit précédemment).
7. On calcule la loss (à l'aide du modèle définit précédemment).
8. On fixe les gardients à zéro.
9. On fait une 'backward pass' (avec ReLu comme fonction d'activation toujours) afin d'obtenir les gradients de W1 et W2. On utilise la fonction 'backward()' d'autograd.
10. On met à jour les points de W1 et W2 en fonction du taux d'apprentissage et des gradients (et sans régularisation) à l'aide la fonction 'step()'.

In [6]:
# -*- coding: utf-8 -*-
import torch

# N is batch size; D_in is input dimension;
# H is hidden dimension; D_out is output dimension.
N, D_in, H, D_out = 64, 1000, 100, 10

# Create random Tensors to hold inputs and outputs
x = torch.randn(N, D_in)
y = torch.randn(N, D_out)

# Use the nn package to define our model and loss function.
model = torch.nn.Sequential(
    torch.nn.Linear(D_in, H),
    torch.nn.ReLU(),
    torch.nn.Linear(H, D_out),
)
loss_fn = torch.nn.MSELoss(reduction='sum')

# Use the optim package to define an Optimizer that will update the weights of
# the model for us. Here we will use Adam; the optim package contains many other
# optimization algoriths. The first argument to the Adam constructor tells the
# optimizer which Tensors it should update.
learning_rate = 1e-4
optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)
for t in range(500):
    # Forward pass: compute predicted y by passing x to the model.
    y_pred = model(x)

    # Compute and print loss.
    loss = loss_fn(y_pred, y)
    if t % 100 == 99:
        print(t, loss.item())

    # Before the backward pass, use the optimizer object to zero all of the
    # gradients for the variables it will update (which are the learnable
    # weights of the model). This is because by default, gradients are
    # accumulated in buffers( i.e, not overwritten) whenever .backward()
    # is called. Checkout docs of torch.autograd.backward for more details.
    optimizer.zero_grad()

    # Backward pass: compute gradient of the loss with respect to model
    # parameters
    loss.backward()

    # Calling the step function on an Optimizer makes an update to its
    # parameters
    optimizer.step()

99 55.60272979736328
199 0.8538138270378113
299 0.005615625064820051
399 1.848473766585812e-05
499 1.510026947926235e-08


### Entrainement d'un réseau de neurones pleinement connecté
1. On modifie la fonction 'forward' de notre paquet 'nn' (on définit un nouveau module).
2. On initialise les valeurs du réseau (taille des 'batchs', dimension de la couche d'entrée, dimension de la couche cachée, dimension de la couche de sortie).
3. On créer des données et leur label de façon aléatoire (à l'aide de tenseurs).
4. On initialise les points de façon aléatoire (à l'aide de tenseurs toujours). On utilise le paquet 'nn' pour définir différents modules ('linear', 'ReLu').
5. On définit le type de 'loss' qu'on va utiliser (ici, MSE).
6. On définit le type d'optimisation qu'on veut (ici, SGD).
7. On fait une 'forward pass' avec ReLu comme fonction d'activation (à l'aide du modèle définit précédemment).
8. On calcule la loss (à l'aide du modèle définit précédemment).
9. On fixe les gardients à zéro.
10. On fait une 'backward pass' (avec ReLu comme fonction d'activation toujours) afin d'obtenir les gradients de W1 et W2. On utilise la fonction 'backward()' d'autograd.
11. On met à jour les points de W1 et W2 en fonction du taux d'apprentissage et des gradients (et sans régularisation) à l'aide la fonction 'step()'.

In [7]:
# -*- coding: utf-8 -*-
import torch


class TwoLayerNet(torch.nn.Module):
    def __init__(self, D_in, H, D_out):
        """
        In the constructor we instantiate two nn.Linear modules and assign them as
        member variables.
        """
        super(TwoLayerNet, self).__init__()
        self.linear1 = torch.nn.Linear(D_in, H)
        self.linear2 = torch.nn.Linear(H, D_out)

    def forward(self, x):
        """
        In the forward function we accept a Tensor of input data and we must return
        a Tensor of output data. We can use Modules defined in the constructor as
        well as arbitrary operators on Tensors.
        """
        h_relu = self.linear1(x).clamp(min=0)
        y_pred = self.linear2(h_relu)
        return y_pred


# N is batch size; D_in is input dimension;
# H is hidden dimension; D_out is output dimension.
N, D_in, H, D_out = 64, 1000, 100, 10

# Create random Tensors to hold inputs and outputs
x = torch.randn(N, D_in)
y = torch.randn(N, D_out)

# Construct our model by instantiating the class defined above
model = TwoLayerNet(D_in, H, D_out)

# Construct our loss function and an Optimizer. The call to model.parameters()
# in the SGD constructor will contain the learnable parameters of the two
# nn.Linear modules which are members of the model.
criterion = torch.nn.MSELoss(reduction='sum')
optimizer = torch.optim.SGD(model.parameters(), lr=1e-4)
for t in range(500):
    # Forward pass: Compute predicted y by passing x to the model
    y_pred = model(x)

    # Compute and print loss
    loss = criterion(y_pred, y)
    if t % 100 == 99:
        print(t, loss.item())

    # Zero gradients, perform a backward pass, and update the weights.
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

99 2.789388656616211
199 0.08763395249843597
299 0.0059037115424871445
399 0.00045980585855431855
499 3.759144601644948e-05


### Entrainement d'un réseau de neurones pleinement connecté
1. On modifie la fonction 'forward' de notre paquet 'nn' (on définit un nouveau module). On recherche a refixer aléatoirement (entre 1 et 4) la sortie du ReLu e nfonction de la couche cachée.
2. On initialise les valeurs du réseau (taille des 'batchs', dimension de la couche d'entrée, dimension de la couche cachée, dimension de la couche de sortie).
3. On créer des données et leur label de façon aléatoire (à l'aide de tenseurs).
4. On initialise les points de façon aléatoire (à l'aide de tenseurs toujours). On utilise le paquet 'nn' pour définir différents modules ('linear', 'ReLu').
5. On définit le type de 'loss' qu'on va utiliser (ici, MSE).
6. On définit le type d'optimisation qu'on veut (ici, SGD).
7. On fait une 'forward pass' avec ReLu comme fonction d'activation (à l'aide du modèle définit précédemment).
8. On calcule la loss (à l'aide du modèle définit précédemment).
9. On fixe les gardients à zéro.
10. On fait une 'backward pass' (avec ReLu comme fonction d'activation toujours) afin d'obtenir les gradients de W1 et W2. On utilise la fonction 'backward()' d'autograd.
11. On met à jour les points de W1 et W2 en fonction du taux d'apprentissage et des gradients (et sans régularisation) à l'aide la fonction 'step()'.

In [8]:
# -*- coding: utf-8 -*-
import random
import torch


class DynamicNet(torch.nn.Module):
    def __init__(self, D_in, H, D_out):
        """
        In the constructor we construct three nn.Linear instances that we will use
        in the forward pass.
        """
        super(DynamicNet, self).__init__()
        self.input_linear = torch.nn.Linear(D_in, H)
        self.middle_linear = torch.nn.Linear(H, H)
        self.output_linear = torch.nn.Linear(H, D_out)

    def forward(self, x):
        """
        For the forward pass of the model, we randomly choose either 0, 1, 2, or 3
        and reuse the middle_linear Module that many times to compute hidden layer
        representations.

        Since each forward pass builds a dynamic computation graph, we can use normal
        Python control-flow operators like loops or conditional statements when
        defining the forward pass of the model.

        Here we also see that it is perfectly safe to reuse the same Module many
        times when defining a computational graph. This is a big improvement from Lua
        Torch, where each Module could be used only once.
        """
        h_relu = self.input_linear(x).clamp(min=0)
        for _ in range(random.randint(0, 3)):
            h_relu = self.middle_linear(h_relu).clamp(min=0)
        y_pred = self.output_linear(h_relu)
        return y_pred


# N is batch size; D_in is input dimension;
# H is hidden dimension; D_out is output dimension.
N, D_in, H, D_out = 64, 1000, 100, 10

# Create random Tensors to hold inputs and outputs
x = torch.randn(N, D_in)
y = torch.randn(N, D_out)

# Construct our model by instantiating the class defined above
model = DynamicNet(D_in, H, D_out)

# Construct our loss function and an Optimizer. Training this strange model with
# vanilla stochastic gradient descent is tough, so we use momentum
criterion = torch.nn.MSELoss(reduction='sum')
optimizer = torch.optim.SGD(model.parameters(), lr=1e-4, momentum=0.9)
for t in range(500):
    # Forward pass: Compute predicted y by passing x to the model
    y_pred = model(x)

    # Compute and print loss
    loss = criterion(y_pred, y)
    if t % 100 == 99:
        print(t, loss.item())

    # Zero gradients, perform a backward pass, and update the weights.
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

99 15.086231231689453
199 1.0608534812927246
299 0.7321352958679199
399 0.6701857447624207
499 0.266159325838089
