NUMPY ONLY :
Nous pouvons facilement utiliser numpy pour ajuster un polynôme de troisième ordre à une fonction sinus en implémentant manuellement les forward et backward passes à travers le réseau à l'aide d'opérations numpy

In [1]:
import numpy as np
import math

Create random input and output data :

In [2]:
x = np.linspace(-math.pi, math.pi, 2000)
y = np.sin(x)

Randomly initialize weights :

In [3]:
a = np.random.randn()
b = np.random.randn()
c = np.random.randn()
d = np.random.randn()

In [4]:
learning_rate = 1e-6
for t in range(2000):
    y_pred = a + b * x + c * x ** 2 + d * x ** 3
    loss = np.square(y_pred - y).sum()
    if t % 100 == 99:
        print(t, loss)

    grad_y_pred = 2.0 * (y_pred - y)
    grad_a = grad_y_pred.sum()
    grad_b = (grad_y_pred * x).sum()
    grad_c = (grad_y_pred * x ** 2).sum()
    grad_d = (grad_y_pred * x ** 3).sum()

    a -= learning_rate * grad_a
    b -= learning_rate * grad_b
    c -= learning_rate * grad_c
    d -= learning_rate * grad_d

99 292.8077486753589
199 209.5576537026786
299 150.72393616763134
399 109.14017583232953
499 79.74642456224899
599 58.967746513489864
699 44.27813047375616
799 33.89255138667323
899 26.54949333093382
999 21.3573399084035
1099 17.685862796809875
1199 15.089559489378729
1299 13.253486451327694
1399 11.954982955825368
1499 11.0366213153617
1599 10.38708914696992
1699 9.927676593814944
1799 9.602724508409915
1899 9.372872050220533
1999 9.210282935598917


In [5]:
print(f'Result: y = {a} + {b} x + {c} x^2 + {d} x^3')

Result: y = 0.020937011634937636 + 0.8554130258614473 x + -0.0036119829004041598 x^2 + -0.0931415186048779 x^3


PYTORCH TENSORS :
Ici, nous utilisons les Tensors PyTorch pour ajuster un polynôme de troisième ordre à une fonction sinus. Comme dans l'exemple numpy ci-dessus, nous devons implémenter manuellement les forward et backward passes à travers le réseau.


In [6]:
import torch

In [7]:
dtype = torch.float
print(torch.cuda.is_available())

True


In [8]:
device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')
print(device)

cuda:0


Create random input and output data :

In [9]:
x = torch.linspace(-math.pi, math.pi, 2000, device=device, dtype=dtype)
y = torch.sin(x)

Randomly initialize weights

In [10]:
a = torch.randn((), device=device, dtype=dtype)
b = torch.randn((), device=device, dtype=dtype)
c = torch.randn((), device=device, dtype=dtype)
d = torch.randn((), device=device, dtype=dtype)

learning_rate = 1e-6
for t in range(2000):
    y_pred = a + b * x + c * x ** 2 + d * x ** 3

    loss = (y_pred - y).pow(2).sum().item()
    if t % 100 == 99:
        print(t, loss)

    grad_y_pred = 2.0 * (y_pred - y)
    grad_a = grad_y_pred.sum()
    grad_b = (grad_y_pred * x).sum()
    grad_c = (grad_y_pred * x ** 2).sum()
    grad_d = (grad_y_pred * x ** 3).sum()

    a -= learning_rate * grad_a
    b -= learning_rate * grad_b
    c -= learning_rate * grad_c
    d -= learning_rate * grad_d

99 321.5904541015625
199 224.08160400390625
299 157.13629150390625
399 111.12176513671875
499 79.45854187011719
599 57.646385192871094
699 42.60408020019531
799 32.219154357910156
899 25.04216766357422
999 20.07701873779297
1099 16.638534545898438
1199 14.254985809326172
1299 12.60111141204834
1399 11.452474594116211
1499 10.654008865356445
1599 10.098470687866211
1699 9.711623191833496
1799 9.442018508911133
1899 9.253982543945312
1999 9.122734069824219


In [11]:
print(f'Result: y = {a.item()} + {b.item()} x + {c.item()} x^2 + {d.item()} x^3')

Result: y = -0.016903825104236603 + 0.8498306274414062 x + 0.002916188444942236 x^2 + -0.09234746545553207 x^3


PYTORCH TENSORS AND AUTOGRAD :
Dans les exemples ci-dessus, nous avons dû implémenter manuellement à la fois les forward et backward passes de notre réseau neuronal. Ici, nous utilisons des Tensors PyTorch et autograd pour implémenter notre exemple d'ajustement de la sinusoïde avec un polynôme du troisième ordre.

In [12]:
dtype = torch.float
device = "cuda" if torch.cuda.is_available() else "cpu"
torch.set_default_device(device)

Create tensors to hold input and outputs :

In [13]:
x = torch.linspace(-math.pi, math.pi, 2000, dtype=dtype)
y = torch.sin(x)

Create random Tensors for weights :

In [14]:
a = torch.randn((), dtype=dtype, requires_grad=True)
b = torch.randn((), dtype=dtype, requires_grad=True)
c = torch.randn((), dtype=dtype, requires_grad=True)
d = torch.randn((), dtype=dtype, requires_grad=True)

learning_rate = 1e-6
for t in range(2000):
    
    y_pred = a + b * x + c * x ** 2 + d * x ** 3

    loss = (y_pred - y).pow(2).sum()
    if t % 100 == 99:
        print(t, loss.item())

    loss.backward()

    with torch.no_grad():
        a -= learning_rate * a.grad
        b -= learning_rate * b.grad
        c -= learning_rate * c.grad
        d -= learning_rate * d.grad

        a.grad = None
        b.grad = None
        c.grad = None
        d.grad = None

99 65.70359802246094
199 46.53913116455078
299 33.835899353027344
399 25.41389274597168
499 19.82936668395996
599 16.12554931640625
699 13.668678283691406
799 12.038566589355469
899 10.956720352172852
999 10.238628387451172
1099 9.761818885803223
1199 9.445165634155273
1299 9.2347993850708
1399 9.095003128051758
1499 9.002058029174805
1599 8.940264701843262
1699 8.89915943145752
1799 8.871807098388672
1899 8.853594779968262
1999 8.84146499633789


In [15]:
print(f'Result: y = {a.item()} + {b.item()} x + {c.item()} x^2 + {d.item()} x^3')

Result: y = -0.0018936494598165154 + 0.8522757887840271 x + 0.0003266853163950145 x^2 + -0.09269527345895767 x^3


PYTORCH NN MODULE :
Le package nn définit un ensemble de Modules, qui sont approximativement équivalents aux couches de réseau neuronal. Un Module reçoit des Tensors en entrée et calcule des Tensors en sortie, mais peut également contenir un état interne tel que des Tensors contenant des paramètres apprenables. Le package nn définit également un ensemble de fonctions de perte utiles qui sont couramment utilisées lors de l'entraînement de réseaux neuronaux.

Dans cet exemple, nous utilisons le package nn pour implémenter notre modèle de réseau polynomial :

In [16]:
x = torch.linspace(-math.pi, math.pi, 2000)
y = torch.sin(x)

In [17]:
p = torch.tensor([1, 2, 3])
xx = x.unsqueeze(-1).pow(p)

In [18]:
model = torch.nn.Sequential(
    torch.nn.Linear(3, 1),
    torch.nn.Flatten(0, 1)
)
loss_fn = torch.nn.MSELoss(reduction='sum')

In [19]:
learning_rate = 1e-6
for t in range(2000):

    y_pred = model(xx)

    loss = loss_fn(y_pred, y)
    if t % 100 == 99:
        print(t, loss.item())

    model.zero_grad()

    loss.backward()

    with torch.no_grad():
        for param in model.parameters():
            param -= learning_rate * param.grad

99 357.3081970214844
199 241.27359008789062
299 163.9561004638672
399 112.41287231445312
499 78.03446197509766
599 55.092918395996094
699 39.77490234375
799 29.541290283203125
899 22.70022201538086
999 18.12415313720703
1099 15.06118392944336
1199 13.00955581665039
1299 11.634340286254883
1399 10.711843490600586
1499 10.092530250549316
1599 9.676429748535156
1699 9.396629333496094
1799 9.208311080932617
1899 9.081441879272461
1999 8.995912551879883


In [20]:
linear_layer = model[0]

In [21]:
print(f'Result: y = {linear_layer.bias.item()} + {linear_layer.weight[:, 0].item()} x + {linear_layer.weight[:, 1].item()} x^2 + {linear_layer.weight[:, 2].item()} x^3')

Result: y = -0.00826078001409769 + 0.8461886048316956 x + 0.0014251217944547534 x^2 + -0.09182941913604736 x^3


PYTORCH OPTIM :
Jusqu'à présent, nous avons mis à jour les poids de nos modèles en modifiant manuellement les Tensors contenant les paramètres apprenables avec torch.no_grad(). Le package optim dans PyTorch abstrait l'idée d'un algorithme d'optimisation et fournit des implémentations d'algorithmes d'optimisation couramment utilisés.

Dans cet exemple, nous utiliserons à nouveau le package nn pour définir notre modèle, mais nous optimiserons le modèle en utilisant l'algorithme RMSprop fourni par le package optim :

In [22]:
x = torch.linspace(-math.pi, math.pi, 2000)
y = torch.sin(x)

In [23]:
p = torch.tensor([1, 2, 3])
xx = x.unsqueeze(-1).pow(p)

In [24]:
model = torch.nn.Sequential(
    torch.nn.Linear(3, 1),
    torch.nn.Flatten(0, 1)
)
loss_fn = torch.nn.MSELoss(reduction='sum')

In [25]:
learning_rate = 1e-3
optimizer = torch.optim.RMSprop(model.parameters(), lr=learning_rate)
for t in range(2000):

    y_pred = model(xx)

    loss = loss_fn(y_pred, y)
    if t % 100 == 99:
        print(t, loss.item())

    optimizer.zero_grad()

    loss.backward()

    optimizer.step()

99 9366.98046875
199 3064.72119140625
299 1136.45166015625
399 757.9189453125
499 684.0242309570312
599 609.7735595703125
699 516.7772216796875
799 414.8233337402344
899 316.1908264160156
999 229.16064453125
1099 157.2514190673828
1199 101.17269134521484
1299 60.442970275878906
1399 33.19093322753906
1499 17.909664154052734
1599 11.007946014404297
1699 9.10103988647461
1799 8.871928215026855
1899 8.898624420166016
1999 8.94917106628418


In [26]:
linear_layer = model[0]

In [27]:
print(f'Result: y = {linear_layer.bias.item()} + {linear_layer.weight[:, 0].item()} x + {linear_layer.weight[:, 1].item()} x^2 + {linear_layer.weight[:, 2].item()} x^3')

Result: y = -0.000465534336399287 + 0.8562537431716919 x + -0.0004655380907934159 x^2 + -0.09392527490854263 x^3
