# Simple Optimiization with PyTorch

The aim of this notebbok is to try to ouptimize simple functions using PyTorch and gradient descent.

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import torch
from tqdm import tqdm, trange

is_cuda = "cuda" if torch.cuda.is_available() else "cpu"
device = torch.device(is_cuda)

## First function

The first function will be a one variable function of the form :

$$
f(x) = 0.01x^4 + 1.5x^3 + 23x^2 - 10x - 1 - 4x\*e^{-x-200}
$$

We will first plot the function and then optimize it using gradient descent.

In [None]:
x = np.arange(-200, 100, 0.05)
y = 0.01 * x ** 4 + 1.5 * x ** 3 + 23 * x ** 2 + 10 * x - 1 - 4 * x * np.exp(-x - 200)

plt.plot(x, y)

In [None]:
def f(x):
    return (
        0.01 * x ** 4
        + 1.5 * x ** 3
        + 23 * x ** 2
        + 10 * x
        - 1
        - 4 * x * torch.exp(-x - 200)
    )


def f_numpy(x):
    return (
        0.01 * x ** 4
        + 1.5 * x ** 3
        + 23 * x ** 2
        + 10 * x
        - 1
        - 4 * x * np.exp(-x - 200)
    )

In [None]:
x0 = torch.tensor([2], dtype=torch.float32, requires_grad=True)
n_epochs = 1000
learning_rate = 0.0001
optimizer = torch.optim.SGD([x0], lr=learning_rate)

for i, epoch in enumerate(range(n_epochs)):
    optimizer.zero_grad()
    out = f(x0)
    out.backward()
    if i % 100 == 0:
        print(
            f"epoch {epoch}: x0 = {x0.item()}, f(x0) = {out.item()}, gradient = {x0.grad.item()}"
        )
    optimizer.step()

## Deuxième fonction plus simple pour vérifier

La deuxième fonction peut s'optimiser à la main afin de vérifier que le code est correct.

\\begin{align\*}
g(x) &= 3x^2 + 6x +1 \\
g'(x) &= 6x + 6
\\end{align\*}

On voit bien que $x\_{min} = -1$ et $f(x\_{min}) = -2$.

In [None]:
def g(x):
    return 3 * x ** 2 + 6 * x + 1

In [None]:
x0 = torch.tensor([5], dtype=torch.float32, requires_grad=True)
n_epochs = 50
display_rate = 5
learning_rate = 0.05
optimizer = torch.optim.SGD([x0], lr=learning_rate)

for i, epoch in enumerate(range(n_epochs)):
    optimizer.zero_grad()
    out = g(x0)
    out.backward()
    if i % display_rate == 0:
        print(
            f"epoch {epoch}: x0 = {x0.item()}, f(x0) = {out.item()}, gradient = {x0.grad.item()}"
        )
    optimizer.step()

On voit que la méthode converge vite vers la valeur minimale, bien qu'il y est quand même une petite différence.

Essayons avec l'optimizer Adam.

In [None]:
x0 = torch.tensor([5], dtype=torch.float32, requires_grad=True)
n_epochs = 200
display_rate = 20
learning_rate = 0.3
optimizer = torch.optim.Adam([x0], lr=learning_rate)

for i, epoch in enumerate(range(n_epochs)):
    optimizer.zero_grad()
    out = g(x0)
    out.backward()
    if i % display_rate == 0:
        print(
            f"epoch {epoch}: x0 = {x0.item()}, f(x0) = {out.item()}, gradient = {x0.grad.item()}"
        )
    optimizer.step()

## Fonction à plusieurs variables

Dans cette partie essayons de trouver les valeurs optimales pour une fonction à plusieurs variables.

$$
h(x, y) = x^2 + y^2 + xy + x + y + 1
$$

La solution est $x=-\\frac{1}{3}$ et $y=-\\frac{1}{3}$.

In [None]:
def h(x, y):
    return x ** 2 + y ** 2 + x * y + x + y + 1

In [None]:
x0 = torch.tensor([5], dtype=torch.float32, requires_grad=True)
y0 = torch.tensor([5], dtype=torch.float32, requires_grad=True)

n_epochs = 1001
display_rate = 100
learning_rate = 0.1
optimizer = torch.optim.Adam([x0, y0], lr=learning_rate)

for i, epoch in enumerate(range(n_epochs)):
    optimizer.zero_grad()
    out = h(x0, y0)
    out.backward()
    if i % display_rate == 0:
        print(
            f"epoch {epoch}: x0 = {x0.item()}, y0 = {y0.item()}, f(x0, y0) = {out.item()}, gradient = {x0.grad.item()}, {y0.grad.item()}"
        )
    optimizer.step()