$\newcommand{\xbf}{{\bf x}}
\newcommand{\ybf}{{\bf y}}
\newcommand{\wbf}{{\bf w}}
\newcommand{\Ibf}{\mathbf{I}}
\newcommand{\Xbf}{\mathbf{X}}
\newcommand{\Rbb}{\mathbb{R}}
\newcommand{\vec}[1]{\left[\begin{array}{c}#1\end{array}\right]}
$

# Introduction à la librairie PyTorch -- Partie 1
Matériel de cours rédigé par Pascal Germain, 2019
************

Référence: https://pytorch.org/

In [None]:
import torch

## Les tenseurs

In [None]:
torch.tensor?

#### Scalaires
Un tenseur peut contenir un scalaire.

In [None]:
a = torch.tensor(1.5)
a

In [None]:
a + 2

In [None]:
a.item()

#### Vecteurs
Les tenseurs contenant des vecteurs ou des matrices se comportent similairement aux *array numpy*.

In [None]:
v = torch.tensor([1,2,3])
v

In [None]:
torch.sum(v)

In [None]:
u = torch.tensor([1.,2.,3.])
u

In [None]:
torch.log(u)

In [None]:
u[0]

In [None]:
u[1:]

#### Matrices

In [None]:
M = torch.tensor([[1.,2.,3.], [4, 5, 6]])
M

In [None]:
M.shape

In [None]:
2 * M + 1 # Opérations sur les élements. 

In [None]:
M @ u # Produit matriciel

In [None]:
torch.ones((2, 3))

In [None]:
torch.zeros((3, 2))

#### Nombres aléatoires

In [None]:
torch.rand(5) # Vecteur de nombres aléatoires tirés uniformément dans l'intervalle [0,1]

In [None]:
torch.randn(8) # Vecteur de nombres aléatoires tirés uniformément selon une loi normale N(0,1).

In [None]:
torch.rand((3, 4)) # Matrice de nombres aléatoires tirés uniformément dans l'intervalle [0,1]

In [None]:
torch.randn((3, 4)) # Matrice de nombres aléatoires tirés uniformément selon une loi normale N(0,1).

In [None]:
torch.manual_seed(42) # Initialisation du générateur de nombres aléatoires
torch.randn((3, 4))

#### Conversion entre numpy et pytorch

In [None]:
import numpy as np

Il est impossible d'effecture *directement* des opérations arithmétiques entre un «array numpy» et un «tenseur pytorch»

In [None]:
w = np.array([-1, 3, 8])
w

In [None]:
u = torch.tensor([1,2,3])
u

In [None]:
w + u

Conversion numpy $\Longrightarrow$ pytorch

In [None]:
w_tensor = torch.from_numpy(w)
w_tensor

Conversion numpy $\Longleftarrow$ pytorch

In [None]:
u_numpy = u.numpy()  # Conversion d'un «tensor» pytorch en un «array» numpy. 
u_numpy

#### Considération technique 1
Dans les deux exemples précédent, les structures de données partagent la même mémoire.

In [None]:
w += 1
w

In [None]:
w_tensor

In [None]:
u *= 2
u

In [None]:
u_numpy

Conversion numpy $\Longleftarrow$ pytorch ***avec copie mémoire***

In [None]:
ww_tensor = torch.Tensor(w)
ww_tensor

In [None]:
w +=1
w

In [None]:
w_tensor

In [None]:
ww_tensor

Conversion numpy $\Longrightarrow$ pytorch ***avec copie mémoire***

In [None]:
u_numpy_copie = np.array(u) # Conversion d'un «tensor» pytorch en un «array» numpy. 
u_numpy_copie

In [None]:
u *= 2
u

In [None]:
u_numpy_copie

#### Considération technique 2
Les *tenseurs pyTorch* sont plus capricieux quant à la gestion des variables de types différents que les *array numpy*.

In [None]:
v = np.array([.3, .6, .9])
v.dtype

In [None]:
w = np.array([-1, 3, 8])
w.dtype

In [None]:
v_tensor = torch.from_numpy(v)
v_tensor.dtype

In [None]:
w_tensor = torch.from_numpy(w)
w_tensor.dtype

In [None]:
print('v:', v.dtype)
print('w:', w.dtype)

result = v @ w
print('v @ w:', result.dtype)
result

In [None]:
print('v_tensor:', w_tensor.dtype)
print('w_tensor:', v_tensor.dtype)
result = v_tensor @ w_tensor
print('v_tensor @ w_tensor:', result.dtype)

In [None]:
w_tensor = torch.tensor(w, dtype=torch.float64)
w_tensor

In [None]:
print('v_tensor:', v_tensor.dtype)
print('w_tensor:', w_tensor.dtype)
result = v_tensor @ w_tensor
print('v_tensor @ x_tensor:', result.dtype)

## Dérivation automatique

Lors de l'initialisation d'un tenseur, l'argument `requires_grad=True` indique que nous désirons calculer le gradient des variables contenues dans le tenseur.

In [None]:
x = torch.tensor(3., requires_grad=True)

Le graphe de calcul est alors bâti au fur et à mesure que des opérations mathématiques sont appliquées aux tenseurs.

In [None]:
F = x ** 2

La fonction `F.backward()` parcours le graphe de calcul en sens inverse et calcule le gradient de la fonction $F$ selon chacune des variables du graphe.

In [None]:
F.backward()

Après avoir exécuté la fonction `backward()`, l'attribut `grad` des tenseurs impliqués dans le calcul contient la valeur du gradient calculé au point courant. Ici, on aura la valeur :

$$\left[\frac{\partial F(x)}{\partial x}\right]_{x=3} = \big[\,2\,x\,\big]_{x=3} = 6$$

In [None]:
x.grad

Illustrons le fonctionnement de la dérivation automatique par quelques autres exemples.

In [None]:
x = torch.linspace(-1, 1, 11, requires_grad=True)
x

In [None]:
produit_scalaire = x @ x
produit_scalaire

In [None]:
produit_scalaire.backward()

In [None]:
x.grad

In [None]:
a = torch.tensor(-3., requires_grad=True)
b = torch.tensor(2., requires_grad=True)
m = a*b
m.backward()
print('a.grad =', a.grad)
print('b.grad =', b.grad)

In [None]:
a = torch.tensor(-3., requires_grad=True)
b = torch.tensor(2., requires_grad=True)
m = 2*a + b
m.backward()
print('a.grad =', a.grad)
print('b.grad =', b.grad)

In [None]:
a = torch.tensor(3., requires_grad=True)
b = torch.tensor(2., requires_grad=False)
m = a ** b
m.backward()
print('a.grad =', a.grad)
print('b.grad =', b.grad)

In [None]:
a = torch.tensor(-3., requires_grad=True)
b = torch.tensor(2., requires_grad=True)
c = torch.tensor(4., requires_grad=True)
m1 = (a + b)
m2 = m1 * c
m2.backward()
print('a.grad =', a.grad)
print('b.grad =', b.grad)
print('c.grad =', c.grad)

In [None]:
vecteur_a = torch.tensor([-1., 2, 3], requires_grad=True)
vecteur_b = torch.ones(3, requires_grad=True)
produit = vecteur_a @ vecteur_b
produit.backward()
print('vecteur_a =', vecteur_a, '; vecteur_a.grad =', vecteur_a.grad)
print('vecteur_b =', vecteur_b, '; vecteur_b.grad =', vecteur_b.grad)
print('produit =', produit.item())

In [None]:
vecteur_a = torch.tensor([1., 4, 9], requires_grad=True)
result = torch.sum(torch.sqrt(vecteur_a))
result.backward()
print('vecteur_a =', vecteur_a, '; vecteur_a.grad =', vecteur_a.grad)
print('result =', result.item())

#### Condidération technique
Pour convertir un *tenseur pytorch* initialisé avec `requiere_gradient=True` en *array numpy*, on doit d'abord «détacher» sa valeur.

In [None]:
a = torch.ones((2,2), requires_grad=True)
a

In [None]:
a.numpy()

In [None]:
a.detach().numpy()

In [None]:
np.array(a.detach())

### Descente de gradient

In [None]:
%matplotlib inline
from matplotlib import pyplot as plt
import aidecours

Commencons par un exemple en une dimension.

$$f(x) = x^2 - x + 3$$

In [None]:
def fonction_maison(x):
    return x**2 - x + 2

x = np.linspace(-2, 2)
plt.plot(x, fonction_maison(x) )
plt.scatter(.5, fonction_maison(.5), s=150, marker='*', c='r')
plt.ylim(0, 6)

Le code suivant éffectue une descente de gradient de la «fonction maison» $f(x)$ pour $20$ itérations. Nous introduisons du même coup deux fonctionnalités de *pytorch*:
* Le *contexte* `torch.no_grad()`, qui spécifie à pytorch qu'il n'est pas nécessaire de calculer les gradients associés aux opérations dans le bloc de code correspondant.
* La méthode `zero_()` qui réinitialise la valeur des gradients pour d'une variable de type `Tensor`. Il est nécessaire d'y faire appel avant chacune des nouvelles itérations de la descente de gradient, sans quoi les gradienys seront additionnés les uns avec les autres.

In [None]:
eta = .4 # Pas de gradient
T = 20   # Nombre d'itérations

# Initialisation aléatoire 
x = torch.randn(1, requires_grad=True)

for t in range(T):
 
    # Calcul de la fonction objectif
    val = fonction_maison(x)
    
    # Calcul des gradients
    val.backward()
    
    print(f"Iteration {t+1:02}:",
          f" x ={x.item(): .5f}",
          f" F(x) ={val.item(): .5f}",
          f" F\'(x) ={x.grad.item(): .5f}")
    
    # Mise à jour de la variable x
    with torch.no_grad():
        x -= eta * x.grad
    
    # Remise à zéro du gradient
    x.grad.zero_()


Reprenons l'exemple des moindres carrés présenté dans les transparents du cours.

$$\min_\wbf \left[\frac1n \sum_{i=1}^n (\wbf\cdot\xbf_i- y_i)^2\right].$$ 

In [None]:
def moindres_carres_objectif(x, y, w): 
    return np.mean((x @ w - y) ** 2)

In [None]:
x = np.array([(1,1), (0,-1), (2,.5)])
y = np.array([-1, 3, 2])

In [None]:
fonction_objectif = lambda w: moindres_carres_objectif(x, y, w)
aidecours.show_2d_function(fonction_objectif, -5, 5, .5)

In [None]:
w_opt = np.linalg.inv(x.T @ x) @ x.T @ y

aidecours.show_2d_function(fonction_objectif, -5, 5, .5, optimal=w_opt)

Nous créons une classe `moindres_carres` qui résout le problème des moindres carrés par descente de gradient, en utilisant les fonctionnalités de *pyTorch*.

* Lors de l'initialisation de la classe (méthode `__init__`), l'utilisateur spécifie les paramètres de la descente en gradient.
* La méthode `apprentissage` exécute la descente de gradient, qui minimise la perte quadratique sur l'ensemble d'apprentissage défini par `x` et `y`.
* La méthode `prediction` calcule la valeur du régresseur «appris» sur l'ensemble de données `x`.

In [None]:
class moindres_carres:
    def __init__(self, eta=0.4, nb_iter=50, seed=None):
        # Initialisation des paramètres de la descente en gradient
        self.eta = eta         # Pas de gradient
        self.nb_iter = nb_iter # Nombre d'itérations
        self.seed = seed       # Germe du générateur de nombres aléatoires
        
        # Initialisation des listes enregistrant la trace de l'algorithme
        self.w_list = list()   
        self.obj_list = list()
        
    def _trace(self, w, obj):
        self.w_list.append(np.array(w.detach()))
        self.obj_list.append(obj.item())      
        
    def apprentissage(self, x, y):
        if self.seed is not None:
            torch.manual_seed(self.seed)
        
        x = torch.tensor(x, dtype=torch.float32)
        y = torch.tensor(y, dtype=torch.float32) 

        n, d = x.shape
        self.w = torch.randn(d, requires_grad=True)
    
        for t in range(self.nb_iter + 1):
            loss = torch.mean((x @ self.w - y) ** 2)           
            self._trace(self.w, loss)
  
            if t < self.nb_iter:
                loss.backward()
                with torch.no_grad():
                    self.w -= self.eta * self.w.grad
                
                self.w.grad.zero_()
                
    def prediction(self, x):
        x = torch.tensor(x, dtype=torch.float32)
        
        with torch.no_grad():
            pred = x @ self.w
            
        return pred.numpy()

Exécution de l'algorithme.

In [None]:
eta = 0.4     # taille du pas
nb_iter = 20  # nombre d'itérations

algo = moindres_carres(eta, nb_iter)
algo.apprentissage(x, y)

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(14.5, 4))
aidecours.show_2d_trajectory(algo.w_list, fonction_objectif, w_opt=w_opt, ax=axes[0])
aidecours.show_learning_curve(algo.obj_list, ax=axes[1], obj_opt=fonction_objectif(w_opt))

## Exercice

Dans cet exercice, nous vous demandons de vous inspirer de la classe `moindre_carrees` ci-haut et de l'adapter au problème de la régression logistique présenté dans les transparents du cours.

In [None]:
from sklearn.datasets import make_blobs
xx, yy = make_blobs(n_samples=100, centers=2, n_features=2, cluster_std=1, random_state=0)

aidecours.show_2d_dataset(xx, yy)

Illustrons la fonction à optimiser (avec $\lambda=0.01$):
    
$$
\frac1n \sum_{i=1}^n - y_i \wbf\cdot\xbf_i + \log(1+e^{\wbf\cdot\xbf_i})+ \frac\rho2\|\wbf\|^2\,.
$$ 

In [None]:
def sigmoid(x):
    return 1 / (1+np.exp(-x))

def calc_perte_logistique(w, x, y, rho):
    pred = sigmoid(x @ w)
    pred[y==0] = 1-pred[y==0]
    return np.mean(-np.log(pred)) + rho*w @ w/2

fct_objectif = lambda w: calc_perte_logistique(w, xx, yy, 0.01)
aidecours.show_2d_function(fct_objectif, -4, 4, .05)

#### Compléter le code de la classe suivante. 

In [None]:
class regression_logistique:
    def __init__(self, rho=.01, eta=0.4, nb_iter=50, seed=None):
        # Initialisation des paramètres de la descente en gradient
        self.rho = rho         # Paramètre de regularisation
        self.eta = eta         # Pas de gradient
        self.nb_iter = nb_iter # Nombre d'itérations
        self.seed = seed       # Germe du générateur de nombres aléatoires
        
        # Initialisation  trace de la descente de gradient
        self.w_list = list()   
        self.obj_list = list()
        
    def _trace(self, w, obj):
        self.w_list.append(np.array(w.detach()))
        self.obj_list.append(obj.item())      
        
    def apprentissage(self, x, y):
        if self.seed is not None:
            torch.manual_seed(self.seed)
        
        x = torch.tensor(x, dtype=torch.float32)
        y = torch.tensor(y, dtype=torch.float32) 

        n, d = x.shape
        self.w = torch.randn(d, requires_grad=True)
    
        for t in range(self.nb_iter + 1):
            pass # à compléter
                
    def prediction(self, x):
        x = torch.tensor(x, dtype=torch.float32)
        
        with torch.no_grad():
            pred = x @ self.w
                        
        return np.array(pred.numpy() > 0, dtype=np.int)

Exécuter le code suivant pour vérifier le bon fonctionnement de votre algorithme. Essayer ensuite de varier les paramètres `rho`, `eta` et `nb_iter` afin d'évaluer leur impact sur le résultat obtenu.

In [None]:
rho = 0.01    # paramètre de régularisation
eta = 0.5     # taille du pas
nb_iter = 20  # nombre d'itérations

algo = regression_logistique(rho, eta, nb_iter, seed=2)
algo.apprentissage(xx, yy)

fig, axes = plt.subplots(1, 3, figsize=(16, 4))
aidecours.show_2d_trajectory(algo.w_list, fct_objectif, (-2,-3), (3,2), .05, ax=axes[0])
aidecours.show_learning_curve(algo._obj_list, ax=axes[1])
aidecours.show_2d_predictions(xx, yy, algo.prediction, ax=axes[2])
plt.scatter(0,0, marker='+', c='k', s=300);

Reprenons l'exercice précédent en ajoutant l'apprentissange d'un *biais* à la régression logistique:

$$
\frac1n \sum_{i=1}^n - y_i (\wbf\cdot\xbf_i+b) + \log(1+e^{\wbf\cdot\xbf_i+b})+ \frac\rho2\|\wbf\|^2\,.
$$ 

#### Compléter le code de la classe suivante. 

In [None]:
class regression_logistique_avec_biais:
    def __init__(self, rho=.01, eta=0.4, nb_iter=50, seed=None):
        # Initialisation des paramètres de la descente en gradient
        self.rho = rho         # Paramètre de regularisation
        self.eta = eta         # Pas de gradient
        self.nb_iter = nb_iter # Nombre d'itérations
        self.seed = seed       # Germe du générateur de nombres aléatoires
        
        # Initialisation  trace de la descente de gradient
        self.w_list = list()   
        self.b_list = list()
        self.obj_list = list()
        
    def _trace(self, w, b, obj):
        self.w_list.append(np.array(w.detach()))
        self.b_list.append(b.item())
        self.obj_list.append(obj.item()) 
        
    def apprentissage(self, x, y):
        if self.seed is not None:
            torch.manual_seed(self.seed)
        
        x = torch.tensor(x, dtype=torch.float32)
        y = torch.tensor(y, dtype=torch.float32) 

        n, d = x.shape
        self.w = torch.randn(d, requires_grad=True)
        self.b = torch.zeros(1, requires_grad=True)
           
        for t in range(self.nb_iter + 1):
            pass # à compléter
                
    def prediction(self, x):
        x = torch.tensor(x, dtype=torch.float32)
        
        with torch.no_grad():
            pred = x @ self.w + self.b
            
        return np.array(pred.numpy() > 0, dtype=np.int)

Exécuter le code suivant pour vérifier le bon fonctionnement de votre algorithme. Essayer ensuite de varier les paramètres `rho`, `eta` et `nb_iter` afin d'évaluer leur impact sur le résultat obtenu.

In [None]:
rho = 0.01    # paramètre de régularisation
eta = 0.4     # taille du pas
nb_iter = 20  # nombre d'itérations

algo = regression_logistique_avec_biais(rho, eta, nb_iter)
algo.apprentissage(xx, yy)

fig, axes = plt.subplots(1, 2, figsize=(12, 4))
aidecours.show_learning_curve(algo.obj_list, ax=axes[0])
aidecours.show_2d_predictions(xx, yy, algo.prediction, ax=axes[1])
plt.scatter(0,0, marker='+', c='k', s=300);