#          Stochastic Gradient Descent

## Introduction

Gradient Descent est un processus d'optimisation itératif qui recherche la valeur optimale d'une fonction objective (Minimum/Maximum). C'est l'une des méthodes les plus utilisées pour modifier les paramètres d'un modèle afin de réduire une fonction de coût dans les projets d'apprentissage automatique. 
L'objectif principale de la descente de gradient est d'identifier les paramètres du modele qui fournissent la précision maximale sur les ensembles de données d'entrainement et de test. En descente de grandient, le gradient est un vecteur pointant dans la direction générale de la montée la plus raide de la fonction en un point particulier. L'algorithm peut progressivement descendre vers des valeurs inférieures de la fonction en se déplaçant dans le sens opposé du grandient, jusqu'à atteindre le minimum de la fonction. 
Il en existe trois parmi lesquels le SGD qui est l'objet de notre exposé.

## Stochastic Gradient Descent (SGD)

L'optimiseur SGD (Stochastic Gradient Descent) est un algorithme couramment utilisé pour l'entraînement des réseaux de neurones dans le domaine de l'apprentissage automatique (machine learning). L'objectif principal de SGD est de minimiser une fonction de perte en ajustant les poids du modèle à chaque itération.

Le principe de base de SGD consiste à estimer le gradient de la fonction de perte en utilisant un sous-ensemble aléatoire des données d'entraînement à chaque itération. Plutôt que de calculer le gradient sur l'ensemble complet des données d'entraînement, SGD utilise une approche stochastique où il sélectionne un échantillon aléatoire à chaque itération. Cela rend l'algorithme plus rapide en termes de calculs, mais il peut également être plus bruité et moins précis que les méthodes d'optimisation déterministes.
Le processus de mise à jour des poids dans SGD peut être décrit comme suit :
1. Initialisation : Les poids du modèle sont initialisés avec des valeurs aléatoires ou prédéfinies.
2. Sélection d'un échantillon : Un petit sous-ensemble d'exemples d'entraînement est sélectionné aléatoirement à partir de l'ensemble complet des données d'entraînement.
3. Calcul du gradient : Le gradient de la fonction de perte par rapport aux poids est calculé à l'aide de l'échantillon sélectionné.
4. Mise à jour des poids : Les poids du modèle sont mis à jour en fonction du gradient calculé. La mise à jour peut être effectuée selon différentes variantes de SGD, telles que la descente de gradient standard, la descente de gradient avec momentum, ou la descente de gradient avec learning rate adaptatif.
5. Répétition : Les étapes 2 à 4 sont répétées jusqu'à ce qu'un critère d'arrêt soit atteint, par exemple un nombre fixe d'itérations ou une convergence de la fonction de perte.

L'optimiseur SGD présente plusieurs avantages. Il est relativement simple à mettre en œuvre et à utiliser, et il fonctionne bien pour de nombreux problèmes d'apprentissage automatique. De plus, en utilisant des échantillons aléatoires pour estimer le gradient, SGD peut éviter de se retrouver coincé dans des minima locaux indésirables et peut être plus efficace pour les ensembles de données massifs.

Cependant, SGD présente également quelques limitations. En raison de son approche stochastique, il peut être plus difficile à converger vers un minimum global de la fonction de perte, en particulier pour des ensembles de données complexes ou avec des surfaces de perte non convexes. De plus, il peut être sensible au choix du learning rate et peut nécessiter un réglage fin pour obtenir de bonnes performances.

Dans la pratique, plusieurs variantes de SGD ont été développées pour améliorer ses performances, notamment l'ajout de termes de momentum, l'adaptation du learning rate ou l'utilisation de méthodes de descente de gradient plus sophistiquées comme Adam (Adaptive Moment Estimation). Ces améliorations permettent de surmonter certaines des limitations de SGD et d'accélérer la convergence vers des modèles optimaux.


## AVANTAGES

- plus rapide que la SGD classique,
- s'adapte rapidement aux variations de données

## INCONVENIENTS

- Elle peut être sujette au bruit et à la variabilité des estimation du gradient,
- Elle peut avoir du mal à atteindre le min globale de la fonction de perte.

## APPLICATION 

In [1]:
import numpy as np
 
class SGD:
    def __init__(self, lr=0.01, max_iter=1000, batch_size=32, tol=1e-3):
        # learning rate of the SGD Optimizer
        self.learning_rate = lr
        # maximum number of iterations for SGD Optimizer
        self.max_iteration = max_iter
        # mini-batch size of the data
        self.batch_size = batch_size 
        # tolerance for convergence for the theta
        self.tolerence_convergence  = tol 
        # Initialize model parameters to None
        self.theta = None 
         
    def fit(self, X, y):
        # store dimension of input vector
        n, d = X.shape
        # Intialize random Theta for every feature
        self.theta = np.random.randn(d)
        for i in range(self.max_iteration):
            # Shuffle the data
            indices = np.random.permutation(n)
            X = X[indices]
            y = y[indices]
            # Iterate over mini-batches
            for i in range(0, n, self.batch_size):
                X_batch = X[i:i+self.batch_size]
                y_batch = y[i:i+self.batch_size]
                grad = self.gradient(X_batch, y_batch)
                self.theta -= self.learning_rate * grad
            # Check for convergence
            if np.linalg.norm(grad) < self.tolerence_convergence:
                break
    # define a gradient functon for calculating gradient
    # of the data
    def gradient(self, X, y):
        n = len(y)
        # predict target value by taking taking
        # taking dot product of dependent and theta value
        y_pred = np.dot(X, self.theta)
         
        # calculate error between predict and actual value
        error = y_pred - y
        grad = np.dot(X.T, error) / n
        return grad
     
    def predict(self, X):
        # prdict y value using calculated theta value
        y_pred = np.dot(X, self.theta)
        return y_pred

In [16]:
# Import des modules
import tensorflow as tf
from tensorflow.keras.datasets import fashion_mnist
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
import pandas as pd


In [17]:
df_train = pd.read_csv('archive/fashion-mnist_train.csv');
Y_train = df_train['label']
X_train = df_train.drop('label', axis =1)
df_test = pd.read_csv('archive/fashion-mnist_test.csv');
Y_test = df_test['label']
X_test = df_test.drop('label', axis =1)

In [18]:
# Prétraitement des données
X_train = X_train / 255.0
X_test = X_test / 255.0

In [23]:
# Construction du modèle
model = Sequential([
    Dense(128, activation='relu',input_dim=784),
    Dense(10, activation='softmax')
])

In [24]:
# Définition de la fonction de perte et de l'optimiseur SGD
loss_fn = tf.keras.losses.SparseCategoricalCrossentropy()
optimizer = tf.keras.optimizers.SGD(learning_rate=0.01)

In [25]:
# Compilation du modèle
model.compile(optimizer=optimizer, loss=loss_fn, metrics=['accuracy'])

In [26]:
# Entraînement du modèle avec SGD
model.fit(X_train, Y_train, epochs=10, validation_split=0.1)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x7fa2f578a760>

In [28]:
# Évaluation finale sur l'ensemble de test
test_loss, test_accuracy = model.evaluate(X_test, Y_test)
print("Test Loss:", test_loss)
print("Test Accuracy:", test_accuracy)

Test Loss: 0.38993775844573975
Test Accuracy: 0.864300012588501


Dans cet exemple, nous utilisons la bibliothèque TensorFlow pour charger le jeu de données Fashion-MNIST.
Ensuite, nous prétraitons les images en les normalisant entre 0 et 1. 
Nous construisons un modèle séquentiel simple avec une couche dense de 128 neurones et une couche de sortie softmax 
avec 10 neurones correspondant aux 10 classes de Fashion-MNIST.

Ensuite, nous définissons la fonction de perte (Cross-entropy) et l'optimiseur SGD avec un learning rate de 0.01.
Nous compilons le modèle en spécifiant l'optimiseur et la fonction de perte.

Ensuite, nous entraînons le modèle en utilisant la méthode fit en fournissant les données d'entraînement, le nombre 
d'époques, la taille des lots (batch size) et une validation split de 0.1 pour évaluer les performances du modèle pendant l'entraînement.

Enfin, nous évaluons le modèle sur l'ensemble de test et affichons la perte et l'exactitude (accuracy) obtenues.