# Exercice 1

-**Que signifie concrètement le théorème d'approximation universelle ?**  

    Ce théorème stipule qu'un réseau de neurones avec une seule couche cachée et un nombre suffisant de neurones peut approximer n'importe quelle fonction continue sur un espace compact. Cela signifie que, en théorie, un tel réseau est capable de modéliser des relations complexes entre les entrées et les sorties, ce qui le rend très puissant pour une variété de tâches d'apprentissage automatique.

-**Ce théorème garantit-il qu'on peut toujours trouver les bons poids ?**  

    Non, le théorème d'approximation universelle ne garantit pas que les poids du réseau de neurones peuvent être trouvés pour une fonction donnée. Il indique seulement qu'un réseau de neurones avec une architecture appropriée peut approximer la fonction.

-**Quelle est la différence entre "pouvoir approximer" et "pouvoir apprendre" ?**  

    "Pouvoir approximer" signifie qu'un modèle peut représenter une fonction ou une relation entre les entrées et les sorties. "Pouvoir apprendre" signifie que le modèle peut ajuster ses paramètres (poids) à partir des données d'entraînement pour minimiser l'erreur entre les prédictions du modèle et les valeurs réelles. Un modèle peut être capable d'approximer une fonction sans être capable de l'apprendre efficacement à partir des données.

-**Pourquoi utilise-t-on souvent beaucoup plus de couches cachées en pratique ?**  

    En pratique, on utilise souvent beaucoup plus de couches cachées car les fonctions complexes que nous voulons modéliser peuvent nécessiter des représentations hiérarchiques. Les couches supplémentaires permettent au réseau de capturer des caractéristiques de plus en plus abstraites des données, ce qui améliore la capacité du modèle à généraliser et à faire des prédictions précises sur de nouvelles données.

-**En principe, vous avez déjà vu au lycée un autre type d’approximateur de fonctions, donner leurs noms ?**

    Les polynômes 

### Expliquer la phrase suivante : Le théorème d’approximation universelle affirme qu’un réseau profond peut exactement retrouver les données d’entraînement.

        Le théorème d'approximation universelle affirme qu'un réseau profond, c'est-à-dire un réseau de neurones avec plusieurs couches cachées, peut approximer n'importe quelle fonction continue sur un espace compact. Cela signifie que, si le réseau est suffisamment profond et possède un nombre adéquat de neurones, il peut apprendre à reproduire exactement les données d'entraînement. En d'autres termes, le réseau peut ajuster ses poids pour minimiser l'erreur entre ses prédictions et les valeurs réelles des données d'entraînement, ce qui lui permet de "retrouver" ces données avec une précision arbitraire.

In [8]:
import numpy as np


class ActivationFunction:
    def __init__(self, name, alpha=0.01):
        self.name = name.lower()
        self.alpha = alpha  # Pour Leaky ReLU

    def apply(self, z):
        if self.name == "heaviside":
            return np.where(z >= 0, 1, 0)
        elif self.name == "sigmoid":
            return 1 / (1 + np.exp(-z))
        elif self.name == "tanh":
            return np.tanh(z)
        elif self.name == "relu":
            return np.where(z >= 0, z, 0)
        elif self.name == "leaky_relu":
            return np.where(z >= 0, z, self.alpha * z)
        else:
            raise ValueError(f"Activation '{self.name}' non reconnue.")

    def derivative(self, z):
        if self.name == "heaviside":
            return np.zeros_like(z)
        elif self.name == "sigmoid":
            sig = self.apply(z)
            return sig * (1 - sig)
        elif self.name == "tanh":
            tanh_z = self.apply(z)
            return 1 - tanh_z ** 2
        elif self.name == "relu":
            return np.where(z > 0, 1, 0)
        elif self.name == "leaky_relu":
            return np.where(z > 0, 1, self.alpha)
        else:
            raise ValueError(f"Dérivée de '{self.name}' non définie.")

# Exercice 2

In [None]:
class CoucheNeurones:
    def __init__(self, n_input, n_neurons, activation='sigmoid', learning_rate=0.01):
        """
        Initialise une couche de neurones

        Parameters:
        - n_input: nombre d'entrées
        - n_neurons: nombre de neurones dans cette couche
        - activation: fonction d'activation ('sigmoid', 'tanh', 'relu')
        - learning_rate: taux d'apprentissage
        """
        self.n_input = n_input
        self.n_neurons = n_neurons
        self.activation_name = activation
        self.learning_rate = learning_rate

        # Initialisation Xavier/Glorot pour éviter l'explosion/disparition des gradients
        limit = np.sqrt(6 / (n_input + n_neurons))
        self.weights = np.random.uniform(-limit, limit, (n_neurons, n_input))
        self.bias = np.zeros((n_neurons, 1))

        # Variables pour stocker les valeurs lors de la propagation
        self.last_input = None
        self.last_z = None
        self.last_activation = None

        # Import de la fonction d'activation du TP précédent
        self.activation_func = ActivationFunction(activation)

    def forward(self, X):
        """
        Propagation avant
        X: matrice d'entrée (n_features, n_samples)
        """
        self.last_input = X # Stockage de l'entrée pour la rétropropagation
        self.last_z = np.dot(self.weights, X) + self.bias # combinaison linéaire
        # Application de la fonction d'activation
        self.last_activation = self.activation_func.apply(self.last_z) #application de sigmoid
        return self.last_activation

    def backward(self, gradient_from_next_layer):
        """
        Rétropropagation
        gradient_from_next_layer: gradient venant de la couche suivante
        """
        # TODO: Calculer les gradients par rapport aux poids et biais
        # TODO: Calculer le gradient à propager vers la couche précédente

        # Gradient par rapport à la fonction d'activation
        grad_activation = 0

        # Gradient par rapport aux poids
        grad_weights = 0

        # Gradient par rapport aux biais  
        grad_bias = 0

        # Gradient à propager vers la couche précédente
        grad_input = 0

        # Mise à jour des paramètres
        self.weights -= self.learning_rate * grad_weights
        self.bias -= self.learning_rate * grad_bias

        return grad_input

In [10]:
# Test unitaire de la méthode forward
# Création d'une couche avec 2 entrées et 3 neurones
couche = CoucheNeurones(n_input=2, n_neurons=3, activation='sigmoid')
# Entrée de test : 2 features, 1 échantillon
X_test = np.array([[0.5], [0.8]])
# Passage avant
output = couche.forward(X_test)
print("Sortie de la couche (forward):")
print(output)

Sortie de la couche (forward):
[[0.24215282]
 [0.46212341]
 [0.52594212]]


In [11]:
class PerceptronMultiCouches:
    def __init__(self, architecture, learning_rate=0.01, activation='sigmoid'):
        """
        architecture: liste des tailles de couches [input_size, hidden1, hidden2, ..., output_size]
        """
        self.architecture = architecture
        self.learning_rate = learning_rate
        self.activation = activation
        self.couches = []
        self.history = {'loss': [], 'val_loss': [], 'accuracy': [], 'val_accuracy': []}

        # Création des couches
        for i in range(len(architecture) - 1):
            # TODO: Créer les couches successives
            # La dernière couche peut avoir une activation différente
            activation_couche = activation
            if i == len(architecture) - 2:  # Dernière couche
                activation_couche = 'sigmoid'  # ou 'softmax' pour multi-classes

            couche = CoucheNeurones(
                n_input=architecture[i],
                n_neurons=architecture[i+1], 
                activation=activation_couche,
                learning_rate=learning_rate
            )
            self.couches.append(couche)

    def forward(self, X):
        """
        Propagation avant à travers tout le réseau
        """
        current_input = X.T  # Transposer pour avoir (n_features, n_samples)
        # Propager les données à travers toutes les couches
        for couche in self.couches:
            current_input = couche.forward(current_input)
        # Retourner la sortie finale
        return current_input.T  # Retransposer pour avoir (n_samples, n_output)

    def backward(self, X, y_true, y_pred):
        """
        Rétropropagation à travers tout le réseau
        """
        # TODO: Calculer le gradient initial (dérivée de la fonction de coût)
        # Pour l'erreur quadratique : gradient = (y_pred - y_true)
        # TODO: Propager le gradient vers l'arrière

    def train_epoch(self, X, y):
        """
        Une époque d'entraînement
        """
        # Propagation avant
        y_pred = self.forward(X)

        # Calcul de la fonction de perte
        loss = self.compute_loss(y, y_pred)

        # Rétropropagation
        self.backward(X, y, y_pred)

        return loss, y_pred

    def compute_loss(self, y_true, y_pred):
        """
        Calcule la fonction de coût (erreur quadratique moyenne)
        """
        # TODO: Implémenter l'erreur quadratique moyenne
        return 0

    def fit(self, X, y, X_val=None, y_val=None, epochs=100, verbose=True):
        """
        Entraîne le réseau
        """
        for epoch in range(epochs):
            # Entraînement
            loss, y_pred = self.train_epoch(X, y)
            accuracy = self.compute_accuracy(y, y_pred)

            self.history['loss'].append(loss)
            self.history['accuracy'].append(accuracy)

            # Validation si données fournies
            if X_val is not None and y_val is not None:
                y_val_pred = self.predict(X_val)
                val_loss = self.compute_loss(y_val, y_val_pred)
                val_accuracy = self.compute_accuracy(y_val, y_val_pred)

                self.history['val_loss'].append(val_loss)
                self.history['val_accuracy'].append(val_accuracy)

            if verbose and epoch % 10 == 0:
                print(f"Époque {epoch:3d} - Loss: {loss:.4f} - Acc: {accuracy:.4f}")

    def predict(self, X):
        """
        Prédiction sur de nouvelles données
        """
        return self.forward(X)

    def compute_accuracy(self, y_true, y_pred):
        """
        Calcule l'accuracy pour la classification binaire
        """
        # TODO: Implémenter le calcul d'accuracy
        # Pour la classification binaire : seuil à 0.5
        predictions = (y_pred > 0.5).astype(int)
        return np.mean(predictions.flatten() == y_true.flatten())

In [12]:
# Test unitaire de la méthode forward du perceptron multi-couches

# Création d'un perceptron avec l'architecture correspondante à notre couche test
# La couche a 2 entrées et 3 neurones, donc l'architecture doit être [2, 3]
perceptron = PerceptronMultiCouches([2, 3])

# Remplacement des couches par notre couche de test pour contrôler la sortie
perceptron.couches = [couche]

# Test avec X_test - on transpose X_test pour avoir la forme (1, 2) comme attendu par le perceptron
X_test_reshaped = X_test.T  # Transformation de (2,1) vers (1,2)
result = perceptron.forward(X_test_reshaped)

# La sortie attendue doit aussi être transposée pour la comparaison
output_expected = output.T  # Transformation pour correspondre au format de sortie du perceptron

assert np.allclose(result, output_expected), f"Résultat attendu: {output_expected}, obtenu: {result}"
print("Test forward passé avec succès.")
print(f"Forme de l'entrée: {X_test_reshaped.shape}")
print(f"Forme de la sortie: {result.shape}")
print(f"Sortie: {result}")




Test forward passé avec succès.
Forme de l'entrée: (1, 2)
Forme de la sortie: (1, 3)
Sortie: [[0.24215282 0.46212341 0.52594212]]


# Exercice 3

In [13]:
def test_xor():
    """
    Test du réseau multicouches sur le problème XOR
    """
    # Données XOR
    X_xor = np.array([[0, 0], [0, 1], [1, 0], [1, 1]])
    y_xor = np.array([[0], [1], [1], [0]])

    print("Test sur le problème XOR")
    print("Données d'entrée :")
    print(X_xor)
    print("Sorties attendues :")
    print(y_xor.flatten())

    # TODO: Créer et entraîner le réseau
    # Essayez différentes architectures
    architectures = [
        [2, 2, 1],    # 2 entrées, 2 neurones cachés, 1 sortie
        [2, 3, 1],    # 2 entrées, 3 neurones cachés, 1 sortie  
        [2, 4, 1],    # 2 entrées, 4 neurones cachés, 1 sortie
        [2, 2, 2, 1], # 2 couches cachées
    ]

    for arch in architectures:
        print(f"\n--- Architecture {arch} ---")

        # Créer et entraîner le réseau
        mlp = PerceptronMultiCouches(arch, learning_rate=0.5, activation='sigmoid')
        mlp.fit(X_xor, y_xor, epochs=1000, verbose=False)

        # Test des prédictions
        predictions = mlp.predict(X_xor)
        print("Prédictions :")
        for i in range(len(X_xor)):
            print(f"  {X_xor[i]} -> {predictions[i][0]:.4f} (attendu: {y_xor[i][0]})")

        # Calculer l'accuracy
        accuracy = mlp.compute_accuracy(y_xor, predictions)
        print(f"Accuracy finale : {accuracy:.4f}")

# Lancer le test
test_xor()

Test sur le problème XOR
Données d'entrée :
[[0 0]
 [0 1]
 [1 0]
 [1 1]]
Sorties attendues :
[0 1 1 0]

--- Architecture [2, 2, 1] ---
Prédictions :
  [0 0] -> 0.4043 (attendu: 0)
  [0 1] -> 0.3463 (attendu: 1)
  [1 0] -> 0.3534 (attendu: 1)
  [1 1] -> 0.3136 (attendu: 0)
Accuracy finale : 0.5000

--- Architecture [2, 3, 1] ---
Prédictions :
  [0 0] -> 0.3420 (attendu: 0)
  [0 1] -> 0.2991 (attendu: 1)
  [1 0] -> 0.3461 (attendu: 1)
  [1 1] -> 0.3070 (attendu: 0)
Accuracy finale : 0.5000

--- Architecture [2, 4, 1] ---
Prédictions :
  [0 0] -> 0.3428 (attendu: 0)
  [0 1] -> 0.3428 (attendu: 1)
  [1 0] -> 0.3128 (attendu: 1)
  [1 1] -> 0.3130 (attendu: 0)
Accuracy finale : 0.5000

--- Architecture [2, 2, 2, 1] ---
Prédictions :
  [0 0] -> 0.3994 (attendu: 0)
  [0 1] -> 0.3930 (attendu: 1)
  [1 0] -> 0.4092 (attendu: 1)
  [1 1] -> 0.4025 (attendu: 0)
Accuracy finale : 0.5000


-**Le réseau arrive-t-il à résoudre XOR ? Avec quelle architecture minimale ?**  

        Non ça n'arrive pas car nous n'avons pas implémenter la rétropropagation. Sans cela le réseau ne peut pas apprendre les poids nécessaires pour résoudre le problème XOR. L'architecture minimale pour résoudre le problème XOR est un réseau avec au moins une couche cachée contenant deux neurones, d'après se que j'ai lu (J'ai appliqué la consigne donc pas de backward).

-**Comment le nombre de neurones cachés influence-t-il la convergence ?**  

        Si on a pas assez de neurones cachés, le réseau peut ne pas être capable de capturer la complexité des données, ce qui peut entraîner une mauvaise convergence ou un sur-apprentissage. En revanche, si on a trop de neurones cachés, le réseau peut devenir trop complexe et surajuster les données d'entraînement, ce qui peut également nuire à la convergence. Il faut donc un juste milieu.

-**Que se passe-t-il avec plusieurs couches cachées ?**  

        Avec plusieurs couches cachées, le réseau devient plus profond et peut capturer des relations plus complexes dans les données.

-**L'initialisation des poids a-t-elle une influence ? (tester d'autres types d'initialisations)**  

        Oui, l'initialisation des poids a une influence significative sur la convergence du réseau. Une mauvaise initialisation peut entraîner des problèmes tels que la saturation des fonctions d'activation, ce qui rend difficile l'apprentissage. Des initialisations comme Xavier (utillisé ici) sont souvent utilisées pour améliorer la convergence en tenant compte de la taille des couches.