In [5]:
# -*- coding: utf-8 -*-
# Author : Badr TAJINI
#
'''
# Code Python très simple pour construire un modèle MLP basique avec l'amélioration de la précision
#
# Objectifs de l'Étape 4 :
#
# 1- Impact de l'Architecture : Comprendre comment la complexité du réseau neuronal (nombre de couches et de neurones) influence sa capacité à apprendre et sa précision.
# 2- Régularisation : Introduire le concept de régularisation comme moyen de prévenir le sur-apprentissage et d'améliorer la généralisation du modèle.
# 3- Algorithmes d'Optimisation : Explorer différents algorithmes d'optimisation et comprendre que le choix de l'optimiseur et de ses paramètres (comme le taux d'apprentissage) peut avoir un impact significatif sur l'entraînement et les performances du modèle.
# 4- Hyperparamètres et Ajustement : Renforcer l'idée que la construction d'un bon modèle implique de choisir et d'ajuster les bons hyperparamètres.
# 5- Évaluation Comparative : Apprendre à comparer les performances de différents modèles et configurations.
# 
#---------------------------------------------------------------------------------------------------------------------------------------------------------------------------
# Instructions :
#
# 1- Exécutez le code.
# 2- Observez les sorties :
#    - Comment la précision change-t-elle lorsque vous modifiez l'architecture du modèle (plus de neurones, plus de couches) ?
#    - Quel est l'impact de l'ajout de la régularisation L2 ? Comprenez-vous l'idée de pénaliser les poids importants pour éviter le sur-apprentissage ?
#    - Comment les différents algorithmes d'optimisation (adam vs sgd) affectent-ils la précision ?
# 3- Expérimentez :
#    - Architecture : Essayez différentes configurations pour hidden_layer_sizes. Par exemple, (50, 50), (150,), (128, 64, 32). Y a-t-il une limite au nombre de couches ou de neurones que vous pouvez ajouter ?
#    - Régularisation : Modifiez la valeur du paramètre alpha. Qu'arrive-t-il à la précision si vous augmentez ou diminuez alpha ?
#    - Optimisation :
#      - Pour l'optimiseur sgd, essayez différents taux d'apprentissage (learning_rate_init). Un taux plus élevé permet-il d'apprendre plus vite ? Est-ce toujours bénéfique ?
#      - Recherchez d'autres optimiseurs disponibles dans ccc (par exemple, lbfgs, bien que moins adapté aux grands datasets) et testez-les.
#    - Nombre d'itérations : Si vos expériences sont rapides, essayez d'augmenter max_iter pour voir si le modèle continue de s'améliorer. Soyez patients, l'entraînement peut prendre plus de temps.
'''

from sklearn.datasets import fetch_openml
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import numpy as np

# 1. Charger et préparer le dataset MNIST (comme à l'étape 3)
mnist = fetch_openml('mnist_784', version=1)
X = mnist.data.astype(np.float32) / 255.0
y = mnist.target.astype(int)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 2. Explorer différentes architectures de modèles MLP
print("\n--- Exploration de différentes architectures ---")

# Modèle 1 : Plus de neurones dans une seule couche cachée
mlp_large = MLPClassifier(hidden_layer_sizes=(50, ), max_iter=10, random_state=42)
mlp_large.fit(X_train, y_train)
y_pred_large = mlp_large.predict(X_test)
accuracy_large = accuracy_score(y_test, y_pred_large)
print(f"Précision avec une couche cachée de 100 neurones : {accuracy_large * 100:.2f}%")

# Modèle 2 : Plusieurs couches cachées
mlp_multi = MLPClassifier(hidden_layer_sizes=(128, ), max_iter=10, random_state=42)
mlp_multi.fit(X_train, y_train)
y_pred_multi = mlp_multi.predict(X_test)
accuracy_multi = accuracy_score(y_test, y_pred_multi)
print(f"Précision avec deux couches cachées (100, 50 neurones) : {accuracy_multi * 100:.2f}%")

# 3. Introduction à la régularisation (L2) pour éviter le sur-apprentissage
print("\n--- Introduction à la régularisation ---")

# Modèle 3 : Avec régularisation L2 (paramètre alpha)
mlp_regularized = MLPClassifier(hidden_layer_sizes=(128,64, 32 ), max_iter=10, alpha=0.011, random_state=42)
mlp_regularized.fit(X_train, y_train)
y_pred_regularized = mlp_regularized.predict(X_test)
accuracy_regularized = accuracy_score(y_test, y_pred_regularized)
print(f"Précision avec régularisation L2 (alpha=0.001) : {accuracy_regularized * 100:.2f}%")

# 4. Explorer différents algorithmes d'optimisation
print("\n--- Exploration de différents algorithmes d'optimisation ---")

# Modèle 4 : Utilisation de l'optimiseur 'adam' (qui est l'optimiseur par défaut)
mlp_adam = MLPClassifier(hidden_layer_sizes=(50, 50), max_iter=20, solver='adam', random_state=42)
mlp_adam.fit(X_train, y_train)
y_pred_adam = mlp_adam.predict(X_test)
accuracy_adam = accuracy_score(y_test, y_pred_adam)
print(f"Précision avec l'optimiseur Adam : {accuracy_adam * 100:.2f}%")

# Modèle 5 : Utilisation de l'optimiseur 'sgd' (Stochastic Gradient Descent) lbfgsvec un taux d'apprentissage
mlp_sgd = MLPClassifier(hidden_layer_sizes=(50, 50 ), max_iter=20, solver='lbfgs', learning_rate_init=0.0001, random_state=42)
mlp_sgd.fit(X_train, y_train)
y_pred_sgd = mlp_sgd.predict(X_test)
accuracy_sgd = accuracy_score(y_test, y_pred_sgd)
print(f"Précision avec l'optimiseur lbfsg (taux d'apprentissage=0.01) : {accuracy_sgd * 100:.2f}%")

# Remarque : `max_iter` est toujours limité ici pour des raisons de temps d'exécution lors des tests.
# Pour obtenir de meilleures performances, il faudrait augmenter le nombre d'itérations.


--- Exploration de différentes architectures ---




Précision avec une couche cachée de 100 neurones : 96.46%




Précision avec deux couches cachées (100, 50 neurones) : 97.24%

--- Introduction à la régularisation ---




Précision avec régularisation L2 (alpha=0.001) : 97.09%

--- Exploration de différents algorithmes d'optimisation ---




Précision avec l'optimiseur Adam : 96.84%
Précision avec l'optimiseur lbfsg (taux d'apprentissage=0.01) : 86.79%


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
  self.n_iter_ = _check_optimize_result("lbfgs", opt_res, self.max_iter)


Observation : Ce script pyhton va tester différente configuraison d'un réseaux de neuronnes.

-   Le modele 1 possede 1 couche caché qui possède elle meme 100 neuronnes. sont taux de réussite est de 97.09 %
-   Le modele 2 possede 2 contenant deux couche un couche possède 100 neurones et l'autre 50 neuronnes.

En regardant ces deux mdoele on remarque que le modèle ayant deux a une précision plus grande.Cela s'explique car il peut mieux comprendre et modéliser les données complexes 
-   Le modèle 3 utilise la méthode dite de la régulation .cette methode ser a controler l'entrainement des données afin que le modèle ne se spécialise trop dans des données et ainsi perdre sa généralité.

La régulation va utiliser le parametre alpha qui va pénaliser le modèle afin d'éviter le surapprentissage.
L'alghoritme de d'opitmisation adam à pour abjectif d'juster le taux d'apprentissage de chauque paramètre  du modèle de maniere adaptative.

la SGD à pour objéctif de minimiser la fonction cout du modèle pour savoir la marge qu'il y a entre la réalité et les prédiction.

Expérimentation : 

-   hidden_layer_size : Si on divise nos données en 50/50  il y aura un diminution du atux d'apprentissage car modele ne se saura pas assez entrainé avec des données disponible. 
-   hidden_layer_size : si on sépare les données en 150, il y