## Description du notebook training.ipnb
Ce notebook présente les différentes étapes de préparation des données,
d’entraînement et d’évaluation d’un modèle de réseau de neurones
pour la reconnaissance de chiffres manuscrits.

Il regroupe le chargement des données, leur prétraitement,
la définition du modèle, ainsi que la validation des performances
avant l’intégration dans l’application Streamlit.

## Importation des bibliothèques

Dans cette cellule, nous importons les bibliothèques Python nécessaires
au chargement des données, à leur manipulation, à la visualisation
et à la séparation du jeu de données.

- **NumPy** : utilisé pour le calcul numérique et la manipulation des tableaux.
- **Matplotlib** : utilisé pour afficher et visualiser les images des chiffres.
- **SciPy** : utilisé pour charger les fichiers de données au format `.mat`.
- **Scikit-learn** : utilisé pour diviser les données en ensembles
  d’entraînement et de test.


In [1]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.io import loadmat
from sklearn.model_selection import train_test_split

## Chargement des jeux de données

Dans cette étape, nous chargeons les deux fichiers de données utilisés
pour l’apprentissage du modèle.  
Ces fichiers contiennent des images de chiffres manuscrits ainsi que
leurs labels correspondants.

Chaque image est représentée sous forme d’un vecteur de 400 pixels
correspondant à une image en niveaux de gris de taille 20×20.


In [4]:
data1 = loadmat("../data/ex3data1.mat")
data2 = loadmat("../data/ex4data1.mat")

X1 = data1["X"]
y1 = data1["y"]

X2 = data2["X"]
y2 = data2["y"]

In [5]:
print(X1.shape, y1.shape)
print(X2.shape, y2.shape)

(5000, 400) (5000, 1)
(5000, 400) (5000, 1)


## Prétraitement des labels

Les labels sont initialement stockés sous forme de vecteurs colonnes.
Nous les transformons en vecteurs unidimensionnels afin de faciliter
leur utilisation lors de l’entraînement du modèle.

Dans ce jeu de données, le chiffre 0 est représenté par la valeur 10.
Nous remplaçons donc toutes les occurrences de la valeur 10 par 0
afin d’obtenir une représentation correcte des chiffres de 0 à 9.


In [6]:
y1 = y1.flatten()
y2 = y2.flatten()

y1[y1 == 10] = 0
y2[y2 == 10] = 0

## Fusion des jeux de données

Après le chargement et le prétraitement des deux jeux de données,
nous les fusionnons afin de former un seul jeu de données global.

Les matrices des images sont concaténées verticalement,
et les vecteurs de labels sont concaténés horizontalement.
Cela permet d’augmenter le nombre total d’exemples utilisés
pour l’entraînement du modèle.

Nous affichons ensuite les dimensions finales afin de vérifier
que la fusion s’est déroulée correctement.


In [7]:
X = np.vstack((X1, X2))
y = np.hstack((y1, y2))

print(X.shape, y.shape)

(10000, 400) (10000,)


## Normalisation des données

Les valeurs des pixels des images sont initialement comprises entre 0 et 255.
Nous normalisons ces valeurs en les divisant par 255 afin d’obtenir
des valeurs comprises entre 0 et 1.

Cette étape permet d’améliorer la stabilité numérique et
d’accélérer l’apprentissage du réseau de neurones.


In [8]:
X = X / 255.0

## Séparation des données en ensembles d’entraînement et de test

Le jeu de données est divisé en deux parties :
- un ensemble d’entraînement utilisé pour apprendre les paramètres du modèle,
- un ensemble de test utilisé pour évaluer ses performances.

Nous utilisons 80 % des données pour l’entraînement et 20 % pour le test.
Cette séparation permet d’évaluer la capacité du modèle à généraliser
sur des données qu’il n’a pas vues pendant l’apprentissage.


In [9]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2
)