<a href="https://colab.research.google.com/github/nHuloux/DeepLearning-Aflokkat/blob/main/DeepLearning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Deep Learning
Nous allons réaliser une application web qui permet de reconnaitre des chiffres écrits à la main dans un canvas.

Pendant cette activité guidée vous allez être amené à importer le dataset MNIST, le pré-traiter, l'utiliser pour entraîner un réseau de neurone et enfin d'insérer ce réseau dans l'application en Django.

# Nouvelle section

Importer les librairies nécéssaires pour traiter des données, pour construire et évaluer des réseaux de neurones

Importer les données du MNIST à partir de l'API openML et le mettre dans une variable qu'on appellera digits.

```
digits = fetch_openml('mnist_784')
```

Qu'y a-t-il dans :


```
digits.target
digits.data
```



**Réponse :**

Combien de pixels contient une image ? Quel est le format de l'image originale ? Quel traitement a été réalisé sur ces images pour avoir `digits.data` ?


***Réponses :***

Recréer une image de 28x28. On pourra utiliser les fonctions `iloc`, et `reshape` de pandas

Afficher une image avec la librairie matplotlib, à quel label est-elle associée ?



Est-ce qu'on va utiliser les images (28x28) ou leur version stocké dans le digits.data (786) ?



***Réponse :***

Construire le dataset en créant le vecteur d'entrée X, et le vecteur des sorties y en se basant sur notre dataset importé. Pour une meilleure utilisation du dataset, il est de bon ton de normaliser ces vecteurs.

Séparer ce dataset en set d'entrainement et set de test, en prenant 20% des valeurs pour le test.

# Construction du modèle




## Machine learning


Quel est le type de problème que nous essayons de résoudre ici ?

**Réponse :**

La plupart des modèles de machine learning ne supportent pas la classification multi-classe nativement. Certaines stratégies doivent être utilisées. Ces stratégies consistent à réaliser un classifieur binaire pour déterminer si une donnée appartient à une des classes, ou non. Dans notre cas, nous pourrions construire 10 classifieurs binaires qui viennent prédire si l'image utilisée correspond à un digit ou non. La plupart du temps ces stratégies sont directement implémentées dans les modèles de machine learning et dans leur algorithmes d'apprentissage.

En utilisant la roadmap scikit-learn choisir le modèle de machine learning adapté et l'importer. Créer un classifieur en forçant la stratégie de décision pour la multi-classe en "one versus one" :
`decision_function_shape='ovo'`

L'entraîner sur nos données d'entraînement.

Combien de temps l'execution as prise ? Quelle stratégie pourrait-on mettre en place pour gagner du temps sur l'execution ?

***Réponse :***

L'évaluer sur nos données de test.

Bien que ce score soit excellent, il est intéressant de chercher s'il n'existe pas un autre modèle plus performant. Réaliser un grid search en applicant la stratégie imaginée pour gagner du temps sur l'apprentissage. Limitons tout de même les paramètres de grid search.

Créer d'abord le dataset dégradé et amputé.

L'utiliser dans le grid search.

Une fois fait sur nos données dégradées, nous pourrions utiliser ces paramètres d'apprentissage sur les données non-dégradées. Ou alors, nous pourrions très bien utiliser ce modèle, en dégradant systèmatiquement les données d'entrées. Testons celà sur les X_test afin de voir si ça marcherait bien.

Il est possible qu'un réseau de neurone ne permette pas d'améliorer notre score. Essayons voir !



## Deep Learning

Importer les librairies nécéssaires à la création et à l'entrainement des réseaux de neurones.


Maintenant nous pouvons créer un réseau de neurone. Avec tensorflow nous pouvons créer des couches puis les ajouter dans un modèle.

Créer une ligne s'écrit avec `tf.keras.layers.Dense(**kwargs)`
Si c'est une entrée elle s'écrit `tf.keras.Input(**kwargs)`

Construire la couche d'entrée et la couche de sortie.



Créer un modèle de Deep Learning avec la fonction `tf.keras.Sequential()`.

On pourra choisir l'architecture du modèle que l'on souhaite. Il est néanmoins conseillé de ne pas mettre trop de neurone dans les couches intermédiaires (\~10) ni trop de couches intermédiaires (\~2).


Il est possible qu'a ce stade vous ne savez pas trop choisir les fonctions d'activations pour les couches intermédiaires ni pour la couche de sortie. Si c'est le cas, privilégiez des fonctions sigmoid.

Quelle étape est nécéssaire avant l'entraînement ?

Entraînons notre modèle sur les données d'entrainement. Pourquoi ça ne marche pas directement avec X_train et y_train ? Quel forme y_pred doit avoir ?

***Réponses :***

Une bonne manière de construire ce vecteur est d'utiliser la fonction `get_dummies` de la librairie pandas. Cette méthode s'appelle le One-Hot encoding, on pourra alors créer une nouveau vecteur `y_train_hotcoded`.

Vérifier que le vecteur `X_train` et le vecteur `y_train_hotcoded` ont des dimensions compatibles avec le modèle de réseau de neurone construit.

Entrainer le modèle avec une seule époch, puis avec un nombre d'épochs plus important (~10).

Utiliser le modèle pour prédire les données depuis les données du set de test.

Comment interpréter ces données ?

***Réponse :***

Comment retrouver des valeures numériques de prédiction ? On pourra se baser sur le fonctionnement d'un réseau de neurone, et en particulier sur ce qu'il se passe lors de la forward propagation.

Évaluez le modèle à partir de ses prédictions. **Vérifiez le type des valeurs comparées**


Commentez ce résultat.

***Réponse :***


Réaliser un grid search en faisant varier l'architecture du réseau, et certains hyperparamètres. De la même manière que pour le machine learning, évitons de faire plus de 4 entraînements.

# Intégration dans une application web.

1. Télécharger le .zip
2. Lire le readme
3. Tester l'application
4. Explorer les fichiers de l'application Django.

Quel est le format de l'image récupérée ?

***Réponse :***

Dans le dossier joint, un exemple de la sortie du canva est fourni en csv. Importer ce cvs dans un dataframe.

À partir de la [documentation](https://developer.mozilla.org/fr/docs/Web/API/CanvasRenderingContext2D/getImageData) du canva, de la taille de l'image renseignée dans le code Django, reconstruire une matrice correspondant à l'image, et l'afficher.

Sur quelle forme de donnée notre modèle précédent s'est entraîné ?

***Réponse :***

En utilisant une modification morphologique sur notre image récupéré par le Canva, recréer une image de (28,28). On pourra utiliser openCV, on conseil d'enregistrer l'image de (400,400). D'importer cette image, d'utiliser une dilatation ou une erosion, puis de la redimensionner.

Si vous pouvez lire le chiffre, votre modèle devrait le pouvoir aussi. Testez de faire lire ce chiffre à votre modèle de ML puis de DL.

Si votre modèle prédit correctement, vous pouvez exporter votre modèle. On pourra s'intéresser à regarder la différence entre l'export sous scikit learn ou sous tensorflow. Choisissez celui qui vous semble le plus pertinent, puis importez votre modèle dans l'application Django, et finalement testez votre modèle ;)