# MathAData - Module introduction à l'IA

*Version 2/7*

## Classification des images de 2 et de 7

Dans ce Notebook, nous allons travailler sur un algorithme permettant de classer des images en fonction du chiffre représenté sur celles-ci. Pour commencer, nous étudierons des images avec les chiffres 2 et 7. Vous serez amenés à réfléchir à ce que fait votre cerveau pour déterminer en une fraction de seconde le chiffre qu'il voit puis à le modéliser mathématiquement pour imiter ce processus avec un programme informatique.

# I. Visualisation des données

On commence par importer les données dont nous aurons besoin. Sélectionnez la cellule ci-dessous puis appuyer sur le bouton 'play' ou les touches Majuscule + Entrée de votre clavier pour exécuter le code. Lorsque la cellule aura été correctement executée, un nombre apparaîtra entre les crochets sur la gauche de la cellule.

In [None]:
from utilitaires_mnist_2 import *

## I.1 Rappels Python

### Le type list

En python, une liste est un type de donnée permettant de regrouper plusieurs valeurs avec un ordre donné. On définit une liste à l'aide de crochets. On peut initialiser une liste vide ou avec des éléments en les spécifiant séparés par des virgules entre les crochets.

In [None]:
# déclarer une liste vide :
liste_vide = []
# une liste peut contenir des nombres :
liste = [1, 5.4, -3]

On accède à l'élément $i$ d'une liste en faisant
`ma_liste[i]`.

<div class="alert alert-block alert-warning">
<b>⚠️ Attention  :</b> En Python les indices sont comptés à partir de 0, le premier élément d'une liste est donc liste[0].
</div>

Avec la fonction `print`, afficher le premier élément de la liste `liste` :  
**Rappel** : Pour appeler (utiliser) une fonction, la syntaxe est ```ma_fonction(paramètres)```. Les paramètres d'une fonction sont des variables utilisées au sein de la fonction pour modifier son comportement. La fonction print par exemple affiche ses paramètres séparés par des espaces.

In [None]:
# Afficher le premier élément de la liste
...

Pour ajouter des éléments à une liste, on peut utiliser la méthode `append` :


Une méthode est une fonction associée à un type. On l'appelle d'une manière semblable à une fonction mais en précisant la variable sur laquelle on veut appeler cette méthode.  
La méthode append est donc une méthode du type liste qui prend un paramètre : l'élément à ajouter dans la liste. On peut l'appeler sur une variable de type liste avec la syntaxe ```ma_liste.append(mon_element)```

In [None]:
# Ajouter "8" à la liste
...

## I.2 Image numérique

Nous allons commencer à manipuler des images en noir et blanc (aussi appelées images en niveaux de gris).  

En python, on peut représenter les images comme un tableau en deux dimensions. Un tableau 2D est une liste de listes, où chaque liste imbriquée est une ligne : 

In [None]:
ligne1 = [1,2,3]
element_1_0 = 4
element_1_1 = 5
element_1_2 = 6
tableau = [ ligne1 , [element_1_0,element_1_1,element_1_2] , [7,8,9] ]

print(tableau)
print(tableau[1][0])
print(tableau[1][1])
print(tableau[1][2])

Lorsque le tableau représente une image en niveaux de gris, chaque élément du tableau correspond à un pixel dont la valeur est un entier compris entre 0 et 255, du plus foncé au plus clair, donc 0 pour noir et 255 pour blanc.  

Nous avons créé une fonction `affichage` permettant de reconstituer une image à partir d'un tableau respectant ce format :

In [None]:
# Affichez l'image 2 X 2 suivante :
affichage([[0,255],[127,0]])

Nous avons chargé des images de 2 et 7 de résolution $28 \times 28$ pixels sous forme de tableaux de cette même taille. Nous avons assigné à la variable x la première image :

In [None]:
# Affichez l'image x :
affichage(x)

### Accéder à un pixel particulier

On accède à la valeur du pixel $(i,j)$ à la $i+1$-ème ligne et $j+1$-ème colonne par la commande `x[i,j]`. Par exemple, pour accéder à la valeur du pixel central (14,14) on écrit simplement `x[14,14]`. On peut ensuite afficher cette valeur avec `print`.

In [None]:
# Valeur du pixel (14,14) : 
pixel_central = ...

print(pixel_central)

### Accéder à une « tranche » de pixels

* `x[a:b,c:d]` extrait les pixels appartenant aux lignes `a` à `b-1` (inclus) et colonnes `c` à `d-1` (inclus).
* `x[a:b,c:d]` est un tableau de taille $(b-a) \times (d-c)$.
* Pour récupérer tous les pixels de `x` appartenant aux colonnes `c` à `d-1`, on utilise `x[:,c:d]`; et `x[a:b,:]` pour tous les pixels appartenant aux lignes `a` à `b-1`.

<b><font color=red> Écrire une ligne de code pour afficher uniquement les colonnes 11 à 23 de l'image $x$ :</font></b>

In [None]:
# Visualisez les colonnes 11 à 23 de l'image x :
...

In [None]:
# Affichez directement la valeur des pixels des colonnes 11 à 23 de l'image x :
colonnes_centrales = ...

print(colonnes_centrales)

# II. Challenge : classer les chiffres 2 et 7

Nous voilà prêts à attaquer la résolution du problème.

**On a deux classes d'images :**
- la classe des chiffres $2$ : **classe 2**
- la classe des chiffres $7$ : **classe 7**

On note y la classe de l'image x.

L'ensemble des images a été chargé dans la variable x_train.  
Pour visualiser les 10 premières images, utiliser la fonction `affichage_dix` :

In [None]:
# Affiche les 10 premières images de x_train :
affichage_dix(x_train)

## II.1 Choix a priori de la caractéristique

Une caractéristique est une fonction appliquée à nos données, ici les images, pour en extraire une information dont l'objectif est de nous permettre de différencier les classes.

**Benchmark :** Proposition d'une caractéristique utilisée comme référence.

On peut par exemple commencer par calculer la moyenne des images donc la valeur moyenne d'un pixel de l'image pour déterminer si cette moyenne est très différente entre les images de 2 et de 7. Nous avons déjà codé la fonction `moyenne` pour faire le calcul.

In [None]:
# Une fonction qui calcule et renvoi la caractéristique de l'image x

def caracteristique(x):
    k = moyenne(x)
    return k

Après avoir obtenu l'erreur d'entraînement sur cette caractéristique, <b><font color=red>vous définirez votre propre caractéristique pour faire mieux.</font></b>

## II.2 Classificateur

**Choix du seuil**

Calculons la caractéristique notée k(x) pour nos 10 premières images :

In [None]:
affichage_dix(x_train)

for i in range(10):
    k = caracteristique(x_train[i])
    y = y_train[i]
    print('Image ' +str(i+1)+' : k(x) = '+str(round(k,2))+',   y = '+str(y)+'\n')

**Algorithme de classification :**

La caractéristique doit nous permettre de trancher sur la classe de chaque image. D'après le calcul de la caractéristique sur les 10 premières images, la moyenne semble t-elle plus élevée pour les images de l'une des deux classes ? Laquelle ?


Pour que notre algorithme puisse renvoyer la classe des images :
* On choisit un seuil noté  `t` qui va être la valeur de la caractéristique séparant les deux classes d'images
* On compare la caractéristique de chaque image au seuil `t` et on renvoit l'entier $2$ ou $7$ en fonction de si la caractéristique est supérieure ou inférieure au seuil :

<b><font color=red> D'après les obervations sur les 10 premières images, choisissez un seuil `t` et complétez la fonction classification :</font></b>

<div class="alert alert-block alert-warning">
<b>⚠️ Attention  :</b> la fonction de classification doit renvoyer <b>l'estimation de la classe </b> de x en fonction de sa caractéristique k, donc 2 pour les images de 2 et 7 pour les images de 7.
</div>

In [None]:
# Seuil à compléter :
t = ...

# Algorithme de classification à compléter :

def classification(k, t):
    if k > t:
        # renvoyer la classe d'image pour les valeurs hautes de la caractéristique
        return ...
    else:
        # renvoyer la classe d'image pour les valeurs basses de la caractéristique
        return ...

## II.3 Calcul de l'erreur d'entraînement pour ce paramètre

L'erreur d'entraînement est la proportion d'images que le classificateur classe mal.  C'est donc :

 
  
$$
e_{train}(t) = \frac{\text{Nombre d'images d'entraînement mal classées}} {\text{Nombre total d'images d'entraînement}}
$$
 

Notez que cette fonction dépend du paramètre ``t``.  

<b><font color=red> Nous avons codé la fonction erreur_train pour calculer cette valeur. Exécutez la cellule suivante pour calculer votre erreur d'entraînement :</font></b>

In [None]:
# calcul de l'erreur d'entraienement grâce 

e_train = erreur_train(x_train, y_train, t, classification, caracteristique)
print("\n \n --> Erreur d'entraînement =", f"{100*e_train:.2f}% \n \n")

Qu'en pensez-vous ? Nous allons maintenant chercher le paramètre `t` qui minimise la fonction erreur.

## II.4 Minimisation de la fonction erreur

Dans l'étape précédente, vous avez choisi arbitrairement un seuil t en fonction de vos observations sur les 10 premières images. Ce processus n'est pas optimal car vous l'avez probablement choisi instinctivement en prenant en compte une très petite partie des images (l'ensemble d'entraînement en contient plusieurs milliers).

Pour trouver le meilleur paramètre ``t`` nous pouvons calculer notre erreur pour plusieurs seuils différents. Cela revient à tracer la fonction $e_{train}(t)$ (e_train en fonction de t) pour trouver son minimum.

<b><font color=red> Exécuter la cellule suivante pour afficher la fonction erreur :</font></b>

In [None]:
t_min = 0
t_max = 70

tracer_erreur(t_min, t_max, classification, caracteristique)

<b><font color=blue> 1. Quelle valeur de ``t`` pouvez prendre pour avoir le moins d'erreur ? </font></b>
<br>

<br>
<b><font color=blue> 2. Complétez la cellule suivante avec ce seuil et exécutez les 2 cellules suivantes pour obtenir votre nouvelle erreur d'entraînement : 

In [None]:
# Nouveau seuil à compléter, d'après la figure précédente :

t = ...

In [None]:
# Calcul de l'erreur d'entraienement avec ce nouveau seuil :  

e_train = erreur_train(x_train, y_train, t, classification, caracteristique)
print("\n \n --> Erreur d'entraînement =", f"{100*e_train:.2f}% \n \n")

## II.5 Amélioration de la caractéristique : faites mieux !


Grâce à l'étape précédente, vous avez pu minimiser votre erreur en choisissant le seuil optimal. Le seul moyen pour réduire encore cette erreur est maintenant de trouver une meilleure caractéristique.

<b><font color=blue>Pour diminuer encore l'erreur, vous allez définir votre propre caractéristique. Utilisez les propriétés des images pour inventer une caractéristique qui fait le moins d'erreur possible ! </font></b>

### 1. Définissez dans la cellule suivante votre caractéristique :

*Rappel* : la caractéristique doit renvoyer une valeur que vous pensez différente entre les images de 2 et les images de 7.

In [None]:
# Votre propre caractéristique : 

def caracteristique(x):
    
    ...

    return ...

### 2. Réglez la fonction classification : 

Afficher en excécutant la cellule suivante les valeurs de votre caractéristique pour 10 images : 

In [None]:
affichage_dix(x_train)

for i in range(10):
    k = caracteristique(x_train[i])
    y = y_train[i]
    print('Image ' +str(i+1)+' : k(x) = '+str(round(k,2))+',   y = '+str(y)+'\n')

En déduire comment compléter la fonction de classification, c'est à dire si votre caractéristique est élevée pour les images de 2 ou pour les images de 7 : 

In [None]:
# Algorithme de classification à compléter :

def classification(k, t):
    if k > t:
        return ...
    else:
        return ...

### 3. Choisir un seuil qui minimise la fonction erreur : 

In [None]:
# Changer t_min et t_max (les bornes sur lesquelles on trace la courbe) si besoin, pour l'affichage de la courbe d'erreur
t_min = 0
t_max = 70

tracer_erreur(t_min, t_max, classification, caracteristique)

In [None]:
# Seuil à compléter :

t = ...

In [None]:
# Calcul de l'erreur d'entraienement avec ce nouveau seuil :  

e_train = erreur_train(x_train, y_train, t, classification, caracteristique)
print("\n \n --> Erreur d'entraînement avec ma caractéristique =", f"{100*e_train:.2f}% \n \n")

## II.6 Soumission sur la plateforme pour obtenir l'erreur de test


<b><font color=red>Une fois que vous être content de votre caractéristique,</font></b> exécuter la cellule suivante : 

In [None]:
y_est_test = []

for x in x_test:
    k = caracteristique(x)
    y_est_test.append(classification(k, t))

# Sauvez et téléchargez vos estimations y_est_test, en entrant le nom du fichier que vous souhaitez
sauver_et_telecharger_mnist_2(y_est_test, 'y_est_test_mnist2.csv')

<b><font color=red>Soumettez ce fichier .csv sur la plateforme Challenge Data</font></b> afin d'obtenir votre erreur de test en cliquant sur **[ce lien](https://challengedata.ens.fr/challenges/116)** (n'oubliez pas au préalable d'être bien connecté).

Quelle est votre erreur de test ?

### Guide pour la soumission
![Bouton soumissions](https://github.com/akimx98/challenge_data/blob/main/Guide%20site/soumettre.png?raw=true)
![Champs soumissions](https://github.com/akimx98/challenge_data/blob/main/Guide%20site/champs_soumission.png?raw=true)