# MathAData - Module introduction à l'IA

Les blocs suivants seront utilisés pour différents buts : 
!!! abstract Contextualisation
Ces cases résument le problème et les objectifs de chaque question
!!!
!!! info Rappels Maths
Ces cases contiennent des notions de maths
!!!
!!! tip Rappels Python
Ces cases contiennent des notions de Python ou spécifiques au notebook
!!!
!!! question Questions
Ces cases indiquent une question à laquelle vous devez répondre par un code à compléter. Seules les parties avec des <code>...</code> sont à remplacer
!!!

## Classification des images de 2 et de 7

!!! abstract But du TP
Dans ce Notebook, nous allons construire un algorithme permettant de classer des images de 2 et de 7.
!!!

!!! tip Import des données pour le TP
Sélectionnez la cellule ci-dessous puis appuyer sur le bouton &#39;play&#39; ou les touches Majuscule + Entrée de votre clavier pour exécuter le code
Lorsque la cellule aura été correctement executée, un nombre apparaîtra entre les crochets sur la gauche de la cellule.
!!!

!!! warning Exécutez bien toutes les cellules de code
Toutes les cellules de code comme celle ci-dessous doivent être éxécutées pour le bon fonctionnement du TP
!!! 

In [None]:
from utilitaires_mnist_2 import *

## I. Image numérique

!!! tip Une image en niveaux de gris : tableau 2D de pixels
Une image en niveau de gris est un tableau deux dimensions. Chaque pixel de l&#39;image correspond à un élément du tableau. Chaque élément est un entier compris entre 0 et 255, du plus foncé au plus clair, donc 0 pour noir et 255 pour blanc.
Les images dans ce TP font $28 \times 28$ pixels. <strong>Exécutez la cellule suivante pour afficher la première image.</strong>
!!!

In [None]:
# Affichez l'image x :
affichage(x)

# Voir les valeurs qui sont derrière cette image
x

!!! question Quelle est la valeur du pixel (18,18) ?
Regardez dans le tableau la valeur du pixel en position (18,18) et complétez sa valeur dans la cellule suivante
!!!

In [None]:
pixel = ...
validation_question_1()

# II. Challenge : classer les chiffres 2 et 7

!!! abstract Résolution du problème
Nous voilà prêts à attaquer la résolution du problème, c&#39;est à dire déterminer si une image <code>x</code> (un tableau deux dimensions $28 \times 28$ de nombres entiers entre 0 et 255) représente un <strong>2</strong> ou un <strong>7</strong>.
!!!

!!! tip Ensemble des images d&#39;entraînement
Plusieurs milliers d&#39;images de 2 et 7 ont été chargées dans la variable <code>x_train</code>. Pour visualiser les 10 premières images, utiliser la fonction <code>affichage_dix</code>
!!!

In [None]:
# Nous avons codé la fonction affichage_dix pour afficher en même temps les 10 premières images de x_train :
affichage_dix(x_train)

## II.1 La caractéristique

!!! info Caractéristique d&#39;une donnée
Une caractéristique est un nombre calculé sur chaque donnée, ici sur chaque image de 2 ou de 7, avec une méthode choisie dans l&#39;objectif de nous permettre de différencier les classes.
On cherche donc à avoir une caractéristique qui sera le plus différente possible pour les 2 et pour les 7.
<img src="https://capytale2.ac-paris.fr/web/sites/default/files/2024/02-14/14-08-16/caracteristique.png" style="width: 80%; height: auto; margin-top: 10px" />
!!!

!!! tip La moyenne comme caractéristique simple
Pour commencer, nous allons utiliser la moyenne de l&#39;image, c&#39;est à dire la moyenne des valeurs de tous les pixels comme caractéristique.
Exécutez la cellule suivante pour définir la fonction qui calcule cette caractéristique
!!!

In [None]:
# Une fonction qui calcule et renvoie la caractéristique de l'image x
def caracteristique(x):
    # Nous avons codé la fonction moyenne qui prend une image en paramètre
    k = moyenne(x)
    return k

Après avoir obtenu l'erreur d'entraînement sur cette caractéristique, <b><font color=red>vous définirez votre propre caractéristique pour faire mieux.</font></b>

## II.2 Classificateur

!!! info Classification
Le classificateur est la dernière étape permettant à un algorithme de donner une réponse au problème : l&#39;image est elle un 2 ou un 7 ?
Le classificateur utilise la caractéristique définie à l&#39;étape précédente pour répondre à la question
<img src="https://capytale2.ac-paris.fr/web/sites/default/files/2024/02-14/14-08-16/classification.png" style="width: 80%; height: auto; margin-top: 10px; margin-bottom: 10px" />
Un algorithme simple de classification est de comparer les valeurs des caractéristiques à un seuil $t$. On répondra par exemple 2 si la caractéristique est supérieure à $t$ et 7 sinon.
!!!

!!! tip Première étape : regardons si la caractéristique est plus élevée pour les 2 ou pour les 7
Calculons la caractéristique notée $k(x)$ pour nos 10 premières images :
!!!

In [None]:
affichage_dix(x_train)

for i in range(10):
    k = caracteristique(x_train[i])
    y = y_train[i]
    print('Image ' +str(i+1)+' : k(x) = '+str(round(k,2))+',   y = '+str(y)+'\n')

!!! question La caractéristique est elle plus grande pour les 2 ou pour les 7 ?
Mettez votre réponse dans le code python ci-dessous : écrivez <code>True</code> si la caractéristique est plus grande pour les 2 ou <code>False</code> si elle est plus grande pour les 7
!!!

In [None]:
# Remplacez avec True ou False
caracteristique_plus_elevee_pour_2 = ...

!!! tip Deuxième étape : déterminer le seuil $t$
Nous devons ensuite choisir à partir de quelle valeur de la caractéristique l&#39;algorithme répondra 2
!!!
!!! question Choisissez un seuil $t$ à partir de vos observations
En regardant les valeurs de la caractéristique pour les 10 premières images, choisissez un seuil $t$ qui vous semble pertinent pour trancher entre 2 et 7
!!!

In [None]:
# Remplacez avec la valeur que vous avez choisi
t = ...

!!! tip Fonction finale
A partir de vos deux réponses précédentes, on peut facilement coder la fonction <code>classification</code> :
!!!

In [None]:
# Fonction répondant au problème en fonction de la caractéristique k de l'image que l'on doit classer
def classification(k, t):
    # Comparaison de la caractéristique au seuil t
    if k > t:
        # renvoyer la classe d'image pour les valeurs hautes de la caractéristique
        if caracteristique_plus_elevee_pour_2 == True:
            return 2
        else:
            return 7
    else:
        # renvoyer la classe d'image pour les valeurs basses de la caractéristique
        if caracteristique_plus_elevee_pour_2 == True:
            return 7
        else:
            return 2

## II.3 Calcul de l'erreur d'entraînement pour ce paramètre

!!! abstract Notre algorithme est complet !
Avec les quelques étapes précédentes, nous pouvons construire un algorithme complet :
<img src="https://capytale2.ac-paris.fr/web/sites/default/files/2024/02-14/14-08-16/full_algo.png" style="width: 80%; height: auto; margin-top: 10px; margin-bottom: 10px" />
En effet, nous sommes capable de calculer une caractéristique à partir de l&#39;image, puis décider si l&#39;image représente un 2 ou 7 en regardant cette caractéristique
!!!

!!! info Taux d&#39;erreur
Nous allons maintenant calculer votre pourcentage d&#39;erreur en appliquant l&#39;algorithme présenté ci-dessus sur toutes les images.
On note $e_{train}$ l&#39;erreur d&#39;entraînement : le pourcentage d&#39;images mal classées par l&#39;algorithme sur les images d&#39;entraînement. Cette valeur est donc donnée par :
$$e_{train}(t) = \frac{\text{Nombre d&#39;images d&#39;entraînement mal classées}} {\text{Nombre total d&#39;images d&#39;entraînement}} \times 100$$
!!!

!!! tip Exécutez la cellule suivante pour calculer votre erreur d&#39;entraînement
Nous avons codé la fonction <code>erreur_train</code> pour calculer votre pourcentage d&#39;erreur avec la caractéristique et le seuil que vous avez choisi
!!!

In [None]:
# calcul de l'erreur d'entrainement avec la fonction e_train que nous avons codé
e_train = erreur_train(x_train, y_train, t, classification, caracteristique)
print("\n \n --> Erreur d'entraînement =", f"{100*e_train:.2f}% \n \n")

!!! question Qu&#39;en pensez vous ?
Etes vous satisfait de ce taux d&#39;erreur ? Nous allons voir dans les prochaines étapes les différentes possibilités pour augmenter votre score
!!!

## II.4 Optimisation du seuil $t$

!!! info Minimum de la fonction erreur
Pour trouver le meilleur paramètre $t$ nous pouvons calculer notre erreur en testant plusieurs seuils différents pour prendre celui qui permet d&#39;obtenir la plus petite erreur.
Cela revient à tracer la fonction $e_{train}(t)$ (e_train en fonction de t) pour trouver son minimum.
Executez la cellule suivante pour afficher la fonction erreur en fonction de $t$
!!!

In [None]:
# Intervale de valeurs de t testées et donc visible sur le graph
t_min = 0
t_max = 70

tracer_erreur(t_min, t_max, classification, caracteristique)

!!! question Quelle valeur de $t$ permet d&#39;obtenir la plus petite erreur ?
En observant le graphique, complétez dans la cellule suivante la valeur de $t$ qui correspond au minimum de la fonction erreur
!!!

In [None]:
# Nouveau seuil à compléter, d'après la figure précédente :
t = ...

!!! tip Calculez votre nouvelle erreur
Executez la cellule suivante pour calculer votre nouveau taux d&#39;erreur, cette fois avec la valeur de $t$ optimale
!!!

In [None]:
# Calcul de l'erreur d'entrainement avec ce nouveau seuil :  

e_train = erreur_train(x_train, y_train, t, classification, caracteristique)
print("\n \n --> Erreur d'entraînement =", f"{100*e_train:.2f}% \n \n")

## III. Amélioration de la caractéristique : faites mieux !


!!! abstract Comment faire mieux ?
Grâce à l&#39;étape précédente, vous avez pu obtenir le meilleur score possible en utilisant la moyenne comme caractéristique puisque vous avez choisi le seuil $t$ optimal.
Le seul moyen pour réduire encore cette erreur est maintenant de trouver une meilleure caractéristique !
!!!

## III.1 Piste 1 : Moyenne sur une partie de l'image



!!! info Utiliser la moyenne plus intelligemment
Nous vous proposons une première piste pour améliorer votre score :
Continuer à utiliser la moyenne mais seulement sur une sous partie de l&#39;image, par exemple sur les 10 premières lignes et les 10 premières colonnes ce qui correspondrait au coin en haut à gauche.
!!!

!!! question Choisissez la zone de l'image sur laquelle vous allez calculer la moyenne
Dans la cellule suivante, indiquez les numéros de ligne et colonne à inclure dans le calcul. Cela va dessiner un rectangle sur l'image et la caractéristique sera la moyenne des pixels dans ce rectangle.
!!!
!!! info Conseil
N'oubliez pas que la caractéristique doit être la plus différente possible pour les 2 et pour les 7. Regardez les images et les zones qui diffèrent le plus entre les deux chiffres.
!!!

In [None]:
# Complétez avec des valeurs entre 1 et 28
numero_ligne_debut = ...
numero_ligne_fin = ...
numero_colonne_debut = ...
numero_colonne_fin = ...

# La fonction affichage peut prendre en paramètre les coordonnées de la zone choisie pour l'entourer en rouge
affichage(x, numero_ligne_debut, numero_ligne_fin, numero_colonne_debut, numero_colonne_fin)

!!! tip Nouvelle fonction caractéristique
Executez la cellule suivante pour définir la nouvelle fonction <code>caracteristique</code> qui calculle la moyenne des pixels dans le rectangle que vous avez choisi
!!!

In [None]:
def caracteristique(x):
    # On peut recupérer le tableau de pixel qui nous intéresse avec la syntaxe x[a:b,c:d]
    # Les indices commencent toujours à 0 et non 1. On fait donc -1 sur nos coordonnées.
    # L'indice de fin est exclu donc il ne faut en revanche pas faire -1 pour que cela corresponde
    zone_selectionnee = x[numero_ligne_debut - 1:numero_ligne_fin, numero_colonne_debut - 1:numero_colonne_fin]
    return moyenne(zone_selectionnee)

!!! tip Première étape : regardons si la caractéristique est plus élevée pour les 2 ou pour les 7
Calculons la caractéristique notée $k(x)$ pour nos 10 premières images :
!!!

In [None]:
affichage_dix(x_train, numero_ligne_debut, numero_ligne_fin, numero_colonne_debut, numero_colonne_fin)

for i in range(10):
    k = caracteristique(x_train[i])
    y = y_train[i]
    print('Image ' +str(i+1)+' : k(x) = '+str(round(k,2))+',   y = '+str(y)+'\n')

!!! question La caractéristique est elle plus grande pour les 2 ou pour les 7 ?
Mettez votre réponse dans le code python ci-dessous : écrivez <code>True</code> si la caractéristique est plus grande pour les 2 ou <code>False</code> si elle est plus grande pour les 7
!!!

In [None]:
# Remplacez avec True ou False
caracteristique_plus_elevee_pour_2 = ...

!!! info Minimum de la fonction erreur
Pour trouver le meilleur paramètre $t$ nous pouvons calculer notre erreur en testant plusieurs seuils différents pour prendre celui qui permet d&#39;obtenir la plus petite erreur.
Cela revient à tracer la fonction $e_{train}(t)$ (e_train en fonction de t) pour trouver son minimum.
Executez la cellule suivante pour afficher la fonction erreur en fonction de $t$
!!!

In [None]:
# Intervale de valeurs de t testées et donc visible sur le graph
# Changez ces valeurs si votre caractéristique prend des valeurs dans un autre intervale
t_min = 0
t_max = 70

tracer_erreur(t_min, t_max, classification, caracteristique)

!!! question Quelle valeur de $t$ permet d&#39;obtenir la plus petite erreur ?
En observant le graphique, complétez dans la cellule suivante la valeur de $t$ qui correspond au minimum de la fonction erreur
!!!

In [None]:
# Nouveau seuil à compléter, d'après la figure précédente :
t = ...

!!! tip Calculez votre nouvelle erreur
Executez la cellule suivante pour calculer votre nouveau taux d&#39;erreur, cette fois avec la valeur de $t$ optimale
!!!

In [None]:
# Calcul de l'erreur d'entrainement avec ce nouveau seuil :  

e_train = erreur_train(x_train, y_train, t, classification, caracteristique)
print("\n \n --> Erreur d'entraînement =", f"{100*e_train:.2f}% \n \n")

!!! abstract Recommencez ou continuez
Vous pouvez maintenant répéter les étapes précdentes en modifiant la position du rectangle ou continuer pour tester une autre piste
!!!

## III.4 Quartier libre !

### 1. Définissez dans la cellule suivante votre caractéristique :

*Rappel* : la caractéristique doit renvoyer une valeur que vous pensez différente entre les images de 2 et les images de 7.

In [None]:
# Votre propre caractéristique : 

def caracteristique(x):
    
    ...

    return ...

### 2. Réglez la fonction classification : 

Afficher en excécutant la cellule suivante les valeurs de votre caractéristique pour 10 images : 

In [None]:
affichage_dix(x_train)

for i in range(10):
    k = caracteristique(x_train[i])
    y = y_train[i]
    print('Image ' +str(i+1)+' : k(x) = '+str(round(k,2))+',   y = '+str(y)+'\n')

En déduire comment compléter la fonction de classification, c'est à dire si votre caractéristique est élevée pour les images de 2 ou pour les images de 7 : 

In [None]:
# Algorithme de classification à compléter :

def classification(k, t):
    if k > t:
        return ...
    else:
        return ...

### 3. Choisir un seuil qui minimise la fonction erreur : 

In [None]:
# Changer t_min et t_max (les bornes sur lesquelles on trace la courbe) si besoin, pour l'affichage de la courbe d'erreur
t_min = 0
t_max = 70

tracer_erreur(t_min, t_max, classification, caracteristique)

In [None]:
# Seuil à compléter :

t = ...

In [None]:
# Calcul de l'erreur d'entraienement avec ce nouveau seuil :  

e_train = erreur_train(x_train, y_train, t, classification, caracteristique)
print("\n \n --> Erreur d'entraînement avec ma caractéristique =", f"{100*e_train:.2f}% \n \n")

## II.6 Soumission sur la plateforme pour obtenir l'erreur de test


<b><font color=red>Une fois que vous être content de votre caractéristique,</font></b> exécuter la cellule suivante : 

In [None]:
y_est_test = []

for x in x_test:
    k = caracteristique(x)
    y_est_test.append(classification(k, t))

# Sauvez et téléchargez vos estimations y_est_test, en entrant le nom du fichier que vous souhaitez
sauver_et_telecharger_mnist_2(y_est_test, 'y_est_test_mnist2.csv')

<b><font color=red>Soumettez ce fichier .csv sur la plateforme Challenge Data</font></b> afin d'obtenir votre erreur de test en cliquant sur **[ce lien](https://challengedata.ens.fr/challenges/116)** (n'oubliez pas au préalable d'être bien connecté).

Quelle est votre erreur de test ?

### Guide pour la soumission
![Bouton soumissions](https://github.com/akimx98/challenge_data/blob/main/Guide%20site/soumettre.png?raw=true)
![Champs soumissions](https://github.com/akimx98/challenge_data/blob/main/Guide%20site/champs_soumission.png?raw=true)