# Challenge Data - Module introduction à l'IA

## Classification des images de 2 et de 7

# I. Visualisation des données

On commence par importer les données dont nous aurons besoin :

In [None]:
from utilitaires_mnist_2 import *

## I.1 Rappels Python

### Le type list

On définit une liste à l'aide de crochets (rajoutez des print après chaque définition)  :

In [None]:
# liste vide :
liste_vide = []
# une liste peut contenir des nombres :
liste = [1, 5.4, -3]

On accède à l'élément $i$ d'une liste en faisant
`ma_liste[i]`.

<div class="alert alert-block alert-warning">
<b>⚠️ Attention  :</b> En Python les indices sont comptés à partir de 0, le premier élément d'une liste est donc liste[0].
</div>

Avec la fonction `print(...)`, afficher le premier élément de la liste `liste`` :

In [None]:
# Afficher le premier élément de la liste
...

Pour ajouter des éléments à une liste, on peut utiliser la méthode `append` :

In [None]:
# Ajouter "8" à la liste


## I.2 Image numérique

Une image en niveaux de gris : tableau 2D de $28 \times 28$ pixels. La valeur de chaque pixel est un entier compris entre 0 et 255.

Nous avons créé une fonction `affichage`, vous pouvez directement l'appliquer à la variable `x` :

In [None]:
# Affichez l'image x :
affichage(x)

### Accéder à un pixel particulier

On accède à la valeur du pixel $(i,j)$ à la $i+1$-ème ligne et $j+1$-ème colonne par la commande `x[i,j]`. Par exemple, pour accéder à la valeur du pixel central (14,14) on écrit simplement `x[14,14]`. On peut ensuite afficher cette valeur avec `print`.

In [None]:
# Valeur du pixel (14,14) : 


### Accéder à une « tranche » de pixels

* `x[a:b,c:d]` extrait les pixels appartenant aux lignes `a` à `b-1` (inclus) et colonnes `c` à `d-1` (inclus).
* `x[a:b,c:d]` est un tableau de taille $(b-a) \times (d-c)$.
* Pour récupérer tous les pixels de `x` appartenant aux colonnes `c` à `d-1`, on utilise `x[:,c:d]`; et `x[a:b,:]` pour tous les pixels appartenant aux lignes `a` à `b-1`.

<b><font color=red> Écrire une ligne de code pour afficher uniquement les colonnes 11 à 23 de l'image $x$ :</font></b>

In [None]:
# Visualisez les colonnes 11 à 23 de l'image x :


In [None]:
# Affichez directement la valeur des pixels des colonnes 11 à 23 de l'image x :


# II. Challenge : classer les chiffres 2 et 7

In [None]:
# Affichez la première image de `x_train` :
print("y = "+str(y_train[0])+" (chiffre = "+str(y_train_chiffres[0])+")")
affichage(x_train[0])

# Affichez la deuxième image de `x_train` :
print("y = "+str(y_train[1])+", chiffre = "+str(y_train_chiffres[1])+")")
affichage(x_train[1])

# Affichez la 9eme image de `x_train` :
print("y = "+str(y_train[10])+", chiffre = "+str(y_train_chiffres[10])+")")
affichage(x_train[10])


Pour visualiser les 10 premières images, utiliser la fonction `affichage_dix` :

In [None]:
# Affiche les 10 premières images de x_train :
affichage_dix(x_train)

## II.1 Choix a priori de la caractéristique

**Benchmark :** Proposition d'un caractéristiques utilisée comme référence

In [None]:
# Une fonction qui calcule et renvoi la caractéristique de l'image x

def caracteristique(x):
    c = moyenne(x)
    return c

<b><font color=red> Après être allé jusqu’au bout de ce Notebook</font></b>, vous définirez votre propre caractéristique en modifiant les dernières cellules

## II.2 Classificateur

**Algorithme de classification :**
* On choisit un seuil noté `t`
* On compare la caractéristique de l'image à `t` et on renvoi l'entier $-1$ ou $1$ :

**Choix du seuil**
Afficher les valeurs de caractéristiques pour des images de `x_train` :

In [None]:
affichage_dix(x_train)

for i in range(10):
    c = caracteristique(x_train[i])
    y = y_train[i]
    print('Image ' +str(i+1)+' : c(x) = '+str(round(c,2))+',   y = '+str(y)+'\n')

<b><font color=red> D'après ces obervations, choisissez un seuil `s` et complétez la fonction classification :</font></b>

In [None]:
# Seuil à compléter :

t = 34

# Algorithme de classification :
def classification(x, t):
    c = caracteristique(x)
    if c > t:
        return -1
    else:
        return 1

## II.3 Calcul de l'erreur d'entraînement pour ce paramètre

Pour calculer l'erreur d'entraînement : 
- on calcule d'abord l'erreur par image
- puis on calcule la moyenne des erreurs par images

Notez que ces deux fonctions dépendent du paramètre ``t``.  

<b><font color=red> Exécuter la cellule suivante pour calculer votre erreur d'entraînement :</font></b>

In [None]:
# calcul de l'erreur d'entraienement grâce 

e_train = erreur_train(x_train, y_train, t, classification)
print("\n \n --> Erreur d'entraînement =", f"{100*e_train:.2f}% \n \n")

Qu'en pensez-vous ? Nous allons maintenant chercher le paramètre s qui minimse la fonction erreur.

## II.4 Minimisation de la fonction erreur

Pour trouver le meilleur paramètre ``s`` nous traçons la fonction $e_{train}(s)$ pour trouver son minimum. 

<b><font color=red> Exécuter la cellule suivante pour afficher la fonction erreur :</font></b>

In [None]:
t_min = 0
t_max = 80

tracer_erreur(t_min, t_max, classification)

<br>
 
<b><font color=blue> 1. Quelle valeur de ``t`` pouvez prendre pour avoir le moins d'erreur ? </font></b>
<br>

<br>
<b><font color=blue> 2. Retournez à la section II.2 pour mettre à jour la valeur de ``t`` et faites tourner les cellules de II.2 à II.3 pour afficher votre nouveau score. </font></b>
<br>

<br>
<b><font color=blue> 3. Retournez à la section II.1 pour définir votre propre caractéristique et diminuer encore l'erreur.</font></b> <b><font color=red>Essayer d'obtenir l'erreur la plus faible possible ! </font></b>

Pensez à optimiser la valeur de ``t`` pour chaque nouvelle caractéristique, et éventuellement à échanger les rôles de -1 et 1 dans le code de la fonction ``classification``. 

## II.4 Soumission sur la plateforme pour obtenir l'erreur de test


<b><font color=red>Une fois que vous être content de votre caractéristique,</font></b> exécuter la cellule suivante : 

In [None]:
y_est_test = []

for x in x_test_2:
    y_est_test.append(classification(x, t))

# Sauvez et téléchargez vos estimations y_est_test, en entrant le nom du fichier que vous souhaitez
sauver_et_telecharger_mnist_2(y_est_test, 'y_est_test_mnist2.csv')

<b><font color=red>Soumettez ce fichier .csv sur la plateforme Challenge Data</font></b> afin d'obtenir votre erreur de test en cliquant sur **[ce lien](https://challengedata.ens.fr/challenges/116)** (n'oubliez pas au préalable d'être bien connecté).

Quelle est votre erreur de test ?

In [None]:
# Une fonction qui calcule et renvoie la caractéristique de l'image x

def caracteristique(x):

    c = ...

    return c