# TP3 : Fenêtres de Parzen

Maintenant que vous êtes des experts en estimation de gaussiennes, on va découvrir une nouvelle technique pour la classification : les fenêtres de Parzen.

In [1]:
from matplotlib import pyplot as plt
import numpy as np
import pandas
import progressbar

from utils import Model, split_data, read_data

Contrairement aux estimations de gaussiennes, on fait ici aucune supposition sur la distribution des données. On considère juste que chaque classe a une densité de probabilité que respecte les échantillons de la vérité terrain. L'estimation de cette densité de probabilité se fait justement grâce à ces échantillons. A chacun de ces échantillons est attribué un noyau, c'est-à-dire une fonction prédifinie qui fait office de densité de probabilité. Ce noyau est le même pour tous les échantillons. La densité de probabilité de la classe devient donc la moyenne de ce noyau appliqué sur chacun des échantillons de la classe. La formule de tout ce blabla est la suivante : 

$f(x) = \frac{1}{n} \sum_{i} \phi(x-x_{i})$

Dans cette magnifique formule, n est le nombre d'échantillons de la classe, $\phi$ est la fonction noyau, $x_{i}$ est l'échantillon i de la classe, et x est l'échantillon à prédire. Pour le point de vue graphique, faut venir en TP (chaud les graphiques sur Jupyter...)

**La question préliminaire :** Alors, les fenêtres de Parzen ? Méthode paramétrique ou non paramétrique ?

**_Réponse :_** C'est une méthode non paramétrique ! Ici, on ne fait AUCUNE supposition sur la distribution des données, c'est avec les échantillons qu'on en fait une estimation.

## Partie 1 : Création des noyaux

On va d'abord créer les fonctions de noyau. Ces fonctions prendront en entrée l'échantillon à prédire, un échantillon d'une classe, et un paramètre h.

**1)** Commençons avec le noyau uniforme ! Le principe est ultra simple : on crée une densité de probabilité uniforme de taille hxh centrée sur l'échantillon de la classe (on est ici dans le cas 2D). Si notre échantillon à prédire se trouve dans cette densité de probabilité (donc dans le carré hxh), la fonction retourne $\frac{1}{h^{2}}$, sinon la fonction retourne 0. Créez cette fonction pour commencer.

In [4]:
# A compléter
# Fonction de noyau uniforme
def noyau_uniforme(A,B,h):
    # A et B sont 2 points 2D (x,y)
    # Noyau de taille h X h centré au point A
    # Si B est dans le noyau, la distance est de 1/h², sinon la distance est de 0
    if np.abs(A[0]-B[0])<h/2 and np.abs(A[1]-B[1])<h/2:
        return 1/h**2
    else:
        return 0

Testez votre fonction maintenant avec ces quelques tests unitaires réalisés par mes soins :D

In [6]:
# Test 1 : L'échantillon est dans le noyau
A = np.array([2.5,3.6])
B = np.array([2.8,2.9])
h = 2
assert noyau_uniforme(A,B,h) == 0.25, "Test 1 non fonctionnel"

# Test 2 : L'échantillon n'est pas dans le noyau
A = np.array([2.5,3.6])
B = np.array([3.8,2.9])
h = 1
assert noyau_uniforme(A,B,h) == 0, "Test 2 non fonctionnel"

**2)** Créons un 2ème type de noyau : le noyau gaussien. Il n'est pas aussi simple que l'uniforme, mais ça va encore ;) Ici, comme son nom l'indique, la densité de probabilité est une fonction gaussienne 2D centré sur l'échantillon de la classe et de variance h. La formule du noyau est donc la suivante : 

$\phi(x,x_{i}) = \frac{1}{2\pi\sigma^{2}} e^{\frac{||x-x_{i}||^{2}}{2\sigma^{2}}}$

Ici, $\sigma$ est la variance, donc h, et x_{i} un échantillon de la classe. 

Là où on va se simplifier la vie, c'est qu'on n'a pas besoin de la "réelle" valeur de la distance, mais juste une valeur pour comparaison (on veut juste attribuer une classe à notre échantillon à prédire, pas obtenir une distance). On va donc garder que la partie exponentielle de la formule ci-dessus.

Bon, vous avez toutes les infos, donc créez cette fonction.

In [7]:
# A compléter
# Fonction de noyau gaussien
def noyau_gaussien(A,B,h):
    # A et B sont 2 points 2D (x,y)
    # Noyau gaussien de variance h centré au point A
    sigma = h
    return np.exp(-((A-B).T@(A-B))/(2*(sigma**2)))

Hop hop hop ! On teste la fonction avant la prochaine étape !

In [11]:
# Test 1
A = np.array([2.5,3.6])
B = np.array([2.8,2.9])
h = 2
assert np.abs(noyau_gaussien(A,B,h)-0.93)<0.01, "Test 1 non fonctionnel"

# Test 2
A = np.array([2.5,3.6])
B = np.array([3.8,2.9])
h = 1
assert np.abs(noyau_gaussien(A,B,h)-0.33)<0.01, "Test 2 non fonctionnel"

0.3362164937067334


## Partie 2 : Construction du modèle par fenêtres de Parzen

**1)** Créez le classifieur par fenêtres de Parzen, une classe python qui hérite de votre classe Modele de base. Dans le constructeur, vous aurez deux nouveaux paramètres : votre fonction de noyau (uniforme ou gaussien), et un paramètre h. La fonction de prédiction calcule la probabilité de l'échantillon à prédire pour chaque classe, qui est la moyenne (ou somme) des densités de probas des noyaux appliqués à chacun des échantillons d'apprentissage de chaque classe.

*Note :* La fonction d'apprentissage ici n'est pas vraiment intéressante, puisque il n'y a "aucun apprentissage". Maintenant, de mon côté, j'ai utilisé cette fonction pour stocker les échantillons d'apprentissage divisé par classes.

*Note 2 :*  Il se peut que votre échantillon à prédire soit très loin de tous les autres échantillons et que vous ayez pour chaque classe un score de 0. Dans ce cas-là, on ne trie pas les classes par score maximum, et on renvoit None à la place de la liste de classes triée.

In [12]:
# A compléter
# Création de la classe de classifieur par fenêtres de Parzen
class Parzen(Model):
    # Définition du constructeur
    def __init__(self,classes,noyau='uniforme',h=None):
        super(Parzen, self).__init__(classes)
        self.h = h
        assert noyau in ['uniforme','gaussien']
        self.noyau = noyau
        if self.noyau == 'uniforme':
            self.core_func = noyau_uniforme
        else:
            self.core_func = noyau_gaussien
    
    # Définition de la fonction d'apprentissage
    def learning(self,app_x,app_y,app_labels):
        self.app_points = {}
        for classe in self.classes:
            ind_lab = app_labels.index[app_labels==classe]
            app_x_lab = app_x[ind_lab]
            app_y_lab = app_y[ind_lab]
            self.app_points[classe]=[app_x_lab,app_y_lab]
    
    
    # Définition de la classe de prédiction
    def prediction(self,x,y):
        X = np.array([x,y])
        classes_dists = np.zeros((len(classes)))
        for i,classe in enumerate(classes):
            classes_dists[i] = sum([self.core_func(X,pt,self.h) for pt in zip(self.app_points[classe][0],self.app_points[classe][1])])
        if np.all(classes_dists==0):
            return None
        ind_dists = np.argsort(classes_dists)[::-1]
        return classes[ind_dists]
    

**2)** Testez deux modèles de Parzen (1 avec noyau uniforme, un avec noyau gaussien), sur le jeu de données 1, et avec comme paramètre h=8. Affichez les résultats (top1, top2 et matrice de confusion).

In [16]:
# A compléter
# Chargement des données tp1 app et dec
file_app = f'Archive/data_tp1_app.txt'
file_dec = f'Archive/data_tp1_dec.txt'
columns_labels = ['label','x','y']
data_app = read_data(file_app,columns_labels)
data_dec = read_data(file_dec,columns_labels)

classes = np.unique(data_app['label'])

# Création d'une instance de modèle classifieur de Parzen avec noyau uniforme
parzen_uniforme = Parzen(classes,'uniforme',8)

# Création d'une instance de modèle classifieur de Parzen avec noyau gaussien
parzen_gaussien = Parzen(classes,'gaussien',8)

# Apprentissage du classifieur avec les données d'apprentissage
app_x = data_app['x']
app_y = data_app['y']
app_labels = data_app['label']

parzen_uniforme.learning(app_x,app_y,app_labels)
parzen_gaussien.learning(app_x,app_y,app_labels)

# Evaluation du classifieur avec les données d'évaluation
dec_x = data_dec['x']
dec_y = data_dec['y']
dec_labels = data_dec['label']

print("TEST PARZEN UNIFORME")
top1,top2,CM = parzen_uniforme.test(dec_x,dec_y,dec_labels)

print("TEST PARZEN GAUSSIEN")
top1,top2,CM = parzen_gaussien.test(dec_x,dec_y,dec_labels)

TEST PARZEN UNIFORME
Top 1 :  0.996
Top 2 :  0.998
Matrice de confusion : 
    99   0   0   0   1
    0 100   0   0   0
    0   0 100   0   0
    0   0   0 100   0
    1   0   0   0  99
TEST PARZEN GAUSSIEN
Top 1 :  0.996
Top 2 :  1.0
Matrice de confusion : 
    98   0   0   0   2
    0 100   0   0   0
    0   0 100   0   0
    0   0   0 100   0
    0   0   0   0 100


**3)** Un deuxième petit test mais cette fois avec un noyau uniforme et un paramètre h=1. Qu'est-ce qui ne va pas avec cette configuration ?

In [17]:
# A compléter
# Création du modèle de Parzen uniforme, h=1
parzen_uniforme = Parzen(classes,'uniforme',1)

# Apprentissage du classifieur avec les données d'apprentissage
parzen_uniforme.learning(app_x,app_y,app_labels)

# Evaluation du classifieur avec les données d'évaluation
top1,top2,CM = parzen_uniforme.test(dec_x,dec_y,dec_labels)

TypeError: 'NoneType' object is not subscriptable

**_Réponse (analyse du problème) :_** Ici, on a une erreur de type TypeError. On a un objet de type NoneType, alors que ça devrait être une liste de classes triées. Du coup, l'échantillon est non classé.

**4)** A partir du problème que vous avez constaté, modifiez votre fonction de calcul de métrique pour prendre en charge les échantillons non classés. Un tel échantillon est donc considéré comme une fausse prédiction (d'un point de vue des scores top1 et top2). Pour ce qui est de la matrice de confusion, on rajoutera une colonne pour tous les échantillons non classés.

*Note :* Cette fonction pourra ensuite remplacer celle de base de la classe Modele (TP1)

In [18]:
# A compléter
# Création de la classe de classifieur par fenêtres de Parzen
class Parzen(Model):
    # Définition du constructeur
    def __init__(self,classes,noyau='uniforme',h=None):
        super(Parzen, self).__init__(classes)
        self.h = h
        assert noyau in ['uniforme','gaussien']
        self.noyau = noyau
        if self.noyau == 'uniforme':
            self.core_func = noyau_uniforme
        else:
            self.core_func = noyau_gaussien
    
    # Définition de la fonction d'apprentissage
    def learning(self,app_x,app_y,app_labels):
        self.app_points = {}
        for classe in self.classes:
            ind_lab = app_labels.index[app_labels==classe]
            app_x_lab = app_x[ind_lab]
            app_y_lab = app_y[ind_lab]
            self.app_points[classe]=[app_x_lab,app_y_lab]
    
    
    # Définition de la fonction de prédiction
    def prediction(self,x,y):
        X = np.array([x,y])
        classes_dists = np.zeros((len(classes)))
        for i,classe in enumerate(classes):
            classes_dists[i] = sum([self.core_func(X,pt,self.h) for pt in zip(self.app_points[classe][0],self.app_points[classe][1])])
        if np.all(classes_dists==0):
            return None
        ind_dists = np.argsort(classes_dists)[::-1]
        return classes[ind_dists]
    
    # Définition de la fonction de métrique qui prend en charge les points non classés.
    def metrics(self,gt,pred):
        CM = np.zeros((len(self.classes),len(self.classes)+1),dtype=np.uint16)
        top1 = 0
        top2 = 0
        for g,p in zip(gt,pred):
            if p is None:
                CM[g-1,-1]+=1
            else:
                if g == p[0]:
                    top1+=1
                    top2+=1
                elif g in p[:2]:
                    top2+=1
                CM[g-1,p[0]-1]+=1
        return top1/len(gt), top2/len(gt), CM
    

**5)** Re-testez maintenant votre modèle de Parzen uniforme avec h=1 sur le jeu de données 1. Vous devriez constater un nombre significatif de points non classés.

In [19]:
# A compléter
# Création du modèle de Parzen uniforme, h=1
parzen_uniforme = Parzen(classes,'uniforme',1)

# Apprentissage du classifieur avec les données d'apprentissage
parzen_uniforme.learning(app_x,app_y,app_labels)

# Evaluation du classifieur avec les données d'évaluation
top1,top2,CM = parzen_uniforme.test(dec_x,dec_y,dec_labels)

Top 1 :  0.87
Top 2 :  0.87
Matrice de confusion : 
   83  0  0  0  1 16
   0 75  0  0  0 25
   0  0 90  0  0 10
   0  0  0 94  0  6
   0  0  0  0 93  7


## Partie 3 : Cross-validation

Une question se pose : comment choisis-t-on le paramètre h ?

Une première solution serait de tester plusieurs paramètres h sur le jeu d'évaluation. Cette stratégie, c'est un **RED FLAG !!!** 
En fait, le jeu d'évaluation est uniquement destiné à l'évaluation d'un modèle : A aucun moment, il ne faut ajuster ces paramètres avec ce jeu, mais uniquement ce jeu d'apprentissage. Pourquoi cela ? Car nous souhaitons un modèle qui "généralise" bien, c'est-à-dire adapté à notre problème et non au jeu de données. Hors, en adaptant le ou les paramètre(s), on optimise le classifieur sur le jeu de données...

Alors, pour optimiser le paramètre h, on va utiliser le jeu d'apprentissage uniquement, et on va utiliser la cross validation. Le principe est simple : on va diviser le jeu d'apprentissage en N dossiers. Ensuite, pour chaque valeur de paramètre, on va faire N tests, avec pour chaque jeu un dossier de validation pour l'évaluation, et les autres dossiers pour l'apprentissage. On fera ensuite une moyenne des scores obtenus (ici, le top1).

**1)** Ecrivez la fonction de cross validation, qui prendra en entrée N (le nombre de dossiers crées pour la cross validation), les données et labels du jeu d'apprentissage, et la range des valeurs h à tester (h minimum, h maximum et step), ainsi que d'autres paramètres à définir. La fonction retournera la moyenne des scores top1 pour chaque valeur de h testée.

*Note :* Faites attention lors de la répartition des données en dossier. Il faut avoir des échantillons de chaque classe dans chaque dossier, sinon, ça va être compliqué...

In [42]:
# A compléter
# Fonction de cross validation
def cross_validation(N,data_x,data_y,data_labels,model_func,classes,noyau,hmin=0,hmax=10,hstep=1):
    # Première étape : on divise les données en N datasets aléatoirement
    part = []
    for i in range(N):
        ids_app = [j for j in range(len(data_x)) if j%N != i]
        ids_val = [j for j in range(len(data_x)) if j%N == i]
        part.append({'app':[data_x[ids_app],data_y[ids_app],data_labels[ids_app]],
                     'val':[data_x[ids_val],data_y[ids_val],data_labels[ids_val]]})


    h_results = []
    for h in progressbar.progressbar(np.arange(hmin,hmax,hstep)):
        if h == 0:
            h = 1e-4
        h_top1 = []
        for i in range(N):
            model = model_func(classes,noyau,h)
            app_x,app_y,app_labels = part[i]['app']
            val_x,val_y,val_labels = part[i]['val']
            model.learning(app_x,app_y,app_labels)
            top1,__,__ = model.test(val_x,val_y,val_labels,print_results=False)
            h_top1.append(top1)
        h_results.append((h,np.mean(h_top1)))
    return h_results

**2)** Testez votre fonction de cross validation à 3 dossiers sur le jeu de données 1 avec un noyau gaussien. Quel est le meilleur h obtenu ? Et quel est la moyenne des top1 avec ce paramètre ?

*Note :* On souhaiterait avoir la meilleur valeur de h à une précision de 1 décimale après la virgule. Ayez une stratégie pour éviter de calculer toutes les valeurs possibles, car sinon, ça va être très long ;)

In [53]:
# A compléter
# Cross validation sur le jeu de donnée 1, noyau uniforme
jeu = 1
noyau ='gaussien'

# Chargement des données tp1 app et dec
file_app = f'Archive/data_tp{jeu}_app.txt'
file_dec = f'Archive/data_tp{jeu}_dec.txt'
columns_labels = ['label','x','y']
data_app = read_data(file_app,columns_labels)
classes = np.unique(data_app['label'])

# Apprentissage du classifieur avec les données d'apprentissage
app_x = data_app['x']
app_y = data_app['y']
app_labels = data_app['label']

# 1er test : h => 0-10, pas 1
print("Test n°1")
h_results = cross_validation(3,app_x,app_y,app_labels,Parzen,classes,noyau,0,10,1)
h_max = max([p[1] for p in h_results])
h_opti = [h for h in h_results if h[1]==h_max][0][0]

# Deuxième test : on test à 0.1 step, entre h_opti -1 et h_opti + 1
print("Test n°2")
h_results = cross_validation(3,app_x,app_y,app_labels,Parzen,classes,noyau,int(h_opti-1),int(h_opti+1),0.1)
h_max = max([p[1] for p in h_results])
h_opti = [h for h in h_results if h[1]==h_max][0][0]
top1_opti = [h for h in h_results if h[1]==h_max][0][1]
print(h_opti)
print(top1_opti)

N/A% (0 of 10) |                         | Elapsed Time: 0:00:00 ETA:  --:--:--

Test n°1


100% (10 of 10) |########################| Elapsed Time: 0:00:11 Time:  0:00:11
N/A% (0 of 20) |                         | Elapsed Time: 0:00:00 ETA:  --:--:--

Test n°2


100% (20 of 20) |########################| Elapsed Time: 0:00:21 Time:  0:00:21


0.1
1.0


**3)** Faites de même maintenant avec les 3 jeux de données et les 2 types de noyau. Vous devriez donc avoir 6 valeurs de h optimisés et 6 scores obtenus sur les dossiers de validation. Remplissez ensuite le tableau avec tous ces résultats.

Pour comparaison, je vous donne mes résultats obtenus ;)

| Jeu de données / Noyau  | h | top1 |
|:-----------------------:|:-:|:----:|
| JDD 1 / Uniforme  | 4.2 | 100% |
| JDD 1 / Gaussien  | 0.1 | 100% |
| JDD 2 / Uniforme  | 5.2 | 94.99% |
| JDD 2 / Gaussien  | 1.8 | 94.99% |
| JDD 3 / Uniforme  | 4.1 | 74.79% |
| JDD 3 / Gaussien  | 2.5 | 75.19% |

In [54]:
h_optimisesléter
# Cross validation sur le jeu de donnée 1, noyau uniforme
h_optimises = {}
for jeu in [1,2,3]:
    for noyau in ['uniforme','gaussien']:
        # Chargement des données tp1 app et dec
        file_app = f'Archive/data_tp{jeu}_app.txt'
        file_dec = f'Archive/data_tp{jeu}_dec.txt'
        columns_labels = ['label','x','y']
        data_app = read_data(file_app,columns_labels)
        classes = np.unique(data_app['label'])

        # Apprentissage du classifieur avec les données d'apprentissage
        app_x = data_app['x']
        app_y = data_app['y']
        app_labels = data_app['label']

        # 1er test : h => 0-10, pas 1
        print("Test n°1")
        h_results = cross_validation(3,app_x,app_y,app_labels,Parzen,classes,noyau,0,10,1)
        h_max = max([p[1] for p in h_results])
        h_opti = [h for h in h_results if h[1]==h_max][0][0]

        # Deuxième test : on test à 0.1 step, entre h_opti -1 et h_opti + 1
        print("Test n°2")
        h_results = cross_validation(3,app_x,app_y,app_labels,Parzen,classes,noyau,int(h_opti-1),int(h_opti+1),0.1)
        h_max = max([p[1] for p in h_results])
        h_opti = [h for h in h_results if h[1]==h_max][0][0]
        top1_opti = [h for h in h_results if h[1]==h_max][0][1]
        h_optimises['{}_{}'.format(jeu,noyau)] = (h_opti,top1_opti)
        

N/A% (0 of 10) |                         | Elapsed Time: 0:00:00 ETA:  --:--:--

Test n°1


100% (10 of 10) |########################| Elapsed Time: 0:00:03 Time:  0:00:03
N/A% (0 of 20) |                         | Elapsed Time: 0:00:00 ETA:  --:--:--

Test n°2


100% (20 of 20) |########################| Elapsed Time: 0:00:07 Time:  0:00:07
N/A% (0 of 10) |                         | Elapsed Time: 0:00:00 ETA:  --:--:--

Test n°1


100% (10 of 10) |########################| Elapsed Time: 0:00:11 Time:  0:00:11
N/A% (0 of 20) |                         | Elapsed Time: 0:00:00 ETA:  --:--:--

Test n°2


100% (20 of 20) |########################| Elapsed Time: 0:00:20 Time:  0:00:20
N/A% (0 of 10) |                         | Elapsed Time: 0:00:00 ETA:  --:--:--

Test n°1


100% (10 of 10) |########################| Elapsed Time: 0:00:03 Time:  0:00:03
N/A% (0 of 20) |                         | Elapsed Time: 0:00:00 ETA:  --:--:--

Test n°2


100% (20 of 20) |########################| Elapsed Time: 0:00:07 Time:  0:00:07
N/A% (0 of 10) |                         | Elapsed Time: 0:00:00 ETA:  --:--:--

Test n°1


100% (10 of 10) |########################| Elapsed Time: 0:00:11 Time:  0:00:11
N/A% (0 of 20) |                         | Elapsed Time: 0:00:00 ETA:  --:--:--

Test n°2


100% (20 of 20) |########################| Elapsed Time: 0:00:21 Time:  0:00:21
N/A% (0 of 10) |                         | Elapsed Time: 0:00:00 ETA:  --:--:--

Test n°1


100% (10 of 10) |########################| Elapsed Time: 0:00:04 Time:  0:00:04
N/A% (0 of 20) |                         | Elapsed Time: 0:00:00 ETA:  --:--:--

Test n°2


100% (20 of 20) |########################| Elapsed Time: 0:00:07 Time:  0:00:07
N/A% (0 of 10) |                         | Elapsed Time: 0:00:00 ETA:  --:--:--

Test n°1


100% (10 of 10) |########################| Elapsed Time: 0:00:11 Time:  0:00:11
N/A% (0 of 20) |                         | Elapsed Time: 0:00:00 ETA:  --:--:--

Test n°2


100% (20 of 20) |########################| Elapsed Time: 0:00:21 Time:  0:00:21


| Jeu de données / Noyau  | h | top1 |
|:-----------------------:|:-:|:----:|
| JDD 1 / Uniforme  | 4.2 | 100% |
| JDD 1 / Gaussien  | 0.1 | 100% |
| JDD 2 / Uniforme  | 5.2 | 94.99% |
| JDD 2 / Gaussien  | 1.8 | 94.99% |
| JDD 3 / Uniforme  | 4.1 | 74.79% |
| JDD 3 / Gaussien  | 2.5 | 75.19% |

**4)** Evaluez maitenant vos classifieurs sur les jeux d'évaluation des 3 jeux de données, avec les 2 types de noyaux, et avec les paramètres h optimisés. Reportez les résultats sur le tableau suivant. Les résultats sont-ils en raccord avec ceux obtenus sur les jeux de validations ? Comparez les performances des classifieurs en dissociant l'analyse sur les 3 jeux de données.

In [56]:
# A compléter
# Evaluation des classifieurs sur les jeux de tests
top1_eval = {}
for jeu in [1,2,3]:
    for noyau in ['uniforme','gaussien']:
        h = h_optimises['{}_{}'.format(jeu,noyau)][0]
        # Chargement des données tp1 app et dec
        file_app = f'Archive/data_tp{jeu}_app.txt'
        file_dec = f'Archive/data_tp{jeu}_dec.txt'
        columns_labels = ['label','x','y']
        data_app = read_data(file_app,columns_labels)
        data_dec = read_data(file_dec,columns_labels)
        classes = np.unique(data_app['label'])

        # Création du modèle
        model = Parzen(classes,noyau,h)
        
        # Apprentissage du classifieur avec les données d'apprentissage
        app_x = data_app['x']
        app_y = data_app['y']
        app_labels = data_app['label']
        
        model.learning(app_x,app_y,app_labels)

        # Evaluation du classifieur avec les données d'évaluation
        dec_x = data_dec['x']
        dec_y = data_dec['y']
        dec_labels = data_dec['label']

        top1,top2,CM = model.test(dec_x,dec_y,dec_labels,print_results=False)
        top1_eval['{}_{}'.format(jeu,noyau)] = top1

4.199999999999999
0.1
6.199999999999996
1.8
4.100000000000001
0.7000000000000001


In [57]:
top1_eval

{'1_uniforme': 0.994,
 '1_gaussien': 0.992,
 '2_uniforme': 0.948,
 '2_gaussien': 0.952,
 '3_uniforme': 0.714,
 '3_gaussien': 0.7}

| Jeu de données / Noyau  | h | top1 valid | top1 eval |
|:-----------------------:|:-:|:----------:|:---------:|
| JDD 1 / Uniforme  | 4.2 | 100% | 99.40% |
| JDD 1 / Gaussien  | 0.1 | 100% | 99.20% |
| JDD 2 / Uniforme  | 5.2 | 94.99% | 94.80% |
| JDD 2 / Gaussien  | 1.8 | 94.99% | 95.20% |
| JDD 3 / Uniforme  | 4.1 | 74.79% | 71.40% |
| JDD 3 / Gaussien  | 2.5 | 75.19% | 70.00% |

**_Réponse :_** Les résultats en évaluation sont sensiblement les mêmes que ceux en validation, donc les modèles n'ont pas de surapprentissage (hormis ceux sur le jeu de données 3). Les résultats sont quasi parfaits sur le JDD 1, et très bons sur le JDD 2. Pour le JDD 3, c'est toujours compliqué...