# TP 3 : Introduction à la classification

L'objectif de ce TP est de programmer et de tester 2 algorithmes de classification très simples mais très efficaces. L'algorithme du Plus Proche Voisin (PPV) et le classifieur Baysien Naïf (CBN).

In [63]:
# Bibliothèques utiles
from sklearn import *
import numpy as np
from sklearn.neighbors import KNeighborsClassifier #algo des K plus proche voisins de sklearn
from sklearn import metrics #permet de calculer les distances entre données
from sklearn.naive_bayes import GaussianNB

## A. Plus proche voisin

L'algorithme du Plus Proche Voisin est un algorithme très simple de classification qui repose sur le principe suivant : **La classe de chaque donnée de test (à classer) doit être la classe de la donnée la plus proche (le plus similaire) parmi les données d'apprentissage**  

### 1) Création d'une fonction PPV(X, Y)

Cette fonction prend en entrée les données X et les étiquettes Y puis renvoie une étiquette pour chaque donnée prédite à partir du plus proche voisin de cette donnée.

In [3]:
def PPV(data, target):
    Y_pred=[]
    #calcule la distance euclidienne entre les données pour trouver celui qui est le plus proche d'une donnée quelconque
    distance = metrics.pairwise.euclidean_distances(data) 
    #Parcours de toutes les distances
    for i, point in enumerate(distance): #i = clé ; point = valeur ; enumerate(distance) = un dictionnaire
        # On supprime la valeur en position i de la matrice point courante par delete(point,i)
        #puis on les stocke dans une matrice contenant les voisins de l'elt à la position i de point
        #la matrice point passe de 150 observations à 149
        voisins = np.delete(point,i)
        # par la suite on récupère l'indice du minimum de la nouvelle matrice par argmin
        #Le plus petit voisin de l'elt à la position i de la matrice point
        # il correspond à la distance minimale et donc à l'indice de l'elt le plus proche de i de point
        min_voisin = np.argmin(voisins)
        #on récupère l'étiquette du plus proche voisin de l'elt à la position i       
        Y_pred.append(target[min_voisin])
    return np.array(Y_pred)

### 2) Erreur de prédiction : Pourcentage d'étiquettes mal prédites

In [57]:
def PPV_erreur(data, target):
    Y_pred=[]
    erreur = []
    distance = metrics.pairwise.euclidean_distances(data) 
    #Parcours de toutes les distances
    for i, point in enumerate(distance): 
        voisins = np.delete(point,i)
        min_voisin = np.argmin(voisins)
        Y_pred.append(target[min_voisin])
        #Y_pred = np.array(Y_pred)
    
    #calcul de l'erreur
    erreur.append(np.mean(Y_pred != Y))

    return (erreur[0]*100)

### 3) Test sur les données Iris

In [58]:
# Données iris
iris = datasets.load_iris()
X = iris.data #les données
Y = iris.target # les étiquettes

# étiquettes des données prédites
Y_pred = PPV(X,Y)
print("Etiquettes des données prédites : ", Y_pred)

# Erreur de prédiction
erreur = PPV_erreur(X,Y)
print("Erreur de prédiction : ",erreur,"%")

Etiquettes des données prédites :  [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 2 1
 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 1 2 2 2 2
 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
Erreur de prédiction :  4.0 %


### 4) Test de la fonction des k plus proches voisins de sklearn (avec k=1)

In [6]:
# Test avec k=1
knn = KNeighborsClassifier(n_neighbors=1)
knn.fit(X, Y) 
#prédiction des étiquettes
pred = knn.predict(X)
error = []
error.append(np.mean(pred != Y))
print("Erreur de prédiction pour k=1 : ", error[0]*100, "%")

Erreur de prédiction pour k=1 :  0.0 %


In [157]:
# Test avec d'autres valeurs
# On considère les k de 1 à 10
for k in range(1,11):
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X, Y) 
    #prédiction des étiquettes
    pred = knn.predict(X)
    error = []
    error.append(np.mean(pred != Y))
    print("Erreur de prédiction pour k = ",k," : ",round(error[0]*100, 2), "%")

Erreur de prédiction pour k =  1  :  0.0 %
Erreur de prédiction pour k =  2  :  2.0 %
Erreur de prédiction pour k =  3  :  4.0 %
Erreur de prédiction pour k =  4  :  4.0 %
Erreur de prédiction pour k =  5  :  3.33 %
Erreur de prédiction pour k =  6  :  2.67 %
Erreur de prédiction pour k =  7  :  2.67 %
Erreur de prédiction pour k =  8  :  2.0 %
Erreur de prédiction pour k =  9  :  2.0 %
Erreur de prédiction pour k =  10  :  2.0 %


Les résultats sont différents de ceux obtenus avec notre algorithme car il n'y a pas d'erreur de prédiction

### 5) Modification de la fonction PPV pour qu'elle prenne en entrée un nombre k de voisins au lieu de 1

In [3]:
def PPV(data, target):
    Y_pred=[]
    distance = metrics.pairwise.euclidean_distances(data) 
    for i, point in enumerate(distance): 
        voisins = np.delete(point,i)
        min_voisin = np.argmin(voisins)
        Y_pred.append(target[min_voisin])
    return np.array(Y_pred)

In [10]:
distansse = metrics.pairwise.euclidean_distances(X) 
distansse

array([[0.        , 0.53851648, 0.50990195, ..., 4.45982062, 4.65080638,
        4.14004831],
       [0.53851648, 0.        , 0.3       , ..., 4.49888875, 4.71805044,
        4.15331193],
       [0.50990195, 0.3       , 0.        , ..., 4.66154481, 4.84871117,
        4.29883705],
       ...,
       [4.45982062, 4.49888875, 4.66154481, ..., 0.        , 0.6164414 ,
        0.64031242],
       [4.65080638, 4.71805044, 4.84871117, ..., 0.6164414 , 0.        ,
        0.76811457],
       [4.14004831, 4.15331193, 4.29883705, ..., 0.64031242, 0.76811457,
        0.        ]])

In [11]:
for c, v in enumerate(distansse):
    print(c," => ",v)

0  =>  [0.         0.53851648 0.50990195 0.64807407 0.14142136 0.6164414
 0.51961524 0.17320508 0.92195445 0.46904158 0.37416574 0.37416574
 0.59160798 0.99498744 0.88317609 1.1045361  0.54772256 0.1
 0.74161985 0.33166248 0.43588989 0.3        0.64807407 0.46904158
 0.59160798 0.54772256 0.31622777 0.14142136 0.14142136 0.53851648
 0.53851648 0.38729833 0.6244998  0.80622577 0.45825757 0.37416574
 0.41231056 0.24494897 0.8660254  0.14142136 0.17320508 1.34907376
 0.76811457 0.45825757 0.6164414  0.59160798 0.36055513 0.58309519
 0.3        0.2236068  4.00374824 3.61662826 4.16413256 3.09354166
 3.79209705 3.41613817 3.78549865 2.34520788 3.74966665 2.88790582
 2.70370117 3.22800248 3.14642654 3.7        2.58069758 3.62767143
 3.43511281 3.00998339 3.76828874 2.88270706 3.85356977 3.0757113
 4.04722127 3.65786823 3.41613817 3.59722115 4.04722127 4.24499706
 3.53128872 2.49399278 2.81780056 2.70185122 2.89482297 4.13521463
 3.41174442 3.51994318 3.91152144 3.6180105  3.         3.021588

In [176]:
def PPV_new(data, target, k):
    Y_pred=[]
    distance = metrics.pairwise.euclidean_distances(data) 
    #Parcours de toutes les distances
    for i, point in enumerate(distance): 
        voisins = np.delete(point,i)
        indVoisinSort = np.argsort(voisins)
        #min_voisin = np.argmin(voisins)
        for j in range(k):
            Y_pred.append(target[distanceTrie[i]])
    return np.array(Y_pred)
Y_pred2 = PPV_new(X, Y, 1)
Y_pred2 == Y_pred

array([ True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True, False,  True,
       False,  True,  True,  True,  True,  True,  True,  True,  True,
       False,  True, False,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True, False,  True, False,  True, False,
       False, False, False,  True, False,  True,  True, False, False,
        True,  True,  True, False,  True,  True,  True,  True,  True,
        True,  True, False,  True,  True,  True,  True,  True,  True,
        True,  True,

In [173]:
pred=[]
distance = metrics.pairwise.euclidean_distances(X)
#distance[0]
indices = [i for i, point in enumerate(distance[0])]
print("Indice distance :",np.array(indices))
distanceTrie = np.argsort(distance[0])
print("Indices triés : ", distanceTrie)
for i in range(4):
    pred.append(Y[distanceTrie[i]])
print(pred)
#voisin = np.delete(distance[0],0)
#indVoisinSort = np.argsort(voisin)
#indVoisinSort

Indice distance : [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89
  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125
 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143
 144 145 146 147 148 149]
Indices triés :  [  0  17   4  28  39  27  40   7  49  37  21  48  26  19  46  35  10  11
  31  36  20  43  34  23   9   2   6  29  30   1  25  16  47  12  45  24
   5  44  32   3  22  18  42  33  38  14   8  13  15  41  98  57  93  79
  64  81  60  80  69  59  82  88  67  92  89  99  95  71  53  96  62  94
  61  90  97  84  55  74  66  85  78 106  91  75  51  87  65  7

In [None]:
def PPV_2(data, target, k):
    Y_pred=[]
    distance = metrics.pairwise.euclidean_distances(data) 
    for i, point in enumerate(distance): 
        voisins = np.delete(point,i)
        min_voisin = np.argmin(voisins)
        Y_pred.append(target[min_voisin])
    return np.array(Y_pred)

In [None]:
voisins = np.delete(distance[0],)
        min_voisin = np.argmin(voisins)
        Y_pred.append(target[min_voisin])

## B. Classifieur Bayesien Naïf

L'algorithme du classifieur Bayésien Naïf est un algorithme de classification basé sur le calcul de probabilité d'appartenance à chaque classe. C'est à dire que la donnée de test (à classer) sera affectée à la classe la plus probable.

### 1. Fonction CBN(X,Y)

In [31]:
def CBN(X, Y):
    # liste des moyennes (barycentre) de la classe
    moy = [np.mean(X[(Y==0)], axis=0), np.mean(X[(Y==1)], axis=0), np.mean(X[(Y==2)], axis=0)]
    # on convertit cette liste de moyenne en tableau numpy plus facile à manipuler
    moy=np.asarray(moy)

    # distance euclidienne entre une donnée X et le barycentre (moyenne) de la classe
    dxk = metrics.pairwise.euclidean_distances (X, moy)
    
    # somme des distances entre la donnée X et chaque barycentre de chaque classe
    dxb=np.sum(dxk, axis=1)
    
    pxk = np.zeros(450,dtype=float).reshape((150, 3))
    for i in range (0,len(dxb)):
        for j in range (0, 3):
            # probabilité qu'une donnée X ait la valeur Xi pour la variable i connaissant sa classe
            pxk[i][j]=1-(dxk[i][j]/dxb[i]) 
    
    # propabilité d'appartenance à chaque classe
    Ybay=np.argmax(pxk, axis=1)
    return Ybay    

### 2. Erreur de prédiction (pourcentage d'étiquettes mal prédites)

In [56]:
def CBN_erreur(X, Y):
    #Y_pred=[]
    erreur = []
    # liste des moyennes (barycentre) de la classe
    moy = [np.mean(X[(Y==0)], axis=0), np.mean(X[(Y==1)], axis=0), np.mean(X[(Y==2)], axis=0)]
    # on convertit cette liste de moyenne en tableau numpy plus facile à manipuler
    moy=np.asarray(moy)

    # distance euclidienne entre une donnée X et le barycentre (moyenne) de la classe
    dxk = metrics.pairwise.euclidean_distances (X, moy)
    
    # somme des distances entre la donnée X et chaque barycentre de chaque classe
    dxb=np.sum(dxk, axis=1)
    
    pxk = np.zeros(450,dtype=float).reshape((150, 3))
    for i in range (0,len(dxb)):
        for j in range (0, 3):
            # probabilité qu'une donnée X ait la valeur Xi pour la variable i connaissant sa classe
            pxk[i][j]=1-(dxk[i][j]/dxb[i]) 
    
    # propabilité d'appartenance à chaque classe
    Y_pred=np.argmax(pxk, axis=1)
    
    # calcul de l'erreur
    erreur.append(np.mean(Y_pred != Y))
    
    return round((erreur[0]*100), 2)

#### - Test sur les données iris

In [61]:
erreur = CBN_erreur(X, Y)
print("Le pourcentage d'étiquettes mal prédites est de ",erreur,"%")

Le pourcentage d'étiquettes mal prédites est de  7.33 %


### 3. Test de la fonction du classifieur Bayesien Naïf inclu dans sklearn

In [70]:
gnb = GaussianNB()
gnb.fit(X, Y)
y_pred = gnb.predict(X)
print(y_pred)
e = []
e.append(np.mean(y_pred != Y))
print("Erreur de prédiction : ", e[0]*100, "%")

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1
 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 1 2 2 2 2
 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
Erreur de prédiction :  4.0 %


Les résultats ont bel et bien différents car avec notre fonction on a eu une erreur de prédiction de 7 % mais avec la fonction du classifieur bayesien naif inclu dans sklearn, l'erreur est de 4%