In [2]:
import numpy as np
from sklearn import datasets
from sklearn.metrics.pairwise import euclidean_distances
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB

In [3]:
iris = datasets.load_iris()
X = iris.data
Y = iris.target

In [5]:
# K-Nearest Neighbors avec nb_neigh - le nombre de voisins à considérer 

def PPV(X, Y, nb_neigh): 
    
    l = X.shape[0]
    res = np.empty(l, dtype=int)
    nb_err = 0
    
    
    for i in range (0, l):
        dist = np.array([])
        nb_labels = np.zeros(3, dtype=int)

        for j in range (0, l):
            
            # on calcule les distances pour chaque élément par rapport à tous les éléments de X
            # et on les stock dans une liste
            d = euclidean_distances([X[i]], [X[j]])
            dist = np.append(dist, d[0][0])
        
        # on définit un sous-ensemble de distances mins avec n plus petites distances: 
        # l'etiquette associée à X[i] sera alors l'étiquette la plus présente parmi les mins
        mins = dist[np.nonzero(dist)].argsort()[:nb_neigh]
        for m in mins:
            if i < m and m < l-1:
                m += 1
            if Y[m] == 0:
                nb_labels[0] += 1
            elif Y[m] == 1:
                nb_labels[1] += 1
            else:
                nb_labels[2] += 1
                
        res[i] = np.argmax(nb_labels)
        
        # on incrémente, si besoin, le compteur d'erreurs
        if res[i] != Y[i]:
            nb_err += 1
    
    # calcul des % d'erreurs et de reussite
    error = nb_err*100/l
    score = 100 - error
    
    print("\033[1m Etiquettes recalculées: \033[0m  \n", res)
    print("\033[1m Nombre d'erreurs: \033[0m ", nb_err)
    print("\033[1m Erreur de prédiction: \033[0m ", error, "%")
    print("\033[1m Score: \033[0m ", score, "%\n")


for i in range (1, 5):
    print("\033[1m k = ", i)
    PPV(X, Y, i)

[1m k =  1
[1m Etiquettes recalculées: [0m  
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1
 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 1 2 2 2 2
 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
[1m Nombre d'erreurs: [0m  5
[1m Erreur de prédiction: [0m  3.3333333333333335 %
[1m Score: [0m  96.66666666666667 %

[1m k =  2
[1m Etiquettes recalculées: [0m  
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1
 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 1 2 2 2 2
 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
[1m Nombre d'erreurs: [0m  5
[1m Erreur de prédiction: [0m  3.3333333333333335 %
[1m Score: [0m  96.66666666666667 %

[1m k =  3
[1m Etiquettes recalculées: 

In [6]:
# Losque l'on prend 1 plus proche voisin, la fonction KNeighborsClassifier donne un taux d'erreur de 0 ,
# car elle trouve pour chaque élément que son plus proche voisin est lui-même. 
# Donc, malgré l'abscence d'erreur, cette fonction est moins efficace que notre algo PPV.
# En revanche, plus on augmente le nombre de voisins, plus la fonction KNeighborsClassifier 
# et notre algo PPV donnent des taux d'erreur rapprochés.

for i in range (1, 5):
    neigh = KNeighborsClassifier(n_neighbors=i)
    neigh.fit(X, Y) 
    print("\033[1m k = ", i)
    print("\033[1m Etiquettes recalculées: \033[0m  \n", neigh.predict(X))
    print("\033[1m Score: \033[0m ", neigh.score(X, Y)*100, "%\n")

[1m k =  1
[1m Etiquettes recalculées: [0m  
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
[1m Score: [0m  100.0 %

[1m k =  2
[1m Etiquettes recalculées: [0m  
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 1 2 2 2 2
 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
[1m Score: [0m  98.0 %

[1m k =  3
[1m Etiquettes recalculées: [0m  
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 2 1
 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1

In [7]:
# Classifieur de Bayes naïf - méthode des barycentres

def CBN(X, Y):
    
    l = X.shape[0]
    barycenters = np.zeros([3, X.shape[1]])
    nb_labels = np.zeros(3)
    apriori_class = np.zeros(3)
    aposteriori_class = np.zeros(3)
    res = np.empty(l, dtype=int)
    nb_err = 0
    
    # on calcule les sommes des variables de X par classe, ainsi que le nombre de X par classe
    for i in range (0, l):
        if Y[i] == 0:
            barycenters[0] += X[i]
            nb_labels[0] += 1
        elif Y[i] == 1:
            barycenters[1] += X[i]
            nb_labels[1] += 1
        else:
            barycenters[2] += X[i]
            nb_labels[2] += 1
    
    # on calcule les barycentres (moyennes)
    for i in range (0, 3):
        barycenters[i] = barycenters[i]/nb_labels[i]
        
    # on calcule P(ωk) 
    apriori_class = nb_labels/l
    
    for i in range (0, l):
        for j in range (0, 3):

            # on calcule P(xi/ωk)
            aposteriori_class[j] = 1 - euclidean_distances([X[i]], [barycenters[j]])/(euclidean_distances([X[i]], [barycenters[0]])+euclidean_distances([X[i]], [barycenters[1]])+euclidean_distances([X[i]], [barycenters[2]]))
        
        # on calcule P(xi/ωk)P(ωk)
        aposteriori_class = np.multiply(aposteriori_class,apriori_class)
        
        #on associe à X[i] le label de la classe dont la probabiliteé est la plus élevée  
        res[i] = np.argmax(aposteriori_class)
        
        # on incrémente, si besoin, le compteur d'erreurs
        if res[i] != Y[i]:
            nb_err += 1
    
    # calcul des % d'erreurs et de réussite
    error = nb_err*100/l
    score = 100 - error
    
    print("\033[1m Etiquettes recalculées: \033[0m  \n", res)
    print("\033[1m Nombre d'erreurs: \033[0m ", nb_err)
    print("\033[1m Erreur de prédiction: \033[0m ", error, "%")
    print("\033[1m Score: \033[0m ", score, "%\n")

    
CBN(X, Y)

[1m Etiquettes recalculées: [0m  
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 2 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 1 2 2 2 2
 2 2 1 2 2 2 2 2 1 2 1 2 2 2 2 1 1 2 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2
 2 2]
[1m Nombre d'erreurs: [0m  11
[1m Erreur de prédiction: [0m  7.333333333333333 %
[1m Score: [0m  92.66666666666667 %



In [9]:
# La fonction GaussianNB semble donner une meilleur prédiction, on obtient un taux de réussite de 96%
# contre 92.7% obtenus avec la méthode des barycentres

gnb = GaussianNB()
gnb.fit(X, Y) 
print("\033[1m Etiquettes recalculées: \033[0m  \n", gnb.predict(X))
print("\033[1m Score: \033[0m ", gnb.score(X,Y)*100, "%")

[1m Etiquettes recalculées: [0m  
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1
 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 1 2 2 2 2
 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
[1m Score: [0m  96.0 %
