Il s'agit ici de la fonction QuickCertify qui est la premiere etape de notre methode de Test Systematique de la robustesse des modeles KNN. Ici, a partir de certaines conditions, nous verifions la robustesse. Ces conditions suffisantes sont conçues pour éviter l’étape la plus coûteuse de l’algorithme KNN, qui est la phase d’apprentissage qui s’appuie sur des validations croisées p-fold pour calculer le paramètre K optimal.

In [1]:
from sklearn.neighbors import KDTree
from collections import Counter
import numpy as np


In [2]:
def nearNeighborsSet(data, labels, k, input_x, y=None, n=0):
    tree = KDTree(data)  # Construit un arbre KD à partir des points
    dists, indices = tree.query([input_x], k=k+n)  # Trouve les k+n voisins les plus proches
    
    neighbors = [(data[i], labels[i]) for i in indices[0]]  # Récupère les voisins avant suppression
    
    if y is not None and n > 0:
        # Keep all neighbors except those with label y
        neighbors_without_y = [neighbor for neighbor in neighbors if neighbor[1] != y]
        # If there are not enough neighbors without label y to fill k spots,
        # take as many as possible, then fill up with neighbors with label y
        if len(neighbors_without_y) < k:
            neighbors_with_y = [neighbor for neighbor in neighbors if neighbor[1] == y][:k - len(neighbors_without_y)]
            neighbors = neighbors_without_y + neighbors_with_y
        else:
            # If there are enough neighbors without label y, take the top k
            neighbors = neighbors_without_y[:k]
    else:
        # If y is not specified, just return the k+n neighbors
        neighbors = neighbors[:k+n]

    return neighbors

In [3]:
def mostFreqLabel(data, labels, k, input_x, y=None, n=0):
    neighbors = nearNeighborsSet(data, labels, k, input_x, y, n)
    neighbor_labels = [label for _, label in neighbors]
    return Counter(neighbor_labels).most_common(1)[0][0]

In [4]:
def QuickCertify(data, labels, n, input_x, y):
    label_set = []
    Kset = [1, 2, 3]  # Ensemble de valeurs de K à tester

    for k in Kset:
        # Obtenir l'étiquette la plus fréquente sans suppression
        y_initial = mostFreqLabel(data, labels, k, input_x)
        label_set.append(y_initial)
        # Obtenir l'étiquette la plus fréquente avec suppression de n éléments de label y
        y_after_removal = mostFreqLabel(data, labels, k, input_x, y, n)

        if y_initial != y_after_removal:
            return False
        
        if len(label_set) != 1:
            return False

    return True

In [5]:
# Charger l'ensemble de données Iris
from sklearn.datasets import load_iris


X, y = load_iris(return_X_y=True)

# Exemple d'utilisation avec l'ensemble de données Iris
input_x = X[50]  # Utiliser un élément de l'ensemble Iris comme exemple
n = 5  # Nombre d'éléments à considérer comme potentiellement empoisonnés
label_y = y[50]  # Utiliser le label réel de l'input_x comme exemple de label à supprimer

# Appliquer QuickCertifyKD sur l'ensemble de données Iris
result = QuickCertify(X, y, n, input_x, label_y)
result

False