### Charger les données
Importer les bibliothèques nécessaires.

Charger les données depuis un fichier CSV.

Diviser les données en ensembles d'entraînement et de test.

In [7]:
import csv
import random

# Fonction pour charger les données
def loadDataset(filename, split, trainingSet=[], testSet=[]):
    try:
        with open(filename, 'r') as csvfile:
            lines = csv.reader(csvfile)
            dataset = list(lines)
            for x in range(len(dataset)):
                for y in range(4):  # Assurer que seulement les 4 premières colonnes sont des caractéristiques
                    dataset[x][y] = float(dataset[x][y])  # Convertir les caractéristiques en float
                if random.random() < split:
                    trainingSet.append(dataset[x])  # Ajouter à l'ensemble d'entraînement
                else:
                    testSet.append(dataset[x])  # Ajouter à l'ensemble de test
    except FileNotFoundError:
        print(f"Erreur : Le fichier {filename} est introuvable. Veuillez vérifier le chemin.")
        return

# Charger les données
trainingSet = []
testSet = []
loadDataset(r'C:\Users\HP\Downloads\iris.data.txt', 0.66, trainingSet, testSet)  # Utilisez un chemin absolu

# Affichage du nombre d'éléments dans les ensembles de données d'entraînement et de test
print(f"Train: {len(trainingSet)}")
print(f"Test: {len(testSet)}")


Train: 102
Test: 48


### Calculer la distance euclidienne
Définir la fonction de distance euclidienne.

Tester la fonction avec des exemples de données.

In [8]:
import math

# Fonction pour calculer la distance euclidienne
def euclideanDistance(instance1, instance2, length):
    distance = 0
    for i in range(length):
        distance += (instance1[i] - instance2[i]) ** 2
    return math.sqrt(distance)

# Tester la fonction
data1 = [2, 2, 2, 'a']
data2 = [4, 4, 4, 'b']
distance = euclideanDistance(data1, data2, 3)
print(f"Distance: {distance}")

Distance: 3.4641016151377544


### Trouver les k plus proches voisins
Définir la fonction getNeighbors pour trouver les k voisins les plus proches.

Tester la fonction avec un exemple

In [9]:
import operator

# Fonction pour trouver les k plus proches voisins
def getNeighbors(trainingSet, testInstance, k):
    distances = []
    length = len(testInstance) - 1
    for x in range(len(trainingSet)):
        dist = euclideanDistance(testInstance, trainingSet[x], length)
        distances.append((trainingSet[x], dist))
    distances.sort(key=operator.itemgetter(1))
    neighbors = []
    for x in range(k):
        neighbors.append(distances[x][0])
    return neighbors

# Tester la fonction
trainSet = [[2, 2, 2, 'a'], [4, 4, 4, 'b']]
testInstance = [5, 5, 5]
k = 1
neighbors = getNeighbors(trainSet, testInstance, k)
print(f"Neighbors: {neighbors}")

Neighbors: [[4, 4, 4, 'b']]


### Générer une réponse (vote majoritaire)
Définir la fonction getResponse pour obtenir la classe majoritaire parmi les voisins.

Tester la fonction avec un exemple.

In [10]:
# Fonction pour obtenir la réponse (vote majoritaire)
def getResponse(neighbors):
    classVotes = {}
    for x in range(len(neighbors)):
        response = neighbors[x][-1]  # La classe est le dernier élément
        if response in classVotes:
            classVotes[response] += 1
        else:
            classVotes[response] = 1
    sortedVotes = sorted(classVotes.items(), key=operator.itemgetter(1), reverse=True)
    return sortedVotes[0][0]

# Tester la fonction
neighbors = [[1, 1, 1, 'a'], [2, 2, 2, 'a'], [3, 3, 3, 'b']]
response = getResponse(neighbors)
print(f"Response: {response}")

Response: a


###  Calculer la précision
Définir la fonction getAccuracy pour calculer la précision des prédictions.

Tester la fonction avec un exemple

In [11]:
# Fonction pour calculer la précision
def getAccuracy(testSet, predictions):
    correct = 0
    for x in range(len(testSet)):
        if testSet[x][-1] == predictions[x]:
            correct += 1
    return (correct / float(len(testSet))) * 100.0

# Tester la fonction
testSet = [[1, 1, 1, 'a'], [2, 2, 2, 'a'], [3, 3, 3, 'b']]
predictions = ['a', 'a', 'a']
accuracy = getAccuracy(testSet, predictions)
print(f"Accuracy: {accuracy}%")

Accuracy: 66.66666666666666%


### Fonction principale
Combiner toutes les étapes dans une fonction principale.

Tester l'algorithme KNN sur l'ensemble de données Iris.

In [14]:
# Fonction principale pour KNN
def main():
    # Charger les données avec le chemin absolu
    trainingSet = []
    testSet = []
    loadDataset(r'C:\Users\HP\Downloads\iris.data.txt', 0.66, trainingSet, testSet)  # Assurez-vous d'utiliser le chemin absolu correct
    print(f"Train: {len(trainingSet)}")
    print(f"Test: {len(testSet)}")

    # Faire des prédictions
    predictions = []
    k = 3  # Nombre de voisins
    for x in range(len(testSet)):
        neighbors = getNeighbors(trainingSet, testSet[x], k)
        result = getResponse(neighbors)
        predictions.append(result)
        print(f"Predicted: {result}, Actual: {testSet[x][-1]}")

    # Calculer la précision
    accuracy = getAccuracy(testSet, predictions)
    print(f"Accuracy: {accuracy}%")

# Exécuter la fonction principale
main()


Train: 93
Test: 57
Predicted: Iris-setosa, Actual: Iris-setosa
Predicted: Iris-setosa, Actual: Iris-setosa
Predicted: Iris-setosa, Actual: Iris-setosa
Predicted: Iris-setosa, Actual: Iris-setosa
Predicted: Iris-setosa, Actual: Iris-setosa
Predicted: Iris-setosa, Actual: Iris-setosa
Predicted: Iris-setosa, Actual: Iris-setosa
Predicted: Iris-setosa, Actual: Iris-setosa
Predicted: Iris-setosa, Actual: Iris-setosa
Predicted: Iris-setosa, Actual: Iris-setosa
Predicted: Iris-setosa, Actual: Iris-setosa
Predicted: Iris-setosa, Actual: Iris-setosa
Predicted: Iris-setosa, Actual: Iris-setosa
Predicted: Iris-setosa, Actual: Iris-setosa
Predicted: Iris-setosa, Actual: Iris-setosa
Predicted: Iris-setosa, Actual: Iris-setosa
Predicted: Iris-setosa, Actual: Iris-setosa
Predicted: Iris-versicolor, Actual: Iris-versicolor
Predicted: Iris-versicolor, Actual: Iris-versicolor
Predicted: Iris-versicolor, Actual: Iris-versicolor
Predicted: Iris-versicolor, Actual: Iris-versicolor
Predicted: Iris-versicolo

### Ajouter une autre métrique de distance
Définir une autre métrique de distance, par exemple la distance de Manhattan.

Intégrer cette métrique dans l'algorithme KNN.

In [15]:
# Fonction pour calculer la distance de Manhattan
def manhattanDistance(instance1, instance2, length):
    distance = 0
    for i in range(length):
        distance += abs(instance1[i] - instance2[i])
    return distance

# Modifier la fonction getNeighbors pour utiliser la distance de Manhattan
def getNeighbors(trainingSet, testInstance, k, distance_metric='euclidean'):
    distances = []
    length = len(testInstance) - 1
    for x in range(len(trainingSet)):
        if distance_metric == 'euclidean':
            dist = euclideanDistance(testInstance, trainingSet[x], length)
        elif distance_metric == 'manhattan':
            dist = manhattanDistance(testInstance, trainingSet[x], length)
        distances.append((trainingSet[x], dist))
    distances.sort(key=operator.itemgetter(1))
    neighbors = []
    for x in range(k):
        neighbors.append(distances[x][0])
    return neighbors