In [None]:
from dataset import Dataset

import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

In [None]:
# Conjunto de dados Iris ================================================================================================================
iris_dataset = Dataset.from_file( 
    filepath = r"datasets\iris.data", 
    label_column = -1, 
    column_names = ["sepal length", "sepal width", "petal length", "petal width", "class"]
).ensure_numeric_labels().normalize()

iris_dataset

In [None]:
iris_dataset.data

In [None]:
iris_dataset.determination_matrix()

In [None]:
# Separa o conjunto de dados em treinamento e teste
train_dataset, test_dataset = iris_dataset.split()

In [None]:
from typing import Union

In [None]:
def dist_euclidiana( P1 : Union[ np.ndarray, list[float] ], P2 : Union[ np.ndarray, list[float] ] ) -> float:
    distance = np.subtract( P1, P2 ) ** 2
    distance = np.sqrt( np.sum( distance ) )
    
    return distance

def KNN( train_dataset : Dataset, P : np.ndarray, k : int = 3 ) -> float:
    distances = []
    classe = None

    # Percorre as instâncias de treinamento
    for index, *features, classe in train_dataset:
        # Armazena o indice do elemento de treinamento e a distância dele até o ponto classificado
        distances.append( (index, dist_euclidiana( features, P )) )
    
    # Ordena a lista em função da distância
    distances = sorted( distances, key = lambda el: el[1] )

    # Obtém a posição dos k elementos mais próximos
    positions = [el[0] for i, el in enumerate(distances) if i < k]

    # Obtém a classe dos k elementos mais próximos
    classes = train_dataset.y[ positions ].to_numpy()

    # Obtém a classe com a maior moda
    classes, moda = np.unique( classes, return_counts = True )
    classe = classes[ np.argmax(moda) ]
    
    return classe

def DMC( train_dataset : Dataset, P : np.ndarray, k : int = 3 ) -> float:
    distances = []
    classe = None

    # Calcula os centroides das classes
    
    # Percorre as instâncias de treinamento
    for index, *features, classe in train_dataset:
        # Armazena o indice do elemento de treinamento e a distância dele até o ponto classificado
        distances.append( (index, dist_euclidiana( features, P )) )
    
    # Ordena a lista em função da distância
    distances = sorted( distances, key = lambda el: el[1] )

    # Obtém a posição dos k elementos mais próximos
    positions = [el[0] for i, el in enumerate(distances) if i < k]

    # Obtém a classe dos k elementos mais próximos
    classes = train_dataset.y[ positions ].to_numpy()

    # Obtém a classe com a maior moda
    classes, moda = np.unique( classes, return_counts = True )
    classe = classes[ np.argmax(moda) ]
    
    return classe

In [None]:
centroides = [
    np.array( np.mean( train_dataset.X[ train_dataset.y == i ], axis=0 ) ) for i in train_dataset.y.unique()
]

plt.scatter( train_dataset.X.iloc[:, 2], train_dataset.X.iloc[:, 3], c = train_dataset.y )
plt.scatter( centroides[0][2], centroides[0][3], marker="x", c="pink")
plt.scatter( centroides[1][2], centroides[1][3], marker="x", c="red")
plt.scatter( centroides[2][2], centroides[2][3], marker="x", c="blue")

In [None]:
for index, *point_test, classe in test_dataset:
    classe_prevista = KNN( train_dataset, point_test )
    print(f"{index}] Previu {classe_prevista} e era {classe} [{classe_prevista == classe}]")