# Implementación desde 0 del algoritmo k-Nearest Neighbors

In [1]:
# Bibliotecas
import random
import matplotlib.pyplot as plt

from sklearn import datasets
from sklearn.neighbors import NearestNeighbors
from numpy import log, sort
from operator import itemgetter

## Cargando los datos

In [2]:
# Función que formatea los datasets de sklearn
def convert_dataset(sklearn_dataset):
    # Convirtiendo al formato que recibe nuestra implementación
    data = sklearn_dataset[0]
    targets = sklearn_dataset[1]

    formated_dataset = []
    for i in range(len(data)):
        formated_dataset.append((list(data[i]), targets[i]))
    
    return formated_dataset

In [3]:
# Cargando el dataset Iris
formated_iris = convert_dataset(datasets.load_iris(return_X_y=True))
random.shuffle(formated_iris)

# Visualizando datos del dataset
print("Cantidad de ejemplos en el dataset: ", len(formated_iris))
print("Cantidad de atributos:", len(formated_iris[0][0]))
print("Instancia 0:",formated_iris[0])

Cantidad de ejemplos en el dataset:  150
Cantidad de atributos: 4
Instancia 0: ([5.8, 4.0, 1.2, 0.2], 0)


## Métricas de distancia

### Distancia Minkowski

![image.png](attachment:image.png) 
Figura para $p=3$

La distancia Minkowski es la forma generalizada para la norma $L_p$ de la diferencia. 

$d_{\mathbf{p}} : (x, y) \mapsto \|x-y\|_p = \bigg(\sum_{i=1}^{n} |x_i-y_i|^p\bigg)^\frac{1}{p}$

In [4]:
# Distancia Minkowski
def minkowski(vector1, vector2, p):
    distancia = 0.0
    for i in range(len(vector1)-1):
        distancia += abs(vector1[i] - vector2[i])**p
    
    return (distancia)**(1/p)

# Ejemplo
print(minkowski(formated_iris[0][0], formated_iris[0][0], 3))
print(minkowski(formated_iris[0][0], formated_iris[1][0], 3))

0.0
4.74775517195875


### Distancia Manhattan o L1

También se conoce como Sum of Absolute Difference (SAD). Es la norma $L_1$ de la diferencia. Es un caso especial de la distancia Minkowski, en donde $p=1$.

![image.png](attachment:image.png)

$d_{\mathbf{SAD}} : (x, y) \mapsto \|x-y\|_1 = \sum_{i=1}^{n} |x_i-y_i|$

In [5]:
# Distancia Manhattan o L1
def sad(vector1, vector2):
    return minkowski(vector1, vector2, 1)

# Ejemplo
print(sad(formated_iris[0][0], formated_iris[0][0]))
print(sad(formated_iris[0][0], formated_iris[1][0]))

0.0
7.0


### Distancia Euclidiana o norma L2

Se calcula a partir de Sum of Squared Difference (SSD). Es la norma $L_2$ de la diferencia. Es un caso especial de la distancia Minkowski, en donde $p=2$.

![image-2.png](attachment:image-2.png)

$d_{\mathbf{2}} : (x, y) \mapsto \|x-y\|_2 = \sqrt{d_{\mathbf{SSD}}} = \sqrt{\sum_{i=1}^{n} (x_i-y_i)^2}$

In [6]:
# Distancia Euclidiana o norma L2
def euclidean(vector1, vector2):
    return minkowski(vector1, vector2, 2)

# Ejemplo
print(euclidean(formated_iris[0][0], formated_iris[0][0]))
print(euclidean(formated_iris[0][0], formated_iris[1][0]))

0.0
4.9779513858614575


### Distancia Chebyshev

Es la norma $L_{\infty}$ de la diferencia. Es un caso especial de la distancia Minkowski, en donde $p=\infty$. También se le conoce como distancia de tablero de ajedrez.

![image.png](attachment:image.png)

$d_{\mathbf{\infty}} : (x, y) \mapsto \|x-y\|_\infty = \lim_{p \rightarrow \infty}\bigg(\sum_{i=1}^{n} |x_i-y_i|^p\bigg)^\frac{1}{p} = \max_{i} |x_i-y_i|$

In [7]:
# Distancia Chebyshev
def chebyshev(vector1, vector2):
    differences = []
    for i in range(len(vector1)-1):
        differences.append(abs(vector1[i] - vector2[i]))
    
    return max(differences)

# Ejemplo
print(chebyshev(formated_iris[0][0], formated_iris[0][0]))
print(chebyshev(formated_iris[0][0], formated_iris[1][0]))

0.0
4.7


## DBSCAN

La implementación está basada en el pseudocódigo para el DBSCAN secuencial, disponible en el paper: "DBSCAN Revisited, Revisited: Why and How You Should (Still) Use DBSCAN" (https://sci-hub.st/10.1145/3068335)

![image-3.png](attachment:image-3.png)

El paper original "A Density-Based Algorithm for Discovering Clusters
in Large Spatial Databases with Noise" se puede encontrar en: https://www.aaai.org/Papers/KDD/1996/KDD96-037.pdf

In [8]:
# Función que obtiene los clusters del dataset etiquetado
def get_clusters(data, verbose):
    dataset = data.copy()
    # Obteniendo las clases en el dataset
    classes = set([class_id[1] for class_id in dataset])
    
    # Creando la lista que almacenará los samples por cluster
    clusters = [[[], -2] for x in range(len(classes))]
    
    for i, sample in enumerate(dataset):
        for class_id in classes:
            if sample[1] == class_id:
                if class_id == -1:
                    # print(i, sample, "in", class_id)
                    clusters[class_id][0].append(i)
                    clusters[class_id][1] = -1
                else:
                    # print(i, sample, "in", class_id)
                    clusters[class_id][0].append(i)
                    clusters[class_id][1] = class_id
    
    if verbose:
        for i, clus in enumerate(clusters):
            if clus[1] == -1:
                print("Ruido:",clus[0],"\n")
            else:
                print("Cluster",i,":",clus[0],"\n")
    
        
    return [cluster[0] for cluster in clusters]

clusters = get_clusters(formated_iris, True)

Cluster 0 : [0, 4, 13, 23, 28, 32, 36, 38, 39, 44, 47, 48, 52, 55, 58, 61, 62, 63, 67, 69, 73, 74, 76, 78, 82, 86, 91, 92, 97, 99, 100, 103, 104, 105, 108, 111, 113, 114, 116, 119, 123, 125, 128, 131, 132, 133, 141, 142, 143, 148] 

Cluster 1 : [2, 3, 5, 6, 8, 12, 17, 19, 20, 21, 25, 27, 33, 35, 37, 41, 42, 45, 49, 50, 54, 59, 64, 68, 72, 75, 79, 80, 81, 84, 85, 87, 90, 94, 95, 98, 102, 106, 109, 110, 115, 120, 122, 126, 127, 129, 137, 139, 144, 145] 

Cluster 2 : [1, 7, 9, 10, 11, 14, 15, 16, 18, 22, 24, 26, 29, 30, 31, 34, 40, 43, 46, 51, 53, 56, 57, 60, 65, 66, 70, 71, 77, 83, 88, 89, 93, 96, 101, 107, 112, 117, 118, 121, 124, 130, 134, 135, 136, 138, 140, 146, 147, 149] 



In [9]:
# Función que modifica el dataset para permitir etiquetas
# Se utiliza el indice en donde se indicaba la clase
def add_labels(data):
    dataset = data.copy()
    new_dataset = []
    for i, element in enumerate(dataset):
        # Se elimina el dato de clase y se modifica por la etiqueta
        new_dataset.append([element[0], -2]) 
    
    return new_dataset

add_labels(formated_iris)

[[[5.8, 4.0, 1.2, 0.2], -2],
 [[7.1, 3.0, 5.9, 2.1], -2],
 [[5.8, 2.7, 4.1, 1.0], -2],
 [[6.0, 2.2, 4.0, 1.0], -2],
 [[5.0, 3.3, 1.4, 0.2], -2],
 [[6.7, 3.1, 4.7, 1.5], -2],
 [[5.0, 2.3, 3.3, 1.0], -2],
 [[6.1, 3.0, 4.9, 1.8], -2],
 [[7.0, 3.2, 4.7, 1.4], -2],
 [[6.7, 3.1, 5.6, 2.4], -2],
 [[6.4, 3.1, 5.5, 1.8], -2],
 [[6.7, 2.5, 5.8, 1.8], -2],
 [[5.1, 2.5, 3.0, 1.1], -2],
 [[5.2, 4.1, 1.5, 0.1], -2],
 [[7.7, 2.6, 6.9, 2.3], -2],
 [[6.2, 3.4, 5.4, 2.3], -2],
 [[6.5, 3.0, 5.2, 2.0], -2],
 [[4.9, 2.4, 3.3, 1.0], -2],
 [[6.5, 3.2, 5.1, 2.0], -2],
 [[5.7, 2.9, 4.2, 1.3], -2],
 [[6.4, 3.2, 4.5, 1.5], -2],
 [[6.9, 3.1, 4.9, 1.5], -2],
 [[6.9, 3.1, 5.4, 2.1], -2],
 [[4.6, 3.2, 1.4, 0.2], -2],
 [[6.4, 2.8, 5.6, 2.2], -2],
 [[5.7, 2.8, 4.1, 1.3], -2],
 [[5.8, 2.8, 5.1, 2.4], -2],
 [[5.7, 2.8, 4.5, 1.3], -2],
 [[5.1, 3.5, 1.4, 0.3], -2],
 [[6.7, 3.3, 5.7, 2.1], -2],
 [[7.7, 3.8, 6.7, 2.2], -2],
 [[6.3, 2.9, 5.6, 1.8], -2],
 [[4.8, 3.0, 1.4, 0.1], -2],
 [[5.5, 2.4, 3.8, 1.1], -2],
 [[6.4, 2.7, 5

In [10]:
# Implementación de función RangeQuery
def RangeQuery(DB, dist, Q, eps):
    N = []
    for P in DB:
        if dist(Q[0], P[0]) <= eps:
            N.append(P)
    return N

RangeQuery(add_labels(formated_iris), euclidean, add_labels(formated_iris)[0], 0.3)

[[[5.8, 4.0, 1.2, 0.2], -2]]

In [11]:
# Implementación de la función DBSCAN
# -2 es indefinido
# -1 es ruido
# 0 en adelante son clusters
def DBSCAN(DB, dist, eps, minPts):
    c = 0                                           # Etiqueta para el primer cluster
    for p in DB:                                    # Se itera sobre cada punto
        if p[1] != -2:                     # Se evitan puntos ya procesados
            continue
            
        N = RangeQuery(DB, dist, p, eps)            # Se obtienen los vecinos iniciales
        
        if len(N) < minPts:                         # Los puntos no-núcleo se consideran ruido
            p[1] = -1
            continue
        
        p[1] = c                                    # Se etiqueta P
        S = []                                      
        S.extend(N)
        S.remove(p)                                 # Se expande el vecindario (sin P)
        
        for q in S:                                 
            if q[1] == -2:
                q[1] = c
            elif q[1] != -2:
                continue
                
            q[1] = c
            N = RangeQuery(DB, dist, q, eps)
            
            if len(N) < minPts:                    # Se revisa que sea punto núcleo
                continue
                
            S.extend(N)
            
        c = c + 1                                   # Etiqueta del siguiente cluster

    return DB

## Evaluación

##### Haciendo clustering con el conjunto de datos de la clase

In [12]:
##### Haciendo clustering con el conjunto de datos Iris, disponible en el banco de datasets de sklearn# Probando con el dataset de la clase
train_file = "Datasets/Datos-S-Entrena.txt"
test_file = "Datasets/S-Prueba.txt"

# Función que recibe un archivo de texto y retorna 
# los atributos y la clase en una tupla (lista, int)
def load_data(file_object):
    dataset = list()
    for line in file_object:
        temp_list = [float(x) for x in line.split(",")]
        attribs = temp_list[:len(temp_list)-2]
        category = int(temp_list[len(temp_list)-1])
        
        # Apendizando el ejemplo
        dataset.append((attribs, category))
        
    return dataset

# Cargando los conjuntos de entrenamiento y prueba
train_f = open(train_file, "r")
test_f = open(test_file, "r")

train_data = load_data(train_f)
test_data = load_data(test_f)

# Evaluando implementación con el dataset de la materia
# Se mezcla el conjunto de entrenamiento con el de prueba
train_test_data = train_data + test_data
random.shuffle(train_test_data)

print("Cantidad de ejemplos en el dataset: ", len(train_test_data))
print("Cantidad de atributos:", len(train_test_data[0][0]), "\n")
#print("Ejemplo de instancia: ", train_test_data[0])

# Realizando el clustering
DB_clase = add_labels(train_test_data)

clustered_db = DBSCAN(DB_clase, euclidean, 27, 10)
clusters = get_clusters(clustered_db, True)

Cantidad de ejemplos en el dataset:  420
Cantidad de atributos: 18 

Cluster 0 : [0, 2, 4, 6, 8, 9, 11, 12, 14, 16, 18, 19, 29, 37, 39, 40, 43, 46, 50, 53, 64, 67, 68, 71, 75, 77, 78, 84, 88, 90, 94, 101, 104, 106, 111, 112, 114, 121, 123, 129, 134, 135, 143, 149, 150, 151, 153, 155, 162, 167, 173, 189, 198, 201, 202, 204, 210, 213, 215, 227, 231, 232, 235, 239, 240, 246, 253, 255, 256, 258, 261, 267, 268, 277, 285, 292, 294, 295, 296, 297, 299, 308, 309, 332, 339, 362, 367, 375, 382, 384, 389, 390, 391, 392, 399, 402, 408, 413, 416] 

Cluster 1 : [10, 20, 21, 35, 36, 38, 44, 45, 48, 55, 76, 86, 89, 107, 108, 109, 113, 124, 132, 141, 142, 163, 164, 170, 171, 174, 185, 192, 194, 199, 205, 212, 218, 226, 233, 241, 245, 247, 260, 262, 270, 282, 291, 307, 315, 317, 322, 326, 333, 334, 341, 344, 353, 360, 366, 380, 383, 400, 404, 410, 417] 

Cluster 2 : [72, 87, 92, 115, 125, 147, 157, 159, 166, 186, 217, 259, 266, 347, 351, 364, 376, 409] 

Cluster 3 : [79, 81, 91, 105, 119, 126, 177, 187,

##### Haciendo clustering con el conjunto de datos Iris, disponible en el banco de datasets de sklearn

In [15]:
# Cargando el dataset Iris
formated_iris = convert_dataset(datasets.load_iris(return_X_y=True))
random.shuffle(formated_iris)

# Visualizando datos del dataset
print("Cantidad de ejemplos en el dataset: ", len(formated_iris))
print("Cantidad de atributos:", len(formated_iris[0][0]))
print("Instancia 0:",formated_iris[0])

# Probando con Iris Dataset
DB = add_labels(formated_iris)

clustered_db = DBSCAN(DB, euclidean, 0.42, 10)
clusters = get_clusters(clustered_db, True)

Cantidad de ejemplos en el dataset:  150
Cantidad de atributos: 4
Instancia 0: ([4.4, 2.9, 1.4, 0.2], 0)
Cluster 0 : [1, 3, 8, 10, 17, 18, 19, 21, 26, 28, 29, 32, 34, 36, 38, 40, 41, 46, 48, 51, 55, 56, 63, 64, 73, 74, 77, 86, 87, 88, 96, 104, 105, 109, 113, 114, 116, 122, 126, 131, 132, 138, 148] 

Cluster 1 : [2, 7, 14, 30, 33, 47, 54, 58, 61, 62, 66, 67, 69, 71, 76, 79, 84, 93, 100, 106, 108, 117, 121, 147] 

Cluster 2 : [11, 13, 22, 23, 24, 27, 31, 37, 42, 43, 44, 45, 49, 50, 53, 57, 59, 60, 65, 68, 70, 72, 75, 78, 81, 82, 83, 85, 91, 97, 98, 99, 102, 103, 115, 119, 120, 123, 124, 125, 128, 129, 130, 133, 139, 140, 142, 145, 146] 

Ruido: [0, 4, 5, 6, 9, 12, 15, 16, 20, 25, 35, 39, 52, 80, 89, 90, 92, 94, 95, 101, 107, 110, 111, 112, 118, 127, 134, 135, 136, 137, 141, 143, 144, 149] 



##### Dataset Wine, disponible en el banco de datasets de sklearn

In [28]:
# Cargando el dataset Wine
formated_wine = convert_dataset(datasets.load_wine(return_X_y=True))
random.shuffle(formated_wine)

# Visualizando datos del dataset
print("Cantidad de ejemplos en el dataset: ", len(formated_wine))
print("Cantidad de atributos:", len(formated_wine[0][0]))


# Probando con Wine Dataset
DB = add_labels(formated_wine)

clustered_db = DBSCAN(DB, euclidean, 8, 10)
clusters = get_clusters(clustered_db, True)

Cantidad de ejemplos en el dataset:  178
Cantidad de atributos: 13
Cluster 0 : [0, 1, 2, 3, 4, 5, 6, 7, 9, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 58, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 121, 122, 123, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155, 156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168, 169, 170, 171, 172, 173, 174, 175, 176, 177] 

Ruido: [8, 10, 24, 57, 59, 94, 120, 124] 



##### Dataset Breast Cancer, disponible en el banco de datasets de sklearn

In [34]:
# Cargando el dataset Breast Cancer
formated_cancer = convert_dataset(datasets.load_breast_cancer(return_X_y=True))
random.shuffle(formated_cancer)

# Visualizando datos del dataset
print("Cantidad de ejemplos en el dataset: ", len(formated_cancer))
print("Cantidad de atributos:", len(formated_cancer[0][0]))


# Probando con Wine Dataset
DB = add_labels(formated_cancer)

clustered_db = DBSCAN(DB, euclidean, 30, 10)
clusters = get_clusters(clustered_db, True)

Cantidad de ejemplos en el dataset:  569
Cantidad de atributos: 30
Cluster 0 : [0, 1, 2, 3, 4, 8, 9, 10, 11, 12, 15, 16, 17, 18, 19, 21, 24, 26, 29, 30, 32, 33, 36, 38, 39, 40, 41, 45, 48, 49, 51, 52, 53, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 69, 75, 76, 77, 78, 79, 80, 81, 82, 83, 85, 86, 89, 94, 95, 97, 98, 100, 101, 103, 104, 106, 109, 110, 111, 112, 114, 117, 119, 120, 122, 124, 128, 130, 131, 132, 133, 134, 137, 141, 143, 145, 146, 148, 149, 151, 154, 155, 156, 159, 160, 162, 163, 164, 165, 171, 174, 175, 178, 180, 182, 183, 185, 186, 187, 189, 191, 192, 193, 194, 195, 196, 200, 201, 202, 203, 204, 205, 206, 208, 210, 211, 213, 214, 217, 218, 220, 222, 224, 225, 229, 230, 234, 239, 240, 241, 242, 244, 245, 246, 248, 251, 252, 253, 257, 258, 264, 266, 269, 272, 273, 275, 278, 279, 280, 281, 283, 290, 291, 297, 298, 300, 301, 303, 308, 309, 312, 313, 315, 316, 317, 320, 321, 324, 325, 328, 329, 330, 333, 334, 335, 336, 338, 339, 340, 341, 345, 346, 348, 352, 354, 356, 357, 358

##### Dataset Digits, disponible en el banco de datasets de sklearn

In [36]:
# Cargando el dataset Digits
formated_digits = convert_dataset(datasets.load_digits(return_X_y=True))
random.shuffle(formated_digits)

# Visualizando datos del dataset
print("Cantidad de ejemplos en el dataset: ", len(formated_digits))
print("Cantidad de atributos:", len(formated_digits[0][0]))


# Probando con Wine Dataset
DB = add_labels(formated_digits)

clustered_db = DBSCAN(DB, euclidean, 20, 10)
clusters = get_clusters(clustered_db, True)

Cantidad de ejemplos en el dataset:  1797
Cantidad de atributos: 64
Cluster 0 : [1, 14, 18, 66, 80, 91, 105, 150, 176, 177, 181, 237, 287, 299, 367, 406, 418, 449, 481, 489, 597, 628, 770, 772, 792, 813, 825, 861, 907, 957, 961, 962, 980, 1015, 1061, 1092, 1128, 1187, 1251, 1259, 1279, 1284, 1304, 1371, 1396, 1409, 1429, 1484, 1522, 1557, 1566, 1612, 1618, 1704, 1706, 1730, 1738] 

Cluster 1 : [8, 12, 17, 30, 32, 43, 48, 64, 67, 97, 101, 111, 116, 158, 178, 200, 201, 216, 288, 289, 297, 302, 309, 332, 335, 349, 363, 370, 379, 391, 423, 425, 428, 450, 487, 491, 494, 497, 499, 503, 506, 511, 516, 525, 529, 537, 540, 547, 549, 550, 588, 610, 629, 631, 633, 636, 656, 659, 670, 698, 701, 702, 713, 726, 745, 749, 751, 757, 776, 788, 803, 814, 827, 842, 851, 863, 864, 866, 874, 879, 891, 896, 900, 913, 918, 937, 939, 958, 972, 979, 998, 1006, 1016, 1018, 1034, 1043, 1052, 1054, 1077, 1078, 1132, 1134, 1135, 1138, 1148, 1153, 1156, 1180, 1190, 1200, 1204, 1215, 1233, 1247, 1264, 1269, 1273, 12