<a href="https://colab.research.google.com/github/edisonfabriciopm/Ejercicio-KNN/blob/main/Ejercicios_KNN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>



[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/akshayrb22/playing-with-data/blob/master/supervised_learning/KNN/KNN.ipynb)

El algoritmo de K vecinos más cercanos (KNN) es un tipo de algoritmo de aprendizaje automático supervisado.

KNN es extremadamente fácil de implementar en su forma más básica, pero realiza tareas de clasificación bastante complejas.

Es un algoritmo de aprendizaje perezoso, ya que no tiene una fase de entrenamiento especializada.

En su lugar, utiliza todos los datos para el entrenamiento mientras clasifica un nuevo punto o instancia de datos.

KNN es un **algoritmo de aprendizaje no paramétrico, lo que significa que no asume nada sobre los datos subyacentes**.

Esta característica es extremadamente útil, ya que la mayoría de los datos del mundo real no siguen ningún supuesto teórico, como la separabilidad lineal, la distribución uniforme, etc.

## Ventajas

- Es extremadamente fácil de implementar.

- Como se mencionó anteriormente, es un algoritmo de aprendizaje perezoso y, por lo tanto, no requiere entrenamiento previo para realizar predicciones en tiempo real. Esto hace que el algoritmo KNN sea mucho más rápido que otros algoritmos que requieren entrenamiento, como SVM, regresión lineal, etc.

- Dado que el algoritmo no requiere entrenamiento previo para realizar predicciones, se pueden agregar nuevos datos sin problemas.

- Solo se requieren dos parámetros para implementar KNN: el valor de K y la función de distancia (p. ej., euclidiana o Manhattan, etc.).

## Desventajas

- El algoritmo KNN no funciona bien con datos de alta dimensión, ya que, con un gran número de dimensiones, le resulta difícil calcular la distancia en cada dimensión.

- El algoritmo KNN tiene un alto coste de predicción para conjuntos de datos grandes. Esto se debe a que, en conjuntos de datos grandes, el coste de calcular la distancia entre un nuevo punto y cada punto existente es mayor.

- Finalmente, el algoritmo KNN no funciona bien con características categóricas, ya que es difícil calcular la distancia entre dimensiones con características categóricas.

In [4]:
#Importando las librerías necesarias
import pandas as pd
import numpy as np
import math
import operator

# Importando el Dataset

In [5]:
url = 'https://raw.githubusercontent.com/melwinlobo18/K-Nearest-Neighbors/master/Dataset/data.csv'
df = pd.read_csv(url)  # Dataset - Datos de cáncer de mama de Wisconsin
df['diagnosis'] = df['diagnosis'].map({
    'M': 1,
    'B': 2
})  # Valores de las etiquetas - 1 para Maligno y 2 para Benigno
labels = df['diagnosis'].tolist()
df['Class'] = labels  #Copiando los valores del diagnóstico a una nueva columna de etiquetas
df = df.drop(['id', 'Unnamed: 32', 'diagnosis'],
             axis=1)  #Borramos las columnas innecesarias
df.head()  #Imprimimos las 5 primeras filas del Dataset

Unnamed: 0,radius_mean,texture_mean,perimeter_mean,area_mean,smoothness_mean,compactness_mean,concavity_mean,concave points_mean,symmetry_mean,fractal_dimension_mean,...,texture_worst,perimeter_worst,area_worst,smoothness_worst,compactness_worst,concavity_worst,concave points_worst,symmetry_worst,fractal_dimension_worst,Class
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189,1
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902,1
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758,1
3,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,0.09744,...,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173,1
4,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,0.05883,...,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678,1


# Partición de entrenamiento y de test

El código divide el DataFrame df en dos partes:70% de datos en entrenamiento y el 30% de datos en prueba. Usa números aleatorios pero con semilla fija, para que la separación sea siempre igual.

In [6]:
np.random.seed(1)
msk = np.random.rand(
    len(df)) < 0.7  #Un arreglo (vector) que contine True (con probabilidad 0.7) y False
train = df[msk]  #Filas que contienen valores True del arreglo
test = df[~msk]  #Filas que contienen valores False del arreglo
print('Número de observaciones el los datos de entrenamiento: ', len(train))
print('Número de observaciones en los datos de testing: ', len(test))

Número de observaciones el los datos de entrenamiento:  395
Número de observaciones en los datos de testing:  174


In [7]:
train.head()

Unnamed: 0,radius_mean,texture_mean,perimeter_mean,area_mean,smoothness_mean,compactness_mean,concavity_mean,concave points_mean,symmetry_mean,fractal_dimension_mean,...,texture_worst,perimeter_worst,area_worst,smoothness_worst,compactness_worst,concavity_worst,concave points_worst,symmetry_worst,fractal_dimension_worst,Class
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189,1
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758,1
3,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,0.09744,...,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173,1
4,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,0.05883,...,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678,1
5,12.45,15.7,82.57,477.1,0.1278,0.17,0.1578,0.08089,0.2087,0.07613,...,23.75,103.4,741.6,0.1791,0.5249,0.5355,0.1741,0.3985,0.1244,1


In [8]:
test.head()

Unnamed: 0,radius_mean,texture_mean,perimeter_mean,area_mean,smoothness_mean,compactness_mean,concavity_mean,concave points_mean,symmetry_mean,fractal_dimension_mean,...,texture_worst,perimeter_worst,area_worst,smoothness_worst,compactness_worst,concavity_worst,concave points_worst,symmetry_worst,fractal_dimension_worst,Class
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902,1
13,15.85,23.95,103.7,782.7,0.08401,0.1002,0.09938,0.05364,0.1847,0.05338,...,27.66,112.0,876.5,0.1131,0.1924,0.2322,0.1119,0.2809,0.06287,1
20,13.08,15.71,85.63,520.0,0.1075,0.127,0.04568,0.0311,0.1967,0.06811,...,20.49,96.09,630.5,0.1312,0.2776,0.189,0.07283,0.3184,0.08183,2
21,9.504,12.44,60.34,273.9,0.1024,0.06492,0.02956,0.02076,0.1815,0.06905,...,15.66,65.13,314.9,0.1324,0.1148,0.08867,0.06227,0.245,0.07773,2
24,16.65,21.38,110.0,904.6,0.1121,0.1457,0.1525,0.0917,0.1995,0.0633,...,31.56,177.0,2215.0,0.1805,0.3578,0.4695,0.2095,0.3613,0.09564,1


# Distancia Euclidiana

Se utiliza para medir la distancia entre las muestras p y q en un espacio de características de n dimensiones:

<img src="https://drive.google.com/uc?export=view&id=13p3YOEqHybBrN8P5wpsPwBC6-7v3N98f">

Por ejemplo, imagínelo como una línea "recta que conecta" en un espacio de características 2D:

<img src="https://drive.google.com/uc?export=view&id=1Qc0nBRJTWBrJeKZvvj8dVk7YZJrvMpn8">

El código calcula qué tan lejos están dos puntos, comparando cada una de sus coordenadas y aplicando la fórmula matemática de la distancia euclidiana.

In [9]:
from turtle import distance


def euclideanDistance(instance1, instance2, length):
    distance = 0
    for x in range(length):
        distance += pow((instance1[x] - instance2[x]), 2)
       
    return math.sqrt(distance)
print("Imprimir la distancia en la duncion euclideanDistance")
print (distance)

Imprimir la distancia en la duncion euclideanDistance
<function distance at 0x733e42b58d60>


# Calculando los vecinos más cercanos

Supongamos que nuestros datos están dispersos como se muestra a continuación. Los círculos rojos representan la malignidad y los verdes, el benignidad.

<img src="https://drive.google.com/uc?export=view&id=1oEbIjxE0Ysdo5fEeNU5CGo4ruP544Ywz">

En este ejemplo estamos calculando k = 3 vecinos más cercanos, por lo que la curva de ajuste se verá así:

<img src="https://drive.google.com/uc?export=view&id=1amCw22CqF0ideK9VWNIWQAASpZOWGPwi">

In [21]:
def getNeighbors(trainingSet, testInstance, k):
    distances = []  #Lista que guarda todos los valores de distancias
    length = len(testInstance) - 1
    for x in range(len(trainingSet)):
        dist = euclideanDistance(testInstance, trainingSet[x], length)  #Calculando las distancias euclídeas             
        distances.append((trainingSet[x],dist))  #Añadimos los valores de la distancia al final de la lista
    distances.sort(key=operator.itemgetter(1))  #Ordenamos basados en los valores de la distancia
    print ("Imprimir distance")
    print (distances)
    neighbors = []  #Lista para guardar a todos los vecinos
    for x in range(k):
        neighbors.append(distances[x][0])  #El número de vecinos depende del valor de K
    return neighbors
    print ("Imprimir neighbors")
    print (neighbors)

In [25]:
def getResponse(neighbors):
    classVotes = {}  #Diccionario para guardar las etiquetas y su conteo
    for x in range(len(neighbors)):
        response = neighbors[x][-1]  #Valores de las etiquetas de los vecinos
        if response in classVotes:
            classVotes[
                response] += 1  #Si el valor de la etiqueta ya esta presente incrementamos 1
        else:
            classVotes[
                response] = 1  #Si el valor de la etiqueta no esta presente añadimos la etiqueta al diccionario
    sortedVotes = sorted(
        classVotes.items(), key=operator.itemgetter(1), reverse=True
    )  #Ordenamos el diccionario basados en el valor de conteo en orden descendente
    return sortedVotes[0][
        0]  #Retornamos la etiqueta con el número más alto de ocurrencias

# Calculando la exactitud

La exactitud es una métrica que informalmente se refiere a la fracción de predicciones correctas de nuestro modelo. Formalmente, la precisión se define de la siguiente manera:

<img src="https://drive.google.com/uc?export=view&id=1gk-T6kanOB6mM_bs54jgyMs0Bu93V4sh">

In [22]:
def getAccuracy(testSet, predictions):
    correct = 0  #Variable para guardar las predicciones correctas
    for x in range(len(testSet)):
        if testSet[x][-1] is predictions[x]:  #Validamos que los valores predichos sean los mismos que el valor de la etiqueta
            correct += 1  #Incrementado cuando ambos valores son los mismos
    return (correct / float(len(testSet))) * 100.0  #Exactitud = Número de predicciones correctas / Número total del predicciones
print ("Imprimir x")
print (x)

Imprimir x
173


# Implementación en un dataset mas pequeño

El código encuentra cuál de las instancias del trainSet está más cerca del testInstance usando KNN con k=1 y luego imprime el vecino más cercano.

In [26]:
trainSet = [[5, 1, 1, 1, 2, 1, 3, 2, 1, 2],
            [10, 10, 10, 10, 5, 10, 10, 10, 7, 4]]
testInstance = [4, 8, 6, 4, 3, 4, 10, 6, 1, 2]
k = 1
neighbors = getNeighbors(trainSet, testInstance, k)
print ("Imprimir neighbors")
print(neighbors)

Imprimir distance
[([5, 1, 1, 1, 2, 1, 3, 2, 1, 2], 12.609520212918492), ([10, 10, 10, 10, 5, 10, 10, 10, 7, 4], 13.564659966250536)]
Imprimir neighbors
[[5, 1, 1, 1, 2, 1, 3, 2, 1, 2]]


In [14]:
neighbors = [[5, 1, 1, 1, 2, 1, 3, 2, 1, 2], [3, 1, 1, 1, 2, 1, 2, 3, 1, 2],
             [10, 10, 10, 10, 5, 10, 10, 10, 7, 4]]
response = getResponse(neighbors)
print(response)

2


In [15]:
testSet = [[5, 1, 1, 1, 2, 1, 3, 2, 1, 2], [3, 1, 1, 1, 2, 1, 2, 3, 1, 2],
           [10, 10, 10, 10, 5, 10, 10, 10, 7, 4]]
predictions = [2, 2, 2]
accuracy = getAccuracy(testSet, predictions)
print(accuracy)

66.66666666666666


# Implementación en el dataset importado

In [16]:
predictions = []  #Lista para guardar los valores predichos
k = 3  # 3-Nearest Neighbors
trainingSet = train.values.tolist()  #Lista conteniendo los datos de entrenamiento
testSet = test.values.tolist()  #Lista conteniendo los datos de testing
for x in range(len(testSet)):
    neighbors = getNeighbors(trainingSet, testSet[x], k)
    result = getResponse(neighbors)
    predictions.append(result)  # Guardando los valores predichos.
    print('> predicted=' + repr(result) + ', actual=' + repr(testSet[x][-1]))

Distancia calculada con instancia 0 :  341.7302620944424
Distancia calculada con instancia 1 :  276.7762394417638
Distancia calculada con instancia 2 :  1679.2374812295761
Distancia calculada con instancia 3 :  382.7955834280565
Distancia calculada con instancia 4 :  1484.3726543534144
Distancia calculada con instancia 5 :  452.70735072633903
Distancia calculada con instancia 6 :  1298.444465569709
Distancia calculada con instancia 7 :  1462.1355038813983
Distancia calculada con instancia 8 :  1510.249074079222
Distancia calculada con instancia 9 :  965.4482033696734
Distancia calculada con instancia 10 :  854.6845487956055
Distancia calculada con instancia 11 :  657.7136133093417
Distancia calculada con instancia 12 :  1466.1771556241256
Distancia calculada con instancia 13 :  1214.715769091181
Distancia calculada con instancia 14 :  1041.301855875273
Distancia calculada con instancia 15 :  830.9187162135094
Distancia calculada con instancia 16 :  449.5199105890974
Distancia calculada

# Matriz de Confusión

Mide el rendimiento para problemas de clasificación de aprendizaje automático, donde el resultado puede ser de dos o más clases. Es una tabla con cuatro combinaciones diferentes de valores predichos y reales.

<img src="https://drive.google.com/uc?export=view&id=1hYthqmYW82QHRFnIpiGQDLt4r44aurv7">

In [17]:
print("Confusion Matrix")
y_test = []
for i in testSet:
    y_test.append(i[30])
from sklearn.metrics import confusion_matrix, accuracy_score
res = confusion_matrix(y_test, predictions)
print(res)

Confusion Matrix
[[ 52   5]
 [  6 111]]


# Exactitud

In [18]:
accuracy = accuracy_score(y_test, predictions) * 100
print('Accuracy: ' + repr(accuracy) + '%')

Accuracy: 93.67816091954023%
