# Vecinos Cercanos

El algoritmo de los vecinos cercanos es probablemente el mas simple de entender pero tambien el mas usado (aunque en versiones mas complejas que la que veremos aqui).

El algoritmo es el que explicamos con el ejemplo de la venta de un telefono movil:
- Dada una tabla con datos de telefonos usados con sus precios y un nuevo telefono del cual quiero adivinar el precio busco cual de todos los telefonos de mi tabla se parece mas a este nuevo, es decir, busco el vecino mas cercano, y elijo el precio de este como el precio del nuevo telefono.
- Una variacion es buscar dos o tres o mas vecinos cercanos y hacer un promedio de los precios.

Para implementar este algoritmo bastan dos funciones:
1. Una funcion que calcule la distancia entre dos datos (vectores), en este caso los telefonos.
2. Una funcion de busqueda que recorra toda la tabla de entrenamiento y calcule las distancias, utilizando la funcion anterior, del dato nuevo a cada uno de los datos de la tabla de entrenamiento.

Veamos una implementacion simple:

Implementemos primero la funcion de distancia. Para ello utilizaremos la super conocida funcion de distancia que se deduce del Teorema de Pitagoras:

<div style="text-align:center">
<img src="img/pitagoras.png" width="300"/>
</div>

Que cuando los datos (vectores) tienen mas de dos dimensiones se define de la siguiente manera:

$$ P=(p_{1},p_{2},\dots ,p_{n}) $$
$$ Q=(q_{1},q_{2},\dots ,q_{n}) $$

$$ {d_{E}(P,Q)={\sqrt {(p_{1}-q_{1})^{2}+(p_{2}-q_{2})^{2}+\cdots +(p_{n}-q_{n})^{2}}}={\sqrt {\sum _{i=1}^{n}(p_{i}-q_{i})^{2}}}.} $$

In [1]:
import math
def distancia(P, Q):
    d = 0
    for i in range(len(P)):
        d = d + (P[i] - Q[i])**2
    return math.sqrt(d)

In [2]:
def vecinos_cercanos(X_entrenamiento, nuevo_dato):
    min_d = 1000000000
    vecino_mas_cercano = -1
    for i in range(len(X_entrenamiento)):
        P = X_entrenamiento.iloc[i,:].to_numpy()
        Q = nuevo_dato.to_numpy()
        d = distancia(P, Q)
        print('Comparando nuevo dato con fila:',i)
        print(P)
        print(Q)
        print("Distancia:", d)
        if d < min_d:
            min_d = d
            vecino_mas_cercano = i
    return vecino_mas_cercano

Carguemos nuestros datos:

In [3]:
import pandas as pd
df = pd.read_csv("https://raw.githubusercontent.com/amiune/freecodingtour/main/cursos/espanol/datascience/tabla_telefonos2.csv")
X_entrenamiento = df.drop("Precio", axis=1)
X_entrenamiento

Unnamed: 0,Bateria,Memoria_64,Memoria_256,Memoria_512,Color_Gris,Color_Oro,Color_Verde,Estado_Bueno,Estado_Muy bueno,Estado_Reacondicionado
0,0.84,0,1,0,1,0,0,0,0,1
1,0.7,0,1,0,1,0,0,1,0,0
2,0.79,1,0,0,1,0,0,0,0,1
3,0.86,0,0,1,0,1,0,0,0,1
4,1.0,0,1,0,1,0,0,1,0,0
5,0.74,0,1,0,0,0,1,1,0,0
6,0.82,0,1,0,1,0,0,0,1,0
7,0.78,0,1,0,1,0,0,1,0,0


In [4]:
mi_telefono = pd.DataFrame({
    'Bateria': [0.81],
    'Memoria_64': [0],
    'Memoria_256': [1],
    'Memoria_512': [0],
    'Color_Gris': [1],
    'Color_Oro': [0],
    'Color_Verde': [0],
    'Estado_Bueno': [1],
    'Estado_Muy bueno': [1],
    'Estado_Reacondicionado': [1],
             })

Probemos nuestra funcion:

In [5]:
mejor_vecino = vecinos_cercanos(X_entrenamiento, mi_telefono.iloc[0,:])
print('El vecino mas cercano es el de la fila:', mejor_vecino)

Comparando nuevo dato con fila: 0
[0.84 0.   1.   0.   1.   0.   0.   0.   0.   1.  ]
[0.81 0.   1.   0.   1.   0.   0.   1.   1.   1.  ]
Distancia: 1.4145317246354001
Comparando nuevo dato con fila: 1
[0.7 0.  1.  0.  1.  0.  0.  1.  0.  0. ]
[0.81 0.   1.   0.   1.   0.   0.   1.   1.   1.  ]
Distancia: 1.4184851074297538
Comparando nuevo dato con fila: 2
[0.79 1.   0.   0.   1.   0.   0.   0.   0.   1.  ]
[0.81 0.   1.   0.   1.   0.   0.   1.   1.   1.  ]
Distancia: 2.000099997500125
Comparando nuevo dato con fila: 3
[0.86 0.   0.   1.   0.   1.   0.   0.   0.   1.  ]
[0.81 0.   1.   0.   1.   0.   0.   1.   1.   1.  ]
Distancia: 2.4499999999999997
Comparando nuevo dato con fila: 4
[1. 0. 1. 0. 1. 0. 0. 1. 0. 0.]
[0.81 0.   1.   0.   1.   0.   0.   1.   1.   1.  ]
Distancia: 1.426919759481941
Comparando nuevo dato con fila: 5
[0.74 0.   1.   0.   0.   0.   1.   1.   0.   0.  ]
[0.81 0.   1.   0.   1.   0.   0.   1.   1.   1.  ]
Distancia: 2.0012246250733576
Comparando nuevo dato co

El problema de este algoritmo es que al tener que comparar el nuevo dato con todos los anteriores es muy lento pero si guardamos los datos de maneras especiales entonces hay algoritmos mas eficientes que no necesitan ver todos los datos para encontrar los mas cercanos. Estos son unos de los algoritmos mas utilizados hoy en dia en las bases de datos vectoriales y se llaman algoritmos de aproximacion de vecinos cercanos (ANN por sus siglas en ingles).

# Fin: [Volver al contenido del curso](https://www.freecodingtour.com/cursos/espanol/datascience/datascience.html)