## KNN K-Nearest Neighbors Classifier

K-Nearest Neighbors (KNN) es un algoritmo de clasificación. La idea central es que los puntos de datos con atributos similares tienden a caer en categorías similares.

Veamos la imagen de abajo. Esta imagen es complicada, pero por ahora vamos a centrarnos en dónde se colocan los puntos de datos. Cada punto de datos - ya sea de color rojo, verde o blanco - tiene un valor x y un valor y. Como resultado, se puede representar gráficamente. Como resultado, se puede trazar en este gráfico bidimensional.

![NearestNeighbors](https://raw.githubusercontent.com/vbatiz/intro-ML/main/notebooks/images/nearest_neighbor.gif)

A continuación, consideremos el color de los datos. El color representa la clase que el algoritmo K-Nearest Neighbor intenta clasificar. En esta imagen, los puntos de datos pueden tener la clase verde o la clase roja. Si un punto de datos es blanco, significa que aún no tiene clase. El objetivo del algoritmo es clasificar estos puntos desconocidos.

Por último, considere el círculo en expansión alrededor del punto blanco. Este círculo busca los k vecinos más cercanos al punto blanco. Cuando k = 3, el círculo es bastante pequeño. Dos de los tres vecinos más cercanos son verdes y uno es rojo. En este caso, el algoritmo clasificaría el punto blanco como verde. Sin embargo, cuando aumentamos k a 5, el círculo se amplía y la clasificación cambia. Tres de los vecinos más cercanos son rojos y dos son verdes, por lo que ahora el punto blanco se clasificará como rojo.

Esta es la idea central del algoritmo K-Nearest Neighbor. Si se dispone de un conjunto de datos de puntos cuya clase se conoce, se puede tomar un nuevo punto de clase desconocida, encontrar sus vecinos más cercanos y clasificarlo.

### Distancia entre puntos - 2D

En el primer ejercicio, pudimos visualizar el conjunto de datos y estimar los k vecinos más cercanos de un punto desconocido. Pero eso no lo puede hacer un ordenador.

Tenemos que definir qué significa que dos puntos estén cerca o lejos. Para ello, vamos a utilizar la Fórmula de la Distancia.

En este ejemplo, los datos tienen dos dimensiones:

- La duración de la película
- La fecha de estreno de la película

Consideremos La guerra de las galaxias y En busca del arca perdida. La guerra de las galaxias dura 125 minutos y se estrenó en 1977. En busca del arca perdida dura 115 minutos y se estrenó en 1981.

La distancia entre las películas se calcula a continuación:

$d = \sqrt {\left( {x_1 - x_2 } \right)^2 + \left( {y_1 - y_2 } \right)^2 }$

$d = \sqrt {\left( {125 - 115 } \right)^2 + \left( {1977 - 1981 } \right)^2 } = 10.77$

Creamos la función distancia

In [1]:
star_wars = [125, 1977]
raiders = [115, 1981]
mean_girls = [97, 2004]

def distance(movie1, movie2):
  length_difference = (movie1[0] - movie2[0]) ** 2
  year_difference = (movie1[1] - movie2[1]) ** 2
  distance = (length_difference+year_difference)**0.5
  return distance

print(distance(star_wars,raiders))
print(distance(star_wars,mean_girls))

10.770329614269007
38.897300677553446


### Distancia entre puntos - 3D

Hacer una predicción de la calificación de las películas basándose únicamente en la duración y la fecha de estreno es bastante limitado. Hay muchos más datos interesantes sobre las películas que podríamos utilizar. Así que añadamos otra dimensión.

Digamos que esta tercera dimensión es el presupuesto de la película. Ahora tenemos que encontrar la distancia entre estos dos puntos en tres dimensiones.

![3D](https://raw.githubusercontent.com/vbatiz/intro-ML/main/notebooks/images/threed.webp)

¿Y si no nos conformamos con tres dimensiones? Por desgracia, resulta bastante difícil visualizar puntos en dimensiones superiores a 3. Pero eso no significa que no podamos hallar la distancia entre ellos.

La fórmula generalizada de la distancia entre los puntos A y B es la siguiente:

$d = \sqrt {\left( {A_1 - B_1 } \right)^2 + \left( {A_2 - B_2 } \right)^2 + ... + \left( {A_n - B_n } \right)^2 }$

Aquí, $A_1-B_1$ es la diferencia entre la primera característica de cada punto. $A_n-B_n$ es la diferencia entre la última característica de cada punto.

Usando esta fórmula, podemos encontrar los K vecinos más cercanos de un punto en un espacio N-dimensional. Ahora podemos utilizar tanta información sobre nuestras películas como queramos.

In [3]:
def distance(pt1, pt2):
  distance = 0
  for i in range(len(pt1)):
    distance += (pt1[i] - pt2[i]) ** 2
  return distance ** 0.5

In [4]:
star_wars = [125, 1977, 11000000]
raiders = [115, 1981, 18000000]
mean_girls = [97, 2004, 17000000]
print(distance(star_wars,raiders))
print(distance(star_wars,mean_girls))

7000000.000008286
6000000.000126083


### Datos con Diferentes Escalas: Normalización

Cuando añadimos la dimensión de presupuesto, es posible que se haya dado cuenta de que hay algunos problemas con el aspecto actual de nuestros datos.

Consideremos las dos dimensiones de fecha de estreno y presupuesto. La diferencia máxima entre las fechas de estreno de dos películas es de unos 125 años (los hermanos Lumière hacían películas en la década de 1890). Sin embargo, la diferencia entre el presupuesto de dos películas puede ser de millones de dólares.

El problema es que la fórmula de la distancia trata todas las dimensiones por igual, independientemente de su escala. Si dos películas se estrenaran con 70 años de diferencia, eso debería ser un gran problema. Sin embargo, ahora mismo, eso equivale exactamente a dos películas que tienen una diferencia de presupuesto de 70 dólares. La diferencia en un año es exactamente igual a la diferencia en un dólar de presupuesto. Es absurdo.

Otra forma de pensar en esto es que el presupuesto supera completamente la importancia de todas las demás dimensiones porque es de una escala enorme. El hecho de que dos películas se hicieran con 70 años de diferencia es esencialmente insignificante comparado con la diferencia de millones en la otra dimensión.

La solución a este problema es normalizar los datos para que cada valor esté entre 0 y 1. En esta sección, vamos a utilizar la normalización mín-máx.

Para ello haremos nuestra propia función para normalizar una lista de números:

In [5]:
def min_max_normalize(lst):
  minimum = min(lst)
  maximum = max(lst)
  normalized = []
  for valor in lst:
    valor_normalizado = (valor-minimum)/(maximum-minimum)
    normalized.append(valor_normalizado)
  return normalized

Probemos la función:

In [6]:
release_dates = [1897, 1998, 2000, 1948, 1962, 1950, 1975, 1960, 2017, 1937, 1968, 1996, 1944, 1891, 1995, 1948, 2011, 1965, 1891, 1978]

datos_normalizados = min_max_normalize(release_dates)
print(datos_normalizados)

[0.047619047619047616, 0.8492063492063492, 0.8650793650793651, 0.4523809523809524, 0.5634920634920635, 0.46825396825396826, 0.6666666666666666, 0.5476190476190477, 1.0, 0.36507936507936506, 0.6111111111111112, 0.8333333333333334, 0.42063492063492064, 0.0, 0.8253968253968254, 0.4523809523809524, 0.9523809523809523, 0.5873015873015873, 0.0, 0.6904761904761905]


### Encontrando los vecinos más próximos (Nearest Neighbors)

Ahora que nuestros datos están normalizados y sabemos cómo hallar la distancia entre dos puntos, podemos empezar a clasificar los datos desconocidos.

Para ello, queremos encontrar los k vecinos más cercanos del punto no clasificado. En algunos ejercicios, aprenderemos a elegir k correctamente, pero por ahora, elijamos un número que parezca razonable. Elijamos 5.

Para encontrar los 5 vecinos más cercanos, tenemos que comparar esta nueva película sin clasificar con todas las demás películas del conjunto de datos. Esto significa que vamos a utilizar la fórmula de la distancia una y otra vez. En última instancia, queremos obtener una lista ordenada de distancias y las películas asociadas a esas distancias.

Podría ser algo como esto:

```
[
  [0.30, 'Superman II'],
  [0.31, 'Finding Nemo'],
  ...
  ...
  [0.38, 'Blazing Saddles']
]

```

En este ejemplo, la película desconocida tiene una distancia de 0,30 a Superman II.

A continuación, utilizaremos las etiquetas asociadas a estas películas para clasificar el punto sin etiqueta.

In [7]:
#Usaremos un archivo que contiene dos diccionarios con información de películas
!wget --no-check-certificate https://raw.githubusercontent.com/vbatiz/intro-ML/main/notebooks/movies.py -O movies.py

--2024-06-08 18:06:00--  https://raw.githubusercontent.com/vbatiz/intro-ML/main/notebooks/movies.py
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.110.133, 185.199.109.133, 185.199.108.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.110.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 389311 (380K) [text/plain]
Saving to: ‘movies.py’


2024-06-08 18:06:00 (8.54 MB/s) - ‘movies.py’ saved [389311/389311]



In [12]:
from movies import movie_dataset, movie_labels
print(movie_dataset['Teenage Mutant Ninja Turtles'])
print(movie_labels['Teenage Mutant Ninja Turtles'])  #Valor de 1 significa buena película, 0 = mala película

[0.010232883159164057, 0.21843003412969283, 0.9775280898876404]
0


Hemos importado un conjunto de datos de películas previamente normalizado e impreso los datos de la película Bruce Almighty. Cada película del conjunto de datos tiene tres características:

- el presupuesto normalizado (dólares)
- la duración normalizada (minutos)
- el año de estreno normalizado.

También hemos importado las etiquetas asociadas a cada película del conjunto de datos. La etiqueta asociada a Bruce Almighty es un 0, lo que indica que es una mala película. Recordemos que una película mala tiene una calificación inferior a 0.7 en IMDb.

Crearemos ahora nuestra propia función de clasificación de vecinos más cercanos. La función tiene tres parámetros: el punto de datos que desea clasificar denominado unknown, el conjunto de datos que utiliza para clasificarlo denominado dataset y k, el número de vecinos que le interesa.

In [13]:
def classify(unknown, dataset, k):
  distances = []
  for title in dataset:
    distancia_al_punto = distance(dataset[title], unknown)
    distances.append([distancia_al_punto,title])
  distances.sort()
  neighbors = distances[:k]
  return neighbors

print(classify([.4, .2, .9],movie_dataset,5))

[[0.08273614694606074, 'Lady Vengeance'], [0.22989623153818367, 'Steamboy'], [0.23641372358159884, 'Fateless'], [0.26735445689589943, 'Princess Mononoke'], [0.3311022951533416, 'Godzilla 2000']]


### Contando vecinos

Ahora hemos encontrado los k vecinos más cercanos y los hemos almacenado en una lista que tiene este aspecto:

```
[
  [0.083, 'Lady Vengeance'],
  [0.236, 'Steamboy'],
  ...
  ...
  [0.331, 'Godzilla 2000']
]
```

Nuestro objetivo ahora es contar el número de películas buenas y malas en la lista de vecinos. Si hay más vecinos buenos, el algoritmo clasificará la película desconocida como buena. En caso contrario, la clasificará como mala.

Para averiguar la clase de cada una de las etiquetas, tendremos que consultar nuestro conjunto de datos movie_labels. Por ejemplo, movie_labels['Akira'] nos daría 1 porque Akira está clasificada como una buena película.

Te preguntarás qué pasa si hay un empate. ¿Qué pasa si k = 8 y cuatro vecinos son buenos y cuatro malos? Hay distintas estrategias, pero una forma de deshacer el empate sería elegir la clase del punto más cercano.

In [18]:
print(movie_labels['Akira'])
print(movie_labels['Lady Vengeance'])
print(movie_labels['Godzilla 2000'])
print(movie_labels['Steamboy'])
print(movie_labels['Fateless'])
print(movie_labels['Princess Mononoke'])


1
0
0
1
1


Modificaremos nuestra función classify para que tome en consideración las etiquetas y determine la cantidad de vecinos buenos y malos.

In [19]:
def classify(unknown, dataset, labels, k):
  distances = []
  #Recrremos el dataset
  for title in dataset:
    movie = dataset[title]
    distance_to_point = distance(movie, unknown)
    #Agregamos la distancia y el punto asociado a ella
    distances.append([distance_to_point, title])
  distances.sort()
  #Tomamos solo los k más cercanos
  neighbors = distances[0:k]
  num_good = 0
  num_bad = 0
  for neighbor in neighbors:
    title = neighbor[1]
    if labels[title] == 0:
      num_bad += 1
    elif labels[title] == 1:
      num_good += 1
  if num_good > num_bad:
    return 1
  else:
    return 0

Probamos la nueva función

In [20]:
print(classify([.4, .2, .9],movie_dataset, movie_labels,5))

1
