# Implementacion de K-Nearest Neighbors (KNN) usando Numpy
-----

## Importación de Librerías

Empecemos importando las librerías. Las librerías principales que usaremos serán `numpy` y `matplotlib`.

In [None]:
# Operaciones matriciales
import numpy as np
# Visualización
import matplotlib.pyplot as plt
%matplotlib inline

## Generación de Datos

Antes de iniciar con la implementación generaremos datos en $2$ dimensiones para poder visualizarlos y probar la implementación. Denotaremos a la data como $X$ y las clases o etiquetas como $y$.

In [None]:
# Crear mapas de color para visualización
from matplotlib.colors import ListedColormap
cmap_light = ListedColormap(['#AAAAFF', '#FFAAAA'])
cmap_bold = ListedColormap(['#0000FF', '#FF0000'])

# Generamos data aleatoria
from sklearn.datasets import make_blobs
X, y = make_blobs(200, 2, centers=2, random_state=1, cluster_std = 2)

# Visualizamos la data generada
plt.figure(figsize=(7,6))
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap=cmap_bold)
plt.show()

print(f'\nTamaño del conjunto de datos {X.shape}')

Como podemos observar, hemos generado datos simples cuya separabilidad no es muy complicada. Usaremos esta data solamente para fines de probar la implementación. Más adelante generaremos data más compleja.

## Particionamiento de datos

Como no contamos con un conjunto de datos de validación y de prueba, el primer paso es particionar los datos.

### Particionamiento Hold-out

Particionamos nuestro conjunto de datos en entrenamiento y prueba. Para ello, adicionaremos un parámetro `train_size` con valores entre $0$ y $1$ que indica el porcentaje de datos a considerar en la data de entrenamiento. Por ejemplo, si tenemos $200$ datos y especificamos `train_size` igual a $0.8$. Entonces el método retornará dos conjuntos de datos: $(X_{train}, y_{train})$ y $(X_{test}, y_{test})$ con $160$ y $40$ muestras respectivamente.


In [None]:
def train_test_split(X, y, train_size=0.8, random_state=1):
  '''
    Este método permite dividir un conjunto de datos (X,y) en dos conjuntos
    de datos (X_train, y_train) y (X_test, y_test) dada la proporción de datos
    de entrenamiento deseado.

    Es recomendable aleatorizar los datos antes de realizar la división.

    Args:
      - X: dataset de dimensión (N x D), donde N es el número de muestras y
           D es el número de características.
      - y: arreglo de dimensión (N), donde N es el número de muestras. Este
           arreglo contiene las etiquetas (clases) de la data.
      - train_size: representa la proporción del conjunto de datos a incluir en
                    la data de entrenamiento.
      - random_state: controla la aleatoriedad aplicada a los datos antes de
                      aplicar la división.

    Returns:
      - X_train: matriz de dimensión (N1 x D)
      - y_train: arreglo de dimensión (N1)
      - X_test: matriz de dimensión (N2 x D)
      - y_test: arreglo de dimensióm (N2)

    Note:
      - Los datos particionados deben sumar el total (N1+N2 = N)
      - Implementar el método usando solo numpy, está permitido usar np.random.
      - A continuación se deja una plantilla que puede usar, pero no es
        obligatorio, pueden realizar la implementación como mejor le parezca.
  '''
  N = X.shape[0]

  # Usado para controlar la aleatoriedad del particionamiento
  np.random.seed(random_state)

  # TODO: Realice el particionamiento del conjunto de datos, puede usar la
  # plantilla dada a continuación

  # Recomendado usar np.random.permutation para aleatorizar los índices de los datos.
  indices =

  # Definir el número de muestras de la data de entrenamiento
  N1 =

  # Seleccionar los índices que se usarán en la data de entrenamiento y de prueba
  train_indices, test_indices =

  # Particionar la data usando los índices seleccionados anteriormente
  X_train, y_train =
  X_test, y_test =

  # Retornamos los conjuntos de datos particionados
  return X_train, y_train, X_test, y_test

Probemos la implementación del particionamiento:

In [None]:
# Test para probar la implementación del particionamiento de datos
train_sizes = np.array([0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.75, 0.8, 0.85, 0.9])
correct = True
for train_size in train_sizes:
  _X_train, _y_train, _X_test, _y_test = train_test_split(X, y, train_size)
  difference = X.shape[0] - _X_train.shape[0] - _X_test.shape[0]
  difference_y = y.shape[0] - _y_train.shape[0] - _y_test.shape[0]
  if difference != 0 or difference_y != 0:
    print(':( El particionamiento no fue realizado correctamente.\n')
    print(f'Total: ({X.shape},{y.shape})')
    print(f'Train: ({_X_train.shape},{_y_train.shape})')
    print(f'Test: ({_X_test.shape},{_y_test.shape})')
    correct = False
    break
if correct:
  print(':) El particionamiento fue realizado correctamente.')

Procederemos a particionar el conjunto de datos en entrenamiento, validación y prueba. Para este ejemplo consideraremos un particionamiento de $60\%$ para entrenamiento, $20\%$ para validación y $20\%$ para prueba. Para ello es necesario usar el método antes implementado (`train_test_split`) dos veces.

In [None]:
# TODO: Particione el conjunto de datos en entrenamiento (train) y prueba (test)
#       usando el 80% para entrenamiento y el 20% para prueba
_X_train, _y_train, X_test, y_test =

print('Tamaño original del dataset: ', X.shape)
print('Tamaño de la data de entrenamiento: ', _X_train.shape)
print('Tamaño de la data de prueba: ', X_test.shape)

In [None]:
# TODO: Particione el conjunto de datos de entrenamiento en un nuevo subconjunto
#       de entrenamiento y validación usando el 75% para entrenamiento y el 25%
#       para validación. Recuerde que luego de realizar el primer partionamiento
#       (80%/20%), la proporción deseada del 60% inicial se convierte en 75%
#       en el nuevo dataset.
X_train, y_train, X_val, y_val =

print('Tamaño original de la data de entrenamiento: ', _X_train.shape)
print('Tamaño de la nueva data de entrenamiento: ', X_train.shape)
print('Tamaño de la data de validación: ', X_val.shape)

Para validar sus particionamientos pueden calcular los porcentajes de modo manual y verificar que efectivamente esten obteniendo el $60\%$ para entrenamiento, $20\%$ para validación y $20\%$ para prueba. Procederemos a imprimir los particionamientos de los datasets finales:

In [None]:
print('Tamaño original del dataset: ', X.shape)
print('---------------------------')
print('Tamaño de la data de entrenamiento: ', X_train.shape)
print('Tamaño de la data de validación: ', X_val.shape)
print('Tamaño de la data de prueba: ', X_test.shape)

Recordemos que en cualquier problema de Machine Learning que tengamos, no debemos usar la data de prueba sino hasta después de haber realizado todas nuestras validaciones y elegido todos nuestros hiperparámetros. La data de prueba simula la data que nunca llegamos a ver.

## Visualización del dataset

Procederemos con la visualización de los particionamientos previamente realizados. En este paso solo mostraremos la data de entrenamiento y de validación para saber el tipo de clasificación que necesitamos realizar. La data de test solo la tocaremos al final de este trabajo.

In [None]:
def plot_dataset(X_train, y_train, X_test, y_test, is_validation=True):
  """
     Este método permite visualizar nuestros datos de entrenamiento y prueba
  """
  plt.subplots(figsize =(15, 5))
  plt.subplot(1, 2, 1)
  plt.scatter(X_train[:, 0], X_train[:, 1], c=y_train, s=30, cmap=cmap_bold)
  plt.title('Data de Entrenamiento')
  plt.subplot(1, 2, 2)
  plt.scatter(X_test[:,0], X_test[:,1])
  if is_validation:
    plt.title('Data de Validación')
  else:
    plt.title('Data de Prueba')
  plt.show()

plot_dataset(X_train, y_train, X_val, y_val)

La visualización nos muestra la distribución de ambos conjuntos de datos. Un punto importante a considerar es en los ejes de coordenadas, podemos ver que el eje $x$ tiene un rango de valores distinto al del eje $y$. Recordemos que en general, es muy común que los rangos de valores de diferentes características sea distinto por lo tanto tendremos que estandarizarlos.

## Estandarización del conjunto de datos

La estandarización (o **z-score**) es una técnica importante que se realiza principalmente como un paso de preprocesamiento antes de ingresar la data a un modelo de Machine Learning. Un problema muy frecuente en los conjuntos de datos es que muchas de sus características tienen grandes diferencias entre sus rangos (edad, salario, etc.) o simplemente se miden en diferentes unidades de medida (metros, millas, etc). Estas diferencias en los rangos causan problemas a muchos modelos de Machine Learning. Por ejemplo, para los modelos que se basan en el cálculo de la distancia, si una de las características tiene un amplio rango de valores, la distancia se regirá por esta característica en particular.

En este taller implementaremos el modelo de los k vecinos más cercanos; como lo visto en clase, este modelo está basado en el cálculo de distancias, por lo tanto será necesario estandarizar los datos antes de ejecutarlo. Para ello, estandarizaremos la data para que la distribución de cada característica tenga una media igual a cero y una desviación estándar igual uno (varianza unitaria), la formulación esta dada por lo siguiente:

$$X_{new} = \frac{X - \mu}{ \sigma }$$

donde $X_{new}$ es la data estandarizada, $X$ es la data sin estandarizar (data original) y $\mu$ y $\sigma$ son la media y desviación estándar de cada característica respectivamente. Recordar que estos valores los calculamos a partir de la data de entrenamiento y los usaremos en la data de validación y prueba. No olvidarse que estás estadísticas se calculan para cada característica (columna) de la data.

In [None]:
def standardize(X):
  """Estandarizar el dataset X -> (X - mean) / std

    Args:
      - X: dataset de dimensión (N x D), donde N es el número de muestras y
          D es el número de características.

    Returns:
      - (X_new, mu, std): X_new es la data estandarizada con media 0 y desviación
                          estándar 1; mu y std son la media y desviación estándar
                          respectivamente.

    Note:
      - Es probable que encuentren dimensiones donde la desviación estándar es 0,
        y ello implica una división por cero (NaN). Para manejar ese escenario,
        reemplace la desviación estándar de 0 por 1 antes de estandarizar.
      - A continuación se deja una plantilla que puede usar, pero no es
        obligatorio, puede realizar la implementación como mejor le parezca.
  """
  # TODO: Realice la estandarización del conjunto de datos, puede usar la
  # plantilla dada a continuación

  # Calcular la media y desviación estandar
  mu =
  std =

  # Reemplazar los valores de std=0 con 1
  std_filled =

  # Estandarizar la data
  X_new  =

  # Retornamos la data estandarizada y las estadísticas calculadas
  return X_new, mu, std_filled

Probemos la implementación de la estandarización:

In [None]:
# Test para probar la implementación del particionamiento de datos
# recordar que la data estandarizada debe tener una media igual a 0 y desviación
# estándar igual a 1 para cada característica

# Usado para controlar la aleatoriedad de los datos generados
np.random.seed(0)

# Generamos datos aleatorios y verificamos si la media es 0 y si la desviación
# estándar es 1
sizes = np.array([[10,2], [50, 5], [100, 10],[1000,100], [200, 3]])
correct = True
for size in sizes:
  random_data = np.random.randn(*size).astype(np.float64)
  random_data_new, _ ,_ = standardize(random_data)
  data_mu = random_data_new.mean(0)
  data_std = random_data_new.std(0)
  if all(abs(data_mu) > 1e-4) or all(abs(data_std - 1) > 1e-4):
    print(':( La estandarización no fue realizada correctamente.')
    print(f'La media es: {data_mu} y la desviación estándar es: {data_std}')
    correct = False
    break
if correct:
  print(':) La estandarización fue realizada correctamente.')

Estandarizamos la data de entrenamiento y obtenemos sus estadísticas:

In [None]:
X_train_new, X_train_mu, X_train_std = standardize(X_train)

# Imprimimos las estadísticas obtenidas, debido al tipo de dato flotante
# es probable que la media no sea exactamente 0 pero cercano a ese valor
print("Media de la nueva data: ", X_train_new.mean(0))
print("Desviación Estándar de la nueva data: ", X_train_new.std(0))

Para estandarizar la data de validación usaremos la media y desviación estándar calculados en la data de entrenamiento:

In [None]:
def standardize_test(X_test, X_train_mu, X_train_std):
  """Estandarizar la data de prueba  X -> (X - mu) / std

    Args:
      - X_test: dataset de dimensión (M x D), donde M es el número de muestras y
                D es el número de características.
      - X_train_mu: arreglo de dimensión (D), conteniendo la media de cada
                    característica hallada en la data de entrenamiento
      - X_train_std: arreglo de dimensión (D), conteniendo la desviación estándar
                    de cada característica hallada en la data de entrenamiento

    Returns:
      - X_test_new: dataset de dimensión (M x D), donde M es el número de muestras y
                    D es el número de características.

    Note:
      - Como estamos usando estadísticas de la data de entrenamiento, no es necesario
        que la media y desviación estándar de la data de prueba sea 0 y 1
        respectivamente
  """
  # TODO: Estandarice la data de prueba usando las estadísticas de la data de entrenamiento
  X_test_new =
  return X_test_new

Procedemos a estandarizar la data de validación. Tener en cuenta que la media y desviación estándar de la nueva data de validación no necesariamente tiene que ser $0$ y $1$ respectivamente, ya que estamos haciendo uso de las estadísticas de la data de entrenamiento:

In [None]:
X_val_new = standardize_test(X_val, X_train_mu, X_train_std)
print("Media de la nueva data de validación: ", X_val_new.mean(0))
print("Desviación Estándar de la nueva data de validación: ", X_val_new.std(0))

Visualicemos los datos estandarizados:

In [None]:
plot_dataset(X_train_new, y_train, X_val_new, y_val)

Podemos observar que los rangos de valores fueron correctamente estandarizados, ya que no hay cambios demasiado grandes entre los valores de ambas características.

Hemos culminado la fase de preprocesamiento, ahora si podemos usar los datos preprocesados en nuestro modelo de Machine Learning.

## Implementación del Modelo

Ahora que hemos preprocesado nuestros datos, es hora de implementar el clasificador KNN. Podemos dividir el proceso en dos pasos:

1. Calcular las distancias entre todos los datos de prueba y todos los datos de entrenamiento.
2. Dadas estas distancias, para cada dato de prueba encontrar los $k$ vecinos más cercanos y asignarles su clase (label) basándonos en el voto mayoritario (moda).

En este taller, empezaremos con la implementación del cálculo de distancias. Una vez finalizada esa parte, realizaremos la implementación del clasificador usando solamente al vecino más cercano ($k=1$), y luego generalizaremos la implementación para $k$ vecinos.

## Cálculo de Distancias

El clasificador del vecino más cercano compara cada dato de prueba con todos los datos de entrenamiento para predecir sus clases (labels). En este taller usaremos la distancia euclidiana (también llamada $L2$) para comparar nuestras datos.

  - Distancia euclidiana (L2): $$ d(x, y) = \sqrt{\sum\limits_i (x_i - y_i)^2}$$
    

**Importante:** en la práctica no se toma en cuenta el cálculo de la raíz cuadrada ya que al comparar dos distancias, $d(i,j) < d(i,j')$, la raiz cuadrada se cancela. Esto se cumple debido a que la raíz cuadrada es una función monotónicamente creciente. Por lo tanto, en la implementación no será necesario hacer uso de la raíz cuadrada.

Implementaremos diferentes versiones del cálculo de distancias. La entrada en nuestros métodos serán: la data de entrenamiento y prueba. La salida será una matriz de distancias donde cada posición $(i,j)$ denota la distancia entre i-ésimo dato de prueba y el j-ésimo dato de entrenamiento.

#### Cálculo de distancias: Implementación usando $2$ bucles

Comencemos con la primera versión del cálculo de la matriz de distancias entre todos los ejemplos de prueba y entrenamiento. Primero implementaremos una versión del cálculo de distancia, utilizando bucles explícitos sobre los conjuntos de prueba y entrenamiento:


In [None]:
def calculate_distances_two_loops(X_train, X_test):
  """
    Este método permite calcular la distancia euclidiana al cuadrado entre cada
    elemento del conjunto de prueba y cada elemento del conjunto de entrenamiento.

    distancia(x, y) = (x1 - y1)^2 + (x2 - y2)^2 + ... + (xd - yd)^2

    Args:
      - X_train: matriz de dimensión (N x D), donde N es el número de datos de
                 entrenamiento y D es la dimensión o número de características

      - X_test: matriz de dimensión (M x D), donde M es el número de datos de
                prueba y D es la dimensión o número de características

    Returns:
      - dists: matriz de dimensión (M, N) donde dists[i,j] es la distancia euclidiana
               entre el i-ésimo dato de prueba y el j-ésimo dato de entrenamiento

    Note:
      - Cuando comparamos dos elementos, no es necesario calcular la raiz
        cuadrada de la distancia euclidiana ya que al comparar d(i,j) < d(i,j')
        la raiz cuadrada se cancela.
      - Implementar el método usando solo numpy, no es válido usar métodos como
        np.norm.
  """
  num_test = X_test.shape[0]
  num_train = X_train.shape[0]

  # Inicializamos nuestra matriz de distancias
  dists = np.zeros((num_test, num_train))

  # TODO: Usar 2 bucles para calcular las distancias entre un dato de prueba y
  # entrenamiento dentro de ambos bucles.
  # Calcule la distancia euclidiana al cuadrado entre el i-ésimo dato de prueba
  # y el j-ésimo dato de entrenamiento, y almacene el resultado en la posición
  # dists[i][j].


  # Retornamos las matriz de distancias
  return dists

Ahora probemos la implementación, para ello debemos ingresar como argumentos la data de entrenamiento y validación previamente preprocesadas, es decir, $(X_{train\_new}, X_{val\_new})$

In [None]:
dists = calculate_distances_two_loops(X_train_new, X_val_new)
print('Tamaño de la matriz de distancias: ', dists.shape)

# siempre es recomendable evaluar nuestros métodos con diferentes casos de prueba
# por ello, pruebe su implementación con diferentes casos de prueba (opcional)

#### Cálculo de distancias: Implementación usando $1$ bucle y vectorización

Nuestra implementación del cálculo de distancia anterior es bastante ineficiente ya que utiliza dos bucles anidados sobre los conjuntos de datos de entrenamiento y prueba. ¿Podemos mejorar esa implementación?

El proceso de eliminar bucles explícitos de su código se llama **vectorización**. A veces es sencillo vectorizar el código originalmente escrito con bucles; otras veces, la vectorización requiere pensar en el problema de una nueva manera. Usaremos la vectorización para mejorar la velocidad de nuestra función de cálculo de distancia.

Como primer paso para vectorizar nuestro cálculo de distancias, complete el siguiente método que usará solo un bucle sobre los datos de prueba.

In [None]:
def calculate_distances_one_loop(X_train, X_test):
  """
    Calcular la distancia euclidiana al cuadrado entre cada elemento del
    conjunto de prueba y cada elemento del conjunto de entrenamiento.

    distancia(x, y) = (x1 - y1)^2 + (x2 - y2)^2 + ... + (xd - yd)^2

    Args / Return: Igual que el método calculate_distances_two_loops

    Note:
      - Solo puede usar un bucle sobre la data de prueba
      - Implementar el método usando solo numpy, no es válido usar métodos como
        np.norm
  """
  num_test = X_test.shape[0]
  num_train = X_train.shape[0]

  # Inicializamos nuestra matriz de distancias
  dists = np.zeros((num_test, num_train))

  # TODO: Usar 1 bucle para calcular la distancia euclidiana entre el
  # i-ésimo dato de prueba y toda la data de entrenamiento.
  # Almacene el resultado en la posición dists[i][j].


  # Retornamos las matriz de distancias
  return dists

Podemos verificar la correctitud de nuestra implementación de un bucle comparándola con nuestra implementación de dos bucles en algunos datos generados aleatoriamente. Tenga en cuenta que hacemos la comparación con puntos flotantes de 64 bits para una mayor precisión numérica.

In [None]:
# Test para probar la implementación de cálculo de distancias

# Usado para controlar la aleatoriedad de los datos generados
np.random.seed(0)

# Tamaños de los datos generados aleatoriamente
sizes = np.array([[10,2], [50, 5], [100, 10],[100,100], [200, 3]])
correct = True

for size in sizes:
  X_train_rand = np.random.randn(*size).astype(np.float64)
  X_val_rand = np.random.randn(*size).astype(np.float64)
  # Hay muchas formas de decidir si dos matrices son similares; Una de las más
  # simples es la norma de Frobenius. En caso de que no lo haya visto antes,
  # la norma de Frobenius de dos matrices es la raíz cuadrada de la suma cuadrada
  # de las diferencias de todos los elementos; en otras palabras, convertir las
  # matrices en vectores y calcular la distancia euclidiana entre ellos.
  dists_one = calculate_distances_one_loop(X_train_rand, X_val_rand)
  dists_two = calculate_distances_two_loops(X_train_rand, X_val_rand)
  difference = np.linalg.norm (dists_one - dists_two, ord = 'fro')
  if difference >= 1e-4:
    print(':( Las distancias no coinciden.')
    print(f'La diferencia entre las distancias es: {difference}')
    correct = False
    break

if correct:
  print(':) Las distancias coinciden.')

#### (Opcional) Cálculo de distancias: Implementación usando solo vectorización

Es posible calcular la distancia euclidiana sin la necesidad de usar bucles, gracias a las operaciones de vectorización que ofrece `python` es posible realizarlo de forma eficiente.

Ahora implementemos una versión completamente vectorizada de la función de cálculo de distancia que no use ningún bucle.

In [None]:
def calculate_distances_no_loops(X_train, X_test):
  """
    Calcule la distancia euclidiana al cuadrado entre cada elemento del
    conjunto de prueba y cada elemento del conjunto de entrenamiento.

    distancia(x, y) = (x1 - y1)^2 + (x2 - y2)^2 + ... + (xd - yd)^2

    Args / Return: Igual que los métodos previamente implementados

    Note:
      - No puede usar bucles en esta implementación
      - Implementar el método usando solo numpy, no es válido usar métodos como
        np.norm u otros métodos ya implementados de scipy
  """
  num_test = X_test.shape[0]
  num_train = X_train.shape[0]

  # Inicializamos nuestra matriz de distancias
  dists = np.zeros((num_test, num_train))

  # TODO: Calcule las distancias sin usar ningún bucle explícito.
  # Almacene el resultado en la posición dists[i, j].
  # HINT:
  # Intente formular la distancia euclidiana utilizando dos sumas con broadcast
  # y una multiplicación de matrices.


  # Retornamos las matriz de distancias
  return dists

Como lo realizado anteriormente, podemos verificar la correctitud de nuestra implementación comparando la versión completamente vectorizada con la versión de dos bucles original:

In [None]:
# Test para probar la implementación de cálculo de distancias

# Usado para controlar la aleatoriedad de los datos generados
np.random.seed(0)

# Tamaños de los datos generados aleatoriamente
sizes = np.array([[10,2], [50, 5], [100, 10],[100,100], [200, 3]])
correct = True

for size in sizes:
  X_train_rand = np.random.randn(*size).astype(np.float64)
  X_val_rand = np.random.randn(*size).astype(np.float64)
  dists_none = calculate_distances_no_loops(X_train_rand, X_val_rand)
  dists_two = calculate_distances_two_loops(X_train_rand, X_val_rand)
  difference = np.linalg.norm (dists_none - dists_two, ord = 'fro')
  if difference >= 1e-4:
    print(':( Las distancias no coinciden.')
    print(f'La diferencia entre las distancias es: {difference}')
    correct = False
    break

if correct:
  print(':) Las distancias coinciden.')

Ahora podemos comparar la velocidad de nuestras tres implementaciones. Si ha implementado todo correctamente, la implementación completamente vectorizada debería ser la más eficiente, seguida por la implementación de un bucle. Sino llego a realizar la implementación de la versión completamente vectorizada, no tenga en cuenta su tiempo de ejecución en las siguientes pruebas (puede comentar esas porciones de código).

In [None]:
# Comparemos las velocidades de las implementaciones
def time_function(f, *args):
    """
    Este método llama a la función f con argumentos (args) y
    retorna el tiempo (en segundos) que tomó ejecutarse
    """
    import time
    tic = time.time()
    f(*args)
    toc = time.time()
    return toc - tic

two_loop_time = time_function(calculate_distances_two_loops, X_train, X_val)
print('La versión con dos bucles tomó %f segundos' % two_loop_time)

one_loop_time = time_function(calculate_distances_one_loop, X_train, X_val)
print('La versión con un bucle tomó %f segundos' % one_loop_time)

no_loop_time = time_function(calculate_distances_no_loops, X_train, X_val)
print('La versión sin bucles tomó %f segundos' % no_loop_time)

Podemos observar que la versión con dos bubles es la más ineficiente, pero para pocos datos no hay mucha diferencia. Probemos ahora con una mayor cantidad de datos.

In [None]:
# Test para probar la eficiencia

# Usado para controlar la aleatoriedad de los datos generados
np.random.seed(0)

# Generamos datos aleatorios de dimensiones [1000x100]
X_train_rand = np.random.randn(1000, 100).astype(np.float64)
X_val_rand = np.random.randn(1000, 100).astype(np.float64)

two_loop_time = time_function(calculate_distances_two_loops, X_train_rand, X_val_rand)
print('La versión con dos bucles tomó %f segundos' % two_loop_time)

one_loop_time = time_function(calculate_distances_one_loop, X_train_rand, X_val_rand)
print('La versión con un bucle tomó %f segundos' % one_loop_time)

no_loop_time = time_function(calculate_distances_no_loops, X_train_rand, X_val_rand)
print('La versión sin bucles tomó %f segundos' % no_loop_time)

Ahora si se ve una gran diferencia en la eficiencia de los diferentes tipos de implementación, siendo la mejor la versión sin bucles, seguida por la versión que usa un solo bucle.

En conclusión, al momento de realizar implementaciones en `python` para Machine Learning, es muy recomendable tratar siempre de vectorizar sus operaciones y evitar bucles `for` o `while`. Tenga en cuenta que habrá casos donde no será posible vectorizar, por lo tanto se deberá realizar la implementación de forma tradicional.

## Implementación de 1-NN

Empezaremos a implementar el clasificador en su versión más simple, es decir, haciendo uso del vecino más cercano ($k=1$). Para ello usaremos los métodos de distancias previamente implementados. Dadas estas distancias, para cada dato de prueba encontraremos al vecino más cercano y le asignaremos su clase (label).


### Predicción de etiquetas

Tomar en consideración lo visto en clase, al momento de realizar las predicciones, no nos interesa la distancia mínima en si, lo que nos interesa es el índice del dato de entrenamiento mediante el cual obtuvimos la distancia mínima (`argmin`). Usando ese índice podemos acceder directamente a la clase real del dato de entrenamiento.

Complete la siguiente función:

In [None]:
def predict_labels_nearest_neighbor(dists, y_train):
  """
  Dado una matriz de distancias entre los datos de prueba y entrenamiento,
  predecir la etiqueta para cada dato de prueba basándose solamente en el
  vecino más cercano

    Args:
      - dists: matriz de dimensión (M x N), donde M es el número de datos de
               prueba y N es el número de datos de entrenamiento.
               dists[i, j] retorna la distancia entre el i-ésimo dato de prueba
               y el j-ésimo dato de entrenamiento.
      - y_train: arreglo de dimensión (N), donde N es el número de datos de
                entrenamiento. Este arreglo contiene las clases (labels) reales.

    Returns:
      - y_pred: arreglo de dimensión (M,) conteniendo las etiquetas predichas
                para cada dato de prueba, donde y_pred[i] es la etiqueta predicha
                para el i-ésimo ejemplo de prueba.
                Cada etiqueta debe ser un número entero en el rango [0, num_classes-1].

    Note:
      - Es válido usar bucles para iterar sobre la data de prueba
      - Es válido usar métodos como np.min, np.argmin
  """
  num_test = dists.shape[0]

  # Inicializamos nuestro arreglo de predicciones
  y_pred = np.zeros(num_test)

  # TODO: Use la matriz de distancias para encontrar al vecino más cercano
  # del i-ésimo dato de prueba, y use y_train para encontrar las etiquetas
  # de estos vecinos.


  # Retornamos el arreglo con las etiquetas predichas
  return y_pred

### Encapsulación en clases

Habiendo implementado toda la funcionalidad requerida para el clasificador basado en el vecino más cercano ($k=1$). Podemos definir una clase simple para encapsular toda la funcionalidad:

In [None]:
class NearestNeighbor:

  def __init__(self, num_loops=0):
    """
    Este método inicializa los hiperparámetros de nuestro clasificador

    Args:
      - num_loops: Determina que implementación usar para calcular las distancias
                  entre datos de entrenamiento y de prueba.
    """
    self.n_neighbors = 1
    self.num_loops = num_loops

  def fit(self, X_train, y_train):
    """
    Este método entrena el modelo usando la data de entrenamiento y sus etiquetas.

    Args:
      - X_train: data de entrenamiento de dimensión (N x D), donde N es el
                 número de muestras y D es el número de características.
      - y_train: arreglo de dimensión (N), donde N es el número de muestras.
                 Este arreglo contiene las etiquetas (clases) de la data.

    Note:
      - Recuerde que el clasificador memoriza la data de entrenamiento.
    """
    self.X_train = X_train
    self.y_train = y_train

  def predict(self, X_test):
    """
    Este método predice clases (labels) para la data de prueba

    Args:
      - X_test: data de prueba de dimensión (M x D), donde M es el
                número de muestras y D es el número de características.

    Returns:
      - y_test_pred: arreglo de dimensión (M,) conteniendo las etiquetas predichas
                     para cada dato de prueba, donde y_test_pred[i] es la etiqueta predicha
                     para el dato X_test[i].
    """
    if self.num_loops == 0:
      dists = calculate_distances_no_loops(self.X_train, X_test)
    elif self.num_loops == 1:
      dists = calculate_distances_one_loop(self.X_train, X_test)
    elif self.num_loops == 2:
      dists = calculate_distances_two_loops(self.X_train, X_test)
    else:
      raise ValueError('Valor inválido %d para num_loops' % self.num_loops)
    return predict_labels_nearest_neighbor(dists, self.y_train)

Tomar en consideración esta implementación ya que usted implementará los métodos de k-NN.

### Límites de Decisión

Como lo explicado en clase, en problemas de clasificación podemos particionar el espacio en regiones de decisión donde cada región es una clase. A continuación, mostraremos los límites de decisión basándonos en el vecino más cercano. Podrá visualizar la separabilidad de las clases si las implementaciones anteriores fueron llevadas a cabo de forma correcta.

In [None]:
def plot_decision_boundary(X_train, y_train, clf, name='NN', use_figure=True):
  """
     Este método permite visualizar nuestros datos de entrenamiento y prueba dado
     un modelo de clasificación que denotamos por 'clf'. El clasificador debe tener
     implementados los métodos .fit y .predict.
  """
  # Realizamos la fase de entrenamiento
  clf.fit(X_train, y_train)

  # Calculamos los límites de la malla a visualizar
  x_min, x_max = X_train[:, 0].min() - 1, X_train[:, 0].max() + 1
  y_min, y_max = X_train[:, 1].min() - 1, X_train[:, 1].max() + 1

  h = .01
  xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                      np.arange(y_min, y_max, h))

  # Para visualizar el límite de decisión, necesitaremos asignar un color
  # a cada punto en malla [x_min, x_max] x [y_min, y_max].
  Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])

  # Colocamos el resultado en un diagrama de color
  Z = Z.reshape(xx.shape)
  if use_figure:
    plt.figure()
  plt.pcolormesh(xx, yy, Z, cmap=cmap_light, alpha=.8)

  # Visualizamos los datos de entrenamiento y validación
  plt.scatter(X_train[:, 0], X_train[:, 1], c=y_train, cmap=cmap_bold, edgecolor='k', s=20)
  plt.xlim(xx.min(), xx.max())
  plt.ylim(yy.min(), yy.max())
  name = str(clf.n_neighbors) + '-' + name
  plt.title("{} (k = {})".format(name, clf.n_neighbors))

In [None]:
# Creamos una instancia de la clase implementada
clf = NearestNeighbor()

# Visualizamos los límites de decisión
plot_decision_boundary(X_train_new, y_train, clf)

Como podemos observar, el límite de decisión separa correctamente ambas clases. Visualmente podemos determinar si el clasificador fue bueno o no. Sin embargo, para generar esta visualización, fue necesario ejecutar el clasificador para cada punto y asignarle un color. Necesitamos otra forma de evaluar el rendimiento de nuestro modelo.

### Métrica de Evaluación

Una forma de evaluar el rendimiento de nuestro modelo es mediante métricas de evaluación. Existen diferentes métricas para clasificación, regresión, clustering, etc. Para este ejemplo haremos uso del `accuracy`, el cual está definido de la siguiente manera:

$$\text{Accuracy} = \frac{\text{Número de predicciones correctas}}{\text{Número total de predicciones}}$$


In [None]:
def accuracy(y_true, y_pred):
  """
    Este método devuelve la métrica de evaluación 'accuracy' del clasificador.
    Recordar que accuracy cuenta la cantidad promedio de datos correctamente predichos
    para ello comparamos los valores reales, 'y_true', con los valores predichos,
    'y_pred', realizamos el conteo de valores correctamente clasificados y retornamos
    el promedio.

    Args:
        - y_true: arreglo de dimensión (M,) conteniendo las etiquetas reales
        - y_pred: arreglo de dimensión (M,) conteniendo las etiquetas predichas

    Returns:
        - accuracy: Accuracy del clasificador. Su valor estará en el rango de [0, 1],
                    siendo 1 una clasificación perfecta.
    Note:
        - Puede hacer uso de métodos como np.mean()
  """
  # TODO: Calcule el accuracy

  return


### Evaluación del Modelo

Realizaremos la evaluación de nuestro modelo haciendo uso de la métrica previamente implementada.


In [None]:
# TODO: Calcule el accuracy de la data de entrenamiento y la data de validación
# Utilice la clase NearestNeighbor previamente implementada

# Creamos una instancia del clasificador implementado
clf =

# Entrenamos el modelo usando la data de entrenamiento
# Recuerde que es necesario usar la data estandarizada
clf.

# Predecimos etiquetas para la data de entrenamiento
# Recuerde que es necesario usar la data estandarizada
y_train_pred =

# Calculamos el accuracy de la data de entrenamiento
acc_train =

# Predecimos etiquetas para la data de validación
# Recuerde que es necesario usar la data estandarizada
y_val_pred =

# Calculamos el accuracy de la data de validación
acc_val =

# Imprimimos los resultados
print(f'Accuracy de la data de entrenamiento: {acc_train}.')
print(f'Accuracy de la data de validación: {acc_val}.')


De acuerdo a los resultados, podemos observar que la data de entrenamiento obtuvo un accuracy perfecto y la data de validación muestra un valor cercano. Ya que en este ejemplo estamos haciendo uso de datos simples, la separabilidad de las clases es bastante obvia. Sin embargo, la data del mundo real es mucho más compleja. Cuando implementemos los $k$ vecinos más cercanos, mostraremos la diferencia entre ambas predicciones en data un poco más compleja.

### Error de clasificación

Recordemos que en clase mencionamos el error de clasificación. Este error cuenta la cantidad de datos mal clasificados, el error se puede calcular a partir del accuracy simplemente restando a $1$ el valor del accuracy. Es decir:

$$\text{Error} = \frac{\text{Número de predicciones incorrectas}}{\text{Número total de predicciones}} = 1 - \text{Accuracy}$$

En otros modelos, el error estará definido como una función de pérdida.

In [None]:
print(f'Error de la data de entrenamiento: {1. - acc_train}.')
print(f'Error de la data de validación: {1. - acc_val}.')

## Implementación de KNN

Habiendo concluído con la implementación del vecino más cercano ($k=1$), procederemos a generalizar la implementación para considerar $k$ vecinos. Del mismo modo que hicimos en el vecino más cercano, usaremos los métodos de distancias previamente implementados. Dadas estas distancias, para cada dato de prueba encontraremos los $k$ vecinos más cercanos y asignaremos la clase (label) basándonos en el voto mayoritario (moda).

### Predicción de etiquetas

Tomar en consideración lo visto en clase, al momento de realizar las predicciones, no nos interesa la distancia mínima en si, lo que nos interesa son los índices del datos de entrenamiento más cercanos. Usando este vector de índices podemos acceder directamente a las clases reales de los datos de entrenamiento y hacer el conteo de etiquetas para determinar la clase predicha para cada dato de prueba.

In [None]:
def predict_labels(dists, y_train, k=1):
  """
    Dado una matriz de distancias entre datos de prueba y entrenamiento, predecir
    la etiqueta para cada dato de prueba considerando el voto mayoritario entre
    sus k vecinos más cercanos en el conjunto de entrenamiento.

    En caso de empate, esta función deberá devolver la etiqueta más pequeña.
    Por ejemplo, si k = 5 y los 5 vecinos más cercanos a un ejemplo de prueba
    tienen etiquetas [1, 2, 1, 2, 3], entonces hay un empate entre 1 y 2 (cada
    uno tiene 2 votos), por lo tanto debemos devolver 1 ya que es la etiqueta más
    pequeña.

    Args:
      - dists: matriz de dimensión (M x N), donde M es el número de datos de
               prueba y N es el número de datos de entrenamiento, donde
               dists[i, j] retorna la distancia entre el i-ésimo dato de prueba
               y el j-ésimo dato de entrenamiento.
      - y_train: arreglo de dimensión (N), donde N es el número de datos de
                 entrenamiento. Este arreglo contiene las clases (labels) reales.
      - k: número de vecinos más cercanos a utilizar en la clasificación.

    Returns:
      - y_pred: arreglo de dimensión (M,) conteniendo las etiquetas predichas
                para cada dato de prueba, donde y_pred[i] es la etiqueta predicha
                para el i-ésimo ejemplo de prueba.
                Cada etiqueta debe ser un número entero en el rango [0, num_classes-1].

    Note:
      - Es válido usar bucles para iterar sobre la data de prueba
      - Es válido usar métodos como np.argmax, np.argsort, np.bincount, etc.
  """
  num_test = dists.shape[0]

  # Inicializamos nuestro arreglo de predicciones
  y_pred = np.zeros(num_test)

  # Iteramos sobre cada dato de prueba para realizar su predicción respectiva
  for i in range(num_test):
    # TODO: Use la matriz de distancias para encontrar los k vecinos más cercanos
    # del i-ésimo dato de prueba, y use y_train para encontrar las etiquetas
    # de estos vecinos. Almacene estas etiquetas en el arreglo closest_y.
    # HINT: Revisar la función np.argsort
    closest_y =

    # Ahora que ha encontrado las etiquetas de los k vecinos más cercanos,
    # necesita encontrar la etiqueta más común en el arreglo de etiquetas closest_y.
    # Almacene esta etiqueta en y_pred[i].
    # Rompa empates eligiendo la etiqueta más pequeña.
    y_pred[i] =

  # Retornamos el arreglo con las etiquetas predichas
  return y_pred


### Encapsulación en clases

Habiendo implementado toda la funcionalidad requerida para el clasificador basado en los $k$ vecinos más cercanos. Podemos definir una clase simple para encapsular toda la funcionalidad:

In [None]:
class KNearestNeighbor:

  def __init__(self, n_neighbors=1, num_loops=0):
    """
      Este método inicializa los hiperparámetros de nuestro clasificador

      Args:
        - n_neighbors: Número de vecinos a utilizar en las predicciones
        - num_loops: Determina que implementación usar para calcular las distancias
                    entre datos de entrenamiento y e prueba.
    """
    self.n_neighbors = n_neighbors
    self.num_loops = num_loops

  def fit(self, X_train, y_train):
    """
      Este método entrena el modelo usando la data de entrenamiento y sus etiquetas.

      Args:
        - X_train: data de entrenamiento de dimensión (N x D), donde N es el
                  número de muestras y D es el número de características.
        - y_train: arreglo de dimensión (N), donde N es el número de muestras.
                  Este arreglo contiene las etiquetas (clases) de la data.

      Note:
        - Recuerde que el clasificador memoriza la data de entrenamiento.
    """
    #TODO: Implemente la funcionalidad de este método


  def predict(self, X_test):
    """
      Este método predice clases (labels) para la data de prueba

      Args:
        - X_test: data de prueba de dimensión (M x D), donde M es el
                  número de muestras y D es el número de características.
      Returns:
        - y_test_pred: arreglo de dimensión (M,) conteniendo las etiquetas predichas
                      para cada dato de prueba, donde y_test_pred[i] es la etiqueta predicha
                      para el dato X_test[i].
    """
    # TODO: Implemente la funcionalidad de este método

    return

Para probar su implementación, puede hacer uso de la implementación del vecino más cercano y comparar los resultados con un $k=1$.

In [None]:
# Test del vecino más cercano y k-NN con k=1

# Creamos una instancia de la clase NearestNeighbor y entrenamos el modelo
nn = NearestNeighbor()
nn.fit(X_train_new, y_train)

# Creamos una instancia de la clase KNearestNeighbor con k=1
knn = KNearestNeighbor(n_neighbors=1)
knn.fit(X_train_new, y_train)

# Realizamos predicciones para la data de validación usando ambas implementaciones
y_val_pred_nn = nn.predict(X_val_new)
y_val_pred_knn = knn.predict(X_val_new)

# Realizamos la comparación
difference = (y_val_pred_nn != y_val_pred_knn).sum()
if difference != 0:
  print(':( Su implementación de 1-NN no fue realizada correctamente.')
  print(f'Sus predicciones difieren en {difference} muestras.')
else:
  print(':) Su implementación de 1-NN fue realizada correctamente.')

Puede adicionar más casos de prueba para diferentes valores de $k$ y verificar si su implementación fue realizada correctamente.

### Límites de Decisión

Del mismo modo que hicimos en el vecino más cercano. Podemos visualizar los límites de decisión, haciendo uso de los $k$ vecinos más cercanos. Para ello, mostraremos los límites de decisión para $k=1$, $k=5$ y $k=$número de muestras.

In [None]:
plt.subplots(figsize =(18, 5))

plt.subplot(1, 3, 1)
# Creamos una instancia de la clase implementada
clf = KNearestNeighbor(n_neighbors=1)
plot_decision_boundary(X_train_new, y_train, clf, use_figure=False)

plt.subplot(1, 3, 2)
# Creamos una instancia de la clase implementada
clf = KNearestNeighbor(n_neighbors=5)
plot_decision_boundary(X_train_new, y_train, clf, use_figure=False)

plt.subplot(1, 3, 3)
# Creamos una instancia de la clase implementada
clf = KNearestNeighbor(n_neighbors=X_train_new.shape[0])
plot_decision_boundary(X_train_new, y_train, clf, use_figure=False)

Podemos visualizar que para un $k$ igual al número de muestras, caemos en underfitting, el modelo es demasiado simple que clasifica basándose en la clase mayoritaria del número total de muestras.

## Clasificación Multiclase

Para mostrar la importancia de KNN, generaremos distribuciones de datos más complejos y con más clases.

In [None]:
# Definimos mapas de color
cmap_light = ListedColormap(['#FFAAAA', '#AAFFAA', '#AAAAFF', '#AFAFAF', '#fafa30'])
cmap_bold = ListedColormap(['#FF0000', '#00FF00', '#0000FF', '#AFAFAF', '#fafa30'])

# Generamos datos aleatorios
X, y = make_blobs(400, 2, centers=5, random_state=10, cluster_std = 2.5)

# visualizamos la data generada
plt.figure(figsize=(7,6))
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap=cmap_bold)

Podemos observar que la data ahora es un poco más compleja que la anterior y con más clases. Usaremos esta data para evaluar nuestro modelo de $k$-NN. Por lo tanto, usted realizará la implementación de todos los pasos desde preprocesamiento hasta clasificación, usando los métodos que ya implementados.

#### Particionamiento de Datos

Particione el conjunto de datos en entrenamiento, validación y prueba. Considerar un particionamiento de $60\%$ para entrenamiento, $20\%$ para validación y $20\%$ para prueba. Para ello es necesario usar el método antes implementado (`train_test_split`).

In [None]:
# TODO: Realice los particionamientos de forma similar a lo implementado anteriormente
# Particionamos el conjunto de datos en 80% de entrenamiento y 20% de prueba
_X_train, _y_train, X_test, y_test =

# Particionamos el conjunto de datos de entrenamiento en 75% de entrenamiento y 20% de prueba
X_train, y_train, X_val, y_val =

# Imprimimos los tamaños de cada particionamiento
print('Tamaño original del dataset: ', X.shape)
print('---------------------------')
print('Tamaño de la data de entrenamiento: ', X_train.shape)
print('Tamaño de la data de validación: ', X_val.shape)
print('Tamaño de la data de prueba: ', X_test.shape)

#### Visualización del conjunto de datos

Procederemos con la visualización de los particionamientos previamente realizados. En este paso solo mostraremos la data de entrenamiento y de validación para saber el tipo de clasificación que necesitamos realizar. La data de test solo la tocaremos al final.

In [None]:
plot_dataset(X_train, y_train, X_val, y_val)

#### Estandarización de la data

Estandarizamos la data de entrenamiento y validación, recordar que para estandarizar la data de validación, hacemos uso de las estadísticas calculadas en la data de entrenamiento.

In [None]:
#TODO: Estandarice la data de entrenamiento y validación de forma similar a lo
# implementado anteriormente

# Estandarizar la data de entrenamiento (X_train) y calcular la media y desviación estándar
X_train_new, X_train_mu, X_train_std =

# Estandarizar la data de validación (X_val) haciendo uso de las estadísticas
# calculadas en la data de entrenamiento
X_val_new =

Visualicemos los datos estandarizados:

In [None]:
plot_dataset(X_train_new, y_train, X_val_new, y_val)

#### Límites de Decisión

Visualizaremos los límites de decisión para este conjunto de datos, haciendo uso de los $k$ vecinos más cercanos. Para ello, mostraremos los límites de decisión para $k=1$, $k=5$ y $k=$número de muestras.

In [None]:
plt.subplots(figsize =(18, 5))

plt.subplot(1, 3, 1)
# Creamos una instancia de la clase implementada
clf = KNearestNeighbor(n_neighbors=1)
plot_decision_boundary(X_train_new, y_train, clf, use_figure=False)

plt.subplot(1, 3, 2)
# Creamos una instancia de la clase implementada
clf = KNearestNeighbor(n_neighbors=5)
plot_decision_boundary(X_train_new, y_train, clf, use_figure=False)

plt.subplot(1, 3, 3)
# Creamos una instancia de la clase implementada
clf = KNearestNeighbor(n_neighbors=X_train_new.shape[0])
plot_decision_boundary(X_train_new, y_train, clf, use_figure=False)

Como podemos observar, para un $k=1$, el modelo se sobreajusta a los datos de entrenamiento (overfitting), para un $k=5$, tenemos un ajuste adecuado y, para un $k=$número de muestras, tenemos un modelo demasiado simple (underfitting).