# Asignación 1: Implementando y Analizando KNN desde Cero

## Objetivos

- Familiarizarse con conceptos y habilidades básicas de programación en Python aplicadas a ciencia de datos.
- Comprender el funcionamiento del algoritmo K-Nearest Neighbors (KNN) a través de su implementación desde cero.
- Cargar, explorar y preparar el dataset Pima Indian Diabetes para tareas de clasificación.
- Implementar funciones fundamentales como la distancia euclidiana y la predicción de clases usando KNN.
- Comparar la implementación propia de KNN con la versión de scikit-learn, analizando similitudes y diferencias en los resultados.
- Analizar el impacto del parámetro **k** en el desempeño del clasificador y discutir los hallazgos.

## Preámbulo: **Pima Indian Diabetes Dataset**

El **Pima Indian Diabetes Dataset** es un conjunto de datos clásico en Machine Learning y estadística, utilizado principalmente para problemas de clasificación binaria. Contiene información médica de mujeres de origen Pima (una población indígena de América del Norte) mayores de 21 años. Cada registro incluye variables como número de embarazos, concentración de glucosa en plasma, presión arterial, grosor del pliegue cutáneo, niveles de insulina, índice de masa corporal (IMC), función hereditaria de la diabetes y edad. El objetivo es predecir si una persona tiene o no diabetes (variable objetivo binaria).

Un aspecto importante de este dataset es la presencia de valores faltantes, especialmente en variables como glucosa, presión arterial, grosor del pliegue cutáneo e insulina, donde valores igual a cero suelen indicar datos ausentes. Para esta asignación, se utilizará una versión limpia del dataset en la que se han eliminado los registros con valores faltantes, permitiendo así un análisis más directo y sin la necesidad de imputación de datos.

## Paso 1: Cargar y explorar el dataset

**Instrucciones:**
- Descarga el dataset desde el repositorio de GitHub del curso. El archivo se encuentra en `datasets/pima_indian_diabetes_dataset/cleaned_dataset.csv`.
- Carga el dataset utilizando pandas.
- Muestra las primeras filas (`df.head()`) del dataset.
- Imprime la cantidad total de filas y columnas del dataset.

In [25]:
# Tu código aquí

## Paso 2: Crear función para cargar y dividir el dataset

**Instrucciones:**
- Implementa una función en Python que:
  - Cargue el dataset limpio desde la ruta especificada.
  - Seleccione las primeras 10 muestras como conjunto de entrenamiento.
  - Seleccione las siguientes 10 muestras como conjunto de prueba.
  - Devuelva por separado: `X_train`, `y_train`, `X_test`, `y_test`.

In [None]:
# Tu código aquí

## Paso 3: Implementar la función de distancia euclidiana

**Instrucciones:**
- Escribe una función en Python que reciba dos vectores y calcule la distancia euclidiana entre ellos.
- Utiliza la siguiente fórmula matemática para la distancia euclidiana entre dos vectores $x$ y $y$ de $n$ dimensiones:

$$
d(x, y) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}
$$

- Prueba tu función con los siguientes dos ejemplos (cada vector corresponde a una fila del dataset):

| Pregnancies | Glucose | Blood Pressure | Skin Thickness | Insulin | BMI  | Diabetes Pedigree Function | Age | Outcome |
|-------------|---------|---------------|----------------|---------|------|----------------------------|-----|---------|
|      1      |   106   |      70       |      28        |   135   | 34.2 |           0.142            | 22  |    0    |
|      2      |   102   |      86       |      36        |   120   | 45.5 |           0.127            | 23  |    1    |

- Calcula la distancia euclidiana a mano y luego verifica que el resultado de tu función sea el mismo.
- La función debe imprimir el resultado del cálculo de la distancia euclidiana con los datos presentados.

In [None]:
# Tu código aquí

## Paso 4: Implementar un clasificador KNN básico

**Instrucciones:**
- Escribe una función que, dado un punto de prueba, calcule la distancia a todos los puntos de entrenamiento utilizando tu función de distancia euclidiana.
- Selecciona los **k = 3** vecinos más cercanos y predice la clase mayoritaria entre ellos.
- Aplica tu función a las 10 muestras de prueba obtenidas previamente, utilizando las 10 muestras de entrenamiento como referencia.
- El script debe imprimir una tabla comparando el valor real de `Outcome` de cada muestra de prueba con el valor predicho por tu algoritmo.
- Considere que las tablas se pueden codificar con un formato similar al que se muestra en el siguiente código:

In [28]:
# Ejemplo de tabla simple usando print y formato alineado
print("{:<8} {:<13} {:<8}".format("Muestra", "Outcome_real", "Predicho"))
print("{:<8} {:<13} {:<8}".format(1, 0, 0))
print("{:<8} {:<13} {:<8}".format(2, 1, 1))
print("{:<8} {:<13} {:<8}".format(3, 0, 0))
print("{:<8} {:<13} {:<8}".format(4, 1, 1))
print("{:<8} {:<13} {:<8}".format(5, 0, 1))

Muestra  Outcome_real  Predicho
1        0             0       
2        1             1       
3        0             0       
4        1             1       
5        0             1       


In [None]:
# Tu código aquí

## Paso 5: Comparar con scikit-learn

**Instrucciones:**
- Utiliza `KNeighborsClassifier` de scikit-learn para entrenar y predecir sobre el mismo subconjunto de datos. Asegúrate de definir los hiperparámetros: `k=3`, distancia euclidiana y método de búsqueda fuerza bruta (`algorithm='brute'`).
- Compara los resultados de tu implementación con los obtenidos por scikit-learn.
- El script debe mostrar una tabla que compare el valor real de `Outcome` de cada muestra de prueba, el valor predicho por tu algoritmo y el valor predicho por scikit-learn.

In [None]:
# Tu código aquí

## Paso 6: Normalización de los datos

Hasta ahora, se han utilizado los datos crudos directamente desde el dataset. Sin embargo, en Machine Learning es una buena práctica normalizar o escalar los datos antes de aplicar algoritmos basados en distancias, como KNN. La normalización ayuda a que todas las variables tengan el mismo rango y evita que aquellas con valores numéricos grandes dominen el cálculo de distancias.

**Instrucciones:**
- Implementa una nueva función de carga de datos, similar a la del Paso 2, que:
  - Cargue el dataset limpio desde la ruta especificada.
  - Seleccione las primeras 10 muestras como conjunto de entrenamiento y las siguientes 10 como conjunto de prueba.
  - Aplique un escalado Min-Max (`MinMaxScaler` de scikit-learn) a las 20 muestras seleccionadas, considerando el minimo y el maximo de ambos conjuntos.
  - Devuelva los conjuntos `X_train`, `y_train`, `X_test`, `y_test` ya normalizados.
- Utiliza estos datos normalizados para volver a comparar el desempeño de tu implementación de KNN y la de scikit-learn, como en el Paso 5.
- Presenta los resultados en una tabla comparativa.

In [None]:
# Tu código aquí

## Paso 7: Analizar el impacto de k

**Instrucciones:**
- Evalúa el desempeño de tu implementación personalizada para distintos valores de **k** (por ejemplo: 1, 3, 5, 7, 9).
- Utiliza los datos normalizados
- Para cada valor de k, predice el `Outcome` de las muestras de prueba.
- Construye una tabla que muestre, para cada muestra de prueba, el número de muestra, el valor real de `Outcome` y los valores predichos por tu algoritmo para cada valor de k. Por ejemplo:

| Muestra | Outcome real | k=1 | k=3 | k=5 | k=7 | k=9 |
|---------|--------------|-----|-----|-----|-----|-----|
|    1    |      0       |  0  |  0  |  1  |  0  |  0  |
|    2    |      1       |  1  |  1  |  0  |  1  |  1  |
|    3    |      0       |  0  |  0  |  0  |  0  |  1  |
|    4    |      1       |  1  |  0  |  1  |  1  |  1  |
|    5    |      0       |  0  |  1  |  0  |  0  |  0  |
|    6    |      1       |  1  |  1  |  1  |  1  |  1  |
|    7    |      0       |  0  |  0  |  0  |  1  |  0  |
|    8    |      1       |  1  |  1  |  1  |  1  |  1  |
|    9    |      0       |  0  |  0  |  1  |  0  |  0  |
|   10    |      1       |  1  |  1  |  1  |  1  |  1  |


In [None]:
# Tu código aquí

# Rúbrica de Evaluación

| Paso                                                         | Puntos |
|--------------------------------------------------------------|--------|
| 1. Cargar y explorar el dataset                              |   10   |
| 2. Crear función para cargar y dividir el dataset            |   10   |
| 3. Implementar la función de distancia euclidiana            |   10   |
| 4. Implementar un clasificador KNN básico                    |   10   |
| 5. Comparar con scikit-learn                                 |   20   |
| 6. Normalización y comparación con KNN y scikit-learn        |   20   |
| 7. Analizar el impacto de k                                  |   20   |
| **Total**                                                    | **100**|