## Descripción del dataset: Pima Indians Diabetes

El **Pima Indians Diabetes Dataset** es un conjunto de datos clásico en Machine Learning y bioestadística, recopilado por el *National Institute of Diabetes and Digestive and Kidney Diseases*.  
Su propósito es **predecir la aparición de diabetes tipo 2** en mujeres de origen **pima** (una población indígena del sur de Arizona, EE.UU.), a partir de diversas variables clínicas y demográficas.

### Características principales:
- **Número de registros:** 392 (en esta versión limpia, el original tenía 768).  
- **Número de atributos (features):** 8 variables predictoras + 1 variable objetivo.  
- **Población:** Mujeres de al menos 21 años de edad de la etnia Pima.  
- **Tarea principal:** Clasificación binaria → determinar si una paciente tiene diabetes (`Outcome = 1`) o no (`Outcome = 0`).

### Variables:
1. **Pregnancies** → Número de embarazos.  
2. **Glucose** → Concentración de glucosa en plasma después de 2 horas en una prueba de tolerancia a la glucosa.  
3. **BloodPressure** → Presión arterial diastólica (mm Hg).  
4. **SkinThickness** → Espesor del pliegue cutáneo del tríceps (mm).  
5. **Insulin** → Nivel sérico de insulina (mu U/ml).  
6. **BMI** → Índice de masa corporal (peso en kg / altura² en m²).  
7. **DiabetesPedigreeFunction** → Probabilidad de diabetes basada en antecedentes familiares.  
8. **Age** → Edad en años.  
9. **Outcome** → Variable objetivo:  
   - `0` = No tiene diabetes  
   - `1` = Tiene diabetes  

### Relevancia:
Este dataset es ampliamente utilizado en cursos de **Inteligencia Artificial y Machine Learning** para enseñar:
- Procesamiento y limpieza de datos biomédicos.  
- Métodos de clasificación supervisada (KNN, regresión logística, Random Forest, SVM, redes neuronales, etc.).  
- Importancia de la normalización y estandarización en algoritmos basados en distancias.  

---


## Paso 1: Cargar la base de datos  
Cargamos el CSV en un `DataFrame` de `pandas`. Si tu archivo no se llama exactamente `cleaned_dataset.csv`, ajusta la ruta.

In [1]:
#codigo aqui
import pandas as pd
import numpy as np
    
# Cargar el dataset
df = pd.read_csv('dataset/cleaned_dataset.csv')

# Mostrar las primeras filas
print(df.head())

# Imprimir la cantidad de filas y columnas
print(f"Filas: {df.shape[0]}, Columnas: {df.shape[1]}")


   Pregnancies  Glucose  Blood Pressure  Skin Thickness  Insulin   BMI  \
0            0      129             110              46      130  67.1   
1            0      180              78              63       14  59.4   
2            3      123             100              35      240  57.3   
3            1       88              30              42       99  55.0   
4            0      162              76              56      100  53.2   

   Diabetes Pedigree Function  Age  Outcome  
0                       0.319   26        1  
1                       2.420   25        1  
2                       0.880   22        0  
3                       0.496   26        1  
4                       0.759   25        1  
Filas: 392, Columnas: 9


## Paso 2: Crear subconjuntos con 20 datos de **entrenamiento** y 20 de **testeo**
Seleccionaremos 40 muestras: 20 para entrenar y 20 para evaluar.

In [2]:
#codigo aqui
def cargar_y_dividir_dataset(df):
    # Seleccionar las primeras 20 muestras para entrenamiento
    train = df.iloc[:20]
    # Seleccionar las siguientes 20 muestras para prueba
    test = df.iloc[20:40]
    # Separar características y etiquetas
    X_train = train.drop('Outcome', axis=1).values
    y_train = train['Outcome'].values
    X_test = test.drop('Outcome', axis=1).values
    y_test = test['Outcome'].values
    return X_train, y_train, X_test, y_test

X_train, y_train, X_test, y_test = cargar_y_dividir_dataset(df)

## Paso 3: Implementar la función de distancia euclidiana

**Instrucciones:**
- Escribe una función en Python que reciba dos vectores y calcule la distancia euclidiana entre ellos.
- Utiliza la siguiente fórmula matemática para la distancia euclidiana entre dos vectores $x$ y $y$ de $n$ dimensiones:

$$
d(x, y) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}
$$

- Prueba tu función con los siguientes dos ejemplos (cada vector corresponde a una fila del dataset):

| Embarazos | Glucosa | Presión Arterial | Grosor Piel | Insulina | IMC  | Función Hereditaria | Edad | Resultado |
|-----------|---------|------------------|-------------|----------|------|---------------------|------|-----------|
|     1     |   106   |        70        |      28     |   135    | 34.2 |        0.142        |  22  |     0     |
|     2     |   102   |        86        |      36     |   120    | 45.5 |        0.127        |  23  |     1     |

- Calcula la distancia euclidiana a mano y luego verifica que el resultado de tu función sea el mismo.
- La función debe imprimir el resultado del cálculo de la distancia euclidiana con los datos presentados.



In [3]:
# Implementación de la distancia euclidiana
import numpy as np

def euclidean_distance(x, y):
    """Calcula la distancia euclidiana entre dos vectores (listas o arrays).
    Lanza ValueError si las dimensiones no coinciden."""
    x = np.array(x, dtype=float)
    y = np.array(y, dtype=float)
    if x.shape != y.shape:
        raise ValueError("Los vectores deben tener la misma longitud")
    return np.sqrt(np.sum((x - y) ** 2))

# Vectores de ejemplo (sin la columna Outcome)
v1 = [1, 106, 70, 28, 135, 34.2, 0.142, 22]
v2 = [2, 102, 86, 36, 120, 45.5, 0.127, 23]

# Cálculo usando la función
dist = euclidean_distance(v1, v2)
print(f"Distancia euclidiana (función): {dist:.6f}")

# Cálculo paso a paso para verificar (suma de cuadrados y raíz)
diff = np.array(v1, dtype=float) - np.array(v2, dtype=float)
sq = diff ** 2
sum_sq = np.sum(sq)
manual = np.sqrt(sum_sq)
print("Diferencias:", diff)
print("Cuadrados:", sq)
print(f"Suma de cuadrados: {sum_sq:.6f}")
print(f"Distancia euclidiana (paso a paso): {manual:.6f}")

assert np.isclose(dist, manual), "La verificación falló: valores no coinciden"
print("Verificación: OK - ambos métodos coinciden")


Distancia euclidiana (función): 26.280986
Diferencias: [-1.00e+00  4.00e+00 -1.60e+01 -8.00e+00  1.50e+01 -1.13e+01  1.50e-02
 -1.00e+00]
Cuadrados: [1.0000e+00 1.6000e+01 2.5600e+02 6.4000e+01 2.2500e+02 1.2769e+02
 2.2500e-04 1.0000e+00]
Suma de cuadrados: 690.690225
Distancia euclidiana (paso a paso): 26.280986
Verificación: OK - ambos métodos coinciden


## Paso 4: Implementar un clasificador KNN básico

**Instrucciones:**
- Escribe una función que, dado un punto de prueba, calcule la distancia a todos los puntos de entrenamiento utilizando tu función de distancia euclidiana.
- Selecciona los **k = 3** vecinos más cercanos y predice la clase mayoritaria entre ellos.
- Aplica tu función a las 10 muestras de prueba obtenidas previamente, utilizando las 10 muestras de entrenamiento como referencia.
- El script debe imprimir una tabla comparando el valor real de `Resultado` de cada muestra de prueba con el valor predicho por tu algoritmo.
- Considere que las tablas se pueden codificar con un formato similar al que se muestra en el siguiente código:

In [None]:
# Implementación KNN básico (k=3)
import numpy as np
from collections import Counter

def knn_predict(x_train, y_train, x_test_point, k=3):
    """Predice la etiqueta de x_test_point usando KNN (mayoría simple).
    Devuelve (predicción, distancias_de_los_k_vecinos)."""
    # calcular distancias a todos los ejemplos de entrenamiento
    dists = np.array([euclidean_distance(x_test_point, x) for x in x_train])
    # índices de los k vecinos más cercanos
    idx = np.argsort(dists)[:k]
    nearest_labels = [y_train[i] for i in idx]
    vote = Counter(nearest_labels)
    # resolver empates: seleccionar la etiqueta con mayor cuenta; si hay empate, elegir la menor etiqueta
    max_count = max(vote.values())
    candidates = [label for label, cnt in vote.items() if cnt == max_count]
    prediction = min(candidates)
    return int(prediction), dists[idx]

# Usar las primeras 10 muestras de entrenamiento y las primeras 10 de test según Paso 2
X_tr10 = X_train[:10]
y_tr10 = y_train[:10]
X_te10 = X_test[:10]
y_te10 = y_test[:10]

# Imprimir tabla comparativa (índice, actual, predicho, distancias de los k vecinos)
print(f"{'Idx':<4} {'Actual':<6} {'Predicted':<9} {'Distances (k=3)'}")
correct = 0
for i, x in enumerate(X_te10):
    pred, neigh_dists = knn_predict(X_tr10, y_tr10, x, k=3)
    print(f"{i:<4} {y_te10[i]:<6} {pred:<9} {np.round(neigh_dists,4)}")
    if pred == int(y_te10[i]):
        correct += 1

accuracy = correct / len(X_te10)
print(f"

Accuracy sobre las 10 muestras de test: {accuracy*100:.2f}%")

## Paso 5: Usar toda la data con separación 80% entrenamiento / 20% testeo  

### Pasos:
1. Cargar todo el dataset.  
2. Separar variables (X) y etiquetas (y).  
3. Aplicar `train_test_split` con 80% para entrenamiento y 20% para testeo.  
4. Mantener la proporción de clases usando estratificación.  
5. Guardar los conjuntos de datos para usarlos en KNN.  

In [None]:
#codigo aqui

## Paso 6: Entrenar un KNN con los datos sin escalar (crudos) y calcular accuracy  

### Pasos:
1. Definir el valor de **k = 3** y el metodo **Euclidiano**.  
2. Entrenar el modelo KNN con los datos crudos (sin normalizar/estandarizar).  
3. Predecir las clases del conjunto de test.  
4. Calcular el **accuracy** comparando predicciones con etiquetas reales.  
5. Guardar el resultado para la tabla comparativa.  


In [None]:
#codigo aqui

## Paso 7: Normalizar (Min-Max scaling) y entrenar KNN, luego calcular accuracy  

### Pasos:
1. Aplicar **normalización Min-Max** a los datos de entrenamiento y test.  
2. Entrenar el modelo KNN con los datos normalizados.  
3. Predecir las clases del conjunto de test.  
4. Calcular el **accuracy** del modelo.  
5. Guardar el resultado para la tabla comparativa.  


In [None]:
#codigo aqui

## Paso 9: Estandarizar (Z-score) y entrenar KNN, luego calcular accuracy  

### Pasos:
1. Aplicar **estandarización Z-score** a los datos de entrenamiento y test.  
2. Entrenar el modelo KNN con los datos estandarizados.  
3. Predecir las clases del conjunto de test.  
4. Calcular el **accuracy** del modelo.  
5. Guardar el resultado para la tabla comparativa.  


In [None]:
#codigo aqui

## Paso 10/11: Tabla comparativa de accuracies  

### Pasos:
1. Reunir los resultados de accuracy de cada experimento:  
   - KNN sin escalar (80/20).  
   - KNN normalizado (80/20).  
   - KNN estandarizado (80/20).  
2. Crear una tabla con los resultados.  
3. Comparar el desempeño de cada método.  



In [None]:
#codigo aqui

---
## Preguntas de reflexión y aplicación



1. ¿Por qué es importante normalizar o estandarizar los datos antes de usar KNN?  



Responda aqui

2. ¿Qué diferencias observaste en el accuracy entre los datos crudos, normalizados y estandarizados?  


Respinda aqui

3. Si aumentamos el valor de **k** (número de vecinos), ¿cómo crees que cambiaría el rendimiento del modelo?  


Responda aqui

4. ¿Qué ventaja tiene implementar KNN manualmente antes de usar scikit-learn?  


respuesta aqui

5. ¿Qué limitaciones presenta KNN cuando se aplica a conjuntos de datos grandes o con muchas dimensiones?  

respuesta aqui

---

## Rúbrica de evaluación: Práctica KNN

| Criterio | Descripción | Puntaje Máximo |
|----------|-------------|----------------|
| **1. Carga y exploración del dataset** | Carga correcta del archivo CSV, explicación de las variables y verificación de datos. | 15 pts |
| **2. Implementación manual de KNN** | Código propio para calcular distancias euclidianas, selección de vecinos y votación mayoritaria. | 20 pts |
| **3. Predicción individual (ejemplo aleatorio)** | Explicación clara del proceso paso a paso para un ejemplo de test. | 10 pts |
| **4. Uso de scikit-learn (KNN)** | Entrenamiento y evaluación con `train_test_split`, comparación con el método manual. | 15 pts |
| **5. Normalización y estandarización** | Aplicación correcta de Min-Max y Z-score, con cálculo de accuracy en cada caso. | 20 pts |
| **6. Tabla comparativa de accuracies** | Presentación clara de los resultados y comparación entre métodos. | 10 pts |
| **7. Reflexión y preguntas finales** | Respuestas a las preguntas de análisis planteadas (profundidad y claridad). | 10 pts |

**Total: 100 pts**
