## Descripción del dataset: Pima Indians Diabetes

El **Pima Indians Diabetes Dataset** es un conjunto de datos clásico en Machine Learning y bioestadística, recopilado por el *National Institute of Diabetes and Digestive and Kidney Diseases*.  
Su propósito es **predecir la aparición de diabetes tipo 2** en mujeres de origen **pima** (una población indígena del sur de Arizona, EE.UU.), a partir de diversas variables clínicas y demográficas.

### Características principales:
- **Número de registros:** 392 (en esta versión limpia, el original tenía 768).  
- **Número de atributos (features):** 8 variables predictoras + 1 variable objetivo.  
- **Población:** Mujeres de al menos 21 años de edad de la etnia Pima.  
- **Tarea principal:** Clasificación binaria → determinar si una paciente tiene diabetes (`Outcome = 1`) o no (`Outcome = 0`).

### Variables:
1. **Pregnancies** → Número de embarazos.  
2. **Glucose** → Concentración de glucosa en plasma después de 2 horas en una prueba de tolerancia a la glucosa.  
3. **BloodPressure** → Presión arterial diastólica (mm Hg).  
4. **SkinThickness** → Espesor del pliegue cutáneo del tríceps (mm).  
5. **Insulin** → Nivel sérico de insulina (mu U/ml).  
6. **BMI** → Índice de masa corporal (peso en kg / altura² en m²).  
7. **DiabetesPedigreeFunction** → Probabilidad de diabetes basada en antecedentes familiares.  
8. **Age** → Edad en años.  
9. **Outcome** → Variable objetivo:  
   - `0` = No tiene diabetes  
   - `1` = Tiene diabetes  

### Relevancia:
Este dataset es ampliamente utilizado en cursos de **Inteligencia Artificial y Machine Learning** para enseñar:
- Procesamiento y limpieza de datos biomédicos.  
- Métodos de clasificación supervisada (KNN, regresión logística, Random Forest, SVM, redes neuronales, etc.).  
- Importancia de la normalización y estandarización en algoritmos basados en distancias.  

---


## Paso 1: Cargar la base de datos  
Cargamos el CSV en un `DataFrame` de `pandas`. Si tu archivo no se llama exactamente `cleaned_dataset.csv`, ajusta la ruta.

In [98]:
import pandas as pd

df = pd.read_csv('dataset/cleaned_dataset.csv')
df.head()

Unnamed: 0,Pregnancies,Glucose,Blood Pressure,Skin Thickness,Insulin,BMI,Diabetes Pedigree Function,Age,Outcome
0,0,129,110,46,130,67.1,0.319,26,1
1,0,180,78,63,14,59.4,2.42,25,1
2,3,123,100,35,240,57.3,0.88,22,0
3,1,88,30,42,99,55.0,0.496,26,1
4,0,162,76,56,100,53.2,0.759,25,1


## Paso 2: Crear subconjuntos con 20 datos de **entrenamiento** y 20 de **testeo**
Seleccionaremos 40 muestras: 20 para entrenar y 20 para evaluar.

In [99]:
# Seleccionamos 40 muestras aleatorias: 20 para entrenamiento y 20 para testeo
df_subset = df.sample(n=40, random_state=42).reset_index(drop=True)

# Tomamos las primeras 20 como entrenamiento y las siguientes 20 como testeo
train_df = df_subset.iloc[:20].reset_index(drop=True)
test_df = df_subset.iloc[20:].reset_index(drop=True)

# Mostramos las primeras filas de cada subconjunto
print("Entrenamiento:")
display(train_df.head())
print("Testeo:")
display(test_df.head())

Entrenamiento:


Unnamed: 0,Pregnancies,Glucose,Blood Pressure,Skin Thickness,Insulin,BMI,Diabetes Pedigree Function,Age,Outcome
0,2,146,76,35,194,38.2,0.329,29,0
1,7,83,78,26,71,29.3,0.767,36,0
2,0,120,74,18,63,30.5,0.285,26,0
3,0,91,68,32,210,39.9,0.381,25,0
4,1,92,62,25,41,19.5,0.482,25,0


Testeo:


Unnamed: 0,Pregnancies,Glucose,Blood Pressure,Skin Thickness,Insulin,BMI,Diabetes Pedigree Function,Age,Outcome
0,0,118,84,47,230,45.8,0.551,31,1
1,1,100,74,12,46,19.5,0.149,28,0
2,7,195,70,33,145,25.1,0.163,55,1
3,0,129,110,46,130,67.1,0.319,26,1
4,5,136,84,41,88,35.0,0.286,35,1


## Paso 3: Implementar la función de distancia euclidiana

**Instrucciones:**
- Escribe una función en Python que reciba dos vectores y calcule la distancia euclidiana entre ellos.
- Utiliza la siguiente fórmula matemática para la distancia euclidiana entre dos vectores $x$ y $y$ de $n$ dimensiones:

$$
d(x, y) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}
$$

- Prueba tu función con los siguientes dos ejemplos (cada vector corresponde a una fila del dataset):

| Embarazos | Glucosa | Presión Arterial | Grosor Piel | Insulina | IMC  | Función Hereditaria | Edad | Resultado |
|-----------|---------|------------------|-------------|----------|------|---------------------|------|-----------|
|     1     |   106   |        70        |      28     |   135    | 34.2 |        0.142        |  22  |     0     |
|     2     |   102   |        86        |      36     |   120    | 45.5 |        0.127        |  23  |     1     |

- Calcula la distancia euclidiana a mano y luego verifica que el resultado de tu función sea el mismo.
- La función debe imprimir el resultado del cálculo de la distancia euclidiana con los datos presentados.



In [100]:
import numpy as np

def euclidean_distance(vec1, vec2):
    """
    Calcula la distancia euclidiana entre dos vectores numéricos.
    """
    vec1 = np.array(vec1)
    vec2 = np.array(vec2)
    distance = np.sqrt(np.sum((vec1 - vec2) ** 2))
    return distance

# Ejemplo con los datos dados en la instrucción:
# Vector 1: [1, 106, 70, 28, 135, 34.2, 0.142, 22]
# Vector 2: [2, 102, 86, 36, 120, 45.5, 0.127, 23]
vec1 = [1, 106, 70, 28, 135, 34.2, 0.142, 22]
vec2 = [2, 102, 86, 36, 120, 45.5, 0.127, 23]

dist = euclidean_distance(vec1, vec2)
print(f"Distancia euclidiana entre los dos vectores de ejemplo: {dist:.4f}")

Distancia euclidiana entre los dos vectores de ejemplo: 26.2810


## Paso 4: Implementar un clasificador KNN básico

**Instrucciones:**
- Escribe una función que, dado un punto de prueba, calcule la distancia a todos los puntos de entrenamiento utilizando tu función de distancia euclidiana.
- Selecciona los **k = 3** vecinos más cercanos y predice la clase mayoritaria entre ellos.
- Aplica tu función a las 10 muestras de prueba obtenidas previamente, utilizando las 10 muestras de entrenamiento como referencia.
- El script debe imprimir una tabla comparando el valor real de `Resultado` de cada muestra de prueba con el valor predicho por tu algoritmo.
- Considere que las tablas se pueden codificar con un formato similar al que se muestra en el siguiente código:

In [101]:
import pandas as pd

# Implementación manual de KNN (k=3) usando train_df y test_df

def knn_predict(test_row, train_df, k=3):
    # Usamos solo las columnas de features (sin Outcome)
    X_train = train_df.iloc[:, :-1].values
    y_train = train_df['Outcome'].values
    test_vec = test_row[:-1].values  # quitamos Outcome

    # Calcular distancias a todos los puntos de entrenamiento
    distances = [euclidean_distance(test_vec, x) for x in X_train]
    # Obtener los índices de los k vecinos más cercanos
    neighbors_idx = np.argsort(distances)[:k]
    # Obtener las clases de los vecinos
    neighbor_labels = y_train[neighbors_idx]
    # Votación mayoritaria
    pred = np.argmax(np.bincount(neighbor_labels))
    return pred

# Aplicar KNN a las 10 primeras muestras de test y comparar con el valor real
results = []
for i in range(10):
    test_row = test_df.iloc[i]
    pred = knn_predict(test_row, train_df, k=3)
    real = test_row['Outcome']
    results.append({'Index': i, 'Real': real, 'Predicho': pred})

# Mostrar tabla comparativa
tabla = pd.DataFrame(results)
display(tabla)

Unnamed: 0,Index,Real,Predicho
0,0,1.0,0
1,1,0.0,0
2,2,1.0,1
3,3,1.0,1
4,4,1.0,1
5,5,1.0,1
6,6,0.0,0
7,7,1.0,0
8,8,0.0,0
9,9,0.0,0


## Paso 5: Usar toda la data con separación 80% entrenamiento / 20% testeo  

### Pasos:
1. Cargar todo el dataset.  
2. Separar variables (X) y etiquetas (y).  
3. Aplicar `train_test_split` con 80% para entrenamiento y 20% para testeo.  
4. Mantener la proporción de clases usando estratificación.  
5. Guardar los conjuntos de datos para usarlos en KNN.  

In [102]:
from sklearn.model_selection import train_test_split

#codigo aqui
# Separar variables predictoras (X) y variable objetivo (y)
X = df.iloc[:, :-1].values  # Todas las columnas excepto 'Outcome'
y = df['Outcome'].values    # Solo la columna 'Outcome'

# Separar en 80% entrenamiento y 20% testeo, manteniendo la proporción de clases
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# Mostrar tamaños de los conjuntos
print(f"Entrenamiento: {X_train.shape[0]} muestras")
print(f"Testeo: {X_test.shape[0]} muestras")
print(f"Total filas: {X.shape[0]}")

Entrenamiento: 313 muestras
Testeo: 79 muestras
Total filas: 392


## Paso 6: Entrenar un KNN con los datos sin escalar (crudos) y calcular accuracy  

### Pasos:
1. Definir el valor de **k = 3** y el metodo **Euclidiano**.  
2. Entrenar el modelo KNN con los datos crudos (sin normalizar/estandarizar).  
3. Predecir las clases del conjunto de test.  
4. Calcular el **accuracy** comparando predicciones con etiquetas reales.  
5. Guardar el resultado para la tabla comparativa.  


In [None]:
# KNN con datos crudos (sin escalar)
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Asegúrate de haber ejecutado el Paso 5 para tener X_train, X_test, y_train, y_test
knn_raw = KNeighborsClassifier(n_neighbors=3, metric='euclidean')
knn_raw.fit(X_train, y_train)

y_pred_raw = knn_raw.predict(X_test)
acc_raw = accuracy_score(y_test, y_pred_raw)
print(f"Accuracy (KNN sin escalar, k=3, euclidiana): {acc_raw:.4f}")

Accuracy (KNN sin escalar, k=3, euclidiana): 0.7722


## Paso 7: Normalizar (Min-Max scaling) y entrenar KNN, luego calcular accuracy  

### Pasos:
1. Aplicar **normalización Min-Max** a los datos de entrenamiento y test.  
2. Entrenar el modelo KNN con los datos normalizados.  
3. Predecir las clases del conjunto de test.  
4. Calcular el **accuracy** del modelo.  
5. Guardar el resultado para la tabla comparativa.  


In [104]:
# KNN con normalización Min-Max
from sklearn.preprocessing import MinMaxScaler

scaler_minmax = MinMaxScaler()
X_train_minmax = scaler_minmax.fit_transform(X_train)
X_test_minmax = scaler_minmax.transform(X_test)

knn_minmax = KNeighborsClassifier(n_neighbors=3, metric='euclidean')
knn_minmax.fit(X_train_minmax, y_train)

y_pred_minmax = knn_minmax.predict(X_test_minmax)
acc_minmax = accuracy_score(y_test, y_pred_minmax)
print(f"Accuracy (KNN Min-Max, k=3, euclidiana): {acc_minmax:.4f}")

Accuracy (KNN Min-Max, k=3, euclidiana): 0.7342


## Paso 9: Estandarizar (Z-score) y entrenar KNN, luego calcular accuracy  

### Pasos:
1. Aplicar **estandarización Z-score** a los datos de entrenamiento y test.  
2. Entrenar el modelo KNN con los datos estandarizados.  
3. Predecir las clases del conjunto de test.  
4. Calcular el **accuracy** del modelo.  
5. Guardar el resultado para la tabla comparativa.  


In [105]:
# KNN con estandarización (Z-score)
from sklearn.preprocessing import StandardScaler

scaler_std = StandardScaler()
X_train_std = scaler_std.fit_transform(X_train)
X_test_std = scaler_std.transform(X_test)

knn_std = KNeighborsClassifier(n_neighbors=3, metric='euclidean')
knn_std.fit(X_train_std, y_train)

y_pred_std = knn_std.predict(X_test_std)
acc_std = accuracy_score(y_test, y_pred_std)
print(f"Accuracy (KNN Z-score, k=3, euclidiana): {acc_std:.4f}")

Accuracy (KNN Z-score, k=3, euclidiana): 0.7468


## Paso 10/11: Tabla comparativa de accuracies  

### Pasos:
1. Reunir los resultados de accuracy de cada experimento:  
   - KNN sin escalar (80/20).  
   - KNN normalizado (80/20).  
   - KNN estandarizado (80/20).  
2. Crear una tabla con los resultados.  
3. Comparar el desempeño de cada método.  



In [106]:
# Tabla comparativa de accuracies (actualizada)
import pandas as pd
from sklearn.metrics import recall_score, f1_score, confusion_matrix
def specificity_score(y_true, y_pred):
    tn, fp, fn, tp = confusion_matrix(y_true, y_pred).ravel()
    return tn / (tn + fp) if (tn + fp) > 0 else 0

metrics = []
# KNN sin escalar
recall_raw = recall_score(y_test, y_pred_raw)
f1_raw = f1_score(y_test, y_pred_raw)
spec_raw = specificity_score(y_test, y_pred_raw)
metrics.append({"Experimento": "KNN sin escalar (80/20)", "Accuracy": acc_raw, "Recall": recall_raw, "F1": f1_raw, "Specificity": spec_raw})

# KNN normalizado Min-Max
recall_minmax = recall_score(y_test, y_pred_minmax)
f1_minmax = f1_score(y_test, y_pred_minmax)
spec_minmax = specificity_score(y_test, y_pred_minmax)
metrics.append({"Experimento": "KNN normalizado Min-Max (80/20)", "Accuracy": acc_minmax, "Recall": recall_minmax, "F1": f1_minmax, "Specificity": spec_minmax})

# KNN estandarizado Z-score
recall_std = recall_score(y_test, y_pred_std)
f1_std = f1_score(y_test, y_pred_std)
spec_std = specificity_score(y_test, y_pred_std)
metrics.append({"Experimento": "KNN estandarizado Z-score (80/20)", "Accuracy": acc_std, "Recall": recall_std, "F1": f1_std, "Specificity": spec_std})
results_acc = pd.DataFrame(metrics)
results_acc.sort_values("Accuracy", ascending=False, ignore_index=True)

Unnamed: 0,Experimento,Accuracy,Recall,F1,Specificity
0,KNN sin escalar (80/20),0.772152,0.538462,0.608696,0.886792
1,KNN estandarizado Z-score (80/20),0.746835,0.461538,0.545455,0.886792
2,KNN normalizado Min-Max (80/20),0.734177,0.423077,0.511628,0.886792


---
## Preguntas de reflexión y aplicación



1. ¿Por qué es importante normalizar o estandarizar los datos antes de usar KNN?  



Es importante ya que nos ayuda a crear un estándar de datos normalizado, para que el algoritmo de clasificación no comprometa la precision de los resultados por inconvenientes como las diferentes escalas dentro de los datos.

2. ¿Qué diferencias observaste en el accuracy entre los datos crudos, normalizados y estandarizados?  


El accuracy iba descendiendo conforme los datos se iban normalizando y estandarizando. Investigando me dí cuenta que valores como la glucosa y la presión sanguínea perdieron precision cuando se normalizaban o estandarizaban.

3. Si aumentamos el valor de **k** (número de vecinos), ¿cómo crees que cambiaría el rendimiento del modelo?  


Aumentando el valor de K el modelo bajaría su precisión (accuracy)

4. ¿Qué ventaja tiene implementar KNN manualmente antes de usar scikit-learn?  


Nos ayuda a entender el algoritmo que el modelo sigue de forma mas completa, de modo que podemos tener un mayor control para cuando lo utilizamos y como podemos ajustarlo para lograr los objetivos que deseamos con la información.

5. ¿Qué limitaciones presenta KNN cuando se aplica a conjuntos de datos grandes o con muchas dimensiones?  

KNN sufre de la "maldicion de dimensionalidad", lo cual hace que pierda efectividad de precision cuando se expone a datos con muchas dimensiones. O si se trata de datos grandes, al ser un algoritmo "lazy" que procesa la información en tiempo real a la hora de hacer la predicción, puede generar múltiples fallas de rendimiento para la calculación de predicciones.

---

## Rúbrica de evaluación: Práctica KNN

| Criterio | Descripción | Puntaje Máximo |
|----------|-------------|----------------|
| **1. Carga y exploración del dataset** | Carga correcta del archivo CSV, explicación de las variables y verificación de datos. | 15 pts |
| **2. Implementación manual de KNN** | Código propio para calcular distancias euclidianas, selección de vecinos y votación mayoritaria. | 20 pts |
| **3. Predicción individual (ejemplo aleatorio)** | Explicación clara del proceso paso a paso para un ejemplo de test. | 10 pts |
| **4. Uso de scikit-learn (KNN)** | Entrenamiento y evaluación con `train_test_split`, comparación con el método manual. | 15 pts |
| **5. Normalización y estandarización** | Aplicación correcta de Min-Max y Z-score, con cálculo de accuracy en cada caso. | 20 pts |
| **6. Tabla comparativa de accuracies** | Presentación clara de los resultados y comparación entre métodos. | 10 pts |
| **7. Reflexión y preguntas finales** | Respuestas a las preguntas de análisis planteadas (profundidad y claridad). | 10 pts |

**Total: 100 pts**
