## Descripción del dataset: Pima Indians Diabetes

El **Pima Indians Diabetes Dataset** es un conjunto de datos clásico en Machine Learning y bioestadística, recopilado por el *National Institute of Diabetes and Digestive and Kidney Diseases*.  
Su propósito es **predecir la aparición de diabetes tipo 2** en mujeres de origen **pima** (una población indígena del sur de Arizona, EE.UU.), a partir de diversas variables clínicas y demográficas.

### Características principales:
- **Número de registros:** 392 (en esta versión limpia, el original tenía 768).  
- **Número de atributos (features):** 8 variables predictoras + 1 variable objetivo.  
- **Población:** Mujeres de al menos 21 años de edad de la etnia Pima.  
- **Tarea principal:** Clasificación binaria → determinar si una paciente tiene diabetes (`Outcome = 1`) o no (`Outcome = 0`).

### Variables:
1. **Pregnancies** → Número de embarazos.  
2. **Glucose** → Concentración de glucosa en plasma después de 2 horas en una prueba de tolerancia a la glucosa.  
3. **BloodPressure** → Presión arterial diastólica (mm Hg).  
4. **SkinThickness** → Espesor del pliegue cutáneo del tríceps (mm).  
5. **Insulin** → Nivel sérico de insulina (mu U/ml).  
6. **BMI** → Índice de masa corporal (peso en kg / altura² en m²).  
7. **DiabetesPedigreeFunction** → Probabilidad de diabetes basada en antecedentes familiares.  
8. **Age** → Edad en años.  
9. **Outcome** → Variable objetivo:  
   - `0` = No tiene diabetes  
   - `1` = Tiene diabetes  

### Relevancia:
Este dataset es ampliamente utilizado en cursos de **Inteligencia Artificial y Machine Learning** para enseñar:
- Procesamiento y limpieza de datos biomédicos.  
- Métodos de clasificación supervisada (KNN, regresión logística, Random Forest, SVM, redes neuronales, etc.).  
- Importancia de la normalización y estandarización en algoritmos basados en distancias.  

---


## Paso 1: Cargar la base de datos  
Cargamos el CSV en un `DataFrame` de `pandas`. Si tu archivo no se llama exactamente `cleaned_dataset.csv`, ajusta la ruta.

In [1]:
import pandas as pd
df = pd.read_csv('dataset/cleaned_dataset.csv')
df.head()

Unnamed: 0,Pregnancies,Glucose,Blood Pressure,Skin Thickness,Insulin,BMI,Diabetes Pedigree Function,Age,Outcome
0,0,129,110,46,130,67.1,0.319,26,1
1,0,180,78,63,14,59.4,2.42,25,1
2,3,123,100,35,240,57.3,0.88,22,0
3,1,88,30,42,99,55.0,0.496,26,1
4,0,162,76,56,100,53.2,0.759,25,1


## Paso 2: Crear subconjuntos con 20 datos de **entrenamiento** y 20 de **testeo**
Seleccionaremos 40 muestras: 20 para entrenar y 20 para evaluar.

In [2]:
# Seleccionamos 40 muestras aleatorias (20 para entrenamiento y 20 para testeo)
subset = df.sample(n=40, random_state=42).reset_index(drop=True)

# Primeras 20 filas para entrenamiento, siguientes 20 para testeo
train_data = subset.iloc[:20]
test_data = subset.iloc[20:]

# Mostramos un preview de ambos subconjuntos
print('Entrenamiento:')
display(train_data.head())
print('Testeo:')
display(test_data.head())

Entrenamiento:


Unnamed: 0,Pregnancies,Glucose,Blood Pressure,Skin Thickness,Insulin,BMI,Diabetes Pedigree Function,Age,Outcome
0,2,146,76,35,194,38.2,0.329,29,0
1,7,83,78,26,71,29.3,0.767,36,0
2,0,120,74,18,63,30.5,0.285,26,0
3,0,91,68,32,210,39.9,0.381,25,0
4,1,92,62,25,41,19.5,0.482,25,0


Testeo:


Unnamed: 0,Pregnancies,Glucose,Blood Pressure,Skin Thickness,Insulin,BMI,Diabetes Pedigree Function,Age,Outcome
20,0,118,84,47,230,45.8,0.551,31,1
21,1,100,74,12,46,19.5,0.149,28,0
22,7,195,70,33,145,25.1,0.163,55,1
23,0,129,110,46,130,67.1,0.319,26,1
24,5,136,84,41,88,35.0,0.286,35,1


## Paso 3: Implementar la función de distancia euclidiana

**Instrucciones:**
- Escribe una función en Python que reciba dos vectores y calcule la distancia euclidiana entre ellos.
- Utiliza la siguiente fórmula matemática para la distancia euclidiana entre dos vectores $x$ y $y$ de $n$ dimensiones:

$$
d(x, y) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}
$$

- Prueba tu función con los siguientes dos ejemplos (cada vector corresponde a una fila del dataset):

| Embarazos | Glucosa | Presión Arterial | Grosor Piel | Insulina | IMC  | Función Hereditaria | Edad | Resultado |
|-----------|---------|------------------|-------------|----------|------|---------------------|------|-----------|
|     1     |   106   |        70        |      28     |   135    | 34.2 |        0.142        |  22  |     0     |
|     2     |   102   |        86        |      36     |   120    | 45.5 |        0.127        |  23  |     1     |

- Calcula la distancia euclidiana a mano y luego verifica que el resultado de tu función sea el mismo.
- La función debe imprimir el resultado del cálculo de la distancia euclidiana con los datos presentados.



In [3]:
import numpy as np

def euclidean_distance(vec1, vec2):
    vec1 = np.array(vec1)
    vec2 = np.array(vec2)
    return np.sqrt(np.sum((vec1 - vec2) ** 2))

# Ejemplo de los datos dados en el enunciado
vector1 = [1, 106, 70, 28, 135, 34.2, 0.142, 22]
vector2 = [2, 102, 86, 36, 120, 45.5, 0.127, 23]

# Calculamos la distancia euclidiana (sin la columna 'Resultado')
dist = euclidean_distance(vector1, vector2)
print(f"Distancia euclidiana entre los dos ejemplos: {dist:.4f}")

Distancia euclidiana entre los dos ejemplos: 26.2810


## Paso 4: Implementar un clasificador KNN básico

**Instrucciones:**
- Escribe una función que, dado un punto de prueba, calcule la distancia a todos los puntos de entrenamiento utilizando tu función de distancia euclidiana.
- Selecciona los **k = 3** vecinos más cercanos y predice la clase mayoritaria entre ellos.
- Aplica tu función a las 10 muestras de prueba obtenidas previamente, utilizando las 10 muestras de entrenamiento como referencia.
- El script debe imprimir una tabla comparando el valor real de `Resultado` de cada muestra de prueba con el valor predicho por tu algoritmo.
- Considere que las tablas se pueden codificar con un formato similar al que se muestra en el siguiente código:

In [14]:
# Ajustamos los nombres de las columnas para que coincidan con los del DataFrame
feature_cols = ['Pregnancies', 'Glucose', 'Blood Pressure', 'Skin Thickness', 'Insulin', 'BMI', 'Diabetes Pedigree Function', 'Age']

# Función para predecir la clase de un punto de test
def knn_predict(test_row, train_df, k=3):
    distances = []
    test_vec = test_row[feature_cols].values
    for idx, row in train_df.iterrows():
        train_vec = row[feature_cols].values
        dist = euclidean_distance(test_vec, train_vec)
        distances.append((dist, row['Outcome']))
    neighbors = sorted(distances, key=lambda x: x[0])[:k]
    classes = [n[1] for n in neighbors]
    pred = Counter(classes).most_common(1)[0][0]
    return pred

# Aplicamos el KNN manual a las 10 muestras de test
results = []
for idx, row in test_knn.iterrows():
    pred = knn_predict(row, train_knn, k=3)
    results.append({'Real': row['Outcome'], 'Predicho': pred})

# Mostramos la tabla comparativa
result_df = pd.DataFrame(results)
display(result_df)

Unnamed: 0,Real,Predicho
0,1.0,0.0
1,0.0,0.0
2,1.0,1.0
3,1.0,0.0
4,1.0,0.0
5,1.0,0.0
6,0.0,0.0
7,1.0,0.0
8,0.0,0.0
9,0.0,0.0


## Paso 5: Usar toda la data con separación 80% entrenamiento / 20% testeo  

### Pasos:
1. Cargar todo el dataset.  
2. Separar variables (X) y etiquetas (y).  
3. Aplicar `train_test_split` con 80% para entrenamiento y 20% para testeo.  
4. Mantener la proporción de clases usando estratificación.  
5. Guardar los conjuntos de datos para usarlos en KNN.  

In [15]:
# Paso 5: Separar el dataset en 80% entrenamiento y 20% testeo con estratificación
from sklearn.model_selection import train_test_split

# Definir las columnas de features (ajustar si es necesario)
feature_cols = ['Pregnancies', 'Glucose', 'Blood Pressure', 'Skin Thickness', 'Insulin', 'BMI', 'Diabetes Pedigree Function', 'Age']

# X = variables predictoras, y = variable objetivo
X = df[feature_cols]
y = df['Outcome']

# Separar usando train_test_split con estratificación
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# Mostrar tamaños y proporciones
print(f"Tamaño entrenamiento: {X_train.shape[0]}")
print(f"Tamaño testeo: {X_test.shape[0]}")
print("Proporción de clases en entrenamiento:")
print(y_train.value_counts(normalize=True))
print("Proporción de clases en testeo:")
print(y_test.value_counts(normalize=True))

Tamaño entrenamiento: 313
Tamaño testeo: 79
Proporción de clases en entrenamiento:
Outcome
0    0.667732
1    0.332268
Name: proportion, dtype: float64
Proporción de clases en testeo:
Outcome
0    0.670886
1    0.329114
Name: proportion, dtype: float64


## Paso 6: Entrenar un KNN con los datos sin escalar (crudos) y calcular accuracy  

### Pasos:
1. Definir el valor de **k = 3** y el metodo **Euclidiano**.  
2. Entrenar el modelo KNN con los datos crudos (sin normalizar/estandarizar).  
3. Predecir las clases del conjunto de test.  
4. Calcular el **accuracy** comparando predicciones con etiquetas reales.  
5. Guardar el resultado para la tabla comparativa.  


In [16]:
# Paso 6: Entrenar un KNN con los datos crudos (sin escalar) y calcular accuracy
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Definir el modelo KNN con k=3 y distancia euclidiana
knn_crudo = KNeighborsClassifier(n_neighbors=3, metric='euclidean')

# Entrenar el modelo con los datos crudos
knn_crudo.fit(X_train, y_train)

# Predecir las clases del conjunto de test
y_pred_crudo = knn_crudo.predict(X_test)

# Calcular el accuracy
accuracy_crudo = accuracy_score(y_test, y_pred_crudo)
print(f"Accuracy KNN (datos crudos, 80/20): {accuracy_crudo:.4f}")

Accuracy KNN (datos crudos, 80/20): 0.8101


## Paso 7: Normalizar (Min-Max scaling) y entrenar KNN, luego calcular accuracy  

### Pasos:
1. Aplicar **normalización Min-Max** a los datos de entrenamiento y test.  
2. Entrenar el modelo KNN con los datos normalizados.  
3. Predecir las clases del conjunto de test.  
4. Calcular el **accuracy** del modelo.  
5. Guardar el resultado para la tabla comparativa.  


In [17]:
# Paso 7: Normalizar (Min-Max scaling) y entrenar KNN, luego calcular accuracy
from sklearn.preprocessing import MinMaxScaler

# Inicializar el scaler y ajustar solo con datos de entrenamiento
scaler = MinMaxScaler()
X_train_norm = scaler.fit_transform(X_train)
X_test_norm = scaler.transform(X_test)

# Entrenar el modelo KNN con los datos normalizados
knn_norm = KNeighborsClassifier(n_neighbors=3, metric='euclidean')
knn_norm.fit(X_train_norm, y_train)

# Predecir las clases del conjunto de test normalizado
y_pred_norm = knn_norm.predict(X_test_norm)

# Calcular el accuracy
accuracy_norm = accuracy_score(y_test, y_pred_norm)
print(f"Accuracy KNN (Min-Max, 80/20): {accuracy_norm:.4f}")

Accuracy KNN (Min-Max, 80/20): 0.7342


## Paso 9: Estandarizar (Z-score) y entrenar KNN, luego calcular accuracy  

### Pasos:
1. Aplicar **estandarización Z-score** a los datos de entrenamiento y test.  
2. Entrenar el modelo KNN con los datos estandarizados.  
3. Predecir las clases del conjunto de test.  
4. Calcular el **accuracy** del modelo.  
5. Guardar el resultado para la tabla comparativa.  


In [18]:
# Paso 9: Estandarizar (Z-score) y entrenar KNN, luego calcular accuracy
from sklearn.preprocessing import StandardScaler

# Inicializar el scaler y ajustar solo con datos de entrenamiento
scaler_z = StandardScaler()
X_train_z = scaler_z.fit_transform(X_train)
X_test_z = scaler_z.transform(X_test)

# Entrenar el modelo KNN con los datos estandarizados
knn_z = KNeighborsClassifier(n_neighbors=3, metric='euclidean')
knn_z.fit(X_train_z, y_train)

# Predecir las clases del conjunto de test estandarizado
y_pred_z = knn_z.predict(X_test_z)

# Calcular el accuracy
accuracy_z = accuracy_score(y_test, y_pred_z)
print(f"Accuracy KNN (Z-score, 80/20): {accuracy_z:.4f}")

Accuracy KNN (Z-score, 80/20): 0.7468


## Paso 10/11: Tabla comparativa de accuracies  

### Pasos:
1. Reunir los resultados de accuracy de cada experimento:  
   - KNN sin escalar (80/20).  
   - KNN normalizado (80/20).  
   - KNN estandarizado (80/20).  
2. Crear una tabla con los resultados.  
3. Comparar el desempeño de cada método.  



In [None]:
# Paso 10/11: Tabla comparativa de accuracies
import pandas as pd

tabla_accuracies = pd.DataFrame({
    'Método': [
        'KNN sin escalar (crudo)',
        'KNN normalizado (Min-Max)',
        'KNN estandarizado (Z-score)'
    ],
    'Accuracy': [
        accuracy_crudo,
        accuracy_norm,
        accuracy_z
    ]
})

display(tabla_accuracies)

Unnamed: 0,Método,Accuracy
0,KNN sin escalar (crudo),0.810127
1,KNN normalizado (Min-Max),0.734177
2,KNN estandarizado (Z-score),0.746835


---
## Preguntas de reflexión y aplicación



1. ¿Por qué es importante normalizar o estandarizar los datos antes de usar KNN?  



Es importante porque KNN se basa en distancias: si las variables tienen escalas diferentes, las de mayor rango dominarán el cálculo y el modelo será sesgado. Normalizar o estandarizar pone todas las variables en la misma escala, permitiendo que cada una aporte de manera justa a la predicción.

2. ¿Qué diferencias observaste en el accuracy entre los datos crudos, normalizados y estandarizados?  


En este experimento, el accuracy fue mayor usando los datos crudos (0.81), pero con normalización Min-Max y estandarización Z-score bajó ligeramente (0.73 y 0.75). Esto muestra que el efecto del escalado depende del dataset: a veces mejora el desempeño, otras veces no cambia mucho o incluso puede disminuirlo si las variables ya están en escalas similares.

3. Si aumentamos el valor de **k** (número de vecinos), ¿cómo crees que cambiaría el rendimiento del modelo?  


Si aumentamos k, el modelo se vuelve más robusto al ruido, pero puede perder capacidad para detectar patrones locales y suavizar demasiado la frontera de decisión. Generalmente, un k muy alto reduce el sobreajuste pero puede bajar el accuracy si la frontera entre clases es compleja. Lo ideal es probar varios valores y elegir el que mejor funcione en validación.

4. ¿Qué ventaja tiene implementar KNN manualmente antes de usar scikit-learn?  


Implementar KNN manualmente ayuda a entender cómo funciona el algoritmo internamente: cómo se calculan las distancias, cómo se seleccionan los vecinos y cómo se decide la clase. Esto permite detectar posibles errores, comprender la importancia del preprocesamiento y valorar las ventajas de usar librerías como scikit-learn para tareas más grandes o complejas.

5. ¿Qué limitaciones presenta KNN cuando se aplica a conjuntos de datos grandes o con muchas dimensiones?  

KNN es computacionalmente costoso en datasets grandes porque debe calcular la distancia a todos los puntos de entrenamiento para cada predicción. Además, en datos con muchas dimensiones (alta dimensionalidad), la distancia euclidiana pierde significado y el desempeño del modelo suele empeorar (mal de la dimensionalidad). También es sensible a variables irrelevantes y a la escala de los datos.

---

## Rúbrica de evaluación: Práctica KNN

| Criterio | Descripción | Puntaje Máximo |
|----------|-------------|----------------|
| **1. Carga y exploración del dataset** | Carga correcta del archivo CSV, explicación de las variables y verificación de datos. | 15 pts |
| **2. Implementación manual de KNN** | Código propio para calcular distancias euclidianas, selección de vecinos y votación mayoritaria. | 20 pts |
| **3. Predicción individual (ejemplo aleatorio)** | Explicación clara del proceso paso a paso para un ejemplo de test. | 10 pts |
| **4. Uso de scikit-learn (KNN)** | Entrenamiento y evaluación con `train_test_split`, comparación con el método manual. | 15 pts |
| **5. Normalización y estandarización** | Aplicación correcta de Min-Max y Z-score, con cálculo de accuracy en cada caso. | 20 pts |
| **6. Tabla comparativa de accuracies** | Presentación clara de los resultados y comparación entre métodos. | 10 pts |
| **7. Reflexión y preguntas finales** | Respuestas a las preguntas de análisis planteadas (profundidad y claridad). | 10 pts |

**Total: 100 pts**
