## Descripción del dataset: Pima Indians Diabetes

El **Pima Indians Diabetes Dataset** es un conjunto de datos clásico en Machine Learning y bioestadística, recopilado por el *National Institute of Diabetes and Digestive and Kidney Diseases*.  
Su propósito es **predecir la aparición de diabetes tipo 2** en mujeres de origen **pima** (una población indígena del sur de Arizona, EE.UU.), a partir de diversas variables clínicas y demográficas.

### Características principales:
- **Número de registros:** 392 (en esta versión limpia, el original tenía 768).  
- **Número de atributos (features):** 8 variables predictoras + 1 variable objetivo.  
- **Población:** Mujeres de al menos 21 años de edad de la etnia Pima.  
- **Tarea principal:** Clasificación binaria → determinar si una paciente tiene diabetes (`Outcome = 1`) o no (`Outcome = 0`).

### Variables:
1. **Pregnancies** → Número de embarazos.  
2. **Glucose** → Concentración de glucosa en plasma después de 2 horas en una prueba de tolerancia a la glucosa.  
3. **BloodPressure** → Presión arterial diastólica (mm Hg).  
4. **SkinThickness** → Espesor del pliegue cutáneo del tríceps (mm).  
5. **Insulin** → Nivel sérico de insulina (mu U/ml).  
6. **BMI** → Índice de masa corporal (peso en kg / altura² en m²).  
7. **DiabetesPedigreeFunction** → Probabilidad de diabetes basada en antecedentes familiares.  
8. **Age** → Edad en años.  
9. **Outcome** → Variable objetivo:  
   - `0` = No tiene diabetes  
   - `1` = Tiene diabetes  

### Relevancia:
Este dataset es ampliamente utilizado en cursos de **Inteligencia Artificial y Machine Learning** para enseñar:
- Procesamiento y limpieza de datos biomédicos.  
- Métodos de clasificación supervisada (KNN, regresión logística, Random Forest, SVM, redes neuronales, etc.).  
- Importancia de la normalización y estandarización en algoritmos basados en distancias.  

---


## Paso 1: Cargar la base de datos  
Cargamos el CSV en un `DataFrame` de `pandas`. Si tu archivo no se llama exactamente `cleaned_dataset.csv`, ajusta la ruta.

In [3]:
import pandas as pd
df = pd.read_csv('dataset/cleaned_dataset.csv')
print(df.head())

   Pregnancies  Glucose  Blood Pressure  Skin Thickness  Insulin   BMI  \
0            0      129             110              46      130  67.1   
1            0      180              78              63       14  59.4   
2            3      123             100              35      240  57.3   
3            1       88              30              42       99  55.0   
4            0      162              76              56      100  53.2   

   Diabetes Pedigree Function  Age  Outcome  
0                       0.319   26        1  
1                       2.420   25        1  
2                       0.880   22        0  
3                       0.496   26        1  
4                       0.759   25        1  


## Paso 2: Crear subconjuntos con 20 datos de **entrenamiento** y 20 de **testeo**
Seleccionaremos 40 muestras: 20 para entrenar y 20 para evaluar.

In [12]:
#codigo aqui
df_sample = df.sample(n=40, random_state=42)
train_df = df_sample.iloc[:20].reset_index(drop=True)
test_df = df_sample.iloc[20:40].reset_index(drop=True)
print("Entrenamiento:")
print(train_df.head())
print("\nTesteo:")
print(test_df.head())

Entrenamiento:
   Pregnancies  Glucose  Blood Pressure  Skin Thickness  Insulin   BMI  \
0            2      146              76              35      194  38.2   
1            7       83              78              26       71  29.3   
2            0      120              74              18       63  30.5   
3            0       91              68              32      210  39.9   
4            1       92              62              25       41  19.5   

   Diabetes Pedigree Function  Age  Outcome  
0                       0.329   29        0  
1                       0.767   36        0  
2                       0.285   26        0  
3                       0.381   25        0  
4                       0.482   25        0  

Testeo:
   Pregnancies  Glucose  Blood Pressure  Skin Thickness  Insulin   BMI  \
0            0      118              84              47      230  45.8   
1            1      100              74              12       46  19.5   
2            7      195          

## Paso 3: Implementar la función de distancia euclidiana

**Instrucciones:**
- Escribe una función en Python que reciba dos vectores y calcule la distancia euclidiana entre ellos.
- Utiliza la siguiente fórmula matemática para la distancia euclidiana entre dos vectores $x$ y $y$ de $n$ dimensiones:

$$
d(x, y) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}
$$

- Prueba tu función con los siguientes dos ejemplos (cada vector corresponde a una fila del dataset):

| Embarazos | Glucosa | Presión Arterial | Grosor Piel | Insulina | IMC  | Función Hereditaria | Edad | Resultado |
|-----------|---------|------------------|-------------|----------|------|---------------------|------|-----------|
|     1     |   106   |        70        |      28     |   135    | 34.2 |        0.142        |  22  |     0     |
|     2     |   102   |        86        |      36     |   120    | 45.5 |        0.127        |  23  |     1     |

- Calcula la distancia euclidiana a mano y luego verifica que el resultado de tu función sea el mismo.
- La función debe imprimir el resultado del cálculo de la distancia euclidiana con los datos presentados.



In [13]:
#codigo aqui
import numpy as np
def euclidean_distance(row1, row2):
    vec1 = np.array(row1[:-1])
    vec2 = np.array(row2[:-1])
    return np.sqrt(np.sum((vec1 - vec2) ** 2))  

x = [1, 106, 70, 28, 135, 34.2, 0.142, 22]
y = [2, 102, 86, 36, 120, 45.5, 0.127, 23]

dist = euclidean_distance(x, y)
print(f"Distancia euclidiana entre x e y: {dist:.4f}")

Distancia euclidiana entre x e y: 26.2620


## Paso 4: Implementar un clasificador KNN básico

**Instrucciones:**
- Escribe una función que, dado un punto de prueba, calcule la distancia a todos los puntos de entrenamiento utilizando tu función de distancia euclidiana.
- Selecciona los **k = 3** vecinos más cercanos y predice la clase mayoritaria entre ellos.
- Aplica tu función a las 10 muestras de prueba obtenidas previamente, utilizando las 10 muestras de entrenamiento como referencia.
- El script debe imprimir una tabla comparando el valor real de `Resultado` de cada muestra de prueba con el valor predicho por tu algoritmo.
- Considere que las tablas se pueden codificar con un formato similar al que se muestra en el siguiente código:

In [14]:
#codigo aqui
import numpy as np
from collections import Counter

def euclidean_distance(row1, row2):
    return np.sqrt(np.sum((row1 - row2) ** 2))

def knn_predict(test_row, train_X, train_y, k=3):
    distances = []
    for i in range(len(train_X)):
        dist = euclidean_distance(test_row, train_X[i])
        distances.append((dist, train_y[i]))
    
    neighbors = sorted(distances, key=lambda x: x[0])[:k]
   
    classes = [neighbor[1] for neighbor in neighbors]
    return Counter(classes).most_common(1)[0][0]


train_X = train_df.iloc[:10, :-1].values
train_y = train_df.iloc[:10, -1].values
test_X = test_df.iloc[:10, :-1].values
test_y = test_df.iloc[:10, -1].values

print(f"{'Real':<10}{'Predicho':<10}")
for i in range(10):
    pred = knn_predict(test_X[i], train_X, train_y, k=3)
    print(f"{int(test_y[i]):<10}{int(pred):<10}")

Real      Predicho  
1         0         
0         0         
1         1         
1         0         
1         0         
1         0         
0         0         
1         0         
0         0         
0         0         


## Paso 5: Usar toda la data con separación 80% entrenamiento / 20% testeo  

### Pasos:
1. Cargar todo el dataset.  
2. Separar variables (X) y etiquetas (y).  
3. Aplicar `train_test_split` con 80% para entrenamiento y 20% para testeo.  
4. Mantener la proporción de clases usando estratificación.  
5. Guardar los conjuntos de datos para usarlos en KNN.  

In [16]:
#codigo aqui
from sklearn.model_selection import train_test_split


X = df.iloc[:, :-1].values  
y = df.iloc[:, -1].values   


X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print("Tamaño entrenamiento:", X_train.shape)
print("Tamaño testeo:", X_test.shape)

Tamaño entrenamiento: (313, 8)
Tamaño testeo: (79, 8)


## Paso 6: Entrenar un KNN con los datos sin escalar (crudos) y calcular accuracy  

### Pasos:
1. Definir el valor de **k = 3** y el metodo **Euclidiano**.  
2. Entrenar el modelo KNN con los datos crudos (sin normalizar/estandarizar).  
3. Predecir las clases del conjunto de test.  
4. Calcular el **accuracy** comparando predicciones con etiquetas reales.  
5. Guardar el resultado para la tabla comparativa.  


In [17]:
#codigo aqui
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score


knn = KNeighborsClassifier(n_neighbors=3, metric='euclidean')
knn.fit(X_train, y_train)


y_pred = knn.predict(X_test)


accuracy_crudo = accuracy_score(y_test, y_pred)
print(f"Accuracy (datos crudos, sin escalar): {accuracy_crudo:.4f}")

Accuracy (datos crudos, sin escalar): 0.8101


## Paso 7: Normalizar (Min-Max scaling) y entrenar KNN, luego calcular accuracy  

### Pasos:
1. Aplicar **normalización Min-Max** a los datos de entrenamiento y test.  
2. Entrenar el modelo KNN con los datos normalizados.  
3. Predecir las clases del conjunto de test.  
4. Calcular el **accuracy** del modelo.  
5. Guardar el resultado para la tabla comparativa.  


In [18]:
#codigo aqui
from sklearn.preprocessing import MinMaxScaler


scaler = MinMaxScaler()
X_train_norm = scaler.fit_transform(X_train)
X_test_norm = scaler.transform(X_test)


knn_norm = KNeighborsClassifier(n_neighbors=3, metric='euclidean')
knn_norm.fit(X_train_norm, y_train)


y_pred_norm = knn_norm.predict(X_test_norm)
accuracy_norm = accuracy_score(y_test, y_pred_norm)
print(f"Accuracy (normalización Min-Max): {accuracy_norm:.4f}")

Accuracy (normalización Min-Max): 0.7342


## Paso 9: Estandarizar (Z-score) y entrenar KNN, luego calcular accuracy  

### Pasos:
1. Aplicar **estandarización Z-score** a los datos de entrenamiento y test.  
2. Entrenar el modelo KNN con los datos estandarizados.  
3. Predecir las clases del conjunto de test.  
4. Calcular el **accuracy** del modelo.  
5. Guardar el resultado para la tabla comparativa.  


In [19]:
#codigo aqui
from sklearn.preprocessing import StandardScaler


scaler_z = StandardScaler()
X_train_z = scaler_z.fit_transform(X_train)
X_test_z = scaler_z.transform(X_test)


knn_z = KNeighborsClassifier(n_neighbors=3, metric='euclidean')
knn_z.fit(X_train_z, y_train)

y_pred_z = knn_z.predict(X_test_z)
accuracy_z = accuracy_score(y_test, y_pred_z)
print(f"Accuracy (estandarización Z-score): {accuracy_z:.4f}")

Accuracy (estandarización Z-score): 0.7468


## Paso 10/11: Tabla comparativa de accuracies  

### Pasos:
1. Reunir los resultados de accuracy de cada experimento:  
   - KNN sin escalar (80/20).  
   - KNN normalizado (80/20).  
   - KNN estandarizado (80/20).  
2. Crear una tabla con los resultados.  
3. Comparar el desempeño de cada método.  



In [20]:
#codigo aqui
import pandas as pd


resultados = {
    "Método": [
        "KNN sin escalar (crudo)",
        "KNN normalizado (Min-Max)",
        "KNN estandarizado (Z-score)"
    ],
    "Accuracy": [
        accuracy_crudo,
        accuracy_norm,
        accuracy_z
    ]
}

tabla = pd.DataFrame(resultados)
print(tabla)

                        Método  Accuracy
0      KNN sin escalar (crudo)  0.810127
1    KNN normalizado (Min-Max)  0.734177
2  KNN estandarizado (Z-score)  0.746835


---
## Preguntas de reflexión y aplicación



1. ¿Por qué es importante normalizar o estandarizar los datos antes de usar KNN?  



La normalización o estandarización es importante porque KNN utiliza distancias entre puntos para clasificar. Si las variables tienen escalas muy diferentes, las de mayor rango dominarán el cálculo de la distancia, haciendo que el modelo sea menos preciso. Normalizar o estandarizar asegura que todas las variables contribuyan de manera similar

Responda aqui

2. ¿Qué diferencias observaste en el accuracy entre los datos crudos, normalizados y estandarizados?  


Generalmente, el accuracy mejora al normalizar o estandarizar los datos, ya que el modelo puede comparar de manera justa todas las características. En datos crudos, el rendimiento suele ser menor porque algunas variables dominan la distancia. La normalización y la estandarización suelen dar resultados similares, aunque depende del dataset.

Respinda aqui

3. Si aumentamos el valor de **k** (número de vecinos), ¿cómo crees que cambiaría el rendimiento del modelo?  


Si aumentamos k, el modelo se vuelve más robusto al ruido, pero puede perder capacidad para captar patrones locales (se vuelve más general). Un k muy alto puede llevar a un modelo que no distingue bien entre clases (subajuste), mientras que un k muy bajo puede ser sensible al ruido (sobreajuste).

Responda aqui

4. ¿Qué ventaja tiene implementar KNN manualmente antes de usar scikit-learn?  


Implementar KNN manualmente ayuda a comprender cómo funciona el algoritmo internamente: el cálculo de distancias, la selección de vecinos y la votación mayoritaria. Esto facilita la interpretación de resultados y la detección de posibles problemas en los datos.

respuesta aqui

5. ¿Qué limitaciones presenta KNN cuando se aplica a conjuntos de datos grandes o con muchas dimensiones?  

KNN es computacionalmente costoso en datasets grandes porque debe calcular la distancia a todos los puntos de entrenamiento para cada predicción. Además, en datos de alta dimensión (muchas variables), la distancia euclidiana pierde significado (mal de la dimensión), lo que puede reducir la precisión del modelo.

respuesta aqui

---

## Rúbrica de evaluación: Práctica KNN

| Criterio | Descripción | Puntaje Máximo |
|----------|-------------|----------------|
| **1. Carga y exploración del dataset** | Carga correcta del archivo CSV, explicación de las variables y verificación de datos. | 15 pts |
| **2. Implementación manual de KNN** | Código propio para calcular distancias euclidianas, selección de vecinos y votación mayoritaria. | 20 pts |
| **3. Predicción individual (ejemplo aleatorio)** | Explicación clara del proceso paso a paso para un ejemplo de test. | 10 pts |
| **4. Uso de scikit-learn (KNN)** | Entrenamiento y evaluación con `train_test_split`, comparación con el método manual. | 15 pts |
| **5. Normalización y estandarización** | Aplicación correcta de Min-Max y Z-score, con cálculo de accuracy en cada caso. | 20 pts |
| **6. Tabla comparativa de accuracies** | Presentación clara de los resultados y comparación entre métodos. | 10 pts |
| **7. Reflexión y preguntas finales** | Respuestas a las preguntas de análisis planteadas (profundidad y claridad). | 10 pts |

**Total: 100 pts**
