## Descripción del dataset: Pima Indians Diabetes

El **Pima Indians Diabetes Dataset** es un conjunto de datos clásico en Machine Learning y bioestadística, recopilado por el *National Institute of Diabetes and Digestive and Kidney Diseases*.  
Su propósito es **predecir la aparición de diabetes tipo 2** en mujeres de origen **pima** (una población indígena del sur de Arizona, EE.UU.), a partir de diversas variables clínicas y demográficas.

### Características principales:
- **Número de registros:** 392 (en esta versión limpia, el original tenía 768).  
- **Número de atributos (features):** 8 variables predictoras + 1 variable objetivo.  
- **Población:** Mujeres de al menos 21 años de edad de la etnia Pima.  
- **Tarea principal:** Clasificación binaria → determinar si una paciente tiene diabetes (`Outcome = 1`) o no (`Outcome = 0`).

### Variables:
1. **Pregnancies** → Número de embarazos.  
2. **Glucose** → Concentración de glucosa en plasma después de 2 horas en una prueba de tolerancia a la glucosa.  
3. **BloodPressure** → Presión arterial diastólica (mm Hg).  
4. **SkinThickness** → Espesor del pliegue cutáneo del tríceps (mm).  
5. **Insulin** → Nivel sérico de insulina (mu U/ml).  
6. **BMI** → Índice de masa corporal (peso en kg / altura² en m²).  
7. **DiabetesPedigreeFunction** → Probabilidad de diabetes basada en antecedentes familiares.  
8. **Age** → Edad en años.  
9. **Outcome** → Variable objetivo:  
   - `0` = No tiene diabetes  
   - `1` = Tiene diabetes  

### Relevancia:
Este dataset es ampliamente utilizado en cursos de **Inteligencia Artificial y Machine Learning** para enseñar:
- Procesamiento y limpieza de datos biomédicos.  
- Métodos de clasificación supervisada (KNN, regresión logística, Random Forest, SVM, redes neuronales, etc.).  
- Importancia de la normalización y estandarización en algoritmos basados en distancias.  

---


## Paso 1: Cargar la base de datos  
Cargamos el CSV en un `DataFrame` de `pandas`. Si tu archivo no se llama exactamente `cleaned_dataset.csv`, ajusta la ruta.

In [1]:
import pandas as pd

df = pd.read_csv('cleaned_dataset.csv')
display(df)

Unnamed: 0,Pregnancies,Glucose,Blood Pressure,Skin Thickness,Insulin,BMI,Diabetes Pedigree Function,Age,Outcome
0,0,129,110,46,130,67.1,0.319,26,1
1,0,180,78,63,14,59.4,2.420,25,1
2,3,123,100,35,240,57.3,0.880,22,0
3,1,88,30,42,99,55.0,0.496,26,1
4,0,162,76,56,100,53.2,0.759,25,1
...,...,...,...,...,...,...,...,...,...
387,1,92,62,25,41,19.5,0.482,25,0
388,1,100,74,12,46,19.5,0.149,28,0
389,1,103,80,11,82,19.4,0.491,22,0
390,3,99,80,11,64,19.3,0.284,30,0


## Paso 2: Crear subconjuntos con 20 datos de **entrenamiento** y 20 de **testeo**
Seleccionaremos 40 muestras: 20 para entrenar y 20 para evaluar.

In [10]:
# Selecciona aleatoriamente 40 muestras del DataFrame
subset = df.sample(n=40, random_state=100).reset_index(drop=True)

# Divide en 20 para entrenamiento y 20 para testeo
train_set = subset.iloc[:20].reset_index(drop=True)
test_set = subset.iloc[20:].reset_index(drop=True)

# Muestra las primeras filas de cada subconjunto
print("Entrenamiento:")
display(train_set)
print("\nTesteo:")
display(test_set)

Entrenamiento:


Unnamed: 0,Pregnancies,Glucose,Blood Pressure,Skin Thickness,Insulin,BMI,Diabetes Pedigree Function,Age,Outcome
0,0,84,64,22,66,35.8,0.545,21,0
1,5,136,84,41,88,35.0,0.286,35,1
2,1,149,68,29,127,29.3,0.349,42,1
3,7,142,90,24,480,30.4,0.128,43,1
4,1,95,74,21,73,25.9,0.673,36,0
5,12,88,74,40,54,35.3,0.378,48,0
6,1,109,38,18,120,23.1,0.407,26,0
7,10,68,106,23,49,35.5,0.285,47,0
8,1,92,62,25,41,19.5,0.482,25,0
9,7,187,50,33,392,33.9,0.826,34,1



Testeo:


Unnamed: 0,Pregnancies,Glucose,Blood Pressure,Skin Thickness,Insulin,BMI,Diabetes Pedigree Function,Age,Outcome
0,0,198,66,32,274,41.3,0.502,28,1
1,7,94,64,25,79,33.3,0.738,41,0
2,3,158,76,36,245,31.6,0.851,28,1
3,1,97,66,15,140,23.2,0.487,22,0
4,3,173,82,48,465,38.4,2.137,25,1
5,0,138,60,35,167,34.6,0.534,21,1
6,2,100,66,20,90,32.9,0.867,28,1
7,5,139,64,35,140,28.6,0.411,26,0
8,2,146,76,35,194,38.2,0.329,29,0
9,1,106,70,28,135,34.2,0.142,22,0


## Paso 3: Implementar la función de distancia euclidiana

**Instrucciones:**
- Escribe una función en Python que reciba dos vectores y calcule la distancia euclidiana entre ellos.
- Utiliza la siguiente fórmula matemática para la distancia euclidiana entre dos vectores $x$ y $y$ de $n$ dimensiones:

$$
d(x, y) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}
$$

- Prueba tu función con los siguientes dos ejemplos (cada vector corresponde a una fila del dataset):

| Embarazos | Glucosa | Presión Arterial | Grosor Piel | Insulina | IMC  | Función Hereditaria | Edad | Resultado |
|-----------|---------|------------------|-------------|----------|------|---------------------|------|-----------|
|     1     |   106   |        70        |      28     |   135    | 34.2 |        0.142        |  22  |     0     |
|     2     |   102   |        86        |      36     |   120    | 45.5 |        0.127        |  23  |     1     |

- Calcula la distancia euclidiana a mano y luego verifica que el resultado de tu función sea el mismo.
- La función debe imprimir el resultado del cálculo de la distancia euclidiana con los datos presentados.



In [3]:
import numpy as np

def distancia_euclidiana(x, y):
    x = np.array(x)
    y = np.array(y)
    distancia = np.sqrt(np.sum((x - y) ** 2))
    return distancia

# Ejemplo con los dos vectores dados
vector1 = [1, 106, 70, 28, 135, 34.2, 0.142, 22]
vector2 = [2, 102, 86, 36, 120, 45.5, 0.127, 23]

dist = distancia_euclidiana(vector1, vector2)
print(f"Distancia euclidiana entre los dos vectores de ejemplo: {dist:.4f}")

Distancia euclidiana entre los dos vectores de ejemplo: 26.2810


## Paso 4: Implementar un clasificador KNN básico

**Instrucciones:**
- Escribe una función que, dado un punto de prueba, calcule la distancia a todos los puntos de entrenamiento utilizando tu función de distancia euclidiana.
- Selecciona los **k = 3** vecinos más cercanos y predice la clase mayoritaria entre ellos.
- Aplica tu función a las 10 muestras de prueba obtenidas previamente, utilizando las 10 muestras de entrenamiento como referencia.
- El script debe imprimir una tabla comparando el valor real de `Resultado` de cada muestra de prueba con el valor predicho por tu algoritmo.
- Considere que las tablas se pueden codificar con un formato similar al que se muestra en el siguiente código:

In [4]:
import pandas as pd

# Usaremos las primeras 10 filas de train_set y test_set ya definidos
X_train = train_set.iloc[:10, :-1].values  # Todas las columnas excepto 'Outcome'
y_train = train_set.iloc[:10, -1].values   # Solo la columna 'Outcome'
X_test = test_set.iloc[:10, :-1].values
y_test = test_set.iloc[:10, -1].values

def knn_predict(X_train, y_train, x_test, k=3):
    # Calcula distancia euclidiana a todos los puntos de entrenamiento
    distancias = [distancia_euclidiana(x_test, x_train) for x_train in X_train]
    # Obtiene los índices de los k vecinos más cercanos
    vecinos_idx = np.argsort(distancias)[:k]
    # Obtiene las clases de los vecinos
    vecinos_clases = y_train[vecinos_idx]
    # Predice la clase mayoritaria
    prediccion = np.bincount(vecinos_clases).argmax()
    return prediccion

# Aplica KNN a las 10 muestras de test
resultados = []
for i in range(len(X_test)):
    pred = knn_predict(X_train, y_train, X_test[i], k=3)
    resultados.append({'Real': y_test[i], 'Predicho': pred})

# Muestra la tabla comparativa
tabla_resultados = pd.DataFrame(resultados)
display(tabla_resultados)

Unnamed: 0,Real,Predicho
0,1,1
1,0,0
2,1,1
3,0,0
4,1,1
5,1,1
6,1,0
7,0,1
8,0,1
9,0,1


## Paso 5: Usar toda la data con separación 80% entrenamiento / 20% testeo  

### Pasos:
1. Cargar todo el dataset.  
2. Separar variables (X) y etiquetas (y).  
3. Aplicar `train_test_split` con 80% para entrenamiento y 20% para testeo.  
4. Mantener la proporción de clases usando estratificación.  
5. Guardar los conjuntos de datos para usarlos en KNN.  

In [5]:
from sklearn.model_selection import train_test_split

#codigo aqui
# Separar variables predictoras (X) y variable objetivo (y)
X = df.iloc[:, :-1].values  # Todas las columnas excepto 'Outcome'
y = df['Outcome'].values    # Solo la columna 'Outcome'

# Separar en 80% entrenamiento y 20% testeo, manteniendo la proporción de clases
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# Mostrar tamaños de los conjuntos
print(f"Entrenamiento: {X_train.shape[0]} muestras")
print(f"Testeo: {X_test.shape[0]} muestras")
print(f"Total filas: {X.shape[0]}")

Entrenamiento: 313 muestras
Testeo: 79 muestras
Total filas: 392


## Paso 6: Entrenar un KNN con los datos sin escalar (crudos) y calcular accuracy  

### Pasos:
1. Definir el valor de **k = 3** y el metodo **Euclidiano**.  
2. Entrenar el modelo KNN con los datos crudos (sin normalizar/estandarizar).  
3. Predecir las clases del conjunto de test.  
4. Calcular el **accuracy** comparando predicciones con etiquetas reales.  
5. Guardar el resultado para la tabla comparativa.  


In [6]:
# KNN con datos crudos (sin escalar)
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Asegúrate de haber ejecutado el Paso 5 para tener X_train, X_test, y_train, y_test
knn_raw = KNeighborsClassifier(n_neighbors=3, metric='euclidean')
knn_raw.fit(X_train, y_train)

y_pred_raw = knn_raw.predict(X_test)
acc_raw = accuracy_score(y_test, y_pred_raw)
print(f"Accuracy (KNN sin escalar, k=3, euclidiana): {acc_raw:.4f}")

Accuracy (KNN sin escalar, k=3, euclidiana): 0.8101


## Paso 7: Normalizar (Min-Max scaling) y entrenar KNN, luego calcular accuracy  

### Pasos:
1. Aplicar **normalización Min-Max** a los datos de entrenamiento y test.  
2. Entrenar el modelo KNN con los datos normalizados.  
3. Predecir las clases del conjunto de test.  
4. Calcular el **accuracy** del modelo.  
5. Guardar el resultado para la tabla comparativa.  


In [7]:
from sklearn.preprocessing import MinMaxScaler

# Normalización Min-Max
scaler = MinMaxScaler()
X_train_norm = scaler.fit_transform(X_train)
X_test_norm = scaler.transform(X_test)

# Entrenar KNN con datos normalizados
knn_norm = KNeighborsClassifier(n_neighbors=3, metric='euclidean')
knn_norm.fit(X_train_norm, y_train)

# Predecir y calcular accuracy
y_pred_norm = knn_norm.predict(X_test_norm)
acc_norm = accuracy_score(y_test, y_pred_norm)
print(f"Accuracy (KNN normalizado, k=3, euclidiana): {acc_norm:.4f}")

Accuracy (KNN normalizado, k=3, euclidiana): 0.7342


## Paso 9: Estandarizar (Z-score) y entrenar KNN, luego calcular accuracy  

### Pasos:
1. Aplicar **estandarización Z-score** a los datos de entrenamiento y test.  
2. Entrenar el modelo KNN con los datos estandarizados.  
3. Predecir las clases del conjunto de test.  
4. Calcular el **accuracy** del modelo.  
5. Guardar el resultado para la tabla comparativa.  


In [8]:
from sklearn.preprocessing import StandardScaler

# Estandarización Z-score
scaler_z = StandardScaler()
X_train_std = scaler_z.fit_transform(X_train)
X_test_std = scaler_z.transform(X_test)

# Entrenar KNN con datos estandarizados
knn_std = KNeighborsClassifier(n_neighbors=3, metric='euclidean')
knn_std.fit(X_train_std, y_train)

# Predecir y calcular accuracy
y_pred_std = knn_std.predict(X_test_std)
acc_std = accuracy_score(y_test, y_pred_std)
print(f"Accuracy (KNN estandarizado, k=3, euclidiana): {acc_std:.4f}")

Accuracy (KNN estandarizado, k=3, euclidiana): 0.7468


## Paso 10/11: Tabla comparativa de accuracies  

### Pasos:
1. Reunir los resultados de accuracy de cada experimento:  
   - KNN sin escalar (80/20).  
   - KNN normalizado (80/20).  
   - KNN estandarizado (80/20).  
2. Crear una tabla con los resultados.  
3. Comparar el desempeño de cada método.  



In [9]:
# Reunir los resultados de accuracy de cada experimento
resultados_accuracy = {
    'KNN sin escalar': acc_raw,
    'KNN normalizado': acc_norm,
    'KNN estandarizado': acc_std
}

# Crear una tabla con los resultados
tabla_accuracy = pd.DataFrame(
    list(resultados_accuracy.items()),
    columns=['Método', 'Accuracy']
)

display(tabla_accuracy)

# Comparar el desempeño de cada método
mejor_metodo = tabla_accuracy.loc[tabla_accuracy['Accuracy'].idxmax()]
print(f"El mejor desempeño se obtuvo con: {mejor_metodo['Método']} (Accuracy = {mejor_metodo['Accuracy']:.4f})")

Unnamed: 0,Método,Accuracy
0,KNN sin escalar,0.810127
1,KNN normalizado,0.734177
2,KNN estandarizado,0.746835


El mejor desempeño se obtuvo con: KNN sin escalar (Accuracy = 0.8101)


---
## Preguntas de reflexión y aplicación



1. ¿Por qué es importante normalizar o estandarizar los datos antes de usar KNN?  



KNN es un algoritmo basado en distancia por ello es bueno ya que si las caracteristicas tienen distintos rangos
de valores las caracteristicas de más rango numerico dominara en la fórmula de distancia haciendo que el modelo ignore las caracteristicas de rango más bajo.

2. ¿Qué diferencias observaste en el accuracy entre los datos crudos, normalizados y estandarizados?  


Al obtener datos crudos se ha obtenido un mayor accuracy debido al que tener tan pocos datos que normalizar ya que no representan un conjundo grande de datos puede distorcionar las distancias.

3. Si aumentamos el valor de **k** (número de vecinos), ¿cómo crees que cambiaría el rendimiento del modelo?  


Aumente en número de vecinos viendo su comportamiento y me di cuenta que al aumentar a 5 se obtiene mayor precisión que solo teniendo 3 y con números pares puede generalizar el resultado y es algo que no queremos.

4. ¿Qué ventaja tiene implementar KNN manualmente antes de usar scikit-learn?  


Ayuda a comprender el algoritmo como la distancia Euclidiana y el proceso de encontrar vecinos más cercanos, también mejora las habilidades de programación, permite modificay y personalozar como metriscas de distancia y la votación ponderada.

5. ¿Qué limitaciones presenta KNN cuando se aplica a conjuntos de datos grandes o con muchas dimensiones?  

Predicción más lenta para clasificar ya que debe calcular la distancia de el nuevo punto ingresado a cada punto y en grandes cantidades puede llegar a tardar más.
Requiere alto consumo en memoria dado que el modelo debe matener en memoria todos los conjuntos de datos de entrenamiento para la predicción.
en dimensión se puede decir que es la más grave porque a medida que el numero de dimensiones aumenta el espacio de datos se vuelve cada vez más disperso lo que causa vacio de datos que es la extrema escacez y disperción de datos para calcular y la perdida de sentido de distancia que es cuando la distancia son casi iguales por ende se dice que el concepto de "cercanía" pierde sentido.

## Rúbrica de evaluación: Práctica KNN

| Criterio | Descripción | Puntaje Máximo |
|----------|-------------|----------------|
| **1. Carga y exploración del dataset** | Carga correcta del archivo CSV, explicación de las variables y verificación de datos. | 15 pts |
| **2. Implementación manual de KNN** | Código propio para calcular distancias euclidianas, selección de vecinos y votación mayoritaria. | 20 pts |
| **3. Predicción individual (ejemplo aleatorio)** | Explicación clara del proceso paso a paso para un ejemplo de test. | 10 pts |
| **4. Uso de scikit-learn (KNN)** | Entrenamiento y evaluación con `train_test_split`, comparación con el método manual. | 15 pts |
| **5. Normalización y estandarización** | Aplicación correcta de Min-Max y Z-score, con cálculo de accuracy en cada caso. | 20 pts |
| **6. Tabla comparativa de accuracies** | Presentación clara de los resultados y comparación entre métodos. | 10 pts |
| **7. Reflexión y preguntas finales** | Respuestas a las preguntas de análisis planteadas (profundidad y claridad). | 10 pts |

**Total: 100 pts**
