In [9]:
#1. Importar Librerías Necesarias
import pandas as pd
from sklearn.model_selection import train_test_split, KFold, cross_val_score
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.pipeline import Pipeline
import numpy as np

# 2. Cargar y Preparar el Dataset
# Cargamos el dataset directamente
df = pd.read_csv('data.csv')
print("Dataset cargado correctamente.")

# Eliminar columnas innecesarias si existen
if 'id' in df.columns:
    df = df.drop('id', axis=1)
if 'Unnamed: 32' in df.columns:
    df = df.drop('Unnamed: 32', axis=1)

# Separar características (X) y variable objetivo (y)
if 'diagnosis' not in df.columns:
    print("Error: La columna 'diagnosis' no se encontró en el dataset.")
    exit()

X = df.drop('diagnosis', axis=1)
y = df['diagnosis']

# Codificar la variable objetivo 'diagnosis' (Maligno=1, Benigno=0)
le = LabelEncoder()
y = le.fit_transform(y)

print("Preparación de datos completada.")

# 3. Dividir el Dataset en Entrenamiento y Prueba
# Dividimos los datos: 80% para entrenamiento, 20% para prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# Usando .format() en lugar de f-strings
print("\nDataset dividido en:")
print("  - Conjunto de Entrenamiento: {} muestras".format(X_train.shape[0]))
print("  - Conjunto de Prueba: {} muestras".format(X_test.shape[0]))

# 4. Definir Modelos y Valores de k
# Creamos los modelos que vamos a evaluar
pipeline_knn = Pipeline([
    ('scaler', StandardScaler()),
    ('knn', KNeighborsClassifier(n_neighbors=5))
])

models = {
    'Árbol de Decisión': DecisionTreeClassifier(random_state=42),
    'Regresión Logística': LogisticRegression(max_iter=10000, random_state=42),
    'k-NN (con escalado)': pipeline_knn
}

# Definimos los valores de k para la validación cruzada
k_values = [5, 10]

# Diccionario para almacenar los resultados
results_cv_train = {}

print("\nIniciando validación cruzada sobre el conjunto de entrenamiento...")

# 5. Aplicar Validación Cruzada K-Fold (sobre el Conjunto de Entrenamiento)
# Iteramos sobre cada modelo
for model_name, model in models.items():
    # Usando .format()
    print("\nEvaluando modelo: {}".format(model_name))
    results_cv_train[model_name] = {}
    # Iteramos sobre cada valor de k
    for k in k_values:
        # Configuramos la validación cruzada K-Fold
        kf = KFold(n_splits=k, shuffle=True, random_state=42)

        # Realizamos la validación cruzada USANDO SOLO LOS DATOS DE ENTRENAMIENTO
        cv_scores = cross_val_score(model, X_train, y_train, cv=kf, scoring='accuracy')

        # Calculamos la precisión promedio y la desviación estándar
        mean_accuracy = np.mean(cv_scores)
        std_accuracy = np.std(cv_scores)

        # Guardamos los resultados usando .format() para la clave del diccionario
        results_cv_train[model_name]['k={}'.format(k)] = mean_accuracy

        # Usando .format() para imprimir resultados, incluyendo formato de decimales
        print("  k={}: Precisión Promedio (CV en entrenamiento) = {:.4f} (+/- {:.4f})".format(k, mean_accuracy, std_accuracy))

print("\nValidación cruzada completada.")

# 6. Comparar Resultados (Basados en CV del set de entrenamiento) y Conclusiones

print("\n--- Resumen de Precisión Promedio (Validación Cruzada en Set de Entrenamiento) ---")
results_df = pd.DataFrame(results_cv_train)
print(results_df)

print("\n--- Conclusiones ---")

# Comparación general entre modelos basada en CV sobre datos de entrenamiento
best_model_k5 = results_df.loc['k=5'].idxmax()
best_acc_k5 = results_df.loc['k=5'].max()
best_model_k10 = results_df.loc['k=10'].idxmax()
best_acc_k10 = results_df.loc['k=10'].max()

# Usando .format()
print("1. Mejor Modelo (según CV en entrenamiento):")
print("   - Con k=5: {} (Precisión CV: {:.4f})".format(best_model_k5, best_acc_k5))
print("   - Con k=10: {} (Precisión CV: {:.4f})".format(best_model_k10, best_acc_k10))
print("   (Estos resultados indican qué modelo parece generalizar mejor dentro del conjunto de entrenamiento).")

# Comparación del impacto de k para cada modelo
# Usando .format()
print("\n2. Impacto del valor de k (en CV sobre entrenamiento):")
for model_name in results_cv_train.keys():
    acc_k5 = results_cv_train[model_name]['k=5']
    acc_k10 = results_cv_train[model_name]['k=10']
    diff = acc_k10 - acc_k5
    change = "mejoró" if diff > 0 else "empeoró" if diff < 0 else "se mantuvo igual"
    # Usando .format() con múltiples argumentos y especificadores de formato
    print("   - {}: La precisión CV {} al pasar de k=5 ({:.4f}) a k=10 ({:.4f}). Diferencia: {:+.4f}".format(model_name, change, acc_k5, acc_k10, diff))

print("\n3. Consideraciones Adicionales:")
print("""   - Estabilidad vs. Costo (Evaluación CV): Usar k=10 en la validación cruzada generalmente da una estimación más estable del rendimiento 
esperado, pero tarda más en calcular.""")
print("""   - Selección vs. Evaluación Final: La validación cruzada en el conjunto de entrenamiento ayuda a seleccionar el mejor enfoque. 
El conjunto de prueba (`X_test`, `y_test`) se reserva para la evaluación final.""")
print("""   - Interpretación: Los Árboles de Decisión pueden ser más interpretables, pero aquí la Regresión Logística y k-NN (con escalado) 
muestran mejor rendimiento promedio en CV.""")
print("   - Sensibilidad a k: Observamos cómo varía la precisión promedio al cambiar k. Menor variación podría indicar mayor estabilidad.")
print("""   - Próximos Pasos: Elegir el mejor modelo, reentrenarlo con todo `X_train`, `y_train` y evaluar su rendimiento definitivo usando 
`X_test`, `y_test`.""")

Dataset cargado correctamente.
Preparación de datos completada.

Dataset dividido en:
  - Conjunto de Entrenamiento: 455 muestras
  - Conjunto de Prueba: 114 muestras

Iniciando validación cruzada sobre el conjunto de entrenamiento...

Evaluando modelo: Árbol de Decisión
  k=5: Precisión Promedio (CV en entrenamiento) = 0.9385 (+/- 0.0112)
  k=10: Precisión Promedio (CV en entrenamiento) = 0.9274 (+/- 0.0358)

Evaluando modelo: Regresión Logística
  k=5: Precisión Promedio (CV en entrenamiento) = 0.9473 (+/- 0.0146)
  k=10: Precisión Promedio (CV en entrenamiento) = 0.9516 (+/- 0.0236)

Evaluando modelo: k-NN (con escalado)
  k=5: Precisión Promedio (CV en entrenamiento) = 0.9604 (+/- 0.0179)
  k=10: Precisión Promedio (CV en entrenamiento) = 0.9647 (+/- 0.0205)

Validación cruzada completada.

--- Resumen de Precisión Promedio (Validación Cruzada en Set de Entrenamiento) ---
      Árbol de Decisión  Regresión Logística  k-NN (con escalado)
k=5            0.938462             0.947253 