En esta fase entrenamos y evaluamos los modelos supervisados del proyecto IA-CANCER-LOGISTIC-RF, utilizando los datos preparados en la Fase 2. A partir de estos insumos, se construyen dos clasificadores: Regresi√≥n Log√≠stica, que trabaja con las variables estandarizadas, y Random Forest, que utiliza las caracter√≠sticas originales.

El notebook desarrolla el flujo completo de entrenamiento: carga de los conjuntos de train y test, creaci√≥n y ajuste de ambos modelos, c√°lculo de m√©tricas como accuracy, precisi√≥n, recall y F1-score, y an√°lisis de sus matrices de confusi√≥n para entender los aciertos y errores de cada algoritmo. Finalmente, los modelos entrenados se guardan en la carpeta models/ para su uso en etapas posteriores.

Con esto se completa el ciclo de entrenamiento y los modelos quedan listos para integrarse en un flujo de predicci√≥n o una aplicaci√≥n externa.

In [15]:
# Paso 1: Importar librer√≠as para modelos supervisados y m√©tricas

import numpy as np
import pandas as pd

# Modelos
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier

# M√©tricas de evaluaci√≥n (Accuracy, Precision, Recall, F1, matriz de confusi√≥n)
from sklearn.metrics import (
    accuracy_score,
    precision_score,
    recall_score,
    f1_score,
    confusion_matrix,
    classification_report
)

# Guardar modelos entrenados
import joblib
import os

print("‚úÖ Librer√≠as para modelos y m√©tricas importadas correctamente.")

‚úÖ Librer√≠as para modelos y m√©tricas importadas correctamente.


In [17]:
# Cargar conjuntos procesados desde disco
X_train_logreg = joblib.load("data/processed/X_train_logreg.pkl")
X_test_logreg  = joblib.load("data/processed/X_test_logreg.pkl")

X_train_rf = joblib.load("data/processed/X_train_rf.pkl")
X_test_rf  = joblib.load("data/processed/X_test_rf.pkl")

y_train_final = joblib.load("data/processed/y_train_final.pkl")
y_test_final  = joblib.load("data/processed/y_test_final.pkl")

print("‚úÖ Conjuntos cargados correctamente en Fase 3.")


‚úÖ Conjuntos cargados correctamente en Fase 3.


# Modelo de Regresi√≥n Log√≠stica

##  Instanciar el modelo de Regresi√≥n Log√≠stica
A continuaci√≥n, vamos a instanciar el modelo de Regresi√≥n Log√≠stica. En este punto √∫nicamente creamos el modelo; el entrenamiento se realizar√° m√°s adelante. Para ello, agrega una nueva celda en tu notebook y escribe:

In [None]:
# Instanciar el modelo de Regresi√≥n Log√≠stica

model_logreg = LogisticRegression(
    max_iter=1000,       # m√°s iteraciones para asegurar convergencia
    solver='lbfgs',      # funciona bien con datasets medianos
    random_state=42
)

print("Modelo de Regresi√≥n Log√≠stica instanciado.")


Modelo de Regresi√≥n Log√≠stica instanciado.


## Entrenar el modelo de Regresi√≥n Log√≠stica


In [None]:
# Entrenar el modelo de Regresi√≥n Log√≠stica
model_logreg.fit(X_train_logreg, y_train_final)
print("Modelo de Regresi√≥n Log√≠stica entrenado correctamente.")

Modelo de Regresi√≥n Log√≠stica entrenado correctamente.


## Evaluaci√≥n del modelo

#### Realizar predicciones con el modelo entrenado
Antes de calcular las m√©tricas, necesitamos obtener las predicciones de la Regresi√≥n Log√≠stica sobre el conjunto de prueba (X_test_logreg). Estas predicciones devolver√°n una lista de valores 0 y 1, donde 0 corresponde a tumores benignos y 1 a tumores malignos.

In [None]:
# Realizar predicciones con el modelo de Regresi√≥n Log√≠stica

y_pred_logreg = model_logreg.predict(X_test_logreg)

print("Predicciones generadas para el conjunto de prueba.")


Predicciones generadas para el conjunto de prueba.


#### Calcular m√©tricas de evaluaci√≥n
Ahora que ya tenemos las predicciones del modelo, el siguiente paso es calcular las m√©tricas de evaluaci√≥n para entender qu√© tan bien est√° funcionando la Regresi√≥n Log√≠stica. Estas m√©tricas te permitir√°n interpretar el desempe√±o del modelo: accuracy, precisi√≥n, recall y F1-score, cada una enfocada en un aspecto diferente de la clasificaci√≥n.

In [None]:
# Paso 5: Evaluaci√≥n del modelo de Regresi√≥n Log√≠stica

accuracy_logreg  = accuracy_score(y_test_final, y_pred_logreg)
precision_logreg = precision_score(y_test_final, y_pred_logreg)
recall_logreg    = recall_score(y_test_final, y_pred_logreg)
f1_logreg        = f1_score(y_test_final, y_pred_logreg)

print("Resultados del Modelo de Regresi√≥n Log√≠stica:")
print(f"Accuracy : {accuracy_logreg:.4f}")
print(f"Precisi√≥n: {precision_logreg:.4f}")
print(f"Recall   : {recall_logreg:.4f}")
print(f"F1-score : {f1_logreg:.4f}")


üìä Resultados del Modelo de Regresi√≥n Log√≠stica:
Accuracy : 0.9649
Precisi√≥n: 0.9750
Recall   : 0.9286
F1-score : 0.9512


Los resultados obtenidos muestran que el modelo de Regresi√≥n Log√≠stica presenta un desempe√±o muy s√≥lido. La accuracy alcanzada es de 0.9649, lo que significa que el modelo acierta aproximadamente el 96.5% de las predicciones. La precisi√≥n es de 0.9750, indicando que cuando el modelo predice un caso como ‚Äúmaligno‚Äù, casi siempre corresponde a un tumor maligno real. El recall es de 0.9286, por lo que logra identificar la mayor√≠a de los tumores malignos presentes en el conjunto de prueba. Finalmente, el F1-score de 0.9512 confirma un buen equilibrio entre precisi√≥n y recall.

Como siguiente paso, es importante observar no solo los valores agregados de las m√©tricas, sino tambi√©n c√≥mo se distribuyen los aciertos y errores del modelo. Para ello, generaremos la matriz de confusi√≥n, que nos permitir√° visualizar con mayor detalle qu√© tipos de predicciones acierta y en cu√°les se equivoca.

In [None]:
#  Matriz de confusi√≥n del modelo de Regresi√≥n Log√≠stica

cm_logreg = confusion_matrix(y_test_final, y_pred_logreg)

print(" Matriz de confusi√≥n (Regresi√≥n Log√≠stica):")
print(cm_logreg)


üîç Matriz de confusi√≥n (Regresi√≥n Log√≠stica):
[[71  1]
 [ 3 39]]


La matriz de confusi√≥n confirma el buen rendimiento del modelo. La Regresi√≥n Log√≠stica clasific√≥ correctamente **71 de 72 tumores benignos** y **39 de 42 malignos**, mostrando una buena capacidad para diferenciar ambas clases. Los errores fueron pocos: un caso benigno fue marcado como maligno (falso positivo) y tres casos malignos se clasificaron como benignos (falsos negativos).

Aunque los falsos negativos son especialmente sensibles en contextos m√©dicos, su n√∫mero es bajo en comparaci√≥n con el total evaluado, lo que indica que el modelo logra una detecci√≥n adecuada de los casos cr√≠ticos. En conjunto, estos resultados refuerzan que la Regresi√≥n Log√≠stica est√° funcionando de manera estable y efectiva para este problema.

# Modelo de Random Forest

## Instanciar el modelo de Random Forest

In [27]:
# Instanciar el modelo de Random Forest

model_rf = RandomForestClassifier(
    n_estimators=200,   # n√∫mero de √°rboles
    max_depth=None,     # profundidad libre
    random_state=42
)

print(" Modelo de Random Forest instanciado correctamente.")


 Modelo de Random Forest instanciado correctamente.


## Entrenar el modelo de Random Forest

In [28]:
# Entrenar el modelo de Random Forest

model_rf.fit(X_train_rf, y_train_final)

print("Modelo Random Forest entrenado correctamente.")


Modelo Random Forest entrenado correctamente.


## Evaluaci√≥n del modelo Ranfom Forest

### Realizar predicciones con Random Forest

Ahora vamos a generar las predicciones del modelo Random Forest utilizando el conjunto de prueba sin escalar (X_test_rf). Este paso nos permitir√° evaluar su desempe√±o y compararlo m√°s adelante con el de la Regresi√≥n Log√≠stica. Para ello, crea una nueva celda y ejecuta el siguiente c√≥digo:

In [29]:
# Paso 8: Predicciones con el modelo Random Forest

y_pred_rf = model_rf.predict(X_test_rf)

print("Predicciones generadas para Random Forest.")


Predicciones generadas para Random Forest.


#### Calcular m√©tricas de evaluaci√≥n
Ahora que ya generamos las predicciones del Random Forest, vamos a evaluar su desempe√±o calculando accuracy, precisi√≥n, recall y F1-score, utilizando las mismas variables de referencia del modelo anterior (y_test_final y y_pred_rf). Esto nos permitir√° comparar ambos modelos bajo las mismas condiciones.

In [30]:
# Evaluaci√≥n del modelo Random Forest

accuracy_rf  = accuracy_score(y_test_final, y_pred_rf)
precision_rf = precision_score(y_test_final, y_pred_rf)
recall_rf    = recall_score(y_test_final, y_pred_rf)
f1_rf        = f1_score(y_test_final, y_pred_rf)

print("üìä Resultados del Modelo Random Forest:")
print(f"Accuracy : {accuracy_rf:.4f}")
print(f"Precisi√≥n: {precision_rf:.4f}")
print(f"Recall   : {recall_rf:.4f}")
print(f"F1-score : {f1_rf:.4f}")


üìä Resultados del Modelo Random Forest:
Accuracy : 0.9649
Precisi√≥n: 1.0000
Recall   : 0.9048
F1-score : 0.9500


In [31]:
# Paso 10: Matriz de confusi√≥n del modelo Random Forest

cm_rf = confusion_matrix(y_test_final, y_pred_rf)

print("Matriz de confusi√≥n (Random Forest):")
print(cm_rf)

Matriz de confusi√≥n (Random Forest):
[[72  0]
 [ 4 38]]


El modelo Random Forest obtuvo un desempe√±o general muy s√≥lido, con un accuracy de 0.9649 y un F1-score de 0.9500, valores pr√°cticamente equivalentes a los de la Regresi√≥n Log√≠stica. Sin embargo, la distribuci√≥n de errores muestra un comportamiento diferente en la forma como el modelo clasifica cada tipo de tumor.

La matriz de confusi√≥n evidencia que el modelo clasific√≥ correctamente 72 de 72 tumores benignos, sin cometer ning√∫n falso positivo, lo cual explica su precisi√≥n perfecta (1.0000) al predecir tumores malignos. Este comportamiento indica que Random Forest es un modelo altamente conservador: solo predice ‚Äúmaligno‚Äù cuando est√° muy seguro.

Por otra parte, el modelo present√≥ 4 falsos negativos, es decir, casos malignos que fueron clasificados como benignos. Esto se refleja en un recall de 0.9048, ligeramente inferior al obtenido con la Regresi√≥n Log√≠stica. En aplicaciones m√©dicas, este tipo de error es especialmente importante porque implica no detectar casos cr√≠ticos.

En conjunto, Random Forest ofrece una clasificaci√≥n muy precisa para tumores benignos y un buen rendimiento general, aunque con una mayor tendencia a pasar por alto algunos casos malignos debido a su car√°cter conservador.

# Comparaci√≥n entre Regresi√≥n Log√≠stica y Random Forest
Ahora vamos a organizar los resultados de ambos modelos en una peque√±a tabla de comparaci√≥n.

In [33]:
# Comparaci√≥n entre modelos sin usar

resultados = pd.DataFrame({
    "M√©trica": ["Accuracy", "Precisi√≥n", "Recall", "F1-score"],
    "Regresi√≥n Log√≠stica": [
        accuracy_logreg,
        precision_logreg,
        recall_logreg,
        f1_logreg
    ],
    "Random Forest": [
        accuracy_rf,
        precision_rf,
        recall_rf,
        f1_rf
    ]
})

print("üìä Comparaci√≥n entre modelos:")
print(resultados.to_string(index=False, formatters={"Regresi√≥n Log√≠stica": "{:.4f}".format,
                                                   "Random Forest": "{:.4f}".format}))


üìä Comparaci√≥n entre modelos:
  M√©trica Regresi√≥n Log√≠stica Random Forest
 Accuracy              0.9649        0.9649
Precisi√≥n              0.9750        1.0000
   Recall              0.9286        0.9048
 F1-score              0.9512        0.9500


Ambos modelos presentan un desempe√±o muy similar en t√©rminos de exactitud general (accuracy ‚âà 0.9649), lo cual indica que los dos clasifican correctamente la gran mayor√≠a de los casos del conjunto de prueba. Sin embargo, existen diferencias importantes en la forma como cada modelo comete errores.

La Regresi√≥n Log√≠stica ofrece un mejor equilibrio entre precisi√≥n y recall, con un F1-score ligeramente superior (0.9512). Su recall (0.9286) es m√°s alto que el de Random Forest, lo que implica que detecta un mayor n√∫mero de tumores malignos, reduciendo la cantidad de falsos negativos. Este comportamiento es particularmente valioso en contextos m√©dicos, donde es preferible identificar la mayor cantidad posible de casos malignos.

Por otro lado, Random Forest se caracteriza por tener una precisi√≥n perfecta (1.0000): no genera falsos positivos. Sin embargo, su recall es menor (0.9048), lo que indica que deja pasar algunos tumores malignos al clasificarlos como benignos. Esto refleja un modelo m√°s conservador para predecir malignidad: solo etiqueta un caso como maligno cuando tiene una seguridad muy alta.

En conjunto, ambos modelos son adecuados para el problema, pero la Regresi√≥n Log√≠stica ofrece un mejor balance general, mientras que Random Forest prioriza evitar falsos positivos a costa de aumentar los falsos negativos.

# Guardar los modelos entrenados

In [43]:
import os
import joblib

# Obtener la ruta absoluta de la carpeta ra√≠z del proyecto
root_dir = os.path.dirname(os.getcwd())   # sube desde /notebooks a la ra√≠z

# Construir la ruta absoluta hacia /models
models_path = os.path.join(root_dir, "models")

# Crear carpeta models si no existe
os.makedirs(models_path, exist_ok=True)

# Guardar modelos usando la ruta absoluta
joblib.dump(model_logreg, os.path.join(models_path, "model_logreg.pkl"))
joblib.dump(model_rf, os.path.join(models_path, "model_rf.pkl"))

print("üíæ Modelos guardados correctamente en:", models_path)


üíæ Modelos guardados correctamente en: c:\Users\Familia\Downloads\IA\ia-cancer-logistic-rf\models
