In [1]:
%pip install shap

Note: you may need to restart the kernel to use updated packages.


In [None]:
#imports
import pandas as pd
import matplotlib.pyplot as plt
import os
import seaborn as sns
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report

from sklearn.linear_model import LogisticRegression
from xgboost import XGBClassifier

import warnings
warnings.filterwarnings("ignore", category=UserWarning)

In [3]:
df = pd.read_csv("/Users/user/Desktop/breast_cancer_fr/data/modelling_dataset.csv")
df.head()

Unnamed: 0,size_dissected_area,percentage_tumor_cells,cell_number_dissected,inflammatory_cells,invasive_tumor_area_size1 mm,invasive_tumor_area_size2 mm,invasive_tumor_cells,invasive_tumor_grade,necrotic_cells,normal_epithelial_cells,...,243895_x_at,244361_at,244509_at,244745_at,41660_at,menopausal_status_encoded,race_Caucasian,race_Oriental,arm_HER2+ CT H,arm_HER2- CT
0,40.0,70,22400,10,4.0,10.0,70,3,0,0,...,6.766339,2.07229,5.304034,1.456279,6.217741,0,True,False,False,False
1,4.0,60,1500,10,2.0,7.0,80,2,0,0,...,7.66353,2.807236,4.963687,1.292952,5.067577,0,True,False,False,False
2,19.0,45,5130,10,6.0,10.0,60,2,10,0,...,6.348239,3.039507,5.095053,2.11649,6.861625,1,True,False,True,False
3,40.0,90,28800,5,10.0,4.0,90,2,0,0,...,6.534219,2.143945,4.797655,1.011723,7.419499,1,True,False,False,False
4,40.0,90,28800,5,4.0,10.0,90,2,0,0,...,6.239545,1.784855,4.932518,1.336566,7.013534,0,True,False,True,False


# Entrenamiento del modelo base: 

* Preparación de los datos y entrenamiento inicial

Antes del entrenamiento se realizan varios pasos clave:

* Validación de tipos de datos
Se verifica que no queden columnas con tipo `object`, lo que podría indicar errores de codificación o valores no numéricos. En caso contrario, el código lanza una advertencia con el nombre de las columnas problemáticas.

* Separación de variables predictoras y objetivo
La variable objetivo es `pcr_binary`, mientras que el resto de columnas se consideran características (`X`).

* *División del dataset
Se realiza una división estratificada en conjuntos de entrenamiento y prueba (80/20), manteniendo la proporción de clases.

* Escalado
Las variables se escalan con `StandardScaler`, exclusivamente para la regresión logística, que es sensible a la escala.

* Función de evaluación
Se define una función que entrena un modelo, predice resultados y calcula las métricas de rendimiento: accuracy, F1-score, ROC AUC y el informe de clasificación.

* Entrenamiento de modelos base
Se entrenan y evalúan tres modelos:
- Regresión logística (usando datos escalados),
- Árbol de decisión (datos originales),
- XGBoost (datos originales).

Esto permite establecer un primer punto de comparación de rendimiento entre distintos algoritmos.

In [4]:
# --- asegurarse de que no quedan columnas tipo string ---
non_numeric_cols = df.select_dtypes(include=["object"]).columns.tolist()
assert len(non_numeric_cols) == 0, f"⚠️ columnas no numéricas restantes: {non_numeric_cols}"

# --- separar features y target ---
X = df.drop(columns=["pcr_binary"])
y = df["pcr_binary"]

# --- train/test split ---
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, test_size=0.2, random_state=42)

# --- escalado para regresión logística ---
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# --- función de evaluación ---
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score, classification_report

def evaluar_modelo(nombre, modelo, X_tr, X_te):
    modelo.fit(X_tr, y_train)
    y_pred = modelo.predict(X_te)
    y_proba = modelo.predict_proba(X_te)[:, 1] if hasattr(modelo, "predict_proba") else y_pred

    print(f"\n🔍 {nombre}")
    print(f"Accuracy: {accuracy_score(y_test, y_pred):.3f}")
    print(f"F1-score: {f1_score(y_test, y_pred):.3f}")
    print(f"ROC AUC:  {roc_auc_score(y_test, y_proba):.3f}")
    print(classification_report(y_test, y_pred, digits=3))

# --- entrenar y evaluar modelos ---
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from xgboost import XGBClassifier

# regresión logística (usa datos escalados)
evaluar_modelo(
    "Regresión Logística",
    LogisticRegression(max_iter=1000, class_weight="balanced", random_state=42),
    X_train_scaled,
    X_test_scaled
)

# árbol de decisión y xgboost (no necesitan escalado)
evaluar_modelo(
    "Árbol de Decisión",
    DecisionTreeClassifier(max_depth=5, class_weight="balanced", random_state=42),
    X_train,
    X_test
)

evaluar_modelo(
    "XGBoost",
    XGBClassifier(use_label_encoder=False, eval_metric="logloss", random_state=42),
    X_train,
    X_test
)

# --- regresión logística (usa datos escalados) ---
logreg_model = LogisticRegression(max_iter=1000, class_weight="balanced", random_state=42)
evaluar_modelo("Regresión Logística", logreg_model, X_train_scaled, X_test_scaled)


🔍 Regresión Logística
Accuracy: 0.968
F1-score: 0.952
ROC AUC:  0.995
              precision    recall  f1-score   support

           0      1.000     0.952     0.976        21
           1      0.909     1.000     0.952        10

    accuracy                          0.968        31
   macro avg      0.955     0.976     0.964        31
weighted avg      0.971     0.968     0.968        31


🔍 Árbol de Decisión
Accuracy: 0.645
F1-score: 0.476
ROC AUC:  0.607
              precision    recall  f1-score   support

           0      0.750     0.714     0.732        21
           1      0.455     0.500     0.476        10

    accuracy                          0.645        31
   macro avg      0.602     0.607     0.604        31
weighted avg      0.655     0.645     0.649        31


🔍 XGBoost
Accuracy: 0.742
F1-score: 0.500
ROC AUC:  0.733
              precision    recall  f1-score   support

           0      0.760     0.905     0.826        21
           1      0.667     0.400     

## Evaluación inicial de modelos

Se compararon tres algoritmos usando las métricas estándar de clasificación sobre el conjunto de prueba (20% de los datos).

Regresión Logística:
- Accuracy: 0.968  
- F1-score: 0.952  
- ROC AUC: 0.995  
- Excelente rendimiento general. Detecta todos los casos positivos (`recall = 1.0`) y comete pocos falsos positivos.

Árbol de Decisión:
- Accuracy: 0.645  
- F1-score: 0.476  
- ROC AUC: 0.607  
- Menor rendimiento, especialmente en la clase positiva (pCR), con un `recall` del 50%. Esto puede deberse a la limitada profundidad del árbol.

XGBoost:
- Accuracy: 0.742  
- F1-score: 0.500  
- ROC AUC: 0.733  
- Mejor que el árbol, aunque el modelo aún muestra dificultades para detectar correctamente los casos positivos (`recall = 0.4`).

La regresión logística obtiene el mejor rendimiento en esta fase, aunque puede estar sobreajustando debido al bajo número de muestras. Esto se revisará en análisis posteriores.

## Optimización de modelos con RandomizedSearchCV

Con el fin de mejorar el rendimiento predictivo, se aplicó una búsqueda aleatoria sobre espacios definidos de hiperparámetros mediante `RandomizedSearchCV`. Esta técnica permite identificar combinaciones de parámetros que optimicen la métrica F1 utilizando validación cruzada.

### Árbol de Decisión
Se ajustaron los siguientes hiperparámetros:
- `max_depth`: profundidad máxima permitida del árbol.
- `min_samples_split`: número mínimo de muestras necesarias para dividir un nodo.
- `min_samples_leaf`: número mínimo de muestras que debe contener una hoja.
- `criterion`: función utilizada para medir la calidad de la partición (`gini` o `entropy`).

### XGBoost
Se exploraron diferentes configuraciones de:
- `n_estimators`: número total de árboles a entrenar.
- `max_depth`: profundidad máxima de cada árbol.
- `learning_rate`: paso de actualización de los pesos.
- `subsample`: proporción de muestras utilizadas para entrenar cada árbol.
- `colsample_bytree`: fracción de variables seleccionadas para cada árbol.
- `scale_pos_weight`: parámetro útil para tratar el desbalanceo entre clases.

### Regresión Logística
También se optimizó este modelo ajustando:
- `C`: inverso de la regularización (mayores valores implican menor penalización).
- `penalty`: tipo de regularización (`l1`, `l2`, `elasticnet`).
- `solver`: algoritmo de optimización (`saga`).
- `l1_ratio`: proporción de mezcla entre `l1` y `l2` (solo si se usa `elasticnet`).

Una vez identificados los mejores modelos, estos se evaluaron sobre el conjunto de prueba mediante la función `evaluar_modelo`.

Esta etapa permite encontrar configuraciones adecuadas que equilibran rendimiento y generalización, reduciendo así el riesgo de sobreajuste.

In [6]:
from sklearn.model_selection import RandomizedSearchCV
from sklearn.tree import DecisionTreeClassifier
from xgboost import XGBClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.exceptions import ConvergenceWarning
from scipy.stats import randint, uniform, loguniform
import warnings

# ignorar advertencias innecesarias
warnings.filterwarnings("ignore", category=UserWarning)
warnings.filterwarnings("ignore", category=FutureWarning)
warnings.filterwarnings("ignore", category=ConvergenceWarning)

# --- espacio de búsqueda para árbol de decisión ---
param_dist_tree = {
    "max_depth": randint(3, 20),
    "min_samples_split": randint(2, 20),
    "min_samples_leaf": randint(1, 10),
    "criterion": ["gini", "entropy"]
}

# --- espacio de búsqueda para XGBoost ---
param_dist_xgb = {
    "n_estimators": randint(50, 300),
    "max_depth": randint(3, 15),
    "learning_rate": uniform(0.01, 0.3),
    "subsample": uniform(0.5, 0.5),
    "colsample_bytree": uniform(0.5, 0.5),
    "scale_pos_weight": [1, 2, 3]
}

# --- espacio de búsqueda para regresión logística ---
param_dist_logreg = {
    "penalty": ["elasticnet"],
    "C": loguniform(1e-3, 1e2),
    "l1_ratio": [0.0, 0.25, 0.5, 0.75, 1.0],
    "solver": ["saga"],
    "max_iter": [5000],
    "class_weight": ["balanced"],
    "random_state": [42]
}

# --- búsqueda aleatoria: árbol de decisión ---
tree_base = DecisionTreeClassifier(class_weight="balanced", random_state=42)
search_tree = RandomizedSearchCV(
    estimator=tree_base,
    param_distributions=param_dist_tree,
    n_iter=30,
    cv=5,
    scoring="f1",
    random_state=42,
    n_jobs=-1
)
search_tree.fit(X_train, y_train)

# --- búsqueda aleatoria: XGBoost ---
xgb_base = XGBClassifier(eval_metric="logloss", random_state=42)
search_xgb = RandomizedSearchCV(
    estimator=xgb_base,
    param_distributions=param_dist_xgb,
    n_iter=30,
    cv=5,
    scoring="f1",
    random_state=42,
    n_jobs=-1
)
search_xgb.fit(X_train, y_train)

# --- búsqueda aleatoria: regresión logística ---
logreg_base = LogisticRegression()
search_logreg = RandomizedSearchCV(
    estimator=logreg_base,
    param_distributions=param_dist_logreg,
    n_iter=30,
    cv=5,
    scoring="f1",
    random_state=42,
    n_jobs=-1
)
search_logreg.fit(X_train_scaled, y_train)

In [9]:
import os
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import (
    accuracy_score, f1_score, roc_auc_score,
    classification_report, roc_curve, auc,
    confusion_matrix, ConfusionMatrixDisplay
)

# --- directorio de salida ---
plot_dir = "/Users/user/Desktop/breast_cancer_fr/plots/evaluacion_modelos"
os.makedirs(plot_dir, exist_ok=True)

# --- diccionario para almacenar resultados ---
resultados = {}

# --- modelos optimizados ---
modelos = {
    "Regresión Logística": (search_logreg.best_estimator_, X_test_scaled),
    "Árbol de Decisión": (search_tree.best_estimator_, X_test),
    "XGBoost": (search_xgb.best_estimator_, X_test)
}

# --- evaluación, métricas y curvas ROC ---
plt.figure(figsize=(8, 6))

for nombre, (modelo, X_te) in modelos.items():
    y_pred = modelo.predict(X_te)
    y_proba = modelo.predict_proba(X_te)[:, 1]

    # almacenar métricas
    resultados[nombre] = {
        "Accuracy": accuracy_score(y_test, y_pred),
        "F1": f1_score(y_test, y_pred),
        "ROC AUC": roc_auc_score(y_test, y_proba),
        "Clasificación": classification_report(y_test, y_pred, digits=3)
    }

    # imprimir
    print(f"\n {nombre}")
    print(f"Accuracy: {resultados[nombre]['Accuracy']:.3f}")
    print(f"F1-score: {resultados[nombre]['F1']:.3f}")
    print(f"ROC AUC:  {resultados[nombre]['ROC AUC']:.3f}")
    print(resultados[nombre]["Clasificación"])

    # curvas ROC
    fpr, tpr, _ = roc_curve(y_test, y_proba)
    plt.plot(fpr, tpr, label=f"{nombre} (AUC = {auc(fpr, tpr):.3f})")

# --- finalizar gráfica ROC ---
plt.plot([0, 1], [0, 1], "k--")
plt.xlabel("Tasa de Falsos Positivos (FPR)")
plt.ylabel("Tasa de Verdaderos Positivos (TPR)")
plt.title("Curvas ROC - Modelos Optimzados")
plt.legend(loc="lower right")
plt.tight_layout()
plt.savefig(os.path.join(plot_dir, "roc_curves.png"), dpi=300)
plt.close()

# --- matrices de confusión ---
fig, axs = plt.subplots(1, 3, figsize=(18, 5))

for ax, (nombre, (modelo, X_te)) in zip(axs, modelos.items()):
    y_pred = modelo.predict(X_te)
    cm = confusion_matrix(y_test, y_pred)
    disp = ConfusionMatrixDisplay(confusion_matrix=cm)
    disp.plot(ax=ax, colorbar=False)
    ax.set_title(f"Matriz de Confusión - {nombre}")
    ax.set_xlabel("Predicción")
    ax.set_ylabel("Real")

plt.tight_layout()
plt.savefig(os.path.join(plot_dir, "confusion_matrices.png"), dpi=300)
plt.close()


 Regresión Logística
Accuracy: 0.903
F1-score: 0.870
ROC AUC:  1.000
              precision    recall  f1-score   support

           0      1.000     0.857     0.923        21
           1      0.769     1.000     0.870        10

    accuracy                          0.903        31
   macro avg      0.885     0.929     0.896        31
weighted avg      0.926     0.903     0.906        31


 Árbol de Decisión
Accuracy: 0.710
F1-score: 0.609
ROC AUC:  0.679
              precision    recall  f1-score   support

           0      0.833     0.714     0.769        21
           1      0.538     0.700     0.609        10

    accuracy                          0.710        31
   macro avg      0.686     0.707     0.689        31
weighted avg      0.738     0.710     0.717        31


 XGBoost
Accuracy: 0.806
F1-score: 0.700
ROC AUC:  0.848
              precision    recall  f1-score   support

           0      0.857     0.857     0.857        21
           1      0.700     0.700     0.7

## Evaluación comparativa de modelos optimizados

Se entrenaron y optimizaron tres modelos de clasificación utilizando `RandomizedSearchCV`: regresión logística, árbol de decisión y XGBoost. Para cada modelo, se seleccionaron combinaciones de hiperparámetros que maximizan la métrica F1 a través de validación cruzada. Posteriormente, los modelos se evaluaron sobre el conjunto de test utilizando métricas estándar: accuracy, F1-score, AUC-ROC, así como visualización de matrices de confusión y curvas ROC.

### Resultados

- **Regresión Logística** obtuvo el mejor rendimiento global, con un AUC de 1.000 y F1-score de 0.870. Presenta un buen equilibrio entre sensibilidad y precisión, aunque es posible que esté ligeramente sobreajustada dado el tamaño de muestra reducido.

- **Árbol de Decisión** mostró un desempeño más limitado (F1 = 0.609, AUC = 0.679). El modelo es más interpretable, pero tiende a sobreajustarse o no capturar relaciones complejas si no se ajustan correctamente sus parámetros.

- **XGBoost** alcanzó un rendimiento intermedio con F1-score de 0.700 y AUC de 0.848. Se trata de un modelo robusto frente a relaciones no lineales y variables ruidosas.

Las curvas ROC reflejan claramente la separación de clases conseguida por cada modelo, mientras que las matrices de confusión permiten visualizar los aciertos y errores por clase.

Los resultados sugieren que, a pesar de su complejidad, XGBoost ofrece un buen equilibrio rendimiento/robustez, mientras que la regresión logística logra métricas más altas pero podría beneficiarse de validación cruzada adicional para confirmar su estabilidad.

In [10]:
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import cross_val_score
import numpy as np
import os

# Crear directorio de salida
plot_dir = "/Users/user/Desktop/breast_cancer_fr/plots/validacion_cruzada"
os.makedirs(plot_dir, exist_ok=True)

# Modelos optimizados
modelos_cv = {
    "Regresión Logística": (search_logreg.best_estimator_, X_train_scaled),
    "Árbol de Decisión": (search_tree.best_estimator_, X_train),
    "XGBoost": (search_xgb.best_estimator_, X_train)
}

# Evaluación con validación cruzada
cv_resultados = {}
for nombre, (modelo, X_data) in modelos_cv.items():
    scores = cross_val_score(modelo, X_data, y_train, cv=5, scoring="f1")
    cv_resultados[nombre] = scores

# Convertir resultados a DataFrame para visualización
import pandas as pd
cv_df = pd.DataFrame([(modelo, score) for modelo, scores in cv_resultados.items() for score in scores],
                     columns=["Modelo", "F1 Score"])

# Graficar
plt.figure(figsize=(8, 6))
sns.boxplot(x="Modelo", y="F1 Score", data=cv_df, palette="pastel")
plt.title("F1 Score por Modelo - Validación Cruzada (5-fold)")
plt.ylabel("F1 Score")
plt.xlabel("")
plt.tight_layout()
plt.savefig(os.path.join(plot_dir, "validacion_cruzada_boxplot.png"), dpi=300)
plt.close()

cv_df


Unnamed: 0,Modelo,F1 Score
0,Regresión Logística,0.857143
1,Regresión Logística,1.0
2,Regresión Logística,1.0
3,Regresión Logística,0.888889
4,Regresión Logística,0.842105
5,Árbol de Decisión,0.625
6,Árbol de Decisión,0.636364
7,Árbol de Decisión,0.588235
8,Árbol de Decisión,0.608696
9,Árbol de Decisión,0.444444


## Validación cruzada de modelos

Con el objetivo de obtener una estimación más robusta del rendimiento de los modelos y reducir la dependencia del conjunto de test, se aplicó validación cruzada estratificada con 5 particiones (`StratifiedKFold` con `n_splits=5`) para los tres modelos entrenados:

- Regresión Logística
- Árbol de Decisión
- XGBoost

La métrica utilizada fue el **F1-score**, que combina precisión y exhaustividad, especialmente útil en contextos con cierto grado de desbalance de clases.

A continuación, se representa la distribución de F1-scores obtenidos en las cinco particiones mediante un gráfico de cajas (*boxplot*). Esta visualización permite comparar la mediana, la dispersión y los valores atípicos del rendimiento de cada modelo.

La regresión logística muestra un rendimiento más alto y estable, seguida de XGBoost. El árbol de decisión presenta más variabilidad y menor puntuación media, lo que puede indicar sobreajuste en determinadas particiones o menor capacidad predictiva en este caso.

La figura fue guardada como:

`validacion_cruzada_boxplot.png`

# Shap Values

Vamos a escoger la feature importance de la regresion logistica y de xgboost, que son los modelos ganadores para comparar. 

In [None]:
import shap
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import os

# --- directorio para guardar los plots ---
shap_dir = "/Users/user/Desktop/breast_cancer_fr/plots/shap_values"
os.makedirs(shap_dir, exist_ok=True)

# --- 1. regresión logística: usar dataframe escalado con nombres ---
X_test_scaled_df = pd.DataFrame(X_test_scaled, columns=X.columns)

explainer_log = shap.Explainer(search_logreg.best_estimator_, X_train_scaled)
shap_values_log = explainer_log(X_test_scaled_df)

plt.figure()
shap.summary_plot(shap_values_log, X_test_scaled_df, feature_names=X.columns, show=False)
plt.title("Regresión Logística - SHAP Summary Plot")
plt.tight_layout()
plt.savefig(os.path.join(shap_dir, "shap_logistic_regression.png"), dpi=300)
plt.close()

# --- 2. xgboost: usar TreeExplainer ---
explainer_xgb = shap.TreeExplainer(search_xgb.best_estimator_)
shap_values_xgb = explainer_xgb.shap_values(X_test)

plt.figure()
shap.summary_plot(shap_values_xgb, X_test, feature_names=X.columns, show=False)
plt.title("XGBoost - SHAP Summary Plot")
plt.tight_layout()
plt.savefig(os.path.join(shap_dir, "shap_xgboost.png"), dpi=300)
plt.close()

In [19]:
# --- top features regresión logística ---
mean_abs_shap_log = np.abs(shap_values_log.values).mean(axis=0)
top_idx_log = np.argsort(mean_abs_shap_log)[::-1][:20]
top_features_log = X_test_scaled_df.columns[top_idx_log].tolist()
print("Top 20 features (Regresión Logística):")
print(top_features_log)

# --- top features xgboost ---
mean_abs_shap_xgb = np.abs(shap_values_xgb).mean(axis=0)
top_idx_xgb = np.argsort(mean_abs_shap_xgb)[::-1][:20]
top_features_xgb = X_test.columns[top_idx_xgb].tolist()
print("\nTop 20 features (XGBoost):")
print(top_features_xgb)

Top 20 features (Regresión Logística):
['200773_x_at', '204080_at', '234108_at', '1566507_a_at', '223381_at', '1562638_at', '228529_at', '218644_at', '203659_s_at', '237435_at', '220241_at', '232417_x_at', '241300_at', '1552789_at', '235246_at', '241918_at', '1558760_at', '230987_at', '229964_at', '203155_at']

Top 20 features (XGBoost):
['233636_at', '1562638_at', '214631_at', '239407_at', '200773_x_at', '1566507_a_at', '234108_at', '213709_at', '215036_at', '237435_at', '211899_s_at', '228529_at', '201395_at', '242161_at', '220241_at', '235245_at', '228391_at', '230987_at', '228641_at', '232417_x_at']


In [20]:
import GEOparse
import pandas as pd

# cargar la plataforma y su tabla de anotación
gse = GEOparse.get_GEO("GSE50948", destdir=".")
platform = gse.gpls["GPL570"]
annotation_table = platform.table

# lista de top features de shap
top_features_log = [
    '200773_x_at', '204080_at', '234108_at', '1566507_a_at', '223381_at',
    '1562638_at', '228529_at', '218644_at', '203659_s_at', '237435_at',
    '220241_at', '232417_x_at', '241300_at', '1552789_at', '235246_at',
    '241918_at', '1558760_at', '230987_at', '229964_at', '203155_at'
]

top_features_xgb = [
    '233636_at', '1562638_at', '214631_at', '239407_at', '200773_x_at',
    '1566507_a_at', '234108_at', '213709_at', '215036_at', '237435_at',
    '211899_s_at', '228529_at', '201395_at', '242161_at', '220241_at',
    '235245_at', '228391_at', '230987_at', '228641_at', '232417_x_at'
]

# combinamos ambas listas y eliminamos duplicados
genes_totales = list(set(top_features_log + top_features_xgb))

# anotamos
genes_anotados = annotation_table[annotation_table["ID"].isin(genes_totales)][
    ["ID", "Gene Symbol", "Gene Title"]
]

# mostrar anotaciones
import IPython.display as d
d.display(genes_anotados.sort_values("ID"))

13-May-2025 00:07:17 DEBUG utils - Directory . already exists. Skipping.
13-May-2025 00:07:17 INFO GEOparse - File already exist: using local version.
13-May-2025 00:07:17 INFO GEOparse - Parsing ./GSE50948_family.soft.gz: 
13-May-2025 00:07:17 DEBUG GEOparse - DATABASE: GeoMiame
13-May-2025 00:07:17 DEBUG GEOparse - SERIES: GSE50948
13-May-2025 00:07:17 DEBUG GEOparse - PLATFORM: GPL570
  return read_csv(StringIO(data), index_col=None, sep="\t")
13-May-2025 00:07:18 DEBUG GEOparse - SAMPLE: GSM1232992
13-May-2025 00:07:18 DEBUG GEOparse - SAMPLE: GSM1232993
13-May-2025 00:07:18 DEBUG GEOparse - SAMPLE: GSM1232994
13-May-2025 00:07:18 DEBUG GEOparse - SAMPLE: GSM1232995
13-May-2025 00:07:18 DEBUG GEOparse - SAMPLE: GSM1232996
13-May-2025 00:07:19 DEBUG GEOparse - SAMPLE: GSM1232997
13-May-2025 00:07:19 DEBUG GEOparse - SAMPLE: GSM1232998
13-May-2025 00:07:19 DEBUG GEOparse - SAMPLE: GSM1232999
13-May-2025 00:07:19 DEBUG GEOparse - SAMPLE: GSM1233000
13-May-2025 00:07:19 DEBUG GEOparse 

Unnamed: 0,ID,Gene Symbol,Gene Title
379,1552789_at,SEC62,SEC62 homolog (S. cerevisiae)
4393,1558760_at,,
6714,1562638_at,LOC339874,uncharacterized LOC339874
8312,1566507_a_at,FBXO9,F-box protein 9
10221,200773_x_at,PTMA,"prothymosin, alpha"
10843,201395_at,RBM5,RNA binding motif protein 5
12603,203155_at,SETDB1,"SET domain, bifurcated 1"
13106,203659_s_at,TRIM13,tripartite motif containing 13
13527,204080_at,TOE1,"target of EGR1, member 1 (nuclear)"
21207,211899_s_at,TRAF4,TNF receptor-associated factor 4


In [None]:
# directorio de salida
out_dir = "/Users/user/Desktop/breast_cancer_fr/temp"
os.makedirs(out_dir, exist_ok=True)

# anotaciones regresión logística
genes_log_df = annotation_table[annotation_table["ID"].isin(top_features_log)][
    ["ID", "Gene Symbol", "Gene Title"]
].sort_values("ID")
genes_log_df.to_csv(os.path.join(out_dir, "top_genes_logistic_regression.csv"), index=False)

# anotaciones xgboost
genes_xgb_df = annotation_table[annotation_table["ID"].isin(top_features_xgb)][
    ["ID", "Gene Symbol", "Gene Title"]
].sort_values("ID")
genes_xgb_df.to_csv(os.path.join(out_dir, "top_genes_xgboost.csv"), index=False)

# mostrar ambas tablas
import IPython.display as d
print("Top genes - Regresión Logística:")
d.display(genes_log_df)

print("Top genes - XGBoost:")
d.display(genes_xgb_df)

Top genes - Regresión Logística:


Unnamed: 0,ID,Gene Symbol,Gene Title
379,1552789_at,SEC62,SEC62 homolog (S. cerevisiae)
4393,1558760_at,,
6714,1562638_at,LOC339874,uncharacterized LOC339874
8312,1566507_a_at,FBXO9,F-box protein 9
10221,200773_x_at,PTMA,"prothymosin, alpha"
12603,203155_at,SETDB1,"SET domain, bifurcated 1"
13106,203659_s_at,TRIM13,tripartite motif containing 13
13527,204080_at,TOE1,"target of EGR1, member 1 (nuclear)"
27928,218644_at,PLEK2,pleckstrin 2
29525,220241_at,TMCO3,transmembrane and coiled-coil domains 3


Top genes - XGBoost:


Unnamed: 0,ID,Gene Symbol,Gene Title
6714,1562638_at,LOC339874,uncharacterized LOC339874
8312,1566507_a_at,FBXO9,F-box protein 9
10221,200773_x_at,PTMA,"prothymosin, alpha"
10843,201395_at,RBM5,RNA binding motif protein 5
21207,211899_s_at,TRAF4,TNF receptor-associated factor 4
23009,213709_at,BHLHB9,"basic helix-loop-helix domain containing, clas..."
23929,214631_at,ZBTB33,zinc finger and BTB domain containing 33
24330,215036_at,,
29525,220241_at,TMCO3,transmembrane and coiled-coil domains 3
37645,228391_at,CYP4V2,"cytochrome P450, family 4, subfamily V, polype..."


# OTHERSSS

In [22]:
#guardaremos el modelo optimizado

import joblib
import os
from sklearn.linear_model import LogisticRegression
import joblib
import os

# crear carpeta de salida
model_dir = "/Users/user/Desktop/breast_cancer_fr/models"
os.makedirs(model_dir, exist_ok=True)

# guardar árbol optimizado
joblib.dump(search_tree.best_estimator_, os.path.join(model_dir, "arbol_decision_optimizado.joblib"))

# guardar XGBoost optimizado
joblib.dump(search_xgb.best_estimator_, os.path.join(model_dir, "xgboost_optimizado.joblib"))

print("✅ modelos guardados con éxito.")

# --- entrenar modelo ---
logreg = LogisticRegression(max_iter=1000, class_weight="balanced", random_state=42)
logreg.fit(X_train_scaled, y_train)

# --- guardar regresion logistica y scaler ---
joblib.dump(logreg, os.path.join(model_dir, "logistic_regression.joblib"))
joblib.dump(scaler, os.path.join(model_dir, "scaler_logistic_regression.joblib"))

print("✅ regresión logística y scaler guardados con éxito.")

# --- cargar modelos ---
arbol = joblib.load("/Users/user/Desktop/breast_cancer_fr/models/arbol_decision_optimizado.joblib")
xgb = joblib.load("/Users/user/Desktop/breast_cancer_fr/models/xgboost_optimizado.joblib")

# cargar logreg y scaler
logreg = joblib.load("/Users/user/Desktop/breast_cancer_fr/models/logistic_regression.joblib")
scaler = joblib.load("/Users/user/Desktop/breast_cancer_fr/models/scaler_logistic_regression.joblib")

✅ modelos guardados con éxito.
✅ regresión logística y scaler guardados con éxito.
