In [1]:
from itertools import product

import sys
import os

# Ruta absoluta a la carpeta ra√≠z (donde est√° la carpeta "scripts")
root_path = os.path.abspath(os.path.join(os.getcwd(), '..'))  # Sub√≠s un nivel
sys.path.append(root_path)

param_grid = {
    'k_neighbors': [3, 5, 7],
    'radio_densidad': [0.8, 1.0, 1.2],
    'percentil_dist': [50, 75, 90]
}


In [2]:
import sys
import os
sys.path.append(os.path.abspath(os.path.join(os.getcwd(), '..')))  # Ajuste de ruta si est√°s dentro de notebooks/

from datasets.config_datasets import config_datasets
from datasets.cargar_dataset import cargar_dataset

for nombre, cfg in config_datasets.items():
    print(f"\nüîç Procesando dataset: {nombre}")
    try:
        X, y_bin = cargar_dataset(
            path=cfg['path'],
            clase_minoria=cfg['clase_minoria'],
            col_features=cfg['col_features'],
            col_target=cfg['col_target'],
            sep=cfg['sep'],
            header=cfg['header']
        )
        print(f"‚úÖ Dataset {nombre} cargado correctamente.")
        print(f"üî¥ Instancias minoritarias: {sum(y_bin==1)}")
        print(f"‚ö™ Instancias mayoritarias: {sum(y_bin==0)}")

        # Aqu√≠ llam√°s a tu funci√≥n PC-SMOTE con X, y_bin
        # Ejemplo:
        # X_res, y_res = aplicar_pc_smote(X, y_bin, **params)

    except Exception as e:
        print(f"‚ùå Error al procesar {nombre}: {e}")



üîç Procesando dataset: ecoli
‚úÖ Dataset ecoli cargado correctamente.
üî¥ Instancias minoritarias: 2
‚ö™ Instancias mayoritarias: 334

üîç Procesando dataset: wdbc
‚úÖ Dataset wdbc cargado correctamente.
üî¥ Instancias minoritarias: 212
‚ö™ Instancias mayoritarias: 357

üîç Procesando dataset: glass
‚úÖ Dataset glass cargado correctamente.
üî¥ Instancias minoritarias: 9
‚ö™ Instancias mayoritarias: 205

üîç Procesando dataset: heart
‚úÖ Dataset heart cargado correctamente.
üî¥ Instancias minoritarias: 54
‚ö™ Instancias mayoritarias: 243


In [3]:
from scripts.evaluacion import evaluar_sampler_holdout
from scripts.pc_smote import PCSMOTE
from datasets.config_datasets import config_datasets
from datasets.cargar_dataset import cargar_dataset
import pandas as pd
import numpy as np

# Grilla de hiperpar√°metros a evaluar
param_grid = [
    (k, radio, p_dist)
    for k in [3, 5, 7]
    for radio in [0.5, 1.0, 1.5]
    for p_dist in [50, 75, 90]
]

resultados = []

# Iterar por cada dataset definido
for nombre_dataset, config in config_datasets.items():
    print(f"\nüìä Evaluando dataset: {nombre_dataset.upper()}")

    # Cargar datos
    try:
        X, y_bin = cargar_dataset(
            path=config["path"],
            clase_minoria=config["clase_minoria"],
            col_features=config["col_features"],
            col_target=config["col_target"],
            sep=config.get("sep", ","),
            header=config.get("header", "infer")
        )
    except Exception as e:
        print(f"‚ùå Error al cargar dataset {nombre_dataset}: {e}")
        continue

    if len(X) == 0 or len(y_bin) == 0:
        print(f"‚ö†Ô∏è Dataset vac√≠o: {nombre_dataset}. Saltando...")
        continue

    total_minorias = np.sum(y_bin == 1)
    if total_minorias < 3:
        print(f"‚ö†Ô∏è Muy pocas muestras minoritarias ({total_minorias}). Saltando dataset.")
        continue

    # Evaluar combinaciones de par√°metros
    for k, radio, p_dist in param_grid:
        # Verificar si habr√° suficientes minoritarias en el train
        n_minorias_train_estimado = int(total_minorias * 0.7)
        if n_minorias_train_estimado <= k:
            print(f"‚è≠Ô∏è  Saltando combinaci√≥n k={k} ‚Üí muy pocas minoritarias en el train ({n_minorias_train_estimado})")
            continue

        print(f"\nüîç Evaluando combinaci√≥n: k={k}, radio={radio}, percentil_dist={p_dist}")

        try:
            # Instanciar sampler manualmente para poder acceder al atributo synthetic_count
            sampler = PCSMOTE(
                k_neighbors=k,
                radio_densidad=radio,
                percentil_dist=p_dist,
                random_state=42,  # o None
                verbose=False
            )

            # Hacer un fit_resample para contar muestras sint√©ticas generadas
            _, _ = sampler.fit_resample(X, y_bin)
            n_sinteticas = sampler.synthetic_count

            # Evaluar el sampler con esa configuraci√≥n
            metricas = evaluar_sampler_holdout(
                nombre="PC-SMOTE",
                sampler_class=PCSMOTE,
                X=X,
                y_bin=y_bin,
                n_iter=5,
                k_neighbors=k,
                radio_densidad=radio,
                percentil_dist=p_dist
            )

            resultados.append({
                "dataset": nombre_dataset,
                "k": k,
                "radio": radio,
                "percentil_dist": p_dist,
                "synthetic_count": n_sinteticas,  
                **metricas
            })
        except Exception as e:
            print(f"‚ùå Error durante evaluaci√≥n de k={k}, radio={radio}, dist={p_dist}: {e}")
            continue

# Consolidar resultados
df_resultados = pd.DataFrame(resultados)
df_resultados = df_resultados.sort_values(by=["dataset", "mean_f1"], ascending=[True, False])
df_resultados.reset_index(drop=True, inplace=True)

df_resultados.to_csv("../resultados/resultado13072025.txt", sep="\t", index=False)
# print("\n‚úÖ Columnas disponibles:", df_resultados.columns.tolist())
# df_resultados.head()



üìä Evaluando dataset: ECOLI
‚ö†Ô∏è Muy pocas muestras minoritarias (2). Saltando dataset.

üìä Evaluando dataset: WDBC

üîç Evaluando combinaci√≥n: k=3, radio=0.5, percentil_dist=50
üìå Total muestras minoritarias: 148
üìå Total muestras mayoritarias: 250
üìä Riesgo - media: 0.1374 | min: 0.0000 | max: 1.0000
üìä Densidad - media: 0.0000 | p25: 0.0000 | p50: 0.0000 | p75: 0.0000
üìà Ejemplo de primeros 10 valores de riesgo: [0.    0.    0.667 0.    0.    0.    0.    0.    1.    0.   ]
üìà Ejemplo de primeros 10 valores de densidad: [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
üîé Muestras con riesgo ‚àà [0.4, 0.6]: 0 de 148
üîé Muestras con densidad > 0: 0 de 148
‚úÖ Muestras seleccionadas para sobremuestreo (intersecci√≥n): 0
‚ùå Muestras descartadas (ruido o baja densidad): 148
‚ö†Ô∏è No se encontraron muestras v√°lidas para sobremuestreo. Devolviendo conjunto original.
üìå Total muestras minoritarias: 148
üìå Total muestras mayoritarias: 250
üìä Riesgo - media: 0.1306 | min: 0.00

## OBJETIVO DEL BLOQUE
Comparar clasificadores (XGBoost, RandomForest, etc.) usando tu t√©cnica PC-SMOTE sobre todos los datasets definidos en config_datasets. Para cada combinaci√≥n dataset + clasificador, se evaluar√° el rendimiento y se almacenar√°n las m√©tricas clave.

In [4]:
from scripts.pc_smote import PCSMOTE
from scripts.evaluacion import evaluar_sampler_holdout
from datasets.cargar_dataset import cargar_dataset
from datasets.config_datasets import config_datasets
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neural_network import MLPClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from xgboost import XGBClassifier
import pandas as pd
import numpy as np

# Par√°metros fijos de PC-SMOTE
pcsmote_params = {
    "k_neighbors": 3,
    "radio_densidad": 0.5,
    "percentil_dist": 75
}

# Clasificadores a evaluar
clasificadores = {
    "RandomForest": RandomForestClassifier(random_state=42),
    "XGBoost": XGBClassifier(use_label_encoder=False, eval_metric='logloss', random_state=42),
    "SVM": SVC(probability=True, random_state=42),
    "LogisticRegression": LogisticRegression(max_iter=1000, random_state=42),
    "MLP": MLPClassifier(max_iter=1000, random_state=42),
    "kNN": KNeighborsClassifier()
}

resultados = []

# Iterar por datasets
for nombre_dataset, config in config_datasets.items():
    print(f"\nüìÇ Evaluando dataset: {nombre_dataset.upper()}")

    # Cargar datos
    try:
        X, y_bin = cargar_dataset(
            path=config["path"],
            clase_minoria=config["clase_minoria"],
            col_features=config["col_features"],
            col_target=config["col_target"],
            sep=config.get("sep", ","),
            header=config.get("header", "infer")
        )
    except Exception as e:
        print(f"‚ùå Error al cargar {nombre_dataset}: {e}")
        continue

    if np.sum(y_bin == 1) < 3:
        print(f"‚ö†Ô∏è Pocas muestras minoritarias en {nombre_dataset}. Saltando...")
        continue

    # Iterar por clasificadores
    for nombre_clasificador, clf in clasificadores.items():
        print(f"\nüîç Clasificador: {nombre_clasificador}")

        try:
            metricas = evaluar_sampler_holdout(
                nombre=nombre_clasificador,
                sampler_class=PCSMOTE,
                X=X,
                y_bin=y_bin,
                n_iter=5,
                classifier=clf,
                **pcsmote_params
            )

            resultados.append({
                "dataset": nombre_dataset,
                "clasificador": nombre_clasificador,
                **pcsmote_params,
                **metricas
            })

        except Exception as e:
            print(f"‚ùå Error en {nombre_clasificador} con {nombre_dataset}: {e}")
            continue

# Consolidar resultados
df_resultados = pd.DataFrame(resultados)
df_resultados = df_resultados.sort_values(by=["dataset", "mean_f1"], ascending=[True, False])
df_resultados.reset_index(drop=True, inplace=True)

# Mostrar resumen
print("\n‚úÖ Clasificadores evaluados sobre m√∫ltiples datasets:")
print(df_resultados[["dataset", "clasificador", "mean_f1", "std_f1", "mean_bal_acc"]].head())



üìÇ Evaluando dataset: ECOLI
‚ö†Ô∏è Pocas muestras minoritarias en ecoli. Saltando...

üìÇ Evaluando dataset: WDBC

üîç Clasificador: RandomForest
‚ùå Error en RandomForest con wdbc: PCSMOTE.__init__() got an unexpected keyword argument 'classifier'

üîç Clasificador: XGBoost
‚ùå Error en XGBoost con wdbc: PCSMOTE.__init__() got an unexpected keyword argument 'classifier'

üîç Clasificador: SVM
‚ùå Error en SVM con wdbc: PCSMOTE.__init__() got an unexpected keyword argument 'classifier'

üîç Clasificador: LogisticRegression
‚ùå Error en LogisticRegression con wdbc: PCSMOTE.__init__() got an unexpected keyword argument 'classifier'

üîç Clasificador: MLP
‚ùå Error en MLP con wdbc: PCSMOTE.__init__() got an unexpected keyword argument 'classifier'

üîç Clasificador: kNN
‚ùå Error en kNN con wdbc: PCSMOTE.__init__() got an unexpected keyword argument 'classifier'

üìÇ Evaluando dataset: GLASS

üîç Clasificador: RandomForest
‚ùå Error en RandomForest con glass: PCSMOTE.__init__(

KeyError: 'dataset'