In [8]:
!pip install optuna --quiet

# üöó Paso 0: Montar Google Drive e importar librer√≠as
from google.colab import drive
drive.mount('/content/drive')

import pandas as pd
import numpy as np
import re
from tqdm.notebook import tqdm

# ‚öôÔ∏è Paso 1: Configuraci√≥n
ruta_entrada = "/content/drive/MyDrive/Datos/8_Base_Funcional_Reducida_RQ.parquet"
ruta_salida = "/content/drive/MyDrive/Datos/9_1EspacioF.parquet"
n_ventana = 5
anio_max = 2023
tama√±o_muestra_optuna_k = 0.10
tama√±o_muestra_optuna_pesos = 0.10
n_trials_optuna_k = 30
n_trials_optuna_pesos = 30
anios_validos = list(range(anio_max - 24, anio_max + 1))  # 25 a√±os hacia atr√°s: 1999‚Äì2023

# üì• Paso 2: Cargar la base funcional original
base = pd.read_parquet(ruta_entrada).drop_duplicates()
print(f"‚úÖ Base cargada: {base.shape}")

# üîç Paso 3: Detectar √∫ltimo a√±o con datos por empresa
columnas_anio = [col for col in base.columns if re.match(r".+_\d{4}$", col)]
df_anios = base[columnas_anio].copy()

ultimos_anios = []
for idx, fila in tqdm(df_anios.iterrows(), total=df_anios.shape[0], desc="üß† Detectando a√±o final por empresa"):
    anios = [int(col.split("_")[-1]) for col in fila.index if pd.notna(fila[col]) and int(col.split("_")[-1]) in anios_validos]
    ultimos_anios.append(max(anios) if anios else None)

serie_ultimos_anios = pd.Series(ultimos_anios, index=base.index)
empresas_validas = base[serie_ultimos_anios.notna()].copy()
serie_ultimos_anios = serie_ultimos_anios.dropna().astype(int)

print(f"‚úÖ Empresas con √∫ltimo a√±o v√°lido: {empresas_validas.shape[0]:,}")

# üß† Paso 4: Crear RQ_final con base en √∫ltimo a√±o disponible
rq_final = []
for idx, fila in empresas_validas.iterrows():
    anio_rq = serie_ultimos_anios.loc[idx]
    col_rq = f"RQ_{anio_rq}"
    rq_valor = fila[col_rq] if col_rq in fila and pd.notna(fila[col_rq]) else np.nan
    rq_final.append(rq_valor)

empresas_validas["RQ_final"] = rq_final
empresas_validas = empresas_validas[empresas_validas["RQ_final"].notna()].copy()
empresas_validas["RQ_final"] = empresas_validas["RQ_final"].astype(int)

print(f"‚úÖ Empresas con RQ_final asignado: {empresas_validas.shape[0]:,}")

# üîÑ Paso 5: Construcci√≥n del espacio funcional con ventanas m√≥viles
columnas_anio = [col for col in empresas_validas.columns if re.match(r".+_\d{4}$", col)]
indicadores = sorted(set(col.split("_")[0] for col in columnas_anio if not col.startswith("RQ")))
columnas_extra = ["DEP", "CIIU_Letra"]  # columnas adicionales que queremos conservar

data_ventanas = []
for idx, fila in tqdm(empresas_validas.iterrows(), total=empresas_validas.shape[0], desc="üîß Construyendo trayectorias funcionales"):
    anio_final = serie_ultimos_anios.loc[idx]
    anios_ventana = list(range(anio_final - n_ventana + 1, anio_final + 1))
    fila_nueva = {
        "NIT": idx,
        "RQ_final": fila["RQ_final"],
        "A√±o_final": anio_final
    }

    # Agregar columnas extra (si est√°n disponibles)
    for col in columnas_extra:
        if col in fila:
            fila_nueva[col] = fila[col]

    # Agregar trayectorias funcionales
    for var in indicadores:
        for i, anio in enumerate(anios_ventana[::-1]):  # de m√°s antiguo (-4) a m√°s reciente (-0)
            col_original = f"{var}_{anio}"
            col_nueva = f"{var}_-{n_ventana - 1 - i}"
            fila_nueva[col_nueva] = fila.get(col_original, np.nan)

    data_ventanas.append(fila_nueva)


# üìä Paso 6: Crear DataFrame final del espacio funcional
espacioF = pd.DataFrame(data_ventanas).set_index("NIT")
print(f"‚úÖ Espacio funcional generado con forma: {espacioF.shape}")

# üíæ Paso 7: Guardar base funcional con ventanas m√≥viles
espacioF.to_parquet(ruta_salida)
print(f"üíæ Base guardada en: {ruta_salida}")


# üßΩ Limpiar y filtrar
df = espacioF.copy()
df = df[df["RQ_final"].notna()].copy()


# üìä Seleccionar columnas funcionales
columnas_funcionales = [col for col in df.columns if re.match(r".+_-\d$", col)]
indicadores = sorted(set(col.split("_")[0] for col in columnas_funcionales))

# --------------------------------------------------
# üß† Paso 1: Optimizaci√≥n de k y lambda con Optuna
# --------------------------------------------------
import optuna
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import f1_score
from tqdm.notebook import tqdm

muestra_k = df.sample(frac=tama√±o_muestra_optuna_k, random_state=123)
X_k = muestra_k[columnas_funcionales].copy()
y_k = muestra_k["RQ_final"].copy()

def distancia_funcional(f1, f2, lambda_p, n=n_ventana):
    total = 0
    for var in indicadores:
        v1 = [f1.get(f"{var}_-{i}", np.nan) for i in range(n)]
        v2 = [f2.get(f"{var}_-{i}", np.nan) for i in range(n)]

        l1 = 0
        validos = 0
        for a, b in zip(v1, v2):
            if pd.notna(a) and pd.notna(b):
                if np.isinf(a) and np.isinf(b) and a == b:
                    l1 += 0  # inf vs inf del mismo signo
                elif np.isinf(a) or np.isinf(b):
                    l1 += np.inf
                else:
                    l1 += abs(a - b)
                validos += 1

        faltantes = n - validos
        if validos > 0:
            penalizada = l1 * (1 + lambda_p * (faltantes / n))
            acotada = penalizada / (1 + penalizada) if np.isfinite(penalizada) else 1.0
        else:
            acotada = 1.0

        total += acotada

    return total / len(indicadores)


def objective(trial):
    k = trial.suggest_int("k", 3, 15)
    lambda_p = trial.suggest_float("lambda", 0.1, 5.0)
    skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
    f1s = []

    for train_idx, test_idx in tqdm(skf.split(X_k, y_k), total=5, desc="‚Ü™ Validaci√≥n cruzada (k, Œª)", leave=False):
        X_train, X_test = X_k.iloc[train_idx], X_k.iloc[test_idx]
        y_train, y_test = y_k.iloc[train_idx], y_k.iloc[test_idx]

        preds = []
        for i, fila_test in X_test.iterrows():
            dists = [(distancia_funcional(fila_test, X_train.iloc[j], lambda_p), y_train.iloc[j])
                     for j in range(len(X_train))]
            vecinos = sorted(dists, key=lambda x: x[0])[:k]
            pred = round(np.mean([v[1] for v in vecinos]))
            preds.append(pred)

        f1s.append(f1_score(y_test, preds))

    return np.mean(f1s)


print("üîß Optimizando k y lambda con Optuna...")

import logging
optuna.logging.set_verbosity(optuna.logging.WARNING)

study_k = optuna.create_study(direction="maximize", sampler=optuna.samplers.TPESampler(seed=42))
for _ in tqdm(range(n_trials_optuna_k), desc="üîç Buscando k y Œª"):
    study_k.optimize(objective, n_trials=1, catch=(Exception,))

k_optimo = study_k.best_params["k"]
lambda_optimo = study_k.best_params["lambda"]
print(f"\n‚úÖ k √≥ptimo: {k_optimo}, Œª √≥ptimo: {lambda_optimo:.4f}, F1-score: {study_k.best_value:.4f}")


# --------------------------------------------------
# ‚öñÔ∏è Paso 2: Optimizaci√≥n de pesos con Optuna
# --------------------------------------------------
muestra_p = df.sample(frac=tama√±o_muestra_optuna_pesos, random_state=222)
X_p = muestra_p[columnas_funcionales].copy()
y_p = muestra_p["RQ_final"].copy()

def distancia_ponderada(f1, f2, lambda_p, n, pesos):
    total, suma_pesos = 0, 0
    for var in indicadores:
        v1 = [f1.get(f"{var}_-{i}", np.nan) for i in range(n)]
        v2 = [f2.get(f"{var}_-{i}", np.nan) for i in range(n)]

        l1, validos = 0, 0
        for a, b in zip(v1, v2):
            if pd.notna(a) and pd.notna(b):
                if np.isinf(a) and np.isinf(b) and a == b:
                    l1 += 0
                elif np.isinf(a) or np.isinf(b):
                    l1 += np.inf
                else:
                    l1 += abs(a - b)
                validos += 1

        faltantes = n - validos
        if validos > 0:
            penalizada = l1 * (1 + lambda_p * (faltantes / n))
            acotada = penalizada / (1 + penalizada) if np.isfinite(penalizada) else 1.0
        else:
            acotada = 1.0

        total += pesos[var] * acotada
        suma_pesos += pesos[var]

    return total / suma_pesos if suma_pesos > 0 else 1.0

def objective_pesos(trial):
    pesos = {var: trial.suggest_float(f"peso_{var}", 0.1, 5.0) for var in indicadores}
    skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
    f1s = []

    for train_idx, test_idx in tqdm(skf.split(X_p, y_p), total=5, desc="‚Ü™ Validaci√≥n cruzada (pesos)", leave=False):
        X_train, X_test = X_p.iloc[train_idx], X_p.iloc[test_idx]
        y_train, y_test = y_p.iloc[train_idx], y_p.iloc[test_idx]

        preds = []
        for i, fila_test in X_test.iterrows():
            dists = [(distancia_ponderada(fila_test, X_train.iloc[j], lambda_optimo, n_ventana, pesos), y_train.iloc[j])
                     for j in range(len(X_train))]
            vecinos = sorted(dists, key=lambda x: x[0])[:k_optimo]
            pred = round(np.mean([v[1] for v in vecinos]))
            preds.append(pred)

        f1s.append(f1_score(y_test, preds))

    return np.mean(f1s)



print("\n‚öñÔ∏è Optimizando pesos con Optuna...")

import logging
optuna.logging.set_verbosity(optuna.logging.WARNING)

study_pesos = optuna.create_study(direction="maximize", sampler=optuna.samplers.TPESampler(seed=42))
for _ in tqdm(range(n_trials_optuna_pesos), desc="üîç Buscando pesos"):
    study_pesos.optimize(objective_pesos, n_trials=1, catch=(Exception,))


# üèÅ Resultados finales
mejores_pesos = {k.replace("peso_", ""): v for k, v in study_pesos.best_params.items()}
top_3 = sorted(mejores_pesos.items(), key=lambda x: -x[1])[:3]

print("\nüèÜ Top 3 indicadores m√°s importantes:")
for var, peso in top_3:
    print(f"üîπ {var}: {peso:.4f}")
print(f"\n‚úÖ F1-score final con pesos √≥ptimos: {study_pesos.best_value:.4f}")

# üíæ Guardar resultados en 9_2ParametrosFuncional.pkl
import pickle

parametros_optimos = {
    "k": k_optimo,
    "lambda": lambda_optimo,
    "pesos": mejores_pesos,
    "top3": top_3
}

with open("/content/drive/MyDrive/Datos/9_2ParametrosFuncional.pkl", "wb") as f:
    pickle.dump(parametros_optimos, f)

print("üìÅ Par√°metros √≥ptimos guardados en: 9_2ParametrosFuncional.pkl")

# üìù Crear resumen de salida
with open("/content/drive/MyDrive/Datos/9_2Resumen.txt", "w") as f:
    f.write("üìÑ Resumen de procesamiento y optimizaci√≥n del modelo funcional\n")
    f.write("=================================================================\n\n")

    f.write("‚úÖ Se construy√≥ el espacio funcional ‚Ñ± con trayectorias financieras m√≥viles\n")
    f.write(f"   - Archivo generado: 9_1EspacioF.parquet\n")
    f.write(f"   - N√∫mero de empresas: {espacioF.shape[0]:,}\n")
    f.write(f"   - N√∫mero de columnas funcionales: {len(columnas_funcionales)}\n")
    f.write(f"   - Columnas adicionales incluidas: DEP, CIIU_Letra, A√±o_final\n\n")

    f.write("üß† Optimizaci√≥n de hiperpar√°metros:\n")
    f.write(f"   - k √≥ptimo: {k_optimo}\n")
    f.write(f"   - Œª √≥ptimo: {lambda_optimo:.4f}\n")

    f.write("\n‚öñÔ∏è Optimizaci√≥n de pesos por indicador:\n")
    for var, peso in top_3:
        f.write(f"   - {var}: {peso:.4f}\n")

    f.write(f"\nüéØ F1-score final con pesos √≥ptimos: {study_pesos.best_value:.4f}\n\n")
    f.write("üíæ Par√°metros guardados en: 9_2ParametrosFuncional.pkl\n")

from IPython.display import display
display(pd.DataFrame([parametros_optimos['top3']], index=["Top 3 Indicadores"]))


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
‚úÖ Base cargada: (5768, 524)


üß† Detectando a√±o final por empresa:   0%|          | 0/5768 [00:00<?, ?it/s]

‚úÖ Empresas con √∫ltimo a√±o v√°lido: 5,565
‚úÖ Empresas con RQ_final asignado: 5,565


üîß Construyendo trayectorias funcionales:   0%|          | 0/5565 [00:00<?, ?it/s]

‚úÖ Espacio funcional generado con forma: (5565, 89)
üíæ Base guardada en: /content/drive/MyDrive/Datos/9_1EspacioF.parquet
üîß Optimizando k y lambda con Optuna...


üîç Buscando k y Œª:   0%|          | 0/30 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (k, Œª):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (k, Œª):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (k, Œª):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (k, Œª):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (k, Œª):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (k, Œª):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (k, Œª):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (k, Œª):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (k, Œª):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (k, Œª):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (k, Œª):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (k, Œª):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (k, Œª):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (k, Œª):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (k, Œª):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (k, Œª):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (k, Œª):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (k, Œª):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (k, Œª):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (k, Œª):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (k, Œª):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (k, Œª):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (k, Œª):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (k, Œª):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (k, Œª):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (k, Œª):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (k, Œª):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (k, Œª):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (k, Œª):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (k, Œª):   0%|          | 0/5 [00:00<?, ?it/s]


‚úÖ k √≥ptimo: 15, Œª √≥ptimo: 1.9915, F1-score: 0.8913

‚öñÔ∏è Optimizando pesos con Optuna...


üîç Buscando pesos:   0%|          | 0/30 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (pesos):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (pesos):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (pesos):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (pesos):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (pesos):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (pesos):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (pesos):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (pesos):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (pesos):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (pesos):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (pesos):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (pesos):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (pesos):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (pesos):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (pesos):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (pesos):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (pesos):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (pesos):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (pesos):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (pesos):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (pesos):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (pesos):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (pesos):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (pesos):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (pesos):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (pesos):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (pesos):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (pesos):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (pesos):   0%|          | 0/5 [00:00<?, ?it/s]

‚Ü™ Validaci√≥n cruzada (pesos):   0%|          | 0/5 [00:00<?, ?it/s]


üèÜ Top 3 indicadores m√°s importantes:
üîπ RAO: 4.9635
üîπ RCC: 4.8677
üîπ ROI: 4.7665

‚úÖ F1-score final con pesos √≥ptimos: 0.9147
üìÅ Par√°metros √≥ptimos guardados en: 9_2ParametrosFuncional.pkl


Unnamed: 0,0,1,2
Top 3 Indicadores,"(RAO, 4.963522674168568)","(RCC, 4.867683255568788)","(ROI, 4.766492118974347)"
