In [None]:
# --- imports & config ---
import json, numpy as np, pandas as pd
from pathlib import Path
DATA_PATH = "dataset_Recomendacion_villa_de_leyva_eleccion (2).csv"   # ajústalo
CAT_PATH  = "catalogo_vdl_lugares_unico.csv"               # ajústalo
SEP, ENC  = ";", "utf-8-sig"
RANDOM_SEED = 42
K_LIST = [3, 5, 10]
TEST_USER_FRAC = 0.20     # % de usuarios para hold-out honesto

# --- normalizador de encabezados con caracteres raros ---
def normalize_columns(df: pd.DataFrame) -> pd.DataFrame:
    ren = {
        "compa¤¡a_viaje": "compania_viaje",
        "‚poca_visita": "epoca_visita",
    }
    ren = {k:v for k,v in ren.items() if k in df.columns}
    return df.rename(columns=ren)

# --- métricas Top-K ---
def _dcg_at_k(rels): return float(np.sum([r/np.log2(i+2) for i,r in enumerate(rels)]))

def recall_at_k(g, k, score_col, rel_col):
    g = g.sort_values(score_col, ascending=False)
    topk = g.head(k)
    tot = g[rel_col].sum()
    return float("nan") if tot==0 else float(topk[rel_col].sum()/tot)

def ndcg_at_k(g, k, score_col, rel_col):
    g = g.sort_values(score_col, ascending=False)
    dcg  = _dcg_at_k(g.head(k)[rel_col].tolist())
    idcg = _dcg_at_k(sorted(g[rel_col].tolist(), reverse=True)[:k])
    return float("nan") if idcg==0 else float(dcg/idcg)

def coverage_at_k(df, k, score_col, item_col="nombre_sitio"):
    topk = (df.sort_values(["id_usuario", score_col], ascending=[True, False])
              .groupby("id_usuario").head(k))
    return float(topk[item_col].nunique() / df[item_col].nunique())


In [None]:
# --- Config de lectura ---
ENC = "utf-8-sig"
SEP = ";"
DATA_PATH = "dataset_Recomendacion_villa_de_leyva_eleccion (2).csv"  # <-- usa el tuyo

import pandas as pd
import numpy as np

# (opcional) inspección rápida
# with open(DATA_PATH, "r", encoding=ENC) as f:
#     for _ in range(3): print(f.readline().rstrip("\n"))

# --- carga ---
df = pd.read_csv(DATA_PATH, sep=SEP, encoding=ENC)

# Normaliza nombres (tu función)
df = normalize_columns(df)        # asegura minúsculas, sin acentos/espacios
df.columns = df.columns.str.strip()

# ---- Parche de esquema: renombrar sinónimos / grafías esperadas ----
CANDIDATES = {
    "compania_viaje":    ["compania_viaje", "compañia_viaje", "compan_a_viaje", "companaviaje"],
    "costo_entrada":     ["costo_entrada", "costoentrada", "precio_entrada", "costo"],
    "afluencia_promedio":["afluencia_promedio", "afluencia", "afluencia_prom"],
    "duracion_esperada": ["duracion_esperada", "duracion_estimada", "duracion", "tiempo_esperado"],
    "presupuesto_estimado": ["presupuesto_estimado","presupuesto","budget"],
    "tipo_turista_preferido": ["tipo_turista_preferido","preferencia","perfil_preferido"],
}

for tgt, opts in CANDIDATES.items():
    if tgt not in df.columns:
        for c in opts:
            if c in df.columns:
                df = df.rename(columns={c: tgt})
                break

# Validación mínima antes de features:
REQ = ["costo_entrada","presupuesto_estimado","tipo_sitio",
       "tipo_turista_preferido","epoca_visita"]
missing = [c for c in REQ if c not in df.columns]
if missing:
    raise KeyError(f"Faltan columnas obligatorias: {missing}\nDisponibles: {list(df.columns)}")

# Asegura tipos numéricos (por si llegaron como texto)
for c in ["costo_entrada","presupuesto_estimado","edad","frecuencia_viaje",
          "sitios_visitados","calificacion_sitios_previos",
          "tiempo_estancia_promedio","afluencia_promedio",
          "duracion_esperada","admite_mascotas","rating_usuario"]:
    if c in df.columns:
        df[c] = pd.to_numeric(df[c], errors="coerce")

# quita posibles fugas si llegara a existir
if "sitio_recomendado" in df.columns and df["sitio_recomendado"].dtype == object:
    # si por error viene con nombres de sitio, repara usando rating>=4
    df["sitio_recomendado"] = (df["rating_usuario"] >= 4.0).astype(int)

# --- columnas por tipo (ya con nombres normalizados) ---
CAT_COLS = [
    "nacionalidad","origen","tipo_turista_preferido","compania_viaje",
    "restricciones_movilidad","nombre_sitio","tipo_sitio","accesibilidad_general",
    "idioma_info","ubicacion_geografica","clima_predominante","epoca_visita"
]
NUM_COLS = [
    "edad","frecuencia_viaje","presupuesto_estimado","sitios_visitados",
    "calificacion_sitios_previos","tiempo_estancia_promedio","costo_entrada",
    "afluencia_promedio","duracion_esperada","admite_mascotas"
]

# --- AFINIDAD (actualizado a tus tipos reales) ---
AFINIDAD = {
    "cultural": {"museo":0.9,"centro_historico":0.9,"arquitectura":0.85,"arqueologico":0.85,"plaza":0.7,"religioso":0.7},
    "naturaleza": {"naturaleza":0.95,"senderismo":0.9,"mirador":0.8},
    "aventura": {"senderismo":0.9,"parque_tematico":0.75,"mirador":0.75,"naturaleza":0.7},
    "gastronomico": {"gastronomico":0.95},
    "relax": {"mirador":0.9,"plaza":0.8,"naturaleza":0.75,"arquitectura":0.8},
}

def make_features(X: pd.DataFrame) -> pd.DataFrame:
    X = X.copy()
    # Costo relativo (evita división por cero)
    denom = (X["presupuesto_estimado"]*0.15).replace(0, np.nan)
    X["ratio_costo_presu"] = (X["costo_entrada"] / denom).clip(0, 3).fillna(0)
    # Afinidad perfil–tipo
    X["afinidad_tipo"] = X.apply(
        lambda r: AFINIDAD.get(str(r["tipo_turista_preferido"]), {}).get(str(r["tipo_sitio"]), 0.5), axis=1
    )
    # Cruces categóricos
    X["x_tipoTur__tipoSit"] = X["tipo_turista_preferido"].astype(str) + "×" + X["tipo_sitio"].astype(str)
    X["x_epoca__tipoSit"]   = X["epoca_visita"].astype(str) + "×" + X["tipo_sitio"].astype(str)
    return X

df = make_features(df)

# Target binario para la tarea de clasificación
df["y_like"] = (df["rating_usuario"] >= 4.0).astype(int)

# Columnas extendidas para el modelado
CAT_COLS_X = CAT_COLS + ["x_tipoTur__tipoSit","x_epoca__tipoSit"]
NUM_COLS_X = NUM_COLS + ["ratio_costo_presu","afinidad_tipo"]

print("✅ Esquema OK. Ejemplo columnas:", df.columns[:15].tolist())
print("Shape:", df.shape)


In [None]:
# --- carga ---
df = pd.read_csv(DATA_PATH, sep=SEP, encoding=ENC)
df = normalize_columns(df)

# quita posibles fugas
if "sitio_recomendado" in df.columns:
    df = df.drop(columns=["sitio_recomendado"])

# columnas por tipo (ajústalas si cambian en tu dataset)
CAT_COLS = [
    "nacionalidad","origen","tipo_turista_preferido","compañia_viaje",
    "restricciones_movilidad","nombre_sitio","tipo_sitio","accesibilidad_general",
    "idioma_info","ubicacion_geografica","clima_predominante","epoca_visita"
]
NUM_COLS = [
    "edad","frecuencia_viaje","presupuesto_estimado","sitios_visitados",
    "calificacion_sitios_previos","tiempo_estancia_promedio","costo_entrada",
    "afluencia_promedio","duracion_esperada","admite_mascotas"
]

# --- features de interacción usuario×sitio ---
AFINIDAD = {
    "cultural": {"museo":0.9,"histórico":0.9,"religioso":0.7,"arquitectura":0.85,"museo_religioso":0.8,"arqueologico":0.85,"plaza":0.7},
    "naturaleza": {"natural":0.95,"senderismo":0.9,"mirador":0.8,"parque_urbano":0.6},
    "aventura": {"aventura":0.95,"senderismo":0.85,"parque_tematico":0.7},
    "gastronómico": {"gastronomico":0.95,"enoturismo":0.9,"artesanal":0.6,"plaza":0.6},
    "relax_fotografía": {"mirador":0.9,"plaza":0.8,"arquitectura":0.8,"natural":0.75},
}

def make_features(X: pd.DataFrame) -> pd.DataFrame:
    X = X.copy()
    # costo relativo al 15% del presupuesto diario
    X["ratio_costo_presu"] = (X["costo_entrada"] / (X["presupuesto_estimado"]*0.15)).clip(0, 3)
    # afinidad perfil-tipo_sitio
    X["afinidad_tipo"] = X.apply(lambda r: AFINIDAD.get(r["tipo_turista_preferido"],{}).get(r["tipo_sitio"],0.5), axis=1)
    # cruces categóricos (ayuda a modelos lineales y deja explícita la interacción)
    X["x_tipoTur__tipoSit"] = X["tipo_turista_preferido"] + "×" + X["tipo_sitio"]
    X["x_epoca__tipoSit"]    = X["epoca_visita"] + "×" + X["tipo_sitio"]
    return X

df = make_features(df)

# añade variable binaria "like" para clasificación
df["y_like"] = (df["rating_usuario"] >= 4.0).astype(int)

# columnas extendidas
CAT_COLS_X = CAT_COLS + ["x_tipoTur__tipoSit","x_epoca__tipoSit"]
NUM_COLS_X = NUM_COLS + ["ratio_costo_presu","afinidad_tipo"]


In [None]:
rng = np.random.default_rng(RANDOM_SEED)
users = df["id_usuario"].drop_duplicates().to_numpy()
test_users = set(rng.choice(users, size=int(len(users)*TEST_USER_FRAC), replace=False))

train_df = df[~df["id_usuario"].isin(test_users)].reset_index(drop=True)
test_df  = df[ df["id_usuario"].isin(test_users)].reset_index(drop=True)

print("Usuarios train/test:", train_df["id_usuario"].nunique(), test_df["id_usuario"].nunique())
print("Filas train/test:", train_df.shape, test_df.shape)


In [None]:
from pycaret.classification import (
    setup, compare_models, tune_model, blend_models,
    finalize_model, predict_model, pull, save_model
)
import pandas as pd
import numpy as np

# 1) Copias profundas y tipos explícitos (evita vistas read-only)
train_df = train_df.copy(deep=True)

# Asegura que id_usuario esté como string (pero NO como feature)
train_df["id_usuario"] = train_df["id_usuario"].astype("string")

for c in CAT_COLS_X:
    if c in train_df.columns:
        train_df[c] = train_df[c].astype("string").copy()

for c in NUM_COLS_X:
    if c in train_df.columns:
        train_df[c] = pd.to_numeric(train_df[c], errors="coerce").astype("float64").copy()

# 2) Setup — sin SMOTE y sin paralelismo en la primera corrida
setup_cls = setup(
    data = train_df[["id_usuario"] + CAT_COLS_X + NUM_COLS_X + ["y_like"]].copy(),
    target = "y_like",
    fold = 5,
    fold_strategy = "groupkfold",
    fold_groups = "id_usuario",          # usa el id para agrupar
    categorical_features = CAT_COLS_X,
    ignore_features = ["id_usuario"],     # << clave: no lo pases como feature
    remove_multicollinearity = True,
    multicollinearity_threshold = 0.95,
    imputation_type = "simple",
    fix_imbalance = False,                # << desactivar por ahora
    n_jobs = 1,                           # << sin paralelismo (evita bug loky/writeable)
    verbose = False
)

best3 = compare_models(n_select=3, sort="AUC")
tuned = [tune_model(m, optimize="AUC") for m in best3]
blend = blend_models(tuned)
final_cls = finalize_model(blend)
save_model(final_cls, "modelo_cls_like_v2")

# Si esto corre OK, ya puedes volver a activar fix_imbalance=True y/o subir n_jobs




In [None]:
# ================= PARCHE REGRESIÓN =================
from pycaret.regression import (
    setup as setup_reg, compare_models as compare_reg, tune_model as tune_reg,
    blend_models as blend_reg, finalize_model as finalize_reg, predict_model as predict_reg,
    pull as pull_reg, save_model as save_reg
)
import pandas as pd, numpy as np

# 0) Preparar train con copias profundas y tipos explícitos
train_reg = train_df[["id_usuario"] + CAT_COLS_X + NUM_COLS_X + ["rating_usuario"]].copy(deep=True)

# Asegurar tipos
train_reg["id_usuario"] = train_reg["id_usuario"].astype("string")
for c in CAT_COLS_X:
    if c in train_reg.columns:
        train_reg[c] = train_reg[c].astype("string").copy()
for c in NUM_COLS_X:
    if c in train_reg.columns:
        train_reg[c] = pd.to_numeric(train_reg[c], errors="coerce").astype("float64").copy()

# Target numérico y sin NaNs / inf
train_reg["rating_usuario"] = pd.to_numeric(train_reg["rating_usuario"], errors="coerce").astype("float64")
train_reg = train_reg.replace([np.inf, -np.inf], np.nan)

# 1) Setup — sin paralelismo, ignorando id_usuario (y opcionalmente nombre_sitio)
IGNORE_FEATS = ["id_usuario"]  # agrega "nombre_sitio" si quieres evitar OHE de alta cardinalidad
setup_reg(
    data = train_reg,
    target = "rating_usuario",
    session_id = RANDOM_SEED,
    fold = 5,
    fold_strategy = "groupkfold",
    fold_groups = "id_usuario",
    categorical_features = CAT_COLS_X,
    ignore_features = IGNORE_FEATS,
    remove_multicollinearity = True,
    multicollinearity_threshold = 0.95,
    imputation_type = "simple",
    n_jobs = 1,            # evita errores de loky/writeable en 1ra pasada
    verbose = False
)

# 2) Benchmark, tuning y ensamble
best3r = compare_reg(n_select=3, sort="RMSE")
lb_reg = pull_reg(); lb_reg.to_csv("leaderboard_regresion.csv", index=False, encoding="utf-8-sig")

tunedr = [tune_reg(m, optimize="RMSE") for m in best3r]
blendr = blend_reg(tunedr)
final_reg = finalize_reg(blendr)
save_reg(final_reg, "modelo_reg_rating_v2")

# 3) Evaluación en TEST (alineamiento seguro para métricas Top-K)
# --- evaluación en TEST (sin columnas duplicadas) ---
Xtest = test_df[["id_usuario"] + CAT_COLS_X + NUM_COLS_X].copy(deep=True)
Xtest["id_usuario"] = Xtest["id_usuario"].astype("string")
for c in CAT_COLS_X:
    if c in Xtest.columns:
        Xtest[c] = Xtest[c].astype("string")
for c in NUM_COLS_X:
    if c in Xtest.columns:
        Xtest[c] = pd.to_numeric(Xtest[c], errors="coerce").astype("float64")

# Guardamos ytest SOLO con la verdad (rating_usuario) para evitar duplicados
ytest = test_df[["rating_usuario"]].reset_index(drop=True)

# Predicción (predict_model devuelve X original + columna 'prediction_label')
pred = predict_reg(final_reg, data=Xtest).reset_index(drop=True)
pred = pred.rename(columns={"prediction_label": "rating_prev"})

# Nos quedamos con UNA SOLA columna de id y de item:
# - Si 'nombre_sitio' está en pred (porque lo usamos como feature), lo conservamos de ahí.
# - Si NO está (porque lo ignoraste), lo traemos desde test_df.
cols_keep = ["id_usuario", "rating_prev"]
if "nombre_sitio" in pred.columns:
    cols_keep.append("nombre_sitio")
test_pred = pred[cols_keep].copy()

if "nombre_sitio" not in test_pred.columns:
    test_pred = pd.concat([test_pred, test_df[["nombre_sitio"]].reset_index(drop=True)], axis=1)

# Añadimos la verdad del rating sin duplicar id/ítem
test_pred["rating_usuario"] = ytest["rating_usuario"].values
test_pred["y_true_rel"] = (test_pred["rating_usuario"] >= 4.0).astype(int)

# (opcional) sanity check: que sólo haya UNA columna 'id_usuario' y 'nombre_sitio'
# print([c for c in test_pred.columns if c == "id_usuario"])
# print([c for c in test_pred.columns if c == "nombre_sitio"])

# --- Métricas Top-K ---
metrics_reg = {}
for K in K_LIST:
    recalls = [recall_at_k(g, K, "rating_prev", "y_true_rel") for _, g in test_pred.groupby("id_usuario")]
    ndcgs   = [ndcg_at_k(g,   K, "rating_prev", "y_true_rel") for _, g in test_pred.groupby("id_usuario")]
    cov     = coverage_at_k(test_pred, K, "rating_prev", "nombre_sitio")
    metrics_reg[K] = {"recall": float(np.nanmean(recalls)),
                      "ndcg":   float(np.nanmean(ndcgs)),
                      "coverage": cov}

import json
print("Top-K REGRESIÓN (global):", json.dumps(metrics_reg, indent=2, ensure_ascii=False))
with open("metrics_regresion_topk.json","w",encoding="utf-8") as f:
    json.dump(metrics_reg, f, ensure_ascii=False, indent=2)

# ================= FIN PARCHE =================



In [None]:
import numpy as np
import pandas as pd
from pycaret.classification import load_model as load_cls, predict_model as predict_cls
from pycaret.regression import     load_model as load_reg,  predict_model as predict_reg

CLS = load_cls("modelo_cls_like_v2")
REG = load_reg("modelo_reg_rating_v2")
CAT = pd.read_csv(CAT_PATH, sep=SEP, encoding=ENC)

IGNORED_AT_TRAIN = ["id_usuario"]  # se ignoró en setup -> NO pasarla al pipeline

def _build_candidates(user: dict) -> pd.DataFrame:
    cand = CAT.copy()
    for k, v in user.items():
        cand[k] = v
    cand = normalize_columns(cand)
    cand = make_features(cand)                 # mismas features que en train
    return cand

def _prepare_for_pipeline(X: pd.DataFrame) -> pd.DataFrame:
    X = X.copy()
    # quitar columnas ignoradas en setup
    X.drop(columns=[c for c in IGNORED_AT_TRAIN if c in X.columns], inplace=True, errors="ignore")
    # (opcional) asegurar tipos como en train
    for c in CAT_COLS_X:
        if c in X.columns: X[c] = X[c].astype("string")
    for c in NUM_COLS_X:
        if c in X.columns: X[c] = pd.to_numeric(X[c], errors="coerce").astype("float64")
    return X

def _prob_like_from_hard_voting(pipeline, Xdf: pd.DataFrame) -> pd.Series:
    # 1) preprocesa con el pipeline sin el último paso (modelo)
    pre = pipeline[:-1]
    Xenc = pre.transform(Xdf)

    clf = pipeline.named_steps.get('trained_model', pipeline.steps[-1][1])
    proba_list = []

    for est in getattr(clf, 'estimators_', []):
        if hasattr(est, "predict_proba"):
            p = est.predict_proba(Xenc)
            classes = getattr(est, "classes_", None)
            if classes is not None:
                cls_list = list(classes)
                if 1 in cls_list: pos = cls_list.index(1)
                elif "1" in cls_list: pos = cls_list.index("1")
                else: pos = p.shape[1]-1
            else:
                pos = p.shape[1]-1
            proba_list.append(p[:, pos])
        elif hasattr(est, "decision_function"):
            df = est.decision_function(Xenc)
            if df.ndim == 1:
                proba_list.append(1.0/(1.0 + np.exp(-df)))            # logística
            else:
                col = 1 if df.shape[1] > 1 else 0
                proba_list.append(1.0/(1.0 + np.exp(-df[:, col])))

    if proba_list:
        return pd.Series(np.mean(np.column_stack(proba_list), axis=1), index=Xdf.index)

    # último recurso: usar predict_model por si expone alguna columna de score
    scored = predict_cls(CLS, data=Xdf, raw_score=True)
    if "Score_1" in scored.columns: return scored["Score_1"]
    if "Score" in scored.columns and "prediction_label" in scored.columns:
        return pd.Series(np.where(scored["prediction_label"]==1, scored["Score"], 1.0-scored["Score"]), index=Xdf.index)
    if "prediction_score" in scored.columns and "prediction_label" in scored.columns:
        return pd.Series(np.where(scored["prediction_label"]==1, scored["prediction_score"], 1.0-scored["prediction_score"]), index=Xdf.index)

    raise AttributeError("No hay forma de obtener probas del VotingClassifier (hard). Considera reentrenar con voting='soft'.")

def recomendar_top3_cls(user: dict) -> pd.DataFrame:
    X0 = _build_candidates(user)
    X  = _prepare_for_pipeline(X0)                 # << quita id_usuario y ajusta tipos

    # Intento directo (por si NO es 'hard'); si falla, uso agregación de base estimators
    try:
        proba = CLS.predict_proba(X)
        classes = getattr(CLS, "classes_", None)
        if classes is not None and (1 in list(classes) or "1" in list(classes)):
            pos = list(classes).index(1) if 1 in list(classes) else list(classes).index("1")
        else:
            pos = proba.shape[1]-1
        prob_like = pd.Series(proba[:, pos], index=X.index)
    except Exception:
        prob_like = _prob_like_from_hard_voting(CLS, X)

    scored = X0.assign(prob_like=prob_like.values)  # unimos a los campos legibles (tipo_sitio, etc.)

    cols = ["nombre_sitio","tipo_sitio","costo_entrada","accesibilidad_general",
            "afinidad_tipo","ratio_costo_presu","prob_like"]
    cols = [c for c in cols if c in scored.columns]
    return scored[cols].nlargest(3, "prob_like").reset_index(drop=True)

def recomendar_top3_reg(user: dict) -> pd.DataFrame:
    X0 = _build_candidates(user)
    X  = _prepare_for_pipeline(X0)                 # opcional (predict_model ya lo ignora)
    scored = predict_reg(REG, data=X)
    pred_col = "prediction_label" if "prediction_label" in scored.columns else ("Label" if "Label" in scored.columns else None)
    if pred_col is None:
        raise KeyError(f"No encuentro columna de predicción en regresión. Tengo: {list(scored.columns)[:20]}")
    scored = scored.rename(columns={pred_col: "rating_prev"})

    cols = ["nombre_sitio","tipo_sitio","costo_entrada","accesibilidad_general",
            "afinidad_tipo","ratio_costo_presu","rating_prev"]
    cols = [c for c in cols if c in X0.columns] + ["rating_prev"]
    out = X0.join(scored[["rating_prev"]]).nlargest(3, "rating_prev")[cols].reset_index(drop=True)
    return out



usuario_demo = {
    "id_usuario":"U_demo","edad":50,"nacionalidad":"Colombia","origen":"Bogotá",
    "tipo_turista_preferido":"cultural","compañia_viaje":"pareja",
    "frecuencia_viaje":2,"restricciones_movilidad":"ninguna",
    "presupuesto_estimado":230000,"sitios_visitados":6,
    "calificacion_sitios_previos":4.3,"tiempo_estancia_promedio":90,
    "epoca_visita":"fin_de_semana_puente"
}

print("Top-3 (clasificación):")
print(recomendar_top3_cls(usuario_demo).to_string(index=False))

print("\nTop-3 (regresión):")
print(recomendar_top3_reg(usuario_demo).to_string(index=False))



In [None]:
# Clasificación
clf = final_cls.named_steps["trained_model"]
print(clf)               # tipo (VotingClassifier)
print([type(e).__name__ for e in clf.estimators_])  # modelos base

# Regresión
reg = final_reg.named_steps["trained_model"]
print(reg)               # tipo (VotingRegressor)
print([type(e).__name__ for e in reg.estimators_])  # modelos base


In [None]:
from sklearn.ensemble import VotingClassifier, VotingRegressor, StackingClassifier, StackingRegressor

def inspect_pycaret_pipeline(pipe):
    # 1) nombres de pasos
    step_names = [name for name, _ in pipe.steps]
    print("Pasos del Pipeline:", step_names)

    # 2) último paso = estimador final
    last_name, last_step = pipe.steps[-1]
    print(f"Paso final: {last_name}  →  {type(last_step).__name__}")

    # 3) según el tipo, muestra su composición
    if isinstance(last_step, (VotingClassifier, VotingRegressor)):
        # estimadores base (usamos estimators_ si está disponible; si no, estimators)
        base = getattr(last_step, "estimators_", None)
        if base is None:
            base = [est for _, est in getattr(last_step, "estimators", [])]
        print("Tipo Voting:", getattr(last_step, "voting", "—"))
        print("Estimadores base:", [type(e).__name__ for e in base])

    elif isinstance(last_step, (StackingClassifier, StackingRegressor)):
        base = getattr(last_step, "estimators_", None)
        if base is None:
            base = [est for _, est in getattr(last_step, "estimators", [])]
        meta = getattr(last_step, "final_estimator_", getattr(last_step, "final_estimator", None))
        print("Estimadores base (stacking):", [type(e).__name__ for e in base])
        print("Meta-modelo:", type(meta).__name__ if meta is not None else "—")

    else:
        print("Modelo único (no es ensamble).")

# Inspecciona tus modelos guardados:
inspect_pycaret_pipeline(CLS)   # clasificación
inspect_pycaret_pipeline(REG)   # regresión


In [None]:
_, est_final = CLS.steps[-1]
print(list(est_final.get_params().keys())[:20])  # algunas claves


In [None]:
from pycaret.classification import (
    setup, compare_models, tune_model, blend_models,
    calibrate_model, finalize_model, save_model, pull
)

# Usa el mismo train_df y el MISMO setup que ya te funcionó (groupkfold + ignore id_usuario)
setup(
    data=train_df[["id_usuario"] + CAT_COLS_X + NUM_COLS_X + ["y_like"]],
    target="y_like",
    session_id=RANDOM_SEED,
    fold=5, fold_strategy="groupkfold", fold_groups="id_usuario",
    categorical_features=CAT_COLS_X,
    ignore_features=["id_usuario"],
    remove_multicollinearity=True, multicollinearity_threshold=0.95,
    imputation_type="simple",
    fix_imbalance=False,   # activa luego si lo necesitas
    verbose=False
)

# candidatos y tuning
cands = compare_models(n_select=5, sort="AUC")
tuned = [tune_model(m, optimize="AUC") for m in cands]
# quédate con modelos que soportan predict_proba (requisito para 'soft')
tuned = [m for m in tuned if hasattr(m, "predict_proba")]

# ensamble 'soft' (promedia probabilidades)
soft = blend_models(estimator_list=tuned, method="soft", choose_better=True)

# (opcional pero recomendado) calibra probabilidades
soft_cal = calibrate_model(soft, method="isotonic")

# cierra y guarda
final_soft = finalize_model(soft_cal)
save_model(final_soft, "modelo_cls_like_soft_v1")


In [None]:
from pycaret.classification import load_model
CLS_SOFT = load_model("modelo_cls_like_soft_v1")

def recomendar_top3_cls_soft(user: dict) -> pd.DataFrame:
    X0 = _build_candidates(user)
    X  = _prepare_for_pipeline(X0)          # quita id_usuario y asegura tipos
    proba = CLS_SOFT.predict_proba(X)       # ahora sí disponible
    pos = list(CLS_SOFT.classes_).index(1) if 1 in CLS_SOFT.classes_ else proba.shape[1]-1
    X0["prob_like"] = proba[:, pos]
    cols = ["nombre_sitio","tipo_sitio","costo_entrada","accesibilidad_general",
            "afinidad_tipo","ratio_costo_presu","prob_like"]
    return X0[cols].nlargest(3, "prob_like").reset_index(drop=True)

# probar:
print(recomendar_top3_cls_soft(usuario_demo))
