In [6]:
import xgboost as xgb
import matplotlib.pyplot as plt

# ---------- CONFIG ----------
MODEL_PATH = "model.json"
MAX_IMPORTANT_FEATURES = 20   # para el gráfico de importancia
TOP_FEATURES_FOR_TREES = 5    # cuántas vars usar para elegir árboles
FIGSIZE_TREE = (30, 10)
FIGSIZE_IMPORTANCE = (10, 12)
# ----------------------------


def load_model(path: str) -> xgb.Booster:
    model = xgb.Booster()
    model.load_model(path)
    print(f"Modelo cargado desde {path}")
    print("Cantidad de árboles:", model.num_boosted_rounds())
    print("Features del modelo:", model.feature_names)
    return model


def plot_importance_and_save(model: xgb.Booster):
    fig, ax = plt.subplots(figsize=FIGSIZE_IMPORTANCE)
    xgb.plot_importance(model, max_num_features=MAX_IMPORTANT_FEATURES, ax=ax)
    plt.tight_layout()
    out = "feature_importance.png"
    plt.savefig(out, dpi=200)
    plt.close(fig)
    print(f"Importancia de variables guardada en: {out}")


def get_sorted_features(model: xgb.Booster):
    # importancia por "gain"
    score_dict = model.get_score(importance_type="gain")
    sorted_features = sorted(score_dict.items(), key=lambda x: x[1], reverse=True)

    feature_names = model.feature_names

    def real_name(fx: str) -> str:
        # Manejar dos casos:
        # - Si fx es del tipo "f12" (índice), mapear al nombre real si feature_names existe.
        # - Si fx ya es el nombre real (ej. "C01S"), devolverlo tal cual.
        if isinstance(fx, str) and fx.startswith("f") and fx[1:].isdigit():
            idx = int(fx[1:])  # "f12" -> 12
            if feature_names is not None and 0 <= idx < len(feature_names):
                return feature_names[idx]
            # si no hay feature_names disponible, devolver el identificador original
            return fx
        else:
            return fx

    print("\nTop features (XGBoost index → nombre real → importancia):")
    for f, s in sorted_features[:10]:
        print(f"{f} → {real_name(f)} → {s}")

    # devolver también mapeadas a nombres reales
    top_real = [real_name(f) for f, _ in sorted_features]
    return sorted_features, top_real


def find_trees_using_features(model: xgb.Booster, important_real_features, top_n=5):
    dump = model.get_dump(with_stats=True)
    selected_trees = []

    # Nos quedamos con las top_n variables más importantes
    important_real_features = important_real_features[:top_n]

    print(f"\nBuscando árboles que usen estas variables: {important_real_features}")

    for i, tree in enumerate(dump):
        for var in important_real_features:
            if var in tree:
                selected_trees.append(i)
                break

    print("Árboles que usan al menos una de las top vars:", selected_trees)
    return selected_trees


def plot_selected_trees(model: xgb.Booster, tree_indices):
    for i in tree_indices:
        fig, ax = plt.subplots(figsize=FIGSIZE_TREE)
        xgb.plot_tree(model, num_trees=i, ax=ax)
        plt.tight_layout()
        fname = f"xgboost_tree_topvar_{i}.png"
        plt.savefig(fname, dpi=200)
        plt.close(fig)
        print(f"Guardado árbol {i} en {fname}")


if __name__ == "__main__":
    # 1) Cargar modelo
    model = load_model(MODEL_PATH)

    # 2) Gráfico de importancia
    plot_importance_and_save(model)

    # 3) Ranking de features
    sorted_feats, top_real_names = get_sorted_features(model)

    # 4) Buscar árboles que usen las top vars
    selected = find_trees_using_features(model, top_real_names, top_n=TOP_FEATURES_FOR_TREES)

    # 5) Graficar solo esos árboles
    plot_selected_trees(model, selected)


Modelo cargado desde model.json
Cantidad de árboles: 60
Features del modelo: ['REV328', 'BC01S', 'AT104S', 'REV112', 'AT34B', 'BC20S', 'ALL255', 'G051S', 'FI33S_LG', 'AGG1123', 'RI31S', 'MNPMAG01', 'RET84', 'ALL253', 'AGG324', 'AT09SF', 'RI201S', 'BALMAG03_BG', 'TRANBAL21', 'BALMAG01', 'TELCO_AGG9101', 'AT29S', 'REV84', 'AU51A', 'RLE907', 'LL34S', 'FU20S', 'SE21S', 'ALL231', 'BALMAG04', 'BI01S', 'BKC235', 'RI201S_BG', 'RE12S', 'RET112', 'OF01S', 'IN34S', 'LMD34S', 'TEL27S', 'PAYMNT02']
Importancia de variables guardada en: feature_importance.png

Top features (XGBoost index → nombre real → importancia):
BC01S → BC01S → 185.5720672607422
AT104S → AT104S → 146.81712341308594
REV328 → REV328 → 141.2540740966797
REV112 → REV112 → 101.2645492553711
G051S → G051S → 90.06824493408203
AT34B → AT34B → 80.34980773925781
REV84 → REV84 → 72.13993072509766
FI33S_LG → FI33S_LG → 52.731781005859375
RLE907 → RLE907 → 45.61186218261719
AT29S → AT29S → 40.91239547729492

Buscando árboles que usen estas 



Guardado árbol 0 en xgboost_tree_topvar_0.png




Guardado árbol 1 en xgboost_tree_topvar_1.png




Guardado árbol 2 en xgboost_tree_topvar_2.png




Guardado árbol 3 en xgboost_tree_topvar_3.png




Guardado árbol 4 en xgboost_tree_topvar_4.png




Guardado árbol 5 en xgboost_tree_topvar_5.png




Guardado árbol 6 en xgboost_tree_topvar_6.png




Guardado árbol 7 en xgboost_tree_topvar_7.png




Guardado árbol 8 en xgboost_tree_topvar_8.png




Guardado árbol 9 en xgboost_tree_topvar_9.png




Guardado árbol 10 en xgboost_tree_topvar_10.png




Guardado árbol 11 en xgboost_tree_topvar_11.png




Guardado árbol 12 en xgboost_tree_topvar_12.png




Guardado árbol 13 en xgboost_tree_topvar_13.png




Guardado árbol 14 en xgboost_tree_topvar_14.png




Guardado árbol 15 en xgboost_tree_topvar_15.png




Guardado árbol 16 en xgboost_tree_topvar_16.png




Guardado árbol 18 en xgboost_tree_topvar_18.png




Guardado árbol 19 en xgboost_tree_topvar_19.png




Guardado árbol 20 en xgboost_tree_topvar_20.png




Guardado árbol 21 en xgboost_tree_topvar_21.png




Guardado árbol 22 en xgboost_tree_topvar_22.png




Guardado árbol 23 en xgboost_tree_topvar_23.png




Guardado árbol 24 en xgboost_tree_topvar_24.png




Guardado árbol 25 en xgboost_tree_topvar_25.png




Guardado árbol 26 en xgboost_tree_topvar_26.png




Guardado árbol 27 en xgboost_tree_topvar_27.png




Guardado árbol 28 en xgboost_tree_topvar_28.png




Guardado árbol 30 en xgboost_tree_topvar_30.png




Guardado árbol 33 en xgboost_tree_topvar_33.png




Guardado árbol 34 en xgboost_tree_topvar_34.png




Guardado árbol 36 en xgboost_tree_topvar_36.png




Guardado árbol 37 en xgboost_tree_topvar_37.png




Guardado árbol 38 en xgboost_tree_topvar_38.png




Guardado árbol 39 en xgboost_tree_topvar_39.png




Guardado árbol 40 en xgboost_tree_topvar_40.png




Guardado árbol 41 en xgboost_tree_topvar_41.png




Guardado árbol 43 en xgboost_tree_topvar_43.png




Guardado árbol 44 en xgboost_tree_topvar_44.png




Guardado árbol 45 en xgboost_tree_topvar_45.png




Guardado árbol 46 en xgboost_tree_topvar_46.png




Guardado árbol 47 en xgboost_tree_topvar_47.png




Guardado árbol 48 en xgboost_tree_topvar_48.png




Guardado árbol 49 en xgboost_tree_topvar_49.png




Guardado árbol 50 en xgboost_tree_topvar_50.png




Guardado árbol 53 en xgboost_tree_topvar_53.png




Guardado árbol 54 en xgboost_tree_topvar_54.png




Guardado árbol 55 en xgboost_tree_topvar_55.png




Guardado árbol 56 en xgboost_tree_topvar_56.png




Guardado árbol 57 en xgboost_tree_topvar_57.png




Guardado árbol 58 en xgboost_tree_topvar_58.png




Guardado árbol 59 en xgboost_tree_topvar_59.png
