In [47]:
# Imports necesarios para todos los experimentos de Feature Engineering
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA, TruncatedSVD, FastICA
from sklearn.feature_selection import SelectKBest, f_classif, chi2, mutual_info_classif
from sklearn.feature_selection import RFE, SelectFromModel
from sklearn.model_selection import train_test_split
from sklearn.cluster import KMeans
from sklearn.ensemble import RandomForestClassifier, IsolationForest
from sklearn.manifold import TSNE
from sklearn.preprocessing import PolynomialFeatures
import xgboost as xgb
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
import warnings
import json
warnings.filterwarnings('ignore')
# Diccionario global para almacenar resultados de todos los experimentos
global_results = {}

In [48]:
df = pd.read_csv("../../datasets/transaction_dataset_clean.csv")
X = df.drop(columns=["FLAG"])
y = df["FLAG"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

### Experimento Baseline: Evaluaci√≥n con caracter√≠sticas originales
    
Este experimento establece la l√≠nea base usando las caracter√≠sticas originales sin ninguna transformaci√≥n o ingenier√≠a de features. Sirve como punto de referencia para comparar todos los dem√°s experimentos.

In [49]:
def experiment_baseline(X_train, X_test, y_train, y_test):
    """ 
    Par√°metros:
    - X_train: DataFrame con caracter√≠sticas de entrenamiento
    - X_test: DataFrame con caracter√≠sticas de test
    - y_train: Series con etiquetas de entrenamiento
    - y_test: Series con etiquetas de test
    
    Retorna:
    - Diccionario con resultados del experimento baseline
    """
    print("üìä Experimento Baseline: Caracter√≠sticas originales")
    print("-" * 50)
    
    # Crear experimento con caracter√≠sticas originales
    experiments = {
        'original_features': (X_train, X_test)
    }
    
    # Evaluar experimento baseline
    results = evaluate_multiple_experiments(experiments, "baseline", y_train, y_test)
    
    print(f"\nBaseline establecido con {X_train.shape[1]} caracter√≠sticas originales")
    print(f"Accuracy baseline: {results['original_features']['accuracy']:.4f}")
    
    return results

### Experimento 1: Caracter√≠sticas basadas en √°rboles de decisi√≥n
    
Este experimento utiliza modelos de √°rboles (XGBoost y Random Forest) para generar nuevas caracter√≠sticas basadas en:
- √çndices de hojas donde terminan las muestras
- Combinaciones de m√∫ltiples modelos de √°rboles
- Estad√≠sticas derivadas de las estructuras de √°rboles
    
Los modelos de √°rboles capturan patrones no lineales complejos y sus estructuras internas pueden usarse como caracter√≠sticas transformadas.
    

In [50]:
def experiment_tree_based_features(X_train, X_test, y_train, y_test):
    """
    Par√°metros:
    - X_train: DataFrame con caracter√≠sticas de entrenamiento
    - X_test: DataFrame con caracter√≠sticas de test
    - y_train: Series con etiquetas de entrenamiento
    - y_test: Series con etiquetas de test
    
    Retorna:
    - Diccionario con resultados de todas las variaciones del experimento
    """
    print("üå≥ Experimento 1: Caracter√≠sticas basadas en √°rboles")
    print("-" * 50)
    
    # 1.1 XGBoost leaf indices
    # Entrena un modelo XGBoost y extrae los √≠ndices de las hojas donde
    # terminan las muestras. Cada √°rbol contribuye con un √≠ndice de hoja.
    print("Generando caracter√≠sticas con XGBoost leaf indices...")
    xgb_model = xgb.XGBClassifier(n_estimators=100, random_state=42)
    xgb_model.fit(X_train, y_train)
    
    # apply() devuelve los √≠ndices de hojas para cada muestra en cada √°rbol
    leaf_indices_train = xgb_model.apply(X_train)
    leaf_indices_test = xgb_model.apply(X_test)
    
    # 1.2 Random Forest leaf indices
    # Similar a XGBoost pero usando Random Forest, que puede capturar
    # patrones diferentes debido a su estrategia de bagging
    print("Generando caracter√≠sticas con Random Forest leaf indices...")
    rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
    rf_model.fit(X_train, y_train)
    
    # apply() devuelve los √≠ndices de hojas para cada √°rbol del bosque
    rf_leaf_train = rf_model.apply(X_train)
    rf_leaf_test = rf_model.apply(X_test)
    
    # 1.3 Combinaci√≥n de ambos modelos
    # Concatena las caracter√≠sticas de ambos modelos para capturar
    # la informaci√≥n complementaria de XGBoost y Random Forest
    print("Combinando caracter√≠sticas de XGBoost y Random Forest...")
    combined_leaves_train = np.hstack([leaf_indices_train, rf_leaf_train])
    combined_leaves_test = np.hstack([leaf_indices_test, rf_leaf_test])
    
    # 1.4 Estad√≠sticas derivadas: distancias promedio a hojas
    # Calcula el promedio de los √≠ndices de hojas como una medida
    # de la "profundidad promedio" o "complejidad" de la decisi√≥n
    print("Calculando estad√≠sticas derivadas de hojas...")
    leaf_distances_train = np.mean(leaf_indices_train, axis=1).reshape(-1, 1)
    leaf_distances_test = np.mean(leaf_indices_test, axis=1).reshape(-1, 1)
    
    # Preparar experimentos para evaluaci√≥n
    experiments = {
        'xgb_leaves': (leaf_indices_train, leaf_indices_test),
        'rf_leaves': (rf_leaf_train, rf_leaf_test),
        'combined_leaves': (combined_leaves_train, combined_leaves_test),
        'leaf_distances': (leaf_distances_train, leaf_distances_test)
    }
    
    # Evaluar todas las variaciones
    results = evaluate_multiple_experiments(experiments, "tree_based", y_train, y_test)
    
    print(f"\nMejor resultado en tree-based features:")
    best_method = max(results.items(), key=lambda x: x[1]['accuracy'])
    print(f"  {best_method[0]}: {best_method[1]['accuracy']:.4f}")
    
    return results

### Experimento 2: Reducci√≥n de dimensionalidad
    
Este experimento aplica diferentes t√©cnicas de reducci√≥n de dimensionalidad para crear representaciones m√°s compactas y potencialmente m√°s informativas de los datos:
    
- PCA: Encuentra componentes principales que maximizan la varianza
- TruncatedSVD: Descomposici√≥n en valores singulares, √∫til para datos sparse
- FastICA: An√°lisis de componentes independientes, separa se√±ales mezcladas
- Combinaci√≥n: Usa caracter√≠sticas originales + PCA para enriquecimiento
    

In [51]:
def experiment_dimensionality_reduction(X_train, X_test, y_train, y_test):
    """
    Par√°metros:
    - X_train: DataFrame con caracter√≠sticas de entrenamiento
    - X_test: DataFrame con caracter√≠sticas de test
    - y_train: Series con etiquetas de entrenamiento
    - y_test: Series con etiquetas de test
    
    Retorna:
    - Diccionario con resultados de todas las variaciones del experimento
    """
    print("üìâ Experimento 2: Reducci√≥n de dimensionalidad")
    print("-" * 50)
    
    # 2.1 PCA (Principal Component Analysis)
    # Encuentra las direcciones de m√°xima varianza en los datos
    # √ötil para eliminar ruido y correlaciones lineales
    print("Aplicando PCA...")
    n_components_pca = min(50, X_train.shape[1])
    pca = PCA(n_components=n_components_pca)
    X_train_pca = pca.fit_transform(X_train)
    X_test_pca = pca.transform(X_test)
    
    print(f"  PCA: {X_train.shape[1]} ‚Üí {n_components_pca} componentes")
    print(f"  Varianza explicada: {pca.explained_variance_ratio_[:5].sum():.3f} (primeros 5 componentes)")
    
    # 2.2 TruncatedSVD (Singular Value Decomposition)
    # Similar a PCA pero no centra los datos, mejor para matrices sparse
    # √ötil cuando los datos tienen muchos ceros o est√°n normalizados
    print("Aplicando TruncatedSVD...")
    n_components_svd = min(50, X_train.shape[1]-1)
    svd = TruncatedSVD(n_components=n_components_svd, random_state=42)
    X_train_svd = svd.fit_transform(X_train)
    X_test_svd = svd.transform(X_test)
    
    print(f"  SVD: {X_train.shape[1]} ‚Üí {n_components_svd} componentes")
    print(f"  Varianza explicada: {svd.explained_variance_ratio_[:5].sum():.3f} (primeros 5 componentes)")
    
    # 2.3 FastICA (Independent Component Analysis)
    # Separa se√±ales mezcladas asumiendo independencia estad√≠stica
    # √ötil para encontrar fuentes de variaci√≥n independientes
    print("Aplicando FastICA...")
    n_components_ica = min(20, X_train.shape[1])
    ica = FastICA(n_components=n_components_ica, random_state=42)
    X_train_ica = ica.fit_transform(X_train)
    X_test_ica = ica.transform(X_test)
    
    print(f"  ICA: {X_train.shape[1]} ‚Üí {n_components_ica} componentes independientes")
    
    # 2.4 Combinaci√≥n: Caracter√≠sticas originales + PCA
    # Mantiene la informaci√≥n original y a√±ade componentes principales
    # Estrategia de enriquecimiento que puede capturar tanto patrones
    # lineales (PCA) como no lineales (caracter√≠sticas originales)
    print("Combinando caracter√≠sticas originales con PCA...")
    X_train_combined = np.hstack([X_train, X_train_pca])
    X_test_combined = np.hstack([X_test, X_test_pca])
    
    print(f"  Combinado: {X_train.shape[1]} + {n_components_pca} = {X_train_combined.shape[1]} caracter√≠sticas")
    
    # Preparar experimentos para evaluaci√≥n
    experiments = {
        'pca_only': (X_train_pca, X_test_pca),
        'svd_only': (X_train_svd, X_test_svd),
        'ica_only': (X_train_ica, X_test_ica),
        'original_plus_pca': (X_train_combined, X_test_combined)
    }
    
    # Evaluar todas las variaciones
    results = evaluate_multiple_experiments(experiments, "dimensionality_reduction", y_train, y_test)
    
    print(f"\nMejor resultado en reducci√≥n de dimensionalidad:")
    best_method = max(results.items(), key=lambda x: x[1]['accuracy'])
    print(f"  {best_method[0]}: {best_method[1]['accuracy']:.4f}")
    
    return results

### Experimento 3: Interacciones entre caracter√≠sticas
    
Este experimento crea nuevas caracter√≠sticas basadas en las interacciones entre las caracter√≠sticas existentes:
    
- Caracter√≠sticas polin√≥micas: Productos entre pares de caracter√≠sticas
- Interacciones manuales: Productos selectivos entre caracter√≠sticas principales
- Ratios: Divisiones entre caracter√≠sticas para capturar proporciones
    
Las interacciones pueden revelar patrones que no son evidentes cuando se consideran las caracter√≠sticas individualmente.
    

In [52]:
def experiment_feature_interactions(X_train, X_test, y_train, y_test):
    """
    Par√°metros:
    - X_train: DataFrame con caracter√≠sticas de entrenamiento
    - X_test: DataFrame con caracter√≠sticas de test
    - y_train: Series con etiquetas de entrenamiento
    - y_test: Series con etiquetas de test
    
    Retorna:
    - Diccionario con resultados de todas las variaciones del experimento
    """
    print("üîÑ Experimento 3: Interacciones entre caracter√≠sticas")
    print("-" * 50)
    
    # 3.1 Caracter√≠sticas polin√≥micas (grado 2)
    # Genera autom√°ticamente todos los productos entre pares de caracter√≠sticas
    # include_bias=False: no incluye t√©rmino constante
    # interaction_only=True: solo productos cruzados, no cuadrados
    print("Generando caracter√≠sticas polin√≥micas...")
    poly = PolynomialFeatures(degree=2, include_bias=False, interaction_only=True)
    X_train_poly = poly.fit_transform(X_train)
    X_test_poly = poly.transform(X_test)
    
    print(f"  Polin√≥micas: {X_train.shape[1]} ‚Üí {X_train_poly.shape[1]} caracter√≠sticas")
    
    # 3.2 Interacciones manuales entre caracter√≠sticas principales
    # Selecciona las primeras N caracter√≠sticas y genera productos entre ellas
    # M√°s controlado que PolynomialFeatures, evita explosi√≥n de caracter√≠sticas
    print("Generando interacciones manuales...")
    n_features = min(10, X_train.shape[1])
    interactions_train = []
    interactions_test = []
    
    interaction_count = 0
    for i in range(n_features):
        for j in range(i+1, n_features):
            # Producto entre caracter√≠sticas i y j
            interaction_train = (X_train.iloc[:, i] * X_train.iloc[:, j]).values
            interaction_test = (X_test.iloc[:, i] * X_test.iloc[:, j]).values
            
            interactions_train.append(interaction_train)
            interactions_test.append(interaction_test)
            interaction_count += 1
    
    X_train_interactions = np.column_stack(interactions_train)
    X_test_interactions = np.column_stack(interactions_test)
    
    print(f"  Interacciones manuales: {interaction_count} nuevas caracter√≠sticas")
    
    # 3.3 Ratios entre caracter√≠sticas
    # Calcula ratios (divisiones) entre caracter√≠sticas para capturar proporciones
    # √ötil para detectar patrones relativos entre variables
    print("Generando ratios entre caracter√≠sticas...")
    ratios_train = []
    ratios_test = []
    
    ratio_count = 0
    n_features_ratio = min(5, X_train.shape[1])
    
    for i in range(n_features_ratio):
        for j in range(i+1, n_features_ratio):
            # Evitar divisi√≥n por cero agregando peque√±a constante
            denominator_train = X_train.iloc[:, j] + 1e-8
            denominator_test = X_test.iloc[:, j] + 1e-8
            
            # Ratio entre caracter√≠sticas i y j
            ratio_train = (X_train.iloc[:, i] / denominator_train).values
            ratio_test = (X_test.iloc[:, i] / denominator_test).values
            
            ratios_train.append(ratio_train)
            ratios_test.append(ratio_test)
            ratio_count += 1
    
    X_train_ratios = np.column_stack(ratios_train)
    X_test_ratios = np.column_stack(ratios_test)
    
    print(f"  Ratios: {ratio_count} nuevas caracter√≠sticas")
    
    # Preparar experimentos para evaluaci√≥n
    experiments = {
        'polynomial_features': (X_train_poly, X_test_poly),
        'manual_interactions': (X_train_interactions, X_test_interactions),
        'feature_ratios': (X_train_ratios, X_test_ratios)
    }
    
    # Evaluar todas las variaciones
    results = evaluate_multiple_experiments(experiments, "feature_interactions", y_train, y_test)
    
    print(f"\nMejor resultado en interacciones de caracter√≠sticas:")
    best_method = max(results.items(), key=lambda x: x[1]['accuracy'])
    print(f"  {best_method[0]}: {best_method[1]['accuracy']:.4f}")
    
    return results

### Experimento 4: Caracter√≠sticas basadas en clustering
    
Este experimento utiliza t√©cnicas de clustering para crear nuevas caracter√≠sticas basadas en la estructura de agrupamiento de los datos:
    
- Etiquetas de cluster: Asignaci√≥n de muestras a grupos
- Distancias a centroides: Qu√© tan lejos est√° cada muestra de los centros
- Clustering por clase: Distancias a centroides espec√≠ficos de cada clase
    
El clustering puede revelar patrones de agrupamiento natural en los datos que pueden ser √∫tiles para la clasificaci√≥n.
    

In [53]:
def experiment_clustering_features(X_train, X_test, y_train, y_test):
    """
    Par√°metros:
    - X_train: DataFrame con caracter√≠sticas de entrenamiento
    - X_test: DataFrame con caracter√≠sticas de test
    - y_train: Series con etiquetas de entrenamiento
    - y_test: Series con etiquetas de test
    
    Retorna:
    - Diccionario con resultados de todas las variaciones del experimento
    """
    print("üéØ Experimento 4: Caracter√≠sticas basadas en clustering")
    print("-" * 50)
    
    # 4.1 KMeans clustering b√°sico
    # Agrupa los datos en k clusters y usa las etiquetas como caracter√≠sticas
    print("Aplicando K-Means clustering...")
    n_clusters = 10
    kmeans = KMeans(n_clusters=n_clusters, random_state=42)
    cluster_labels_train = kmeans.fit_predict(X_train)
    cluster_labels_test = kmeans.predict(X_test)
    
    print(f"  K-Means: {n_clusters} clusters creados")
    print(f"  Distribuci√≥n de clusters en entrenamiento: {np.bincount(cluster_labels_train)}")
    
    # 4.2 Distancias a centroides de K-Means
    # Calcula la distancia de cada muestra a cada centroide
    # Proporciona informaci√≥n m√°s rica que solo las etiquetas
    print("Calculando distancias a centroides...")
    distances_train = kmeans.transform(X_train)
    distances_test = kmeans.transform(X_test)
    
    print(f"  Distancias: {distances_train.shape[1]} caracter√≠sticas de distancia")
    
    # 4.3 Clustering espec√≠fico por clase
    # Calcula centroides separados para cada clase y mide distancias
    # √ötil para detectar qu√© tan similar es una muestra a cada clase
    print("Calculando centroides por clase...")
    
    # Separar datos por clase
    fraud_mask = (y_train == 1)
    normal_mask = (y_train == 0)
    
    fraud_data = X_train[fraud_mask]
    normal_data = X_train[normal_mask]
    
    print(f"  Datos de fraude: {fraud_data.shape[0]} muestras")
    print(f"  Datos normales: {normal_data.shape[0]} muestras")
    
    # Calcular centroides por clase
    fraud_centroid = fraud_data.mean().values
    normal_centroid = normal_data.mean().values
    
    # Distancias a centroide de clase fraudulenta
    fraud_dist_train = np.linalg.norm(X_train - fraud_centroid, axis=1).reshape(-1, 1)
    fraud_dist_test = np.linalg.norm(X_test - fraud_centroid, axis=1).reshape(-1, 1)
    
    # Distancias a centroide de clase normal
    normal_dist_train = np.linalg.norm(X_train - normal_centroid, axis=1).reshape(-1, 1)
    normal_dist_test = np.linalg.norm(X_test - normal_centroid, axis=1).reshape(-1, 1)
    
    # Combinar distancias a ambas clases
    class_distances_train = np.hstack([fraud_dist_train, normal_dist_train])
    class_distances_test = np.hstack([fraud_dist_test, normal_dist_test])
    
    print(f"  Distancias por clase: 2 caracter√≠sticas (dist_fraud, dist_normal)")
    
    # Estad√≠sticas adicionales de distancias
    print(f"  Distancia promedio a centroide fraude: {np.mean(fraud_dist_train):.3f}")
    print(f"  Distancia promedio a centroide normal: {np.mean(normal_dist_train):.3f}")
    
    # Preparar experimentos para evaluaci√≥n
    experiments = {
        'kmeans_labels': (cluster_labels_train.reshape(-1, 1), cluster_labels_test.reshape(-1, 1)),
        'kmeans_distances': (distances_train, distances_test),
        'class_distances': (class_distances_train, class_distances_test)
    }
    
    # Evaluar todas las variaciones
    results = evaluate_multiple_experiments(experiments, "clustering", y_train, y_test)
    
    print(f"\nMejor resultado en caracter√≠sticas de clustering:")
    best_method = max(results.items(), key=lambda x: x[1]['accuracy'])
    print(f"  {best_method[0]}: {best_method[1]['accuracy']:.4f}")
    
    return results

### Experimento 5: Caracter√≠sticas de detecci√≥n de anomal√≠as
    
Este experimento utiliza t√©cnicas de detecci√≥n de anomal√≠as para crear caracter√≠sticas que midan qu√© tan "an√≥mala" o "inusual" es cada muestra:
    
- Isolation Forest: A√≠sla anomal√≠as usando √°rboles aleatorios
- Distancia de Mahalanobis: Distancia considerando covarianza
- Estad√≠sticas locales: Z-scores y medidas de desviaci√≥n
    
Estas caracter√≠sticas son especialmente √∫tiles para detecci√≥n de fraude, ya que los fraudes suelen ser anomal√≠as en los patrones normales.
    

In [54]:
def experiment_anomaly_features(X_train, X_test, y_train, y_test):
    """
    Par√°metros:
    - X_train: DataFrame con caracter√≠sticas de entrenamiento
    - X_test: DataFrame con caracter√≠sticas de test
    - y_train: Series con etiquetas de entrenamiento
    - y_test: Series con etiquetas de test
    
    Retorna:
    - Diccionario con resultados de todas las variaciones del experimento
    """
    print("üö® Experimento 5: Caracter√≠sticas de detecci√≥n de anomal√≠as")
    print("-" * 50)
    
    # 5.1 Isolation Forest scores
    # Isolation Forest a√≠sla anomal√≠as usando √°rboles de decisi√≥n aleatorios
    # Los puntos an√≥malos requieren menos divisiones para ser aislados
    print("Aplicando Isolation Forest...")
    iso_forest = IsolationForest(n_estimators=100, random_state=42)
    iso_forest.fit(X_train)
    
    # decision_function devuelve scores de anomal√≠a (m√°s negativo = m√°s an√≥malo)
    anomaly_scores_train = iso_forest.decision_function(X_train).reshape(-1, 1)
    anomaly_scores_test = iso_forest.decision_function(X_test).reshape(-1, 1)
    
    print(f"  Isolation Forest: 1 caracter√≠stica de anomal√≠a")
    print(f"  Score promedio entrenamiento: {np.mean(anomaly_scores_train):.3f}")
    print(f"  Score promedio test: {np.mean(anomaly_scores_test):.3f}")
    
    # 5.2 Distancia de Mahalanobis
    # Mide distancia considerando la covarianza entre caracter√≠sticas
    # M√°s robusta que distancia euclidiana para datos correlacionados
    print("Calculando distancias de Mahalanobis...")
    
    # Calcular matriz de covarianza y su inversa
    cov_matrix = np.cov(X_train.T)
    
    # Usar pseudoinversa para manejar matrices singulares
    inv_cov = np.linalg.pinv(cov_matrix)
    mean_vector = np.mean(X_train, axis=0)
    
    def mahalanobis_distance(X, mean, inv_cov):
        """
        Calcula la distancia de Mahalanobis para cada muestra
        """
        diff = X - mean
        return np.sqrt(np.sum(diff @ inv_cov * diff, axis=1))
    
    # Calcular distancias de Mahalanobis
    mahal_dist_train = np.array(mahalanobis_distance(X_train, mean_vector, inv_cov)).reshape(-1, 1)
    mahal_dist_test = np.array(mahalanobis_distance(X_test, mean_vector, inv_cov)).reshape(-1, 1)

    print(f"  Mahalanobis: 1 caracter√≠stica de distancia")
    print(f"  Distancia promedio entrenamiento: {np.mean(mahal_dist_train):.3f}")
    print(f"  Distancia promedio test: {np.mean(mahal_dist_test):.3f}")
    
    # 5.3 Estad√≠sticas locales por caracter√≠stica
    # Calcula Z-scores para cada caracter√≠stica individual
    # Identifica muestras que son outliers en caracter√≠sticas espec√≠ficas
    print("Calculando estad√≠sticas locales (Z-scores)...")
    local_stats_train = []
    local_stats_test = []
    
    for col in X_train.columns:
        # Calcular media y desviaci√≥n est√°ndar de entrenamiento
        col_mean = X_train[col].mean()
        col_std = X_train[col].std()
        
        # Z-score: (valor - media) / desviaci√≥n est√°ndar
        z_score_train = (X_train[col] - col_mean) / col_std
        z_score_test = (X_test[col] - col_mean) / col_std
        
        local_stats_train.append(z_score_train.values)
        local_stats_test.append(z_score_test.values)
    
    local_stats_train = np.column_stack(local_stats_train)
    local_stats_test = np.column_stack(local_stats_test)
    
    print(f"  Estad√≠sticas locales: {local_stats_train.shape[1]} caracter√≠sticas Z-score")
    
    # 5.4 Estad√≠sticas agregadas de anomal√≠a
    # Combina m√∫ltiples medidas de anomal√≠a en caracter√≠sticas √∫nicas
    print("Creando estad√≠sticas agregadas...")
    
    # M√°ximo Z-score absoluto por muestra (outlier m√°s extremo)
    max_zscore_train = np.max(np.abs(local_stats_train), axis=1).reshape(-1, 1)
    max_zscore_test = np.max(np.abs(local_stats_test), axis=1).reshape(-1, 1)
    
    # N√∫mero de caracter√≠sticas con |Z-score| > 2 (outliers moderados)
    outlier_count_train = np.sum(np.abs(local_stats_train) > 2, axis=1).reshape(-1, 1)
    outlier_count_test = np.sum(np.abs(local_stats_test) > 2, axis=1).reshape(-1, 1)
    
    # Combinar estad√≠sticas agregadas
    aggregated_stats_train = np.hstack([max_zscore_train, outlier_count_train])
    aggregated_stats_test = np.hstack([max_zscore_test, outlier_count_test])
    
    print(f"  Estad√≠sticas agregadas: {aggregated_stats_train.shape[1]} caracter√≠sticas")
    
    # Preparar experimentos para evaluaci√≥n
    experiments = {
        'isolation_forest': (anomaly_scores_train, anomaly_scores_test),
        'mahalanobis_distance': (mahal_dist_train, mahal_dist_test),
        'local_statistics': (local_stats_train, local_stats_test),
        'aggregated_stats': (aggregated_stats_train, aggregated_stats_test)
    }
    
    # Evaluar todas las variaciones
    results = evaluate_multiple_experiments(experiments, "anomaly_detection", y_train, y_test)
    
    print(f"\nMejor resultado en detecci√≥n de anomal√≠as:")
    best_method = max(results.items(), key=lambda x: x[1]['accuracy'])
    print(f"  {best_method[0]}: {best_method[1]['accuracy']:.4f}")
    
    return results

### Experimento 6: Selecci√≥n de caracter√≠sticas
    
Este experimento utiliza diferentes t√©cnicas de selecci√≥n de caracter√≠sticas para identificar y mantener solo las m√°s relevantes:
    
- Mutual Information: Mide dependencia estad√≠stica entre caracter√≠sticas y target
- F-score: Estad√≠stico F de ANOVA para clasificaci√≥n
- RFE: Eliminaci√≥n recursiva usando Random Forest
- SelectFromModel: Selecci√≥n basada en importancia de XGBoost
    
La selecci√≥n de caracter√≠sticas puede mejorar el rendimiento eliminando ruido y caracter√≠sticas irrelevantes, y reduce el riesgo de overfitting.
    

In [55]:
def experiment_feature_selection(X_train, X_test, y_train, y_test):
    """
    Par√°metros:
    - X_train: DataFrame con caracter√≠sticas de entrenamiento
    - X_test: DataFrame con caracter√≠sticas de test
    - y_train: Series con etiquetas de entrenamiento
    - y_test: Series con etiquetas de test
    
    Retorna:
    - Diccionario con resultados de todas las variaciones del experimento
    """
    print("üéØ Experimento 6: Selecci√≥n de caracter√≠sticas")
    print("-" * 50)
    
    # 6.1 Mutual Information
    # Mide la dependencia estad√≠stica entre cada caracter√≠stica y el target
    # Captura relaciones tanto lineales como no lineales
    print("Aplicando selecci√≥n por Mutual Information...")
    k_features_mi = min(20, X_train.shape[1])
    
    selector_mi = SelectKBest(score_func=mutual_info_classif, k=k_features_mi)
    X_train_mi = selector_mi.fit_transform(X_train, y_train)
    X_test_mi = selector_mi.transform(X_test)
    
    # Obtener scores de mutual information
    mi_scores = selector_mi.scores_
    selected_features_mi = X_train.columns[selector_mi.get_support()]
    
    print(f"  Mutual Information: {X_train.shape[1]} ‚Üí {k_features_mi} caracter√≠sticas")
    print(f"  Score promedio seleccionadas: {np.mean(mi_scores[selector_mi.get_support()]):.3f}")
    print(f"  Top 3 caracter√≠sticas: {selected_features_mi[:3].tolist()}")
    
    # 6.2 F-score (ANOVA F-test)
    # Estad√≠stico F que mide la diferencia entre medias de grupos
    # Efectivo para caracter√≠sticas con relaciones lineales con el target
    print("Aplicando selecci√≥n por F-score...")
    k_features_f = min(20, X_train.shape[1])
    
    selector_f = SelectKBest(score_func=f_classif, k=k_features_f)
    X_train_f = selector_f.fit_transform(X_train, y_train)
    X_test_f = selector_f.transform(X_test)
    
    # Obtener F-scores
    f_scores = selector_f.scores_
    selected_features_f = X_train.columns[selector_f.get_support()]
    
    print(f"  F-score: {X_train.shape[1]} ‚Üí {k_features_f} caracter√≠sticas")
    print(f"  F-score promedio seleccionadas: {np.mean(f_scores[selector_f.get_support()]):.3f}")
    print(f"  Top 3 caracter√≠sticas: {selected_features_f[:3].tolist()}")
    
    # 6.3 RFE (Recursive Feature Elimination) con Random Forest
    # Elimina caracter√≠sticas recursivamente bas√°ndose en importancia del modelo
    # Considera interacciones entre caracter√≠sticas
    print("Aplicando RFE con Random Forest...")
    n_features_rfe = min(15, X_train.shape[1])
    
    # Usar Random Forest como estimador base
    rf_estimator = RandomForestClassifier(n_estimators=50, random_state=42)
    rf_selector = RFE(rf_estimator, n_features_to_select=n_features_rfe)
    
    X_train_rfe = rf_selector.fit_transform(X_train, y_train)
    X_test_rfe = rf_selector.transform(X_test)
    
    # Obtener caracter√≠sticas seleccionadas
    selected_features_rfe = X_train.columns[rf_selector.get_support()]
    feature_rankings = rf_selector.ranking_
    
    print(f"  RFE: {X_train.shape[1]} ‚Üí {n_features_rfe} caracter√≠sticas")
    print(f"  Caracter√≠sticas seleccionadas: {selected_features_rfe[:3].tolist()}")
    
    # 6.4 SelectFromModel con XGBoost
    # Selecciona caracter√≠sticas bas√°ndose en importancia de XGBoost
    # Autom√°ticamente determina el umbral √≥ptimo
    print("Aplicando SelectFromModel con XGBoost...")
    
    # Entrenar XGBoost para obtener importancias
    xgb_estimator = xgb.XGBClassifier(n_estimators=50, random_state=42)
    xgb_selector = SelectFromModel(xgb_estimator)
    
    X_train_xgb = xgb_selector.fit_transform(X_train, y_train)
    X_test_xgb = xgb_selector.transform(X_test)
    
    # Obtener informaci√≥n sobre la selecci√≥n
    selected_features_xgb = X_train.columns[xgb_selector.get_support()]
    feature_importances = xgb_selector.estimator_.feature_importances_
    
    print(f"  XGBoost: {X_train.shape[1]} ‚Üí {X_train_xgb.shape[1]} caracter√≠sticas")
    print(f"  Umbral autom√°tico: {xgb_selector.threshold_:.4f}")
    print(f"  Top 3 caracter√≠sticas: {selected_features_xgb[:3].tolist()}")
    
    # 6.5 An√°lisis de consenso
    # Identifica caracter√≠sticas seleccionadas por m√∫ltiples m√©todos
    print("Analizando consenso entre m√©todos...")
    
    all_selected = set(selected_features_mi) | set(selected_features_f) | \
                  set(selected_features_rfe) | set(selected_features_xgb)
    
    consensus_features = set(selected_features_mi) & set(selected_features_f) & \
                        set(selected_features_rfe) & set(selected_features_xgb)
    
    print(f"  Caracter√≠sticas √∫nicas total: {len(all_selected)}")
    print(f"  Caracter√≠sticas en consenso: {len(consensus_features)}")
    if len(consensus_features) > 0:
        print(f"  Consenso: {list(consensus_features)[:5]}")
    
    # Preparar experimentos para evaluaci√≥n
    experiments = {
        'mutual_info_selection': (X_train_mi, X_test_mi),
        'f_score_selection': (X_train_f, X_test_f),
        'rfe_selection': (X_train_rfe, X_test_rfe),
        'xgb_selection': (X_train_xgb, X_test_xgb)
    }
    
    # Evaluar todas las variaciones
    results = evaluate_multiple_experiments(experiments, "feature_selection", y_train, y_test)
    
    print(f"\nMejor resultado en selecci√≥n de caracter√≠sticas:")
    best_method = max(results.items(), key=lambda x: x[1]['accuracy'])
    print(f"  {best_method[0]}: {best_method[1]['accuracy']:.4f}")
    
    return results

### Funciones de evaluaci√≥n, resumen y ejecuci√≥n de experimentos

En este bloque se agrupan las funciones principales para la gesti√≥n de los experimentos de ingenier√≠a de caracter√≠sticas:

- **evaluate_experiment:** Eval√∫a un conjunto de caracter√≠sticas transformadas usando un modelo de regresi√≥n log√≠stica y calcula el accuracy.
- **evaluate_multiple_experiments:** Permite evaluar varias variantes de un mismo tipo de experimento y organiza los resultados en el diccionario global.
- **print_experiment_summary:** Muestra un resumen de los resultados de todos los experimentos de ingenier√≠a de caracter√≠sticas, incluyendo ranking, estad√≠sticas y recomendaciones.
- **run_all_experiments:** Ejecuta en secuencia todos los experimentos de feature engineering, almacena los resultados globales y los guarda en un archivo JSON para su posterior an√°lisis.

In [56]:
def evaluate_experiment(X_train_exp, X_test_exp, y_train, y_test, experiment_name):
    """
    Funci√≥n auxiliar para evaluar un experimento espec√≠fico usando Regresi√≥n Log√≠stica
    
    Par√°metros:
    - X_train_exp: Datos de entrenamiento transformados
    - X_test_exp: Datos de test transformados  
    - y_train: Etiquetas de entrenamiento
    - y_test: Etiquetas de test
    - experiment_name: Nombre del experimento para mostrar en resultados
    
    Retorna:
    - Diccionario con accuracy, n√∫mero de features y objetos entrenados
    """
    try:
        # Escalado de caracter√≠sticas usando StandardScaler
        scaler = StandardScaler()
        X_train_scaled = scaler.fit_transform(X_train_exp)
        X_test_scaled = scaler.transform(X_test_exp)
        
        # Entrenamiento del modelo de Regresi√≥n Log√≠stica
        lr = LogisticRegression(max_iter=1000, random_state=42)
        lr.fit(X_train_scaled, y_train)
        
        # Predicci√≥n y evaluaci√≥n
        y_pred = lr.predict(X_test_scaled)
        accuracy = accuracy_score(y_test, y_pred)
        
        result = {
            'accuracy': accuracy,
            'n_features': X_train_exp.shape[1],
            'model': lr,
            'scaler': scaler
        }
        
        print(f"  {experiment_name}: {accuracy:.4f} (features: {X_train_exp.shape[1]})")
        return result
        
    except Exception as e:
        print(f"  {experiment_name}: Error - {str(e)}")
        return {'accuracy': 0, 'error': str(e)}

def evaluate_multiple_experiments(experiments, experiment_type, y_train, y_test):
    """
    Funci√≥n auxiliar para evaluar m√∫ltiples variaciones de un tipo de experimento
    
    Par√°metros:
    - experiments: Diccionario con nombre_experimento: (X_train, X_test)
    - experiment_type: Tipo de experimento (para organizar resultados)
    - y_train: Etiquetas de entrenamiento
    - y_test: Etiquetas de test
    
    Retorna:
    - Diccionario con resultados de todas las variaciones
    """
    results = {}
    
    for name, (X_train_exp, X_test_exp) in experiments.items():
        result = evaluate_experiment(X_train_exp, X_test_exp, y_train, y_test, name)
        results[name] = result
    
    global_results[experiment_type] = results
    return results

def print_experiment_summary():
    """
    Imprime un resumen completo de todos los experimentos ejecutados
    
    Analiza los resultados almacenados en global_results y muestra:
    - Ranking de todos los m√©todos por accuracy
    - Comparaci√≥n de n√∫mero de caracter√≠sticas
    - Mejores m√©todos por categor√≠a
    - Estad√≠sticas generales de los experimentos
    """
    print("\n" + "="*80)
    print("üìã RESUMEN COMPLETO DE EXPERIMENTOS DE FEATURE ENGINEERING")
    print("="*80)
    
    if not global_results:
        print("No se han ejecutado experimentos a√∫n.")
        return
    
    # Recopilar todos los resultados
    all_results = []
    for exp_type, results in global_results.items():
        for method_name, result in results.items():
            if 'accuracy' in result and result['accuracy'] > 0:
                all_results.append({
                    'experiment': exp_type,
                    'method': method_name,
                    'accuracy': result['accuracy'],
                    'n_features': result.get('n_features', 0)
                })
    
    if not all_results:
        print("No hay resultados v√°lidos para mostrar.")
        return
    
    # Ordenar por accuracy descendente
    all_results.sort(key=lambda x: x['accuracy'], reverse=True)
    
    # Mostrar ranking general
    print(f"\nüèÜ RANKING GENERAL (Top 15)")
    print("-" * 80)
    print(f"{'Rank':<5} {'Experiment':<20} {'Method':<25} {'Accuracy':<10} {'Features':<8}")
    print("-" * 80)
    
    for i, result in enumerate(all_results[:15], 1):
        print(f"{i:<5} {result['experiment']:<20} {result['method']:<25} "
              f"{result['accuracy']:.4f}    {result['n_features']:<8}")
    
    # Estad√≠sticas por categor√≠a
    print(f"\nüìä MEJORES M√âTODOS POR CATEGOR√çA")
    print("-" * 80)
    
    categories = {}
    for result in all_results:
        exp_type = result['experiment']
        if exp_type not in categories:
            categories[exp_type] = []
        categories[exp_type].append(result)
    
    for category, results in categories.items():
        best_result = max(results, key=lambda x: x['accuracy'])
        print(f"{category:<20}: {best_result['method']:<25} "
              f"({best_result['accuracy']:.4f}, {best_result['n_features']} features)")
    
    # Estad√≠sticas generales
    print(f"\nüìà ESTAD√çSTICAS GENERALES")
    print("-" * 80)
    
    accuracies = [r['accuracy'] for r in all_results]
    feature_counts = [r['n_features'] for r in all_results]
    
    print(f"Total de experimentos ejecutados: {len(all_results)}")
    print(f"Accuracy promedio: {np.mean(accuracies):.4f}")
    print(f"Accuracy m√°xima: {np.max(accuracies):.4f}")
    print(f"Accuracy m√≠nima: {np.min(accuracies):.4f}")
    print(f"Desviaci√≥n est√°ndar: {np.std(accuracies):.4f}")
    print(f"N√∫mero promedio de caracter√≠sticas: {np.mean(feature_counts):.1f}")
    print(f"Rango de caracter√≠sticas: {np.min(feature_counts)} - {np.max(feature_counts)}")
    
    # An√°lisis de eficiencia (accuracy vs n√∫mero de caracter√≠sticas)
    print(f"\n‚ö° AN√ÅLISIS DE EFICIENCIA")
    print("-" * 80)
    
    # Encontrar m√©todos con alta accuracy y pocas caracter√≠sticas
    efficient_methods = [r for r in all_results if r['accuracy'] > np.mean(accuracies) 
                        and r['n_features'] <= np.mean(feature_counts)]
    
    if efficient_methods:
        print("M√©todos eficientes (alta accuracy, pocas caracter√≠sticas):")
        for method in efficient_methods[:5]:
            efficiency_score = method['accuracy'] / (method['n_features'] + 1)
            print(f"  {method['method']:<25}: {method['accuracy']:.4f} "
                  f"({method['n_features']} features, score: {efficiency_score:.4f})")
    
    # Recomendaciones
    print(f"\nüí° RECOMENDACIONES")
    print("-" * 80)
    
    best_overall = all_results[0]
    print(f"ü•á Mejor m√©todo general: {best_overall['method']}")
    print(f"   Categor√≠a: {best_overall['experiment']}")
    print(f"   Accuracy: {best_overall['accuracy']:.4f}")
    print(f"   Caracter√≠sticas: {best_overall['n_features']}")
    
    if efficient_methods:
        best_efficient = max(efficient_methods, key=lambda x: x['accuracy'])
        print(f"üöÄ Mejor m√©todo eficiente: {best_efficient['method']}")
        print(f"   Accuracy: {best_efficient['accuracy']:.4f}")
        print(f"   Caracter√≠sticas: {best_efficient['n_features']}")

def run_all_experiments(X_train, X_test, y_train, y_test):
    """
    Ejecuta todos los experimentos de Feature Engineering en secuencia
    
    Esta funci√≥n ejecuta sistem√°ticamente todos los experimentos disponibles:
    1. Baseline con caracter√≠sticas originales
    2. Caracter√≠sticas basadas en √°rboles
    3. Reducci√≥n de dimensionalidad
    4. Interacciones entre caracter√≠sticas
    5. Caracter√≠sticas de clustering
    6. Caracter√≠sticas de detecci√≥n de anomal√≠as
    7. Selecci√≥n de caracter√≠sticas
    
    Par√°metros:
    - X_train: DataFrame con caracter√≠sticas de entrenamiento
    - X_test: DataFrame con caracter√≠sticas de test
    - y_train: Series con etiquetas de entrenamiento
    - y_test: Series con etiquetas de test
    
    Retorna:
    - Diccionario con todos los resultados organizados por experimento
    """
    print("üî¨ INICIANDO SUITE COMPLETA DE EXPERIMENTOS")
    print("="*80)
    print(f"Datos de entrenamiento: {X_train.shape}")
    print(f"Datos de test: {X_test.shape}")
    print(f"Distribuci√≥n de clases: {np.bincount(y_train)}")
    print("="*80)
    
    # Limpiar resultados globales
    global_results.clear()
    
    # 1. Experimento Baseline
    print(f"\n{'='*20} EXPERIMENTO 0: BASELINE {'='*20}")
    baseline_results = experiment_baseline(X_train, X_test, y_train, y_test)
    
    # 2. Experimento de √°rboles
    print(f"\n{'='*20} EXPERIMENTO 1: √ÅRBOLES {'='*20}")
    tree_results = experiment_tree_based_features(X_train, X_test, y_train, y_test)
    
    # 3. Experimento de reducci√≥n de dimensionalidad
    print(f"\n{'='*20} EXPERIMENTO 2: DIMENSIONALIDAD {'='*20}")
    dim_results = experiment_dimensionality_reduction(X_train, X_test, y_train, y_test)
    
    # 4. Experimento de interacciones
    print(f"\n{'='*20} EXPERIMENTO 3: INTERACCIONES {'='*20}")
    interaction_results = experiment_feature_interactions(X_train, X_test, y_train, y_test)
    
    # 5. Experimento de clustering
    print(f"\n{'='*20} EXPERIMENTO 4: CLUSTERING {'='*20}")
    clustering_results = experiment_clustering_features(X_train, X_test, y_train, y_test)
    
    # 6. Experimento de detecci√≥n de anomal√≠as
    print(f"\n{'='*20} EXPERIMENTO 5: ANOMAL√çAS {'='*20}")
    anomaly_results = experiment_anomaly_features(X_train, X_test, y_train, y_test)
    
    # 7. Experimento de selecci√≥n de caracter√≠sticas
    print(f"\n{'='*20} EXPERIMENTO 6: SELECCI√ìN {'='*20}")
    selection_results = experiment_feature_selection(X_train, X_test, y_train, y_test)
    
    # Mostrar resumen final
    print_experiment_summary()
    
    # Guardar resultados en archivo JSON
    output_path = "feature_engineering_results.json"
    serializable_results = {
        exp: {
            method: {
                k: float(v) if isinstance(v, (np.floating, np.float32, np.float64)) else v
                for k, v in result.items() if k in ['accuracy', 'n_features']
            }
            for method, result in methods.items()
        }
        for exp, methods in global_results.items()
    }
    with open(output_path, "w") as f:
        json.dump(serializable_results, f, indent=2)
    print(f"\nResultados guardados en {output_path}")
    
    return global_results

def get_best_features(X_train, X_test, y_train, y_test, method_name=None):
    """
    Obtiene las mejores caracter√≠sticas transformadas bas√°ndose en los resultados
    
    Par√°metros:
    - X_train, X_test, y_train, y_test: Datos originales
    - method_name: Nombre espec√≠fico del m√©todo (opcional)
    
    Retorna:
    - Tupla con (X_train_transformed, X_test_transformed) del mejor m√©todo
    """
    if not global_results:
        print("No hay resultados disponibles. Ejecuta los experimentos primero.")
        return None, None
    
    # Encontrar el mejor m√©todo
    best_accuracy = 0
    best_method = None
    best_experiment = None
    
    for exp_type, results in global_results.items():
        for method, result in results.items():
            if method_name and method != method_name:
                continue
            if result.get('accuracy', 0) > best_accuracy:
                best_accuracy = result['accuracy']
                best_method = method
                best_experiment = exp_type
    
    if best_method is None:
        print("No se encontr√≥ el m√©todo especificado.")
        return None, None
    
    print(f"Aplicando mejor m√©todo: {best_method} (accuracy: {best_accuracy:.4f})")
    
    # Reejecutar el experimento espec√≠fico para obtener las caracter√≠sticas
    if best_experiment == "baseline":
        return X_train, X_test
    elif best_experiment == "tree_based":
        results = experiment_tree_based_features(X_train, X_test, y_train, y_test)
    elif best_experiment == "dimensionality_reduction":
        results = experiment_dimensionality_reduction(X_train, X_test, y_train, y_test)
    elif best_experiment == "feature_interactions":
        results = experiment_feature_interactions(X_train, X_test, y_train, y_test)
    elif best_experiment == "clustering":
        results = experiment_clustering_features(X_train, X_test, y_train, y_test)
    elif best_experiment == "anomaly_detection":
        results = experiment_anomaly_features(X_train, X_test, y_train, y_test)
    elif best_experiment == "feature_selection":
        results = experiment_feature_selection(X_train, X_test, y_train, y_test)
    
    # Nota: Esta funci√≥n devuelve None porque requerir√≠a reejecutar
    # los experimentos para obtener las caracter√≠sticas transformadas
    print("Para obtener las caracter√≠sticas transformadas, reejecutar el experimento espec√≠fico.")
    return None, None


### Ejecuci√≥n de los experimentos


In [57]:
# Experimento baseline
baseline_results = experiment_baseline(X_train, X_test, y_train, y_test)

üìä Experimento Baseline: Caracter√≠sticas originales
--------------------------------------------------
  original_features: 0.8207 (features: 32)

Baseline establecido con 32 caracter√≠sticas originales
Accuracy baseline: 0.8207


In [58]:
# Experimento √°rboles
tree_results = experiment_tree_based_features(X_train, X_test, y_train, y_test)

üå≥ Experimento 1: Caracter√≠sticas basadas en √°rboles
--------------------------------------------------
Generando caracter√≠sticas con XGBoost leaf indices...
Generando caracter√≠sticas con Random Forest leaf indices...
Combinando caracter√≠sticas de XGBoost y Random Forest...
Calculando estad√≠sticas derivadas de hojas...
  xgb_leaves: 0.9827 (features: 100)
  rf_leaves: 0.9680 (features: 100)
  combined_leaves: 0.9827 (features: 200)
  leaf_distances: 0.7776 (features: 1)

Mejor resultado en tree-based features:
  xgb_leaves: 0.9827


In [59]:
# Experimento dimensionalidad
dim_results = experiment_dimensionality_reduction(X_train, X_test, y_train, y_test)

üìâ Experimento 2: Reducci√≥n de dimensionalidad
--------------------------------------------------
Aplicando PCA...
  PCA: 32 ‚Üí 32 componentes
  Varianza explicada: 1.000 (primeros 5 componentes)
Aplicando TruncatedSVD...
  SVD: 32 ‚Üí 31 componentes
  Varianza explicada: 1.000 (primeros 5 componentes)
Aplicando FastICA...
  ICA: 32 ‚Üí 20 componentes independientes
Combinando caracter√≠sticas originales con PCA...
  Combinado: 32 + 32 = 64 caracter√≠sticas
  pca_only: 0.8156 (features: 32)
  svd_only: 0.8187 (features: 31)
  ica_only: 0.7816 (features: 20)
  original_plus_pca: 0.8492 (features: 64)

Mejor resultado en reducci√≥n de dimensionalidad:
  original_plus_pca: 0.8492


In [60]:
# Experimento interacciones
interaction_results = experiment_feature_interactions(X_train, X_test, y_train, y_test)

üîÑ Experimento 3: Interacciones entre caracter√≠sticas
--------------------------------------------------
Generando caracter√≠sticas polin√≥micas...
  Polin√≥micas: 32 ‚Üí 528 caracter√≠sticas
Generando interacciones manuales...
  Interacciones manuales: 45 nuevas caracter√≠sticas
Generando ratios entre caracter√≠sticas...
  Ratios: 10 nuevas caracter√≠sticas
  polynomial_features: 0.8883 (features: 528)
  manual_interactions: 0.7918 (features: 45)
  feature_ratios: 0.7816 (features: 10)

Mejor resultado en interacciones de caracter√≠sticas:
  polynomial_features: 0.8883


In [61]:
# Experimento clustering
clustering_results = experiment_clustering_features(X_train, X_test, y_train, y_test)

üéØ Experimento 4: Caracter√≠sticas basadas en clustering
--------------------------------------------------
Aplicando K-Means clustering...
  K-Means: 10 clusters creados
  Distribuci√≥n de clusters en entrenamiento: [7139    1    1    1   27    1  682    2    7   11]
Calculando distancias a centroides...
  Distancias: 10 caracter√≠sticas de distancia
Calculando centroides por clase...
  Datos de fraude: 1752 muestras
  Datos normales: 6120 muestras
  Distancias por clase: 2 caracter√≠sticas (dist_fraud, dist_normal)
  Distancia promedio a centroide fraude: 217445747.372
  Distancia promedio a centroide normal: 313206800.770
  kmeans_labels: 0.8603 (features: 1)
  kmeans_distances: 0.7831 (features: 10)
  class_distances: 0.7831 (features: 2)

Mejor resultado en caracter√≠sticas de clustering:
  kmeans_labels: 0.8603


In [62]:
# Experimento anomal√≠as
anomaly_results = experiment_anomaly_features(X_train, X_test, y_train, y_test)

üö® Experimento 5: Caracter√≠sticas de detecci√≥n de anomal√≠as
--------------------------------------------------
Aplicando Isolation Forest...
  Isolation Forest: 1 caracter√≠stica de anomal√≠a
  Score promedio entrenamiento: 0.152
  Score promedio test: 0.153
Calculando distancias de Mahalanobis...
  Mahalanobis: 1 caracter√≠stica de distancia
  Distancia promedio entrenamiento: 0.000
  Distancia promedio test: 0.000
Calculando estad√≠sticas locales (Z-scores)...
  Estad√≠sticas locales: 32 caracter√≠sticas Z-score
Creando estad√≠sticas agregadas...
  Estad√≠sticas agregadas: 2 caracter√≠sticas
  isolation_forest: 0.7760 (features: 1)
  mahalanobis_distance: 0.7831 (features: 1)
  local_statistics: Error - Input X contains infinity or a value too large for dtype('float64').
  aggregated_stats: Error - Input X contains infinity or a value too large for dtype('float64').

Mejor resultado en detecci√≥n de anomal√≠as:
  mahalanobis_distance: 0.7831


In [63]:
# Experimento selecci√≥n
selection_results = experiment_feature_selection(X_train, X_test, y_train, y_test)

üéØ Experimento 6: Selecci√≥n de caracter√≠sticas
--------------------------------------------------
Aplicando selecci√≥n por Mutual Information...
  Mutual Information: 32 ‚Üí 20 caracter√≠sticas
  Score promedio seleccionadas: 0.197
  Top 3 caracter√≠sticas: ['Time Diff between first and last (Mins)', 'Received Tnx', 'Unique Received From Addresses']
Aplicando selecci√≥n por F-score...
  F-score: 32 ‚Üí 20 caracter√≠sticas
  F-score promedio seleccionadas: 50.712
  Top 3 caracter√≠sticas: ['Avg min between sent tnx', 'Avg min between received tnx', 'Time Diff between first and last (Mins)']
Aplicando RFE con Random Forest...
  RFE: 32 ‚Üí 15 caracter√≠sticas
  Caracter√≠sticas seleccionadas: ['Avg min between received tnx', 'Time Diff between first and last (Mins)', 'Unique Received From Addresses']
Aplicando SelectFromModel con XGBoost...
  XGBoost: 32 ‚Üí 5 caracter√≠sticas
  Umbral autom√°tico: 0.0312
  Top 3 caracter√≠sticas: ['Time Diff between first and last (Mins)', 'total et

In [64]:
# Resumen final
print_experiment_summary()


üìã RESUMEN COMPLETO DE EXPERIMENTOS DE FEATURE ENGINEERING

üèÜ RANKING GENERAL (Top 15)
--------------------------------------------------------------------------------
Rank  Experiment           Method                    Accuracy   Features
--------------------------------------------------------------------------------
1     tree_based           xgb_leaves                0.9827    100     
2     tree_based           combined_leaves           0.9827    200     
3     tree_based           rf_leaves                 0.9680    100     
4     feature_interactions polynomial_features       0.8883    528     
5     clustering           kmeans_labels             0.8603    1       
6     dimensionality_reduction original_plus_pca         0.8492    64      
7     baseline             original_features         0.8207    32      
8     dimensionality_reduction svd_only                  0.8187    31      
9     dimensionality_reduction pca_only                  0.8156    32      
10    featur

In [65]:

# Ejecutar todo de una vez 
all_results = run_all_experiments(X_train, X_test, y_train, y_test)

üî¨ INICIANDO SUITE COMPLETA DE EXPERIMENTOS
Datos de entrenamiento: (7872, 32)
Datos de test: (1969, 32)
Distribuci√≥n de clases: [6120 1752]

üìä Experimento Baseline: Caracter√≠sticas originales
--------------------------------------------------
  original_features: 0.8207 (features: 32)

Baseline establecido con 32 caracter√≠sticas originales
Accuracy baseline: 0.8207

üå≥ Experimento 1: Caracter√≠sticas basadas en √°rboles
--------------------------------------------------
Generando caracter√≠sticas con XGBoost leaf indices...
Generando caracter√≠sticas con Random Forest leaf indices...
Combinando caracter√≠sticas de XGBoost y Random Forest...
Calculando estad√≠sticas derivadas de hojas...
  xgb_leaves: 0.9827 (features: 100)
  rf_leaves: 0.9680 (features: 100)
  combined_leaves: 0.9827 (features: 200)
  leaf_distances: 0.7776 (features: 1)

Mejor resultado en tree-based features:
  xgb_leaves: 0.9827

üìâ Experimento 2: Reducci√≥n de dimensionalidad
--------------------------