# Aegis Fraud Detector - Exploratory Data Analysis (EDA)

**Sprint 1.1**: An√°lisis Exploratorio de Datos Riguroso  
**Dataset**: IEEE-CIS Fraud Detection  
**Fecha**: Agosto 2025  
**Metodolog√≠a**: EDA basado en scripts versionados para garantizar reproducibilidad

## Objetivos del An√°lisis

1. **Comprensi√≥n profunda del dataset**: Estructura, tipos de datos, y calidad general
2. **An√°lisis de la variable objetivo**: Prevalencia de fraude y patrones temporales
3. **Exploraci√≥n de features**: Distribuciones, correlaciones, y valores faltantes
4. **Identificaci√≥n de insights**: Patrones, anomal√≠as, y oportunidades de feature engineering
5. **Documentaci√≥n de hallazgos**: Base para decisiones de modelado futuras

---

## 1. Configuraci√≥n e Importaci√≥n de Librer√≠as

**Nota importante**: Este notebook utiliza exclusivamente funciones del m√≥dulo `src/data/exploration.py` para garantizar la reproducibilidad y el versionado del c√≥digo de an√°lisis.

In [1]:
# Configuraci√≥n del entorno
import sys
import os
from pathlib import Path

# Agregar el directorio src al path para importar nuestros m√≥dulos
project_root = Path.cwd().parent if Path.cwd().name == 'notebooks' else Path.cwd()
sys.path.append(str(project_root / 'src'))

# Importaciones est√°ndar
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from datetime import datetime

# Importar nuestro m√≥dulo de exploraci√≥n personalizado
from data.exploration import FraudDataExplorer, create_eda_plotting_functions

# Configuraci√≥n de visualizaci√≥n
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 10
sns.set_style("whitegrid")
warnings.filterwarnings('ignore')

# Configurar pandas para mostrar m√°s columnas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

print("‚úÖ Configuraci√≥n completada")
print(f"üìÇ Directorio de trabajo: {os.getcwd()}")
print(f"üìä Versi√≥n de pandas: {pd.__version__}")
print(f"üîç Versi√≥n de numpy: {np.__version__}")

‚úÖ Configuraci√≥n completada
üìÇ Directorio de trabajo: c:\Users\Gat\Documents\GitHub\aegis-fraud-detector\notebooks
üìä Versi√≥n de pandas: 2.3.1
üîç Versi√≥n de numpy: 2.2.6


## 2. Inicializaci√≥n del Explorador de Datos

Utilizamos la clase `FraudDataExplorer` para realizar todos los an√°lisis de manera estructurada y reproducible.

In [2]:
# Inicializar el explorador de datos
data_path = project_root / "data" / "01_raw"
explorer = FraudDataExplorer(data_path=str(data_path))

print(f"üîç Explorador inicializado")
print(f"üìÅ Ruta de datos: {data_path}")
print(f"üìã Verificando archivos disponibles...")

# Verificar que los archivos existan
required_files = [
    "train_transaction.csv",
    "train_identity.csv",
    "test_transaction.csv",
    "test_identity.csv"
]

for file in required_files:
    file_path = data_path / file
    if file_path.exists():
        file_size = file_path.stat().st_size / (1024**2)  # MB
        print(f"  ‚úÖ {file} ({file_size:.1f} MB)")
    else:
        print(f"  ‚ùå {file} - No encontrado")

üîç Explorador inicializado
üìÅ Ruta de datos: c:\Users\Gat\Documents\GitHub\aegis-fraud-detector\data\01_raw
üìã Verificando archivos disponibles...
  ‚úÖ train_transaction.csv (651.7 MB)
  ‚úÖ train_identity.csv (25.3 MB)
  ‚úÖ test_transaction.csv (584.8 MB)
  ‚úÖ test_identity.csv (24.6 MB)


## 3. Carga y Revisi√≥n General de Datasets

Cargamos todos los datasets del IEEE-CIS Fraud Detection y realizamos una primera inspecci√≥n.

In [None]:
# Cargar todos los datasets
print("üîÑ Cargando datasets...")
datasets = explorer.load_datasets()

print("\nüìä RESUMEN DE DATASETS CARGADOS:")
print("=" * 50)

for name, df in datasets.items():
    memory_usage = df.memory_usage(deep=True).sum() / (1024**2)
    print(f"\n{name.upper()}:")
    print(f"  üìè Dimensiones: {df.shape}")
    print(f"  üíæ Memoria: {memory_usage:.1f} MB")
    print(f"  üî¢ Tipos de datos: {dict(df.dtypes.value_counts())}")
    
    if name == 'merged_train':
        print(f"  üéØ Variable objetivo (isFraud): {df['isFraud'].value_counts().to_dict()}")

print("\n‚úÖ Carga completada exitosamente")

## 4. An√°lisis Comprehensive del Dataset

Realizamos un an√°lisis detallado de la estructura y composici√≥n del dataset.

In [None]:
# Realizar an√°lisis de overview completo
print("üîç Realizando an√°lisis comprehensive del dataset...")
overview_results = explorer.analyze_dataset_overview()

print("\nüìã AN√ÅLISIS DE ESTRUCTURA DEL DATASET:")
print("=" * 50)

# Mostrar dimensiones
print("\nüìè DIMENSIONES:")
for dataset_name, shape in overview_results['shape'].items():
    print(f"  {dataset_name}: {shape[0]:,} filas √ó {shape[1]} columnas")

# Mostrar uso de memoria
print("\nüíæ USO DE MEMORIA:")
for dataset_name, memory in overview_results['memory_usage'].items():
    print(f"  {dataset_name}: {memory:.1f} MB")

# Mostrar categor√≠as de features
print("\nüè∑Ô∏è CATEGOR√çAS DE FEATURES:")
for category, count in overview_results['feature_counts'].items():
    print(f"  {category}: {count} features")

# Detalles de las categor√≠as m√°s importantes
print("\nüîç FEATURES POR CATEGOR√çA:")
important_categories = ['card_features', 'categorical_features', 'continuous_features']
for category in important_categories:
    features = overview_results['feature_categories'].get(category, [])
    print(f"\n  {category.upper()}:")
    print(f"    Cantidad: {len(features)}")
    if features:
        print(f"    Ejemplos: {features[:5]}")
        if len(features) > 5:
            print(f"    ... y {len(features) - 5} m√°s")

## 5. An√°lisis de Valores Faltantes

Investigaci√≥n profunda de los patrones de valores faltantes en el dataset.

In [None]:
# An√°lisis comprehensive de valores faltantes
print("üîç Analizando patrones de valores faltantes...")
missing_results = explorer.analyze_missing_values()

print("\nüï≥Ô∏è AN√ÅLISIS DE VALORES FALTANTES:")
print("=" * 50)

for dataset_name, missing_info in missing_results.items():
    print(f"\nüìä {dataset_name.upper()}:")
    print(f"  Total features: {missing_info['total_features']}")
    print(f"  Features completas: {missing_info['complete_features']}")
    print(f"  Features con valores faltantes: {missing_info['features_with_missing']}")
    print(f"  Features con >90% faltantes: {missing_info['heavily_missing_features']}")
    print(f"  Features con 50-90% faltantes: {missing_info['moderately_missing_features']}")
    print(f"  Features con <50% faltantes: {missing_info['lightly_missing_features']}")
    
    # Mostrar top 10 features con m√°s valores faltantes
    top_missing = missing_info['missing_summary'].head(10)
    if len(top_missing) > 0:
        print(f"\n  üîù TOP 10 FEATURES CON M√ÅS VALORES FALTANTES:")
        for _, row in top_missing.iterrows():
            print(f"    {row['column']}: {row['missing_percentage']:.1f}% ({row['missing_count']:,} valores)")

## 6. An√°lisis Profundo de la Variable Objetivo (isFraud)

**Investigaci√≥n exhaustiva del fraude**: Prevalencia, patrones temporales, y caracter√≠sticas distintivas.

In [None]:
# An√°lisis profundo de la variable objetivo
print("üéØ Analizando variable objetivo (isFraud) en profundidad...")
target_results = explorer.analyze_target_variable()

print("\nüéØ AN√ÅLISIS DE LA VARIABLE OBJETIVO:")
print("=" * 50)

# Distribuci√≥n b√°sica
basic_dist = target_results['basic_distribution']
print(f"\nüìä DISTRIBUCI√ìN B√ÅSICA:")
print(f"  Total transacciones: {basic_dist['total_transactions']:,}")
print(f"  Transacciones fraudulentas: {basic_dist['fraud_transactions']:,}")
print(f"  Transacciones leg√≠timas: {basic_dist['legitimate_transactions']:,}")
print(f"  Tasa de fraude: {basic_dist['fraud_rate']:.3f}%")
print(f"  Ratio de desbalance: 1:{basic_dist['class_imbalance_ratio']:.0f}")

# An√°lisis de cantidad de transacciones
if 'amount_patterns' in target_results:
    amount_patterns = target_results['amount_patterns']
    print(f"\nüí∞ PATRONES EN MONTOS DE TRANSACCI√ìN:")
    print(f"  Monto mediano - Fraude: ${amount_patterns['median_fraud_amount']:.2f}")
    print(f"  Monto mediano - Leg√≠timo: ${amount_patterns['median_legit_amount']:.2f}")
    print(f"  Correlaci√≥n monto-fraude: {amount_patterns['amount_correlation_with_fraud']:.4f}")
    
    print(f"\n  üìà ESTAD√çSTICAS DE MONTOS FRAUDULENTOS:")
    fraud_stats = amount_patterns['fraud_amount_stats']
    print(f"    Media: ${fraud_stats['mean']:.2f}")
    print(f"    Mediana: ${fraud_stats['50%']:.2f}")
    print(f"    Desv. est√°ndar: ${fraud_stats['std']:.2f}")
    print(f"    Rango: ${fraud_stats['min']:.2f} - ${fraud_stats['max']:.2f}")

# An√°lisis temporal
if 'temporal_patterns' in target_results:
    temporal = target_results['temporal_patterns']
    print(f"\n‚è∞ PATRONES TEMPORALES:")
    print(f"  Hora pico de fraude: {temporal['peak_fraud_hour']:.0f}:00")
    print(f"  D√≠a pico de fraude: {int(temporal['peak_fraud_day'])} (0=Lunes, 6=Domingo)")
    print(f"  Varianza de fraude por hora: {temporal['fraud_rate_variance_hourly']:.6f}")
    print(f"  Varianza de fraude por d√≠a: {temporal['fraud_rate_variance_daily']:.6f}")

## 7. Visualizaci√≥n de Patrones de la Variable Objetivo

Generamos visualizaciones para entender mejor los patrones de fraude.

In [None]:
# Crear funciones de plotting
plotting_functions = create_eda_plotting_functions()

# Visualizar distribuci√≥n de la variable objetivo
print("üìà Generando visualizaciones de la variable objetivo...")

# Gr√°fico de distribuci√≥n del fraude
fraud_counts = explorer.merged_train['isFraud'].value_counts()
plotting_functions['plot_target_distribution'](fraud_counts)

# Patrones temporales si est√°n disponibles
if 'temporal_patterns' in target_results:
    temporal = target_results['temporal_patterns']
    hourly_data = temporal['hourly_patterns']
    daily_data = temporal['daily_patterns']
    
    plotting_functions['plot_temporal_patterns'](hourly_data, daily_data)
    
    # Mostrar datos temporales en formato tabular
    print("\n‚è∞ DATOS TEMPORALES DETALLADOS:")
    print("\nüìä Fraude por hora del d√≠a:")
    print(hourly_data.round(4))
    
    print("\nüìä Fraude por d√≠a de la semana:")
    daily_data['day_name'] = ['Lun', 'Mar', 'Mi√©', 'Jue', 'Vie', 'S√°b', 'Dom']
    print(daily_data[['day_name', 'total_transactions', 'fraud_count', 'fraud_rate']].round(4))

## 8. An√°lisis de Distribuciones de Features

Exploraci√≥n de las distribuciones de las features m√°s importantes.

In [None]:
# An√°lisis de distribuciones de features
print("üîç Analizando distribuciones de features clave...")
distribution_results = explorer.analyze_feature_distributions(sample_size=10000)

print("\nüìä AN√ÅLISIS DE DISTRIBUCIONES:")
print("=" * 50)

# Mostrar estad√≠sticas de las features num√©ricas m√°s importantes
print("\nüî¢ TOP FEATURES NUM√âRICAS:")
numeric_features = {k: v for k, v in distribution_results.items() 
                   if k != 'categorical_analysis' and isinstance(v, dict)}

# Ordenar por importancia (menos valores faltantes y m√°s varianza)
feature_importance = []
for feature, stats in numeric_features.items():
    if 'missing_percentage' in stats and 'std' in stats:
        importance_score = (100 - stats['missing_percentage']) * np.log1p(stats['std'])
        feature_importance.append((feature, importance_score, stats))

feature_importance.sort(key=lambda x: x[1], reverse=True)

print(f"\nMostrando las top 10 features num√©ricas m√°s relevantes:")
for i, (feature, score, stats) in enumerate(feature_importance[:10]):
    print(f"\n{i+1}. {feature}:")
    print(f"    Media: {stats.get('mean', 'N/A'):.4f}")
    print(f"    Mediana: {stats.get('median', 'N/A'):.4f}")
    print(f"    Desv. est√°ndar: {stats.get('std', 'N/A'):.4f}")
    print(f"    Skewness: {stats.get('skewness', 'N/A'):.4f}")
    print(f"    Valores √∫nicos: {stats.get('unique_values', 'N/A')}")
    print(f"    Valores faltantes: {stats.get('missing_percentage', 'N/A'):.1f}%")
    print(f"    Outliers: {stats.get('outlier_percentage', 'N/A'):.1f}%")

# An√°lisis de features categ√≥ricas
if 'categorical_analysis' in distribution_results:
    categorical_stats = distribution_results['categorical_analysis']
    print(f"\nüè∑Ô∏è FEATURES CATEG√ìRICAS ANALIZADAS: {len(categorical_stats)}")
    
    for feature, stats in list(categorical_stats.items())[:5]:
        print(f"\n  {feature}:")
        print(f"    Valores √∫nicos: {stats['unique_values']}")
        print(f"    Valor m√°s frecuente: {stats['most_frequent']}")
        print(f"    Valores faltantes: {stats['missing_percentage']:.1f}%")

## 9. An√°lisis de Correlaciones

Exploraci√≥n de las correlaciones entre features y con la variable objetivo.

In [None]:
# An√°lisis de correlaciones
print("üîó Analizando correlaciones entre features...")
correlation_results = explorer.analyze_correlations(method='pearson')

print("\nüîó AN√ÅLISIS DE CORRELACIONES:")
print("=" * 50)

# Correlaciones m√°s fuertes con la variable objetivo
if 'target_correlations' in correlation_results:
    target_corrs = correlation_results['target_correlations']
    
    print("\nüéØ CORRELACIONES M√ÅS FUERTES CON isFraud:")
    print("\n  üìà Correlaciones positivas m√°s altas:")
    for feature, corr in list(target_corrs['top_positive'].items())[:10]:
        print(f"    {feature}: {corr:.4f}")
    
    print("\n  üìâ Correlaciones negativas m√°s fuertes:")
    negative_corrs = target_corrs['top_negative']
    for feature, corr in list(negative_corrs.items())[:10]:
        if corr < 0:  # Solo mostrar correlaciones negativas
            print(f"    {feature}: {corr:.4f}")

# Multicolinealidad
high_corrs = correlation_results.get('high_correlations', [])
print(f"\n‚ö†Ô∏è MULTICOLINEALIDAD DETECTADA:")
print(f"  Pares de features con correlaci√≥n > 0.8: {len(high_corrs)}")

if high_corrs:
    print("\n  üîç Ejemplos de alta correlaci√≥n:")
    for pair in high_corrs[:10]:  # Mostrar primeros 10
        print(f"    {pair['feature1']} ‚Üî {pair['feature2']}: {pair['correlation']:.4f}")
    
    if len(high_corrs) > 10:
        print(f"    ... y {len(high_corrs) - 10} pares m√°s")

## 10. Visualizaci√≥n de Correlaciones y Distribuciones

Heatmaps y distribuciones clave para insights visuales.

In [None]:
# Visualizar correlaciones
print("üìà Generando visualizaciones de correlaciones...")

# Heatmap de correlaciones
correlation_matrix = correlation_results['correlation_matrix']
plotting_functions['plot_correlation_heatmap'](correlation_matrix)

# Distribuci√≥n de montos de transacci√≥n
if 'TransactionAmt' in explorer.merged_train.columns:
    print("\nüí∞ Distribuci√≥n de montos de transacci√≥n:")
    fraud_amounts = explorer.merged_train[explorer.merged_train['isFraud'] == 1]['TransactionAmt']
    legit_amounts = explorer.merged_train[explorer.merged_train['isFraud'] == 0]['TransactionAmt']
    
    plotting_functions['plot_amount_distribution'](fraud_amounts, legit_amounts)
    
    # Estad√≠sticas de montos
    print(f"\nüìä Estad√≠sticas de montos de transacci√≥n:")
    print(f"\nFRAUDULENTAS:")
    print(fraud_amounts.describe())
    print(f"\nLEG√çTIMAS:")
    print(legit_amounts.describe())

## 11. Visualizaci√≥n de Patrones de Valores Faltantes

Matriz de valores faltantes para identificar patrones estructurales.

In [None]:
# Visualizar patrones de valores faltantes
print("üï≥Ô∏è Generando visualizaci√≥n de valores faltantes...")

# Matriz de valores faltantes
missing_data = missing_results['merged_train']['missing_value_heatmap_data']

# Tomar una muestra para visualizaci√≥n (demasiados datos para mostrar todos)
sample_size = min(5000, len(missing_data))
sample_missing = missing_data.sample(n=sample_size, random_state=42)

plotting_functions['plot_missing_value_matrix'](sample_missing)

# An√°lisis de patrones de missingness
print("\nüîç AN√ÅLISIS DE PATRONES DE VALORES FALTANTES:")
missing_summary = missing_results['merged_train']['missing_summary']

# Features completamente vac√≠as
completely_missing = missing_summary[missing_summary['missing_percentage'] > 99]
print(f"\n‚ùå Features casi completamente vac√≠as (>99% missing): {len(completely_missing)}")
if len(completely_missing) > 0:
    print("  Ejemplos:", completely_missing['column'].head().tolist())

# Features con patrones espec√≠ficos de missing
high_missing = missing_summary[(missing_summary['missing_percentage'] > 80) & 
                              (missing_summary['missing_percentage'] <= 99)]
print(f"\n‚ö†Ô∏è Features con alta proporci√≥n de valores faltantes (80-99%): {len(high_missing)}")

moderate_missing = missing_summary[(missing_summary['missing_percentage'] > 20) & 
                                  (missing_summary['missing_percentage'] <= 80)]
print(f"\nüìä Features con proporci√≥n moderada de valores faltantes (20-80%): {len(moderate_missing)}")

low_missing = missing_summary[(missing_summary['missing_percentage'] > 0) & 
                             (missing_summary['missing_percentage'] <= 20)]
print(f"\n‚úÖ Features con baja proporci√≥n de valores faltantes (0-20%): {len(low_missing)}")

## 12. Generaci√≥n de Reporte Comprehensive de EDA

Generamos un reporte completo con todos los hallazgos y recomendaciones.

In [None]:
# Generar visualizaciones y reporte final
print("üìã Generando reporte comprehensive de EDA...")

# Generar configuraciones de visualizaci√≥n
visualizations = explorer.generate_eda_visualizations()

# Generar reporte completo
eda_report = explorer.generate_eda_report()

print("\nüìã REPORTE EJECUTIVO DE EDA:")
print("=" * 50)

# Metadata del an√°lisis
metadata = eda_report['metadata']
print(f"\nüìÖ Fecha de an√°lisis: {metadata['analysis_date'][:19]}")
print(f"üìä Dataset: {metadata['dataset_version']}")
print(f"üîç Versi√≥n de an√°lisis: {metadata['analysis_version']}")
print(f"üìà Features analizadas: {metadata['total_features_analyzed']}")

# Resumen ejecutivo
exec_summary = eda_report['executive_summary']
print(f"\nüìã RESUMEN EJECUTIVO:")
for key, value in exec_summary.items():
    print(f"  {key}: {value}")

# Recomendaciones clave
recommendations = eda_report['recommendations']
print(f"\nüéØ RECOMENDACIONES CLAVE:")
for i, rec in enumerate(recommendations, 1):
    print(f"  {i}. {rec}")

print("\n‚úÖ An√°lisis EDA completado exitosamente!")

## 13. Hallazgos Clave y Insights para Feature Engineering

Documentaci√≥n de los insights m√°s importantes para las siguientes fases del proyecto.

In [None]:
# Resumir hallazgos clave para documentaci√≥n
print("üîç HALLAZGOS CLAVE PARA FEATURE ENGINEERING:")
print("=" * 50)

# An√°lisis de la clase objetivo
fraud_rate = target_results['basic_distribution']['fraud_rate']
class_ratio = target_results['basic_distribution']['class_imbalance_ratio']

print(f"\nüéØ DESBALANCE DE CLASES:")
print(f"  ‚Ä¢ Tasa de fraude extremadamente baja: {fraud_rate:.3f}%")
print(f"  ‚Ä¢ Ratio de desbalance: 1:{class_ratio:.0f}")
print(f"  ‚Ä¢ IMPLICACI√ìN: Necesidad cr√≠tica de t√©cnicas de balanceamento")

# Features con alta correlaci√≥n
if 'target_correlations' in correlation_results:
    top_features = list(correlation_results['target_correlations']['strongest_correlations'].keys())[:5]
    print(f"\nüîó FEATURES M√ÅS PREDICTIVAS:")
    for i, feature in enumerate(top_features, 1):
        corr_value = correlation_results['target_correlations']['strongest_correlations'][feature]
        print(f"  {i}. {feature}: {corr_value:.4f}")

# Patrones temporales
if 'temporal_patterns' in target_results:
    temporal = target_results['temporal_patterns']
    print(f"\n‚è∞ PATRONES TEMPORALES:")
    print(f"  ‚Ä¢ Hora pico de fraude: {temporal['peak_fraud_hour']:.0f}:00")
    print(f"  ‚Ä¢ Variaci√≥n horaria significativa: {temporal['fraud_rate_variance_hourly'] > 0.0001}")
    print(f"  ‚Ä¢ IMPLICACI√ìN: Features temporales son prometedoras")

# An√°lisis de valores faltantes
heavily_missing = missing_results['merged_train']['heavily_missing_features']
total_features = missing_results['merged_train']['total_features']

print(f"\nüï≥Ô∏è VALORES FALTANTES:")
print(f"  ‚Ä¢ Features con >90% valores faltantes: {heavily_missing}/{total_features}")
print(f"  ‚Ä¢ Proporci√≥n de features problem√°ticas: {(heavily_missing/total_features)*100:.1f}%")
print(f"  ‚Ä¢ IMPLICACI√ìN: Estrategia de limpieza y feature selection cr√≠tica")

# Multicolinealidad
multicollinear_pairs = len(correlation_results.get('high_correlations', []))
print(f"\n‚ö†Ô∏è MULTICOLINEALIDAD:")
print(f"  ‚Ä¢ Pares de features altamente correlacionados: {multicollinear_pairs}")
print(f"  ‚Ä¢ IMPLICACI√ìN: Reducci√≥n de dimensionalidad necesaria")

# Guardado de datos para siguientes sprints
print(f"\nüíæ PREPARACI√ìN PARA PR√ìXIMOS SPRINTS:")
print(f"  ‚Ä¢ Reporte EDA guardado en findings del explorador")
print(f"  ‚Ä¢ Features clave identificadas para feature engineering")
print(f"  ‚Ä¢ Estrategias de preprocesamiento definidas")
print(f"  ‚Ä¢ Baseline para m√©tricas de evaluaci√≥n establecido")

print("\nüéØ EDA RIGUROSO COMPLETADO - LISTO PARA SPRINT 1.2")

## 14. Exportaci√≥n de Resultados

Guardamos los resultados del an√°lisis para uso en futuros notebooks y scripts.

In [None]:
# Exportar resultados para uso futuro
import json
from datetime import datetime

# Crear directorio de resultados si no existe
results_dir = project_root / "data" / "02_processed"
results_dir.mkdir(exist_ok=True)

# Preparar datos para exportaci√≥n (convertir a formato JSON-serializable)
export_data = {
    'analysis_metadata': {
        'date': datetime.now().isoformat(),
        'sprint': '1.1 - Rigorous EDA',
        'dataset': 'IEEE-CIS Fraud Detection',
        'total_samples': len(explorer.merged_train),
        'total_features': len(explorer.merged_train.columns)
    },
    'key_findings': {
        'fraud_rate': target_results['basic_distribution']['fraud_rate'],
        'class_imbalance_ratio': target_results['basic_distribution']['class_imbalance_ratio'],
        'features_with_missing': missing_results['merged_train']['features_with_missing'],
        'heavily_missing_features': missing_results['merged_train']['heavily_missing_features'],
        'multicollinear_pairs': len(correlation_results.get('high_correlations', []))
    },
    'top_predictive_features': list(correlation_results['target_correlations']['strongest_correlations'].keys())[:20] if 'target_correlations' in correlation_results else [],
    'temporal_insights': {
        'peak_fraud_hour': target_results.get('temporal_patterns', {}).get('peak_fraud_hour', None),
        'peak_fraud_day': target_results.get('temporal_patterns', {}).get('peak_fraud_day', None)
    } if 'temporal_patterns' in target_results else {},
    'preprocessing_recommendations': [
        'Remove features with >95% missing values',
        'Implement sophisticated imputation for important features with moderate missingness',
        'Apply class balancing techniques (SMOTE, class weights, or undersampling)',
        'Create temporal features (hour, day, week patterns)',
        'Engineer interaction features from top predictive features',
        'Apply feature selection to handle multicollinearity',
        'Normalize/standardize numerical features',
        'Encode categorical features with target encoding for high-cardinality variables'
    ]
}

# Guardar resultados
output_file = results_dir / "eda_findings_sprint_1_1.json"
with open(output_file, 'w') as f:
    json.dump(export_data, f, indent=2, default=str)

print(f"üíæ Resultados exportados a: {output_file}")
print(f"üìä Tama√±o del archivo: {output_file.stat().st_size / 1024:.1f} KB")

# Guardar lista de features importantes
features_file = results_dir / "important_features_sprint_1_1.txt"
with open(features_file, 'w') as f:
    f.write("# Features m√°s importantes identificadas en EDA Sprint 1.1\n")
    f.write(f"# Generado: {datetime.now().isoformat()}\n\n")
    
    if 'target_correlations' in correlation_results:
        f.write("## Top 20 Features por Correlaci√≥n con isFraud:\n")
        for i, (feature, corr) in enumerate(correlation_results['target_correlations']['strongest_correlations'].items()):
            if i >= 20:
                break
            f.write(f"{i+1:2d}. {feature:<30} {corr:8.4f}\n")

print(f"üìã Lista de features importantes guardada en: {features_file}")
print("\n‚úÖ SPRINT 1.1 COMPLETADO EXITOSAMENTE!")
print("üìà Datos listos para Sprint 1.2 - Feature Engineering")