# Aegis Fraud Detector - Exploratory Data Analysis (EDA)

**Sprint 1.1**: Análisis Exploratorio de Datos Riguroso  
**Dataset**: IEEE-CIS Fraud Detection  
**Fecha**: Agosto 2025  
**Metodología**: EDA basado en scripts versionados para garantizar reproducibilidad

## Objetivos del Análisis

1. **Comprensión profunda del dataset**: Estructura, tipos de datos, y calidad general
2. **Análisis de la variable objetivo**: Prevalencia de fraude y patrones temporales
3. **Exploración de features**: Distribuciones, correlaciones, y valores faltantes
4. **Identificación de insights**: Patrones, anomalías, y oportunidades de feature engineering
5. **Documentación de hallazgos**: Base para decisiones de modelado futuras

---

## 1. Configuración e Importación de Librerías

**Nota importante**: Este notebook utiliza exclusivamente funciones del módulo `src/data/exploration.py` para garantizar la reproducibilidad y el versionado del código de análisis.

In [1]:
# Configuración del entorno
import sys
import os
from pathlib import Path

# Agregar el directorio src al path para importar nuestros módulos
project_root = Path.cwd().parent if Path.cwd().name == 'notebooks' else Path.cwd()
sys.path.append(str(project_root / 'src'))

# Importaciones estándar
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from datetime import datetime

# Importar nuestro módulo de exploración personalizado
from data.exploration import FraudDataExplorer, create_eda_plotting_functions

# Configuración de visualización
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 10
sns.set_style("whitegrid")
warnings.filterwarnings('ignore')

# Configurar pandas para mostrar más columnas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

print("✅ Configuración completada")
print(f"📂 Directorio de trabajo: {os.getcwd()}")
print(f"📊 Versión de pandas: {pd.__version__}")
print(f"🔍 Versión de numpy: {np.__version__}")

✅ Configuración completada
📂 Directorio de trabajo: c:\Users\Gat\Documents\GitHub\aegis-fraud-detector\notebooks
📊 Versión de pandas: 2.3.1
🔍 Versión de numpy: 2.2.6


## 2. Inicialización del Explorador de Datos

Utilizamos la clase `FraudDataExplorer` para realizar todos los análisis de manera estructurada y reproducible.

In [2]:
# Inicializar el explorador de datos
data_path = project_root / "data" / "01_raw"
explorer = FraudDataExplorer(data_path=str(data_path))

print(f"🔍 Explorador inicializado")
print(f"📁 Ruta de datos: {data_path}")
print(f"📋 Verificando archivos disponibles...")

# Verificar que los archivos existan
required_files = [
    "train_transaction.csv",
    "train_identity.csv",
    "test_transaction.csv",
    "test_identity.csv"
]

for file in required_files:
    file_path = data_path / file
    if file_path.exists():
        file_size = file_path.stat().st_size / (1024**2)  # MB
        print(f"  ✅ {file} ({file_size:.1f} MB)")
    else:
        print(f"  ❌ {file} - No encontrado")

🔍 Explorador inicializado
📁 Ruta de datos: c:\Users\Gat\Documents\GitHub\aegis-fraud-detector\data\01_raw
📋 Verificando archivos disponibles...
  ✅ train_transaction.csv (651.7 MB)
  ✅ train_identity.csv (25.3 MB)
  ✅ test_transaction.csv (584.8 MB)
  ✅ test_identity.csv (24.6 MB)


## 3. Carga y Revisión General de Datasets

Cargamos todos los datasets del IEEE-CIS Fraud Detection y realizamos una primera inspección.

In [None]:
# Cargar todos los datasets
print("🔄 Cargando datasets...")
datasets = explorer.load_datasets()

print("\n📊 RESUMEN DE DATASETS CARGADOS:")
print("=" * 50)

for name, df in datasets.items():
    memory_usage = df.memory_usage(deep=True).sum() / (1024**2)
    print(f"\n{name.upper()}:")
    print(f"  📏 Dimensiones: {df.shape}")
    print(f"  💾 Memoria: {memory_usage:.1f} MB")
    print(f"  🔢 Tipos de datos: {dict(df.dtypes.value_counts())}")
    
    if name == 'merged_train':
        print(f"  🎯 Variable objetivo (isFraud): {df['isFraud'].value_counts().to_dict()}")

print("\n✅ Carga completada exitosamente")

## 4. Análisis Comprehensive del Dataset

Realizamos un análisis detallado de la estructura y composición del dataset.

In [None]:
# Realizar análisis de overview completo
print("🔍 Realizando análisis comprehensive del dataset...")
overview_results = explorer.analyze_dataset_overview()

print("\n📋 ANÁLISIS DE ESTRUCTURA DEL DATASET:")
print("=" * 50)

# Mostrar dimensiones
print("\n📏 DIMENSIONES:")
for dataset_name, shape in overview_results['shape'].items():
    print(f"  {dataset_name}: {shape[0]:,} filas × {shape[1]} columnas")

# Mostrar uso de memoria
print("\n💾 USO DE MEMORIA:")
for dataset_name, memory in overview_results['memory_usage'].items():
    print(f"  {dataset_name}: {memory:.1f} MB")

# Mostrar categorías de features
print("\n🏷️ CATEGORÍAS DE FEATURES:")
for category, count in overview_results['feature_counts'].items():
    print(f"  {category}: {count} features")

# Detalles de las categorías más importantes
print("\n🔍 FEATURES POR CATEGORÍA:")
important_categories = ['card_features', 'categorical_features', 'continuous_features']
for category in important_categories:
    features = overview_results['feature_categories'].get(category, [])
    print(f"\n  {category.upper()}:")
    print(f"    Cantidad: {len(features)}")
    if features:
        print(f"    Ejemplos: {features[:5]}")
        if len(features) > 5:
            print(f"    ... y {len(features) - 5} más")

## 5. Análisis de Valores Faltantes

Investigación profunda de los patrones de valores faltantes en el dataset.

In [None]:
# Análisis comprehensive de valores faltantes
print("🔍 Analizando patrones de valores faltantes...")
missing_results = explorer.analyze_missing_values()

print("\n🕳️ ANÁLISIS DE VALORES FALTANTES:")
print("=" * 50)

for dataset_name, missing_info in missing_results.items():
    print(f"\n📊 {dataset_name.upper()}:")
    print(f"  Total features: {missing_info['total_features']}")
    print(f"  Features completas: {missing_info['complete_features']}")
    print(f"  Features con valores faltantes: {missing_info['features_with_missing']}")
    print(f"  Features con >90% faltantes: {missing_info['heavily_missing_features']}")
    print(f"  Features con 50-90% faltantes: {missing_info['moderately_missing_features']}")
    print(f"  Features con <50% faltantes: {missing_info['lightly_missing_features']}")
    
    # Mostrar top 10 features con más valores faltantes
    top_missing = missing_info['missing_summary'].head(10)
    if len(top_missing) > 0:
        print(f"\n  🔝 TOP 10 FEATURES CON MÁS VALORES FALTANTES:")
        for _, row in top_missing.iterrows():
            print(f"    {row['column']}: {row['missing_percentage']:.1f}% ({row['missing_count']:,} valores)")

## 6. Análisis Profundo de la Variable Objetivo (isFraud)

**Investigación exhaustiva del fraude**: Prevalencia, patrones temporales, y características distintivas.

In [None]:
# Análisis profundo de la variable objetivo
print("🎯 Analizando variable objetivo (isFraud) en profundidad...")
target_results = explorer.analyze_target_variable()

print("\n🎯 ANÁLISIS DE LA VARIABLE OBJETIVO:")
print("=" * 50)

# Distribución básica
basic_dist = target_results['basic_distribution']
print(f"\n📊 DISTRIBUCIÓN BÁSICA:")
print(f"  Total transacciones: {basic_dist['total_transactions']:,}")
print(f"  Transacciones fraudulentas: {basic_dist['fraud_transactions']:,}")
print(f"  Transacciones legítimas: {basic_dist['legitimate_transactions']:,}")
print(f"  Tasa de fraude: {basic_dist['fraud_rate']:.3f}%")
print(f"  Ratio de desbalance: 1:{basic_dist['class_imbalance_ratio']:.0f}")

# Análisis de cantidad de transacciones
if 'amount_patterns' in target_results:
    amount_patterns = target_results['amount_patterns']
    print(f"\n💰 PATRONES EN MONTOS DE TRANSACCIÓN:")
    print(f"  Monto mediano - Fraude: ${amount_patterns['median_fraud_amount']:.2f}")
    print(f"  Monto mediano - Legítimo: ${amount_patterns['median_legit_amount']:.2f}")
    print(f"  Correlación monto-fraude: {amount_patterns['amount_correlation_with_fraud']:.4f}")
    
    print(f"\n  📈 ESTADÍSTICAS DE MONTOS FRAUDULENTOS:")
    fraud_stats = amount_patterns['fraud_amount_stats']
    print(f"    Media: ${fraud_stats['mean']:.2f}")
    print(f"    Mediana: ${fraud_stats['50%']:.2f}")
    print(f"    Desv. estándar: ${fraud_stats['std']:.2f}")
    print(f"    Rango: ${fraud_stats['min']:.2f} - ${fraud_stats['max']:.2f}")

# Análisis temporal
if 'temporal_patterns' in target_results:
    temporal = target_results['temporal_patterns']
    print(f"\n⏰ PATRONES TEMPORALES:")
    print(f"  Hora pico de fraude: {temporal['peak_fraud_hour']:.0f}:00")
    print(f"  Día pico de fraude: {int(temporal['peak_fraud_day'])} (0=Lunes, 6=Domingo)")
    print(f"  Varianza de fraude por hora: {temporal['fraud_rate_variance_hourly']:.6f}")
    print(f"  Varianza de fraude por día: {temporal['fraud_rate_variance_daily']:.6f}")

## 7. Visualización de Patrones de la Variable Objetivo

Generamos visualizaciones para entender mejor los patrones de fraude.

In [None]:
# Crear funciones de plotting
plotting_functions = create_eda_plotting_functions()

# Visualizar distribución de la variable objetivo
print("📈 Generando visualizaciones de la variable objetivo...")

# Gráfico de distribución del fraude
fraud_counts = explorer.merged_train['isFraud'].value_counts()
plotting_functions['plot_target_distribution'](fraud_counts)

# Patrones temporales si están disponibles
if 'temporal_patterns' in target_results:
    temporal = target_results['temporal_patterns']
    hourly_data = temporal['hourly_patterns']
    daily_data = temporal['daily_patterns']
    
    plotting_functions['plot_temporal_patterns'](hourly_data, daily_data)
    
    # Mostrar datos temporales en formato tabular
    print("\n⏰ DATOS TEMPORALES DETALLADOS:")
    print("\n📊 Fraude por hora del día:")
    print(hourly_data.round(4))
    
    print("\n📊 Fraude por día de la semana:")
    daily_data['day_name'] = ['Lun', 'Mar', 'Mié', 'Jue', 'Vie', 'Sáb', 'Dom']
    print(daily_data[['day_name', 'total_transactions', 'fraud_count', 'fraud_rate']].round(4))

## 8. Análisis de Distribuciones de Features

Exploración de las distribuciones de las features más importantes.

In [None]:
# Análisis de distribuciones de features
print("🔍 Analizando distribuciones de features clave...")
distribution_results = explorer.analyze_feature_distributions(sample_size=10000)

print("\n📊 ANÁLISIS DE DISTRIBUCIONES:")
print("=" * 50)

# Mostrar estadísticas de las features numéricas más importantes
print("\n🔢 TOP FEATURES NUMÉRICAS:")
numeric_features = {k: v for k, v in distribution_results.items() 
                   if k != 'categorical_analysis' and isinstance(v, dict)}

# Ordenar por importancia (menos valores faltantes y más varianza)
feature_importance = []
for feature, stats in numeric_features.items():
    if 'missing_percentage' in stats and 'std' in stats:
        importance_score = (100 - stats['missing_percentage']) * np.log1p(stats['std'])
        feature_importance.append((feature, importance_score, stats))

feature_importance.sort(key=lambda x: x[1], reverse=True)

print(f"\nMostrando las top 10 features numéricas más relevantes:")
for i, (feature, score, stats) in enumerate(feature_importance[:10]):
    print(f"\n{i+1}. {feature}:")
    print(f"    Media: {stats.get('mean', 'N/A'):.4f}")
    print(f"    Mediana: {stats.get('median', 'N/A'):.4f}")
    print(f"    Desv. estándar: {stats.get('std', 'N/A'):.4f}")
    print(f"    Skewness: {stats.get('skewness', 'N/A'):.4f}")
    print(f"    Valores únicos: {stats.get('unique_values', 'N/A')}")
    print(f"    Valores faltantes: {stats.get('missing_percentage', 'N/A'):.1f}%")
    print(f"    Outliers: {stats.get('outlier_percentage', 'N/A'):.1f}%")

# Análisis de features categóricas
if 'categorical_analysis' in distribution_results:
    categorical_stats = distribution_results['categorical_analysis']
    print(f"\n🏷️ FEATURES CATEGÓRICAS ANALIZADAS: {len(categorical_stats)}")
    
    for feature, stats in list(categorical_stats.items())[:5]:
        print(f"\n  {feature}:")
        print(f"    Valores únicos: {stats['unique_values']}")
        print(f"    Valor más frecuente: {stats['most_frequent']}")
        print(f"    Valores faltantes: {stats['missing_percentage']:.1f}%")

## 9. Análisis de Correlaciones

Exploración de las correlaciones entre features y con la variable objetivo.

In [None]:
# Análisis de correlaciones
print("🔗 Analizando correlaciones entre features...")
correlation_results = explorer.analyze_correlations(method='pearson')

print("\n🔗 ANÁLISIS DE CORRELACIONES:")
print("=" * 50)

# Correlaciones más fuertes con la variable objetivo
if 'target_correlations' in correlation_results:
    target_corrs = correlation_results['target_correlations']
    
    print("\n🎯 CORRELACIONES MÁS FUERTES CON isFraud:")
    print("\n  📈 Correlaciones positivas más altas:")
    for feature, corr in list(target_corrs['top_positive'].items())[:10]:
        print(f"    {feature}: {corr:.4f}")
    
    print("\n  📉 Correlaciones negativas más fuertes:")
    negative_corrs = target_corrs['top_negative']
    for feature, corr in list(negative_corrs.items())[:10]:
        if corr < 0:  # Solo mostrar correlaciones negativas
            print(f"    {feature}: {corr:.4f}")

# Multicolinealidad
high_corrs = correlation_results.get('high_correlations', [])
print(f"\n⚠️ MULTICOLINEALIDAD DETECTADA:")
print(f"  Pares de features con correlación > 0.8: {len(high_corrs)}")

if high_corrs:
    print("\n  🔍 Ejemplos de alta correlación:")
    for pair in high_corrs[:10]:  # Mostrar primeros 10
        print(f"    {pair['feature1']} ↔ {pair['feature2']}: {pair['correlation']:.4f}")
    
    if len(high_corrs) > 10:
        print(f"    ... y {len(high_corrs) - 10} pares más")

## 10. Visualización de Correlaciones y Distribuciones

Heatmaps y distribuciones clave para insights visuales.

In [None]:
# Visualizar correlaciones
print("📈 Generando visualizaciones de correlaciones...")

# Heatmap de correlaciones
correlation_matrix = correlation_results['correlation_matrix']
plotting_functions['plot_correlation_heatmap'](correlation_matrix)

# Distribución de montos de transacción
if 'TransactionAmt' in explorer.merged_train.columns:
    print("\n💰 Distribución de montos de transacción:")
    fraud_amounts = explorer.merged_train[explorer.merged_train['isFraud'] == 1]['TransactionAmt']
    legit_amounts = explorer.merged_train[explorer.merged_train['isFraud'] == 0]['TransactionAmt']
    
    plotting_functions['plot_amount_distribution'](fraud_amounts, legit_amounts)
    
    # Estadísticas de montos
    print(f"\n📊 Estadísticas de montos de transacción:")
    print(f"\nFRAUDULENTAS:")
    print(fraud_amounts.describe())
    print(f"\nLEGÍTIMAS:")
    print(legit_amounts.describe())

## 11. Visualización de Patrones de Valores Faltantes

Matriz de valores faltantes para identificar patrones estructurales.

In [None]:
# Visualizar patrones de valores faltantes
print("🕳️ Generando visualización de valores faltantes...")

# Matriz de valores faltantes
missing_data = missing_results['merged_train']['missing_value_heatmap_data']

# Tomar una muestra para visualización (demasiados datos para mostrar todos)
sample_size = min(5000, len(missing_data))
sample_missing = missing_data.sample(n=sample_size, random_state=42)

plotting_functions['plot_missing_value_matrix'](sample_missing)

# Análisis de patrones de missingness
print("\n🔍 ANÁLISIS DE PATRONES DE VALORES FALTANTES:")
missing_summary = missing_results['merged_train']['missing_summary']

# Features completamente vacías
completely_missing = missing_summary[missing_summary['missing_percentage'] > 99]
print(f"\n❌ Features casi completamente vacías (>99% missing): {len(completely_missing)}")
if len(completely_missing) > 0:
    print("  Ejemplos:", completely_missing['column'].head().tolist())

# Features con patrones específicos de missing
high_missing = missing_summary[(missing_summary['missing_percentage'] > 80) & 
                              (missing_summary['missing_percentage'] <= 99)]
print(f"\n⚠️ Features con alta proporción de valores faltantes (80-99%): {len(high_missing)}")

moderate_missing = missing_summary[(missing_summary['missing_percentage'] > 20) & 
                                  (missing_summary['missing_percentage'] <= 80)]
print(f"\n📊 Features con proporción moderada de valores faltantes (20-80%): {len(moderate_missing)}")

low_missing = missing_summary[(missing_summary['missing_percentage'] > 0) & 
                             (missing_summary['missing_percentage'] <= 20)]
print(f"\n✅ Features con baja proporción de valores faltantes (0-20%): {len(low_missing)}")

## 12. Generación de Reporte Comprehensive de EDA

Generamos un reporte completo con todos los hallazgos y recomendaciones.

In [None]:
# Generar visualizaciones y reporte final
print("📋 Generando reporte comprehensive de EDA...")

# Generar configuraciones de visualización
visualizations = explorer.generate_eda_visualizations()

# Generar reporte completo
eda_report = explorer.generate_eda_report()

print("\n📋 REPORTE EJECUTIVO DE EDA:")
print("=" * 50)

# Metadata del análisis
metadata = eda_report['metadata']
print(f"\n📅 Fecha de análisis: {metadata['analysis_date'][:19]}")
print(f"📊 Dataset: {metadata['dataset_version']}")
print(f"🔍 Versión de análisis: {metadata['analysis_version']}")
print(f"📈 Features analizadas: {metadata['total_features_analyzed']}")

# Resumen ejecutivo
exec_summary = eda_report['executive_summary']
print(f"\n📋 RESUMEN EJECUTIVO:")
for key, value in exec_summary.items():
    print(f"  {key}: {value}")

# Recomendaciones clave
recommendations = eda_report['recommendations']
print(f"\n🎯 RECOMENDACIONES CLAVE:")
for i, rec in enumerate(recommendations, 1):
    print(f"  {i}. {rec}")

print("\n✅ Análisis EDA completado exitosamente!")

## 13. Hallazgos Clave y Insights para Feature Engineering

Documentación de los insights más importantes para las siguientes fases del proyecto.

In [None]:
# Resumir hallazgos clave para documentación
print("🔍 HALLAZGOS CLAVE PARA FEATURE ENGINEERING:")
print("=" * 50)

# Análisis de la clase objetivo
fraud_rate = target_results['basic_distribution']['fraud_rate']
class_ratio = target_results['basic_distribution']['class_imbalance_ratio']

print(f"\n🎯 DESBALANCE DE CLASES:")
print(f"  • Tasa de fraude extremadamente baja: {fraud_rate:.3f}%")
print(f"  • Ratio de desbalance: 1:{class_ratio:.0f}")
print(f"  • IMPLICACIÓN: Necesidad crítica de técnicas de balanceamento")

# Features con alta correlación
if 'target_correlations' in correlation_results:
    top_features = list(correlation_results['target_correlations']['strongest_correlations'].keys())[:5]
    print(f"\n🔗 FEATURES MÁS PREDICTIVAS:")
    for i, feature in enumerate(top_features, 1):
        corr_value = correlation_results['target_correlations']['strongest_correlations'][feature]
        print(f"  {i}. {feature}: {corr_value:.4f}")

# Patrones temporales
if 'temporal_patterns' in target_results:
    temporal = target_results['temporal_patterns']
    print(f"\n⏰ PATRONES TEMPORALES:")
    print(f"  • Hora pico de fraude: {temporal['peak_fraud_hour']:.0f}:00")
    print(f"  • Variación horaria significativa: {temporal['fraud_rate_variance_hourly'] > 0.0001}")
    print(f"  • IMPLICACIÓN: Features temporales son prometedoras")

# Análisis de valores faltantes
heavily_missing = missing_results['merged_train']['heavily_missing_features']
total_features = missing_results['merged_train']['total_features']

print(f"\n🕳️ VALORES FALTANTES:")
print(f"  • Features con >90% valores faltantes: {heavily_missing}/{total_features}")
print(f"  • Proporción de features problemáticas: {(heavily_missing/total_features)*100:.1f}%")
print(f"  • IMPLICACIÓN: Estrategia de limpieza y feature selection crítica")

# Multicolinealidad
multicollinear_pairs = len(correlation_results.get('high_correlations', []))
print(f"\n⚠️ MULTICOLINEALIDAD:")
print(f"  • Pares de features altamente correlacionados: {multicollinear_pairs}")
print(f"  • IMPLICACIÓN: Reducción de dimensionalidad necesaria")

# Guardado de datos para siguientes sprints
print(f"\n💾 PREPARACIÓN PARA PRÓXIMOS SPRINTS:")
print(f"  • Reporte EDA guardado en findings del explorador")
print(f"  • Features clave identificadas para feature engineering")
print(f"  • Estrategias de preprocesamiento definidas")
print(f"  • Baseline para métricas de evaluación establecido")

print("\n🎯 EDA RIGUROSO COMPLETADO - LISTO PARA SPRINT 1.2")

## 14. Exportación de Resultados

Guardamos los resultados del análisis para uso en futuros notebooks y scripts.

In [None]:
# Exportar resultados para uso futuro
import json
from datetime import datetime

# Crear directorio de resultados si no existe
results_dir = project_root / "data" / "02_processed"
results_dir.mkdir(exist_ok=True)

# Preparar datos para exportación (convertir a formato JSON-serializable)
export_data = {
    'analysis_metadata': {
        'date': datetime.now().isoformat(),
        'sprint': '1.1 - Rigorous EDA',
        'dataset': 'IEEE-CIS Fraud Detection',
        'total_samples': len(explorer.merged_train),
        'total_features': len(explorer.merged_train.columns)
    },
    'key_findings': {
        'fraud_rate': target_results['basic_distribution']['fraud_rate'],
        'class_imbalance_ratio': target_results['basic_distribution']['class_imbalance_ratio'],
        'features_with_missing': missing_results['merged_train']['features_with_missing'],
        'heavily_missing_features': missing_results['merged_train']['heavily_missing_features'],
        'multicollinear_pairs': len(correlation_results.get('high_correlations', []))
    },
    'top_predictive_features': list(correlation_results['target_correlations']['strongest_correlations'].keys())[:20] if 'target_correlations' in correlation_results else [],
    'temporal_insights': {
        'peak_fraud_hour': target_results.get('temporal_patterns', {}).get('peak_fraud_hour', None),
        'peak_fraud_day': target_results.get('temporal_patterns', {}).get('peak_fraud_day', None)
    } if 'temporal_patterns' in target_results else {},
    'preprocessing_recommendations': [
        'Remove features with >95% missing values',
        'Implement sophisticated imputation for important features with moderate missingness',
        'Apply class balancing techniques (SMOTE, class weights, or undersampling)',
        'Create temporal features (hour, day, week patterns)',
        'Engineer interaction features from top predictive features',
        'Apply feature selection to handle multicollinearity',
        'Normalize/standardize numerical features',
        'Encode categorical features with target encoding for high-cardinality variables'
    ]
}

# Guardar resultados
output_file = results_dir / "eda_findings_sprint_1_1.json"
with open(output_file, 'w') as f:
    json.dump(export_data, f, indent=2, default=str)

print(f"💾 Resultados exportados a: {output_file}")
print(f"📊 Tamaño del archivo: {output_file.stat().st_size / 1024:.1f} KB")

# Guardar lista de features importantes
features_file = results_dir / "important_features_sprint_1_1.txt"
with open(features_file, 'w') as f:
    f.write("# Features más importantes identificadas en EDA Sprint 1.1\n")
    f.write(f"# Generado: {datetime.now().isoformat()}\n\n")
    
    if 'target_correlations' in correlation_results:
        f.write("## Top 20 Features por Correlación con isFraud:\n")
        for i, (feature, corr) in enumerate(correlation_results['target_correlations']['strongest_correlations'].items()):
            if i >= 20:
                break
            f.write(f"{i+1:2d}. {feature:<30} {corr:8.4f}\n")

print(f"📋 Lista de features importantes guardada en: {features_file}")
print("\n✅ SPRINT 1.1 COMPLETADO EXITOSAMENTE!")
print("📈 Datos listos para Sprint 1.2 - Feature Engineering")