# An√°lisis Exploratorio de Datos (EDA) - Detecci√≥n de Fraude Financiero

Este notebook contiene el an√°lisis exploratorio completo del dataset de fraude financiero.

**Objetivos:**
- Comprender la estructura y distribuci√≥n de los datos
- Identificar patrones y relaciones entre variables
- Detectar anomal√≠as y valores at√≠picos
- Definir reglas de validaci√≥n de datos
- Proponer features derivados

## 1. Carga e Importaci√≥n de Librer√≠as

In [None]:
# Importar librer√≠as necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from scipy import stats
import warnings

# Configuraci√≥n
warnings.filterwarnings('ignore')
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)

# Importar m√≥dulo de carga de datos
from mlops_pipeline.src.cargar_datos import DataLoader

print("‚úì Librer√≠as importadas correctamente")

## 2. Carga de Datos

In [None]:
# Cargar datos usando DataLoader
loader = DataLoader()
df = loader.load_data()

print(f"\nShape del dataset: {df.shape}")
print(f"N√∫mero de filas: {df.shape[0]:,}")
print(f"N√∫mero de columnas: {df.shape[1]}")

## 3. Exploraci√≥n Inicial

In [None]:
# Primeras filas del dataset
print("\nüìä PRIMERAS 5 FILAS DEL DATASET:")
df.head()

In [None]:
# Informaci√≥n general del dataset
print("\nüìã INFORMACI√ìN DEL DATASET:")
df.info()

In [None]:
# Estad√≠sticas descriptivas de variables num√©ricas
print("\nüìà ESTAD√çSTICAS DESCRIPTIVAS (Variables Num√©ricas):")
df.describe()

In [None]:
# Tipos de datos
print("\nüîç TIPOS DE DATOS:")
print(df.dtypes)

# Clasificaci√≥n de variables
numerical_vars = df.select_dtypes(include=[np.number]).columns.tolist()
categorical_vars = df.select_dtypes(include=['object']).columns.tolist()

print(f"\nVariables num√©ricas ({len(numerical_vars)}): {numerical_vars}")
print(f"Variables categ√≥ricas ({len(categorical_vars)}): {categorical_vars}")

In [None]:
# Verificar valores nulos
print("\nüîé VALORES NULOS:")
null_counts = df.isnull().sum()
null_percentage = (null_counts / len(df)) * 100

null_df = pd.DataFrame({
    'Cantidad': null_counts,
    'Porcentaje': null_percentage
})

print(null_df[null_df['Cantidad'] > 0])

if null_counts.sum() == 0:
    print("\n‚úì No se encontraron valores nulos en el dataset")

In [None]:
# Verificar duplicados
duplicates = df.duplicated().sum()
print(f"\nüîÑ FILAS DUPLICADAS: {duplicates}")

if duplicates == 0:
    print("‚úì No se encontraron filas duplicadas")

## 4. An√°lisis Univariable

### 4.1 Variable Objetivo (isFraud)

In [None]:
# Distribuci√≥n de la variable objetivo
fraud_counts = df['isFraud'].value_counts()
fraud_pct = df['isFraud'].value_counts(normalize=True) * 100

print("\nüéØ DISTRIBUCI√ìN DE LA VARIABLE OBJETIVO (isFraud):")
print(f"\nNo Fraude (0): {fraud_counts[0]:,} ({fraud_pct[0]:.2f}%)")
print(f"Fraude (1):    {fraud_counts[1]:,} ({fraud_pct[1]:.2f}%)")
print(f"\nRatio de desbalanceo: 1:{fraud_counts[0]/fraud_counts[1]:.0f}")

# Gr√°fico
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Countplot
sns.countplot(data=df, x='isFraud', ax=axes[0], palette='Set2')
axes[0].set_title('Distribuci√≥n de Transacciones Fraudulentas', fontsize=14, fontweight='bold')
axes[0].set_xlabel('Fraude (0=No, 1=S√≠)', fontsize=12)
axes[0].set_ylabel('Cantidad', fontsize=12)

# Pie chart
axes[1].pie(fraud_counts, labels=['No Fraude', 'Fraude'], autopct='%1.2f%%', 
           colors=['#66b3ff', '#ff9999'], startangle=90)
axes[1].set_title('Proporci√≥n de Fraude vs No Fraude', fontsize=14, fontweight='bold')

plt.tight_layout()
plt.show()

print("\n‚ö†Ô∏è OBSERVACI√ìN: Dataset altamente desbalanceado - se requiere t√©cnica de balanceo")

### 4.2 Variables Num√©ricas

In [None]:
# An√°lisis estad√≠stico de variables num√©ricas
numeric_cols = ['amount', 'oldbalanceOrg', 'newbalanceOrg']

print("\nüìä ESTAD√çSTICAS DESCRIPTIVAS DETALLADAS:")
print("="*80)

for col in numeric_cols:
    print(f"\n{col.upper()}:")
    print(f"  Media:               {df[col].mean():,.2f}")
    print(f"  Mediana:             {df[col].median():,.2f}")
    print(f"  Moda:                {df[col].mode()[0]:,.2f}")
    print(f"  Desviaci√≥n Est√°ndar: {df[col].std():,.2f}")
    print(f"  Varianza:            {df[col].var():,.2f}")
    print(f"  Rango:               {df[col].min():,.2f} - {df[col].max():,.2f}")
    print(f"  IQR (Q3-Q1):         {df[col].quantile(0.75) - df[col].quantile(0.25):,.2f}")
    print(f"  Skewness (Asimetr√≠a):{df[col].skew():,.4f}")
    print(f"  Kurtosis:            {df[col].kurtosis():,.4f}")

In [None]:
# Histogramas de variables num√©ricas
fig, axes = plt.subplots(2, 3, figsize=(18, 10))
axes = axes.ravel()

for idx, col in enumerate(numeric_cols):
    # Histograma
    axes[idx].hist(df[col], bins=50, color='skyblue', edgecolor='black', alpha=0.7)
    axes[idx].set_title(f'Distribuci√≥n de {col}', fontsize=12, fontweight='bold')
    axes[idx].set_xlabel(col, fontsize=10)
    axes[idx].set_ylabel('Frecuencia', fontsize=10)
    axes[idx].grid(alpha=0.3)
    
    # Histograma con escala log
    axes[idx + 3].hist(df[col][df[col] > 0], bins=50, color='coral', edgecolor='black', alpha=0.7)
    axes[idx + 3].set_title(f'Distribuci√≥n de {col} (Escala Log)', fontsize=12, fontweight='bold')
    axes[idx + 3].set_xlabel(col, fontsize=10)
    axes[idx + 3].set_ylabel('Frecuencia', fontsize=10)
    axes[idx + 3].set_yscale('log')
    axes[idx + 3].grid(alpha=0.3)

plt.tight_layout()
plt.show()

In [None]:
# Boxplots de variables num√©ricas
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

for idx, col in enumerate(numeric_cols):
    sns.boxplot(data=df, y=col, ax=axes[idx], color='lightgreen')
    axes[idx].set_title(f'Boxplot de {col}', fontsize=12, fontweight='bold')
    axes[idx].set_ylabel(col, fontsize=10)

plt.tight_layout()
plt.show()

print("\n‚ö†Ô∏è OBSERVACI√ìN: Presencia significativa de outliers en todas las variables num√©ricas")

### 4.3 Variables Categ√≥ricas

In [None]:
# An√°lisis de la variable 'type'
print("\nüí≥ DISTRIBUCI√ìN DE TIPO DE TRANSACCI√ìN:")
print("="*80)

type_counts = df['type'].value_counts()
type_pct = df['type'].value_counts(normalize=True) * 100

type_df = pd.DataFrame({
    'Cantidad': type_counts,
    'Porcentaje': type_pct
})

print(type_df)

# Gr√°ficos
fig, axes = plt.subplots(1, 2, figsize=(16, 5))

# Countplot
sns.countplot(data=df, x='type', ax=axes[0], palette='viridis', order=type_counts.index)
axes[0].set_title('Distribuci√≥n de Tipos de Transacci√≥n', fontsize=14, fontweight='bold')
axes[0].set_xlabel('Tipo de Transacci√≥n', fontsize=12)
axes[0].set_ylabel('Cantidad', fontsize=12)
axes[0].tick_params(axis='x', rotation=45)

# Barplot horizontal con porcentajes
type_pct.plot(kind='barh', ax=axes[1], color='teal')
axes[1].set_title('Porcentaje de Tipos de Transacci√≥n', fontsize=14, fontweight='bold')
axes[1].set_xlabel('Porcentaje (%)', fontsize=12)
axes[1].set_ylabel('Tipo de Transacci√≥n', fontsize=12)

plt.tight_layout()
plt.show()

## 5. An√°lisis Bivariable y Multivariable

### 5.1 Relaci√≥n entre Variables Num√©ricas

In [None]:
# Matriz de correlaci√≥n
print("\nüîó MATRIZ DE CORRELACI√ìN:")
correlation_matrix = df[numeric_cols + ['isFraud']].corr()
print(correlation_matrix)

# Heatmap de correlaci√≥n
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, fmt='.3f', cmap='coolwarm', 
            square=True, linewidths=1, cbar_kws={"shrink": 0.8})
plt.title('Matriz de Correlaci√≥n - Variables Num√©ricas y Target', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

In [None]:
# Pairplot (con muestra para mejor rendimiento)
print("\nüìä GENERANDO PAIRPLOT (muestra de 5,000 registros)...")

# Tomar una muestra estratificada
df_sample = df.groupby('isFraud', group_keys=False).apply(lambda x: x.sample(min(len(x), 2500)))

pairplot_vars = numeric_cols + ['isFraud']
sns.pairplot(df_sample[pairplot_vars], hue='isFraud', palette='Set1', 
            diag_kind='kde', plot_kws={'alpha': 0.6}, height=2.5)
plt.suptitle('Pairplot - Variables Num√©ricas vs Fraude', y=1.02, fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

### 5.2 Relaci√≥n entre Variables Num√©ricas y Fraude

In [None]:
# Boxplots de variables num√©ricas vs Fraude
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

for idx, col in enumerate(numeric_cols):
    sns.boxplot(data=df, x='isFraud', y=col, ax=axes[idx], palette='Set2')
    axes[idx].set_title(f'{col} vs Fraude', fontsize=12, fontweight='bold')
    axes[idx].set_xlabel('Fraude (0=No, 1=S√≠)', fontsize=10)
    axes[idx].set_ylabel(col, fontsize=10)

plt.tight_layout()
plt.show()

In [None]:
# Distribuciones comparativas
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

for idx, col in enumerate(numeric_cols):
    df[df['isFraud'] == 0][col].hist(bins=50, alpha=0.6, label='No Fraude', 
                                      ax=axes[idx], color='blue', density=True)
    df[df['isFraud'] == 1][col].hist(bins=50, alpha=0.6, label='Fraude', 
                                      ax=axes[idx], color='red', density=True)
    axes[idx].set_title(f'Distribuci√≥n de {col} por Fraude', fontsize=12, fontweight='bold')
    axes[idx].set_xlabel(col, fontsize=10)
    axes[idx].set_ylabel('Densidad', fontsize=10)
    axes[idx].legend()

plt.tight_layout()
plt.show()

### 5.3 Relaci√≥n entre Variables Categ√≥ricas y Fraude

In [None]:
# Tabla cruzada: type vs isFraud
print("\nüìã TABLA CRUZADA: Tipo de Transacci√≥n vs Fraude")
print("="*80)

crosstab = pd.crosstab(df['type'], df['isFraud'], margins=True)
print(crosstab)

# Tabla con porcentajes
print("\nüìä PORCENTAJES (por tipo de transacci√≥n):")
crosstab_pct = pd.crosstab(df['type'], df['isFraud'], normalize='index') * 100
print(crosstab_pct)

# Gr√°fico
fig, axes = plt.subplots(1, 2, figsize=(16, 5))

# Countplot agrupado
sns.countplot(data=df, x='type', hue='isFraud', ax=axes[0], palette='Set1')
axes[0].set_title('Tipo de Transacci√≥n vs Fraude (Conteo)', fontsize=14, fontweight='bold')
axes[0].set_xlabel('Tipo de Transacci√≥n', fontsize=12)
axes[0].set_ylabel('Cantidad', fontsize=12)
axes[0].tick_params(axis='x', rotation=45)
axes[0].legend(title='Fraude', labels=['No', 'S√≠'])

# Heatmap de tabla cruzada
sns.heatmap(crosstab_pct, annot=True, fmt='.2f', cmap='YlOrRd', ax=axes[1], 
            cbar_kws={'label': 'Porcentaje (%)'})
axes[1].set_title('Tipo de Transacci√≥n vs Fraude (% por Tipo)', fontsize=14, fontweight='bold')
axes[1].set_xlabel('Fraude', fontsize=12)
axes[1].set_ylabel('Tipo de Transacci√≥n', fontsize=12)

plt.tight_layout()
plt.show()

print("\n‚ö†Ô∏è HALLAZGO CLAVE: Ciertos tipos de transacci√≥n tienen mayor propensi√≥n al fraude")

## 6. An√°lisis de Outliers

In [None]:
# Detecci√≥n de outliers usando IQR
print("\nüîç DETECCI√ìN DE OUTLIERS (M√©todo IQR):")
print("="*80)

for col in numeric_cols:
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]
    outlier_pct = (len(outliers) / len(df)) * 100
    
    print(f"\n{col}:")
    print(f"  L√≠mite inferior: {lower_bound:,.2f}")
    print(f"  L√≠mite superior: {upper_bound:,.2f}")
    print(f"  Outliers:        {len(outliers):,} ({outlier_pct:.2f}%)")

## 7. Conclusiones y Recomendaciones

### 7.1 Hallazgos Principales

**Hallazgos del An√°lisis Exploratorio:**

1. **Desbalanceo de Clases:**
   - El dataset est√° altamente desbalanceado (~99% no fraude vs ~1% fraude)
   - **Acci√≥n:** Aplicar t√©cnicas de balanceo (RandomUnderSampler, SMOTE, class_weight)

2. **Calidad de Datos:**
   - No se encontraron valores nulos
   - No se encontraron duplicados
   - Todos los tipos de datos son consistentes

3. **Variables Num√©ricas:**
   - Distribuciones altamente asim√©tricas (skewed)
   - Presencia significativa de outliers (valores extremos)
   - **Acci√≥n:** Aplicar normalizaci√≥n/estandarizaci√≥n

4. **Tipo de Transacci√≥n:**
   - CASH_OUT y TRANSFER tienen mayor incidencia de fraude
   - PAYMENT rara vez es fraudulento
   - **Acci√≥n:** Feature importante para el modelo

5. **Correlaciones:**
   - Baja correlaci√≥n entre variables num√©ricas y fraude
   - **Acci√≥n:** Crear features derivados m√°s informativos

### 7.2 Reglas de Validaci√≥n de Datos

**Reglas de Validaci√≥n Identificadas:**

1. **Regla 1:** `amount` no puede ser negativo
   - Validaci√≥n: `amount >= 0`

2. **Regla 2:** `type` solo puede contener valores espec√≠ficos
   - Valores permitidos: ['CASH_IN', 'CASH_OUT', 'DEBIT', 'PAYMENT', 'TRANSFER']

3. **Regla 3:** `isFraud` debe ser binario
   - Valores permitidos: [0, 1]

4. **Regla 4:** Los balances no pueden ser negativos
   - Validaci√≥n: `oldbalanceOrg >= 0` y `newbalanceOrg >= 0`

5. **Regla 5:** Columnas irrelevantes deben eliminarse
   - Eliminar: ['step', 'nameOrig', 'nameDest']

### 7.3 Features Derivados Sugeridos

**Features Propuestos para Ingenier√≠a de Caracter√≠sticas:**

1. **errorBalanceOrg:**
   - F√≥rmula: `oldbalanceOrg - newbalanceOrg - amount`
   - Detecta inconsistencias en el balance despu√©s de la transacci√≥n

2. **transactionRatio:**
   - F√≥rmula: `amount / (oldbalanceOrg + 1)`
   - Indica qu√© proporci√≥n del balance representa la transacci√≥n

3. **zeroBalanceAfter:**
   - F√≥rmula: `1 if newbalanceOrg == 0 else 0`
   - Marca transacciones que vac√≠an completamente la cuenta

4. **isHighAmount:**
   - F√≥rmula: `1 if amount > percentile_95 else 0`
   - Identifica transacciones de monto inusualmente alto

Estos features capturan patrones sospechosos que pueden indicar fraude.

## 8. Pr√≥ximos Pasos

1. **Validaci√≥n de Datos:**
   - Implementar las reglas de validaci√≥n en `data_validation.py`

2. **Ingenier√≠a de Caracter√≠sticas:**
   - Crear los features derivados en `ft_engineering.py`
   - Aplicar transformaciones (StandardScaler, OneHotEncoder)

3. **Modelado:**
   - Entrenar m√∫ltiples modelos (LogisticRegression, RandomForest, XGBoost)
   - Aplicar t√©cnicas de balanceo
   - Optimizar hiperpar√°metros

4. **Evaluaci√≥n:**
   - Usar m√©tricas apropiadas para datos desbalanceados (ROC-AUC, F1, Recall)
   - Analizar matriz de confusi√≥n

5. **Despliegue:**
   - Crear API con FastAPI
   - Implementar monitoreo de drift