# üîç An√°lisis Exploratorio de Datos (EDA)

**Proyecto:** Detecci√≥n de Fraude en Transacciones Financieras  
**Objetivo:** Realizar un an√°lisis exhaustivo de los datos para comprender patrones, relaciones y caracter√≠sticas

---

## üìã √çndice del An√°lisis

1. **Carga de Datos y Configuraci√≥n Inicial**
2. **Exploraci√≥n Inicial de Datos**
3. **Caracterizaci√≥n de Variables**
4. **Limpieza y Preprocesamiento**
5. **An√°lisis Univariable**
6. **An√°lisis Bivariable**
7. **An√°lisis Multivariable**
8. **Identificaci√≥n de Transformaciones**
9. **Reglas de Validaci√≥n**
10. **Conclusiones y Siguientes Pasos**

# ==========================================
# 3. CARACTERIZACI√ìN DE VARIABLES
# ==========================================

## üìù Definici√≥n de las Variables

### **step** (Num√©rico, Entero)
- Representa una unidad de tiempo en el mundo real
- Cada paso (1 step) equivale a 1 hora
- El dataset cubre un total de 744 steps (30 d√≠as)

### **type** (Categ√≥rico, Nominal)
- Tipo de transacci√≥n financiera
- Valores posibles: CASH_IN, CASH_OUT, DEBIT, PAYMENT, TRANSFER

### **amount** (Num√©rico, Continuo)
- El monto de la transacci√≥n en la moneda local

### **nameOrig** (Categ√≥rico, Nominal)
- Identificador del cliente que inici√≥ la transacci√≥n
- Los clientes que inician con 'C' son clientes est√°ndar

### **oldbalanceOrg** (Num√©rico, Continuo)
- Saldo del cliente de origen antes de la transacci√≥n

### **newbalanceOrig** (Num√©rico, Continuo)
- Saldo del cliente de origen despu√©s de la transacci√≥n

### **nameDest** (Categ√≥rico, Nominal)
- Identificador del cliente receptor (destino) de la transacci√≥n
- Los clientes que inician con 'M' son comerciantes (Merchants)

### **oldbalanceDest** (Num√©rico, Continuo)
- Saldo del cliente de destino antes de la transacci√≥n

### **newbalanceDest** (Num√©rico, Continuo)
- Saldo del cliente de destino despu√©s de la transacci√≥n

### **isFraud** (Binario, Target) üéØ
- **Variable objetivo (target)**
- Identifica si una transacci√≥n es fraudulenta (1) o leg√≠tima (0)
- El fraude ocurre exclusivamente en transacciones de tipo TRANSFER y CASH_OUT

### **isFlaggedFraud** (Binario, Flag)
- Bandera (flag) interna del sistema que marca transacciones sospechosas
- Se activa cuando se intenta transferir m√°s de 200,000 en una sola transacci√≥n
- Es una regla de negocio simple, no es un resultado de un modelo

In [None]:
# ==========================================
# 1. CARGA DE DATOS Y CONFIGURACI√ìN INICIAL
# ==========================================

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
import pickle
from scipy import stats
from scipy.stats import skew, kurtosis

# Configuraci√≥n
warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', lambda x: '%.2f' % x)

# Configuraci√≥n de gr√°ficos
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 10

print("‚úÖ Librer√≠as importadas correctamente")

In [None]:
# Cargar los datos del notebook anterior
try:
    df = pd.read_pickle('../../data/processed/df_original.pkl')
    print("‚úÖ Datos cargados desde archivo pickle")
except:
    df = pd.read_csv('../../Base_datos.csv')
    print("‚úÖ Datos cargados desde CSV")

print(f"üìä Dimensiones del dataset: {df.shape[0]:,} filas x {df.shape[1]} columnas")
print(f"üíæ Tama√±o en memoria: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

NameError: name 'df' is not defined

In [None]:
# ==========================================
# 2. EXPLORACI√ìN INICIAL DE DATOS
# ==========================================

print("=" * 80)
print("PRIMERAS Y √öLTIMAS FILAS DEL DATASET")
print("=" * 80)
print("\nüìã Primeras 10 filas:")
display(df.head(10))

print("\nüìã √öltimas 10 filas:")
display(df.tail(10))

In [None]:
# Informaci√≥n general del dataset
print("=" * 80)
print("INFORMACI√ìN GENERAL DEL DATASET")
print("=" * 80)
df.info()

print("\nüìä Tipos de datos:")
print(df.dtypes.value_counts())

In [None]:
# Verificar valores nulos
print("=" * 80)
print("AN√ÅLISIS DE VALORES NULOS")
print("=" * 80)

valores_nulos = df.isnull().sum()
porcentaje_nulos = (df.isnull().sum() / len(df)) * 100

resumen_nulos = pd.DataFrame({
    'Valores_Nulos': valores_nulos,
    'Porcentaje': porcentaje_nulos
})

print(resumen_nulos)

if valores_nulos.sum() == 0:
    print("\n‚úÖ EXCELENTE: No se encontraron valores nulos en el dataset")
else:
    print(f"\n‚ö†Ô∏è Se encontraron {valores_nulos.sum()} valores nulos")

In [None]:
# Verificar duplicados
print("=" * 80)
print("AN√ÅLISIS DE DUPLICADOS")
print("=" * 80)

duplicados = df.duplicated().sum()
print(f"N√∫mero de filas duplicadas: {duplicados:,}")

if duplicados > 0:
    print(f"‚ö†Ô∏è Porcentaje de duplicados: {(duplicados/len(df))*100:.4f}%")
else:
    print("‚úÖ No se encontraron filas duplicadas")

In [None]:
# Caracterizaci√≥n detallada de variables
print("=" * 80)
print("CARACTERIZACI√ìN DE VARIABLES")
print("=" * 80)

# Separar variables por tipo
variables_numericas = df.select_dtypes(include=[np.number]).columns.tolist()
variables_categoricas = df.select_dtypes(include=['object']).columns.tolist()

print(f"\nüìä Variables Num√©ricas ({len(variables_numericas)}):")
for var in variables_numericas:
    print(f"  ‚Ä¢ {var}")

print(f"\nüìä Variables Categ√≥ricas ({len(variables_categoricas)}):")
for var in variables_categoricas:
    print(f"  ‚Ä¢ {var}")

# Clasificaci√≥n m√°s detallada
print("\n" + "=" * 80)
print("CLASIFICACI√ìN DETALLADA DE VARIABLES")
print("=" * 80)

clasificacion = {
    'Num√©ricas Continuas': ['amount', 'oldbalanceOrg', 'newbalanceOrig', 'oldbalanceDest', 'newbalanceDest'],
    'Num√©ricas Discretas': ['step'],
    'Categ√≥ricas Nominales': ['type', 'nameOrig', 'nameDest'],
    'Binarias (Dicot√≥micas)': ['isFraud', 'isFlaggedFraud']
}

for categoria, variables in clasificacion.items():
    print(f"\n{categoria}:")
    for var in variables:
        print(f"  ‚Ä¢ {var}")

# ==========================================
# 4. LIMPIEZA Y PREPROCESAMIENTO
# ==========================================