# üìä Carga de Datos - Dataset de Fraude Financiero

Este notebook muestra c√≥mo cargar y visualizar inicialmente el dataset de transacciones financieras.

**Nota**: Normalmente en producci√≥n, los datos estar√≠an en un Data Warehouse o base de datos,
pero para este ejemplo acad√©mico utilizamos un archivo CSV.

## 1. Importar Librer√≠as

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuraci√≥n de visualizaci√≥n
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

print("‚úÖ Librer√≠as importadas correctamente")

## 2. Cargar el Dataset desde CSV

In [None]:
# Ruta al archivo CSV
DATA_PATH = "../../financial_fraud_dataset.csv"

# Cargar datos
print(f"üìÇ Cargando datos desde: {DATA_PATH}")
df = pd.read_csv(DATA_PATH)

print(f"\n‚úÖ Datos cargados exitosamente!")
print(f"   - Filas: {df.shape[0]:,}")
print(f"   - Columnas: {df.shape[1]}")

## 3. Exploraci√≥n Inicial del Dataset

### 3.1 Primeras Filas

In [None]:
print("üìã Primeras 10 filas del dataset:\n")
df.head(10)

### 3.2 Informaci√≥n del Dataset

In [None]:
print("‚ÑπÔ∏è Informaci√≥n del DataFrame:\n")
df.info()

### 3.3 Estad√≠sticas Descriptivas

In [None]:
print("üìä Estad√≠sticas descriptivas (variables num√©ricas):\n")
df.describe()

### 3.4 Nombres y Tipos de Columnas

In [None]:
print("üìë Columnas y sus tipos de datos:\n")
for col, dtype in df.dtypes.items():
    print(f"  ‚Ä¢ {col:<30} {dtype}")

## 4. Verificaci√≥n de Valores Nulos

In [None]:
print("üîç Valores nulos por columna:\n")
null_counts = df.isnull().sum()
null_pct = (null_counts / len(df)) * 100

null_df = pd.DataFrame({
    'Columna': null_counts.index,
    'Nulos': null_counts.values,
    'Porcentaje': null_pct.values
})

print(null_df.to_string(index=False))

if null_counts.sum() == 0:
    print("\n‚úÖ No hay valores nulos en el dataset")
else:
    print(f"\n‚ö†Ô∏è Se encontraron {null_counts.sum()} valores nulos en total")

## 5. Distribuci√≥n de la Variable Objetivo

In [None]:
print("üéØ Distribuci√≥n de la variable objetivo (is_fraud):\n")

fraud_counts = df['is_fraud'].value_counts()
fraud_pct = df['is_fraud'].value_counts(normalize=True) * 100

print("Conteo:")
print(f"  ‚Ä¢ No Fraude (0): {fraud_counts[0]:,} ({fraud_pct[0]:.2f}%)")
print(f"  ‚Ä¢ Fraude (1):    {fraud_counts[1]:,} ({fraud_pct[1]:.2f}%)")
print(f"\nüìà Ratio de desbalanceo: 1:{int(fraud_counts[0]/fraud_counts[1])}")

# Visualizaci√≥n
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Gr√°fico de barras
fraud_counts.plot(kind='bar', ax=axes[0], color=['#2ecc71', '#e74c3c'])
axes[0].set_title('Distribuci√≥n de Transacciones', fontsize=14, fontweight='bold')
axes[0].set_xlabel('is_fraud', fontsize=12)
axes[0].set_ylabel('Cantidad', fontsize=12)
axes[0].set_xticklabels(['No Fraude (0)', 'Fraude (1)'], rotation=0)
axes[0].grid(axis='y', alpha=0.3)

# A√±adir valores en las barras
for i, v in enumerate(fraud_counts):
    axes[0].text(i, v + fraud_counts.max()*0.02, f"{v:,}\n({fraud_pct.iloc[i]:.2f}%)", 
                 ha='center', fontweight='bold')

# Gr√°fico de torta
colors = ['#2ecc71', '#e74c3c']
explode = (0, 0.1)  # Resaltar la clase minoritaria
axes[1].pie(fraud_counts, labels=['No Fraude', 'Fraude'], autopct='%1.2f%%',
            colors=colors, explode=explode, shadow=True, startangle=90)
axes[1].set_title('Proporci√≥n de Fraude', fontsize=14, fontweight='bold')

plt.tight_layout()
plt.show()

print("\n‚ö†Ô∏è NOTA: El dataset est√° altamente DESBALANCEADO.")
print("   Se requiere aplicar t√©cnicas de balanceo (oversampling, undersampling, etc.)")

## 6. Resumen de Columnas por Tipo

In [None]:
# Identificar columnas irrelevantes (IDs, timestamps)
irrelevant_cols = ['transaction_id', 'timestamp', 'customer_id']

# Identificar columnas num√©ricas
numerical_cols = df.select_dtypes(include=[np.number]).columns.tolist()
if 'is_fraud' in numerical_cols:
    numerical_cols.remove('is_fraud')  # La variable objetivo no es un feature

# Identificar columnas categ√≥ricas
categorical_cols = df.select_dtypes(include=['object']).columns.tolist()
categorical_cols = [col for col in categorical_cols if col not in irrelevant_cols]

print("üìÇ Resumen de columnas por tipo:\n")
print(f"Columnas irrelevantes (a eliminar): {irrelevant_cols}")
print(f"\nColumnas num√©ricas ({len(numerical_cols)}):")
for col in numerical_cols:
    print(f"  ‚Ä¢ {col}")

print(f"\nColumnas categ√≥ricas ({len(categorical_cols)}):")
for col in categorical_cols:
    print(f"  ‚Ä¢ {col}")

print(f"\nVariable objetivo: is_fraud")

## 7. Muestra de Datos por Categor√≠a

In [None]:
print("üîç Valores √∫nicos en variables categ√≥ricas:\n")

for col in categorical_cols:
    print(f"\n{col}:")
    print(f"  ‚Ä¢ Valores √∫nicos: {df[col].nunique()}")
    print(f"  ‚Ä¢ Categor√≠as: {df[col].unique().tolist()}")
    print(f"\n  Distribuci√≥n:")
    print(df[col].value_counts().to_string())

## 8. Guardar Dataset Limpio (sin columnas irrelevantes)

In [None]:
# Eliminar columnas irrelevantes
df_clean = df.drop(columns=irrelevant_cols, errors='ignore')

print(f"üìä Dataset limpio:")
print(f"   - Forma original: {df.shape}")
print(f"   - Forma limpia: {df_clean.shape}")
print(f"   - Columnas eliminadas: {irrelevant_cols}")

# Mostrar primeras filas del dataset limpio
print("\nüìã Primeras filas del dataset limpio:")
df_clean.head()

## 9. Conclusiones de la Carga de Datos

### ‚úÖ Datos Cargados Exitosamente

1. **Tama√±o del Dataset**: ~10,000 transacciones
2. **Variables**:
   - 3 columnas num√©ricas: `amount`, `customer_age`, `previous_transactions`
   - 3 columnas categ√≥ricas: `merchant_category`, `customer_location`, `device_type`
   - 1 variable objetivo: `is_fraud`
   
3. **Desbalanceo de Clases**: 
   - El dataset est√° altamente desbalanceado (~99% no fraude, ~1% fraude)
   - **Acci√≥n requerida**: Aplicar t√©cnicas de balanceo durante el entrenamiento

4. **Calidad de Datos**:
   - No se detectaron valores nulos
   - Tipos de datos correctos

### üìù Pr√≥ximos Pasos

1. An√°lisis Exploratorio de Datos (EDA) en `comprension_eda.ipynb`
2. Validaci√≥n de datos con reglas de negocio
3. Ingenier√≠a de caracter√≠sticas
4. Entrenamiento de modelos con balanceo de clases