# An√°lisis Exploratorio de Datos (EDA) - Detector de Divisi√≥n de Transacciones

## Objetivo
Familiarizarse con los datos de transacciones y entender su estructura:
- Shape, tipos de datos, valores nulos, valores at√≠picos
- Distribuciones de montos y tipos de transacciones
- Identificaci√≥n de patrones iniciales

## Dataset
- **Archivos**: `sample_data_0006_part_00.parquet` y `sample_data_0007_part_00.parquet`
- **Ubicaci√≥n**: `../data/`

In [1]:
# Importar librer√≠as necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from pathlib import Path

# Configuraci√≥n para visualizaciones
plt.style.use('default')
sns.set_palette("husl")
warnings.filterwarnings('ignore')

# Configuraci√≥n de pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.width', 1000)

print("‚úÖ Librer√≠as importadas correctamente")

‚úÖ Librer√≠as importadas correctamente


## 1. Carga de Datos

Vamos a cargar los dos archivos parquet y verificar si tienen la misma estructura para poder unirlos.

In [3]:
# Definir rutas de los archivos
data_path = Path("../data/")
file1 = data_path / "sample_data_0006_part_00.parquet"
file2 = data_path / "sample_data_0007_part_00.parquet"

# Cargar cada archivo por separado para explorar
print("üìÅ Cargando archivos...")
df1 = pd.read_parquet(file1)
df2 = pd.read_parquet(file2)

print(f"‚úÖ Archivo 1 cargado: {file1.name}")
print(f"   Shape: {df1.shape}")
print(f"‚úÖ Archivo 2 cargado: {file2.name}")
print(f"   Shape: {df2.shape}")

üìÅ Cargando archivos...
‚úÖ Archivo 1 cargado: sample_data_0006_part_00.parquet
   Shape: (10758418, 8)
‚úÖ Archivo 2 cargado: sample_data_0007_part_00.parquet
   Shape: (10758500, 8)


In [6]:
# Verificar estructura de ambos archivos
print("üîç Verificando estructura de los archivos...\n")

print("üìã COLUMNAS ARCHIVO 1:")
print(f"Columnas: {list(df1.columns)}\n")

print("üìã COLUMNAS ARCHIVO 2:")
print(f"Columnas: {list(df2.columns)}\n")

# Verificar si las columnas son iguales
columnas_iguales = list(df1.columns) == list(df2.columns)
print(f"¬øLas columnas son iguales? {columnas_iguales}")

if columnas_iguales:
    print("‚úÖ Los archivos tienen la misma estructura, se pueden unir")
else:
    print("‚ö†Ô∏è Los archivos tienen diferente estructura")

üîç Verificando estructura de los archivos...

üìã COLUMNAS ARCHIVO 1:
Columnas: ['merchant_id', '_id', 'subsidiary', 'transaction_date', 'account_number', 'user_id', 'transaction_amount', 'transaction_type']

üìã COLUMNAS ARCHIVO 2:
Columnas: ['merchant_id', '_id', 'subsidiary', 'transaction_date', 'account_number', 'user_id', 'transaction_amount', 'transaction_type']

¬øLas columnas son iguales? True
‚úÖ Los archivos tienen la misma estructura, se pueden unir


In [None]:
# Unir los datasets
if columnas_iguales:
    print("üîó Uniendo los datasets...")
    df = pd.concat([df1, df2], ignore_index=True)
    print(f"‚úÖ Dataset unificado creado")
    print(f"   Shape final: {df.shape}")
    print(f"   Registros archivo 1: {len(df1)}")
    print(f"   Registros archivo 2: {len(df2)}")
    print(f"   Total registros: {len(df)}")
    
    # Liberar memoria de los dataframes individuales
    del df1, df2
else:
    print("‚ùå No se pueden unir los archivos debido a diferencias en estructura")

üîó Uniendo los datasets...
‚úÖ Dataset unificado creado
   Shape final: (21516918, 8)
   Registros archivo 1: 10758418
   Registros archivo 2: 10758500
   Total registros: 21516918
