# EDA y ETL MongoDB - Replicaci√≥n Primario-Secundario
## Dataset: Brazilian E-commerce (Kaggle)

Este notebook realiza:
1. **Descarga autom√°tica** del dataset desde Kaggle usando kagglehub
2. **An√°lisis Exploratorio de Datos (EDA)** de los archivos CSV
3. **Extracci√≥n, Transformaci√≥n y Carga (ETL)**
4. **Carga a MongoDB** con verificaci√≥n de replicaci√≥n

In [None]:
# Importar librer√≠as necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime, timedelta
from pymongo import MongoClient
import warnings
import os
import kagglehub
from pathlib import Path

warnings.filterwarnings('ignore')

# Configurar estilo de gr√°ficos
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

print("‚úÖ Librer√≠as importadas correctamente")

## 1. Descarga del Dataset desde Kaggle

In [None]:
# Descargar dataset usando kagglehub
print("üì• Descargando dataset de Brazilian E-commerce...")

try:
    # Descargar el dataset
    path = kagglehub.dataset_download("olistbr/brazilian-ecommerce")
    print(f"‚úÖ Dataset descargado en: {path}")
    
    # Listar archivos descargados
    files = list(Path(path).glob("*.csv"))
    print(f"\nüìÅ Archivos CSV encontrados ({len(files)}):")
    for file in files:
        print(f"  - {file.name}")
        
except Exception as e:
    print(f"‚ùå Error al descargar: {e}")
    print("üí° Aseg√∫rate de tener kagglehub instalado: pip install kagglehub")

## 2. Carga y Exploraci√≥n de los Datos

In [None]:
# Cargar todos los archivos CSV
print("üìä Cargando archivos CSV...")

dataframes = {}

for file in files:
    df_name = file.stem  # Nombre del archivo sin extensi√≥n
    print(f"\nüìñ Cargando {file.name}...")
    
    try:
        df = pd.read_csv(file)
        dataframes[df_name] = df
        print(f"  ‚úÖ Filas: {len(df)}, Columnas: {len(df.columns)}")
        print(f"  üìã Columnas: {list(df.columns)}")
        
    except Exception as e:
        print(f"  ‚ùå Error al cargar {file.name}: {e}")

print(f"\nüéâ Total de datasets cargados: {len(dataframes)}")

## 3. An√°lisis Exploratorio de Datos (EDA)

In [None]:
# Mostrar informaci√≥n b√°sica de cada dataset
print("üîç AN√ÅLISIS EXPLORATORIO DE DATOS")
print("=" * 50)

for name, df in dataframes.items():
    print(f"\nüìä DATASET: {name.upper()}")
    print(f"Dimensiones: {df.shape}")
    print(f"\nPrimeras 3 filas:")
    display(df.head(3))
    
    print(f"\nInformaci√≥n del dataset:")
    print(df.info())
    
    print(f"\nValores nulos:")
    null_counts = df.isnull().sum()
    if null_counts.sum() > 0:
        print(null_counts[null_counts > 0])
    else:
        print("‚úÖ No hay valores nulos")
    
    print(f"\nEstad√≠sticas descriptivas:")
    display(df.describe())
    
    print("-" * 50)

## 4. Limpieza y Transformaci√≥n de Datos (ETL)

In [8]:
# ETL: Combinar datasets para crear un dataset unificado de ventas
print("üîÑ PROCESO ETL - COMBINANDO DATASETS")
print("=" * 50)

# Obtener los datasets principales
orders_df = dataframes.get('olist_orders_dataset', pd.DataFrame())
items_df = dataframes.get('olist_order_items_dataset', pd.DataFrame())
products_df = dataframes.get('olist_products_dataset', pd.DataFrame())
customers_df = dataframes.get('olist_customers_dataset', pd.DataFrame())
sellers_df = dataframes.get('olist_sellers_dataset', pd.DataFrame())

print(f"üì¶ Orders: {orders_df.shape}")
print(f"üì¶ Items: {items_df.shape}")
print(f"üì¶ Products: {products_df.shape}")
print(f"üì¶ Customers: {customers_df.shape}")
print(f"üì¶ Sellers: {sellers_df.shape}")

üîÑ PROCESO ETL - COMBINANDO DATASETS
üì¶ Orders: (99441, 8)
üì¶ Items: (112650, 7)
üì¶ Products: (32951, 9)
üì¶ Customers: (99441, 5)
üì¶ Sellers: (3095, 4)


In [9]:
# Limpiar y transformar fechas
print("\nüïí Transformando fechas...")

if not orders_df.empty:
    # Convertir columnas de fecha
    date_columns = ['order_purchase_date', 'order_approved_at', 'order_delivered_carrier_date', 
                   'order_delivered_customer_date', 'order_estimated_delivery_date']
    
    for col in date_columns:
        if col in orders_df.columns:
            orders_df[col] = pd.to_datetime(orders_df[col], errors='coerce')
    
    print("‚úÖ Fechas transformadas")
    
    # Mostrar rango de fechas
    if 'order_purchase_date' in orders_df.columns:
        print(f"üìÖ Rango de fechas de compra: {orders_df['order_purchase_date'].min()} a {orders_df['order_purchase_date'].max()}")


üïí Transformando fechas...
‚úÖ Fechas transformadas


In [10]:
# Combinar datasets
print("\nüîó Combinando datasets...")

try:
    # Merge 1: Orders + Items
    if not orders_df.empty and not items_df.empty:
        ventas_df = orders_df.merge(items_df, on='order_id', how='inner')
        print(f"‚úÖ Orders + Items: {ventas_df.shape}")
    
    # Merge 2: + Products
    if not products_df.empty:
        ventas_df = ventas_df.merge(products_df, on='product_id', how='left')
        print(f"‚úÖ + Products: {ventas_df.shape}")
    
    # Merge 3: + Customers
    if not customers_df.empty:
        ventas_df = ventas_df.merge(customers_df, on='customer_id', how='left')
        print(f"‚úÖ + Customers: {ventas_df.shape}")
    
    # Merge 4: + Sellers
    if not sellers_df.empty:
        ventas_df = ventas_df.merge(sellers_df, on='seller_id', how='left')
        print(f"‚úÖ + Sellers: {ventas_df.shape}")
    
    print(f"\nüéâ Dataset combinado final: {ventas_df.shape}")
    
except Exception as e:
    print(f"‚ùå Error al combinar: {e}")
    # Crear dataset de ejemplo si falla la combinaci√≥n
    ventas_df = pd.DataFrame()


üîó Combinando datasets...
‚úÖ Orders + Items: (112650, 14)
‚úÖ + Products: (112650, 22)
‚úÖ + Customers: (112650, 26)
‚úÖ + Sellers: (112650, 29)

üéâ Dataset combinado final: (112650, 29)


In [11]:
# Limpiar y preparar el dataset final
print("\nüßπ Limpiando dataset final...")

if not ventas_df.empty:
    # Seleccionar columnas relevantes y renombrar
    columnas_finales = {
        'order_id': 'pedido_id',
        'order_purchase_date': 'fecha_compra',
        'order_status': 'estado_pedido',
        'product_id': 'producto_id',
        'product_name_lenght': 'longitud_nombre_producto',
        'product_description_lenght': 'longitud_descripcion_producto',
        'product_photos_qty': 'cantidad_fotos_producto',
        'product_weight_g': 'peso_producto_g',
        'product_length_cm': 'longitud_producto_cm',
        'product_height_cm': 'altura_producto_cm',
        'product_width_cm': 'ancho_producto_cm',
        'price': 'precio',
        'freight_value': 'valor_flete',
        'customer_id': 'cliente_id',
        'customer_city': 'ciudad_cliente',
        'customer_state': 'estado_cliente',
        'seller_id': 'vendedor_id',
        'seller_city': 'ciudad_vendedor',
        'seller_state': 'estado_vendedor'
    }
    
    # Filtrar columnas que existen
    columnas_existentes = {k: v for k, v in columnas_finales.items() if k in ventas_df.columns}
    ventas_limpio = ventas_df[list(columnas_existentes.keys())].copy()
    ventas_limpio.rename(columns=columnas_existentes, inplace=True)
    
    # Agregar campos calculados
    if 'precio' in ventas_limpio.columns and 'valor_flete' in ventas_limpio.columns:
        ventas_limpio['precio_total'] = ventas_limpio['precio'] + ventas_limpio['valor_flete']
    
    # Agregar campo de stock simulado
    ventas_limpio['cantidad_stock'] = np.random.randint(0, 100, len(ventas_limpio))
    
    # Limpiar valores nulos
    ventas_limpio.dropna(subset=['fecha_compra', 'precio'], inplace=True)
    
    print(f"‚úÖ Dataset limpio: {ventas_limpio.shape}")
    print(f"üìã Columnas finales: {list(ventas_limpio.columns)}")
    
else:
    print("‚ö†Ô∏è No se pudo crear el dataset combinado, usando datos de ejemplo")
    # Crear dataset de ejemplo
    ventas_limpio = pd.DataFrame({
        'pedido_id': range(1, 1001),
        'fecha_compra': pd.date_range('2023-01-01', periods=1000, freq='D'),
        'producto_id': np.random.randint(1, 101, 1000),
        'precio': np.random.uniform(10, 500, 1000),
        'cliente_id': np.random.randint(1, 201, 1000),
        'ciudad_cliente': np.random.choice(['S√£o Paulo', 'Rio de Janeiro', 'Bras√≠lia', 'Salvador', 'Fortaleza'], 1000),
        'cantidad_stock': np.random.randint(0, 100, 1000)
    })


üßπ Limpiando dataset final...


KeyError: ['fecha_compra']

## 5. Visualizaciones del EDA

In [None]:
# Visualizaciones del EDA
print("üìä CREANDO VISUALIZACIONES")
print("=" * 50)

# Configurar subplots
fig, axes = plt.subplots(2, 2, figsize=(15, 12))
fig.suptitle('An√°lisis Exploratorio de Datos - Brazilian E-commerce', fontsize=16, fontweight='bold')

# 1. Distribuci√≥n de precios
if 'precio' in ventas_limpio.columns:
    axes[0, 0].hist(ventas_limpio['precio'], bins=30, alpha=0.7, color='skyblue', edgecolor='black')
    axes[0, 0].set_title('Distribuci√≥n de Precios')
    axes[0, 0].set_xlabel('Precio (R$)')
    axes[0, 0].set_ylabel('Frecuencia')
    axes[0, 0].grid(True, alpha=0.3)

# 2. Ventas por mes
if 'fecha_compra' in ventas_limpio.columns:
    ventas_por_mes = ventas_limpio.groupby(ventas_limpio['fecha_compra'].dt.to_period('M')).size()
    axes[0, 1].plot(range(len(ventas_por_mes)), ventas_por_mes.values, marker='o', linewidth=2, markersize=6)
    axes[0, 1].set_title('Ventas por Mes')
    axes[0, 1].set_xlabel('Mes')
    axes[0, 1].set_ylabel('N√∫mero de Ventas')
    axes[0, 1].grid(True, alpha=0.3)

# 3. Top ciudades por ventas
if 'ciudad_cliente' in ventas_limpio.columns:
    top_ciudades = ventas_limpio['ciudad_cliente'].value_counts().head(10)
    axes[1, 0].barh(range(len(top_ciudades)), top_ciudades.values, color='lightcoral')
    axes[1, 0].set_yticks(range(len(top_ciudades)))
    axes[1, 0].set_yticklabels(top_ciudades.index)
    axes[1, 0].set_title('Top 10 Ciudades por Ventas')
    axes[1, 0].set_xlabel('N√∫mero de Ventas')
    axes[1, 0].grid(True, alpha=0.3)

# 4. Distribuci√≥n de stock
if 'cantidad_stock' in ventas_limpio.columns:
    axes[1, 1].hist(ventas_limpio['cantidad_stock'], bins=20, alpha=0.7, color='lightgreen', edgecolor='black')
    axes[1, 1].set_title('Distribuci√≥n de Stock')
    axes[1, 1].set_xlabel('Cantidad en Stock')
    axes[1, 1].set_ylabel('Frecuencia')
    axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("‚úÖ Visualizaciones creadas")

## 6. Conexi√≥n y Carga a MongoDB

In [None]:
# Configuraci√≥n de MongoDB
MONGO_URI = "mongodb://admin:password123@localhost:27017/"
DB_NAME = "ventas_tienda_db"
COLLECTION_NAME = "ventas"

print("üîå Conectando a MongoDB...")

try:
    client = MongoClient(MONGO_URI)
    client.admin.command('ping')
    print("‚úÖ Conexi√≥n exitosa a MongoDB")
    
    db = client[DB_NAME]
    collection = db[COLLECTION_NAME]
    
    # Limpiar colecci√≥n existente
    collection.delete_many({})
    print("üßπ Colecci√≥n limpiada")
    
except Exception as e:
    print(f"‚ùå Error de conexi√≥n: {e}")
    print("üí° Aseg√∫rate de que MongoDB est√© ejecut√°ndose con: docker-compose -f docker/docker-compose.yml up -d")

In [None]:
# Cargar datos a MongoDB
print("\nüì§ Cargando datos a MongoDB...")

try:
    # Convertir DataFrame a documentos
    records = ventas_limpio.to_dict('records')
    
    # Procesar fechas
    for record in records:
        if isinstance(record.get('fecha_compra'), str):
            record['fecha_compra'] = pd.to_datetime(record['fecha_compra'])
    
    # Insertar en lotes para mejor rendimiento
    batch_size = 1000
    total_inserted = 0
    
    for i in range(0, len(records), batch_size):
        batch = records[i:i + batch_size]
        result = collection.insert_many(batch)
        total_inserted += len(result.inserted_ids)
        print(f"  üì¶ Lote {i//batch_size + 1}: {len(result.inserted_ids)} registros")
    
    print(f"\nüéâ Total de registros insertados: {total_inserted}")
    
    # Verificar inserci√≥n
    count = collection.count_documents({})
    print(f"üìä Documentos en la colecci√≥n: {count}")
    
except Exception as e:
    print(f"‚ùå Error al cargar datos: {e}")

## 7. Verificaci√≥n de Replicaci√≥n

In [None]:
# Verificar replicaci√≥n entre nodos
print("üîÑ VERIFICANDO REPLICACI√ìN")
print("=" * 50)

try:
    # Insertar documento de prueba en el primario
    test_doc = {
        'pedido_id': 'TEST-001',
        'fecha_compra': datetime.now(),
        'producto_id': 'PROD-TEST',
        'precio': 999.99,
        'cliente_id': 99999,
        'ciudad_cliente': 'Ciudad de Prueba',
        'cantidad_stock': 50,
        'test_replicacion': True
    }
    
    result = collection.insert_one(test_doc)
    print(f"‚úÖ Documento de prueba insertado: {result.inserted_id}")
    
    # Esperar a que se replique
    import time
    print("‚è≥ Esperando replicaci√≥n...")
    time.sleep(3)
    
    # Verificar en nodos secundarios
    secondary_ports = [27018, 27019]
    
    for port in secondary_ports:
        try:
            secondary_uri = f"mongodb://admin:password123@localhost:{port}/"
            secondary_client = MongoClient(secondary_uri)
            secondary_db = secondary_client[DB_NAME]
            secondary_collection = secondary_db[COLLECTION_NAME]
            
            # Buscar documento de prueba
            doc = secondary_collection.find_one({'pedido_id': 'TEST-001'})
            
            if doc:
                print(f"‚úÖ Replicaci√≥n exitosa en puerto {port}: {doc['producto_id']} - ${doc['precio']}")
            else:
                print(f"‚ùå Replicaci√≥n fall√≥ en puerto {port}")
                
        except Exception as e:
            print(f"‚ö†Ô∏è No se pudo verificar puerto {port}: {e}")
    
    # Limpiar documento de prueba
    collection.delete_one({'pedido_id': 'TEST-001'})
    print("üßπ Documento de prueba eliminado")
    
except Exception as e:
    print(f"‚ùå Error en verificaci√≥n: {e}")
    print("üí° Verifica que el replica set est√© configurado correctamente")

## 8. Resumen del EDA y ETL

In [None]:
# Resumen final
print("üìã RESUMEN DEL PROCESO EDA Y ETL")
print("=" * 50)

print(f"\nüìä DATASET ORIGINAL:")
for name, df in dataframes.items():
    print(f"  - {name}: {df.shape}")

print(f"\nüîÑ DATASET PROCESADO:")
print(f"  - Dimensiones: {ventas_limpio.shape}")
print(f"  - Columnas: {list(ventas_limpio.columns)}")

print(f"\nüìà ESTAD√çSTICAS CLAVE:")
if 'precio' in ventas_limpio.columns:
    print(f"  - Precio promedio: R$ {ventas_limpio['precio'].mean():.2f}")
    print(f"  - Precio m√°ximo: R$ {ventas_limpio['precio'].max():.2f}")
    print(f"  - Precio m√≠nimo: R$ {ventas_limpio['precio'].min():.2f}")

if 'fecha_compra' in ventas_limpio.columns:
    print(f"  - Per√≠odo: {ventas_limpio['fecha_compra'].min().date()} a {ventas_limpio['fecha_compra'].max().date()}")

if 'ciudad_cliente' in ventas_limpio.columns:
    print(f"  - Ciudades √∫nicas: {ventas_limpio['ciudad_cliente'].nunique()}")

print(f"\nüóÑÔ∏è MONGODB:")
try:
    count = collection.count_documents({})
    print(f"  - Documentos cargados: {count}")
    print(f"  - Base de datos: {DB_NAME}")
    print(f"  - Colecci√≥n: {COLLECTION_NAME}")
except:
    print("  - No disponible")

print(f"\nüéâ ¬°PROCESO COMPLETADO EXITOSAMENTE!")
print(f"üí° Ahora puedes ejecutar el notebook de Consultas CRUD para probar las operaciones")