# EDA y ETL MongoDB - Replicación Primario-Secundario
## Dataset: Brazilian E-commerce (Kaggle)

Este notebook realiza:
1. **Descarga automática** del dataset desde Kaggle usando kagglehub
2. **Análisis Exploratorio de Datos (EDA)** de los archivos CSV
3. **Extracción, Transformación y Carga (ETL)**
4. **Carga a MongoDB** con verificación de replicación

In [None]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime, timedelta
from pymongo import MongoClient
import warnings
import os
import kagglehub
from pathlib import Path

warnings.filterwarnings('ignore')

# Configurar estilo de gráficos
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

print("✅ Librerías importadas correctamente")

## 1. Descarga del Dataset desde Kaggle

In [None]:
# Descargar dataset usando kagglehub
print("📥 Descargando dataset de Brazilian E-commerce...")

try:
    # Descargar el dataset
    path = kagglehub.dataset_download("olistbr/brazilian-ecommerce")
    print(f"✅ Dataset descargado en: {path}")
    
    # Listar archivos descargados
    files = list(Path(path).glob("*.csv"))
    print(f"\n📁 Archivos CSV encontrados ({len(files)}):")
    for file in files:
        print(f"  - {file.name}")
        
except Exception as e:
    print(f"❌ Error al descargar: {e}")
    print("💡 Asegúrate de tener kagglehub instalado: pip install kagglehub")

## 2. Carga y Exploración de los Datos

In [None]:
# Cargar todos los archivos CSV
print("📊 Cargando archivos CSV...")

dataframes = {}

for file in files:
    df_name = file.stem  # Nombre del archivo sin extensión
    print(f"\n📖 Cargando {file.name}...")
    
    try:
        df = pd.read_csv(file)
        dataframes[df_name] = df
        print(f"  ✅ Filas: {len(df)}, Columnas: {len(df.columns)}")
        print(f"  📋 Columnas: {list(df.columns)}")
        
    except Exception as e:
        print(f"  ❌ Error al cargar {file.name}: {e}")

print(f"\n🎉 Total de datasets cargados: {len(dataframes)}")

## 3. Análisis Exploratorio de Datos (EDA)

In [None]:
# Mostrar información básica de cada dataset
print("🔍 ANÁLISIS EXPLORATORIO DE DATOS")
print("=" * 50)

for name, df in dataframes.items():
    print(f"\n📊 DATASET: {name.upper()}")
    print(f"Dimensiones: {df.shape}")
    print(f"\nPrimeras 3 filas:")
    display(df.head(3))
    
    print(f"\nInformación del dataset:")
    print(df.info())
    
    print(f"\nValores nulos:")
    null_counts = df.isnull().sum()
    if null_counts.sum() > 0:
        print(null_counts[null_counts > 0])
    else:
        print("✅ No hay valores nulos")
    
    print(f"\nEstadísticas descriptivas:")
    display(df.describe())
    
    print("-" * 50)

## 4. Limpieza y Transformación de Datos (ETL)

In [8]:
# ETL: Combinar datasets para crear un dataset unificado de ventas
print("🔄 PROCESO ETL - COMBINANDO DATASETS")
print("=" * 50)

# Obtener los datasets principales
orders_df = dataframes.get('olist_orders_dataset', pd.DataFrame())
items_df = dataframes.get('olist_order_items_dataset', pd.DataFrame())
products_df = dataframes.get('olist_products_dataset', pd.DataFrame())
customers_df = dataframes.get('olist_customers_dataset', pd.DataFrame())
sellers_df = dataframes.get('olist_sellers_dataset', pd.DataFrame())

print(f"📦 Orders: {orders_df.shape}")
print(f"📦 Items: {items_df.shape}")
print(f"📦 Products: {products_df.shape}")
print(f"📦 Customers: {customers_df.shape}")
print(f"📦 Sellers: {sellers_df.shape}")

🔄 PROCESO ETL - COMBINANDO DATASETS
📦 Orders: (99441, 8)
📦 Items: (112650, 7)
📦 Products: (32951, 9)
📦 Customers: (99441, 5)
📦 Sellers: (3095, 4)


In [9]:
# Limpiar y transformar fechas
print("\n🕒 Transformando fechas...")

if not orders_df.empty:
    # Convertir columnas de fecha
    date_columns = ['order_purchase_date', 'order_approved_at', 'order_delivered_carrier_date', 
                   'order_delivered_customer_date', 'order_estimated_delivery_date']
    
    for col in date_columns:
        if col in orders_df.columns:
            orders_df[col] = pd.to_datetime(orders_df[col], errors='coerce')
    
    print("✅ Fechas transformadas")
    
    # Mostrar rango de fechas
    if 'order_purchase_date' in orders_df.columns:
        print(f"📅 Rango de fechas de compra: {orders_df['order_purchase_date'].min()} a {orders_df['order_purchase_date'].max()}")


🕒 Transformando fechas...
✅ Fechas transformadas


In [10]:
# Combinar datasets
print("\n🔗 Combinando datasets...")

try:
    # Merge 1: Orders + Items
    if not orders_df.empty and not items_df.empty:
        ventas_df = orders_df.merge(items_df, on='order_id', how='inner')
        print(f"✅ Orders + Items: {ventas_df.shape}")
    
    # Merge 2: + Products
    if not products_df.empty:
        ventas_df = ventas_df.merge(products_df, on='product_id', how='left')
        print(f"✅ + Products: {ventas_df.shape}")
    
    # Merge 3: + Customers
    if not customers_df.empty:
        ventas_df = ventas_df.merge(customers_df, on='customer_id', how='left')
        print(f"✅ + Customers: {ventas_df.shape}")
    
    # Merge 4: + Sellers
    if not sellers_df.empty:
        ventas_df = ventas_df.merge(sellers_df, on='seller_id', how='left')
        print(f"✅ + Sellers: {ventas_df.shape}")
    
    print(f"\n🎉 Dataset combinado final: {ventas_df.shape}")
    
except Exception as e:
    print(f"❌ Error al combinar: {e}")
    # Crear dataset de ejemplo si falla la combinación
    ventas_df = pd.DataFrame()


🔗 Combinando datasets...
✅ Orders + Items: (112650, 14)
✅ + Products: (112650, 22)
✅ + Customers: (112650, 26)
✅ + Sellers: (112650, 29)

🎉 Dataset combinado final: (112650, 29)


In [11]:
# Limpiar y preparar el dataset final
print("\n🧹 Limpiando dataset final...")

if not ventas_df.empty:
    # Seleccionar columnas relevantes y renombrar
    columnas_finales = {
        'order_id': 'pedido_id',
        'order_purchase_date': 'fecha_compra',
        'order_status': 'estado_pedido',
        'product_id': 'producto_id',
        'product_name_lenght': 'longitud_nombre_producto',
        'product_description_lenght': 'longitud_descripcion_producto',
        'product_photos_qty': 'cantidad_fotos_producto',
        'product_weight_g': 'peso_producto_g',
        'product_length_cm': 'longitud_producto_cm',
        'product_height_cm': 'altura_producto_cm',
        'product_width_cm': 'ancho_producto_cm',
        'price': 'precio',
        'freight_value': 'valor_flete',
        'customer_id': 'cliente_id',
        'customer_city': 'ciudad_cliente',
        'customer_state': 'estado_cliente',
        'seller_id': 'vendedor_id',
        'seller_city': 'ciudad_vendedor',
        'seller_state': 'estado_vendedor'
    }
    
    # Filtrar columnas que existen
    columnas_existentes = {k: v for k, v in columnas_finales.items() if k in ventas_df.columns}
    ventas_limpio = ventas_df[list(columnas_existentes.keys())].copy()
    ventas_limpio.rename(columns=columnas_existentes, inplace=True)
    
    # Agregar campos calculados
    if 'precio' in ventas_limpio.columns and 'valor_flete' in ventas_limpio.columns:
        ventas_limpio['precio_total'] = ventas_limpio['precio'] + ventas_limpio['valor_flete']
    
    # Agregar campo de stock simulado
    ventas_limpio['cantidad_stock'] = np.random.randint(0, 100, len(ventas_limpio))
    
    # Limpiar valores nulos
    ventas_limpio.dropna(subset=['fecha_compra', 'precio'], inplace=True)
    
    print(f"✅ Dataset limpio: {ventas_limpio.shape}")
    print(f"📋 Columnas finales: {list(ventas_limpio.columns)}")
    
else:
    print("⚠️ No se pudo crear el dataset combinado, usando datos de ejemplo")
    # Crear dataset de ejemplo
    ventas_limpio = pd.DataFrame({
        'pedido_id': range(1, 1001),
        'fecha_compra': pd.date_range('2023-01-01', periods=1000, freq='D'),
        'producto_id': np.random.randint(1, 101, 1000),
        'precio': np.random.uniform(10, 500, 1000),
        'cliente_id': np.random.randint(1, 201, 1000),
        'ciudad_cliente': np.random.choice(['São Paulo', 'Rio de Janeiro', 'Brasília', 'Salvador', 'Fortaleza'], 1000),
        'cantidad_stock': np.random.randint(0, 100, 1000)
    })


🧹 Limpiando dataset final...


KeyError: ['fecha_compra']

## 5. Visualizaciones del EDA

In [None]:
# Visualizaciones del EDA
print("📊 CREANDO VISUALIZACIONES")
print("=" * 50)

# Configurar subplots
fig, axes = plt.subplots(2, 2, figsize=(15, 12))
fig.suptitle('Análisis Exploratorio de Datos - Brazilian E-commerce', fontsize=16, fontweight='bold')

# 1. Distribución de precios
if 'precio' in ventas_limpio.columns:
    axes[0, 0].hist(ventas_limpio['precio'], bins=30, alpha=0.7, color='skyblue', edgecolor='black')
    axes[0, 0].set_title('Distribución de Precios')
    axes[0, 0].set_xlabel('Precio (R$)')
    axes[0, 0].set_ylabel('Frecuencia')
    axes[0, 0].grid(True, alpha=0.3)

# 2. Ventas por mes
if 'fecha_compra' in ventas_limpio.columns:
    ventas_por_mes = ventas_limpio.groupby(ventas_limpio['fecha_compra'].dt.to_period('M')).size()
    axes[0, 1].plot(range(len(ventas_por_mes)), ventas_por_mes.values, marker='o', linewidth=2, markersize=6)
    axes[0, 1].set_title('Ventas por Mes')
    axes[0, 1].set_xlabel('Mes')
    axes[0, 1].set_ylabel('Número de Ventas')
    axes[0, 1].grid(True, alpha=0.3)

# 3. Top ciudades por ventas
if 'ciudad_cliente' in ventas_limpio.columns:
    top_ciudades = ventas_limpio['ciudad_cliente'].value_counts().head(10)
    axes[1, 0].barh(range(len(top_ciudades)), top_ciudades.values, color='lightcoral')
    axes[1, 0].set_yticks(range(len(top_ciudades)))
    axes[1, 0].set_yticklabels(top_ciudades.index)
    axes[1, 0].set_title('Top 10 Ciudades por Ventas')
    axes[1, 0].set_xlabel('Número de Ventas')
    axes[1, 0].grid(True, alpha=0.3)

# 4. Distribución de stock
if 'cantidad_stock' in ventas_limpio.columns:
    axes[1, 1].hist(ventas_limpio['cantidad_stock'], bins=20, alpha=0.7, color='lightgreen', edgecolor='black')
    axes[1, 1].set_title('Distribución de Stock')
    axes[1, 1].set_xlabel('Cantidad en Stock')
    axes[1, 1].set_ylabel('Frecuencia')
    axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("✅ Visualizaciones creadas")

## 6. Conexión y Carga a MongoDB

In [None]:
# Configuración de MongoDB
MONGO_URI = "mongodb://admin:password123@localhost:27017/"
DB_NAME = "ventas_tienda_db"
COLLECTION_NAME = "ventas"

print("🔌 Conectando a MongoDB...")

try:
    client = MongoClient(MONGO_URI)
    client.admin.command('ping')
    print("✅ Conexión exitosa a MongoDB")
    
    db = client[DB_NAME]
    collection = db[COLLECTION_NAME]
    
    # Limpiar colección existente
    collection.delete_many({})
    print("🧹 Colección limpiada")
    
except Exception as e:
    print(f"❌ Error de conexión: {e}")
    print("💡 Asegúrate de que MongoDB esté ejecutándose con: docker-compose -f docker/docker-compose.yml up -d")

In [None]:
# Cargar datos a MongoDB
print("\n📤 Cargando datos a MongoDB...")

try:
    # Convertir DataFrame a documentos
    records = ventas_limpio.to_dict('records')
    
    # Procesar fechas
    for record in records:
        if isinstance(record.get('fecha_compra'), str):
            record['fecha_compra'] = pd.to_datetime(record['fecha_compra'])
    
    # Insertar en lotes para mejor rendimiento
    batch_size = 1000
    total_inserted = 0
    
    for i in range(0, len(records), batch_size):
        batch = records[i:i + batch_size]
        result = collection.insert_many(batch)
        total_inserted += len(result.inserted_ids)
        print(f"  📦 Lote {i//batch_size + 1}: {len(result.inserted_ids)} registros")
    
    print(f"\n🎉 Total de registros insertados: {total_inserted}")
    
    # Verificar inserción
    count = collection.count_documents({})
    print(f"📊 Documentos en la colección: {count}")
    
except Exception as e:
    print(f"❌ Error al cargar datos: {e}")

## 7. Verificación de Replicación

In [None]:
# Verificar replicación entre nodos
print("🔄 VERIFICANDO REPLICACIÓN")
print("=" * 50)

try:
    # Insertar documento de prueba en el primario
    test_doc = {
        'pedido_id': 'TEST-001',
        'fecha_compra': datetime.now(),
        'producto_id': 'PROD-TEST',
        'precio': 999.99,
        'cliente_id': 99999,
        'ciudad_cliente': 'Ciudad de Prueba',
        'cantidad_stock': 50,
        'test_replicacion': True
    }
    
    result = collection.insert_one(test_doc)
    print(f"✅ Documento de prueba insertado: {result.inserted_id}")
    
    # Esperar a que se replique
    import time
    print("⏳ Esperando replicación...")
    time.sleep(3)
    
    # Verificar en nodos secundarios
    secondary_ports = [27018, 27019]
    
    for port in secondary_ports:
        try:
            secondary_uri = f"mongodb://admin:password123@localhost:{port}/"
            secondary_client = MongoClient(secondary_uri)
            secondary_db = secondary_client[DB_NAME]
            secondary_collection = secondary_db[COLLECTION_NAME]
            
            # Buscar documento de prueba
            doc = secondary_collection.find_one({'pedido_id': 'TEST-001'})
            
            if doc:
                print(f"✅ Replicación exitosa en puerto {port}: {doc['producto_id']} - ${doc['precio']}")
            else:
                print(f"❌ Replicación falló en puerto {port}")
                
        except Exception as e:
            print(f"⚠️ No se pudo verificar puerto {port}: {e}")
    
    # Limpiar documento de prueba
    collection.delete_one({'pedido_id': 'TEST-001'})
    print("🧹 Documento de prueba eliminado")
    
except Exception as e:
    print(f"❌ Error en verificación: {e}")
    print("💡 Verifica que el replica set esté configurado correctamente")

## 8. Resumen del EDA y ETL

In [None]:
# Resumen final
print("📋 RESUMEN DEL PROCESO EDA Y ETL")
print("=" * 50)

print(f"\n📊 DATASET ORIGINAL:")
for name, df in dataframes.items():
    print(f"  - {name}: {df.shape}")

print(f"\n🔄 DATASET PROCESADO:")
print(f"  - Dimensiones: {ventas_limpio.shape}")
print(f"  - Columnas: {list(ventas_limpio.columns)}")

print(f"\n📈 ESTADÍSTICAS CLAVE:")
if 'precio' in ventas_limpio.columns:
    print(f"  - Precio promedio: R$ {ventas_limpio['precio'].mean():.2f}")
    print(f"  - Precio máximo: R$ {ventas_limpio['precio'].max():.2f}")
    print(f"  - Precio mínimo: R$ {ventas_limpio['precio'].min():.2f}")

if 'fecha_compra' in ventas_limpio.columns:
    print(f"  - Período: {ventas_limpio['fecha_compra'].min().date()} a {ventas_limpio['fecha_compra'].max().date()}")

if 'ciudad_cliente' in ventas_limpio.columns:
    print(f"  - Ciudades únicas: {ventas_limpio['ciudad_cliente'].nunique()}")

print(f"\n🗄️ MONGODB:")
try:
    count = collection.count_documents({})
    print(f"  - Documentos cargados: {count}")
    print(f"  - Base de datos: {DB_NAME}")
    print(f"  - Colección: {COLLECTION_NAME}")
except:
    print("  - No disponible")

print(f"\n🎉 ¡PROCESO COMPLETADO EXITOSAMENTE!")
print(f"💡 Ahora puedes ejecutar el notebook de Consultas CRUD para probar las operaciones")