Ejercicio: Diseño de arquitectura Big Data para análisis de e-commerce

Análisis de requisitos y patrones de datos:

In [2]:
# Análisis de volúmenes y patrones para e-commerce
import pandas as pd
import numpy as np

# Estimación de volúmenes para plataforma e-commerce
estimaciones_mensuales = {
    'eventos_usuario': 50000000,    # 50M eventos (clicks, views, etc.)
    'ordenes': 1000000,             # 1M órdenes
    'productos': 100000,            # 100K productos
    'clientes_activos': 5000000,    # 5M clientes activos
    'reviews': 500000,              # 500K reviews
    'logs_sistema': 100000000       # 100M logs diarios
}

print("ESTIMACIONES DE VOLUMEN - E-COMMERCE MENSUAL")
print("=" * 50)
for componente, volumen in estimaciones_mensuales.items():
    print("25")

# Patrones de consulta identificados
patrones_consulta = {
    'tiempo_real': [
        '¿Cuántos usuarios activos ahora?',
        '¿Cuál es la conversión actual?',
        '¿Hay anomalías en ventas?'
    ],
    'batch_diario': [
        'Reportes de ventas por categoría',
        'Análisis de comportamiento de cliente',
        'Optimización de inventario'
    ],
    'batch_semanal': [
        'Tendencias de productos',
        'Segmentación de clientes',
        'Análisis de campañas de marketing'
    ]
}

print("PATRONES DE CONSULTA IDENTIFICADOS") 
print("=" * 40) 
for frecuencia, consultas in patrones_consulta.items(): 
    print(f"\n{frecuencia.upper()}:") 
for consulta in consultas: 
    print(f" • {consulta}")



ESTIMACIONES DE VOLUMEN - E-COMMERCE MENSUAL
25
25
25
25
25
25
PATRONES DE CONSULTA IDENTIFICADOS

TIEMPO_REAL:

BATCH_DIARIO:

BATCH_SEMANAL:
 • Tendencias de productos
 • Segmentación de clientes
 • Análisis de campañas de marketing


Diseño de arquitectura híbrida Lambda

In [4]:
# Arquitectura Lambda para e-commerce
arquitectura_lambda = {
    'capa_streaming': {
        'tecnologias': ['Apache Kafka', 'Apache Flink', 'Redis'],
        'casos_uso': [
            'Monitoreo en tiempo real de ventas',
            'Detección de fraudes',
            'Personalización de recomendaciones',
            'Alertas de inventario bajo'
        ],
        'latencia': 'milisegundos-segundos',
        'datos': 'eventos individuales'
    },
    'capa_batch': {
        'tecnologias': ['Apache Spark', 'Hadoop MapReduce', 'Apache Airflow'],
        'casos_uso': [
            'Reportes de performance mensual',
            'Modelos de machine learning',
            'Análisis de cohortes de clientes',
            'Optimización de precios'
        ],
        'latencia': 'horas-días',
        'datos': 'datasets completos'
    },
    'capa_serving': {
        'tecnologias': ['Apache Druid', 'ClickHouse', 'Elasticsearch'],
        'funciones': [
            'Unificar resultados batch + streaming',
            'Servir consultas analíticas rápidas',
            'Dashboards en tiempo real',
            'APIs para aplicaciones'
        ]
    }
}

print("ARQUITECTURA LAMBDA PROPUESTA")
print("=" * 35)

for capa, detalles in arquitectura_lambda.items():
    print(f"\n{capa.upper().replace('_', ' ')}:")
    print(f"  Tecnologías: {', '.join(detalles['tecnologias'])}")
    if 'latencia' in detalles:
        print(f"  Latencia: {detalles['latencia']}")
    if 'casos_uso' in detalles:
        print("  Casos de uso:")
        for caso in detalles['casos_uso']:
            print(f"    • {caso}")

ARQUITECTURA LAMBDA PROPUESTA

CAPA STREAMING:
  Tecnologías: Apache Kafka, Apache Flink, Redis
  Latencia: milisegundos-segundos
  Casos de uso:
    • Monitoreo en tiempo real de ventas
    • Detección de fraudes
    • Personalización de recomendaciones
    • Alertas de inventario bajo

CAPA BATCH:
  Tecnologías: Apache Spark, Hadoop MapReduce, Apache Airflow
  Latencia: horas-días
  Casos de uso:
    • Reportes de performance mensual
    • Modelos de machine learning
    • Análisis de cohortes de clientes
    • Optimización de precios

CAPA SERVING:
  Tecnologías: Apache Druid, ClickHouse, Elasticsearch


Implementación de pipeline de procesamiento:

In [5]:
# Pipeline de procesamiento para arquitectura Lambda
def lambda_pipeline_arquitecture():
    """
    Arquitectura Lambda simplificada para e-commerce
    """
    
    # CAPA DE STREAMING (velocidad)
    def capa_streaming():
        """Procesamiento en tiempo real"""
        eventos_stream = kafka_consumer.consume('user_events')
        
        # Procesamiento con Flink
        eventos_procesados = eventos_stream \
            .filter(lambda x: x['event_type'] == 'purchase') \
            .key_by(lambda x: x['user_id']) \
            .window(TumblingEventTimeWindows.of(Time.minutes(5))) \
            .aggregate(AggregationFunction())
        
        # Resultados a Redis para consultas rápidas
        eventos_procesados.addSink(redis_sink)
        
        # También a storage duradero para batch layer
        eventos_procesados.addSink(s3_sink)
    
    # CAPA DE BATCH (precisión)
    def capa_batch():
        """Procesamiento completo y preciso"""
        # Leer todos los datos históricos
        datos_completos = spark.read.parquet('s3://data-lake/events/')
        
        # Procesamiento completo con Spark
        metricas_batch = datos_completos \
            .groupBy('fecha', 'categoria') \
            .agg(
                sum('revenue').alias('ventas_total'),
                countDistinct('user_id').alias('clientes_unicos'),
                (sum('purchases') / countDistinct('user_id')).alias('conversion_rate')
            )
        
        # Guardar resultados batch
        metricas_batch.write.mode('overwrite').parquet('s3://data-lake/batch-metrics/')
    
    # CAPA DE SERVING (unificación)
    def capa_serving():
        """Unificar y servir resultados"""
        # Combinar resultados streaming + batch
        resultados_streaming = redis_cluster.get_recent_metrics()
        resultados_batch = spark.read.parquet('s3://data-lake/batch-metrics/')
        
        # Unificar en ClickHouse para consultas analíticas
        resultados_combinados = merge_results(resultados_streaming, resultados_batch)
        clickhouse_client.insert('metricas_unificadas', resultados_combinados)
    
    return {
        'streaming': capa_streaming,
        'batch': capa_batch, 
        'serving': capa_serving
    }

# Demostración de escalabilidad
escalabilidad = {
    'volumen_actual': '10TB datos/mes',
    'proyeccion_2_años': '100TB datos/mes',
    'estrategias_escalabilidad': [
        'Auto-scaling de clusters Spark/Flink',
        'Particionamiento horizontal adicional',
        'Compresión columnar avanzada',
        'Cache distribuido (Redis Cluster)',
        'CDN para datos estáticos'
    ]
}

print("ESTRATEGIA DE ESCALABILIDAD") 
print("=" * 30) 
print(f"Volumen actual: {escalabilidad['volumen_actual']}") 
print(f"Proyección 2 años: {escalabilidad['proyeccion_2_años']}") 
print("Estrategias:") 
for estrategia in escalabilidad['estrategias_escalabilidad']: 
    print(f" • {estrategia}")

ESTRATEGIA DE ESCALABILIDAD
Volumen actual: 10TB datos/mes
Proyección 2 años: 100TB datos/mes
Estrategias:
 • Auto-scaling de clusters Spark/Flink
 • Particionamiento horizontal adicional
 • Compresión columnar avanzada
 • Cache distribuido (Redis Cluster)
 • CDN para datos estáticos


Verificación: Explica cómo la arquitectura Lambda resuelve el trade-off entre velocidad (streaming) y precisión (batch), y describe escenarios donde elegirías Kappa sobre Lambda para simplificar la arquitectura.

La arquitectura Lambda separa el procesamiento en streaming para obtener resultados rápidos con baja latencia y en batch para recalcular métricas completas y precisas sobre datos históricos. Así combina velocidad inmediata con exactitud a largo plazo.

Se elige Kappa cuando todo el procesamiento puede hacerse como streaming, reprocesando eventos desde Kafka, y se busca simplificar la arquitectura evitando mantener pipelines batch separados.
