#### Consumo de datos desde Kafka

En esta etapa se realiza el consumo de datos en tiempo real utilizando **Apache Kafka**. Para ello, se importan las librer√≠as necesarias, incluyendo `KafkaConsumer` y PySpark. Posteriormente, se configura el consumidor estableciendo la conexi√≥n con el servidor de Kafka y se define el proceso de deserializaci√≥n de los mensajes, permitiendo transformar los datos recibidos en un formato adecuado para su posterior procesamiento y an√°lisis.

#### Almacenamiento y procesamiento de datos

En esta etapa se realiza el consumo de datos provenientes de **Apache Kafka** mediante el uso de `KafkaConsumer`. A partir de los mensajes recibidos, se construye un DataFrame que permite almacenar los datos y aplicar las transformaciones requeridas para el an√°lisis.

Los datos provenientes de Kafka se leen dentro de un bucle de consumo continuo y se almacenan temporalmente en una estructura denominada `data_batch`. Con el fin de optimizar el procesamiento, se limita el n√∫mero de registros por lote, y mediante una l√≥gica condicional se transforma cada lote de datos en un DataFrame de Spark sobre el cual se aplican las siguientes operaciones:

- Limpieza de registros con valores nulos.
- Uni√≥n (*join*) con la tabla de ubicaciones utilizando los identificadores de origen y destino de los viajes.
- C√°lculo de las ganancias de la plataforma por cada viaje.
- C√°lculo del acumulado de las ganancias generadas por la plataforma.


In [None]:
from kafka import KafkaConsumer
import json
from pyspark.sql import SparkSession
from pyspark.sql.types import (
    StructType, StructField,
    IntegerType, StringType, FloatType
)
from pyspark.sql.functions import col, sum, first
import time
from datetime import datetime
import os

# =====================================================
# 1. CONFIGURACI√ìN GENERAL
# =====================================================

KAFKA_BROKER = '100.68.89.127:9092'
TOPICS = ['uber_trips_clean', 'uber_trips_prod']
CONSUMER_GROUP = 'uber_realtime_analysis'
SIZE_BATCH = 10

REALTIME_OUTPUT_DIR = "output_realtime_analysis"
CLEAN_DIR = f"{REALTIME_OUTPUT_DIR}/clean_data"
AGG_DIR = f"{REALTIME_OUTPUT_DIR}/aggregated_data"

os.makedirs(CLEAN_DIR, exist_ok=True)
os.makedirs(AGG_DIR, exist_ok=True)

# =====================================================
# 2. ESQUEMA DE DATOS
# =====================================================

ENRICHED_SCHEMA = StructType([
    StructField("index_trip", IntegerType(), True),
    StructField("request_datetime", StringType(), True),
    StructField("pickup_datetime", StringType(), True),
    StructField("dropoff_datetime", StringType(), True),
    StructField("pulocationid", IntegerType(), True),
    StructField("dolocationid", IntegerType(), True),
    StructField("base_passenger_fare", FloatType(), True),
    StructField("tips", FloatType(), True),
    StructField("driver_pay", FloatType(), True),
    StructField("hour", FloatType(), True),
    StructField("year", FloatType(), True),
    StructField("month", FloatType(), True),
    StructField("day", FloatType(), True),
    StructField("on_time_pickup", IntegerType(), True),

    # Enriquecidas
    StructField("uber_sales", FloatType(), True),
    StructField("pickup_zone", StringType(), True),
    StructField("delivery_zone", StringType(), True),
    StructField("source", StringType(), True),
    StructField("sent_at", StringType(), True),
])

# =====================================================
# 3. INICIALIZACI√ìN SPARK Y KAFKA
# =====================================================

spark = (
    SparkSession.builder
    .appName("KafkaTripsRealtimeProcessor")
    .getOrCreate()
)

print("‚úÖ SparkSession iniciada")

consumer = KafkaConsumer(
    *TOPICS,
    bootstrap_servers=KAFKA_BROKER,
    auto_offset_reset='earliest',
    group_id=CONSUMER_GROUP,
    value_deserializer=lambda m: json.loads(m.decode('utf-8')),
    consumer_timeout_ms=10000
)

print(f"‚úÖ Consumidor Kafka suscrito a: {TOPICS}")
print("\nüöÄ INICIANDO CONSUMO EN TIEMPO REAL\n")

# =====================================================
# 4. BUCLE PRINCIPAL
# =====================================================

data_batch = []

try:
    for message in consumer:

        if message.value is None or not isinstance(message.value, dict):
            continue

        data_batch.append(message.value)

        print(
            f"üì© Mensaje recibido [{message.topic}] "
            f"Trip ID: {message.value.get('index_trip', 'N/A')}"
        )

        # -------------------------------------------------
        # PROCESAR BATCH
        # -------------------------------------------------
        if len(data_batch) >= SIZE_BATCH:

            print(
                f"\nüì¶ Batch completo "
                f"({len(data_batch)} registros) "
                f"{datetime.now().strftime('%H:%M:%S')}"
            )

            df = spark.createDataFrame(data_batch, ENRICHED_SCHEMA)

            # ------------------------------
            # AGREGACI√ìN
            # ------------------------------
            df_agg_zone = (
                df.groupBy("pickup_zone", "source")
                .agg(
                    sum("uber_sales").alias("total_sales_zone"),
                    first("year").alias("year"),
                    first("hour").alias("hour")
                )
                .filter(col("total_sales_zone") > 0)
                .orderBy(col("total_sales_zone").desc())
            )

            # ------------------------------
            # ESCRITURA CLEAN DATA
            # ------------------------------
            df.coalesce(1).write.mode("append").option(
                "header", True
            ).csv(CLEAN_DIR)

            # ------------------------------
            # ESCRITURA AGREGADOS (SOLO SI HAY DATOS)
            # ------------------------------
            if df_agg_zone.count() > 0:
                df_agg_zone.coalesce(1).write.mode("append").option(
                    "header", True
                ).csv(AGG_DIR)

                print("‚úÖ CSV agregado escrito correctamente")
                print(f"üìÇ Ruta: {os.path.abspath(AGG_DIR)}")
            else:
                print("‚ö†Ô∏è Batch sin datos agregables ‚Äî no se escribe CSV")

            # ------------------------------
            # DEBUG VISUAL
            # ------------------------------
            print("\nüîù Top Zonas por Ventas (Batch)")
            df_agg_zone.select(
                "pickup_zone", "total_sales_zone", "hour"
            ).limit(3).show(truncate=False)

            print("-" * 50)

            data_batch.clear()
            time.sleep(1)

except Exception as e:
    print(f"‚ùå ERROR CR√çTICO EN CONSUMER: {e}")

finally:
    consumer.close()
    spark.stop()
    print("\nüõë Consumer detenido correctamente")


Using Spark's default log4j profile: org/apache/spark/log4j2-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
25/12/16 00:16:11 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


SparkSession iniciada para procesamiento.
Consumidor de Kafka suscrito a: ['uber_trips_clean', 'uber_trips_prod']

--- INICIANDO CONSUMO Y PROCESAMIENTO EN TIEMPO REAL ---
Recibido mensaje de uber_trips_prod: Trip ID 769
Recibido mensaje de uber_trips_prod: Trip ID 23
Recibido mensaje de uber_trips_prod: Trip ID 114
Recibido mensaje de uber_trips_clean: Trip ID 769
Recibido mensaje de uber_trips_clean: Trip ID 23
Recibido mensaje de uber_trips_clean: Trip ID 114
Recibido mensaje de uber_trips_clean: Trip ID 660
Recibido mensaje de uber_trips_prod: Trip ID 660
Recibido mensaje de uber_trips_clean: Trip ID 893
Recibido mensaje de uber_trips_prod: Trip ID 893

[Batch Completo - 00:16:24] Procesando 10 registros con Spark.


25/12/16 00:16:29 WARN BasicWriteTaskStatsTracker: Expected 1 files, but only saw 0. This could be due to the output format not writing empty files, or files being not immediately visible in the filesystem.
25/12/16 00:16:29 WARN BasicWriteTaskStatsTracker: Expected 1 files, but only saw 0. This could be due to the output format not writing empty files, or files being not immediately visible in the filesystem.
25/12/16 00:16:29 WARN BasicWriteTaskStatsTracker: Expected 1 files, but only saw 0. This could be due to the output format not writing empty files, or files being not immediately visible in the filesystem.
25/12/16 00:16:29 WARN BasicWriteTaskStatsTracker: Expected 1 files, but only saw 0. This could be due to the output format not writing empty files, or files being not immediately visible in the filesystem.
25/12/16 00:16:29 WARN BasicWriteTaskStatsTracker: Expected 1 files, but only saw 0. This could be due to the output format not writing empty files, or files being not imme

-> Guardados 10 registros limpios y agregados.

--- Top Zonas con Mayores Ventas en este Batch ---


                                                                                

+-------------------+-------------------+----+
|pickup_zone        |total_sales_zone   |hour|
+-------------------+-------------------+----+
|Murray Hill        |-0.5799999237060547|NULL|
|Kingsbridge Heights|3.010000228881836  |NULL|
|Bath Beach         |-0.1400003433227539|NULL|
+-------------------+-------------------+----+

---------------------------------------------------
Recibido mensaje de uber_trips_clean: Trip ID 53
Recibido mensaje de uber_trips_clean: Trip ID 987
Recibido mensaje de uber_trips_prod: Trip ID 53
Recibido mensaje de uber_trips_prod: Trip ID 987
Recibido mensaje de uber_trips_clean: Trip ID 878
Recibido mensaje de uber_trips_prod: Trip ID 878
Recibido mensaje de uber_trips_clean: Trip ID 110
Recibido mensaje de uber_trips_prod: Trip ID 110
Recibido mensaje de uber_trips_clean: Trip ID 91
Recibido mensaje de uber_trips_prod: Trip ID 91

[Batch Completo - 00:16:49] Procesando 10 registros con Spark.


                                                                                

-> Guardados 10 registros limpios y agregados.

--- Top Zonas con Mayores Ventas en este Batch ---


                                                                                

+-------------------------+------------------+----+
|pickup_zone              |total_sales_zone  |hour|
+-------------------------+------------------+----+
|Williamsbridge/Olinville |2.5799999237060547|NULL|
|Springfield Gardens North|5.029999732971191 |NULL|
|Williamsbridge/Olinville |2.5799999237060547|NULL|
+-------------------------+------------------+----+

---------------------------------------------------
Recibido mensaje de uber_trips_clean: Trip ID 128
Recibido mensaje de uber_trips_prod: Trip ID 128
Recibido mensaje de uber_trips_clean: Trip ID 363
Recibido mensaje de uber_trips_prod: Trip ID 363
Recibido mensaje de uber_trips_clean: Trip ID 251
Recibido mensaje de uber_trips_prod: Trip ID 251
Recibido mensaje de uber_trips_clean: Trip ID 744
Recibido mensaje de uber_trips_prod: Trip ID 744
Recibido mensaje de uber_trips_prod: Trip ID 778
Recibido mensaje de uber_trips_clean: Trip ID 778

[Batch Completo - 00:17:14] Procesando 10 registros con Spark.


                                                                                

-> Guardados 10 registros limpios y agregados.

--- Top Zonas con Mayores Ventas en este Batch ---


                                                                                

+-------------------------+------------------+----+
|pickup_zone              |total_sales_zone  |hour|
+-------------------------+------------------+----+
|Kips Bay                 |5.970000267028809 |NULL|
|Kips Bay                 |5.970000267028809 |NULL|
|Williamsburg (North Side)|1.3400006294250488|NULL|
+-------------------------+------------------+----+

---------------------------------------------------
Recibido mensaje de uber_trips_prod: Trip ID 819
Recibido mensaje de uber_trips_clean: Trip ID 819
Recibido mensaje de uber_trips_prod: Trip ID 310
Recibido mensaje de uber_trips_clean: Trip ID 310
Recibido mensaje de uber_trips_prod: Trip ID 849
Recibido mensaje de uber_trips_clean: Trip ID 849
Recibido mensaje de uber_trips_prod: Trip ID 247
Recibido mensaje de uber_trips_clean: Trip ID 247
Recibido mensaje de uber_trips_prod: Trip ID 796
Recibido mensaje de uber_trips_clean: Trip ID 796

[Batch Completo - 00:17:39] Procesando 10 registros con Spark.


                                                                                

-> Guardados 10 registros limpios y agregados.

--- Top Zonas con Mayores Ventas en este Batch ---


                                                                                

+----------------+-------------------+----+
|pickup_zone     |total_sales_zone   |hour|
+----------------+-------------------+----+
|Brownsville     |-1.6899986267089844|NULL|
|Brownsville     |-1.6899986267089844|NULL|
|Manhattan Valley|10.029998779296875 |NULL|
+----------------+-------------------+----+

---------------------------------------------------
Recibido mensaje de uber_trips_prod: Trip ID 919
Recibido mensaje de uber_trips_clean: Trip ID 919
Recibido mensaje de uber_trips_clean: Trip ID 214
Recibido mensaje de uber_trips_prod: Trip ID 214
Recibido mensaje de uber_trips_clean: Trip ID 429
Recibido mensaje de uber_trips_prod: Trip ID 429
Recibido mensaje de uber_trips_clean: Trip ID 117
Recibido mensaje de uber_trips_prod: Trip ID 117
Recibido mensaje de uber_trips_clean: Trip ID 998
Recibido mensaje de uber_trips_prod: Trip ID 998

[Batch Completo - 00:18:04] Procesando 10 registros con Spark.


                                                                                

-> Guardados 10 registros limpios y agregados.

--- Top Zonas con Mayores Ventas en este Batch ---


                                                                                

+--------------+------------------+----+
|pickup_zone   |total_sales_zone  |hour|
+--------------+------------------+----+
|East New York |1.8499999046325684|NULL|
|East New York |1.8499999046325684|NULL|
|Manhattanville|2.9700002670288086|NULL|
+--------------+------------------+----+

---------------------------------------------------
Recibido mensaje de uber_trips_clean: Trip ID 547
Recibido mensaje de uber_trips_prod: Trip ID 547
Recibido mensaje de uber_trips_clean: Trip ID 144
Recibido mensaje de uber_trips_prod: Trip ID 144
