In [1]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, sum, count, round

# Detener sesiones previas para evitar conflictos de configuraci√≥n
try:
    spark.stop()
except:
    pass

# Inicializar sesi√≥n de Spark con el conector de Cassandra
# Usamos el paquete oficial de Datastax para asegurar compatibilidad
spark = SparkSession.builder \
    .appName("Pipeline_BigData_Fase3") \
    .config("spark.jars.packages", "com.datastax.spark:spark-cassandra-connector_2.12:3.5.0") \
    .config("spark.cassandra.connection.host", "cassandra_db") \
    .config("spark.cassandra.connection.port", "9042") \
    .config("spark.sql.extensions", "com.datastax.spark.connector.CassandraSparkExtensions") \
    .getOrCreate()

print("‚úÖ Sesi√≥n de Spark inicializada con el conector de Cassandra.")

‚úÖ Sesi√≥n de Spark inicializada con el conector de Cassandra.


In [2]:
# --- Tarea 3.1: Lectura distribuida desde Cassandra ---
df_crudo = spark.read \
    .format("org.apache.spark.sql.cassandra") \
    .options(table="ventas_crudas", keyspace="proyecto_bigdata") \
    .load()

# --- Tarea 3.3: Limpieza de datos ---
# Filtramos montos negativos o nulos para asegurar la calidad del an√°lisis
df_limpio = df_crudo.filter(col("monto_total") > 0)

# --- Tarea 3.2: L√≥gica de Transformaci√≥n y Agregaci√≥n ---
# Agrupamos por fecha y categor√≠a para obtener totales y volumen de transacciones
df_resumen = df_limpio.groupBy("fecha_venta", "categoria") \
    .agg(
        round(sum("monto_total"), 2).alias("ventas_totales"),
        count("id_venta").alias("cantidad_transacciones")
    )

print("üìä Vista previa del resumen anal√≠tico (Fase 3 completada):")
df_resumen.show(10)
df_resumen.printSchema()

üìä Vista previa del resumen anal√≠tico (Fase 3 completada):
+-------------------+-----------+--------------+----------------------+
|        fecha_venta|  categoria|ventas_totales|cantidad_transacciones|
+-------------------+-----------+--------------+----------------------+
|2025-12-16 00:00:00|  Alimentos|     329990.06|                   656|
|2026-02-03 00:00:00|       Ropa|     334491.98|                   678|
|2026-01-21 00:00:00|  Alimentos|     331743.40|                   666|
|2025-12-28 00:00:00|  Alimentos|     336338.33|                   642|
|2026-01-09 00:00:00|   Deportes|     342667.70|                   690|
|2025-12-28 00:00:00|   Deportes|     325962.41|                   640|
|2026-01-25 00:00:00|Electr√≥nica|     339704.86|                   689|
|2026-01-05 00:00:00|  Alimentos|     320445.81|                   642|
|2026-02-03 00:00:00|Electr√≥nica|     369185.57|                   688|
|2026-01-11 00:00:00|Electr√≥nica|     290856.38|                   593|

In [26]:
!pip install clickhouse-connect



In [31]:
# --- FASE 4.1: CARGA AL DATA WAREHOUSE 
import clickhouse_connect

print("üì¶ Extrayendo datos procesados de Spark...")
# Preparar los registros
registros = [list(row) for row in df_resumen.collect()]

try:
    # Intentamos conexi√≥n al usuario 'default' que acabamos de resetear
    client = clickhouse_connect.get_client(
        host='172.18.0.3', 
        port=8123, 
        username='default', 
        password=''
    )

    # 1. Aseguramos que la base de datos y la tabla existan
    client.command("CREATE DATABASE IF NOT EXISTS default")
    
    client.command("""
        CREATE TABLE IF NOT EXISTS default.ventas_resumen (
            fecha_venta Date,
            categoria String,
            ventas_totales Float64,
            cantidad_transacciones Int64
        ) ENGINE = MergeTree() ORDER BY (fecha_venta, categoria)
    """)

    # 2. Insertamos los datos de manera masiva
    client.insert('default.ventas_resumen', registros, 
                  column_names=['fecha_venta', 'categoria', 'ventas_totales', 'cantidad_transacciones'])

    print(f"‚úÖ ¬°MISI√ìN CUMPLIDA! Se cargaron {len(registros)} filas en ClickHouse.")
    print("‚ú® El Pipeline Cassandra -> Spark -> ClickHouse est√° 100% operativo.")

except Exception as e:
    print(f"‚ùå Error de conexi√≥n: {e}")
    print("üí° Si persiste el error de password, intenta cambiar username='default' por username='admin' en la l√≠nea 12.")

üì¶ Extrayendo datos procesados de Spark...
‚úÖ ¬°MISI√ìN CUMPLIDA! Se cargaron 300 filas en ClickHouse.
‚ú® El Pipeline Cassandra -> Spark -> ClickHouse est√° 100% operativo.
