In [25]:
import sys
# Instalaci√≥n de librer√≠as necesarias para la conectividad y procesamiento
!{sys.executable} -m pip install cassandra-driver clickhouse-driver clickhouse-connect pandas numpy




[notice] A new release of pip is available: 25.1.1 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [26]:
import sys
import types

# Simulaci√≥n del m√≥dulo 'asyncore' requerido por cassandra-driver en versiones recientes de Python
mock_as = types.ModuleType('asyncore')
class MockDispatcher:
    def __init__(self, *args, **kwargs): pass
    def close(self): pass
    def add_channel(self, map=None): pass
    def del_channel(self, map=None): pass
mock_as.dispatcher = MockDispatcher
mock_as.socket_map = {}
sys.modules['asyncore'] = mock_as

print("‚úÖ Entorno de compatibilidad configurado.")

‚úÖ Entorno de compatibilidad configurado.


In [27]:
import subprocess

print("üèóÔ∏è Configurando Keyspace y Tablas en Cassandra...")

commands = [
    "CREATE KEYSPACE IF NOT EXISTS proyecto_bigdata WITH replication = {'class': 'SimpleStrategy', 'replication_factor': 1};",
    "CREATE TABLE IF NOT EXISTS proyecto_bigdata.ventas_crudas (id int PRIMARY KEY, categoria text, precio float, fecha timestamp);"
]

for cmd in commands:
    subprocess.run(["docker", "exec", "cassandra_db", "cqlsh", "-e", cmd], check=True)

print("‚úÖ Infraestructura de Cassandra lista.")

üèóÔ∏è Configurando Keyspace y Tablas en Cassandra...
‚úÖ Infraestructura de Cassandra lista.


In [28]:
import pandas as pd
import numpy as np
import subprocess
import os

print("‚è≥ Generando 100,000 registros sint√©ticos...")
df = pd.DataFrame({
    'id': range(1, 100001),
    'categoria': np.random.choice(['Electronica', 'Hogar'], 100000),
    'precio': np.random.uniform(50, 550, 100000).round(2),
    'fecha': pd.Timestamp.now().strftime('%Y-%m-%d %H:%M:%S')
})

# C√°lculo del resumen (Agregaci√≥n)
resumen = df.groupby('categoria').agg(
    total_ventas=('precio', 'sum'),
    cantidad_transacciones=('precio', 'count')
).reset_index()

csv_file = 'datos_carga.csv'
df.to_csv(csv_file, index=False, header=False)

try:
    print("üì¶ Transfiriendo y cargando datos en Cassandra...")
    subprocess.run(["docker", "cp", csv_file, "cassandra_db:/tmp/datos.csv"], check=True)
    
    cql_cmd = "COPY proyecto_bigdata.ventas_crudas (id, categoria, precio, fecha) FROM '/tmp/datos.csv' WITH DELIMITER=',' AND HEADER=FALSE;"
    
    result = subprocess.run(["docker", "exec", "cassandra_db", "cqlsh", "-e", cql_cmd], capture_output=True, text=True)

    if result.returncode == 0:
        print("‚úÖ Ingesta masiva completada exitosamente.")
    else:
        print(f"‚ùå Error en carga: {result.stderr}")
    
    os.remove(csv_file)
except Exception as e:
    print(f"‚ùå Error de ejecuci√≥n: {e}")

‚è≥ Generando 100,000 registros sint√©ticos...
üì¶ Transfiriendo y cargando datos en Cassandra...
‚úÖ Ingesta masiva completada exitosamente.


In [35]:
import clickhouse_connect

print("üöÄ Procesando y enviando reporte a ClickHouse...")

try:
    client = clickhouse_connect.get_client(
        host='127.0.0.1', 
        port=8123, 
        username='default', 
        password='1234'
    )
    
    # Configuraci√≥n de la tabla anal√≠tica
    client.command('DROP TABLE IF EXISTS ventas_resumen')
    client.command('''
        CREATE TABLE ventas_resumen (
            categoria String, 
            total_ventas Float64, 
            cantidad_transacciones UInt64
        ) ENGINE = Memory
    ''')

    # Carga de datos agregados
    client.insert_df('ventas_resumen', resumen)

    print("üèÅ Pipeline finalizado. Resultados en ClickHouse:")
    
    # Consulta de validaci√≥n
    resultado = client.query('SELECT * FROM ventas_resumen')
    df_res = pd.DataFrame(resultado.result_rows, columns=['Categor√≠a', 'Ventas Totales', 'Transacciones'])
    display(df_res)

except Exception as e:
    print(f"‚ùå Error en fase final: {e}")

üöÄ Procesando y enviando reporte a ClickHouse...
üèÅ Pipeline finalizado. Resultados en ClickHouse:


Unnamed: 0,Categor√≠a,Ventas Totales,Transacciones
0,Electronica,14994186.92,50038
1,Hogar,15041866.46,49962


In [30]:
import clickhouse_connect

client = clickhouse_connect.get_client(host='127.0.0.1', port=8123, username='default', password='1234')

# Consultar el resumen que acabamos de guardar
query_result = client.query('SELECT categoria, total_ventas FROM ventas_resumen WHERE total_ventas > 10000000')

print("üèÜ Categor√≠as con ventas superiores a 10M:")
for row in query_result.result_rows:
    print(f"La categor√≠a {row[0]} es l√≠der con ${row[1]:,.2f}")

üèÜ Categor√≠as con ventas superiores a 10M:
La categor√≠a Electronica es l√≠der con $14,994,186.92
La categor√≠a Hogar es l√≠der con $15,041,866.46


In [31]:
import subprocess
import pandas as pd
import clickhouse_connect
from IPython.display import display, HTML

print("üîÑ Sincronizando vistas de Cassandra y ClickHouse...")

try:
    # --- 1. OBTENER DATOS DE CASSANDRA (Mediante consulta directa) ---
    # Pedimos los datos en formato simple
    cmd_cas = 'docker exec cassandra_db cqlsh -e "SELECT id, categoria, precio, fecha FROM proyecto_bigdata.ventas_crudas LIMIT 5;"'
    res_cas = subprocess.run(cmd_cas, shell=True, capture_output=True, text=True)
    
    # --- 2. OBTENER DATOS DE CLICKHOUSE ---
    client = clickhouse_connect.get_client(host='127.0.0.1', port=8123, username='default', password='1234')
    res_ch = client.query('SELECT * FROM ventas_resumen')
    df_clickhouse = pd.DataFrame(res_ch.result_rows, columns=['Categor√≠a', 'Total Ventas', 'Transacciones'])

    # --- 3. MOSTRAR AMBAS VISTAS ---
    
    # Vista de Cassandra (Como texto preformateado para evitar errores de parseo)
    display(HTML("<h3 style='color: #2e7d32;'>üìÅ ORIGEN: Cassandra (Muestra de registros crudos)</h3>"))
    if res_cas.stdout:
        print(res_cas.stdout)
    else:
        print("‚ö†Ô∏è No se recibieron datos de Cassandra. Verifica que la tabla tenga registros.")

    display(HTML("<br><h3 style='color: #1565c0;'>üìä DESTINO: ClickHouse (Reporte consolidado final)</h3>"))
    # Formateo est√©tico para ClickHouse
    df_clickhouse['Total Ventas'] = df_clickhouse['Total Ventas'].map('${:,.2f}'.format)
    df_clickhouse['Transacciones'] = df_clickhouse['Transacciones'].map('{:,}'.format)
    display(df_clickhouse)

except Exception as e:
    print(f"‚ùå Error general: {e}")

üîÑ Sincronizando vistas de Cassandra y ClickHouse...



 id    | categoria   | precio    | fecha
-------+-------------+-----------+---------------------------------
  4317 |       Hogar |    297.69 | 2026-01-31 19:21:06.000000+0000
 62693 |       Hogar |    174.84 | 2026-01-31 19:21:06.000000+0000
 51678 |       Hogar | 509.42999 | 2026-01-31 19:21:06.000000+0000
 77328 | Electronica | 345.23999 | 2026-01-31 19:21:06.000000+0000
 84757 | Electronica |    207.95 | 2026-01-31 19:21:06.000000+0000

(5 rows)



Unnamed: 0,Categor√≠a,Total Ventas,Transacciones
0,Electronica,"$14,994,186.92",50038
1,Hogar,"$15,041,866.46",49962
