In [5]:
# Notebook 01: Validaci√≥n de Conectividad
# **Universidad:** Universidad Nacional Experimental de Guayana (UNEG)  
# **Asignatura:** Sistemas de Bases de Datos II  
# **Proyecto:** Proyecto N2 - Data Pipeline Escalable

# ---

# **Descripci√≥n:**  
# Valida la conectividad b√°sica con los servicios de Cassandra y Spark.

In [6]:
from pyspark.sql import SparkSession

# Configuraci√≥n usando los JARs ya inyectados por el entorno Docker
spark = SparkSession.builder \
    .appName("ValidacionConectividad") \
    .config("spark.cassandra.connection.host", "cassandra") \
    .config("spark.cassandra.connection.localDC", "dc1") \
    .config("spark.driver.memory", "2g") \
    .getOrCreate()

# 1. Hola Mundo de PySpark
print("--- 1. Validaci√≥n de PySpark ---")
spark.createDataFrame([("Conexi√≥n Exitosa", 1)], ["Mensaje", "ID"]).show()
print("‚úÖ PySpark funciona correctamente.")

--- 1. Validaci√≥n de PySpark ---
+----------------+---+
|         Mensaje| ID|
+----------------+---+
|Conexi√≥n Exitosa|  1|
+----------------+---+

‚úÖ PySpark funciona correctamente.


In [7]:
# 2. Validar conectividad con Cassandra usando cassandra-driver directamente
print("--- 2. Validaci√≥n de Cassandra (cassandra-driver) ---")

!pip install -q cassandra-driver

from cassandra.cluster import Cluster, ExecutionProfile, EXEC_PROFILE_DEFAULT
from cassandra.policies import DCAwareRoundRobinPolicy

try:
    # Configurar perfil de ejecuci√≥n con pol√≠tica de balanceo de carga
    # Usamos DCAwareRoundRobinPolicy con local_dc='dc1' como configurado en el docker-compose
    profile = ExecutionProfile(
        load_balancing_policy=DCAwareRoundRobinPolicy(local_dc='dc1')
    )

    # Conectar al cluster especificando el perfil y la versi√≥n del protocolo
    # protocol_version=5 es compatible con Cassandra 4.x
    cluster = Cluster(
        ['cassandra'],
        execution_profiles={EXEC_PROFILE_DEFAULT: profile},
        protocol_version=5
    )
    session = cluster.connect()
    
    # Listar keyspaces
    rows = session.execute("SELECT keyspace_name FROM system_schema.keyspaces")
    keyspaces = [row.keyspace_name for row in rows]
    
    print(f"‚úÖ Conectado a Cassandra correctamente.")
    print(f"   Keyspaces disponibles: {keyspaces}")
    
    # Verificar si ventas_db existe
    if 'ventas_db' in keyspaces:
        print("   ‚úÖ Keyspace 'ventas_db' encontrado.")
    else:
        print("   ‚ö†Ô∏è Keyspace 'ventas_db' no existe a√∫n. Ejecuta el Notebook 02 para crearlo.")
    
    cluster.shutdown()
except Exception as e:
    print(f"‚ùå Error al conectar a Cassandra: {e}")

--- 2. Validaci√≥n de Cassandra (cassandra-driver) ---
‚úÖ Conectado a Cassandra correctamente.
   Keyspaces disponibles: ['ventas_db', 'system_auth', 'system_schema', 'system_distributed', 'system', 'system_traces']
   ‚úÖ Keyspace 'ventas_db' encontrado.


In [8]:
# 3. Validar conector Spark-Cassandra (solo si ventas_db existe)
print("--- 3. Validaci√≥n del Conector Spark-Cassandra ---")

try:
    # Intentar leer de ventas_db.ventas_crudas si existe
    df = spark.read \
        .format("org.apache.spark.sql.cassandra") \
        .options(table="ventas_crudas", keyspace="ventas_db") \
        .load()
    
    count = df.count()
    print(f"‚úÖ Conector Spark-Cassandra funciona correctamente.")
    print(f"   Registros en ventas_crudas: {count:,}")
except Exception as e:
    if "ventas_db" in str(e) or "ventas_crudas" in str(e):
        print("‚ö†Ô∏è La tabla ventas_db.ventas_crudas no existe a√∫n.")
        print("   Esto es normal si no has ejecutado el Notebook 02.")
        print("   El conector Spark-Cassandra est√° instalado correctamente.")
    else:
        print(f"‚ùå Error con el conector Spark-Cassandra: {e}")

--- 3. Validaci√≥n del Conector Spark-Cassandra ---
‚úÖ Conector Spark-Cassandra funciona correctamente.
   Registros en ventas_crudas: 411,474


In [9]:
print("="*60)
print("üìã RESUMEN DE VALIDACI√ìN")
print("="*60)
print("‚úÖ PySpark: OK")
print("‚úÖ Cassandra: OK (usa cassandra-driver)")
print("‚úÖ Conector Spark-Cassandra: Instalado")
print("="*60)

üìã RESUMEN DE VALIDACI√ìN
‚úÖ PySpark: OK
‚úÖ Cassandra: OK (usa cassandra-driver)
‚úÖ Conector Spark-Cassandra: Instalado
