# 🚀 Spark + Hive - Modo Clúster (Versiones Idénticas)

**✅ Configuración perfecta:**
- JupyterLab: Spark **3.5.3** 
- Clúster: Spark **3.5.3**
- Misma imagen base: `hadoop-hive-spark-base`
- Acceso completo a Hive


In [None]:
# 🔧 Configuración inicial
import findspark
findspark.init('/opt/spark')

from pyspark.sql import SparkSession
from pyspark.sql.functions import *
import os

print("✅ Librerías importadas")
print(f"🏠 Spark Home: /opt/spark")
print(f"🌐 Hostname: {os.environ.get('HOSTNAME', 'jupyterlab')}")


In [None]:
# 🎯 Crear sesión Spark conectada al CLÚSTER
spark = SparkSession.builder \
    .appName("EducacionIT-Cluster-Final") \
    .master("spark://master:7077") \
    .enableHiveSupport() \
    .config("spark.sql.adaptive.enabled", "true") \
    .config("spark.sql.adaptive.coalescePartitions.enabled", "true") \
    .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer") \
    .config("spark.sql.warehouse.dir", "/user/hive/warehouse") \
    .config("spark.executor.memory", "1g") \
    .config("spark.executor.cores", "1") \
    .config("spark.dynamicAllocation.enabled", "false") \
    .getOrCreate()

spark.sparkContext.setLogLevel("WARN")

print("🎉 ¡Sesión Spark creada exitosamente!")
print(f"📊 Spark UI: {spark.sparkContext.uiWebUrl}")
print(f"🗄️ Catálogo: {spark.conf.get('spark.sql.catalogImplementation')}")
print(f"🏷️ Aplicación: {spark.sparkContext.appName}")
print(f"🔗 Master: {spark.sparkContext.master}")
print("🌟 Aplicación visible en: http://localhost:8080")


In [None]:
# 🔥 PRUEBA FINAL: Consulta en el clúster
print("🚀 Ejecutando consulta en el CLÚSTER...")

# Mostrar bases de datos
databases = spark.sql("SHOW DATABASES")
print("📋 Bases de datos disponibles:")
databases.show()

# Usar base de datos educacionit
spark.sql("USE educacionit")
print("✅ Conectado a base de datos 'educacionit'")

# Mostrar tablas
tables = spark.sql("SHOW TABLES")
print("📊 Tablas disponibles:")
tables.show()

# Consulta simple para probar clúster
test_query = spark.sql("SELECT 'Hola desde el clúster Spark 3.5.3!' as mensaje, current_timestamp() as timestamp")
print("💬 Mensaje del clúster:")
test_query.show(truncate=False)

# Consulta con datos reales
clientes_count = spark.sql("SELECT COUNT(*) as total_clientes FROM clientes")
print("👥 Total de clientes:")
clientes_count.show()

print("🎉 ¡CLÚSTER FUNCIONANDO PERFECTAMENTE!")
