# 🚀 Demo: Spark + Hive - Lectura de Datos

Este notebook demuestra cómo leer datos desde Hive usando Spark en Jupyter.


In [None]:
# Importar librerías necesarias
from pyspark.sql import SparkSession
from pyspark.sql.functions import *

# Crear sesión de Spark con soporte para Hive
spark = SparkSession.builder \
    .appName("JupyterSparkHive") \
    .enableHiveSupport() \
    .getOrCreate()

print(f"✅ Spark iniciado - Versión: {spark.version}")
print(f"📊 Master: {spark.sparkContext.master}")


In [None]:
# Cambiar a la base de datos educacionit
spark.sql("USE educacionit")

# Mostrar todas las tablas disponibles
print("📋 Tablas disponibles en Hive:")
spark.sql("SHOW TABLES").show()


In [None]:
# Leer tabla de clientes desde Hive
clientes_df = spark.sql("SELECT * FROM clientes")

print(f"📊 Total de clientes: {clientes_df.count()}")
print("\n🔍 Primeros 5 registros:")
clientes_df.show(5, truncate=False)


In [None]:
# Análisis: Ventas por provincia
ventas_provincia = spark.sql("""
    SELECT 
        c.provincia,
        COUNT(*) as total_ventas,
        SUM(v.precio * v.cantidad) as monto_total
    FROM ventas v 
    JOIN clientes c ON v.id_cliente = c.id 
    WHERE c.provincia IS NOT NULL
    GROUP BY c.provincia 
    ORDER BY total_ventas DESC
    LIMIT 10
""")

print("📈 Top 10 provincias por ventas:")
ventas_provincia.show()
