# Pr√°ctica Databricks Fundamentals  
## Unity Catalog ¬∑ PySpark

En este notebook vamos a trabajar de forma pr√°ctica con Databricks, PySpark y Unity Catalog.

‚ö†Ô∏è **Importante**: sigue la gu√≠a HTML paso a paso.  
Aqu√≠ ejecutar√°s el c√≥digo y completar√°s los ejercicios.


---
<h2>üß™ Flujo de la pr√°ctica</h2>
En esta pr√°ctica trabajaremos sobre un cluster ya levantado y un archivo CSV
disponible en el entorno.
<ol>
    <li>Cargar un dataset desde almacenamiento</li>
    <li>Explorar los datos con PySpark</li>
    <li>Aplicar transformaciones</li>
    <li>Persistir resultados como tabla Delta</li>
    <li>Inspeccionar el gobierno de datos con Unity Catalog</li>
</ol>

---

## Ejercicio 0 ‚Äì Inicializaci√≥n del entorno

Databricks ya proporciona una SparkSession activa.
Comprueba que el objeto `spark` est√° disponible.


In [0]:
spark


A continuaci√≥n vamos a cargar las liberias que ser√°n necesarias

In [0]:
# Imports b√°sicos
from pyspark.sql.functions import col, sum as spark_sum


## üì• Ejercicio 1 ‚Äì Carga de datos

Vamos a cargar un archivo CSV con datos de ventas.
El archivo se encuentra en una ruta accesible desde el workspace.


In [0]:
# TODO:
# Carga el csv



Cuando lo tengas cargado, muestralo

In [0]:
# TODO:
# Muestra el df



Completa las siguientes tareas:

1. Muestra el esquema del DataFrame  
2. Cuenta el n√∫mero total de registros  
3. Observa los tipos de datos inferidos por Spark


In [0]:
# TODO:
# 1. Mostrar el esquema
# 2. Contar el n√∫mero de filas
# 3. Observar datos


## üîß Paso 2 ‚Äì Transformaciones con PySpark

Vamos a crear una nueva columna calculada:

total_amount = quantity * price

Recuerda que las transformaciones en Spark son *lazy*.


In [0]:
# TODO:
# Escribe el codigo para crear la columna nueva

## ‚úçÔ∏è Ejercicio 2 ‚Äì Transformaciones

Completa los siguientes pasos:

1. Filtra las ventas con `total_amount > 100`
2. Agrupa por `country`
3. Calcula el total de ventas por pa√≠s


In [0]:
# TODO:
# - Filtrar total_amount > 100
# - Agrupar por country
# - Calcular la suma total de ventas


## üß† Paso 3 ‚Äì Unity Catalog

Unity Catalog organiza los datos jer√°rquicamente:

Metastore  
‚îî‚îÄ‚îÄ Catalog  
    ‚îî‚îÄ‚îÄ Schema  
        ‚îî‚îÄ‚îÄ Table

Vamos a crear (si tenemos permisos) un cat√°logo y un esquema.


In [0]:
%sql
CREATE CATALOG IF NOT EXISTS ...;
USE CATALOG ...;

CREATE SCHEMA IF NOT EXISTS ...;
USE SCHEMA ...;


## üíæ Paso 4 ‚Äì Crear una tabla Delta gestionada

Guardaremos el DataFrame transformado como una tabla gobernada
por Unity Catalog.


### ‚úçÔ∏è Ejercicio 3 - Gobierno del dato

In [0]:
# TODO:
# Ejecuta el guardado de la tabla
# Asegurate que la tabla se ha guardado correctamente con SQL y con PySpark
# Inspecciona los permisos de la tabla creada
# ¬øQu√© permisos necesita otro usuario para consultar esta tabla?


--------------------

## Soluciones


### Ejercicio 1

In [0]:
df = (
    spark.read
    .option("header", "true")
    .option("inferSchema", "true")
    .csv("/Volumes/master/repaso/datos/sales.csv")
)

display(df)
df.printSchema()
df.count()


### Ejercicio 2

In [0]:
df_transformed = (
    df
    .withColumn("total_amount", col("quantity") * col("price"))
)
display(df_transformed)

In [0]:
df_transformed_filtered = df_transformed.filter(col("total_amount") > 100)

df_agg = (
    df_transformed_filtered
    .groupBy("country")
    .agg(spark_sum("total_amount").alias("total_sales"))
)

display(df_agg)


### Ejercicio 3

In [0]:
df_transformed.write.mode("overwrite").saveAsTable("master.repaso.sales_table")

In [0]:
df_leido = spark.table("master.repaso.sales_table")
display(df_leido)

In [0]:
%sql
SELECT * FROM master.repaso.sales_table;
