# üìò 1. Introducci√≥n
En este notebook aprenderemos a:
- Leer datos **estructurados** (CSV, Parquet).
- Leer datos **semiestructurados** (JSON, anidado).
- Manejar **esquemas expl√≠citos** para optimizaci√≥n.
- Usar **funciones de PySpark** para transformar datos.
- Aplicar t√©cnicas de **optimizaci√≥n en Databricks**: cache, repartition, broadcast, Delta Lake.

üìÇ 2. Importaci√≥n de librer√≠as y configuraci√≥n inicial

In [0]:
import pandas as pd
from pyspark.sql.types import StructType, StructField, StringType, DoubleType
import pyspark.sql.functions as F

# üìä 3. Lectura de datos estructurados (CSV p√∫blico)

In [0]:
# URL del archivo
url = "https://raw.githubusercontent.com/owid/covid-19-data/refs/heads/master/public/data/owid-covid-data.csv"
# ‚ö†Ô∏è Nota: no se puede leer directamente con spark.read.csv(url) debido a restricciones de permisos en Databricks.
# Por eso lo cargamos primero con Pandas y luego lo convertimos a Spark DataFrame.

# Leer con pandas
pdf = pd.read_csv(url)

# Convertir a Spark DataFrame
df_tmp = spark.createDataFrame(pdf)

# Definir esquema manualmente (solo las columnas que queremos)
schema = StructType([
    StructField("iso_code", StringType(), True),
    StructField("continent", StringType(), True),
    StructField("location", StringType(), True),
    StructField("date", StringType(), True),          # puede cambiarse a DateType si se requiere
    StructField("total_cases", DoubleType(), True),
    StructField("new_cases", DoubleType(), True),
    StructField("total_deaths", DoubleType(), True),
    StructField("population", DoubleType(), True)
])

# Seleccionar y castear columnas al esquema definido usando F.col
df_covid = (
    df_tmp
    .select(
        F.col("iso_code").cast(StringType()),
        F.col("continent").cast(StringType()),
        F.col("location").cast(StringType()),
        F.col("date").cast(StringType()),     # o DateType si prefieres
        F.col("total_cases").cast(DoubleType()),
        F.col("new_cases").cast(DoubleType()),
        F.col("total_deaths").cast(DoubleType()),
        F.col("population").cast(DoubleType())
    )
)

# Mostrar datos
df_covid.show(5)
df_covid.printSchema()

# üõ† 4. Transformaciones en datos estructurados

In [0]:
df_covid = df_covid.withColumn("date", F.to_date("date", "yyyy-MM-dd"))
df_covid = df_covid.withColumn("cases_per_million", (F.col("total_cases") / F.col("population")) * 1e6)
df_colombia = df_covid.filter(F.col("location") == "Colombia")
display(df_colombia)

# üìÇ 5. Lectura de datos semiestructurados (JSON p√∫blico)

In [0]:
import requests
import json
import os

# URL del API
json_url = "https://api.open-meteo.com/v1/forecast?latitude=6.2442&longitude=-75.5812&hourly=temperature_2m"
# ‚ö†Ô∏è No se puede leer directamente con spark.read.json(json_url) por restricciones en Databricks.
# Por eso descargamos primero con requests y guardamos local.

# Descargar el JSON
response = requests.get(json_url)
data = response.json()

# Guardar en un archivo temporal
local_path = "/tmp/weather.json"
with open(local_path, "w") as f:
    json.dump(data, f)

# Cargar el JSON con Spark
df_weather = spark.read.json("file:" + local_path)

df_weather.printSchema()
df_weather.show(2, truncate=False)

# üîç 6. Manejo de datos anidados en JSON

In [0]:
df_weather_expanded = df_weather.select(
    "latitude",
    "longitude",
    "hourly.time",
    "hourly.temperature_2m"
)
df_weather_expanded.show(5, truncate=False)

# ‚ö° 7. Optimizaci√≥n en Databricks / PySpark

En el procesamiento distribuido con Spark, la **optimizaci√≥n** es fundamental para mejorar el rendimiento y reducir costos de c√≥mputo.  
Aqu√≠ explicamos tres t√©cnicas clave:

### üóÇ 1. `cache()` / `persist()`
- Cuando ejecutamos transformaciones en un DataFrame, Spark no guarda los resultados inmediatamente (evaluaci√≥n diferida).  
- Si el mismo DataFrame se usa varias veces, Spark lo recalcular√≠a cada vez.  
- Usar `cache()` o `persist()` permite **almacenar en memoria** los resultados intermedios, evitando recomputaciones.  
- üöÄ Beneficio: acelera consultas repetidas a costa de usar m√°s memoria.

### 2. repartition() y coalesce()

- Spark divide los datos en particiones, que son las unidades que se distribuyen entre los nodos del cl√∫ster.
- repartition(n, col) ‚Üí redistribuye los datos en n particiones de forma balanceada (puede implicar un shuffle costoso).
- coalesce(n) ‚Üí reduce el n√∫mero de particiones sin shuffle completo, √∫til cuando queremos consolidar archivos de salida.
- üöÄ Beneficio: controlar el n√∫mero de particiones evita problemas como subutilizaci√≥n (muy pocas particiones) o sobrecarga (demasiadas particiones peque√±as).

### üì° 3. broadcast()

- En un join, si una de las tablas es peque√±a, se puede replicar en todos los nodos en vez de hacer un shuffle completo.
- broadcast(df) le dice a Spark que use esa estrategia.
- üöÄ Beneficio: reduce dr√°sticamente el tiempo y el costo de joins cuando trabajamos con tablas de referencia peque√±as.

In [0]:
df_covid.cache()
df_covid.count()

df_covid = df_covid.repartition(10, "location")

from pyspark.sql.functions import broadcast
df_pop = df_covid.select("location", "population").distinct()
df_joined = df_covid.join(broadcast(df_pop), "location")

df_covid.write.format("delta").mode("overwrite").save("/mnt/delta/covid")
df_delta = spark.read.format("delta").load("/mnt/delta/covid")

# üìà 8. Consultas anal√≠ticas (Window Functions)

Las **Window Functions** en Spark permiten hacer c√°lculos avanzados sobre un conjunto de filas **relacionadas** con la fila actual, sin necesidad de agrupar toda la tabla.  

üìå En otras palabras: nos permiten calcular m√©tricas como acumulados, rankings o valores anteriores/siguientes, mientras seguimos viendo todas las filas originales.

### ‚öôÔ∏è ¬øC√≥mo funcionan?
- Se definen con un **Window Specification** que indica:
  - **PARTITION BY** ‚Üí c√≥mo dividir los datos en grupos (ej: por pa√≠s).
  - **ORDER BY** ‚Üí c√≥mo ordenar dentro de cada grupo (ej: por fecha).

### üõ† Tipos comunes de funciones de ventana:

1. C√°lculo con filas anteriores o siguientes

- lag(col, n) ‚Üí trae el valor de la fila anterior (n pasos atr√°s).
- lead(col, n) ‚Üí trae el valor de la fila siguiente (n pasos adelante).

2. C√°lculos acumulativos

sum(), avg(), min(), max() dentro de una ventana ordenada.

3. Funciones de ranking

- row_number() ‚Üí numera las filas en orden.
- rank() ‚Üí ranking con posibles empates.
- dense_rank() ‚Üí ranking consecutivo sin saltos.

In [0]:
from pyspark.sql.window import Window

window_spec = Window.partitionBy("location").orderBy("date")
df_covid = df_covid.withColumn("daily_cases", F.col("total_cases") - F.lag("total_cases").over(window_spec))
df_covid.filter(F.col("location") == "Colombia").select("date", "daily_cases").show(10)

# ‚úÖ 9. Conclusiones
- Los **datos estructurados** (CSV, Parquet) son m√°s f√°ciles de manejar pero requieren cuidado en el **esquema** y **particiones**.
- Los **datos semiestructurados** (JSON) necesitan transformaci√≥n de estructuras anidadas.
- La **optimizaci√≥n** en Databricks combina t√©cnicas de Spark (cache, repartition, broadcast) con almacenamiento eficiente (**Delta Lake**).