# **Curso de Databricks**

## **√çndice**

### **M√≥dulo 1: Configuraci√≥n y Entorno Real**

1. **Tema 1: Introducci√≥n a Databricks**
* 1.1 ¬øQu√© es Databricks? La cocina industrial de datos
* 1.2 El ecosistema: Spark, Delta Lake y MLflow


2. **Tema 2: Primeros Pasos Pr√°cticos**
* 2.1 Creaci√≥n de cuenta en Databricks Free Edition
* 2.2 Interfaz: Workspace, Compute y Cat√°logo
* 2.3 Creaci√≥n y gesti√≥n de tu primer Cluster
* 2.4 Cuidados del entorno gratuito (Auto-termination)
* 2.5 Respaldo y Control de Versiones (GitHub)



### **M√≥dulo 2: Fundamentos de Procesamiento**

3. **Tema 3: Introducci√≥n a los Notebooks**
* 3.1 Celdas de c√≥digo y Markdown
* 3.2 Comandos m√°gicos (`%python`, `%sql`, `%md`, `%fs`)
* 3.3 Trabajo colaborativo y comentarios


4. **Tema 4: El motor de Databricks: Apache Spark**
* 4.1 ¬øQu√© es el procesamiento distribuido? (Drivers y Workers)
* 4.2 DataFrames: La estructura reina
* 4.3 Lazy Evaluation: Transformaciones vs Acciones
* 4.4 Spark UI: ¬øQu√© est√° pasando "bajo el cap√≥"?



### **M√≥dulo 3: Ingenier√≠a de Datos (ETL)**

5. **Tema 5: Ingesta y Almacenamiento**
* 5.1 DBFS y el sistema de archivos
* 5.2 Carga de datos (CSV, JSON, Parquet)
* 5.3 Tablas administradas vs Tablas externas


6. **Tema 6: Transformaci√≥n con PySpark**
* 6.1 Limpieza: Filtros, nulos y duplicados
* 6.2 Manipulaci√≥n de columnas y tipos de datos
* 6.3 Agregaciones y Joins complejos


7. **Tema 7: Delta Lake: El Coraz√≥n del Lakehouse**
* 7.1 ¬øPor qu√© Delta Lake? (Transacciones ACID)
* 7.2 Time Travel: Viajando al pasado de tus datos
* 7.3 Evoluci√≥n de esquemas y optimizaci√≥n (`Z-ORDER`)



### **M√≥dulo 4: An√°lisis y Visualizaci√≥n**

8. **Tema 8: Databricks SQL**
* 8.1 SQL Nativo en Notebooks
* 8.2 Vistas temporales vs Tablas permanentes
* 8.3 Funciones de ventana (Window Functions)


9. **Tema 9: Visualizaci√≥n de Datos**
* 9.1 Gr√°ficos nativos de Databricks
* 9.2 Creaci√≥n de Dashboards r√°pidos
* 9.3 Integraci√≥n con Power BI/Tableau (Conceptos)



### **M√≥dulo 5: Automatizaci√≥n y Machine Learning**

10. **Tema 10: Workflows y Orquestaci√≥n**
* 10.1 Creaci√≥n de Jobs (Tareas programadas)
* 10.2 Encadenamiento de notebooks
* 10.3 Notificaciones y control de errores


11. **Tema 11: Introducci√≥n a MLflow**
* 11.1 El ciclo de vida de un modelo de ML
* 11.2 Registro de experimentos y m√©tricas


12. **Tema 12: Buenas Pr√°cticas y CI/CD**
* 12.1 Integraci√≥n con Git (Repos)
* 12.2 Estructura de carpetas profesional



### **M√≥dulo 6: Cierre de Curso**

13. **Tema 13: Proyecto Final Integrador**
14. **Tema 14: Pr√≥ximos pasos y Certificaciones**

---

### **Informaci√≥n del Curso**

* **Duraci√≥n estimada:** 8 - 9 semanas (a tu propio ritmo).
* **Plataforma principal:** Databricks Free Edition.
* **Nivel:** Principiante / Intermedio.

### **¬øQu√© ser√°s capaz de hacer?**

Al terminar este curso, habr√°s pasado de no conocer la herramienta a ser capaz de:

* **Montar un entorno** de Big Data funcional en minutos.
* **Construir pipelines de datos (ETL)** robustos usando Delta Lake.
* **Alternar fluidamente** entre Python y SQL seg√∫n la necesidad.
* **Automatizar procesos** para que tus an√°lisis se ejecuten solos.

### **Metodolog√≠a: "Learn by Doing"**

Este curso huye de las diapositivas infinitas. Cada tema se compone de:

* üíª **Notebooks Interactivos**: Explicaci√≥n y c√≥digo en el mismo lugar.
* üõ†Ô∏è **Retos Pr√°cticos**: Peque√±os desaf√≠os al final de cada secci√≥n.
* üìÇ **Datos Reales**: Trabajaremos con datasets de e-commerce, clima y finanzas.

### **Requisitos**

1. **L√≥gica de programaci√≥n**: No hace falta ser experto, pero s√≠ entender qu√© es una variable o un bucle.
2. **SQL b√°sico**: Saber qu√© es un `SELECT` y un `JOIN`.
3. **Curiosidad**: Ganas de romper cosas (en el entorno gratuito, ¬°no cuesta dinero!).

### **Leyenda de los Apuntes**

Para facilitar la lectura, usaremos estos iconos:

* ‚ö†Ô∏è **Cuidado**: Errores comunes o configuraciones que pueden costar tiempo/dinero.
* üí° **Pro-Tip**: Trucos de experto para ir m√°s r√°pido.
* üöÄ **Reto**: Ejercicio pr√°ctico para validar lo aprendido.
* üìñ **Deep Dive**: Enlaces a documentaci√≥n oficial para los m√°s curiosos.

---

In [0]:
print("¬°Hola desde Databricks!")
print(f"‚úÖ Spark activo. Versi√≥n: {spark.version}")
print("‚úÖ Los Notebooks se guardan autom√°ticamente al ejecutar las celdas")

# **M√≥dulo 1: Configuraci√≥n y Entorno Real**

## **Tema 1: Introducci√≥n a Databricks**

### **1.1 ¬øQu√© es Databricks y por qu√© es importante?**

> üí° **Bienvenido al entorno de datos del futuro**
> Est√°s abriendo estos apuntes dentro de **Databricks**. A diferencia de un documento PDF o una web est√°tica, esto es un **entorno vivo**. Todo lo que leas aqu√≠ puedes probarlo, modificarlo y ejecutarlo.

---

### **¬øQu√© es Databricks?**

En pocas palabras: **Databricks es la plataforma donde los datos se vuelven √∫tiles.**

Fue creada por los inventores de **Apache Spark**, con una idea clara: el procesamiento de datos no deber√≠a ser un dolor de cabeza t√©cnico. Es una plataforma en la nube (Azure, AWS o GCP) que unifica todo lo que un equipo de datos necesita.

#### **La analog√≠a definitiva: La Cocina Industrial**

Para entender Databricks, olvida los servidores y piensa en comida:

| Herramienta | Analog√≠a | Capacidad |
| --- | --- | --- |
| **Excel / Pandas** | Tu cocina de casa | Ideal para cenas peque√±as (datasets que caben en tu RAM). |
| **Databricks** | Una cocina industrial | Dise√±ada para servir a miles de personas simult√°neamente (Petabytes de datos) con eficiencia y orden. |

---

### **¬øPor qu√© es el est√°ndar de la industria?**

#### **1. El fin del "en mi m√°quina funciona"**

Databricks ofrece un **entorno compartido**. T√∫ y tu equipo trabaj√°is sobre el mismo c√≥digo y los mismos datos en tiempo real, como si fuera un Google Docs para programadores.

#### **2. Velocidad y Escala (El motor Spark)**

Si intentas abrir un archivo de 100GB en tu laptop, probablemente explote. Databricks utiliza **procesamiento distribuido**: divide el problema en trozos peque√±os y los reparte entre varias m√°quinas (un "Cluster").

#### **3. La arquitectura Lakehouse**

Antes, las empresas ten√≠an los datos divididos en dos sitios:

1. **Data Lake**: Barato pero desordenado (un "trastero" de archivos).
2. **Data Warehouse**: Ordenado y r√°pido pero muy caro.

**Databricks une ambos en el "Lakehouse"**: tienes la flexibilidad y bajo coste de un lago de datos con el orden y la velocidad de un almac√©n profesional.

---

### **üíª Prueba de fuego: ¬øRealmente hay diferencia?**

Ejecuta la siguiente celda. Vamos a comparar c√≥mo "piensa" una herramienta tradicional frente al motor de Databricks (Spark).


In [0]:
import pandas as pd
import time
from pyspark.sql.functions import col, sum as spark_sum

# --- ESCENARIO 1: PANDAS (TRADICIONAL) ---
# Simula procesar datos en la memoria de una sola m√°quina
print("üêº Simulando procesamiento con Pandas...")
inicio = time.time()
df_pd = pd.DataFrame({'id': range(10_000_000), 'valor': [i * 2 for i in range(10_000_000)]})
resultado_pd = df_pd['valor'].sum()
print(f"‚úÖ Finalizado en: {time.time() - inicio:.4f} segundos.")

print("-" * 30)

# --- ESCENARIO 2: SPARK (DATABRICKS) ---
# Utiliza el motor distribuido (incluso en Free Edition es m√°s eficiente con grandes vol√∫menes)
print("üöÄ Procesando con el motor Spark de Databricks...")
inicio = time.time()
df_spark = spark.range(10_000_000).withColumn("valor", col("id") * 2)
resultado_spark = df_spark.select(spark_sum("valor")).collect()[0][0]
print(f"‚úÖ Finalizado en: {time.time() - inicio:.4f} segundos.")

print("\nüí° NOTA: Con 10 millones de filas la diferencia es peque√±a, pero con 1.000 millones, Pandas fallar√≠a y Spark seguir√≠a volando.")

### **‚ö†Ô∏è Sobre la "Free Edition" que est√°s usando**

Como este es un curso pr√°ctico, usaremos la versi√≥n gratuita. Ten en cuenta estas reglas de oro:

* **Tu trabajo est√° a salvo**: Los notebooks (tus apuntes) no se borran nunca.
* **El "Motor" descansa**: El cluster (el ordenador que procesa el c√≥digo) se apaga tras **2 horas de inactividad**. Si ves un punto gris arriba a la derecha, solo tienes que darle a "Start" de nuevo.
* **Sin coste**: No necesitas tarjeta de cr√©dito. Es el entorno perfecto para romper cosas y aprender.

---

### **Puntos clave para recordar**

1. **Databricks** es una plataforma unificada (ETL, SQL, ML).
2. Utiliza **Spark** para procesar datos de forma masiva y r√°pida.
3. Su arquitectura se llama **Lakehouse** (lo mejor de dos mundos).
4. Es **colaborativo**: ideal para equipos modernos.

---

**¬øListo para ensuciarte las manos?** En el siguiente tema (1.2) veremos c√≥mo se conectan las piezas del ecosistema antes de crear tu propio cluster.

---

### **1.2 El ecosistema: Spark, Delta Lake y MLflow**

Databricks es tan potente porque no intenta reinventar la rueda. En su lugar, toma las tres tecnolog√≠as de c√≥digo abierto m√°s importantes del mundo de los datos y las integra a la perfecci√≥n.

Para entender el ecosistema, imagina que Databricks es el **sistema operativo** y estas tres herramientas son sus aplicaciones principales:

#### **1. Apache Spark: El Motor üèéÔ∏è**

Es el encargado de hacer el trabajo sucio. Spark es un motor de procesamiento distribuido.

* **¬øPara qu√© sirve?** Para transformar, filtrar y agrupar datos masivos en segundos.
* **Concepto clave:** Spark no usa un solo procesador; reparte la tarea entre muchos. Si una tarea tarda 10 horas en un ordenador, Spark la divide en 10 ordenadores para que tarde 1 hora.

#### **2. Delta Lake: El Almac√©n Inteligente üì¶**

Es la tecnolog√≠a que convierte un "lago de datos" (desordenado) en una base de datos fiable.

* **¬øPara qu√© sirve?** Para que tus archivos CSV o Parquet se comporten como tablas de una base de datos profesional.
* **Concepto clave:** **Transacciones ACID**. Si un proceso de escritura falla a mitad, Delta Lake se asegura de que no queden datos corruptos. O se escribe todo, o no se escribe nada. Adem√°s, permite el "Time Travel" (volver a versiones anteriores de los datos).

#### **3. MLflow: El Laboratorio de Experimentos üß™**

Es la herramienta para gestionar el ciclo de vida del Machine Learning.

* **¬øPara qu√© sirve?** Para llevar un diario perfecto de tus modelos. Registra qu√© datos usaste, qu√© par√°metros elegiste y qu√© resultado obtuviste.
* **Concepto clave:** **Reproducibilidad**. Te permite repetir un experimento meses despu√©s y obtener exactamente el mismo resultado.

---

### **üí° ¬øC√≥mo trabajan juntos? (El flujo real)**

Imagina que trabajas en una empresa de transporte:

1. **Spark** lee millones de registros de GPS en tiempo real.
2. **Delta Lake** guarda esos datos de forma segura, permiti√©ndote consultar la ubicaci√≥n de un cami√≥n hace 3 d√≠as (Time Travel).
3. **MLflow** entrena un modelo para predecir a qu√© hora llegar√° el cami√≥n a su destino bas√°ndose en el hist√≥rico guardado en Delta.

---

### **‚ö†Ô∏è Nota sobre el enfoque de este curso**

Aunque Databricks incluye las tres, este curso se centrar√° un **70% en Spark** (procesamiento) y un **25% en Delta Lake** (almacenamiento), ya que son los cimientos de cualquier Ingeniero o Analista de Datos. Veremos **MLflow** al final para entender c√≥mo se cierra el c√≠rculo.

---

### **Puntos clave para recordar**

* **Spark** = Computaci√≥n (Cerebro).
* **Delta Lake** = Almacenamiento fiable (Memoria).
* **MLflow** = Gesti√≥n de modelos (Diario de experimentos).

---

### **2.2 Tour por la interfaz: Workspace, Compute y Catalog**

Ya tienes las llaves de la "cocina industrial", ahora vamos a ver d√≥nde est√°n los fogones, la despensa y el libro de recetas. Aunque Databricks tiene muchas opciones, para este curso solo necesitas dominar tres iconos de la barra lateral izquierda.

#### **1. Workspace (El Libro de Recetas) üìù**

Es tu explorador de archivos, pero orientado a la colaboraci√≥n.

* **¬øQu√© hay aqu√≠?** Tus notebooks (los archivos de c√≥digo), carpetas compartidas y archivos de configuraci√≥n.
* **Pro-Tip:** Aqu√≠ es donde crear√°s una carpeta con tu nombre para organizar los ejercicios de este curso.
* **En la Free Edition:** Tienes una carpeta llamada "Users/tu-email" que es privada para ti.

#### **2. Compute (Los Fogones) ‚öôÔ∏è**

Aqu√≠ es donde ocurre la magia. Sin "Compute", tu c√≥digo es solo texto muerto.

* **¬øQu√© hay aqu√≠?** Los **Clusters**. Un cluster es un grupo de ordenadores (o uno solo en la versi√≥n gratuita) que ejecutan el c√≥digo Spark.
* **Importante:** Antes de ejecutar cualquier celda, debes asegurarte de que tienes un cluster encendido y que tu notebook est√° "conectado" a √©l.
* **Regla de oro:** Si el icono del cluster est√° en **gris**, est√° apagado. Si est√° en **verde**, ¬°puedes cocinar!

#### **3. Catalog / Data (La Despensa) üóÑÔ∏è**

Aqu√≠ es donde gestionas tus datos.

* **¬øQu√© hay aqu√≠?** Tus bases de datos, tablas y el acceso al sistema de archivos (DBFS).
* **Concepto clave:** Desde aqu√≠ podr√°s ver qu√© columnas tiene una tabla, una muestra de los datos y qui√©n tiene permiso para verla.

---

### **üõ†Ô∏è Gu√≠a r√°pida de navegaci√≥n**

| Si quieres... | Ve a... | Atajo de teclado |
| --- | --- | --- |
| **Escribir c√≥digo** | Workspace | `Alt + Shift + W` |
| **Ver si el motor est√° encendido** | Compute | - |
| **Buscar una tabla espec√≠fica** | Catalog | `Alt + Shift + D` |
| **Buscar cualquier cosa** | Buscador (arriba) | `Ctrl + P` |

---

### **‚ö†Ô∏è Diferencia Crucial: ¬øD√≥nde est√°n mis archivos?**

Es com√∫n confundir el **Workspace** con el **Catalog**:

* En el **Workspace** guardas tu **c√≥digo** (el "c√≥mo" se hace).
* En el **Catalog** gestionas tus **datos** (el "qu√©" se procesa).

---

### **Puntos clave para recordar**

1. El **Workspace** es para organizar tus notebooks.
2. El **Compute** es obligatorio para que el c√≥digo funcione (es tu motor).
3. El **Catalog** es el mapa de tus bases de datos y tablas.

---

### **2.3 Creaci√≥n y gesti√≥n de tu primer Cluster**

Un **Cluster** es el motor de tu coche. Sin √©l, puedes ver el volante y los asientos (el Workspace), pero no vas a ning√∫n lado. En la versi√≥n gratuita, Databricks nos regala un peque√±o motor de **15 GB de memoria**, m√°s que suficiente para aprender.

#### **Pasos para crear tu primer cluster**

1. En la barra lateral, haz clic en **Compute**.
2. Haz clic en el bot√≥n azul **Create compute**.
3. **Nombre del cluster:** Dale un nombre √©pico (ej: `Mi_Primer_Cluster` o `Motor_Spark`).
4. **Databricks Runtime Version:** Esta es la versi√≥n del sistema operativo y de Spark.
* *Recomendaci√≥n:* Elige siempre la versi√≥n m√°s reciente que diga **LTS** (Long Term Support). Esto asegura que es estable.


5. Haz clic en **Create Cluster**.

> ‚è≥ **Paciencia de principiante**: Un cluster tarda entre **3 y 5 minutos** en arrancar. Ver√°s un c√≠rculo dando vueltas. Cuando cambie a un **check verde** ‚úÖ, ya puedes ejecutar c√≥digo.

---

### **‚ö†Ô∏è Reglas de supervivencia en la Free Edition**

Para que no te lleves sorpresas, memoriza estas tres cosas sobre tu cluster gratuito:

* **Autotermination**: Si dejas de usar el notebook durante **2 horas**, Databricks apagar√° el cluster autom√°ticamente para ahorrar recursos. Es normal. Solo tendr√°s que volver a "Compute" y darle al Play (Start).
* **Recursos compartidos**: Tienes 15GB de RAM. Si intentas procesar un archivo de 50GB de golpe, el cluster "morir√°" (ver√°s un error de *Out of Memory*). Aprenderemos a manejar esto m√°s adelante.
* **Borrado tras 30 d√≠as**: Si no usas tu cluster en 30 d√≠as, Databricks lo eliminar√° de la lista. **¬°No entres en p√°nico!** Tus notebooks y datos no se borran; solo tienes que crear un cluster nuevo y volver a conectar tus notebooks.

---

### **üîó C√≥mo conectar un Notebook a tu Cluster**

Una vez que el cluster est√© verde, ve a tu Notebook y mira en la esquina superior derecha.

1. Haz clic en **Connect** (o en el desplegable de clusters).
2. Selecciona el cluster que acabas de crear.
3. Ahora, al pulsar `Shift + Enter` en una celda, el c√≥digo se enviar√° a ese motor para ser ejecutado.

---

### **Puntos clave para recordar**

1. El cluster es el **recurso de c√≥mputo** necesario para ejecutar Spark.
2. En la Free Edition es de **un solo nodo** (15GB RAM).
3. Se apaga tras **2 horas** de inactividad.
4. Debes **conectar** manualmente el notebook al cluster antes de trabajar.

---

### **2.4 Cuidados del entorno gratuito (Gu√≠a de supervivencia)**

Para que tu experiencia con la Free Edition sea fluida y no pierdas tiempo reiniciando cosas, sigue estos consejos:

1. **El Cluster es "ef√≠mero"**: Si el punto junto al nombre de tu cluster est√° gris, tus variables y datos cargados en memoria se han borrado. Tendr√°s que ejecutar las celdas de nuevo (puedes usar `Run All`).
2. **No satures los 15GB**: La Free Edition solo tiene un nodo. Si intentas cargar un CSV de 20GB, el cluster se detendr√°.
* *Truco*: Usa `display(df.limit(1000))` para previsualizar datos en lugar de intentar ver millones de filas.


3. **DBFS es tu disco duro**: Los archivos que subas a la carpeta `/FileStore` o al sistema de archivos de Databricks (DBFS) **S√ç** se mantienen aunque el cluster se apague.
4. **L√≠mite de 2 horas**: Si vas a irte a comer, guarda tus cambios. Al volver, el cluster estar√° apagado. Solo dale a **"Start"** y espera 3 minutos.

---

### **2.5 Respaldo y Control de Versiones con GitHub**

En el mundo profesional, nadie guarda el c√≥digo solo en Databricks. Usamos **Git** para que nuestros apuntes y scripts vivan para siempre en la nube (y para poder volver atr√°s si borramos algo por error).

#### **Paso 1: Conectar Databricks con tu GitHub**

1. En Databricks, ve a tu **User Settings** (el icono de perfil arriba a la derecha) -> **Settings**.
2. Busca la pesta√±a **Linked accounts** (o Git Integration).
3. Selecciona **GitHub** y a√±ade tu nombre de usuario.
4. Necesitar√°s un **Personal Access Token (PAT)** de GitHub.
* *C√≥mo sacarlo*: En GitHub: Settings -> Developer Settings -> Personal Access Tokens -> Tokens (classic) -> Generate new token (con permisos de `repo`).
5. Pega el token en Databricks y guarda.

#### **Paso 2: Crear un "Git Folder" en Databricks**

1. En la barra lateral, ve a **Workspace**.
2. Busca la carpeta **Users** y localiza la que tiene tu **correo electr√≥nico**.
3. Haz clic derecho sobre ella -> **Create** -> **Git Folder**.
3. En el cuadro que aparece, pega la URL del repositorio que hayas creado en GitHub (se recomienda que al crearlo en GitHub marques la casilla "Add a README file").
4. ¬°Listo! Ahora tus notebooks est√°n dentro de una carpeta sincronizada con Git.

#### **Paso 3: Hacer "Commit" y "Push"**

Cuando termines tus apuntes del d√≠a:

1. Haz clic en el nombre de la **Rama** (arriba a la izquierda del notebook, dir√° `main`).
2. Escribe un mensaje de lo que has hecho (ej: "Apuntes del M√≥dulo 2 finalizados").
3. Dale al bot√≥n **Commit & Push**. Tus apuntes ya est√°n seguros en tu cuenta de GitHub.

> üí° **Plan B (R√°pido)**: Si no quieres configurar Git todav√≠a, puedes ir a **File -> Export -> Dashboards/Source File** y descargar tu notebook como un archivo `.ipynb` (compatible con Jupyter) o `.dbc` (formato Databricks) en tu ordenador.

---

### **Puntos clave para recordar**

* **2.4:** El cluster es temporal, pero los archivos en DBFS y los notebooks son permanentes.
* **2.5:** GitHub es el "seguro de vida" de tu c√≥digo. Aprende a hacer *Commit* al final de cada sesi√≥n.

---