# Sesión 1: Introducción a Databricks y Fundamentos

**Curso:** Introducción Práctica a Databricks: Ingeniería, Ciencia de Datos y MLflow  
**Duración de la sesión:** 2 horas  
**Fecha de preparación del material:** 2025-10-16

Este notebook está diseñado para ser usado en un entorno Databricks Premium Trial sobre AWS. Incluye explicaciones teóricas, ejemplos prácticos (Python y SQL con magics de Databricks) y secciones de síntesis.

---
## Objetivos de aprendizaje
- Comprender qué es Databricks y su relación con Apache Spark.
- Diferenciar Data Lakes, Data Warehouses y el enfoque Lakehouse.
- Reconocer casos de uso empresariales típicos.
- Familiarizarse con el Workspace de Databricks, los notebooks y la configuración básica de clústeres.
- Ejecutar consultas simples usando PySpark y Databricks SQL.

---
## Agenda
1. ¿Qué es Databricks? Historia y relación con Apache Spark.
2. Diferencia entre Data Lakes, Data Warehouses y Lakehouse.
3. Casos de uso en la industria.
4. Entorno de trabajo en Databricks: Workspace, notebooks y clústeres.
5. Workshop: primeros pasos (Python y SQL).

## ¿Qué es Databricks?
Databricks es una plataforma unificada de datos y analítica basada en Apache Spark que permite construir, ejecutar y escalar cargas de trabajo de ingeniería de datos, ciencia de datos y aprendizaje automático en la nube. Provee un entorno colaborativo con notebooks, gestión de clústeres, orquestación de trabajos y un **Lakehouse** que integra las fortalezas del Data Lake y el Data Warehouse.

### Historia y relación con Apache Spark
- Apache Spark surge en la Universidad de California, Berkeley (AMPLab) como un motor de procesamiento distribuido de propósito general.
- Databricks fue fundado por los creadores originales de Spark para simplificar su adopción empresarial y llevarlo a escala en la nube.
- La plataforma ofrece **runtimes optimizados** (Databricks Runtime), mejoras de performance, conectores nativos y herramientas de colaboración.

### Cosas para recordar
- Databricks = plataforma unificada centrada en Spark + herramientas de colaboración y gobierno de datos.
- Se ejecuta sobre proveedores cloud (AWS en este curso), aprovechando servicios como S3 e IAM.
- Lakehouse como enfoque arquitectónico nativo.

### Importancia en Ingeniería de datos
- Permite diseñar pipelines reproducibles, con calidad y gobernanza.
- Facilita el manejo de grandes volúmenes y variedad de datos con rendimiento distribuido.
- Reduce fricción entre equipos (datos, analítica, ML) al unificar herramientas.

### Conclusiones
Databricks acelera la entrega de valor en analítica y ML al ofrecer una base unificada y escalable sobre Spark, integrada con servicios cloud y prácticas de ingeniería modernas.

## Diferencia entre Data Lakes, Data Warehouses y Lakehouse
### Data Lake
- Almacén de datos en bruto (raw) y semiestructurados/estructurados en almacenamiento de objetos (ej. S3).
- Alta escalabilidad y costo eficiente; esquema a la lectura (schema-on-read).
- Ideal para ingestión masiva y exploración.

### Data Warehouse
- Repositorio optimizado para consultas analíticas con esquema definido (schema-on-write).
- Ofrece gobernanza estricta, rendimiento de consulta y BI tradicional.

### Lakehouse
- Combina lo mejor de ambos: flexibilidad del Lake + gobernanza y rendimiento del Warehouse.
- **Delta Lake** aporta transacciones ACID, versionado, time travel e índices/optimizaciones.

#### Esquema conceptual (alto nivel)
```
[Fuentes] -> [Data Lake (S3 + Delta)] -> [Tablas / Vistas] -> [BI/ML]
                         | ACID, time travel, DQ |
```

### Cosas para recordar
- Lakehouse reduce silos y duplicidad de arquitecturas.
- Delta Lake habilita confiabilidad y rendimiento en el lago.
- Permite analítica avanzada y ML sobre los mismos datos gobernados.

### Importancia en Ingeniería de datos
- Simplifica pipelines y minimiza movimientos innecesarios de datos.
- Estándar de tabla abierto (Delta) que favorece interoperabilidad.
- Mejora la calidad de datos con auditoría y versionado.

### Conclusiones
Adoptar un Lakehouse con Delta Lake ofrece una base robusta para casos de BI y ML con menor complejidad operativa.

## Casos de uso en la industria
- **Ingesta y modelado analítico**: Integración de datos de ERP/CRM, construcción de tablas de hechos y dimensiones.
- **Streaming y near real-time**: Procesamiento de eventos (logs, IoT) con Structured Streaming.
- **Machine Learning a escala**: Entrenamiento y scoring distribuido; administración de modelos con MLflow.
- **Data Sharing / Colaboración**: Intercambio seguro de datos con partners; catálogos gobernados.
- **MLOps/Medición de impacto**: Versionado de datasets/modelos, seguimiento de métricas.

### Cosas para recordar
- La plataforma soporta batch, streaming y ML en una misma superficie.
- Integración con ecosistema AWS (S3, IAM, Glue Catalog) y conectores JDBC.

### Importancia en Ingeniería de datos
- Estándar de facto para construir pipelines resilientes y escalables.
- Acelera prototipado y puesta en producción.

### Conclusiones
La unificación en Databricks habilita flujos de punta a punta, desde la ingesta hasta el consumo en BI/ML, con gobierno y desempeño.

## Entorno de Trabajo en Databricks
### Navegación en el Workspace
Componentes principales:
- **Workspace**: organiza notebooks, repositorios, librerías y dashboards.
- **Compute**: creación y administración de clústeres; políticas y autoscaling.
- **Data**: exploración de catálogos, bases y tablas (incluye Delta Lake).
- **Workflows (Jobs)**: orquestación y programación de pipelines.
- **Repos**: integración con Git (GitHub) para versionado colaborativo.

### Notebooks y lenguajes soportados
- Notebooks multicelda con soporte para **Python, SQL, Scala y R**.
- Uso de *magics* para cambiar de lenguaje en una celda (ej. `%sql`, `%python`).
- Integración con visualizaciones, widgets y documentación Markdown.

### Configuración básica de clústeres
Pasos recomendados (AWS, Premium Trial):
1. Seleccionar **Databricks Runtime** estable (Spark 3.x).
2. Elegir tipo y tamaño de nodos dentro de los límites del trial.
3. Habilitar **autoscaling** y política de auto-terminación para optimizar costos.
4. (Opcional) Configurar acceso a S3 mediante IAM roles o External Locations.

### Cosas para recordar
- Los notebooks se ejecutan sobre un clúster; sin clúster no hay ejecución.
- Autoscaling y auto-terminación ayudan a controlar costos.
- Repos + GitHub = versionado y colaboración.

### Importancia en Ingeniería de datos
- Administración correcta del cómputo asegura rendimiento y eficiencia.
- Organización del Workspace y repos mejora la mantenibilidad.

### Conclusiones
Un Workspace bien organizado y clústeres optimizados son la base operativa para pipelines confiables y eficientes.

## Workshop: Primeros pasos
En esta sección crearemos y ejecutaremos celdas en Python y SQL, y realizaremos consultas simples.

### 1) Creación de un notebook y ejecución de celdas
En Databricks:
1. Ir a **Workspace** → **Create** → **Notebook**.
2. Asignar un nombre descriptivo.
3. Seleccionar el **lenguaje por defecto** (Python recomendado).
4. Adjuntar un **clúster** disponible.
5. Ejecutar celdas con **Shift+Enter**.

A continuación, ejecutaremos algunas celdas de prueba.

In [0]:
%sql
-- (Opcional) Verifica el contexto actual
SELECT current_catalog(), current_schema();

-- Elimina la BD y todos sus objetos (tablas, vistas) en cascada
DROP SCHEMA IF EXISTS demo_db_jengrik CASCADE;


In [0]:
# TODO: Python: Comprobación del entorno
import sys
print("Versión de Python: ", sys.version)

try:
    import pyspark
    print("Pyspark: ", pyspark.__version__, "- Todo OK.")
except Exception as e:
    print("Pyspark no disponible en este entorno.")


In [0]:
# TODO: PySpark: Crear un DataFrame sencillo y operaciones básicas
from pyspark.sql import functions as F
df = spark.range(0 ,11).withColumn('par', (F.col('id') % 2 == 0).cast('boolean'))
display(df)

In [0]:
df_agg = df.groupby('par').agg(F.count('*').alias('count'))
display(df_agg)

### 2) Introducción a Databricks SQL
Databricks SQL permite consultas interactivas y creación de dashboards sobre tablas gestionadas en el Lakehouse. Desde notebooks, podemos usar celdas con **`%sql`** para ejecutar SQL directamente.

A continuación, demostraremos consultas SQL. Si su workspace no contiene las tablas de ejemplo mencionadas, puede crear una tabla temporal o ajustar los nombres según su catálogo.

In [0]:
%sql
-- TODO: Exploración del catálogo
CREATE OR REPLACE TEMP VIEW trips AS
SELECT * FROM VALUES
 (1), (2), (1), (3), (2), (1), (4), (1), (2), (5),
 (1), (1), (2), (3), (2), (1), (2), (3), (1), (2)
AS trips(passenger_count);


In [0]:
%sql
-- TODO: Consulta simple
SELECT passenger_count, COUNT(*) AS viajes
FROM trips
GROUP BY passenger_count
ORDER BY viajes DESC
LIMIT 10;

### 3) Consulta de datos simples en el entorno
Ejemplo de lectura de un CSV desde una ruta accesible (DBFS o S3). Para S3, asegúrese de contar con permisos adecuados y de haber configurado las credenciales/IAM.

**Nota:** Reemplace la ruta por una válida en su entorno.

In [0]:
# TODO: PySpark: lectura de CSV

vol_path = "/Volumes/jengrik_dbx_54697129984927/default/nyctaxi_vol/"

try:
    files = dbutils.fs.ls(vol_path)
    print("¡Pude listar la ruta!")
    print("Archivos en el directorio: ", len(files))
    print(files)
except Exception as e:
    print("No pude acceder a la ruta: ", e)
    raise e

In [0]:
%sql
DESCRIBE VOLUME jengrik_dbx_54697129984927.default.nyctaxi_vol

In [0]:

df_csv = (spark.read
    .option("header", "true")
    .option("inferSchema", "true")
    .csv(vol_path + "trips.csv"))
display(df_csv.limit(2))

print(df_csv.printSchema())
print('Filas: ', df_csv.count(), "| Columnas: ", len(df_csv.columns))


## Recapitulación de la sesión
### Cosas para recordar
- Databricks unifica ingeniería de datos, analítica y ML sobre Spark.
- Lakehouse con Delta Lake aporta confiabilidad y rendimiento en el lago.
- Workspace, clústeres y repos son pilares operativos.
- Notebooks permiten alternar Python/SQL para productividad.

### Importancia en Ingeniería de datos
- Base para pipelines escalables y gobernados.
- Reducción de silos y aceleración del time-to-insight.

### Conclusiones
Está listo el terreno para construir pipelines simples: ingestión, transformación y consultas analíticas que evolucionarán en sesiones posteriores hacia ML y orquestación.

## Comprobación de conocimiento (opcional)
1. ¿Qué ventajas ofrece Delta Lake para implementar un Lakehouse?
2. ¿Qué diferencias clave existen entre Data Lake y Data Warehouse?
3. ¿Cuál es el rol del clúster en la ejecución de notebooks?
4. ¿Cómo alternar entre Python y SQL en un notebook de Databricks?
5. ¿Qué prácticas ayudan a optimizar costos de cómputo en el trial?