# Glosario esencial para Databricks en AWS
**Fecha de preparación:** 2025-10-16

Este glosario reúne términos clave que suelen generar dudas en una primera sesión práctica de Databricks. Cada entrada incluye una **definición breve**, **cuándo usarlo**, su **relación con Databricks/AWS**, y **cosas para recordar**.

---
## Cómo usar este glosario
- Búsqueda rápida durante la clase.
- Punto de referencia para documentación y código en el repositorio del curso.
- Complemento para las secciones teóricas de Lakehouse, Delta Lake y configuración de clústeres.

---

## Índice rápido
- [Apache Spark](#Apache-Spark)
- [Data Lake](#Data-Lake)
- [Data Warehouse](#Data-Warehouse)
- [Lakehouse](#Lakehouse)
- [Delta Lake](#Delta-Lake)
- [Delta Table (Tabla Delta)](#Delta-Table-(Tabla-Delta))
- [Time Travel](#Time-Travel)
- [Z-Order](#Z-Order)
- [Compaction](#Compaction)
- [S3 (Amazon Simple Storage Service)](#S3-(Amazon-Simple-Storage-Service))
- [IAM (AWS Identity and Access Management)](#IAM-(AWS-Identity-and-Access-Management))
- [Glue Catalog](#Glue-Catalog)
- [JDBC](#JDBC)
- [ACID](#ACID)
- [ERP/CRM](#ERP/CRM)
- [SQL](#SQL)
- [Scala](#Scala)
- [R](#R)
- [Python](#Python)
- [DBFS (Databricks File System)](#DBFS-(Databricks-File-System))
- [Databricks SQL](#Databricks-SQL)
- [Compute / Cluster](#Compute-/-Cluster)
- [Workflows (Jobs)](#Workflows-(Jobs))
- [Repos (GitHub)](#Repos-(GitHub))
- [Structured Streaming](#Structured-Streaming)
- [Parquet](#Parquet)
- [Schema-on-read / Schema-on-write](#Schema-on-read-/-Schema-on-write)
- [Medallion Architecture (Bronze/Silver/Gold)](#Medallion-Architecture-(Bronze/Silver/Gold))
- [Unity Catalog / Catálogo](#Unity-Catalog-/-Catálogo)
- [External Location](#External-Location)
- [Credential Passthrough](#Credential-Passthrough)
- [MLflow](#MLflow)
- [Cost Optimization (Optimización de costos)](#Cost-Optimization-(Optimización-de-costos))

---


## Apache Spark
**Definición:** Motor de procesamiento distribuido para grandes volúmenes de datos. Proporciona APIs en Python, SQL, Scala y R para ejecutar transformaciones y acciones sobre clústeres.

**Cuándo usarlo:** Procesamiento batch y streaming, ETL a escala, ML distribuido.

**Relación con Databricks/AWS:** Databricks ofrece runtimes optimizados de Spark y notebooks colaborativos.

**Cosas para recordar**
- Transformaciones se ejecutan *lazy* (evaluación diferida).
- Persistencia y particionamiento impactan el rendimiento.

---

## Data Lake
**Definición:** Almacén de datos en bruto (estructurados, semiestructurados y no estructurados) generalmente en almacenamiento de objetos.

**Cuándo usarlo:** Ingesta masiva, staging, exploración y ciencia de datos.

**Relación con Databricks/AWS:** En AWS suele implementarse sobre Amazon S3; Databricks lo usa como capa de almacenamiento base.

**Cosas para recordar**
- Esquema a la lectura (schema-on-read).
- Bajo costo y alta escalabilidad.

---

## Data Warehouse
**Definición:** Repositorio analítico optimizado para consultas, con esquema bien definido (schema-on-write).

**Cuándo usarlo:** BI, reporting, métricas establecidas y gobernanza estricta.

**Relación con Databricks/AWS:** Lakehouse integra capacidades tipo DW; Databricks SQL habilita consultas interactivas sobre tablas gobernadas.

**Cosas para recordar**
- Rendimiento alto en consultas y semántica consistente.
- Menor flexibilidad que un Data Lake puro.

---

## Lakehouse
**Definición:** Arquitectura que combina la flexibilidad del Data Lake con la gobernanza y rendimiento del Data Warehouse.

**Cuándo usarlo:** Unificar analítica y ML sobre la misma fuente gobernada.

**Relación con Databricks/AWS:** Databricks implementa Lakehouse apoyándose en Delta Lake sobre S3.

**Cosas para recordar**
- Evita silos y duplicidad de pipelines.
- Tablas con transacciones ACID y time travel.

---

## Delta Lake
**Definición:** Formato/estructura de tablas sobre almacenamiento de objetos que aporta transacciones ACID, versionado y optimizaciones.

**Cuándo usarlo:** Tablas confiables para BI y ML sobre el lago.

**Relación con Databricks/AWS:** En AWS, archivos en S3 + transaccionalidad administrada por Delta; expone tablas a Databricks SQL.

**Cosas para recordar**
- `OPTIMIZE`, `VACUUM`, `Z-ORDER`, `GENERATE` para rendimiento y mantenimiento.
- Soporta time travel (`VERSION AS OF`, `TIMESTAMP AS OF`).

---

## Delta Table (Tabla Delta)
**Definición:** Tabla basada en Delta Lake con metadatos y *transaction log* que garantizan integridad.

**Cuándo usarlo:** Persistencia confiable de datos transformados (Bronze/Silver/Gold).

**Relación con Databricks/AWS:** Consultables vía Spark DataFrames y Databricks SQL.

**Cosas para recordar**
- Permite *MERGE INTO*, *DELETE*, *UPDATE* atómicos.
- Versionado y auditoría integrados.

---

## Time Travel
**Definición:** Capacidad de consultar versiones históricas de una tabla Delta.

**Cuándo usarlo:** Auditoría, depuración, reproducibilidad de informes/experimentos.

**Relación con Databricks/AWS:** Usable con SQL y PySpark en Databricks.

**Cosas para recordar**
- Cuidado con políticas de `VACUUM` que eliminan archivos antiguos.
- Excelente para trazabilidad.

---

## Z-Order
**Definición:** Técnica de *data skipping* que mejora el pruning en columnas frecuentemente filtradas.

**Cuándo usarlo:** Optimizar consultas con filtros selectivos.

**Relación con Databricks/AWS:** Comando `OPTIMIZE ... ZORDER BY (col)`.

**Cosas para recordar**
- No sustituye un particionado bien diseñado.
- Aplicar tras cargas grandes o compactación.

---

## Compaction
**Definición:** Proceso de combinar muchos archivos pequeños en menos archivos grandes para mejorar el rendimiento.

**Cuándo usarlo:** After ingestiones incrementales/streaming que generan archivos pequeños.

**Relación con Databricks/AWS:** `OPTIMIZE` en Delta realiza compactación controlada.

**Cosas para recordar**
- Mejora el throughput de lectura.
- Coordinar con ventanas de carga.

---

## S3 (Amazon Simple Storage Service)
**Definición:** Servicio de almacenamiento de objetos altamente duradero y escalable.

**Cuándo usarlo:** Capa de datos para Data Lake y tablas Delta.

**Relación con Databricks/AWS:** Databricks lee/escribe en buckets S3 (rutas `s3://...` o montajes/External Locations).

**Cosas para recordar**
- Control de acceso mediante IAM o *bucket policies*.
- Costos por almacenamiento y *requests*.

---

## IAM (AWS Identity and Access Management)
**Definición:** Servicio para administrar identidades, roles y permisos en AWS.

**Cuándo usarlo:** Conceder acceso a S3, Glue, etc. desde clústeres/notebooks.

**Relación con Databricks/AWS:** Databricks se integra vía roles, *instance profiles* o credenciales temporales.

**Cosas para recordar**
- Principio de mínimo privilegio.
- Rotación de credenciales y auditoría.

---

## Glue Catalog
**Definición:** Catálogo de metadatos administrado por AWS Glue que describe bases, tablas y esquemas.

**Cuándo usarlo:** Descubrimiento de datos, *data governance* ligera, integración con servicios AWS.

**Relación con Databricks/AWS:** Databricks puede leer/escribir tablas registradas en Glue como catálogo externo.

**Cosas para recordar**
- Consistencia de esquemas facilita interoperabilidad.
- Gestionar *crawlers* y permisos.

---

## JDBC
**Definición:** Protocolo estándar para conectarse a bases de datos relacionales.

**Cuándo usarlo:** Ingesta/egesta desde/ hacia RDBMS (MySQL, Postgres, SQL Server, etc.).

**Relación con Databricks/AWS:** Databricks usa conectores Spark JDBC para lectura/escritura distribuida.

**Cosas para recordar**
- Ajustar `numPartitions`, `fetchsize` y *pushdown* para rendimiento.
- Cuidar transferencias y límites de origen.

---

## ACID
**Definición:** Conjunto de propiedades de transacciones: Atomicidad, Consistencia, Aislamiento y Durabilidad.

**Cuándo usarlo:** Garantizar integridad en escrituras concurrentes y fallas.

**Relación con Databricks/AWS:** Delta Lake implementa ACID sobre S3 para tablas del Lakehouse.

**Cosas para recordar**
- Evita lecturas sucias y estados intermedios.
- Base para operaciones `MERGE/UPDATE/DELETE`.

---

## ERP/CRM
**Definición:** Sistemas empresariales para gestión de recursos (ERP) y relación con clientes (CRM).

**Cuándo usarlo:** Fuentes frecuentes de datos maestros y transaccionales.

**Relación con Databricks/AWS:** Ingeridos hacia el Lakehouse mediante conectores, CDC o exportaciones batch.

**Cosas para recordar**
- Atender *PII* y cumplimiento (privacidad).
- Estandarizar *keys* y catálogos maestros.

---

## SQL
**Definición:** Lenguaje estándar para consulta y manipulación de datos.

**Cuándo usarlo:** BI, reporting, data quality y transformaciones declarativas.

**Relación con Databricks/AWS:** Databricks SQL ejecuta consultas sobre tablas Delta y crea visualizaciones/dashboards.

**Cosas para recordar**
- Optimizar con índices lógicos (Z-Order), partición y *statistics*.
- Preferir operaciones set-based.

---

## Scala
**Definición:** Lenguaje en la JVM, tipado estático, base original de la API de Spark.

**Cuándo usarlo:** Desarrollos de alto rendimiento y librerías del ecosistema Spark.

**Relación con Databricks/AWS:** Totalmente compatible con Spark en Databricks.

**Cosas para recordar**
- Excelente para *type-safety* y rendimiento.
- Curva de aprendizaje mayor que Python.

---

## R
**Definición:** Lenguaje para estadística y análisis.

**Cuándo usarlo:** Modelado, visualización y reportes específicos.

**Relación con Databricks/AWS:** Databricks soporta notebooks en R y SparkR.

**Cosas para recordar**
- Menor uso en ingeniería de datos distribuida.
- Útil para análisis exploratorio y modelos.

---

## Python
**Definición:** Lenguaje de propósito general, muy usado en ciencia/ingeniería de datos.

**Cuándo usarlo:** ETL con PySpark, ML con scikit-learn/MLlib, orquestaciones ligeras.

**Relación con Databricks/AWS:** Lenguaje por defecto en muchos notebooks de Databricks.

**Cosas para recordar**
- Ecosistema rico de librerías.
- Cuidar *UDF* vs. funciones nativas Spark.

---

## DBFS (Databricks File System)
**Definición:** Abstracción de sistema de archivos en Databricks que expone almacenamiento (incluido S3).

**Cuándo usarlo:** Acceso sencillo a rutas de datos (`/dbfs/...`).

**Relación con Databricks/AWS:** Usado para staging y lectura/escritura local en clúster.

**Cosas para recordar**
- Diferenciar *driver* vs. *worker* paths.
- Preferir rutas S3/External Locations para datos persistentes.

---

## Databricks SQL
**Definición:** Módulo de Databricks para consultas SQL interactivas, *endpoints* y dashboards.

**Cuándo usarlo:** Autoservicio de BI y análisis ad-hoc.

**Relación con Databricks/AWS:** Consulta directa de tablas Delta en el Lakehouse.

**Cosas para recordar**
- Permite *visualizations* y *parameterized queries*.
- Integra control de acceso por objetos.

---

## Compute / Cluster
**Definición:** Conjunto de máquinas gestionadas por Databricks para ejecutar notebooks y jobs.

**Cuándo usarlo:** Procesar workloads batch/streaming/ML.

**Relación con Databricks/AWS:** Autoscaling y *auto-termination* para controlar costos.

**Cosas para recordar**
- Elegir tamaño y *runtime* adecuados.
- Políticas de clúster para gobierno.

---

## Workflows (Jobs)
**Definición:** Orquestación y programación de notebooks, tareas y dependencias.

**Cuándo usarlo:** Automatizar pipelines y activar alertas.

**Relación con Databricks/AWS:** Ejecución confiable con *task clusters* o *all-purpose clusters*.

**Cosas para recordar**
- Definir *retries*, *timeouts* y notificaciones.
- Separar dev/test/prod.

---

## Repos (GitHub)
**Definición:** Integración con Git para versionar notebooks y código.

**Cuándo usarlo:** Colaboración, *branches*, *pull requests* y CI.

**Relación con Databricks/AWS:** Sincroniza el Workspace con repositorios remotos.

**Cosas para recordar**
- Estandarizar estructura del repo.
- Usar *nbdime* u otras herramientas para *diff* de notebooks.

---

## Structured Streaming
**Definición:** API de Spark para procesamiento incremental con semántica declarativa.

**Cuándo usarlo:** Eventos, IoT, logs y CDC.

**Relación con Databricks/AWS:** Escritura en tablas Delta con transacciones y *checkpointing*.

**Cosas para recordar**
- Definir *trigger* y *output mode* adecuados.
- Diseñar *watermarks* para late data.

---

## Parquet
**Definición:** Formato de archivo columnar comprimido y eficiente.

**Cuándo usarlo:** Almacenamiento intermedio y *data exchange* eficiente.

**Relación con Databricks/AWS:** Base de muchas optimizaciones de Spark y Delta.

**Cosas para recordar**
- Soporta *predicate pushdown*.
- Estructura columnar mejora la compresión.

---

## Schema-on-read / Schema-on-write
**Definición:** Modelo de aplicar el esquema al leer (DL) o al escribir (DW).

**Cuándo usarlo:** Equilibrar flexibilidad vs. gobernanza.

**Relación con Databricks/AWS:** Lakehouse permite ambos según la capa (Bronze/Silver/Gold).

**Cosas para recordar**
- Definir contratos de datos en Silver/Gold.
- Validaciones y *expectations* son clave.

---

## Medallion Architecture (Bronze/Silver/Gold)
**Definición:** Patrón de capas: Bronze (raw), Silver (limpieza/estandarización), Gold (modelos analíticos).

**Cuándo usarlo:** Organizar pipelines claros y auditables.

**Relación con Databricks/AWS:** Implementable con tablas Delta y Jobs.

**Cosas para recordar**
- Facilita *lineage* y control de calidad.
- Simplifica consumo por BI/ML.

---

## Unity Catalog / Catálogo
**Definición:** Gobierno centralizado de datos, permisos a nivel de objetos y *lineage*.

**Cuándo usarlo:** Seguridad y cumplimiento a escala multi-workspace.

**Relación con Databricks/AWS:** Gestiona catálogos, esquemas y tablas para Databricks SQL y Spark.

**Cosas para recordar**
- Separar dominios por catálogo/esquema.
- Aplicar *row/column-level security* donde aplique.

---

## External Location
**Definición:** Recurso gobernado que mapea ubicaciones de almacenamiento (S3) con control de acceso.

**Cuándo usarlo:** Lectura/escritura segura de datos externos al workspace.

**Relación con Databricks/AWS:** Base para crear *volumes* y tablas externas en Lakehouse.

**Cosas para recordar**
- Usar roles IAM dedicados.
- Auditar accesos.

---

## Credential Passthrough
**Definición:** Mecanismo para que el usuario acceda a datos con sus credenciales temporales.

**Cuándo usarlo:** Cumplimiento y auditoría por usuario.

**Relación con Databricks/AWS:** Disponible según integración Databricks-AWS.

**Cosas para recordar**
- Evita *shared keys*.
- Requiere configuración específica del workspace.

---

## MLflow
**Definición:** Plataforma para seguimiento de experimentos, gestión de artefactos y registro/versionado de modelos.

**Cuándo usarlo:** Comparar runs, reproducir experimentos y servir modelos.

**Relación con Databricks/AWS:** Integrado en Databricks con *Tracking Server* y *Model Registry*.

**Cosas para recordar**
- Etiquetar parámetros y métricas clave.
- Promover modelos por *stages*: Staging/Production.

---

## Cost Optimization (Optimización de costos)
**Definición:** Conjunto de prácticas para reducir gasto en cómputo y almacenamiento.

**Cuándo usarlo:** Control operacional del trial y entornos productivos.

**Relación con Databricks/AWS:** Autoscaling, auto-termination, *spot instances* (si procede) y mantenimiento de tablas.

**Cosas para recordar**
- Borrar clústeres ociosos.
- Compactar y *vacuum* para evitar *storage bloat*.

---

## Nota final
Este glosario es un documento vivo. Añade términos específicos de tu organización (nombres de dominios de datos, sistemas legados, políticas internas) y vincula ejemplos de notebooks del repositorio para acelerar el onboarding del equipo.