# Sesión 1: Introducción a Databricks y Fundamentos

## Objetivo de la sesión
Comprender los fundamentos del entorno Databricks, su relación con Apache Spark y el concepto de arquitectura Lakehouse. Al finalizar, podrás crear tu primer notebook, ejecutar consultas básicas y familiarizarte con la interfaz del entorno Databricks Free Edition.


## 1. ¿Qué es Databricks?
Databricks es una **plataforma unificada de análisis de datos** basada en la nube, creada por los fundadores de **Apache Spark**. Facilita el trabajo colaborativo entre **ingeniería de datos, ciencia de datos y analítica**, integrando herramientas para **ingesta, transformación, machine learning y BI** en un solo lugar.

### Historia y relación con Apache Spark
- Apache Spark fue desarrollado en el AMPLab de UC Berkeley alrededor de 2010.
- En 2013, sus creadores fundaron **Databricks** para ofrecer una plataforma gestionada y optimizada sobre Spark.
- Spark es el motor de ejecución subyacente. Databricks añade:
  - **Delta Lake** para confiabilidad y transacciones ACID en el data lake.
  - **MLflow** para el seguimiento del ciclo de vida de modelos.
  - **Databricks SQL** para consultas y dashboards.
  - Notebooks colaborativos con control de versiones vía Git/GitHub.


## 2. Data Lake, Data Warehouse y Lakehouse

| Concepto | Descripción | Limitaciones | Ejemplo |
|---|---|---|---|
| **Data Lake** | Repositorio de datos en crudo (estructurados y no estructurados). | Control de calidad complejo, consultas menos eficientes. | Archivos en S3, ADLS, GCS o DBFS. |
| **Data Warehouse** | Almacén analítico optimizado para SQL y modelos tabulares. | Coste y rigidez ante datos semiestructurados/no estructurados. | Redshift, BigQuery, Snowflake. |
| **Lakehouse** | Combina Data Lake + Data Warehouse con transacciones ACID y rendimiento analítico. | Requiere formatos/tecnologías modernas como **Delta Lake**. | Databricks Lakehouse Platform. |

**Delta Lake** aporta: transacciones ACID, esquema, time travel y versionado, permitiendo construir un **Lakehouse** confiable sobre almacenamiento económico.


## 3. Casos de uso en la industria
- Finanzas: detección de fraude, scoring de riesgo en tiempo real.
- Retail: personalización, pronóstico de demanda, optimización de inventario.
- Salud: integración clínica, analítica poblacional, modelos predictivos.
- Energía/IoT: mantenimiento predictivo, análisis de sensores.
- Educación: analítica de aprendizaje, retención estudiantil.


## 4. Entorno de trabajo en Databricks

### Navegación en el Workspace
- **Home**: página inicial del usuario.
- **Workspace**: notebooks, scripts y carpetas del proyecto.
- **Repos**: integración con Git/GitHub para versionado.
- **Data**: acceso a bases y tablas, exploración de catálogos.
- **Compute**: administración de **clusters**.
- **SQL**: editor SQL, visualizaciones y (si aplica) dashboards.

### Notebooks y lenguajes soportados
Databricks soporta **Python, SQL, R, Scala**. Puedes fijar un lenguaje por celda con los *magics*:
- `%python`
- `%sql`
- `%r`
- `%scala`

### Configuración básica de clusters (Free Edition)
1. Ir a **Compute → Create Cluster**.
2. Asignar un nombre (por ejemplo, `cluster_free_demo`).  
3. Seleccionar el **Runtime** más reciente disponible (Spark 3.x).  
4. Usar modo **Single Node** (limitación de la Free Edition).  
5. Crear el cluster y conectarlo al notebook antes de ejecutar celdas.


## 5. Workshop: Primeros pasos

### 5.1 Crear un notebook
1. **Workspace → Create → Notebook**.  
2. Elegir nombre (por ejemplo, `Introduccion_Databricks`).  
3. Seleccionar lenguaje por defecto (**Python** o **SQL**).  
4. Adjuntar el cluster activo al notebook.

### 5.2 Ejecutar celdas
A continuación, ejecuta las celdas de ejemplo para verificar que el entorno funciona.


In [None]:
# Ejemplo básico en Python
print("Hola Databricks desde Python")

In [None]:
# Celda SQL usando magic de Databricks
# Ejecuta esta celda en Databricks; en otros entornos, el magic %sql no estará disponible.

# Databricks: descomenta la siguiente línea
# %sql
# SELECT "Hola Databricks SQL" AS mensaje;

### 5.3 Cargar y consultar datos simples

A continuación se muestra un ejemplo con un dataset público disponible en muchos runtimes de Databricks. Si el path no existe en tu runtime de Free Edition, sustituye la ruta por un CSV propio en **DBFS**.


In [None]:
# Lectura de un CSV de ejemplo con PySpark
# Si esta ruta no existe en tu entorno, reemplázala por un path válido en DBFS (por ejemplo: /FileStore/tables/mi_archivo.csv)

csv_path = "/databricks-datasets/learning-spark-v2/people/people-10m.csv"
df = spark.read.csv(csv_path, header=True, inferSchema=True)
display(df.limit(5))

In [None]:
# Crear una vista temporal y consultar con SQL (Databricks)
# %sql
# CREATE OR REPLACE TEMP VIEW people AS
# SELECT * FROM csv.`/databricks-datasets/learning-spark-v2/people/people-10m.csv`;

# %sql
# SELECT firstName, lastName, gender FROM people LIMIT 5;

## Conclusiones de la sesión
- Databricks unifica ingeniería, analítica y ciencia de datos sobre Apache Spark.
- El enfoque **Lakehouse** con **Delta Lake** suma confiabilidad y rendimiento analítico sobre almacenamiento de data lake.
- La Free Edition permite prácticas individuales y versionado con Git/GitHub.

## Actividad sugerida
- Crea un notebook llamado `Exploracion_inicial`.
- Escribe tres celdas: una en Python, otra en SQL y otra en Markdown.
- Sube el notebook al repositorio de GitHub del curso y documenta los pasos realizados.
