
# üíæ Databricks File System (DBFS)

## ¬øQu√© es DBFS?

**DBFS** (Databricks File System) es un **sistema de archivos distribuido** que act√∫a como una **capa de abstracci√≥n** para simplificar el almacenamiento y el acceso a los archivos dentro de un entorno de Databricks.

Su principal funci√≥n es permitir que el almacenamiento en la nube (como S3, Azure Blob o ADLS) se trate como un sistema de archivos local, haciendo que el acceso a los datos sea mucho m√°s f√°cil desde los notebooks y los cl√∫steres.

***

## üîë Caracter√≠sticas Clave

DBFS proporciona varias ventajas fundamentales para el manejo de datos en Databricks:

* **Interfaz simple:** Ofrece una estructura de directorios y rutas est√°ndar, facilitando la localizaci√≥n de los datos.
* **Almacenamiento persistente:** Los datos persisten incluso cuando el cl√∫ster de Spark se apaga.
* **Integraci√≥n con cl√∫steres Spark:** Permite que los procesos distribuidos de Spark accedan a los datos de manera eficiente.
* **Carpetas montadas:** Permite "montar" contenedores de almacenamiento en la nube bajo el prefijo `/mnt/`, simplificando el acceso y la seguridad.
* **Compatibilidad con m√∫ltiples formatos:** Soporta formatos comunes como Parquet, Delta Lake, CSV, JSON, etc.

***

## ‚öôÔ∏è Acceso y Rutas

El acceso a DBFS se realiza mediante un prefijo especial y puede interactuar con distintos servicios:

### Prefijo de Ruta
Todas las rutas de DBFS comienzan con: `dbfs:/mnt/folder`

* **Ejemplo:** Para acceder a un archivo en una carpeta montada, se usar√≠a una ruta como `dbfs:/mnt/mi_contenedor/datos.csv`.

### Integraci√≥n con la Nube
DBFS se conecta directamente con los principales servicios de almacenamiento en la nube:
* **Azure:** Azure Blob Storage y Azure Data Lake Storage Gen2 (**ADLS Gen2**).
* **AWS:** Amazon S3 (**AWS S3**).

### M√©todos de Acceso
Se puede interactuar con DBFS desde diferentes herramientas:
1.  **Lenguajes de Programaci√≥n:** Python, Scala y R (usando `spark.read` o comandos del sistema de archivos).
2.  **Herramientas de Databricks:** Databricks CLI (Command Line Interface) y Databricks API.

# üèõÔ∏è Arquitectura de Azure Databricks (Plano de Control y Plano de C√≥mputo)

Este diagrama ilustra c√≥mo Azure Databricks se despliega dentro de la suscripci√≥n de Azure del cliente, separando las funciones de **Control** y **C√≥mputo**.

---

## 1. Plano de Control de Azure Databricks

Es el cerebro del entorno. Es administrado por Databricks y almacena metadatos y la configuraci√≥n del workspace.

| Elemento | Funci√≥n |
| :--- | :--- |
| **Databricks Web Application** | Interfaz principal para usuarios (autenticaci√≥n SSO con Microsoft Entra ID). |
| **Notebooks y Jobs** | Permite gestionar, editar y ejecutar cuadernos (notebooks), as√≠ como la gesti√≥n de tareas recurrentes (`Jobs and query`). |
| **Cluster Management** | Gestiona la creaci√≥n, escalado y terminaci√≥n de los cl√∫steres de Spark. |
| **REST API Client** | Permite la interacci√≥n program√°tica con el workspace usando tokens revocables. |

***

## 2. Plano de C√≥mputo Cl√°sico (VNet)

Aqu√≠ es donde ocurre el procesamiento real de los datos. Est√° alojado en una **Virtual Network (VNet)** dentro de la **suscripci√≥n de Azure del cliente**.

| Elemento | Funci√≥n |
| :--- | :--- |
| **Compute Resources** | Incluye cl√∫steres de Spark y **SQL Warehouses** (cl√°sicos y *pro*) para el procesamiento de datos. |
| **Conexi√≥n L√≥gica** | Las flechas rojas punteadas indican peticiones l√≥gicas (como iniciar cl√∫steres o jobs) que **inician los recursos de c√≥mputo** hacia el Plano de Control, garantizando la seguridad y que los recursos **no tengan direcciones IP p√∫blicas (No Public IP)**. |
| **Jobs Spark** | Ejecutan el c√≥digo de los notebooks, generan *job logs* y almacenan los resultados. |

***

## 3. Almacenamiento de Datos y DBFS

El almacenamiento se divide en dos categor√≠as principales, interactuando con DBFS.

### üìÅ Workspace Root Storage (Ra√≠z de DBFS)

* Almacena los **sistemas de archivos DBFS** (bibliotecas de archivos), los resultados de los jobs, los logs de los cl√∫steres y las revisiones de los notebooks.
* Para los workspaces creados **despu√©s del 6 de marzo de 2023**, se usa **Azure Blob Storage**. Para los anteriores, se usaba ADLS Gen2.

### ‚òÅÔ∏è Customer Data (Datos del Cliente)

* Datos externos y de negocio que se quieren procesar.
* Se almacenan t√≠picamente en **ADLS Gen2** o **Blob Storage**.
* El plano de c√≥mputo accede a estos datos directamente a trav√©s de **montajes DBFS** (`DBFS mount`) o acceso directo.

***

## üí° El Papel de DBFS

**DBFS** (Databricks File System) proporciona la capa de abstracci√≥n.

* Permite a los cl√∫steres de Spark acceder tanto al **Workspace Root Storage** como a los **Customer Data** mediante rutas unificadas, simplificando la lectura, escritura y el manejo de archivos.

### Flujo de Interacci√≥n

1.  El usuario/API interact√∫a con el **Plano de Control** (e.g., inicia un trabajo).
2.  El **Plano de Control** solicita al **Plano de C√≥mputo** (VNet) que inicie los recursos.
3.  El **Plano de C√≥mputo** (cl√∫steres) procesa los datos, leyendo de los or√≠genes de datos (ADLS Gen2/Blob) a trav√©s de **DBFS** y enviando *logs* y resultados al **Plano de Control**.

# üíæ TRABAJANDO CON  Databricks File System (DBFS) ROOT 

In [0]:
%fs
ls dbfs:/

In [0]:
display(dbutils.fs.ls("/"))

In [0]:
display(dbutils.fs.ls("dbfs:/databricks-datasets/"))

#### Directorio rais del cluster

In [0]:
%sh
ls /

In [0]:
display(dbutils.fs.ls("/FileStore"))