# üíæ Acceso a Azure Data Lake Storage (ADLS Gen2) desde Databricks

Este diagrama ilustra c√≥mo **Databricks** se conecta y accede a los datos almacenados en **Azure Data Lake Storage Gen2 (ADLS Gen2)**.

---

## üíª Componentes Principales

* **Databricks:** La plataforma de an√°lisis.
    * **Cluster:** El recurso computacional que ejecuta las tareas.
    * **Notebook:** El entorno donde escribes y ejecutas el c√≥digo (por ejemplo, Python o SQL).
* **Azure:** El proveedor de la nube.
    * **Storage Account:** El contenedor que aloja los datos.
    * **ADLS Gen2:** La capa de almacenamiento optimizada para Big Data.

---

## üîë M√©todos de Autenticaci√≥n y Seguridad

Para que el Cluster/Notebook de Databricks pueda leer o escribir en ADLS Gen2, necesita autenticarse. Los m√©todos de autenticaci√≥n comunes son:

### 1. Service Principal (Microsoft Entra ID/Azure Active Directory) üõ°Ô∏è

* Es el m√©todo **m√°s recomendado** y seguro para entornos de producci√≥n.
* Se utiliza una identidad de aplicaci√≥n (el **Service Principal**) registrada en **Microsoft Entra ID** (anteriormente Azure AD) para obtener acceso.

### 2. Storage Access Keys üîë

* Claves maestras que otorgan **acceso completo** a la cuenta de almacenamiento.
* **No son recomendadas** para acceso de producci√≥n debido a que si se filtran, comprometen toda la cuenta.

### 3. Shared Access Signature (SAS Token) üîó

* Tokens temporales que otorgan acceso **limitado** (por tiempo, permisos y recursos espec√≠ficos) a los datos.



####Storage Access Keys 
Para acceder a crear un secrectScope en databricks dirigite
al home de databricks y agrega en la url esto: #secrets/createScope
1. Establecer la configuraci√≥n de spark "fs.azure.account.key"
2. Listar archivos del contenedor "bronze"
3. Leer datos del archivo "categorias.csv"

In [0]:
spark.conf.set(
    "fs.azure.account.key.adlsg2udemycourse.dfs.core.windows.net",
    dbutils.secrets.get(scope="sc-proyect-joseph", key="key-adlsg2udemycourse"))

In [0]:
#Sin nosabemos el nombre del scope
dbutils.secrets.listScopes()

In [0]:
# Para listar tus secretos en adlsg
dbutils.secrets.list("sc-proyect-joseph")

In [0]:
# PARA LISTAR LOS ARCHIVOS QUE TENEMOS EN EL STORAGE ACCOUNT
display(
dbutils.fs.ls("abfss://bronze@adlsg2udemycourse.dfs.core.windows.net/"))

In [0]:
df_categorias=spark.read.csv("abfss://bronze@adlsg2udemycourse.dfs.core.windows.net/categorias.csv",header=True).limit(5).display()


####Token SAS(SHARED ACCESS SIGNATURE)
Para acceder a crear un secrectScope en databricks dirigite
al home de databricks y agrega en la url esto: #secrets/createScope
1. Establecer la configuraci√≥n de spark "fs.azure.account.key"
2. Listar archivos del contenedor "bronze"
3. Leer datos del archivo "categorias.csv"

In [0]:
spark.conf.set("fs.azure.account.auth.type.adlsg2proyectudemy.dfs.core.windows.net", "SAS")
spark.conf.set("fs.azure.sas.token.provider.type.adlsg2proyectudemy.dfs.core.windows.net", "org.apache.hadoop.fs.azurebfs.sas.FixedSASTokenProvider")
spark.conf.set("fs.azure.sas.fixed.token.adlsg2proyectudemy.dfs.core.windows.net", dbutils.secrets.get(scope="sc-udemy-course", key="secrect-sas"))

In [0]:
#ESTO ES PAREA VISUALIZAR LA LISTA DE SCOPES CREADOS EN DATABRICKS
dbutils.secrets.listScopes()

In [0]:
dbutils.secrets.list("sc-udemy-course")

In [0]:
df_categorias=spark.read.csv("abfss://bronze@adlsg2proyectudemy.dfs.core.windows.net/categorias.csv",header=True).limit(5).display()

## üîê Acceso Seguro a Azure Data Lake Gen2 desde Databricks (Service Principal)

Este documento detalla los pasos y el flujo de trabajo para configurar el acceso seguro a **Azure Data Lake Storage Gen2 (ADLS Gen2)** desde un cl√∫ster de **Azure Databricks** utilizando un **Service Principal (Entidad de Servicio)** registrado en Microsoft Entra ID (antes Azure Active Directory) y el control de acceso basado en roles (**RBAC**).

---

## üèóÔ∏è Flujo de Acceso

El diagrama ilustra el flujo de autenticaci√≥n y autorizaci√≥n:

* **Databricks** necesita acceder a los datos almacenados en **ADLS Gen2** (que se representa con los iconos de SQL, Data Lakes y otros servicios).
* La autenticaci√≥n se realiza a trav√©s de **Microsoft Entra ID**. Databricks utiliza una identidad registrada:
    * **User Account** (Cuenta de Usuario) o, m√°s com√∫nmente para servicios automatizados,
    * **Service Principal** (Entidad de Servicio), que act√∫a como una identidad no interactiva para la aplicaci√≥n.
* El **Service Principal** debe tener asignado un **Rol de RBAC** (Role-Based Access Control) a nivel del **Resource Group** o la cuenta de almacenamiento de ADLS Gen2 para poder acceder.
* El rol asignado (**Owner**, **Contributor**, **Storage Blob Data Contributor**, **Custom**, etc.) determina los permisos que el Service Principal tendr√° sobre los datos y la infraestructura.

---

## üõ†Ô∏è Pasos de Configuraci√≥n Requeridos

Para implementar esta conexi√≥n de forma segura, se deben seguir los siguientes pasos clave:

### 1. Preparaci√≥n en Microsoft Entra ID (Azure Portal)

* **Registrar la Aplicaci√≥n en Microsoft Entra ID / Server Principal**: Se crea un registro de aplicaci√≥n. Esto genera un **Application ID (Client ID)** y un **Directory ID (Tenant ID)** √∫nicos.
* **Generar un secreto (contrase√±a) para la Aplicaci√≥n**: Se crea un secreto de cliente asociado a la aplicaci√≥n registrada. Este secreto es la "contrase√±a" que Databricks usar√° para autenticarse.

### 2. Autorizaci√≥n (RBAC)

* **Asignar el Rol "Storage Blob Data Contributor" al Data Lake**: Este es el rol m√°s com√∫n y con el **m√≠nimo privilegio** necesario para leer, escribir y eliminar datos en contenedores y blobs de ADLS Gen2. Este rol se asigna al **Service Principal** en el alcance de la cuenta de almacenamiento o un contenedor espec√≠fico.

### 3. Configuraci√≥n en Databricks (Spark)

* **Configurar Spark con App / Client Id, Directory / Tenant Id & Secret**: El c√≥digo de Spark o la configuraci√≥n del cl√∫ster de Databricks debe recibir las credenciales del Service Principal para poder autenticarse. Esto se hace t√≠picamente estableciendo propiedades de configuraci√≥n de Spark en el notebook o el cl√∫ster.

In [0]:
#obteniendo credenciales como tenan id , client id
client_id="2a547da5-f769-4d90-83af-145052c0496a"
tenant_id="b824ae35-fbf9-4eaa-b4da-79ef1f190582"


In [0]:
dbutils.secrets.listScopes()

In [0]:
#Esto te da los secretos creados en azure key vault
dbutils.secrets.list("sc-udemy-course")

In [0]:
client_secret= dbutils.secrets.get(scope="sc-udemy-course",key="client-secret-udemy")

spark.conf.set("fs.azure.account.auth.type.adlsg2proyectudemy.dfs.core.windows.net", "OAuth")
spark.conf.set("fs.azure.account.oauth.provider.type.adlsg2proyectudemy.dfs.core.windows.net", "org.apache.hadoop.fs.azurebfs.oauth2.ClientCredsTokenProvider")
spark.conf.set("fs.azure.account.oauth2.client.id.adlsg2proyectudemy.dfs.core.windows.net", f"{client_id}")
spark.conf.set("fs.azure.account.oauth2.client.secret.adlsg2proyectudemy.dfs.core.windows.net",client_secret)
spark.conf.set("fs.azure.account.oauth2.client.endpoint.adlsg2proyectudemy.dfs.core.windows.net", f"https://login.microsoftonline.com/{tenant_id}/oauth2/token")

In [0]:
df_categorias=spark.read.csv("abfss://bronze@adlsg2proyectudemy.dfs.core.windows.net/categorias.csv",header=True).limit(5).display()

## üîë Autenticaci√≥n Centralizada: √Åmbito de Cl√∫ster (Cluster-Scoped Authentication)

Este m√©todo es para que los usuarios accedan a datos en **Azure Data Lake Storage Gen2 (ADLS Gen2)** de forma segura, canalizando las credenciales de autenticaci√≥n a trav√©s de la configuraci√≥n de un cl√∫ster de Azure Databricks.

Este enfoque asegura que las credenciales **no est√©n expuestas directamente en el c√≥digo del notebook**, sino que se gestionen a nivel de la infraestructura de c√≥mputo.

---

### üèóÔ∏è Flujo de Acceso

* **User (Usuario)**: El usuario interact√∫a con un **Notebook** de Databricks.
* **Notebook**: El c√≥digo dentro del notebook (por ejemplo, PySpark o Scala) contiene comandos de lectura/escritura de datos, pero **no contiene las credenciales sensibles** (como las Access Keys o los Service Principal Secrets).
* **Cluster (Cl√∫ster)**: El notebook ejecuta el c√≥digo sobre un **Cl√∫ster** de Databricks. La clave de este m√©todo es que el cl√∫ster est√° configurado con las propiedades de autenticaci√≥n.
    * **Secrets**: Las credenciales reales (generalmente un Service Principal ID y su Secreto, o un OAuth Token) se almacenan de forma segura en **Databricks Secret Scopes**.
    * Estas propiedades se inyectan en la **Configuraci√≥n de Spark** del cl√∫ster antes de que comience a ejecutarse el c√≥digo del usuario.
* **ADLS Gen2**: Cuando el c√≥digo del notebook intenta acceder a la ruta de ADLS Gen2, el cl√∫ster utiliza las credenciales preconfiguradas en su √°mbito para autenticarse y acceder a los datos.