# Imports

In [2]:
import sempy.fabric as fabric
from sempy.fabric.exceptions import FabricHTTPException
import msal
import requests
client = fabric.FabricRestClient()

StatementMeta(, 53be198c-a29e-4e26-a4ef-280d4d527fc2, 3, Finished, Available, Finished)

# Listar capacidades de Fabric

Debemos escoger la capacidad que vamos a utilizar para asignarla al o las √°reas de trabajo que se crear√°n.

In [3]:
fabric.list_capacities()

StatementMeta(, 53be198c-a29e-4e26-a4ef-280d4d527fc2, 4, Submitted, Running, Running)

In [None]:
projectName:str = "ProjectName"
layers:list[str] = ["01_BRONZE","02_SILVER","03_GOLD"]
capacityId:str = "CapacityId"
medallionInOneWorkspace:bool = False

azureKeyVault:bool = True
azureKeyVaultName:str = "azure-key-vault-name"
SUBSCRIPTION_ID:str = mssparkutils.credentials.getSecret(f'https://{azureKeyVaultName}.vault.azure.net/', '')
TENANT_ID:str = mssparkutils.credentials.getSecret(f'https://{azureKeyVaultName}.vault.azure.net/', '')
CLIENT_ID:str = mssparkutils.credentials.getSecret(f'https://{azureKeyVaultName}.vault.azure.net/', '')
CLIENT_SECRET:str = mssparkutils.credentials.getSecret(f'https://{azureKeyVaultName}.vault.azure.net/', '')

StatementMeta(, 5d838bba-75f7-4d58-9984-610f2c105db1, 31, Finished, Available, Finished)

# Comprobaci√≥n de variables obligatorias

In [26]:
def is_null_or_empty(value):
    return value is None or (isinstance(value, str) and value.strip() == "") or (isinstance(value, list) and len(value) == 0)

def validar_configuracion_global():
    errores = []

    # Validaci√≥n general del proyecto
    if is_null_or_empty(projectName):
        errores.append(" - 'projectName' no est√° definido o est√° vac√≠o.")
    if is_null_or_empty(layers):
        errores.append(" - 'layers' no est√° definido o la lista est√° vac√≠a.")
    if is_null_or_empty(capacityId):
        errores.append(" - 'capacityId' no est√° definido o est√° vac√≠o.")

    # Validaci√≥n de Azure Key Vault si est√° habilitado
    if azureKeyVault:
        if is_null_or_empty(azureKeyVaultName):
            errores.append(" - 'azureKeyVaultName' no est√° definido o est√° vac√≠o.")
        if is_null_or_empty(SUBSCRIPTION_ID):
            errores.append(" - 'SUBSCRIPTION_ID' no est√° definido o est√° vac√≠o.")
        if is_null_or_empty(TENANT_ID):
            errores.append(" - 'TENANT_ID' no est√° definido o est√° vac√≠o.")
        if is_null_or_empty(CLIENT_ID):
            errores.append(" - 'CLIENT_ID' no est√° definido o est√° vac√≠o.")
        if is_null_or_empty(CLIENT_SECRET):
            errores.append(" - 'CLIENT_SECRET' no est√° definido o est√° vac√≠o.")

    # Mostrar errores y detener ejecuci√≥n si los hay
    if errores:
        print("‚ùå Se encontraron los siguientes problemas de configuraci√≥n:")
        for error in errores:
            print(error)
        notebookutils.session.stop()

    print("‚úÖ Configuraci√≥n validada correctamente.")

validar_configuracion_global()

StatementMeta(, 5d838bba-75f7-4d58-9984-610f2c105db1, 28, Finished, Available, Finished)

‚úÖ Configuraci√≥n validada correctamente.


# Definici√≥n de funciones

In [None]:
def create_workspace(workspace_name:str,capacity_id:str,description:str):
    """
    Kilian Baccaro | datagym.es

    Funci√≥n para crear un √°rea de trabajo.

    Par√°metros:
    - workspace_name (str): Nombre del √°rea de trabajo a crear.
    - capacity_id (str): ID de la capacidad en la que se asignar√° el √°rea de trabajo.
    - description (str): Descripci√≥n del √°rea de trabajo.

    Devuelve:
    - str: ID del √°rea de trabajo creada si la operaci√≥n es exitosa.
    - None: En caso de error.
    
    """

    try:
        workspaceId = fabric.create_workspace(workspace_name, capacity_id, description)
        print(f"‚úÖ √Årea de trabajo {workspace_name} creada con √©xito:")
        print(f"‚ÑπÔ∏è Workspace ID: {workspaceId}")
        return workspaceId

    except Exception as error:
        print("‚ùå Error al crear el √°rea de trabajo: ", error)
        return None


def search_workspace(workspace_name: str):
    """
    Kilian Baccaro | datagym.es

    Busca un √°rea de trabajo en Microsoft Fabric por su nombre.

    Par√°metros:
    - workspace_name (str): Nombre del √°rea de trabajo a buscar.

    Devuelve:
    - pd.DataFrame: Un DataFrame con la informaci√≥n del √°rea de trabajo si existe.
    - None: Si ocurre un error o no se encuentra el √°rea de trabajo.

    """

    try:
        workspace = fabric.list_workspaces(filter=f"name eq '{workspace_name}'")
        return workspace
    except Exception as error:
        print("‚ùå Error al buscar el √°rea de trabajo: ", error)
        return None

def list_lakehouses(workspace_id:str):
    """
    Kilian Baccaro | datagym.es

    Lista todos los lakehouses disponibles en un √°rea de trabajo en Microsoft Fabric.

    Esta funci√≥n utiliza la API de Microsoft Fabric para obtener una lista de todos los lakehouses
    asociados con un √°rea de trabajo espec√≠fica, identificada por el par√°metro `workspace_id`. 
    Si la operaci√≥n es exitosa, devuelve una lista con los lakehouses. En caso de que ocurra un 
    error durante la operaci√≥n, captura la excepci√≥n y muestra un mensaje de error.

    Par√°metros:
    - workspace_id (str): El identificador del √°rea de trabajo en Microsoft Fabric para la cual 
      se desean obtener los lakehouses.

    Devuelve:
    - list: Una lista de los lakehouses disponibles en el √°rea de trabajo. Si ocurre un error, 
      devuelve `None`.

    """

    try:
        lakehouses = notebookutils.lakehouse.list(workspace_id)
        return lakehouses
    except Exception as error:
        print("‚ùå Error al listar los lakehouses: ", error)
        return None


def create_lakehouse(lakehouse_name: str, workspace_id: str):
    """
    Kilian Baccaro | datagym.es
    
    Crea un nuevo lakehouse en un √°rea de trabajo de Microsoft Fabric.

    Esta funci√≥n interact√∫a con la API de Microsoft Fabric para crear un nuevo lakehouse
    dentro de un √°rea de trabajo espec√≠fica, identificada por el par√°metro `workspace_id`. 
    El lakehouse se crea con el nombre especificado por el par√°metro `lakehouse_name`, 
    y se pueden personalizar otros par√°metros como la descripci√≥n y el n√∫mero m√°ximo de intentos 
    para la creaci√≥n. Si la operaci√≥n es exitosa, se devuelve el id del lakehouse creado. 
    En caso de error, la funci√≥n captura la excepci√≥n y muestra un mensaje de error en consola.

    Par√°metros:
    - lakehouse_name (str): El nombre que se asignar√° al nuevo lakehouse.
    - workspace_id (str): El identificador del √°rea de trabajo en Microsoft Fabric donde se crear√° 
      el lakehouse.

    Devuelve:
    - str: El ID del lakehouse creado en Microsoft Fabric. Si ocurre un error durante la 
      creaci√≥n, devuelve `None`.

    """

    description = ""
    max_attempts = 10

    try:
        lakehouseId = fabric.create_lakehouse(lakehouse_name, description, max_attempts, workspace_id)
        return lakehouseId
    except Exception as error:
        print(f"‚ùå Error al crear el lakehouse {lakehouse_name}: ", error)
        return None


def azurekeyvault_authentication():
    """
    Kilian Baccaro | datagym.es

    Autentica una aplicaci√≥n contra Azure Key Vault utilizando MSAL (Microsoft Authentication Library) 
    con credenciales de cliente.

    Par√°metros globales esperados:
    - TENANT_ID (str): ID del tenant de Azure Active Directory.
    - CLIENT_ID (str): ID de la aplicaci√≥n registrada en Azure AD.
    - CLIENT_SECRET (str): Secreto del cliente configurado en la app de Azure AD.

    Devuelve:
    - str: Token de acceso (access token) v√°lido para acceder a Azure Key Vault.
    - None: Si ocurre un error durante la autenticaci√≥n.

    """
    
    AUTHORITY = f"https://login.microsoftonline.com/{TENANT_ID}"
    KV_RESOURCE = "https://vault.azure.net/"
    SCOPE = KV_RESOURCE + ".default"

    app = msal.ConfidentialClientApplication(CLIENT_ID, authority=AUTHORITY, client_credential=CLIENT_SECRET)
    token_response = app.acquire_token_for_client(scopes=[SCOPE])

    if "access_token" in token_response:
        access_token = token_response["access_token"]
        print("‚úÖ Autenticaci√≥n exitosa para Key Vault")
        return access_token
    else:
        print("‚ùå Error en la autenticaci√≥n:", token_response)
        return None

def store_workspace_id_secret(workspace_name: str, workspace_id: str, azure_key_vault_name: str, kv_access_token: str):
    """
    Kilian Baccaro | datagym.es

    Almacena el ID de un Workspace como un secreto en Azure Key Vault.

    Par√°metros:
    - workspace_name (str): Nombre del √°rea de trabajo.
    - workspace_id (str): ID del Lakehouse a almacenar como secreto.
    - azure_key_vault_name (str): Nombre del Key Vault de Azure.
    - kv_access_token (str): Token de acceso para autenticaci√≥n contra Key Vault.

    Devuelve:
    - bool: True si el secreto se almacen√≥ correctamente, False en caso contrario.
    """

    secret_name = f"{workspace_name}-workspace-id".replace("_", "-").lower()
    secret_value = workspace_id

    secret_url = f"https://{azure_key_vault_name}.vault.azure.net/secrets/{secret_name}?api-version=7.3"

    headers = {
        "Authorization": f"Bearer {kv_access_token}",
        "Content-Type": "application/json"
    }

    data = {"value": secret_value}

    response = requests.put(secret_url, headers=headers, json=data)

    if response.status_code in [200, 201]:
        print(f"üîë Secreto '{secret_name}' almacenado correctamente en {azure_key_vault_name}")
        return True
    else:
        print(f"‚ùå Error al almacenar el secreto '{secret_name}':", response.text)
        return False


def store_lakehouse_id_secret(project_name: str, layer: str, lakehouse_id: str, azure_key_vault_name: str, kv_access_token: str):
    """
    Kilian Baccaro | datagym.es

    Almacena el ID de un Lakehouse como un secreto en Azure Key Vault.

    Par√°metros:
    - project_name (str): Nombre del proyecto.
    - layer (str): Capa del Lakehouse (por ejemplo: 'bronze', 'silver', etc.).
    - lakehouse_id (str): ID del Lakehouse a almacenar como secreto.
    - azure_key_vault_name (str): Nombre del Key Vault de Azure.
    - kv_access_token (str): Token de acceso para autenticaci√≥n contra Key Vault.

    Devuelve:
    - bool: True si el secreto se almacen√≥ correctamente, False en caso contrario.
    """

    secret_name = f"{project_name}-{layer}-lh-id".replace("_", "-").lower()
    secret_value = lakehouse_id

    secret_url = f"https://{azure_key_vault_name}.vault.azure.net/secrets/{secret_name}?api-version=7.3"

    headers = {
        "Authorization": f"Bearer {kv_access_token}",
        "Content-Type": "application/json"
    }

    data = {"value": secret_value}

    response = requests.put(secret_url, headers=headers, json=data)

    if response.status_code in [200, 201]:
        print(f"üîë Secreto '{secret_name}' almacenado correctamente en {azure_key_vault_name}")
        return True
    else:
        print(f"‚ùå Error al almacenar el secreto '{secret_name}':", response.text)
        return False


StatementMeta(, 5d838bba-75f7-4d58-9984-610f2c105db1, 29, Finished, Available, Finished)

# Ejecuci√≥n

In [None]:
%%time

# Conexi√≥n a Azure Key Vault
if azureKeyVault:
    print("‚ÑπÔ∏è Script configurado para almacenar los secretos en Azure Key Vault")
    kv_access_token = azurekeyvault_authentication()
    print("")

# Si la variable es True, generamos todo en un √°rea de trabajo
if (medallionInOneWorkspace):
    """
    √ÅREA DE TRABAJO
    
    Se comprueba si existe el √°rea de trabajo. Si existe, obtenemos el workspaceId, sino, creamos el √°rea de trabajo y obtenemos el workspaceId.
    
    """

    print("‚ÑπÔ∏è El script est√° configurado para crear todo en una √°rea de trabajo")
    print("‚ÑπÔ∏è Inicializando la creaci√≥n del √°rea de trabajo...")

    # Buscamos si ya existe el √°rea de trabajo
    workspace = search_workspace(projectName)

    if workspace is not None and not workspace.empty:
        print(f"‚ÑπÔ∏è El workspace {projectName} ya existe. Se crear√°n los objetos sobre esta √°rea de trabajo.")
        print(f"‚ÑπÔ∏è Workspace ID: {workspace.iloc[0]['Id']}")
        print(f"‚ÑπÔ∏è Capacity ID: {workspace.iloc[0]['Capacity Id']}")
        workspace_id = workspace.iloc[0]['Id']
    else:
        print(f"‚ÑπÔ∏è Creando √°rea de trabajo {projectName}...")
        workspace_id = create_workspace(projectName, capacityId, None)
    
    if workspace_id is None:
        notebookutils.session.stop()

    if azureKeyVault and kv_access_token is not None:
        store_workspace_id_secret(projectName, workspace_id, azureKeyVaultName, kv_access_token)

    print("")

    """
    LAKEHOUSE
    
    Se crean tantos lakehouse como capas se hayan definido en la variable 'layers' con la nomenclatura (projectName)_(layer)
    
    """

    print("‚ÑπÔ∏è Inicializando la creaci√≥n de los lakehouses...")
    lakehousesList = list_lakehouses(workspace_id)

    lakehousesExistentes = [
        {"name": item["displayName"], "id": item["id"]}
        for item in lakehousesList
    ]


    for layer in layers:
        lakehouseName = f"{projectName}_{layer}_lh"

        if lakehouseName not in [lh["name"] for lh in lakehousesExistentes]:
            print(f"‚ÑπÔ∏è Creando lakehouse {lakehouseName}...")
            lakehouseId = create_lakehouse(lakehouseName, workspace_id)
            if lakehouseId is not None:
                print(f"‚úÖ Lakehouse creado con √©xito: {lakehouseId}")
                store_lakehouse_id_secret(projectName, layer, lakehouseId, azureKeyVaultName, kv_access_token)
        
        else:
            print(f"‚ÑπÔ∏è El lakehouse {lakehouseName} ya existe.")
            for lakehouse in lakehousesExistentes:
                if lakehouseName == lakehouse['name']:
                    store_lakehouse_id_secret(projectName, layer, lakehouse['id'], azureKeyVaultName, kv_access_token)

        print("")

    print(f"‚úÖ Ejecuci√≥n finalizada.")

# Si la variable es False, generamos cada capa en un √°rea de trabajo distinta
else:
    """
    √ÅREA DE TRABAJO
    
    Se comprueba si existe el √°rea de trabajo. Si existe, obtenemos el workspaceId, sino, creamos el √°rea de trabajo
    y obtenemos el workspaceId.
    
    """

    print("‚ÑπÔ∏è El script est√° configurado para crear un √°rea de trabajo para cada capa")
    print("‚ÑπÔ∏è Inicializando la creaci√≥n del √°rea de trabajo...")

    workspaces_df = fabric.list_workspaces()
    workspacesExistentes = workspaces_df[["Name", "Id"]].to_dict(orient="records")

    for layer in layers:
        workspace_name = f"{projectName}_{layer}"
        workspace = search_workspace(workspace_name)

        if workspace is not None and not workspace.empty:
            print(f"‚ÑπÔ∏è El workspace {workspace_name} ya existe. Se crear√°n los objetos sobre esta √°rea de trabajo.")
            print(f"‚ÑπÔ∏è Workspace ID: {workspace.iloc[0]['Id']}")
            print(f"‚ÑπÔ∏è Capacity ID: {workspace.iloc[0]['Capacity Id']}")
            print("")
            workspace_id = workspace.iloc[0]['Id']
        else:
            print(f"‚ÑπÔ∏è Creando √°rea de trabajo {workspace_name}...")
            workspace_id = create_workspace(workspace_name, capacityId, None)
        
        if workspace_id is None:
            notebookutils.session.stop()
        
        if azureKeyVault and kv_access_token is not None:
            store_workspace_id_secret(workspace_name, workspace_id, azureKeyVaultName, kv_access_token)

        print("")

        """
        LAKEHOUSE
        
        Se crea el lakehouse correspondiente de la capa
        
        """

        print("‚ÑπÔ∏è Inicializando la creaci√≥n de los lakehouses...")
        lakehousesList = list_lakehouses(workspace_id)

        lakehousesExistentes = [
            {"name": item["displayName"], "id": item["id"]}
            for item in lakehousesList
        ]

        lakehouseName = f"{projectName}_{layer}_lh"

        if lakehouseName not in [lh["name"] for lh in lakehousesExistentes]:
            print(f"‚ÑπÔ∏è Creando lakehouse {lakehouseName}...")
            lakehouseId = create_lakehouse(lakehouseName, workspace_id)
            if lakehouseId is not None:
                print(f"‚úÖ Lakehouse creado con √©xito:")
                store_lakehouse_id_secret(workspace_name, layer, lakehouseId, azureKeyVaultName, kv_access_token)
        
        else:
            print(f"‚ÑπÔ∏è El lakehouse {lakehouseName} ya existe.")
            for lakehouse in lakehousesExistentes:
                if lakehouseName == lakehouse['name']:
                    store_lakehouse_id_secret(projectName, layer, lakehouse['id'], azureKeyVaultName, kv_access_token)
        print("")

    print(f"‚úÖ Ejecuci√≥n finalizada.")



StatementMeta(, 5d838bba-75f7-4d58-9984-610f2c105db1, 32, Finished, Available, Finished)

‚ÑπÔ∏è Script configurado para almacenar los secretos en Azure Key Vault
‚úÖ Autenticaci√≥n exitosa para Key Vault

‚ÑπÔ∏è El script est√° configurado para crear un √°rea de trabajo para cada capa
‚ÑπÔ∏è Inicializando la creaci√≥n del √°rea de trabajo...
‚ÑπÔ∏è Creando √°rea de trabajo DataGym_DEV_01_BRONZE...
‚úÖ √Årea de trabajo DataGym_DEV_01_BRONZE creada con √©xito:
‚ÑπÔ∏è Workspace ID: 24ef2ff7-b97d-4402-a34e-f34752dfcf92
üîë Secreto 'datagym-dev-01-bronze-workspace-id' almacenado correctamente en kbsfabrickv

‚ÑπÔ∏è Inicializando la creaci√≥n de los lakehouses...
‚ÑπÔ∏è Creando lakehouse DataGym_DEV_01_BRONZE_lh...
‚úÖ Lakehouse creado con √©xito:
üîë Secreto 'datagym-dev-01-bronze-01-bronze-lh-id' almacenado correctamente en kbsfabrickv

‚úÖ Ejecuci√≥n finalizada.
‚ÑπÔ∏è Creando √°rea de trabajo DataGym_DEV_02_SILVER...
‚úÖ √Årea de trabajo DataGym_DEV_02_SILVER creada con √©xito:
‚ÑπÔ∏è Workspace ID: 35d1d7db-8c80-48e0-8255-a6054ec8a397
üîë Secreto 'datagym-dev-02-silver-wo