<a href="https://colab.research.google.com/github/DavidP0011/apps/blob/main/GBQ_borrar.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# INICIALIZACIÓN

In [1]:
# @title dpm_ini_utils.py (GitHub)

import os         # Para operaciones del sistema y manejo de rutas.
import sys        # Para interactuar con el sistema, en particular con sys.path.
import importlib  # Para realizar importaciones dinámicas.
import tempfile   # Para crear archivos temporales.
import requests   # Para realizar peticiones HTTP y descargar el módulo.

# URL raw del módulo en GitHub (debe incluir las funciones ini_load_dpm_libs, ini_environment_identification e ini_google_drive_instalation)
github_url = "https://raw.githubusercontent.com/DavidP0011/utils/main/dpm_ini_utils.py"

# Solicitar la descarga sin utilizar caché, para asegurar que se obtiene la versión actualizada.
headers = {"Cache-Control": "no-cache", "Pragma": "no-cache"}
response = requests.get(github_url, headers=headers)
if response.status_code != 200:
    raise Exception(f"Error al descargar el módulo desde GitHub. Código: {response.status_code}")

# Guardar el contenido descargado en un archivo temporal.
temp_dir = tempfile.gettempdir()
module_path = os.path.join(temp_dir, "dpm_ini_utils.py")
with open(module_path, "wb") as f:
    f.write(response.content)

# Agregar el directorio temporal a sys.path si aún no está incluido, para permitir la importación.
if temp_dir not in sys.path:
    sys.path.insert(0, temp_dir)

# Invalidar cachés y eliminar versiones previas del módulo para forzar la recarga.
importlib.invalidate_caches()
module_name = "dpm_ini_utils"
if module_name in sys.modules:
    del sys.modules[module_name]

# Importar y recargar el módulo.
module = importlib.import_module(module_name)
module = importlib.reload(module)

# Intentar importar las funciones deseadas desde el módulo.
ini_load_dpm_libs = getattr(module, "ini_load_dpm_libs", None)
ini_environment_identification = getattr(module, "ini_environment_identification", None)
ini_google_drive_instalation = getattr(module, "ini_google_drive_instalation", None)

# Verificar que las funciones se hayan importado correctamente.
if ini_load_dpm_libs is None:
    print("La función ini_load_dpm_libs no se encontró en el módulo.")
else:
    print("Función ini_load_dpm_libs cargada correctamente.")

if ini_environment_identification is None:
    print("La función ini_environment_identification no se encontró en el módulo.")
else:
    print("Función ini_environment_identification cargada correctamente.")

if ini_google_drive_instalation is None:
    print("La función ini_google_drive_instalation no se encontró en el módulo.")
else:
    print("Función ini_google_drive_instalation cargada correctamente.")


Función ini_load_dpm_libs cargada correctamente.
Función ini_environment_identification cargada correctamente.
Función ini_google_drive_instalation cargada correctamente.


In [2]:
# @title IDENTIFICACION DE ENTORNO, INSTALACIÓN GOOGLE DRIVE

# Detectar el entorno de ejecución
ini_environment_identificated = ini_environment_identification()
print(f"[INFO ℹ️] Entorno detectado: {ini_environment_identificated}", flush=True)

# Montar Google Drive si entorno_identificado_str es Colab
params = {"entorno_identificado_str": ini_environment_identificated}
ini_google_drive_instalation(params)

In [3]:
# @title INSTALACIÓN DE LIBRERÍAS

# Actualiza pip para asegurar el uso de la última versión del instalador
%pip install --upgrade pip

# Instala todas las librerías necesarias en una sola línea para minimizar conflictos de dependencias
%pip install --upgrade rapidfuzz pycountry phonenumbers googletrans==4.0.0-rc1 deep_translator requests beautifulsoup4

[INFO ℹ️] Entorno detectado: COLAB
Mounted at /content/drive
[INFO ℹ️] Google Drive montado correctamente.
Collecting pip
  Downloading pip-25.0.1-py3-none-any.whl.metadata (3.7 kB)
Downloading pip-25.0.1-py3-none-any.whl (1.8 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.8/1.8 MB[0m [31m18.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pip
  Attempting uninstall: pip
    Found existing installation: pip 24.1.2
    Uninstalling pip-24.1.2:
      Successfully uninstalled pip-24.1.2
Successfully installed pip-25.0.1
Collecting rapidfuzz
  Downloading rapidfuzz-3.12.2-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting pycountry
  Downloading pycountry-24.6.1-py3-none-any.whl.metadata (12 kB)
Collecting phonenumbers
  Downloading phonenumbers-9.0.0-py2.py3-none-any.whl.metadata (11 kB)
Collecting googletrans==4.0.0-rc1
  Downloading googletrans-4.0.0rc1.tar.gz (20 kB)
  Preparing metadata (setup.py) ... [?25

In [4]:
# @title IMPORTACIÓN DE LIBRERÍAS DPM
import sys
import os
import importlib
import datetime
import inspect
import pandas as pd

GCP_json_keyfile_colab = "/content/drive/MyDrive/ANIMUM DIRECCION/DIRECCION BI/NOTEBOOKS/api_keys/animum-dev-datawarehouse-google-colab.json"
GCP_json_keyfile_GCP_secret_id = "notebook-vm"

# Configuración para importar librerías personalizadas
config = [
    {
        "module_host": "github",
        # Se utiliza la URL raw para obtener el contenido real del archivo
        "module_path": "https://raw.githubusercontent.com/DavidP0011/utils/main/dpm_tables.py",
        "selected_functions_list": []
    },
    {
        "module_host": "github",
        # Se utiliza la URL raw para obtener el contenido real del archivo
        "module_path": "https://raw.githubusercontent.com/DavidP0011/utils/main/dpm_GCP_utils.py",
        "selected_functions_list": []
    },
    {
        "module_host": "github",
        "module_path": "https://raw.githubusercontent.com/DavidP0011/utils/main/dpm_SQL.py",
        "selected_functions_list": []
    }
]

# Cargar las librerías personalizadas
ini_load_dpm_libs(config)



🔹🔹🔹 [START ▶️] Iniciando carga de módulo dpm_tables.py 🔹🔹🔹

[EXTRACTION [START ▶️]] Descargando módulo desde GitHub: https://raw.githubusercontent.com/DavidP0011/utils/main/dpm_tables.py
[EXTRACTION [SUCCESS ✅]] Archivo descargado y guardado en: /tmp/dpm_tables.py
[LOAD [START ▶️]] Importando módulo: dpm_tables
[LOAD [SUCCESS ✅]] Módulo 'dpm_tables' importado correctamente.

[METRICS [INFO 📊]] Informe de carga del módulo:
  - Módulo: dpm_tables
  - Ruta: /tmp/dpm_tables.py
  - Fecha de última modificación (último commit en GitHub o mod. local): 2025-03-11 17:42:43+01:00
  - Objetos importados:
      • fields_name_format (function): Formatea nombres de campos de datos según configuraciones específicas.
      • table_DF_to_various_targets (function): Escribe un DataFrame en distintos destinos (archivo local, Google Sheets, BigQuery o GCS)
      • table_various_sources_to_DF (function): Extrae datos desde distintos orígenes (archivo, Google Sheets, BigQuery o GCS) y los convierte en un D

## GBQ DATASETS SCHEMA

In [5]:
# @title GBQ INFO GLOBAL


# Configuración
params_dic = {
    "spreadsheet_source_table_id": "1aJCGTJtDu_ODqBc4zUcrpQ-q6PE_HN0rO4mwYMIhCXw",
    "spreadsheet_source_table_worksheet_name": "DATA",

    "ini_environment_identificated": ini_environment_identificated,
    "json_keyfile_GCP_secret_id": GCP_json_keyfile_GCP_secret_id,
    "json_keyfile_colab": GCP_json_keyfile_colab
}



full_info_from_GBQ_df = table_various_sources_to_DF(params_dic)
display(full_info_from_GBQ_df)

[AUTHENTICATION [INFO] 🔐] Entorno local/Colab detectado. Usando json_keyfile_colab.
[EXTRACTION [START ⏳]] Extrayendo datos de Google Sheets...
[EXTRACTION [SUCCESS ✅]] Datos extraídos con éxito de la hoja 'DATA'.


Unnamed: 0,project_id,dataset_id,table_name,field_name,field_type,num_rows,num_columns,size_mb,fecha_actualizacion_GBQ,fecha_actualizacion_df
0,animum-dev-datawarehouse,IMDb_01raw_01,name_basics_raw,nconst,STRING,14235647,6,865.54,10/03/2025 19:43:37,11/03/2025 17:00:05
1,animum-dev-datawarehouse,IMDb_01raw_01,name_basics_raw,primaryName,STRING,14235647,6,865.54,10/03/2025 19:43:37,11/03/2025 17:00:05
2,animum-dev-datawarehouse,IMDb_01raw_01,name_basics_raw,birthYear,INTEGER,14235647,6,865.54,10/03/2025 19:43:37,11/03/2025 17:00:05
3,animum-dev-datawarehouse,IMDb_01raw_01,name_basics_raw,deathYear,STRING,14235647,6,865.54,10/03/2025 19:43:37,11/03/2025 17:00:05
4,animum-dev-datawarehouse,IMDb_01raw_01,name_basics_raw,primaryProfession,STRING,14235647,6,865.54,10/03/2025 19:43:37,11/03/2025 17:00:05
...,...,...,...,...,...,...,...,...,...,...
9688,animum-dev-datawarehouse,vl_01raw_01,MA_PROVINCIAS,Hora_creacion,DATETIME,1033,10,0.06,10/03/2025 5:22:56,11/03/2025 17:00:05
9689,animum-dev-datawarehouse,vl_01raw_01,MA_PROVINCIAS,Usuario_creacion,STRING,1033,10,0.06,10/03/2025 5:22:56,11/03/2025 17:00:05
9690,animum-dev-datawarehouse,vl_01raw_01,MA_PROVINCIAS,Fecha_modificacion,DATETIME,1033,10,0.06,10/03/2025 5:22:56,11/03/2025 17:00:05
9691,animum-dev-datawarehouse,vl_01raw_01,MA_PROVINCIAS,Hora_modificacion,DATETIME,1033,10,0.06,10/03/2025 5:22:56,11/03/2025 17:00:05


In [6]:
# @title GBQ DATASETS
print("Datasets disponibles:\n")
for dataset in full_info_from_GBQ_df['dataset_id'].unique():
    print(f"{dataset}")

Datasets disponibles:

IMDb_01raw_01
IMDb_02st_01
IMDb_raw_01
IMDb_staging_01
cd2_01raw_01
facebook_ads_raw_v01
facebook_ads_raw_v01_facebook_ads
facebook_ads_raw_v01_facebook_ads_source
fivetran_metadata
fivetran_metadata_fivetran_platform
fivetran_metadata_stg_fivetran_platform
google_ads_raw_01
google_ads_raw_01_google_ads
google_ads_raw_01_google_ads_source
hubspot_raw_v01
hubspot_raw_v01_hubspot
hubspot_raw_v01_stg_hubspot
mkt_02st_01
mkt_03BI_01
tablas_mapeo
tp_02st_01
tp_03bi_01
vl_01raw_01


# PRODUCCION

In [None]:
# @title LISTADO DATASETS

df = full_info_from_GBQ_df['dataset_id'].unique()

if len(df) > 0:
    print("Datasets únicos en el esquema GBQ:")
    for dataset in df:
        print("'{}',".format(dataset))
else:
    print("El DataFrame no contiene ningún dataset.")


In [None]:
def GBQ_delete_tables(config: dict) -> None:
    """
    Elimina todas las tablas de uno o varios datasets específicos en BigQuery.

    Args:
        config (dict):
            - project_id (str): ID del proyecto de Google Cloud.
            - dataset_ids (list): Lista de IDs de los datasets de BigQuery.
            - location (str, opcional): Ubicación del dataset (default: "EU").
            - ini_environment_identificated (str, opcional): Modo de autenticación.
                  Opciones: "LOCAL", "COLAB", "COLAB_ENTERPRISE" o un project_id.
            - json_keyfile_local (str, opcional): Ruta al archivo JSON de credenciales para entorno LOCAL.
            - json_keyfile_colab (str, opcional): Ruta al archivo JSON de credenciales para entorno COLAB.
            - json_keyfile_GCP_secret_id (str, opcional): Identificador del secreto en Secret Manager para entornos GCP.

    Returns:
        None: Imprime el progreso y confirma la eliminación exitosa.

    Raises:
        ValueError: Si faltan parámetros obligatorios o de autenticación.
        Exception: Si ocurre un error durante el proceso.
    """
    # ────────────────────────────── VALIDACIÓN DE PARÁMETROS ──────────────────────────────
    project_id_str = config.get('project_id')
    dataset_ids_list = config.get('dataset_ids')
    location_str = config.get('location', 'EU')

    if not project_id_str or not dataset_ids_list:
        raise ValueError("[VALIDATION [ERROR ❌]] Los parámetros 'project_id' y 'dataset_ids' son obligatorios.")

    print("\n[START ▶️] Iniciando proceso de eliminación de tablas en BigQuery...", flush=True)

    try:
        # ────────────────────────────── IMPORTACIÓN DE LIBRERÍAS ──────────────────────────────
        from google.cloud import bigquery

        # ────────────────────────────── AUTENTICACIÓN DINÁMICA ──────────────────────────────
        print("[AUTHENTICATION [INFO ℹ️]] Inicializando cliente de BigQuery...", flush=True)
        ini_env_str = config.get("ini_environment_identificated", "").upper()

        if ini_env_str == "LOCAL":
            json_keyfile_local_str = config.get("json_keyfile_local")
            if not json_keyfile_local_str:
                raise ValueError("[VALIDATION [ERROR ❌]] Falta 'json_keyfile_local' para autenticación LOCAL.")
            client = bigquery.Client.from_service_account_json(json_keyfile_local_str, location=location_str)

        elif ini_env_str == "COLAB":
            json_keyfile_colab_str = config.get("json_keyfile_colab")
            if not json_keyfile_colab_str:
                raise ValueError("[VALIDATION [ERROR ❌]] Falta 'json_keyfile_colab' para autenticación COLAB.")
            client = bigquery.Client.from_service_account_json(json_keyfile_colab_str, location=location_str)

        elif ini_env_str == "COLAB_ENTERPRISE" or (ini_env_str not in ["LOCAL", "COLAB"] and ini_env_str):
            json_keyfile_GCP_secret_id_str = config.get("json_keyfile_GCP_secret_id")
            if not json_keyfile_GCP_secret_id_str:
                raise ValueError("[VALIDATION [ERROR ❌]] Falta 'json_keyfile_GCP_secret_id' para autenticación GCP.")
            if ini_env_str == "COLAB_ENTERPRISE":
                import os
                project_id_str = os.environ.get("GOOGLE_CLOUD_PROJECT", project_id_str)
            client = bigquery.Client(project=project_id_str, location=location_str)
        else:
            client = bigquery.Client(location=location_str)

        print("[AUTHENTICATION [SUCCESS ✅]] Cliente de BigQuery inicializado correctamente.", flush=True)

        # ────────────────────────────── PROCESAMIENTO DE DATASETS ──────────────────────────────
        for dataset_id_str in dataset_ids_list:
            print(f"\n[EXTRACTION [START ▶️]] Procesando dataset: {dataset_id_str}", flush=True)

            # Referencia al dataset
            dataset_ref = client.dataset(dataset_id_str, project=project_id_str)

            # Listar todas las tablas en el dataset
            tables = client.list_tables(dataset_ref)
            table_list = list(tables)

            if not table_list:
                print(f"[EXTRACTION [INFO ℹ️]] No se encontraron tablas en el dataset '{dataset_id_str}'.", flush=True)
            else:
                # ────────── ELIMINACIÓN DE TABLAS ──────────
                for table in table_list:
                    table_id_str = f"{project_id_str}.{dataset_id_str}.{table.table_id}"
                    print(f"[LOAD [INFO ℹ️]] Eliminando tabla: {table_id_str}", flush=True)
                    client.delete_table(table, not_found_ok=True)
                print(f"[END [FINISHED ✅]] Todas las tablas en el dataset '{dataset_id_str}' han sido eliminadas exitosamente.", flush=True)

        print("\n[END [FINISHED ✅]] Proceso de eliminación completado.", flush=True)

    except Exception as exc:
        print(f"\n[END [FAILED ❌]] Error durante la eliminación de tablas: {exc}", flush=True)
        raise


In [None]:
# @title EJECUCIÓN BORRAR TABLAS

dataset_ids_list = [
'IMDb_raw_01'
]

# Parámetros para la función
config = {
    "project_id": "animum-dev-datawarehouse",
    "dataset_ids": dataset_ids_list,

    "ini_environment_identificated": ini_environment_identificated,
    "json_keyfile_GCP_secret_id": GCP_json_keyfile_GCP_secret_id,
    "json_keyfile_colab": GCP_json_keyfile_colab
}

# Llamada a la función
print(ini_environment_identificated)
GBQ_delete_tables(config)
