<a href="https://colab.research.google.com/github/DavidP0011/apps/blob/main/app_transc_02_whisper_to_spreadsheet.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# INICIALIZACIÓN

In [1]:
# @title dpm_ini_utils.py (GitHub)

import os         # Para operaciones del sistema y manejo de rutas.
import sys        # Para interactuar con el sistema, en particular con sys.path.
import importlib  # Para realizar importaciones dinámicas.
import tempfile   # Para crear archivos temporales.
import requests   # Para realizar peticiones HTTP y descargar el módulo.

# URL raw del módulo en GitHub (debe incluir las funciones ini_load_dpm_libs, ini_environment_identification e ini_google_drive_instalation)
github_url = "https://raw.githubusercontent.com/DavidP0011/utils/main/dpm_ini_utils.py"

# Solicitar la descarga sin utilizar caché, para asegurar que se obtiene la versión actualizada.
headers = {"Cache-Control": "no-cache", "Pragma": "no-cache"}
response = requests.get(github_url, headers=headers)
if response.status_code != 200:
    raise Exception(f"Error al descargar el módulo desde GitHub. Código: {response.status_code}")

# Guardar el contenido descargado en un archivo temporal.
temp_dir = tempfile.gettempdir()
module_path = os.path.join(temp_dir, "dpm_ini_utils.py")
with open(module_path, "wb") as f:
    f.write(response.content)

# Agregar el directorio temporal a sys.path si aún no está incluido, para permitir la importación.
if temp_dir not in sys.path:
    sys.path.insert(0, temp_dir)

# Invalidar cachés y eliminar versiones previas del módulo para forzar la recarga.
importlib.invalidate_caches()
module_name = "dpm_ini_utils"
if module_name in sys.modules:
    del sys.modules[module_name]

# Importar y recargar el módulo.
module = importlib.import_module(module_name)
module = importlib.reload(module)

# Intentar importar las funciones deseadas desde el módulo.
ini_install_libraries = getattr(module, "ini_install_libraries", None)
ini_load_dpm_libs = getattr(module, "ini_load_dpm_libs", None)
ini_environment_identification = getattr(module, "ini_environment_identification", None)
ini_google_drive_instalation = getattr(module, "ini_google_drive_instalation", None)

# Verificar que las funciones se hayan importado correctamente.
if ini_install_libraries is None:
    print("La función ini_install_libraries no se encontró en el módulo.")
else:
    print("Función ini_install_libraries cargada correctamente.")

if ini_load_dpm_libs is None:
    print("La función ini_load_dpm_libs no se encontró en el módulo.")
else:
    print("Función ini_load_dpm_libs cargada correctamente.")

if ini_environment_identification is None:
    print("La función ini_environment_identification no se encontró en el módulo.")
else:
    print("Función ini_environment_identification cargada correctamente.")

if ini_google_drive_instalation is None:
    print("La función ini_google_drive_instalation no se encontró en el módulo.")
else:
    print("Función ini_google_drive_instalation cargada correctamente.")


Función ini_install_libraries cargada correctamente.
Función ini_load_dpm_libs cargada correctamente.
Función ini_environment_identification cargada correctamente.
Función ini_google_drive_instalation cargada correctamente.


In [2]:
# @title IDENTIFICACION DE ENTORNO, INSTALACIÓN GOOGLE DRIVE

# Detectar el entorno de ejecución
ini_environment_identificated = ini_environment_identification()
print(f"[INFO ℹ️] Entorno detectado: {ini_environment_identificated}", flush=True)

GCP_json_keyfile_local = r"C:/api_keys/XXX.json"
GCP_json_keyfile_colab = "/content/drive/MyDrive/ANIMUM DIRECCION/DIRECCION BI/NOTEBOOKS/api_keys/animum-dev-apps-google-colab.json"
GCP_json_keyfile_GCP_secret_id = "notebook-vm"

# Montar Google Drive si entorno_identificado_str es Colab
params = {"entorno_identificado_str": ini_environment_identificated}
ini_google_drive_instalation(params)

[INFO ℹ️] Entorno detectado: COLAB
Mounted at /content/drive
[INFO ℹ️] Google Drive montado correctamente.


In [3]:
# @title INSTALACION DE LIBRERIAS
from IPython import get_ipython
import os
packages = [
    {
        "name": "whisper",
        "import_name": "whisper",
        "install_cmd": "pip install git+https://github.com/openai/whisper.git" # Instalación desde GitHub:
    },
    # {
    #     "name": "ffmpeg-python",
    #     "import_name": "ffmpeg",
    #     "pip_name": "ffmpeg-python"
    # },
    # {
    #     "name": "FFmpeg",  # Paquete del sistema
    #     "is_system": True,
    #     "check_cmd": "ffmpeg -version",
    #     "install_cmds": [
    #         "apt-get update",
    #         "apt-get install -y ffmpeg",
    #         "ffmpeg -version"
    #     ]
    # },

    {"name": "rapidfuzz", "import_name": "rapidfuzz", "pip_name": "rapidfuzz"},
    {"name": "pycountry", "import_name": "pycountry", "pip_name": "pycountry"},
    {"name": "phonenumbers", "import_name": "phonenumbers", "pip_name": "phonenumbers"},
    {"name": "deep_translator", "import_name": "deep_translator", "pip_name": "deep_translator"},
    {"name": "requests", "import_name": "requests", "pip_name": "requests"},
    {"name": "beautifulsoup4", "import_name": "bs4", "pip_name": "beautifulsoup4"},
    {"name": "googletrans", "import_name": "googletrans", "pip_name": "googletrans", "version": "4.0.0-rc1"},
]

# Ejecuta la función para cada paquete
for pkg in packages:
    ini_install_libraries(pkg)



[START ▶️] Verificando instalación de whisper...
[INSTALLATION [INFO ℹ️]] whisper no está instalado. Procediendo con la instalación...
[INSTALLATION [COMMAND ▶️]] Ejecutando comando personalizado: pip install git+https://github.com/openai/whisper.git
[END [FINISHED ✅]] Proceso de instalación finalizado para whisper.


[START ▶️] Verificando instalación de rapidfuzz...
[INSTALLATION [INFO ℹ️]] rapidfuzz no está instalado. Procediendo con la instalación...
[INSTALLATION [COMMAND ▶️]] Ejecutando: pip install --upgrade rapidfuzz
[END [FINISHED ✅]] Proceso de instalación finalizado para rapidfuzz.


[START ▶️] Verificando instalación de pycountry...
[INSTALLATION [INFO ℹ️]] pycountry no está instalado. Procediendo con la instalación...
[INSTALLATION [COMMAND ▶️]] Ejecutando: pip install --upgrade pycountry
[END [FINISHED ✅]] Proceso de instalación finalizado para pycountry.


[START ▶️] Verificando instalación de phonenumbers...
[INSTALLATION [INFO ℹ️]] phonenumbers no está instalado. Proc

In [10]:
# @title IMPORTACIÓN DE LIBRERÍAS DPM
import sys
import os
import importlib
import datetime
import inspect
import pandas as pd



# Configuración para importar librerías personalizadas
config = [
    {
        "module_host": "github",
        # Se utiliza la URL raw para obtener el contenido real del archivo
        "module_path": "https://raw.githubusercontent.com/DavidP0011/utils/main/dpm_tables.py",
        "selected_functions_list": []
    },
    {
        "module_host": "github",
        # Se utiliza la URL raw para obtener el contenido real del archivo
        "module_path": "https://raw.githubusercontent.com/DavidP0011/utils/main/dpm_GCP_utils.py",
        "selected_functions_list": []
    },
    {
        "module_host": "github",
        "module_path": "https://raw.githubusercontent.com/DavidP0011/utils/main/dpm_apps_utils.py",
        "selected_functions_list": []
    }
]

# Cargar las librerías personalizadas
ini_load_dpm_libs(config)



🔹🔹🔹 [START ▶️] Iniciando carga de módulo dpm_tables.py 🔹🔹🔹

[EXTRACTION [START ▶️]] Descargando módulo desde GitHub: https://raw.githubusercontent.com/DavidP0011/utils/main/dpm_tables.py
[EXTRACTION [SUCCESS ✅]] Archivo descargado y guardado en: /tmp/dpm_tables_1.py
[LOAD [START ▶️]] Importando módulo: dpm_tables_1
[LOAD [SUCCESS ✅]] Módulo 'dpm_tables_1' importado correctamente.

[METRICS [INFO 📊]] Informe de carga del módulo:
  - Módulo: dpm_tables_1
  - Ruta: /tmp/dpm_tables_1.py
  - Fecha de última modificación (último commit en GitHub o mod. local): 2025-03-11 17:42:43+01:00
  - Objetos importados:
      • fields_name_format (function): Formatea nombres de campos de datos según configuraciones específicas.
      • table_DF_to_various_targets (function): Escribe un DataFrame en distintos destinos (archivo local, Google Sheets, BigQuery o GCS)
      • table_various_sources_to_DF (function): Extrae datos desde distintos orígenes (archivo, Google Sheets, BigQuery o GCS) y los convier

## GBQ DATASETS SCHEMA

In [5]:
# @title GBQ INFO GLOBAL


# Configuración
params_dic = {
    "spreadsheet_source_table_id": "1aJCGTJtDu_ODqBc4zUcrpQ-q6PE_HN0rO4mwYMIhCXw",
    "spreadsheet_source_table_worksheet_name": "DATA",

    "ini_environment_identificated": ini_environment_identificated,
    "json_keyfile_GCP_secret_id": GCP_json_keyfile_GCP_secret_id,
    "json_keyfile_colab": GCP_json_keyfile_colab
}



full_info_from_GBQ_df = table_various_sources_to_DF(params_dic)
display(full_info_from_GBQ_df)

[AUTHENTICATION [INFO] 🔐] Entorno local/Colab detectado. Usando json_keyfile_colab.
[EXTRACTION [START ⏳]] Extrayendo datos de Google Sheets...
[EXTRACTION [SUCCESS ✅]] Datos extraídos con éxito de la hoja 'DATA'.


Unnamed: 0,project_id,dataset_id,table_name,field_name,field_type,num_rows,num_columns,size_mb,fecha_actualizacion_GBQ,fecha_actualizacion_df
0,animum-dev-datawarehouse,IMDb_01raw_01,name_basics_raw,nconst,STRING,14235647,6,865.54,10/03/2025 19:43:37,11/03/2025 17:00:05
1,animum-dev-datawarehouse,IMDb_01raw_01,name_basics_raw,primaryName,STRING,14235647,6,865.54,10/03/2025 19:43:37,11/03/2025 17:00:05
2,animum-dev-datawarehouse,IMDb_01raw_01,name_basics_raw,birthYear,INTEGER,14235647,6,865.54,10/03/2025 19:43:37,11/03/2025 17:00:05
3,animum-dev-datawarehouse,IMDb_01raw_01,name_basics_raw,deathYear,STRING,14235647,6,865.54,10/03/2025 19:43:37,11/03/2025 17:00:05
4,animum-dev-datawarehouse,IMDb_01raw_01,name_basics_raw,primaryProfession,STRING,14235647,6,865.54,10/03/2025 19:43:37,11/03/2025 17:00:05
...,...,...,...,...,...,...,...,...,...,...
9688,animum-dev-datawarehouse,vl_01raw_01,MA_PROVINCIAS,Hora_creacion,DATETIME,1033,10,0.06,10/03/2025 5:22:56,11/03/2025 17:00:05
9689,animum-dev-datawarehouse,vl_01raw_01,MA_PROVINCIAS,Usuario_creacion,STRING,1033,10,0.06,10/03/2025 5:22:56,11/03/2025 17:00:05
9690,animum-dev-datawarehouse,vl_01raw_01,MA_PROVINCIAS,Fecha_modificacion,DATETIME,1033,10,0.06,10/03/2025 5:22:56,11/03/2025 17:00:05
9691,animum-dev-datawarehouse,vl_01raw_01,MA_PROVINCIAS,Hora_modificacion,DATETIME,1033,10,0.06,10/03/2025 5:22:56,11/03/2025 17:00:05


In [6]:
# @title GBQ DATASETS
print("Datasets disponibles:\n")
for dataset in full_info_from_GBQ_df['dataset_id'].unique():
    print(f"{dataset}")

Datasets disponibles:

IMDb_01raw_01
IMDb_02st_01
IMDb_raw_01
IMDb_staging_01
cd2_01raw_01
facebook_ads_raw_v01
facebook_ads_raw_v01_facebook_ads
facebook_ads_raw_v01_facebook_ads_source
fivetran_metadata
fivetran_metadata_fivetran_platform
fivetran_metadata_stg_fivetran_platform
google_ads_raw_01
google_ads_raw_01_google_ads
google_ads_raw_01_google_ads_source
hubspot_raw_v01
hubspot_raw_v01_hubspot
hubspot_raw_v01_stg_hubspot
mkt_02st_01
mkt_03BI_01
tablas_mapeo
tp_02st_01
tp_03bi_01
vl_01raw_01


# EJECUCIONES

In [7]:
def df_to_whisper_transcribe_to_spreadsheet(config: dict) -> None:
    """
    Transcribe archivos de vídeo usando un modelo Whisper y escribe los resultados en una hoja de cálculo de Google Sheets.

    Args:
        config (dict): Diccionario de configuración que debe incluir:
            - source_files_path_table_df (pd.DataFrame): DataFrame con al menos la columna especificada en 'field_name_for_file_path'.
            - target_files_path_table_spreadsheet_url (str): URL de la hoja de cálculo destino.
            - target_files_path_table_spreadsheet_worksheet (str): Nombre de la worksheet destino.
            - field_name_for_file_path (str): Nombre de la columna con la ruta del vídeo.
            - whisper_model_size (str): Tamaño del modelo Whisper (ej. "small", "medium", etc.).
            - whisper_language (str, opcional): Idioma de la transcripción (default: "en").
            - ini_environment_identificated (str): Identificador del entorno ("LOCAL", "COLAB", "COLAB_ENTERPRISE" o un project_id).
            - json_keyfile_local (str): Ruta del archivo JSON de credenciales para entorno LOCAL.
            - json_keyfile_colab (str): Ruta del archivo JSON de credenciales para entorno COLAB.
            - json_keyfile_GCP_secret_id (str): ID del secreto para entornos GCP.

    Returns:
        None

    Raises:
        ValueError: Si falta algún parámetro obligatorio o si el DataFrame fuente está vacío o no contiene la columna requerida.
        Exception: Para otros errores inesperados.
    """
    import os
    import time
    import gspread
    from oauth2client.service_account import ServiceAccountCredentials
    from datetime import datetime
    import whisper
    import torch

    def _trocear_texto(texto: str, max_chars: int = 50000, max_partes: int = 10) -> list:
        """
        Trocea un texto en partes de longitud <= max_chars y retorna una lista de longitud max_partes.
        """
        trozos = [texto[i:i + max_chars] for i in range(0, len(texto), max_chars)]
        trozos = trozos[:max_partes]
        if len(trozos) < max_partes:
            trozos += [""] * (max_partes - len(trozos))
        return trozos

    def _process_transcription() -> None:
        # Validación inicial de parámetros
        required_keys = [
            "source_files_path_table_df",
            "target_files_path_table_spreadsheet_url",
            "target_files_path_table_spreadsheet_worksheet",
            "field_name_for_file_path",
            "whisper_model_size"
        ]
        for key in required_keys:
            if key not in config:
                raise ValueError(f"[VALIDATION [ERROR ❌]] Falta el parámetro obligatorio: '{key}'.")
            # Para el DataFrame se evita evaluar su veracidad de forma ambigua
            if key != "source_files_path_table_df" and not config.get(key):
                raise ValueError(f"[VALIDATION [ERROR ❌]] El parámetro '{key}' está vacío.")

        # Extraer parámetros
        source_df = config["source_files_path_table_df"]
        if source_df is None:
            raise ValueError("[VALIDATION [ERROR ❌]] El DataFrame fuente no puede ser None.")
        if source_df.empty:
            raise ValueError("[VALIDATION [ERROR ❌]] El DataFrame fuente está vacío.")
        field_name = config["field_name_for_file_path"]
        if field_name not in source_df.columns:
            raise ValueError(f"[VALIDATION [ERROR ❌]] La columna '{field_name}' no existe en el DataFrame fuente.")

        target_spreadsheet_url = config["target_files_path_table_spreadsheet_url"]
        target_worksheet_name = config["target_files_path_table_spreadsheet_worksheet"]
        whisper_model_size = config["whisper_model_size"]
        whisper_language = config.get("whisper_language", "en")

        # Configurar credenciales según el entorno
        ini_env = config.get("ini_environment_identificated")
        if ini_env == "LOCAL":
            credentials_path = config.get("json_keyfile_local")
        elif ini_env == "COLAB":
            credentials_path = config.get("json_keyfile_colab")
        else:
            credentials_path = config.get("json_keyfile_GCP_secret_id")
        if not credentials_path:
            raise ValueError("[VALIDATION [ERROR ❌]] Credenciales no definidas para el entorno especificado.")

        # Autenticación con Google Sheets
        print("🔹🔹🔹 [START ▶️] Autenticando con Google Sheets 🔹🔹🔹", flush=True)
        scope = ["https://www.googleapis.com/auth/spreadsheets", "https://www.googleapis.com/auth/drive"]
        creds = ServiceAccountCredentials.from_json_keyfile_name(credentials_path, scope)
        client = gspread.authorize(creds)
        print("[AUTH SUCCESS ✅] Autenticación exitosa.", flush=True)

        # Preparar la hoja destino
        print(f"🔹🔹🔹 [START ▶️] Preparando hoja destino: {target_worksheet_name} 🔹🔹🔹", flush=True)
        spreadsheet_dest = client.open_by_url(target_spreadsheet_url)
        try:
            destination_sheet = spreadsheet_dest.worksheet(target_worksheet_name)
        except gspread.WorksheetNotFound:
            print("[INFO ℹ️] Hoja destino no existe. Creándola...", flush=True)
            destination_sheet = spreadsheet_dest.add_worksheet(title=target_worksheet_name, rows=1000, cols=30)
        destination_sheet.clear()
        dest_header = (
            ["file_path", "transcription_date", "transcription_duration", "whisper_model", "GPU_model"] +
            [f"transcription_part_{i}" for i in range(1, 11)] +
            [f"transcription_seg_part_{i}" for i in range(1, 11)]
        )
        destination_sheet.update("A1", [dest_header])
        print("[SHEET SUCCESS ✅] Hoja destino preparada y encabezados definidos.", flush=True)

        # Cargar modelo Whisper
        print(f"🔹🔹🔹 [START ▶️] Cargando modelo Whisper '{whisper_model_size}' 🔹🔹🔹", flush=True)
        model = whisper.load_model(whisper_model_size)
        gpu_model = torch.cuda.get_device_name(0) if torch.cuda.is_available() else "No"
        print("[MODEL SUCCESS ✅] Modelo Whisper cargado.", flush=True)

        # Convertir DataFrame a lista de diccionarios
        source_data = source_df.to_dict(orient="records")
        total_rows = len(source_data)
        print(f"[DATA INFO ℹ️] DataFrame fuente cargado. Total filas: {total_rows}", flush=True)

        # Procesar cada fila
        for idx, row_data in enumerate(source_data, start=1):
            video_path_value = row_data.get(field_name, "")
            if not video_path_value:
                continue

            print(f"[PROCESSING 🔄] ({idx}/{total_rows}) Transcribiendo: {video_path_value} (idioma='{whisper_language}')", flush=True)
            start_time_proc = time.time()
            try:
                result = model.transcribe(video_path_value, language=whisper_language)
                transcription_full = result.get("text", "")
                transcription_segments_full = "".join(
                    [f"[{seg['start']:.2f}s - {seg['end']:.2f}s]: {seg['text']}\n" for seg in result.get("segments", [])]
                )
            except Exception as e:
                print(f"[ERROR ❌] Error al transcribir {video_path_value}: {e}", flush=True)
                continue

            duration = round(time.time() - start_time_proc, 2)
            transcription_parts = _trocear_texto(transcription_full)
            transcription_seg_parts = _trocear_texto(transcription_segments_full)
            transcription_date = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
            row_to_insert = (
                [video_path_value, transcription_date, duration, whisper_model_size, gpu_model] +
                transcription_parts + transcription_seg_parts
            )

            try:
                destination_sheet.append_row(row_to_insert, value_input_option="USER_ENTERED")
                print(f"[WRITE SUCCESS ✅] Fila {idx} escrita correctamente.", flush=True)
            except Exception as e:
                print(f"[ERROR ❌] Error al escribir la fila {idx}: {e}", flush=True)
                continue

        print("🔹🔹🔹 [FINISHED ✅] Proceso de transcripción completado.", flush=True)

    # Ejecutar el proceso de transcripción con manejo de errores
    try:
        _process_transcription()
        print("Proceso completado con éxito.", flush=True)
    except ValueError as ve:
        print(f"Error en los parámetros: {ve}", flush=True)
    except Exception as e:
        print(f"Error inesperado: {e}", flush=True)


In [8]:
# @title OBTENCION DF CON RUTAS


# Configuración
config = {
    "spreadsheet_source_table_id": "1_WDFCgVu4dtFDgCcW7Yzhx6-gUlQeJiBmIrwzA5agGI",
    "spreadsheet_source_table_worksheet_name": "SOURCE",

    "ini_environment_identificated": ini_environment_identificated,
    "json_keyfile_local": GCP_json_keyfile_local,
    "json_keyfile_colab": GCP_json_keyfile_colab,
    "json_keyfile_GCP_secret_id": GCP_json_keyfile_GCP_secret_id,
}

import os
import pandas as pd

df = table_various_sources_to_DF(config)

display(df)

[AUTHENTICATION [INFO] 🔐] Entorno local/Colab detectado. Usando json_keyfile_colab.
[EXTRACTION [START ⏳]] Extrayendo datos de Google Sheets...
[EXTRACTION [SUCCESS ✅]] Datos extraídos con éxito de la hoja 'SOURCE'.


Unnamed: 0,file_path,Terminado
0,/content/drive/Shareddrives/AREA ACADEMICO/MOC...,/content/drive/Shareddrives/AREA ACADEMICO/MOC...
1,/content/drive/Shareddrives/AREA ACADEMICO/MOC...,/content/drive/Shareddrives/AREA ACADEMICO/MOC...


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   file_path  2 non-null      object
 1   Terminado  2 non-null      object
dtypes: object(2)
memory usage: 164.0+ bytes


In [9]:
# @title TRANSCRIPCIÓN Y SUBIDA A SPREADSHEET

config = {
    "source_files_path_table_df": df,
    "target_files_path_table_spreadsheet_url": "https://docs.google.com/spreadsheets/d/1_WDFCgVu4dtFDgCcW7Yzhx6-gUlQeJiBmIrwzA5agGI",
    "target_files_path_table_spreadsheet_worksheet": "ResponseAPI",
    "field_name_for_file_path": "file_path",

    "whisper_model_size": "large-v2",
    "whisper_language": "es",  # Ejemplo: español

    "ini_environment_identificated": ini_environment_identificated,
    "json_keyfile_local": GCP_json_keyfile_local,
    "json_keyfile_colab": GCP_json_keyfile_colab,
    "json_keyfile_GCP_secret_id": GCP_json_keyfile_GCP_secret_id,
}

# Llamar a la función con manejo de errores (la función ya incorpora try/except internamente)
df_to_whisper_transcribe_to_spreadsheet(config)



🔹🔹🔹 [START ▶️] Autenticando con Google Sheets 🔹🔹🔹
[AUTH SUCCESS ✅] Autenticación exitosa.
🔹🔹🔹 [START ▶️] Preparando hoja destino: ResponseAPI 🔹🔹🔹


  destination_sheet.update("A1", [dest_header])


[SHEET SUCCESS ✅] Hoja destino preparada y encabezados definidos.
🔹🔹🔹 [START ▶️] Cargando modelo Whisper 'large-v2' 🔹🔹🔹


 24%|█████████▏                            | 710M/2.87G [00:20<01:04, 36.1MiB/s]


KeyboardInterrupt: 