<a href="https://colab.research.google.com/github/DavidP0011/apps/blob/main/app_transc_02_whisper_to_spreadsheet.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# INICIALIZACIÓN

In [1]:
# @title dpm_ini_utils.py (GitHub)

import os         # Para operaciones del sistema y manejo de rutas.
import sys        # Para interactuar con el sistema, en particular con sys.path.
import importlib  # Para realizar importaciones dinámicas.
import tempfile   # Para crear archivos temporales.
import requests   # Para realizar peticiones HTTP y descargar el módulo.

# URL raw del módulo en GitHub (debe incluir las funciones ini_load_dpm_libs, ini_environment_identification e ini_google_drive_instalation)
github_url = "https://raw.githubusercontent.com/DavidP0011/utils/main/dpm_ini_utils.py"

# Solicitar la descarga sin utilizar caché, para asegurar que se obtiene la versión actualizada.
headers = {"Cache-Control": "no-cache", "Pragma": "no-cache"}
response = requests.get(github_url, headers=headers)
if response.status_code != 200:
    raise Exception(f"Error al descargar el módulo desde GitHub. Código: {response.status_code}")

# Guardar el contenido descargado en un archivo temporal.
temp_dir = tempfile.gettempdir()
module_path = os.path.join(temp_dir, "dpm_ini_utils.py")
with open(module_path, "wb") as f:
    f.write(response.content)

# Agregar el directorio temporal a sys.path si aún no está incluido, para permitir la importación.
if temp_dir not in sys.path:
    sys.path.insert(0, temp_dir)

# Invalidar cachés y eliminar versiones previas del módulo para forzar la recarga.
importlib.invalidate_caches()
module_name = "dpm_ini_utils"
if module_name in sys.modules:
    del sys.modules[module_name]

# Importar y recargar el módulo.
module = importlib.import_module(module_name)
module = importlib.reload(module)

# Intentar importar las funciones deseadas desde el módulo.
ini_install_libraries = getattr(module, "ini_install_libraries", None)
ini_load_dpm_libs = getattr(module, "ini_load_dpm_libs", None)
ini_environment_identification = getattr(module, "ini_environment_identification", None)
ini_google_drive_instalation = getattr(module, "ini_google_drive_instalation", None)

# Verificar que las funciones se hayan importado correctamente.
if ini_install_libraries is None:
    print("La función ini_install_libraries no se encontró en el módulo.")
else:
    print("Función ini_install_libraries cargada correctamente.")

if ini_load_dpm_libs is None:
    print("La función ini_load_dpm_libs no se encontró en el módulo.")
else:
    print("Función ini_load_dpm_libs cargada correctamente.")

if ini_environment_identification is None:
    print("La función ini_environment_identification no se encontró en el módulo.")
else:
    print("Función ini_environment_identification cargada correctamente.")

if ini_google_drive_instalation is None:
    print("La función ini_google_drive_instalation no se encontró en el módulo.")
else:
    print("Función ini_google_drive_instalation cargada correctamente.")


Función ini_install_libraries cargada correctamente.
Función ini_load_dpm_libs cargada correctamente.
Función ini_environment_identification cargada correctamente.
Función ini_google_drive_instalation cargada correctamente.


In [2]:
# @title IDENTIFICACION DE ENTORNO, INSTALACIÓN GOOGLE DRIVE

# Detectar el entorno de ejecución
ini_environment_identificated = ini_environment_identification()
print(f"[INFO ℹ️] Entorno detectado: {ini_environment_identificated}", flush=True)

GCP_json_keyfile_local = r"C:/api_keys/XXX.json"
GCP_json_keyfile_colab = "/content/drive/MyDrive/ANIMUM DIRECCION/DIRECCION BI/NOTEBOOKS/api_keys/animum-dev-apps-google-colab.json"
GCP_json_keyfile_GCP_secret_id = "notebook-vm"

# Montar Google Drive si entorno_identificado_str es Colab
params = {"entorno_identificado_str": ini_environment_identificated}
ini_google_drive_instalation(params)

[INFO ℹ️] Entorno detectado: COLAB
Mounted at /content/drive
[INFO ℹ️] Google Drive montado correctamente.


In [3]:
# @title INSTALACION DE LIBRERIAS
from IPython import get_ipython
import os
packages = [
    {
        "name": "whisper",
        "import_name": "whisper",
        "install_cmd": "pip install git+https://github.com/openai/whisper.git" # Instalación desde GitHub:
    },
    {
        "name": "ffmpeg-python",
        "import_name": "ffmpeg",
        "pip_name": "ffmpeg-python"
    },
    {
        "name": "FFmpeg",  # Paquete del sistema
        "is_system": True,
        "check_cmd": "ffmpeg -version",
        "install_cmds": [
            "apt-get update",
            "apt-get install -y ffmpeg",
            "ffmpeg -version"
        ]
    },

    {"name": "rapidfuzz", "import_name": "rapidfuzz", "pip_name": "rapidfuzz"},
    {"name": "pycountry", "import_name": "pycountry", "pip_name": "pycountry"},
    {"name": "phonenumbers", "import_name": "phonenumbers", "pip_name": "phonenumbers"},
    {"name": "deep_translator", "import_name": "deep_translator", "pip_name": "deep_translator"},
    {"name": "requests", "import_name": "requests", "pip_name": "requests"},
    {"name": "beautifulsoup4", "import_name": "bs4", "pip_name": "beautifulsoup4"},
    {"name": "googletrans", "import_name": "googletrans", "pip_name": "googletrans", "version": "4.0.0-rc1"},
]

# Ejecuta la función para cada paquete
for pkg in packages:
    ini_install_libraries(pkg)



[START ▶️] Verificando instalación de whisper...
[INSTALLATION [INFO ℹ️]] whisper no está instalado. Procediendo con la instalación...
[INSTALLATION [COMMAND ▶️]] Ejecutando comando personalizado: pip install git+https://github.com/openai/whisper.git
[END [FINISHED ✅]] Proceso de instalación finalizado para whisper.


[START ▶️] Verificando instalación de ffmpeg-python...
[INSTALLATION [INFO ℹ️]] ffmpeg-python no está instalado. Procediendo con la instalación...
[INSTALLATION [COMMAND ▶️]] Ejecutando: pip install --upgrade ffmpeg-python
[END [FINISHED ✅]] Proceso de instalación finalizado para ffmpeg-python.


[START ▶️] Verificando instalación de FFmpeg...
[INSTALLATION [SUCCESS ✅]] FFmpeg ya está instalado.

[START ▶️] Verificando instalación de rapidfuzz...
[INSTALLATION [INFO ℹ️]] rapidfuzz no está instalado. Procediendo con la instalación...
[INSTALLATION [COMMAND ▶️]] Ejecutando: pip install --upgrade rapidfuzz
[END [FINISHED ✅]] Proceso de instalación finalizado para rapidfuzz.

In [4]:
# @title IMPORTACIÓN DE LIBRERÍAS DPM
import sys
import os
import importlib
import datetime
import inspect
import pandas as pd



# Configuración para importar librerías personalizadas
config = [
    {
        "module_host": "github",
        # Se utiliza la URL raw para obtener el contenido real del archivo
        "module_path": "https://raw.githubusercontent.com/DavidP0011/utils/main/dpm_tables.py",
        "selected_functions_list": []
    },
    {
        "module_host": "github",
        # Se utiliza la URL raw para obtener el contenido real del archivo
        "module_path": "https://raw.githubusercontent.com/DavidP0011/utils/main/dpm_GCP_utils.py",
        "selected_functions_list": []
    },
    {
        "module_host": "github",
        "module_path": "https://raw.githubusercontent.com/DavidP0011/utils/main/dpm_SQL.py",
        "selected_functions_list": []
    }
]

# Cargar las librerías personalizadas
ini_load_dpm_libs(config)



🔹🔹🔹 [START ▶️] Iniciando carga de módulo dpm_tables.py 🔹🔹🔹

[EXTRACTION [START ▶️]] Descargando módulo desde GitHub: https://raw.githubusercontent.com/DavidP0011/utils/main/dpm_tables.py
[EXTRACTION [SUCCESS ✅]] Archivo descargado y guardado en: /tmp/dpm_tables.py
[LOAD [START ▶️]] Importando módulo: dpm_tables
[LOAD [SUCCESS ✅]] Módulo 'dpm_tables' importado correctamente.

[METRICS [INFO 📊]] Informe de carga del módulo:
  - Módulo: dpm_tables
  - Ruta: /tmp/dpm_tables.py
  - Fecha de última modificación (último commit en GitHub o mod. local): 2025-03-11 17:42:43+01:00
  - Objetos importados:
      • fields_name_format (function): Formatea nombres de campos de datos según configuraciones específicas.
      • table_DF_to_various_targets (function): Escribe un DataFrame en distintos destinos (archivo local, Google Sheets, BigQuery o GCS)
      • table_various_sources_to_DF (function): Extrae datos desde distintos orígenes (archivo, Google Sheets, BigQuery o GCS) y los convierte en un D

In [5]:
# @title IMPORTACIÓN DE LIBRERÍAS WHISPER Y FFMPEG

# Verificar e instalar el paquete 'whisper'
try:
    import whisper
except ImportError:
    print("El paquete 'whisper' no está instalado. Procediendo con la instalación...")
    !pip install git+https://github.com/openai/whisper.git
    import whisper

# Verificar e instalar el paquete 'ffmpeg-python'
try:
    import ffmpeg
except ImportError:
    print("El paquete 'ffmpeg-python' no está instalado. Procediendo con la instalación...")
    !pip install ffmpeg-python

# Instalar y verificar 'ffmpeg' a nivel del sistema
import os
if os.system("ffmpeg -version") != 0:
    print("FFmpeg no está instalado. Procediendo con la instalación...")
    !apt-get update
    !apt-get install -y ffmpeg
    !ffmpeg -version
else:
    print("FFmpeg ya está instalado.")



FFmpeg ya está instalado.


## GBQ DATASETS SCHEMA

In [6]:
# @title GBQ INFO GLOBAL


# Configuración
params_dic = {
    "spreadsheet_source_table_id": "1aJCGTJtDu_ODqBc4zUcrpQ-q6PE_HN0rO4mwYMIhCXw",
    "spreadsheet_source_table_worksheet_name": "DATA",

    "ini_environment_identificated": ini_environment_identificated,
    "json_keyfile_GCP_secret_id": GCP_json_keyfile_GCP_secret_id,
    "json_keyfile_colab": GCP_json_keyfile_colab
}



full_info_from_GBQ_df = table_various_sources_to_DF(params_dic)
display(full_info_from_GBQ_df)

[AUTHENTICATION [INFO] 🔐] Entorno local/Colab detectado. Usando json_keyfile_colab.
[EXTRACTION [START ⏳]] Extrayendo datos de Google Sheets...
[EXTRACTION [SUCCESS ✅]] Datos extraídos con éxito de la hoja 'DATA'.


Unnamed: 0,project_id,dataset_id,table_name,field_name,field_type,num_rows,num_columns,size_mb,fecha_actualizacion_GBQ,fecha_actualizacion_df
0,animum-dev-datawarehouse,IMDb_01raw_01,name_basics_raw,nconst,STRING,14235647,6,865.54,10/03/2025 19:43:37,11/03/2025 17:00:05
1,animum-dev-datawarehouse,IMDb_01raw_01,name_basics_raw,primaryName,STRING,14235647,6,865.54,10/03/2025 19:43:37,11/03/2025 17:00:05
2,animum-dev-datawarehouse,IMDb_01raw_01,name_basics_raw,birthYear,INTEGER,14235647,6,865.54,10/03/2025 19:43:37,11/03/2025 17:00:05
3,animum-dev-datawarehouse,IMDb_01raw_01,name_basics_raw,deathYear,STRING,14235647,6,865.54,10/03/2025 19:43:37,11/03/2025 17:00:05
4,animum-dev-datawarehouse,IMDb_01raw_01,name_basics_raw,primaryProfession,STRING,14235647,6,865.54,10/03/2025 19:43:37,11/03/2025 17:00:05
...,...,...,...,...,...,...,...,...,...,...
9688,animum-dev-datawarehouse,vl_01raw_01,MA_PROVINCIAS,Hora_creacion,DATETIME,1033,10,0.06,10/03/2025 5:22:56,11/03/2025 17:00:05
9689,animum-dev-datawarehouse,vl_01raw_01,MA_PROVINCIAS,Usuario_creacion,STRING,1033,10,0.06,10/03/2025 5:22:56,11/03/2025 17:00:05
9690,animum-dev-datawarehouse,vl_01raw_01,MA_PROVINCIAS,Fecha_modificacion,DATETIME,1033,10,0.06,10/03/2025 5:22:56,11/03/2025 17:00:05
9691,animum-dev-datawarehouse,vl_01raw_01,MA_PROVINCIAS,Hora_modificacion,DATETIME,1033,10,0.06,10/03/2025 5:22:56,11/03/2025 17:00:05


In [7]:
# @title GBQ DATASETS
print("Datasets disponibles:\n")
for dataset in full_info_from_GBQ_df['dataset_id'].unique():
    print(f"{dataset}")

Datasets disponibles:

IMDb_01raw_01
IMDb_02st_01
IMDb_raw_01
IMDb_staging_01
cd2_01raw_01
facebook_ads_raw_v01
facebook_ads_raw_v01_facebook_ads
facebook_ads_raw_v01_facebook_ads_source
fivetran_metadata
fivetran_metadata_fivetran_platform
fivetran_metadata_stg_fivetran_platform
google_ads_raw_01
google_ads_raw_01_google_ads
google_ads_raw_01_google_ads_source
hubspot_raw_v01
hubspot_raw_v01_hubspot
hubspot_raw_v01_stg_hubspot
mkt_02st_01
mkt_03BI_01
tablas_mapeo
tp_02st_01
tp_03bi_01
vl_01raw_01


# EJECUCIONES

In [11]:
def files_path_collect_df(config: dict) -> "pd.DataFrame":
    """
    Busca archivos de video en una ruta (local o Google Drive), extrae sus propiedades usando ffprobe
    y devuelve un DataFrame con los resultados.

    Args:
        config (dict):
            - video_files_root_path (str): Ruta raíz donde buscar archivos de video. Puede ser una ruta local o una URL de Google Drive.
            - video_files_target_search_folder (list): Lista de subcarpetas de interés dentro de la ruta raíz.
            - video_files_target_search_extension (list): Lista de extensiones de archivo (e.g., [".mp4"]).
            - ini_environment_identificated (str): Entorno de ejecución ("LOCAL", "COLAB", "COLAB_ENTERPRISE" o un project_id).
            - json_keyfile_local (str): Ruta del archivo JSON de credenciales para entorno LOCAL.
            - json_keyfile_colab (str): Ruta del archivo JSON de credenciales para entorno COLAB.
            - json_keyfile_GCP_secret_id (str): Identificador de secreto para entornos GCP.

    Returns:
        pd.DataFrame: DataFrame con la información de los archivos de video encontrados y sus propiedades.

    Raises:
        ValueError: Si falta algún parámetro obligatorio o no se encuentran archivos que cumplan los criterios.
        NotImplementedError: Si se intenta procesar una ruta de Google Drive.
        Exception: Para errores inesperados durante el proceso.
    """
    import os
    import subprocess
    import json
    import pandas as pd
    from datetime import datetime
    from time import time

    try:
        print("\n[PROCESS START ▶️] Iniciando la recolección de archivos.", flush=True)
        start_time = time()

        # ─────────── Validación de Parámetros ───────────
        video_root_path = config.get("video_files_root_path")
        if not video_root_path:
            raise ValueError("[VALIDATION [ERROR ❌]] Falta 'video_files_root_path' en config.")

        video_target_folders = config.get("video_files_target_search_folder", [])
        video_exts = config.get("video_files_target_search_extension", [])
        if not video_exts:
            raise ValueError("[VALIDATION [ERROR ❌]] Falta 'video_files_target_search_extension' o está vacío en config.")

        env_ident = config.get("ini_environment_identificated")
        if not env_ident:
            raise ValueError("[VALIDATION [ERROR ❌]] Falta 'ini_environment_identificated' en config.")

        if env_ident == "LOCAL":
            json_keyfile = config.get("json_keyfile_local")
        elif env_ident == "COLAB":
            json_keyfile = config.get("json_keyfile_colab")
        else:  # Para COLAB_ENTERPRISE o project_id
            json_keyfile = config.get("json_keyfile_GCP_secret_id")
        if not json_keyfile:
            raise ValueError("[VALIDATION [ERROR ❌]] Falta la clave de credenciales correspondiente para el entorno especificado.")

        print("[VALIDATION SUCCESS ✅] Parámetros validados correctamente.", flush=True)

        # ─────────── Gestión de la Ruta (Local o Google Drive) ───────────
        if video_root_path.startswith("https://"):
            print("[FILE SEARCH WARNING ⚠️] Funcionalidad para rutas de Google Drive no implementada.", flush=True)
            raise NotImplementedError("Extracción de archivos desde Google Drive no está implementada.")

        # ─────────── Función Interna: Búsqueda de Archivos ───────────
        def _find_files_in_folders(root_path: str, target_folders: list, file_exts: list) -> pd.DataFrame:
            results = []
            for current_root, dirs, files in os.walk(root_path):
                current_folder = os.path.basename(current_root)
                if target_folders and current_folder not in target_folders:
                    continue
                for file in files:
                    file_name, file_ext = os.path.splitext(file)
                    if file_ext.lower() in [ext.lower() for ext in file_exts]:
                        file_path = os.path.join(current_root, file)
                        results.append({
                            "video_file_path": file_path,
                            "video_file_name": file
                        })
                        print(f"[LOCATED FILE INFO ℹ️] Archivo localizado: {file} (Ruta: {file_path})", flush=True)
            if not results:
                print("[FILE SEARCH WARNING ⚠️] No se encontraron archivos que cumplan con los criterios.", flush=True)
                return pd.DataFrame()
            return pd.DataFrame(results)

        print(f"[FILE SEARCH START ▶️] Buscando archivos en '{video_root_path}' con extensiones: {video_exts}.", flush=True)
        df_paths = _find_files_in_folders(video_root_path, video_target_folders, video_exts)
        if df_paths.empty:
            raise ValueError("[VALIDATION [ERROR ❌]] No se encontraron archivos que cumplan con los criterios especificados.")
        print(f"[FILE SEARCH SUCCESS ✅] Total de archivos encontrados: {len(df_paths)}.", flush=True)

        # ─────────── Extracción de Metadatos ───────────
        total_files = len(df_paths)
        extracted_results = []

        print("[METADATA EXTRACTION START ▶️] Iniciando extracción de metadatos de videos.", flush=True)
        for idx, file_path in enumerate(df_paths['video_file_path'], start=1):
            metadata = {}
            try:
                file_size_mb = os.path.getsize(file_path) // (1024 * 1024)
                result = subprocess.run([
                    'ffprobe', '-v', 'error', '-print_format', 'json',
                    '-show_streams', '-show_format', file_path
                ], stdout=subprocess.PIPE, stderr=subprocess.STDOUT)
                info = json.loads(result.stdout)

                video_codec = audio_codec = None
                video_bitrate_kbps = audio_bitrate_kbps = 0
                video_width = video_height = None
                video_fps = 0
                audio_channels = audio_sample_rate_hz = 0
                duration_hms = "00:00:00"
                duration_ms = 0

                if 'streams' in info:
                    for stream in info['streams']:
                        if stream.get('codec_type') == 'video':
                            video_codec = stream.get('codec_name')
                            video_bitrate_kbps = int(stream.get('bit_rate', 0)) // 1000
                            video_width = stream.get('width')
                            video_height = stream.get('height')
                            if 'r_frame_rate' in stream:
                                try:
                                    num, den = map(int, stream['r_frame_rate'].split('/'))
                                    video_fps = num / den if den != 0 else 0
                                except Exception:
                                    video_fps = 0
                        elif stream.get('codec_type') == 'audio':
                            audio_codec = stream.get('codec_name')
                            audio_bitrate_kbps = int(stream.get('bit_rate', 0)) // 1000
                            audio_channels = stream.get('channels', 0)
                            audio_sample_rate_hz = int(stream.get('sample_rate', 0))
                if 'format' in info:
                    duration = float(info['format'].get('duration', 0))
                    duration_ms = int(duration * 1000)
                    duration_hms = "{:02d}:{:02d}:{:02d}".format(
                        int(duration) // 3600, (int(duration) % 3600) // 60, int(duration) % 60
                    )

                metadata = {
                    "file_name": os.path.basename(file_path),
                    "file_path": file_path,
                    "file_creation_date": datetime.fromtimestamp(os.path.getctime(file_path)).strftime('%Y-%m-%d %H:%M:%S'),
                    "file_last_modified_date": datetime.fromtimestamp(os.path.getmtime(file_path)).strftime('%Y-%m-%d %H:%M:%S'),
                    "file_scrap_date": datetime.now().strftime('%Y-%m-%d %H:%M:%S'),
                    "file_size_mb": file_size_mb,
                    "duration_hms": duration_hms,
                    "duration_ms": duration_ms,
                    "video_codec": video_codec,
                    "video_bitrate_kbps": video_bitrate_kbps,
                    "video_fps": video_fps,
                    "video_resolution": f"{video_width}x{video_height}" if video_width and video_height else "unknown",
                    "audio_codec": audio_codec,
                    "audio_bitrate_kbps": audio_bitrate_kbps,
                    "audio_channels": audio_channels,
                    "audio_sample_rate_hz": audio_sample_rate_hz,
                }
                print(f"[METADATA EXTRACTION INFO ℹ️] Procesado: {metadata['file_name']} | Duración: {metadata['duration_hms']} | Resolución: {metadata['video_resolution']}", flush=True)
            except Exception as e:
                print(f"[METADATA EXTRACTION ERROR ❌] Error al procesar {os.path.basename(file_path)}: {e}", flush=True)
                metadata = {
                    "file_name": os.path.basename(file_path),
                    "file_path": file_path,
                    "file_creation_date": "unknown",
                    "file_last_modified_date": "unknown",
                    "file_scrap_date": datetime.now().strftime('%Y-%m-%d %H:%M:%S'),
                    "file_size_mb": 0,
                    "duration_hms": "00:00:00",
                    "duration_ms": 0,
                    "video_codec": "unknown",
                    "video_bitrate_kbps": 0,
                    "video_fps": 0,
                    "video_resolution": "unknown",
                    "audio_codec": "unknown",
                    "audio_bitrate_kbps": 0,
                    "audio_channels": 0,
                    "audio_sample_rate_hz": 0,
                }
            extracted_results.append(metadata)

            # Mostrar barra de progreso
            progress = (idx / total_files) * 100
            progress_bar = '[' + '=' * int(progress // 5) + ' ' * (20 - int(progress // 5)) + ']'
            print(f"[METADATA EXTRACTION PROGRESS] {progress_bar} {progress:.2f}% completado ({idx}/{total_files})", flush=True)

        print("[METADATA EXTRACTION SUCCESS ✅] Extracción de metadatos completada.", flush=True)

        # ─────────── Generación del DataFrame Final ───────────
        df_paths_properties = pd.DataFrame(extracted_results)[[
            "file_name",
            "file_path",
            "file_creation_date",
            "file_last_modified_date",
            "file_scrap_date",
            "file_size_mb",
            "duration_hms",
            "duration_ms",
            "video_codec",
            "video_bitrate_kbps",
            "video_fps",
            "video_resolution",
            "audio_codec",
            "audio_bitrate_kbps",
            "audio_channels",
            "audio_sample_rate_hz",
        ]]

        # (Opcional) Guardar respaldo local
        backup_csv_path = "video_files_backup.csv"
        df_paths_properties.to_csv(backup_csv_path, index=False)
        print(f"[BACKUP INFO ℹ️] Datos respaldados localmente en: {backup_csv_path}", flush=True)

        total_videos = len(df_paths_properties)
        process_duration = time() - start_time
        print(f"[PROCESS METRICS INFO ℹ️] Total de videos procesados: {total_videos} | Duración: {process_duration:.2f} segundos", flush=True)

        print("[PROCESS END [FINISHED ✅]] Proceso completado exitosamente.", flush=True)
        return df_paths_properties

    except ValueError as ve:
        print(f"[PROCESS END FAILED ❌] Error de validación: {ve}", flush=True)
        return None
    except Exception as e:
        print(f"[PROCESS END FAILED ❌] Error inesperado: {e}", flush=True)
        return None


In [12]:
# @title RECOPILACIÓN DE RUTAS DE VIDEO

# Ejemplo de configuración
config = {
    "video_files_root_path": "/content/drive/Shareddrives/AREA ACADEMICO/MOCADI",
    "video_files_target_search_folder": [],
    "video_files_target_search_extension": [".mp4"],

    "ini_environment_identificated": ini_environment_identificated,
    "json_keyfile_local": GCP_json_keyfile_local,
    "json_keyfile_colab": GCP_json_keyfile_colab,
    "json_keyfile_GCP_secret_id": GCP_json_keyfile_GCP_secret_id,
}

# Ejecución de la función con manejo de errores interno
df_videos = files_path_collect_df(config)
df_videos



# SUBIDA de GBQ SCHEMA A GOOGLE SHEETS
config = {
    "df": df_videos,
    'spreadsheet_target_table_id': 'https://docs.google.com/spreadsheets/d/1v6Xf_BVyMufyYRuwR8jyIzR7M9Qvcdwsz9k0-zDgKPU',
    # Nombre de la pestaña (worksheet) destino
    'spreadsheet_target_table_worksheet_name': 'DATA',

    "ini_environment_identificated": ini_environment_identificated,
    "json_keyfile_local": GCP_json_keyfile_local,
    "json_keyfile_colab": GCP_json_keyfile_colab,
    "json_keyfile_GCP_secret_id": GCP_json_keyfile_GCP_secret_id,
}

table_DF_to_various_targets(config)



[PROCESS START ▶️] Iniciando la recolección de archivos.
[VALIDATION SUCCESS ✅] Parámetros validados correctamente.
[FILE SEARCH START ▶️] Buscando archivos en '/content/drive/Shareddrives/AREA ACADEMICO/MOCADI' con extensiones: ['.mp4'].
[LOCATED FILE INFO ℹ️] Archivo localizado: Bienvenida Animum.mp4 (Ruta: /content/drive/Shareddrives/AREA ACADEMICO/MOCADI/Sesiones en Directo/Bienvenida Animum.mp4)
[LOCATED FILE INFO ℹ️] Archivo localizado: T3 2024 Bienvenida TFP TPP .mp4 (Ruta: /content/drive/Shareddrives/AREA ACADEMICO/MOCADI/Sesiones en Directo/T3 2024 Bienvenida TFP TPP .mp4)
[LOCATED FILE INFO ℹ️] Archivo localizado: T3 2024 Sesión sobre la Industria - TFP.mp4 (Ruta: /content/drive/Shareddrives/AREA ACADEMICO/MOCADI/Sesiones en Directo/T3 2024 Sesión sobre la Industria - TFP.mp4)
[LOCATED FILE INFO ℹ️] Archivo localizado: T4 2024 Sesión sobre la Industria - TFP.mp4 (Ruta: /content/drive/Shareddrives/AREA ACADEMICO/MOCADI/Sesiones en Directo/T4 2024 Sesión sobre la Industria