<a href="https://colab.research.google.com/github/DavidP0011/apps/blob/main/app_transc_03_clean.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# INICIALIZACIÓN

In [1]:
# @title dpm_ini_utils.py (GitHub)

import os         # Para operaciones del sistema y manejo de rutas.
import sys        # Para interactuar con el sistema, en particular con sys.path.
import importlib  # Para realizar importaciones dinámicas.
import tempfile   # Para crear archivos temporales.
import requests   # Para realizar peticiones HTTP y descargar el módulo.

# URL raw del módulo en GitHub (debe incluir las funciones ini_load_dpm_libs, ini_environment_identification e ini_google_drive_instalation)
github_url = "https://raw.githubusercontent.com/DavidP0011/utils/main/dpm_ini_utils.py"

# Solicitar la descarga sin utilizar caché, para asegurar que se obtiene la versión actualizada.
headers = {"Cache-Control": "no-cache", "Pragma": "no-cache"}
response = requests.get(github_url, headers=headers)
if response.status_code != 200:
    raise Exception(f"Error al descargar el módulo desde GitHub. Código: {response.status_code}")

# Guardar el contenido descargado en un archivo temporal.
temp_dir = tempfile.gettempdir()
module_path = os.path.join(temp_dir, "dpm_ini_utils.py")
with open(module_path, "wb") as f:
    f.write(response.content)

# Agregar el directorio temporal a sys.path si aún no está incluido, para permitir la importación.
if temp_dir not in sys.path:
    sys.path.insert(0, temp_dir)

# Invalidar cachés y eliminar versiones previas del módulo para forzar la recarga.
importlib.invalidate_caches()
module_name = "dpm_ini_utils"
if module_name in sys.modules:
    del sys.modules[module_name]

# Importar y recargar el módulo.
module = importlib.import_module(module_name)
module = importlib.reload(module)

# Intentar importar las funciones deseadas desde el módulo.
ini_install_libraries = getattr(module, "ini_install_libraries", None)
ini_load_dpm_libs = getattr(module, "ini_load_dpm_libs", None)
ini_environment_identification = getattr(module, "ini_environment_identification", None)
ini_google_drive_instalation = getattr(module, "ini_google_drive_instalation", None)

# Verificar que las funciones se hayan importado correctamente.
if ini_install_libraries is None:
    print("La función ini_install_libraries no se encontró en el módulo.")
else:
    print("Función ini_install_libraries cargada correctamente.")

if ini_load_dpm_libs is None:
    print("La función ini_load_dpm_libs no se encontró en el módulo.")
else:
    print("Función ini_load_dpm_libs cargada correctamente.")

if ini_environment_identification is None:
    print("La función ini_environment_identification no se encontró en el módulo.")
else:
    print("Función ini_environment_identification cargada correctamente.")

if ini_google_drive_instalation is None:
    print("La función ini_google_drive_instalation no se encontró en el módulo.")
else:
    print("Función ini_google_drive_instalation cargada correctamente.")


Función ini_install_libraries cargada correctamente.
Función ini_load_dpm_libs cargada correctamente.
Función ini_environment_identification cargada correctamente.
Función ini_google_drive_instalation cargada correctamente.


In [2]:
# @title IDENTIFICACION DE ENTORNO, INSTALACIÓN GOOGLE DRIVE

# Detectar el entorno de ejecución
ini_environment_identificated = ini_environment_identification()
print(f"[INFO ℹ️] Entorno detectado: {ini_environment_identificated}", flush=True)

GCP_json_keyfile_local = r"C:/api_keys/XXX.json"
GCP_json_keyfile_colab = "/content/drive/MyDrive/ANIMUM DIRECCION/DIRECCION BI/NOTEBOOKS/api_keys/animum-dev-apps-google-colab.json"
GCP_json_keyfile_GCP_secret_id = "notebook-vm"

# Montar Google Drive si entorno_identificado_str es Colab
params = {"entorno_identificado_str": ini_environment_identificated}
ini_google_drive_instalation(params)

[INFO ℹ️] Entorno detectado: COLAB
Mounted at /content/drive
[INFO ℹ️] Google Drive montado correctamente.


In [3]:
# @title INSTALACION DE LIBRERIAS
from IPython import get_ipython
import os
packages = [
    {"name": "rapidfuzz", "import_name": "rapidfuzz", "pip_name": "rapidfuzz"},
    {"name": "pycountry", "import_name": "pycountry", "pip_name": "pycountry"},
    {"name": "phonenumbers", "import_name": "phonenumbers", "pip_name": "phonenumbers"},
    {"name": "deep_translator", "import_name": "deep_translator", "pip_name": "deep_translator"},
    {"name": "requests", "import_name": "requests", "pip_name": "requests"},
    {"name": "beautifulsoup4", "import_name": "bs4", "pip_name": "beautifulsoup4"},
    {"name": "googletrans", "import_name": "googletrans", "pip_name": "googletrans", "version": "4.0.0-rc1"},
]

# Ejecuta la función para cada paquete
for pkg in packages:
    ini_install_libraries(pkg)



[START ▶️] Verificando instalación de rapidfuzz...
[INSTALLATION [INFO ℹ️]] rapidfuzz no está instalado. Procediendo con la instalación...
[INSTALLATION [COMMAND ▶️]] Ejecutando: pip install --upgrade rapidfuzz
[END [FINISHED ✅]] Proceso de instalación finalizado para rapidfuzz.


[START ▶️] Verificando instalación de pycountry...
[INSTALLATION [INFO ℹ️]] pycountry no está instalado. Procediendo con la instalación...
[INSTALLATION [COMMAND ▶️]] Ejecutando: pip install --upgrade pycountry
[END [FINISHED ✅]] Proceso de instalación finalizado para pycountry.


[START ▶️] Verificando instalación de phonenumbers...
[INSTALLATION [INFO ℹ️]] phonenumbers no está instalado. Procediendo con la instalación...
[INSTALLATION [COMMAND ▶️]] Ejecutando: pip install --upgrade phonenumbers
[END [FINISHED ✅]] Proceso de instalación finalizado para phonenumbers.


[START ▶️] Verificando instalación de deep_translator...
[INSTALLATION [INFO ℹ️]] deep_translator no está instalado. Procediendo con la insta

In [8]:
# @title IMPORTACIÓN DE LIBRERÍAS DPM
import sys
import os
import importlib
import datetime
import inspect
import pandas as pd



# Configuración para importar librerías personalizadas
config = [
    {
        "module_host": "github",
        # Se utiliza la URL raw para obtener el contenido real del archivo
        "module_path": "https://raw.githubusercontent.com/DavidP0011/utils/main/dpm_tables.py",
        "selected_functions_list": []
    },
    {
        "module_host": "github",
        # Se utiliza la URL raw para obtener el contenido real del archivo
        "module_path": "https://raw.githubusercontent.com/DavidP0011/utils/main/dpm_GCP_utils.py",
        "selected_functions_list": []
    },
    {
        "module_host": "github",
        "module_path": "https://raw.githubusercontent.com/DavidP0011/utils/main/dpm_apps_utils.py",
        "selected_functions_list": []
    }
]

# Cargar las librerías personalizadas
ini_load_dpm_libs(config)



🔹🔹🔹 [START ▶️] Iniciando carga de módulo dpm_tables.py 🔹🔹🔹

[EXTRACTION [START ▶️]] Descargando módulo desde GitHub: https://raw.githubusercontent.com/DavidP0011/utils/main/dpm_tables.py
[EXTRACTION [SUCCESS ✅]] Archivo descargado y guardado en: /tmp/dpm_tables_1.py
[LOAD [START ▶️]] Importando módulo: dpm_tables_1
[LOAD [SUCCESS ✅]] Módulo 'dpm_tables_1' importado correctamente.

[METRICS [INFO 📊]] Informe de carga del módulo:
  - Módulo: dpm_tables_1
  - Ruta: /tmp/dpm_tables_1.py
  - Fecha de última modificación (último commit en GitHub o mod. local): 2025-03-11 17:42:43+01:00
  - Objetos importados:
      • fields_name_format (function): Formatea nombres de campos de datos según configuraciones específicas.
      • table_DF_to_various_targets (function): Escribe un DataFrame en distintos destinos (archivo local, Google Sheets, BigQuery o GCS)
      • table_various_sources_to_DF (function): Extrae datos desde distintos orígenes (archivo, Google Sheets, BigQuery o GCS) y los convier

## GBQ DATASETS SCHEMA

In [5]:
# @title GBQ INFO GLOBAL


# Configuración
params_dic = {
    "spreadsheet_source_table_id": "1aJCGTJtDu_ODqBc4zUcrpQ-q6PE_HN0rO4mwYMIhCXw",
    "spreadsheet_source_table_worksheet_name": "DATA",

    "ini_environment_identificated": ini_environment_identificated,
    "json_keyfile_GCP_secret_id": GCP_json_keyfile_GCP_secret_id,
    "json_keyfile_colab": GCP_json_keyfile_colab
}



full_info_from_GBQ_df = table_various_sources_to_DF(params_dic)
display(full_info_from_GBQ_df)

[AUTHENTICATION [INFO] 🔐] Entorno local/Colab detectado. Usando json_keyfile_colab.
[EXTRACTION [START ⏳]] Extrayendo datos de Google Sheets...
[EXTRACTION [SUCCESS ✅]] Datos extraídos con éxito de la hoja 'DATA'.


Unnamed: 0,project_id,dataset_id,table_name,field_name,field_type,num_rows,num_columns,size_mb,fecha_actualizacion_GBQ,fecha_actualizacion_df
0,animum-dev-datawarehouse,IMDb_01raw_01,name_basics_raw,nconst,STRING,14235647,6,865.54,10/03/2025 19:43:37,11/03/2025 17:00:05
1,animum-dev-datawarehouse,IMDb_01raw_01,name_basics_raw,primaryName,STRING,14235647,6,865.54,10/03/2025 19:43:37,11/03/2025 17:00:05
2,animum-dev-datawarehouse,IMDb_01raw_01,name_basics_raw,birthYear,INTEGER,14235647,6,865.54,10/03/2025 19:43:37,11/03/2025 17:00:05
3,animum-dev-datawarehouse,IMDb_01raw_01,name_basics_raw,deathYear,STRING,14235647,6,865.54,10/03/2025 19:43:37,11/03/2025 17:00:05
4,animum-dev-datawarehouse,IMDb_01raw_01,name_basics_raw,primaryProfession,STRING,14235647,6,865.54,10/03/2025 19:43:37,11/03/2025 17:00:05
...,...,...,...,...,...,...,...,...,...,...
9688,animum-dev-datawarehouse,vl_01raw_01,MA_PROVINCIAS,Hora_creacion,DATETIME,1033,10,0.06,10/03/2025 5:22:56,11/03/2025 17:00:05
9689,animum-dev-datawarehouse,vl_01raw_01,MA_PROVINCIAS,Usuario_creacion,STRING,1033,10,0.06,10/03/2025 5:22:56,11/03/2025 17:00:05
9690,animum-dev-datawarehouse,vl_01raw_01,MA_PROVINCIAS,Fecha_modificacion,DATETIME,1033,10,0.06,10/03/2025 5:22:56,11/03/2025 17:00:05
9691,animum-dev-datawarehouse,vl_01raw_01,MA_PROVINCIAS,Hora_modificacion,DATETIME,1033,10,0.06,10/03/2025 5:22:56,11/03/2025 17:00:05


In [6]:
# @title GBQ DATASETS
print("Datasets disponibles:\n")
for dataset in full_info_from_GBQ_df['dataset_id'].unique():
    print(f"{dataset}")

Datasets disponibles:

IMDb_01raw_01
IMDb_02st_01
IMDb_raw_01
IMDb_staging_01
cd2_01raw_01
facebook_ads_raw_v01
facebook_ads_raw_v01_facebook_ads
facebook_ads_raw_v01_facebook_ads_source
fivetran_metadata
fivetran_metadata_fivetran_platform
fivetran_metadata_stg_fivetran_platform
google_ads_raw_01
google_ads_raw_01_google_ads
google_ads_raw_01_google_ads_source
hubspot_raw_v01
hubspot_raw_v01_hubspot
hubspot_raw_v01_stg_hubspot
mkt_02st_01
mkt_03BI_01
tablas_mapeo
tp_02st_01
tp_03bi_01
vl_01raw_01


# EJECUCIONES

In [26]:
# @title OBTENCION DF CON RUTAS


# Configuración
config = {
    "spreadsheet_source_table_id": "1EEHwPEf6fWckLAEo37HYd7eOoaAp7siiZyDxy5MFaa8",
    "spreadsheet_source_table_worksheet_name": "ANIMACION",

    "ini_environment_identificated": ini_environment_identificated,
    "json_keyfile_local": GCP_json_keyfile_local,
    "json_keyfile_colab": GCP_json_keyfile_colab,
    "json_keyfile_GCP_secret_id": GCP_json_keyfile_GCP_secret_id,
}

df = table_various_sources_to_DF(config)

display(df)


# Unir todas las columnas de 'transcription_part_*' en una única columna
df_sin_parts = df.copy()

transcription_columns = [col for col in df_sin_parts.columns if col.startswith("transcription_part_")]
df_sin_parts["transcription"] = df_sin_parts[transcription_columns].apply(lambda row: " ".join(row.dropna().astype(str)), axis=1)

# Unir todas las columnas de 'transcription_seg_part_*' en una única columna
transcription_seg_columns = [col for col in df_sin_parts.columns if col.startswith("transcription_seg_part_")]
df_sin_parts["transcription_seg"] = df_sin_parts[transcription_seg_columns].apply(lambda row: " ".join(row.dropna().astype(str)), axis=1)

# Eliminar las columnas que contienen "part" en su nombre
columns_to_drop = transcription_columns + transcription_seg_columns
df_sin_parts = df_sin_parts.drop(columns=columns_to_drop)

df_sin_parts.info()
df_sin_parts

[AUTHENTICATION [INFO] 🔐] Entorno local/Colab detectado. Usando json_keyfile_colab.
[EXTRACTION [START ⏳]] Extrayendo datos de Google Sheets...
[EXTRACTION [SUCCESS ✅]] Datos extraídos con éxito de la hoja 'ANIMACION'.


Unnamed: 0,file_path,transcription_date,transcription_duration,whisper_model,GPU_model,transcription_part_1,transcription_part_2,transcription_part_3,transcription_part_4,transcription_part_5,...,transcription_seg_part_1,transcription_seg_part_2,transcription_seg_part_3,transcription_seg_part_4,transcription_seg_part_5,transcription_seg_part_6,transcription_seg_part_7,transcription_seg_part_8,transcription_seg_part_9,transcription_seg_part_10
0,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-02-25 15:02:43,47317,large,NVIDIA GeForce RTX 2080 SUPER,"Hola, ¿qué tal? Soy Roger Jiménez, soy animad...",,,,,...,"[0.00s - 14.66s]: Hola, ¿qué tal? Soy Roger J...",,,,,,,,,
1,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-02-25 15:14:29,7045,large,NVIDIA GeForce RTX 2080 SUPER,"En todas estas imágenes, ya sean de fotos o d...",,,,,...,"[0.00s - 10.22s]: En todas estas imágenes, ya...",,,,,,,,,
2,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-02-25 15:22:53,50293,large,NVIDIA GeForce RTX 2080 SUPER,La animación es observación. No podremos imit...,,,,,...,[0.00s - 10.40s]: La animación es observación...,,,,,,,,,
3,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-02-25 15:26:45,23022,large,NVIDIA GeForce RTX 2080 SUPER,¿Qué es la artisticidad? En los tiempos de la...,,,,,...,[0.00s - 4.00s]: ¿Qué es la artisticidad?\n[4...,,,,,,,,,
4,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-02-25 15:34:20,45395,large,NVIDIA GeForce RTX 2080 SUPER,¿Qué es el proceso de aprendizaje? Durante to...,,,,,...,[0.00s - 2.00s]: ¿Qué es el proceso de aprend...,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
608,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-03-07 6:50:00,75059,large,NVIDIA GeForce RTX 2080 SUPER,¿Cómo funciona el video? ¿Cómo funciona el vi...,,,,,...,[0.00s - 29.98s]: ¿Cómo funciona el video?\n[...,,,,,,,,,
609,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-03-07 7:24:23,205978,large,NVIDIA GeForce RTX 2080 SUPER,"Hola de nuevo, ¿qué tal? Bueno, vamos a echar...",,,,,...,"[0.00s - 6.54s]: Hola de nuevo, ¿qué tal?\n[7...",,,,,,,,,
610,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-03-07 7:46:52,134612,large,NVIDIA GeForce RTX 2080 SUPER,"Bueno, vamos a continuar viendo mi progreso p...",,,,,...,"[0.00s - 10.68s]: Bueno, vamos a continuar vi...",,,,,,,,,
611,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-03-07 7:47:21,233,large,NVIDIA GeForce RTX 2080 SUPER,¿Qué es lo que más te gusta de la lección? ¿Q...,,,,,...,[0.00s - 29.98s]: ¿Qué es lo que más te gusta...,,,,,,,,,


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 613 entries, 0 to 612
Data columns (total 7 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   file_path               613 non-null    object
 1   transcription_date      613 non-null    object
 2   transcription_duration  613 non-null    object
 3   whisper_model           613 non-null    object
 4   GPU_model               613 non-null    object
 5   transcription           613 non-null    object
 6   transcription_seg       613 non-null    object
dtypes: object(7)
memory usage: 33.7+ KB


Unnamed: 0,file_path,transcription_date,transcription_duration,whisper_model,GPU_model,transcription,transcription_seg
0,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-02-25 15:02:43,47317,large,NVIDIA GeForce RTX 2080 SUPER,"Hola, ¿qué tal? Soy Roger Jiménez, soy animad...","[0.00s - 14.66s]: Hola, ¿qué tal? Soy Roger J..."
1,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-02-25 15:14:29,7045,large,NVIDIA GeForce RTX 2080 SUPER,"En todas estas imágenes, ya sean de fotos o d...","[0.00s - 10.22s]: En todas estas imágenes, ya..."
2,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-02-25 15:22:53,50293,large,NVIDIA GeForce RTX 2080 SUPER,La animación es observación. No podremos imit...,[0.00s - 10.40s]: La animación es observación...
3,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-02-25 15:26:45,23022,large,NVIDIA GeForce RTX 2080 SUPER,¿Qué es la artisticidad? En los tiempos de la...,[0.00s - 4.00s]: ¿Qué es la artisticidad?\n[4...
4,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-02-25 15:34:20,45395,large,NVIDIA GeForce RTX 2080 SUPER,¿Qué es el proceso de aprendizaje? Durante to...,[0.00s - 2.00s]: ¿Qué es el proceso de aprend...
...,...,...,...,...,...,...,...
608,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-03-07 6:50:00,75059,large,NVIDIA GeForce RTX 2080 SUPER,¿Cómo funciona el video? ¿Cómo funciona el vi...,[0.00s - 29.98s]: ¿Cómo funciona el video?\n[...
609,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-03-07 7:24:23,205978,large,NVIDIA GeForce RTX 2080 SUPER,"Hola de nuevo, ¿qué tal? Bueno, vamos a echar...","[0.00s - 6.54s]: Hola de nuevo, ¿qué tal?\n[7..."
610,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-03-07 7:46:52,134612,large,NVIDIA GeForce RTX 2080 SUPER,"Bueno, vamos a continuar viendo mi progreso p...","[0.00s - 10.68s]: Bueno, vamos a continuar vi..."
611,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-03-07 7:47:21,233,large,NVIDIA GeForce RTX 2080 SUPER,¿Qué es lo que más te gusta de la lección? ¿Q...,[0.00s - 29.98s]: ¿Qué es lo que más te gusta...


In [28]:
def LLM_process_text(params: dict) -> "pd.DataFrame":
    """
    Procesa filas de un DataFrame (source_table_df) utilizando un modelo LLM según el prompt proporcionado.

    El comportamiento de la función es de propósito general y dependerá del prompt descargado desde GitHub.
    Cada fila del DataFrame debe incluir, al menos, una columna que contenga el contenido a procesar.
    El nombre de dicha columna se especifica en "source_table_field_name".

    La memoria conversacional se configura mediante ConversationBufferWindowMemory para mantener solo
    las últimas N interacciones. Ejemplo de configuración:
        {
            "return_messages": False,   # Si se retornarán los mensajes completos o solo el texto concatenado.
            "human_prefix": "Usuario",   # Prefijo para los mensajes del usuario.
            "ai_prefix": "Asistente",     # Prefijo para los mensajes del asistente.
            "memory_key": "history",      # Clave para almacenar el historial de la conversación.
            "k": 5                      # Número de interacciones recientes a conservar.
        }

    La autenticación se realiza dinámicamente según el entorno de ejecución utilizando:
        - ini_environment_identificated: ("LOCAL", "COLAB", "COLAB_ENTERPRISE" o un project_id).
        - json_keyfile_local: Credencial para entornos LOCAL.
        - json_keyfile_colab: Credencial para entornos COLAB.
        - json_keyfile_GCP_secret_id: Credencial para entornos GCP.

    Args:
        params (dict):
            - source_table_df (pandas.DataFrame): DataFrame con los datos de entrada.
            - source_table_field_name (str): Nombre de la columna que contiene el texto a procesar.
            - system_prompt (str): URL del Markdown en GitHub con el prompt.
            - LLM_API_key (str): Clave de API del LLM obtenida a través de GCP Secret Manager.
            - model_name (str, opcional): Nombre del modelo a utilizar (default: "gpt-4").
            - source_table_row_range (str, opcional): Rango de filas a procesar (ej: "all", "1", "1-10"; default: "all").
            - temperature (float, opcional): Valor de temperatura para el modelo LLM (default: 0.7).
            - ConversationBufferMemory_params (dict, opcional): Parámetros para configurar la memoria conversacional.
            - ini_environment_identificated (str): Entorno de ejecución ("LOCAL", "COLAB", "COLAB_ENTERPRISE" o un project_id).
            - json_keyfile_local (str): Credencial para entornos LOCAL.
            - json_keyfile_colab (str): Credencial para entornos COLAB.
            - json_keyfile_GCP_secret_id (str): Credencial para entornos GCP.

    Returns:
        pandas.DataFrame: DataFrame con la columna "summary" que contiene los resultados procesados.

    Raises:
        ValueError: Si faltan parámetros esenciales o el DataFrame es inválido/está vacío, o si no se puede obtener el prompt.
    """
    import time
    import pandas as pd
    import requests
    from langchain.chat_models import ChatOpenAI
    from langchain.prompts import SystemMessagePromptTemplate, HumanMessagePromptTemplate, ChatPromptTemplate
    from langchain.chains import LLMChain
    from langchain.memory import ConversationBufferWindowMemory

    # ---------------------------
    # Autenticación dinámica según el entorno
    # ---------------------------
    ini_environment_identificated = params.get("ini_environment_identificated")
    json_keyfile_local = params.get("json_keyfile_local")
    json_keyfile_colab = params.get("json_keyfile_colab")
    json_keyfile_GCP_secret_id = params.get("json_keyfile_GCP_secret_id")

    if ini_environment_identificated == "LOCAL":
        print("[AUTH INFO ℹ️] Autenticación utilizando json_keyfile_local", flush=True)
        # Implementar carga de credenciales locales aquí.
    elif ini_environment_identificated == "COLAB":
        print("[AUTH INFO ℹ️] Autenticación utilizando json_keyfile_colab", flush=True)
        # Implementar carga de credenciales para Colab aquí.
    elif ini_environment_identificated == "COLAB_ENTERPRISE":
        print("[AUTH INFO ℹ️] Autenticación utilizando json_keyfile_GCP_secret_id", flush=True)
        # Implementar autenticación con Secret Manager para entornos GCP.
    else:
        print("[AUTH WARNING ⚠️] Entorno no reconocido, se procederá sin autenticación específica.", flush=True)

    # ---------------------------
    # Validación de parámetros esenciales
    # ---------------------------
    source_table_df = params.get("source_table_df")
    source_table_field_name = params.get("source_table_field_name")
    system_prompt_url = params.get("system_prompt")
    LLM_API_key = params.get("LLM_API_key")
    model_name = params.get("model_name", "gpt-4")
    source_table_row_range = params.get("source_table_row_range", "all")
    temperature = params.get("temperature", 0.7)
    ConversationBufferMemory_params = params.get("ConversationBufferMemory_params", {})

    if not all([source_table_df is not None, source_table_field_name, system_prompt_url, LLM_API_key]):
        raise ValueError("[VALIDATION [ERROR ❌]] Faltan parámetros esenciales en 'params'.")

    if not isinstance(source_table_df, pd.DataFrame) or source_table_df.empty:
        raise ValueError("[VALIDATION [ERROR ❌]] El DataFrame de entrada está vacío o no es válido.")

    # Descargar el contenido del system_prompt desde GitHub
    response = requests.get(system_prompt_url)
    if response.status_code != 200:
        raise ValueError(f"[VALIDATION [ERROR ❌]] No se pudo obtener el system_prompt desde {system_prompt_url}. Código de estado: {response.status_code}")
    system_prompt_text = response.text

    # Convertir el DataFrame a una lista de registros (diccionarios)
    all_data = source_table_df.to_dict(orient="records")
    if source_table_row_range.lower() == "all":
        data = all_data
    elif "-" in source_table_row_range:
        try:
            start_row, end_row = map(int, source_table_row_range.split("-"))
            data = all_data[start_row - 1:end_row]
        except Exception as e:
            raise ValueError(f"[VALIDATION [ERROR ❌]] Formato de 'source_table_row_range' inválido: {e}")
    else:
        try:
            index = int(source_table_row_range) - 1
            data = [all_data[index]]
        except Exception as e:
            raise ValueError(f"[VALIDATION [ERROR ❌]] Formato de 'source_table_row_range' inválido: {e}")

    # ---------------------------
    # Configuración del modelo LLM
    # ---------------------------
    llm = ChatOpenAI(
        api_key=LLM_API_key,
        model_name=model_name,
        temperature=temperature
    )

    # Configuración de los prompts: se utiliza el contenido descargado desde GitHub
    system_message = SystemMessagePromptTemplate.from_template(system_prompt_text)
    human_message = HumanMessagePromptTemplate.from_template(
        "Aquí tienes el contenido (texto completo):\n{content}"
    )
    chat_prompt = ChatPromptTemplate.from_messages([system_message, human_message])

    # Crear la memoria conversacional usando ConversationBufferWindowMemory
    memory = ConversationBufferWindowMemory(**ConversationBufferMemory_params)
    chain = LLMChain(llm=llm, prompt=chat_prompt, memory=memory)

    # ---------------------------
    # Procesamiento de los datos
    # ---------------------------
    results = []
    for idx, row in enumerate(data):
        start_time = time.time()
        content = row.get(source_table_field_name, "")
        print(f"\n[INFO] Procesando registro {idx+1}", flush=True)

        if content and content.strip():
            print(f"[INFO] Longitud del contenido: {len(content)} caracteres", flush=True)
            response = chain.run(content=content)
            result_text = response.strip()

            process_duration = time.time() - start_time
            print(f"[SUCCESS] Resultado generado en {process_duration:.2f} segundos:", flush=True)
            print(f"[RESULT] {result_text}", flush=True)

            results.append({
                "summary": result_text
            })
        else:
            print(f"[WARNING] Contenido vacío en el registro {idx+1}", flush=True)

    output_df = pd.DataFrame(results)
    print("\n[INFO] Resultados procesados exitosamente.", flush=True)
    return output_df


In [None]:
# @title EJECUTAR PROMPT DE LIMPIEZA

config = {
    "source_files_path_table_df": df,
    "target_files_path_table_spreadsheet_url": "https://docs.google.com/spreadsheets/d/1_WDFCgVu4dtFDgCcW7Yzhx6-gUlQeJiBmIrwzA5agGI",
    "target_files_path_table_spreadsheet_worksheet": "ResponseAPI",
    "field_name_for_file_path": "file_path",

    "whisper_model_size": "large-v2",
    "whisper_language": "es",  # Ejemplo: español

    "ini_environment_identificated": ini_environment_identificated,
    "json_keyfile_local": GCP_json_keyfile_local,
    "json_keyfile_colab": GCP_json_keyfile_colab,
    "json_keyfile_GCP_secret_id": GCP_json_keyfile_GCP_secret_id,
}

# Llamar a la función con manejo de errores (la función ya incorpora try/except internamente)
# df_to_whisper_transcribe_to_spreadsheet(config)



In [None]:
import pandas as pd


# Configuración para la memoria del LLM (mantener sólo las últimas N interacciones)


# Otros parámetros
# El system_prompt debe ser la URL del Markdown en GitHub
system_prompt =
model_name = ""  # Opciones: "gpt-4", "gpt-4-turbo", etc.
temperature = 0.7
source_table_row_range =

# Crear un DataFrame de ejemplo con el contenido a procesar
data = {
    "transcription": [
        "Este es el contenido del documento 1. Se discuten varios puntos importantes.",
        "Documento 2 contiene información relevante y acuerdos importantes."
    ]
}
source_table_df = pd.DataFrame(data)

# Indicar el nombre del campo que contiene el contenido a procesar
source_table_field_name = "transcription"

ConversationBufferMemory_params = {
    "return_messages": False,   # Retorna solo el texto concatenado
    "human_prefix": "Usuario",
    "ai_prefix": "Asistente",
    "memory_key": "history",
    "k": 5                      # Mantener sólo las últimas 5 interacciones
}

# Preparar el diccionario de parámetros
params = {
    "ini_environment_identificated": ini_environment_identificated,
    "json_keyfile_local": GCP_json_keyfile_local,
    "json_keyfile_colab": GCP_json_keyfile_colab,
    "json_keyfile_GCP_secret_id": GCP_json_keyfile_GCP_secret_id,

    "source_table_df": source_table_df,
    "source_table_field_name": transcription,
    "source_table_row_range": "all"  # Opciones: "all", "1", "1-10", etc.

    "LLM_API_key": OpenAI_API_key,
    "model_name": chatgpt-4o-latest,
    "ConversationBufferMemory_params": ConversationBufferMemory_params,

    "system_prompt": "https://github.com/DavidP0011/mocadi/blob/main/prompt_transcription.md",
    "temperature": 0.7,
}

# Ejecutar la función y obtener el DataFrame con los resultados
result_df = LLM_process_text(params)
print(result_df)
