<a href="https://colab.research.google.com/github/DavidP0011/apps/blob/main/app_transc_03_clean.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# INICIALIZACIÓN

In [1]:
# @title dpm_ini_utils.py (GitHub)

import os         # Para operaciones del sistema y manejo de rutas.
import sys        # Para interactuar con el sistema, en particular con sys.path.
import importlib  # Para realizar importaciones dinámicas.
import tempfile   # Para crear archivos temporales.
import requests   # Para realizar peticiones HTTP y descargar el módulo.

# URL raw del módulo en GitHub (debe incluir las funciones ini_load_dpm_libs, ini_environment_identification e ini_google_drive_instalation)
github_url = "https://raw.githubusercontent.com/DavidP0011/utils/main/dpm_ini_utils.py"

# Solicitar la descarga sin utilizar caché, para asegurar que se obtiene la versión actualizada.
headers = {"Cache-Control": "no-cache", "Pragma": "no-cache"}
response = requests.get(github_url, headers=headers)
if response.status_code != 200:
    raise Exception(f"Error al descargar el módulo desde GitHub. Código: {response.status_code}")

# Guardar el contenido descargado en un archivo temporal.
temp_dir = tempfile.gettempdir()
module_path = os.path.join(temp_dir, "dpm_ini_utils.py")
with open(module_path, "wb") as f:
    f.write(response.content)

# Agregar el directorio temporal a sys.path si aún no está incluido, para permitir la importación.
if temp_dir not in sys.path:
    sys.path.insert(0, temp_dir)

# Invalidar cachés y eliminar versiones previas del módulo para forzar la recarga.
importlib.invalidate_caches()
module_name = "dpm_ini_utils"
if module_name in sys.modules:
    del sys.modules[module_name]

# Importar y recargar el módulo.
module = importlib.import_module(module_name)
module = importlib.reload(module)

# Intentar importar las funciones deseadas desde el módulo.
ini_install_libraries = getattr(module, "ini_install_libraries", None)
ini_load_dpm_libs = getattr(module, "ini_load_dpm_libs", None)
ini_environment_identification = getattr(module, "ini_environment_identification", None)
ini_google_drive_instalation = getattr(module, "ini_google_drive_instalation", None)

# Verificar que las funciones se hayan importado correctamente.
if ini_install_libraries is None:
    print("La función ini_install_libraries no se encontró en el módulo.")
else:
    print("Función ini_install_libraries cargada correctamente.")

if ini_load_dpm_libs is None:
    print("La función ini_load_dpm_libs no se encontró en el módulo.")
else:
    print("Función ini_load_dpm_libs cargada correctamente.")

if ini_environment_identification is None:
    print("La función ini_environment_identification no se encontró en el módulo.")
else:
    print("Función ini_environment_identification cargada correctamente.")

if ini_google_drive_instalation is None:
    print("La función ini_google_drive_instalation no se encontró en el módulo.")
else:
    print("Función ini_google_drive_instalation cargada correctamente.")


Función ini_install_libraries cargada correctamente.
Función ini_load_dpm_libs cargada correctamente.
Función ini_environment_identification cargada correctamente.
Función ini_google_drive_instalation cargada correctamente.


In [2]:
# @title IDENTIFICACION DE ENTORNO, INSTALACIÓN GOOGLE DRIVE

# Detectar el entorno de ejecución
ini_environment_identificated = ini_environment_identification()
print(f"[INFO ℹ️] Entorno detectado: {ini_environment_identificated}", flush=True)

GCP_json_keyfile_local = r"C:/api_keys/XXX.json"
GCP_json_keyfile_colab = "/content/drive/MyDrive/ANIMUM DIRECCION/DIRECCION BI/NOTEBOOKS/api_keys/animum-dev-apps-google-colab.json"
GCP_json_keyfile_GCP_secret_id = "notebook-vm"

# Montar Google Drive si entorno_identificado_str es Colab
params = {"entorno_identificado_str": ini_environment_identificated}
ini_google_drive_instalation(params)

[INFO ℹ️] Entorno detectado: COLAB
Mounted at /content/drive
[INFO ℹ️] Google Drive montado correctamente.


In [3]:
# @title INSTALACION DE LIBRERIAS
from IPython import get_ipython
import os
packages = [
    # {"name": "rapidfuzz", "is_system": False, "import_name": "rapidfuzz", "pip_name": "rapidfuzz", "version": None, "install_cmd": None, "check_cmd": None, "install_cmds": []},
    # {"name": "pycountry", "is_system": False, "import_name": "pycountry", "pip_name": "pycountry", "version": None, "install_cmd": None, "check_cmd": None, "install_cmds": []},
    # {"name": "phonenumbers", "is_system": False, "import_name": "phonenumbers", "pip_name": "phonenumbers", "version": None, "install_cmd": None, "check_cmd": None, "install_cmds": []},
    # {"name": "deep_translator", "is_system": False, "import_name": "deep_translator", "pip_name": "deep_translator", "version": None, "install_cmd": None, "check_cmd": None, "install_cmds": []},
    # {"name": "requests", "is_system": False, "import_name": "requests", "pip_name": "requests", "version": None, "install_cmd": None, "check_cmd": None, "install_cmds": []},
    # {"name": "beautifulsoup4", "is_system": False, "import_name": "bs4", "pip_name": "beautifulsoup4", "version": None, "install_cmd": None, "check_cmd": None, "install_cmds": []},
    # {"name": "googletrans", "is_system": False, "import_name": "googletrans", "pip_name": "googletrans", "version": "4.0.0-rc1", "install_cmd": None, "check_cmd": None, "install_cmds": []},
    {"name": "langchain", "is_system": False, "import_name": "langchain", "pip_name": "langchain", "version": None, "install_cmd": None, "check_cmd": None, "install_cmds": []},
    {"name": "langchain_community", "is_system": False, "import_name": "langchain_community", "pip_name": "langchain-community", "version": None, "install_cmd": None, "check_cmd": None, "install_cmds": []},
    {"name": "openai", "is_system": False, "import_name": "openai", "pip_name": "openai", "version": None, "install_cmd": None, "check_cmd": None, "install_cmds": []},
    {"name": "langchain_openai", "is_system": False, "import_name": "langchain_openai", "pip_name": "langchain-openai", "version": None, "install_cmd": None, "check_cmd": None, "install_cmds": []},
    {"name": "httpx", "is_system": False, "import_name": "httpx", "pip_name": "httpx", "version": "0.23.3", "install_cmd": None, "check_cmd": None, "install_cmds": []},
    {"name": "google_cloud_secret_manager", "is_system": False, "import_name": "google.cloud.secretmanager", "pip_name":"google-cloud-secret-manager", "version": None, "install_cmd": None, "check_cmd": None, "install_cmds": []},
]



# Ejecuta la función para cada paquete
for pkg in packages:
    ini_install_libraries(pkg)



[START ▶️] Verificando instalación de langchain...
[INSTALLATION [SUCCESS ✅]] langchain ya está instalado.
[END [FINISHED ✅]] Proceso de instalación finalizado para langchain.


[START ▶️] Verificando instalación de langchain_community...
[INSTALLATION [INFO ℹ️]] langchain_community no está instalado. Procediendo con la instalación...
[INSTALLATION [COMMAND ▶️]] Ejecutando: pip install --upgrade langchain-community
[END [FINISHED ✅]] Proceso de instalación finalizado para langchain_community.


[START ▶️] Verificando instalación de openai...
[INSTALLATION [SUCCESS ✅]] openai ya está instalado.
[END [FINISHED ✅]] Proceso de instalación finalizado para openai.


[START ▶️] Verificando instalación de langchain_openai...
[INSTALLATION [INFO ℹ️]] langchain_openai no está instalado. Procediendo con la instalación...
[INSTALLATION [COMMAND ▶️]] Ejecutando: pip install --upgrade langchain-openai
[END [FINISHED ✅]] Proceso de instalación finalizado para langchain_openai.


[START ▶️] Verifican

In [4]:
# @title IMPORTACIÓN DE LIBRERÍAS DPM
import sys
import os
import importlib
import datetime
import inspect
import pandas as pd



# Configuración para importar librerías personalizadas
config = [
    {
        "module_host": "github",
        # Se utiliza la URL raw para obtener el contenido real del archivo
        "module_path": "https://raw.githubusercontent.com/DavidP0011/utils/main/dpm_tables.py",
        "selected_functions_list": []
    },
    {
        "module_host": "github",
        # Se utiliza la URL raw para obtener el contenido real del archivo
        "module_path": "https://raw.githubusercontent.com/DavidP0011/utils/main/dpm_GCP_utils.py",
        "selected_functions_list": []
    },
    {
        "module_host": "github",
        "module_path": "https://raw.githubusercontent.com/DavidP0011/utils/main/dpm_apps_utils.py",
        "selected_functions_list": []
    }
]

# Cargar las librerías personalizadas
ini_load_dpm_libs(config)



🔹🔹🔹 [START ▶️] Iniciando carga de módulo dpm_tables.py 🔹🔹🔹

[EXTRACTION [START ▶️]] Descargando módulo desde GitHub: https://raw.githubusercontent.com/DavidP0011/utils/main/dpm_tables.py
[EXTRACTION [SUCCESS ✅]] Archivo descargado y guardado en: /tmp/dpm_tables.py
[LOAD [START ▶️]] Importando módulo: dpm_tables
[LOAD [SUCCESS ✅]] Módulo 'dpm_tables' importado correctamente.

[METRICS [INFO 📊]] Informe de carga del módulo:
  - Módulo: dpm_tables
  - Ruta: /tmp/dpm_tables.py
  - Fecha de última modificación (último commit en GitHub o mod. local): 2025-03-13 17:41:47+01:00
  - Objetos importados:
      • fields_name_format (function): Formatea nombres de campos de datos según configuraciones específicas.
      • table_DF_to_various_targets (function): Escribe un DataFrame en distintos destinos (archivo local, Google Sheets, BigQuery o GCS)
      • table_various_sources_to_DF (function): Extrae datos desde distintos orígenes (archivo, Google Sheets, BigQuery o GCS) y los convierte en un D

## GBQ DATASETS SCHEMA

In [5]:
# @title GBQ INFO GLOBAL


# Configuración
params_dic = {
    "spreadsheet_source_table_id": "1aJCGTJtDu_ODqBc4zUcrpQ-q6PE_HN0rO4mwYMIhCXw",
    "spreadsheet_source_table_worksheet_name": "DATA",

    "ini_environment_identificated": ini_environment_identificated,
    "json_keyfile_GCP_secret_id": GCP_json_keyfile_GCP_secret_id,
    "json_keyfile_colab": GCP_json_keyfile_colab
}



full_info_from_GBQ_df = table_various_sources_to_DF(params_dic)
display(full_info_from_GBQ_df)

[AUTHENTICATION [INFO] 🔐] Entorno local/Colab detectado. Usando json_keyfile_colab.
[EXTRACTION [START ⏳]] Extrayendo datos de Google Sheets...
[EXTRACTION [SUCCESS ✅]] Datos extraídos con éxito de la hoja 'DATA'.


Unnamed: 0,project_id,dataset_id,table_name,field_name,field_type,num_rows,num_columns,size_mb,fecha_actualizacion_GBQ,fecha_actualizacion_df
0,animum-dev-datawarehouse,IMDb_01raw_01,name_basics_raw,nconst,STRING,14235647,6,865.54,10/03/2025 19:43:37,11/03/2025 17:00:05
1,animum-dev-datawarehouse,IMDb_01raw_01,name_basics_raw,primaryName,STRING,14235647,6,865.54,10/03/2025 19:43:37,11/03/2025 17:00:05
2,animum-dev-datawarehouse,IMDb_01raw_01,name_basics_raw,birthYear,INTEGER,14235647,6,865.54,10/03/2025 19:43:37,11/03/2025 17:00:05
3,animum-dev-datawarehouse,IMDb_01raw_01,name_basics_raw,deathYear,STRING,14235647,6,865.54,10/03/2025 19:43:37,11/03/2025 17:00:05
4,animum-dev-datawarehouse,IMDb_01raw_01,name_basics_raw,primaryProfession,STRING,14235647,6,865.54,10/03/2025 19:43:37,11/03/2025 17:00:05
...,...,...,...,...,...,...,...,...,...,...
9688,animum-dev-datawarehouse,vl_01raw_01,MA_PROVINCIAS,Hora_creacion,DATETIME,1033,10,0.06,10/03/2025 5:22:56,11/03/2025 17:00:05
9689,animum-dev-datawarehouse,vl_01raw_01,MA_PROVINCIAS,Usuario_creacion,STRING,1033,10,0.06,10/03/2025 5:22:56,11/03/2025 17:00:05
9690,animum-dev-datawarehouse,vl_01raw_01,MA_PROVINCIAS,Fecha_modificacion,DATETIME,1033,10,0.06,10/03/2025 5:22:56,11/03/2025 17:00:05
9691,animum-dev-datawarehouse,vl_01raw_01,MA_PROVINCIAS,Hora_modificacion,DATETIME,1033,10,0.06,10/03/2025 5:22:56,11/03/2025 17:00:05


In [6]:
# @title GBQ DATASETS
print("Datasets disponibles:\n")
for dataset in full_info_from_GBQ_df['dataset_id'].unique():
    print(f"{dataset}")

Datasets disponibles:

IMDb_01raw_01
IMDb_02st_01
IMDb_raw_01
IMDb_staging_01
cd2_01raw_01
facebook_ads_raw_v01
facebook_ads_raw_v01_facebook_ads
facebook_ads_raw_v01_facebook_ads_source
fivetran_metadata
fivetran_metadata_fivetran_platform
fivetran_metadata_stg_fivetran_platform
google_ads_raw_01
google_ads_raw_01_google_ads
google_ads_raw_01_google_ads_source
hubspot_raw_v01
hubspot_raw_v01_hubspot
hubspot_raw_v01_stg_hubspot
mkt_02st_01
mkt_03BI_01
tablas_mapeo
tp_02st_01
tp_03bi_01
vl_01raw_01


# EJECUCIONES

In [7]:
# @title OBTENCION DF CON RUTAS


# Configuración
config = {
    "spreadsheet_source_table_id": "1EEHwPEf6fWckLAEo37HYd7eOoaAp7siiZyDxy5MFaa8",
    "spreadsheet_source_table_worksheet_name": "ANIMACION",

    "ini_environment_identificated": ini_environment_identificated,
    "json_keyfile_local": GCP_json_keyfile_local,
    "json_keyfile_colab": GCP_json_keyfile_colab,
    "json_keyfile_GCP_secret_id": GCP_json_keyfile_GCP_secret_id,
}

df = table_various_sources_to_DF(config)

# display(df)


# Unir todas las columnas de 'transcription_part_*' en una única columna

transcription_columns = [col for col in df.columns if col.startswith("transcription_part_")]
df["transcription"] = df[transcription_columns].apply(lambda row: " ".join(row.dropna().astype(str)), axis=1)

# Unir todas las columnas de 'transcription_seg_part_*' en una única columna
transcription_seg_columns = [col for col in df.columns if col.startswith("transcription_seg_part_")]
df["transcription_seg"] = df[transcription_seg_columns].apply(lambda row: " ".join(row.dropna().astype(str)), axis=1)

# # Eliminar las columnas que contienen "part" en su nombre
# columns_to_drop = transcription_columns + transcription_seg_columns
# df = df.drop(columns=columns_to_drop)

df.info()
df

[AUTHENTICATION [INFO] 🔐] Entorno local/Colab detectado. Usando json_keyfile_colab.
[EXTRACTION [START ⏳]] Extrayendo datos de Google Sheets...
[EXTRACTION [SUCCESS ✅]] Datos extraídos con éxito de la hoja 'ANIMACION'.
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 613 entries, 0 to 612
Data columns (total 27 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   file_path                  613 non-null    object
 1   transcription_date         613 non-null    object
 2   transcription_duration     613 non-null    object
 3   whisper_model              613 non-null    object
 4   GPU_model                  613 non-null    object
 5   transcription_part_1       613 non-null    object
 6   transcription_part_2       613 non-null    object
 7   transcription_part_3       613 non-null    object
 8   transcription_part_4       613 non-null    object
 9   transcription_part_5       613 non-null    object
 10  transcripti

Unnamed: 0,file_path,transcription_date,transcription_duration,whisper_model,GPU_model,transcription_part_1,transcription_part_2,transcription_part_3,transcription_part_4,transcription_part_5,...,transcription_seg_part_3,transcription_seg_part_4,transcription_seg_part_5,transcription_seg_part_6,transcription_seg_part_7,transcription_seg_part_8,transcription_seg_part_9,transcription_seg_part_10,transcription,transcription_seg
0,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-02-25 15:02:43,47317,large,NVIDIA GeForce RTX 2080 SUPER,"Hola, ¿qué tal? Soy Roger Jiménez, soy animad...",,,,,...,,,,,,,,,"Hola, ¿qué tal? Soy Roger Jiménez, soy animad...","[0.00s - 14.66s]: Hola, ¿qué tal? Soy Roger J..."
1,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-02-25 15:14:29,7045,large,NVIDIA GeForce RTX 2080 SUPER,"En todas estas imágenes, ya sean de fotos o d...",,,,,...,,,,,,,,,"En todas estas imágenes, ya sean de fotos o d...","[0.00s - 10.22s]: En todas estas imágenes, ya..."
2,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-02-25 15:22:53,50293,large,NVIDIA GeForce RTX 2080 SUPER,La animación es observación. No podremos imit...,,,,,...,,,,,,,,,La animación es observación. No podremos imit...,[0.00s - 10.40s]: La animación es observación...
3,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-02-25 15:26:45,23022,large,NVIDIA GeForce RTX 2080 SUPER,¿Qué es la artisticidad? En los tiempos de la...,,,,,...,,,,,,,,,¿Qué es la artisticidad? En los tiempos de la...,[0.00s - 4.00s]: ¿Qué es la artisticidad?\n[4...
4,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-02-25 15:34:20,45395,large,NVIDIA GeForce RTX 2080 SUPER,¿Qué es el proceso de aprendizaje? Durante to...,,,,,...,,,,,,,,,¿Qué es el proceso de aprendizaje? Durante to...,[0.00s - 2.00s]: ¿Qué es el proceso de aprend...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
608,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-03-07 6:50:00,75059,large,NVIDIA GeForce RTX 2080 SUPER,¿Cómo funciona el video? ¿Cómo funciona el vi...,,,,,...,,,,,,,,,¿Cómo funciona el video? ¿Cómo funciona el vi...,[0.00s - 29.98s]: ¿Cómo funciona el video?\n[...
609,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-03-07 7:24:23,205978,large,NVIDIA GeForce RTX 2080 SUPER,"Hola de nuevo, ¿qué tal? Bueno, vamos a echar...",,,,,...,,,,,,,,,"Hola de nuevo, ¿qué tal? Bueno, vamos a echar...","[0.00s - 6.54s]: Hola de nuevo, ¿qué tal?\n[7..."
610,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-03-07 7:46:52,134612,large,NVIDIA GeForce RTX 2080 SUPER,"Bueno, vamos a continuar viendo mi progreso p...",,,,,...,,,,,,,,,"Bueno, vamos a continuar viendo mi progreso p...","[0.00s - 10.68s]: Bueno, vamos a continuar vi..."
611,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-03-07 7:47:21,233,large,NVIDIA GeForce RTX 2080 SUPER,¿Qué es lo que más te gusta de la lección? ¿Q...,,,,,...,,,,,,,,,¿Qué es lo que más te gusta de la lección? ¿Q...,[0.00s - 29.98s]: ¿Qué es lo que más te gusta...


In [34]:
def LLM_process_text(params: dict) -> None:
    """
    Procesa filas de un DataFrame utilizando un modelo LLM según el prompt proporcionado,
    y escribe progresivamente los resultados en una hoja de cálculo de Google Sheets.

    Además, se capturan los tokens consumidos (prompt_tokens, completion_tokens, total_tokens)
    y la metadata completa de la respuesta del LLM, registrándolos en columnas separadas.

    Parámetros esperados en `params`:
      - "source_table_df": DataFrame con los textos a procesar.
      - "source_table_field_name": Nombre de la columna con el texto.
      - "system_prompt": URL desde donde se descarga el prompt del sistema para la primera petición.
      - "LLM_API_key_GCP_secret_manager_name": Clave de API para el modelo LLM.
      - "LLM_API_key_GCP_secret_manager_project_id" (opcional): project_id para acceder al secreto en GCP.
      - "target_table_spreadsheet_url": URL de la hoja de cálculo destino.
      - "target_table_spreadsheet_worksheet": Nombre de la hoja de cálculo destino.
      - "target_table_field_LLM_response_name": Nombre del campo para la respuesta limpia (markdown bruto).
      - "target_table_field_LLM_comments_name": Nombre del campo para comentarios.
      - "target_table_field_LLM_response_comments_sep": Separador para dividir respuesta y comentarios.
      - "target_table_field_LLM_metadata_name": Nombre del campo para volcar la metadata del LLM.
      - "target_table_field_LLM_process_date": Nombre del campo para la fecha de procesamiento.
      - "target_table_field_LLM_process_duration": Nombre del campo para la duración del procesamiento.
      - "target_table_filed_to_keep_list": Lista de campos a conservar y su orden.
      - "ConversationBufferMemory_params": Parámetros para la memoria conversacional.
      - (Opcional) "system_prompt_second_and_later": Texto para el system prompt a partir de la segunda fila.
    """
    import time
    import pandas as pd
    import requests
    from datetime import datetime
    import json

    from langchain_openai import ChatOpenAI
    from langchain.prompts import (
        SystemMessagePromptTemplate,
        HumanMessagePromptTemplate,
        ChatPromptTemplate
    )
    from langchain.memory import ConversationSummaryBufferMemory
    from langchain.schema import LLMResult, Generation

    import gspread
    from oauth2client.service_account import ServiceAccountCredentials

    # ------------------------------
    # Callback para recolectar token usage y metadata
    from langchain.callbacks.base import BaseCallbackHandler

    class TokenUsageCollector(BaseCallbackHandler):
        def __init__(self):
            self.token_usage = {}
            self.metadata = {}
        def on_llm_end(self, response, **kwargs):
            if response.llm_output:
                self.token_usage = response.llm_output.get("token_usage", {})
                self.metadata = response.llm_output  # Almacena toda la metadata
            else:
                self.token_usage = {}
                self.metadata = {}
    # ------------------------------

    def count_tokens(text: str) -> int:
        return len(text.split())

    # VALIDACIÓN DE PARÁMETROS
    def _validate_params() -> None:
        required_params = [
            "source_table_df",
            "source_table_field_name",
            "system_prompt",
            "target_table_spreadsheet_url",
            "target_table_spreadsheet_worksheet",
            "target_table_field_LLM_response_name",
            "target_table_field_LLM_comments_name",
            "target_table_field_LLM_response_comments_sep",
            "target_table_field_LLM_metadata_name",
            "target_table_field_LLM_process_date",
            "target_table_field_LLM_process_duration",
            "target_table_filed_to_keep_list"
        ]
        for req in required_params:
            if req not in params:
                raise ValueError(f"[VALIDATION ERROR] Falta el parámetro esencial '{req}' en 'params'.")
            if req == "source_table_df":
                df = params["source_table_df"]
                if not isinstance(df, pd.DataFrame) or df.empty:
                    raise ValueError("[VALIDATION ERROR] El DataFrame de entrada está vacío o no es válido.")
            else:
                if not params[req]:
                    raise ValueError(f"[VALIDATION ERROR] El parámetro '{req}' está vacío o no es válido.")

    # RECUPERAR LLM_API_key desde Secret Manager
    def _retrieve_llm_api_key_from_secret_manager() -> None:
        project_id = params.get("LLM_API_key_GCP_secret_manager_project_id")
        if not project_id:
            raise ValueError("[VALIDATION ERROR] Falta 'LLM_API_key_GCP_secret_manager_project_id' en params.")
        import os
        from google.cloud import secretmanager
        ini_env = params.get("ini_environment_identificated")
        if ini_env == "LOCAL":
            os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = params.get("json_keyfile_local")
        elif ini_env == "COLAB":
            os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = params.get("json_keyfile_colab")
        else:
            os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = params.get("json_keyfile_GCP_secret_id")
        secret_full_name = f"projects/{project_id}/secrets/OpenAI_API_key/versions/latest"
        print(f"[SECRET MANAGER] Accediendo al secreto: {secret_full_name}", flush=True)
        try:
            client = secretmanager.SecretManagerServiceClient()
            response = client.access_secret_version(request={"name": secret_full_name})
            params["LLM_API_key_GCP_secret_manager_name"] = response.payload.data.decode("UTF-8")
            print("[SECRET MANAGER] LLM_API_key obtenida correctamente.", flush=True)
        except Exception as e:
            raise ValueError(f"[SECRET MANAGER ERROR] Error al obtener LLM_API_key: {e}")

    # AUTENTICACIÓN CON GOOGLE SHEETS
    def _auth_with_google_sheets() -> gspread.Worksheet:
        ini_env = params.get("ini_environment_identificated")
        if ini_env == "LOCAL":
            credentials_path = params.get("json_keyfile_local")
            print("[AUTH] Entorno LOCAL: usando json_keyfile_local.", flush=True)
        elif ini_env == "COLAB":
            credentials_path = params.get("json_keyfile_colab")
            print("[AUTH] Entorno COLAB: usando json_keyfile_colab.", flush=True)
        elif ini_env == "COLAB_ENTERPRISE":
            credentials_path = params.get("json_keyfile_GCP_secret_id")
            print("[AUTH] Entorno COLAB_ENTERPRISE: usando json_keyfile_GCP_secret_id.", flush=True)
        else:
            credentials_path = params.get("json_keyfile_GCP_secret_id")
            print("[AUTH WARNING] Entorno no reconocido. Se asume GCP secret ID.", flush=True)
        if not credentials_path:
            print("[AUTH WARNING] No se ha definido ruta o ID de credenciales.", flush=True)
        scope = ["https://www.googleapis.com/auth/spreadsheets", "https://www.googleapis.com/auth/drive"]
        creds = ServiceAccountCredentials.from_json_keyfile_name(credentials_path, scope)
        client = gspread.authorize(creds)
        spreadsheet_dest = client.open_by_url(params["target_table_spreadsheet_url"])
        worksheet_name = params["target_table_spreadsheet_worksheet"]
        try:
            sheet = spreadsheet_dest.worksheet(worksheet_name)
        except gspread.WorksheetNotFound:
            print("[SHEET] Worksheet no encontrado, creando uno nuevo...", flush=True)
            sheet = spreadsheet_dest.add_worksheet(title=worksheet_name, rows="1000", cols="30")
        return sheet

    # ESCRIBIR ENCABEZADO EN LA HOJA DE CÁLCULO
    def _append_sheet_header(sheet: gspread.Worksheet) -> None:
        header = params["target_table_filed_to_keep_list"]
        sheet.clear()
        sheet.update(values=[header], range_name="A1")
        print("[SHEET] Worksheet limpia y encabezado escrito.", flush=True)

    # DESCARGAR Y PREPARAR SYSTEM PROMPT
    def _get_system_prompt_text() -> str:
        system_prompt_input = params["system_prompt"]
        if system_prompt_input.startswith("http") and "github.com" in system_prompt_input:
            system_prompt_input = system_prompt_input.replace("github.com", "raw.githubusercontent.com").replace("/blob/", "/")
        try:
            response = requests.get(system_prompt_input)
            response.raise_for_status()
        except Exception as e:
            raise ValueError(f"[ERROR] No se pudo obtener el system_prompt desde {system_prompt_input}: {e}")
        return response.text.replace("{className}", "").replace("{message}", "")

    # CONFIGURAR LLM Y MEMORIA (nueva aproximación con RunnableSequence y callbacks)
    def _configure_llm_chain(system_prompt_text: str):
        model_name = params.get("LLM_model_name", params.get("model_name"))
        temperature = params.get("LLM_temperature", params.get("temperature"))
        api_key = params["LLM_API_key_GCP_secret_manager_name"]

        mem_params = params.get("ConversationBufferMemory_params", {})
        token_usage_collector = TokenUsageCollector()

        llm = ChatOpenAI(api_key=api_key, model_name=model_name, temperature=temperature, callbacks=[token_usage_collector])

        summarize_model = params.get("LLM_summarize_model")
        if summarize_model:
            summarize_llm_instance = ChatOpenAI(api_key=api_key, model_name=summarize_model, temperature=temperature)
        else:
            summarize_llm_instance = llm

        memory = ConversationSummaryBufferMemory(
            llm=summarize_llm_instance,
            **mem_params
        )
        if mem_params.get("memory_flush_at_start", False):
            print("[MEMORY] Reseteando memoria conversacional.", flush=True)
            memory.clear()

        print(f"[CHAIN CONFIG] Configurando RunnableSequence con modelo '{model_name}' y temperatura {temperature}.", flush=True)
        sys_template = SystemMessagePromptTemplate.from_template(system_prompt_text, template_format="jinja2")
        human_template = HumanMessagePromptTemplate.from_template("Aquí tienes el contenido (texto completo):\n{content}")
        chat_prompt = ChatPromptTemplate.from_messages([sys_template, human_template])
        chat_prompt.input_variables = ["content"]

        chain = chat_prompt | llm
        return (chain, token_usage_collector)

    # PROCESAR UNA FILA Y ESCRIBIR RESULTADO EN GOOGLE SHEETS
    def _process_row_and_write(chain_token, sheet: gspread.Worksheet, row_data: dict, row_index: int) -> tuple:
        chain, token_usage_collector = chain_token
        field = params["source_table_field_name"]
        content = row_data.get(field, "").strip()
        if not content:
            print(f"\n[SKIP] Fila {row_index} sin contenido. Se omite.", flush=True)
            return (False, 0.0, {"prompt_tokens": 0, "completion_tokens": 0, "total_tokens": 0})
        print(f"\n[START] Procesando fila {row_index}. Longitud contenido: {len(content)}", flush=True)
        t_start = time.time()
        result = chain.invoke({"content": content})
        duration = round(time.time() - t_start, 2)
        # Extraer solo el texto bruto: si el objeto tiene atributo 'content', usarlo.
        if hasattr(result, "content"):
            generation = result.content.strip()
        else:
            generation = str(result).strip()
        usage_info = token_usage_collector.token_usage.copy()
        metadata_info = token_usage_collector.metadata.copy()
        token_usage_collector.token_usage = {}
        token_usage_collector.metadata = {}
        print(f"[LLM RESPONSE] Fila {row_index} procesada en {duration} s.", flush=True)
        print(f"[TOKENS USAGE] {usage_info}", flush=True)

        sep = params["target_table_field_LLM_response_comments_sep"]
        parts = generation.split(sep, 1)
        # Se asume que el LLM devuelve ya el markdown bruto sin metadata
        transcription_clean = parts[0].strip()
        comments = parts[1].strip() if len(parts) > 1 else ""

        def _trocear_texto(texto: str, max_chars: int = 50000, max_parts: int = 10) -> list:
            pieces = [texto[i:i + max_chars] for i in range(0, len(texto), max_chars)]
            pieces = pieces[:max_parts]
            if len(pieces) < max_parts:
                pieces += [""] * (max_parts - len(pieces))
            return pieces

        transcription_parts = _trocear_texto(transcription_clean)
        current_timestamp = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
        target_fields = params["target_table_filed_to_keep_list"]
        row_final = []
        for key in target_fields:
            if key in row_data:
                row_final.append(row_data.get(key, ""))
            elif key == params["target_table_field_LLM_process_date"]:
                row_final.append(current_timestamp)
            elif key == params["target_table_field_LLM_process_duration"]:
                row_final.append(duration)
            elif key == params["target_table_field_LLM_response_name"]:
                row_final.append(transcription_clean)
            elif key == params["target_table_field_LLM_comments_name"]:
                row_final.append(comments)
            elif key == params["target_table_field_LLM_metadata_name"]:
                row_final.append(json.dumps(metadata_info))
            elif key.startswith("transciption_clean_part_"):
                try:
                    part_num = int(key.split("_")[-1])
                    row_final.append(transcription_parts[part_num - 1])
                except Exception:
                    row_final.append("")
            elif key == "LLM_model_name":
                row_final.append(params.get("LLM_model_name", ""))
            elif key == "LLM_temperature":
                row_final.append(params.get("LLM_temperature", ""))
            else:
                row_final.append("")
        try:
            sheet.append_row(row_final, value_input_option="USER_ENTERED")
            print(f"[SUCCESS] Fila {row_index} escrita en Google Sheets.", flush=True)
        except Exception as e:
            print(f"[ERROR] Error al escribir la fila {row_index}: {e}", flush=True)
        return (True, duration, usage_info)

    # PROCESAR TODAS LAS FILAS Y ACUMULAR ESTADÍSTICAS
    def _process_all_rows(chain_token, sheet: gspread.Worksheet) -> None:
        records = params["source_table_df"].to_dict(orient="records")
        row_range = params.get("source_table_row_range", "all")
        if isinstance(row_range, str) and row_range.lower() == "all":
            data_list = records
        elif isinstance(row_range, str) and "-" in row_range:
            start_row, end_row = map(int, row_range.split("-"))
            data_list = records[start_row - 1: end_row]
        else:
            idx = int(row_range) - 1
            data_list = [records[idx]]
        total_rows = len(data_list)
        processed_count = 0
        skipped_count = 0
        total_time = 0.0
        total_prompt_tokens = 0
        total_completion_tokens = 0
        total_all_tokens = 0

        print(f"\n[RANGE] Total de filas a procesar: {total_rows}", flush=True)
        # Inicialmente se configura la cadena con el prompt original
        chain_token = _configure_llm_chain(_get_system_prompt_text())
        for i, row in enumerate(data_list, start=1):
            if i > 1:
                # Si system_prompt_second_and_later NO está definido o es cadena vacía,
                # se reobtiene el system prompt original; en caso contrario se usa el definido.
                new_prompt_text = params.get("system_prompt_second_and_later")
                if not new_prompt_text:
                    new_prompt_text = _get_system_prompt_text()
                chain_token = _configure_llm_chain(new_prompt_text)
                print(f"[PROMPT] Para la fila {i} se reconfigura el system prompt.", flush=True)
            processed, duration, usage = _process_row_and_write(chain_token, sheet, row, i)
            if processed:
                processed_count += 1
                total_time += duration
                total_prompt_tokens += usage.get("prompt_tokens", 0)
                total_completion_tokens += usage.get("completion_tokens", 0)
                total_all_tokens += usage.get("total_tokens", 0)
            else:
                skipped_count += 1
        avg_time = total_time / processed_count if processed_count else 0
        avg_prompt = total_prompt_tokens / processed_count if processed_count else 0
        avg_completion = total_completion_tokens / processed_count if processed_count else 0
        avg_total = total_all_tokens / processed_count if processed_count else 0

        print("\n[FINISHED] Resumen de procesamiento:", flush=True)
        print(f"  - Filas totales: {total_rows}", flush=True)
        print(f"  - Filas procesadas: {processed_count}", flush=True)
        print(f"  - Filas omitidas: {skipped_count}", flush=True)
        print(f"  - Tiempo total LLM: {round(total_time, 2)} s", flush=True)
        print(f"  - Tiempo promedio por fila: {round(avg_time, 2)} s", flush=True)
        print("\n[TOKENS USAGE SUMMARY]", flush=True)
        print(f"  - prompt_tokens totales: {total_prompt_tokens}", flush=True)
        print(f"  - completion_tokens totales: {total_completion_tokens}", flush=True)
        print(f"  - total_tokens totales: {total_all_tokens}", flush=True)
        print(f"  - prompt_tokens promedio: {round(avg_prompt, 2)}", flush=True)
        print(f"  - completion_tokens promedio: {round(avg_completion, 2)}", flush=True)
        print(f"  - total_tokens promedio: {round(avg_total, 2)}", flush=True)
        print("\n[FINISHED] Proceso completado.", flush=True)


    print("[START] Iniciando LLM_process_text\n", flush=True)
    try:
        _validate_params()
        print("[VALIDATION SUCCESS] Todos los parámetros han sido validados.", flush=True)
        _retrieve_llm_api_key_from_secret_manager()
        sheet = _auth_with_google_sheets()
        _append_sheet_header(sheet)
        system_prompt_text = _get_system_prompt_text()
        chain_token = _configure_llm_chain(system_prompt_text)
        _process_all_rows(chain_token, sheet)
        print("[FINISHED] LLM_process_text finalizado. Resultados escritos en Google Sheets.", flush=True)
    except ValueError as ve:
        print(f"[ERROR] Error de validación: {ve}", flush=True)
        raise
    except Exception as ex:
        print(f"[ERROR] Error inesperado: {ex}", flush=True)
        raise



In [None]:
# @title EJECUTAR PROMPT DE LIMPIEZA

target_table_filed_to_keep_list = [
    "file_path", "transcription_date", "transcription_duration", "whisper_model", "GPU_model", "LLM_process_date", "LLM_process_duration", "LLM_comments", "LLM_metadata", "transciption_clean_part_1", "transciption_clean_part_2", "transciption_clean_part_3", "transciption_clean_part_4", "transciption_clean_part_5", "transciption_clean_part_6", "transciption_clean_part_7", "transciption_clean_part_8", "transciption_clean_part_9", "transciption_clean_part_10", "transcription_part_1", "transcription_part_2", "transcription_part_3", "transcription_part_4", "transcription_part_5", "transcription_part_6", "transcription_part_7", "transcription_part_8", "transcription_part_9", "transcription_part_10", "transcription_seg_part_1", "transcription_seg_part_2", "transcription_seg_part_3", "transcription_seg_part_4", "transcription_seg_part_5", "transcription_seg_part_6", "transcription_seg_part_7", "transcription_seg_part_8", "transcription_seg_part_9", "transcription_seg_part_10"
]

# Configuración de la memoria conversacional (mantiene sólo las últimas 5 interacciones)
ConversationBufferMemory_params = {
    "memory_flush_at_start": True,
    "return_messages": False,   # Si es False, retorna solo el texto concatenado
    "human_prefix": "Usuario",
    "ai_prefix": "Asistente",
    "memory_key": "history",
    "k": 2                      # Mantener en memoria sólo las últimas 5 interacciones
}

# Preparar el diccionario de parámetros
params = {
    # --- Entorno de ejecución y credenciales ---
    "ini_environment_identificated": ini_environment_identificated,  # Ejemplo: "COLAB_ENTERPRISE"
    "json_keyfile_local": GCP_json_keyfile_local,                    # Ruta a credenciales para LOCAL
    "json_keyfile_colab": GCP_json_keyfile_colab,                    # Ruta a credenciales para COLAB
    "json_keyfile_GCP_secret_id": GCP_json_keyfile_GCP_secret_id,    # ID del secreto para GCP

    # --- DataFrame y rango de filas ---
    "source_table_df": df,                       # DataFrame con los textos a procesar
    "source_table_field_name": "transcription",  # Nombre de la columna con el texto
    "source_table_row_range": "1-6",              # Procesar filas 1 a 3

    # --- Parámetros del modelo LLM ---
    "LLM_API_key_GCP_secret_manager_name": "OpenAI_API_key",               # Nombre del secreto
    "LLM_API_key_GCP_secret_manager_project_id": "animum-dev-apps",       # Clave de API para el modelo
    "LLM_model_name": "gpt-4o",         # Nombre del modelo LLM utilizado
    "LLM_temperature": 0.1,                        # Valor de temperatura utilizado en el modelo
    "ConversationBufferMemory_params": ConversationBufferMemory_params,

    # --- Prompt principal (descargado desde GitHub) ---
    "system_prompt": "https://github.com/DavidP0011/mocadi/blob/main/prompt_transcription.md",
    "system_prompt_second_and_later": "", # "Recuerda las indicaciones que ya te dí en el systemprompt inicial, síguelas exahustivamente pero ahora aplicándolas al siguiente texto:",

    # --- Parámetros de destino en Google Sheets ---
    "target_table_spreadsheet_url": "https://docs.google.com/spreadsheets/d/1legg18ZqrQD1rTSwwQ71I1vaZFkez9vRnjSYq5zuWeE",
    "target_table_spreadsheet_worksheet": "ResponseAPI",
    "target_table_field_LLM_response_name": "LLM_transciption_clean",
    "target_table_field_LLM_comments_name": "LLM_comments",
    "target_table_field_LLM_response_comments_sep": "|||",
    "target_table_field_LLM_metadata_name": "LLM_metadata",
    "target_table_field_LLM_process_date": "LLM_process_date",
    "target_table_field_LLM_process_duration": "LLM_process_duration",

    # --- Lista de campos a mantener y el orden deseado ---
    "target_table_filed_to_keep_list": target_table_filed_to_keep_list
}

# Ejecutar la función
LLM_process_text(params)


[START] Iniciando LLM_process_text

[VALIDATION SUCCESS] Todos los parámetros han sido validados.
[SECRET MANAGER] Accediendo al secreto: projects/animum-dev-apps/secrets/OpenAI_API_key/versions/latest
[SECRET MANAGER] LLM_API_key obtenida correctamente.
[AUTH] Entorno COLAB: usando json_keyfile_colab.
[SHEET] Worksheet limpia y encabezado escrito.
[MEMORY] Reseteando memoria conversacional.
[CHAIN CONFIG] Configurando RunnableSequence con modelo 'gpt-4o' y temperatura 0.1.

[RANGE] Total de filas a procesar: 6
[MEMORY] Reseteando memoria conversacional.
[CHAIN CONFIG] Configurando RunnableSequence con modelo 'gpt-4o' y temperatura 0.1.

[START] Procesando fila 1. Longitud contenido: 1865
[LLM RESPONSE] Fila 1 procesada en 3.62 s.
[TOKENS USAGE] {'completion_tokens': 467, 'prompt_tokens': 1474, 'total_tokens': 1941, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_

In [18]:
df

Unnamed: 0,file_path,transcription_date,transcription_duration,whisper_model,GPU_model,transcription_part_1,transcription_part_2,transcription_part_3,transcription_part_4,transcription_part_5,...,transcription_seg_part_3,transcription_seg_part_4,transcription_seg_part_5,transcription_seg_part_6,transcription_seg_part_7,transcription_seg_part_8,transcription_seg_part_9,transcription_seg_part_10,transcription,transcription_seg
0,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-02-25 15:02:43,47317,large,NVIDIA GeForce RTX 2080 SUPER,"Hola, ¿qué tal? Soy Roger Jiménez, soy animad...",,,,,...,,,,,,,,,"Hola, ¿qué tal? Soy Roger Jiménez, soy animad...","[0.00s - 14.66s]: Hola, ¿qué tal? Soy Roger J..."
1,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-02-25 15:14:29,7045,large,NVIDIA GeForce RTX 2080 SUPER,"En todas estas imágenes, ya sean de fotos o d...",,,,,...,,,,,,,,,"En todas estas imágenes, ya sean de fotos o d...","[0.00s - 10.22s]: En todas estas imágenes, ya..."
2,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-02-25 15:22:53,50293,large,NVIDIA GeForce RTX 2080 SUPER,La animación es observación. No podremos imit...,,,,,...,,,,,,,,,La animación es observación. No podremos imit...,[0.00s - 10.40s]: La animación es observación...
3,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-02-25 15:26:45,23022,large,NVIDIA GeForce RTX 2080 SUPER,¿Qué es la artisticidad? En los tiempos de la...,,,,,...,,,,,,,,,¿Qué es la artisticidad? En los tiempos de la...,[0.00s - 4.00s]: ¿Qué es la artisticidad?\n[4...
4,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-02-25 15:34:20,45395,large,NVIDIA GeForce RTX 2080 SUPER,¿Qué es el proceso de aprendizaje? Durante to...,,,,,...,,,,,,,,,¿Qué es el proceso de aprendizaje? Durante to...,[0.00s - 2.00s]: ¿Qué es el proceso de aprend...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
608,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-03-07 6:50:00,75059,large,NVIDIA GeForce RTX 2080 SUPER,¿Cómo funciona el video? ¿Cómo funciona el vi...,,,,,...,,,,,,,,,¿Cómo funciona el video? ¿Cómo funciona el vi...,[0.00s - 29.98s]: ¿Cómo funciona el video?\n[...
609,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-03-07 7:24:23,205978,large,NVIDIA GeForce RTX 2080 SUPER,"Hola de nuevo, ¿qué tal? Bueno, vamos a echar...",,,,,...,,,,,,,,,"Hola de nuevo, ¿qué tal? Bueno, vamos a echar...","[0.00s - 6.54s]: Hola de nuevo, ¿qué tal?\n[7..."
610,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-03-07 7:46:52,134612,large,NVIDIA GeForce RTX 2080 SUPER,"Bueno, vamos a continuar viendo mi progreso p...",,,,,...,,,,,,,,,"Bueno, vamos a continuar viendo mi progreso p...","[0.00s - 10.68s]: Bueno, vamos a continuar vi..."
611,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-03-07 7:47:21,233,large,NVIDIA GeForce RTX 2080 SUPER,¿Qué es lo que más te gusta de la lección? ¿Q...,,,,,...,,,,,,,,,¿Qué es lo que más te gusta de la lección? ¿Q...,[0.00s - 29.98s]: ¿Qué es lo que más te gusta...
