<a href="https://colab.research.google.com/github/DavidP0011/apps/blob/main/app_transc_03_clean.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# INICIALIZACIÓN

In [1]:
# @title dpm_ini_utils.py (GitHub)

import os         # Para operaciones del sistema y manejo de rutas.
import sys        # Para interactuar con el sistema, en particular con sys.path.
import importlib  # Para realizar importaciones dinámicas.
import tempfile   # Para crear archivos temporales.
import requests   # Para realizar peticiones HTTP y descargar el módulo.

# URL raw del módulo en GitHub (debe incluir las funciones ini_load_dpm_libs, ini_environment_identification e ini_google_drive_instalation)
github_url = "https://raw.githubusercontent.com/DavidP0011/utils/main/dpm_ini_utils.py"

# Solicitar la descarga sin utilizar caché, para asegurar que se obtiene la versión actualizada.
headers = {"Cache-Control": "no-cache", "Pragma": "no-cache"}
response = requests.get(github_url, headers=headers)
if response.status_code != 200:
    raise Exception(f"Error al descargar el módulo desde GitHub. Código: {response.status_code}")

# Guardar el contenido descargado en un archivo temporal.
temp_dir = tempfile.gettempdir()
module_path = os.path.join(temp_dir, "dpm_ini_utils.py")
with open(module_path, "wb") as f:
    f.write(response.content)

# Agregar el directorio temporal a sys.path si aún no está incluido, para permitir la importación.
if temp_dir not in sys.path:
    sys.path.insert(0, temp_dir)

# Invalidar cachés y eliminar versiones previas del módulo para forzar la recarga.
importlib.invalidate_caches()
module_name = "dpm_ini_utils"
if module_name in sys.modules:
    del sys.modules[module_name]

# Importar y recargar el módulo.
module = importlib.import_module(module_name)
module = importlib.reload(module)

# Intentar importar las funciones deseadas desde el módulo.
ini_install_libraries = getattr(module, "ini_install_libraries", None)
ini_load_dpm_libs = getattr(module, "ini_load_dpm_libs", None)
ini_environment_identification = getattr(module, "ini_environment_identification", None)
ini_google_drive_instalation = getattr(module, "ini_google_drive_instalation", None)

# Verificar que las funciones se hayan importado correctamente.
if ini_install_libraries is None:
    print("La función ini_install_libraries no se encontró en el módulo.")
else:
    print("Función ini_install_libraries cargada correctamente.")

if ini_load_dpm_libs is None:
    print("La función ini_load_dpm_libs no se encontró en el módulo.")
else:
    print("Función ini_load_dpm_libs cargada correctamente.")

if ini_environment_identification is None:
    print("La función ini_environment_identification no se encontró en el módulo.")
else:
    print("Función ini_environment_identification cargada correctamente.")

if ini_google_drive_instalation is None:
    print("La función ini_google_drive_instalation no se encontró en el módulo.")
else:
    print("Función ini_google_drive_instalation cargada correctamente.")


Función ini_install_libraries cargada correctamente.
Función ini_load_dpm_libs cargada correctamente.
Función ini_environment_identification cargada correctamente.
Función ini_google_drive_instalation cargada correctamente.


In [2]:
# @title IDENTIFICACION DE ENTORNO, INSTALACIÓN GOOGLE DRIVE

# Detectar el entorno de ejecución
ini_environment_identificated = ini_environment_identification()
print(f"[INFO ℹ️] Entorno detectado: {ini_environment_identificated}", flush=True)

GCP_json_keyfile_local = r"C:/api_keys/XXX.json"
GCP_json_keyfile_colab = "/content/drive/MyDrive/ANIMUM DIRECCION/DIRECCION BI/NOTEBOOKS/api_keys/animum-dev-apps-google-colab.json"
GCP_json_keyfile_GCP_secret_id = "notebook-vm"

# Montar Google Drive si entorno_identificado_str es Colab
params = {"entorno_identificado_str": ini_environment_identificated}
ini_google_drive_instalation(params)

[INFO ℹ️] Entorno detectado: COLAB
Mounted at /content/drive
[INFO ℹ️] Google Drive montado correctamente.


In [3]:
# @title INSTALACION DE LIBRERIAS
from IPython import get_ipython
import os
packages = [
    # {"name": "rapidfuzz", "is_system": False, "import_name": "rapidfuzz", "pip_name": "rapidfuzz", "version": None, "install_cmd": None, "check_cmd": None, "install_cmds": []},
    # {"name": "pycountry", "is_system": False, "import_name": "pycountry", "pip_name": "pycountry", "version": None, "install_cmd": None, "check_cmd": None, "install_cmds": []},
    # {"name": "phonenumbers", "is_system": False, "import_name": "phonenumbers", "pip_name": "phonenumbers", "version": None, "install_cmd": None, "check_cmd": None, "install_cmds": []},
    # {"name": "deep_translator", "is_system": False, "import_name": "deep_translator", "pip_name": "deep_translator", "version": None, "install_cmd": None, "check_cmd": None, "install_cmds": []},
    # {"name": "requests", "is_system": False, "import_name": "requests", "pip_name": "requests", "version": None, "install_cmd": None, "check_cmd": None, "install_cmds": []},
    # {"name": "beautifulsoup4", "is_system": False, "import_name": "bs4", "pip_name": "beautifulsoup4", "version": None, "install_cmd": None, "check_cmd": None, "install_cmds": []},
    # {"name": "googletrans", "is_system": False, "import_name": "googletrans", "pip_name": "googletrans", "version": "4.0.0-rc1", "install_cmd": None, "check_cmd": None, "install_cmds": []},
    {"name": "langchain", "is_system": False, "import_name": "langchain", "pip_name": "langchain", "version": None, "install_cmd": None, "check_cmd": None, "install_cmds": []},
    {"name": "langchain_community", "is_system": False, "import_name": "langchain_community", "pip_name": "langchain-community", "version": None, "install_cmd": None, "check_cmd": None, "install_cmds": []},
    {"name": "openai", "is_system": False, "import_name": "openai", "pip_name": "openai", "version": None, "install_cmd": None, "check_cmd": None, "install_cmds": []},
    {"name": "langchain_openai", "is_system": False, "import_name": "langchain_openai", "pip_name": "langchain-openai", "version": None, "install_cmd": None, "check_cmd": None, "install_cmds": []},
    {"name": "httpx", "is_system": False, "import_name": "httpx", "pip_name": "httpx", "version": "0.23.3", "install_cmd": None, "check_cmd": None, "install_cmds": []}
]



# Ejecuta la función para cada paquete
for pkg in packages:
    ini_install_libraries(pkg)



[START ▶️] Verificando instalación de langchain...
[INSTALLATION [SUCCESS ✅]] langchain ya está instalado.
[END [FINISHED ✅]] Proceso de instalación finalizado para langchain.


[START ▶️] Verificando instalación de langchain_community...
[INSTALLATION [INFO ℹ️]] langchain_community no está instalado. Procediendo con la instalación...
[INSTALLATION [COMMAND ▶️]] Ejecutando: pip install --upgrade langchain-community
[END [FINISHED ✅]] Proceso de instalación finalizado para langchain_community.


[START ▶️] Verificando instalación de openai...
[INSTALLATION [SUCCESS ✅]] openai ya está instalado.
[END [FINISHED ✅]] Proceso de instalación finalizado para openai.


[START ▶️] Verificando instalación de langchain_openai...
[INSTALLATION [INFO ℹ️]] langchain_openai no está instalado. Procediendo con la instalación...
[INSTALLATION [COMMAND ▶️]] Ejecutando: pip install --upgrade langchain-openai
[END [FINISHED ✅]] Proceso de instalación finalizado para langchain_openai.


[START ▶️] Verifican

In [7]:
# @title IMPORTACIÓN DE LIBRERÍAS DPM
import sys
import os
import importlib
import datetime
import inspect
import pandas as pd



# Configuración para importar librerías personalizadas
config = [
    {
        "module_host": "github",
        # Se utiliza la URL raw para obtener el contenido real del archivo
        "module_path": "https://raw.githubusercontent.com/DavidP0011/utils/main/dpm_tables.py",
        "selected_functions_list": []
    },
    {
        "module_host": "github",
        # Se utiliza la URL raw para obtener el contenido real del archivo
        "module_path": "https://raw.githubusercontent.com/DavidP0011/utils/main/dpm_GCP_utils.py",
        "selected_functions_list": []
    },
    {
        "module_host": "github",
        "module_path": "https://raw.githubusercontent.com/DavidP0011/utils/main/dpm_apps_utils.py",
        "selected_functions_list": []
    }
]

# Cargar las librerías personalizadas
ini_load_dpm_libs(config)



🔹🔹🔹 [START ▶️] Iniciando carga de módulo dpm_tables.py 🔹🔹🔹

[EXTRACTION [START ▶️]] Descargando módulo desde GitHub: https://raw.githubusercontent.com/DavidP0011/utils/main/dpm_tables.py
[EXTRACTION [SUCCESS ✅]] Archivo descargado y guardado en: /tmp/dpm_tables_2.py
[LOAD [START ▶️]] Importando módulo: dpm_tables_2
[LOAD [SUCCESS ✅]] Módulo 'dpm_tables_2' importado correctamente.

[METRICS [INFO 📊]] Informe de carga del módulo:
  - Módulo: dpm_tables_2
  - Ruta: /tmp/dpm_tables_2.py
  - Fecha de última modificación (último commit en GitHub o mod. local): 2025-03-13 17:41:47+01:00
  - Objetos importados:
      • fields_name_format (function): Formatea nombres de campos de datos según configuraciones específicas.
      • table_DF_to_various_targets (function): Escribe un DataFrame en distintos destinos (archivo local, Google Sheets, BigQuery o GCS)
      • table_various_sources_to_DF (function): Extrae datos desde distintos orígenes (archivo, Google Sheets, BigQuery o GCS) y los convier

## GBQ DATASETS SCHEMA

In [8]:
# @title GBQ INFO GLOBAL


# Configuración
params_dic = {
    "spreadsheet_source_table_id": "1aJCGTJtDu_ODqBc4zUcrpQ-q6PE_HN0rO4mwYMIhCXw",
    "spreadsheet_source_table_worksheet_name": "DATA",

    "ini_environment_identificated": ini_environment_identificated,
    "json_keyfile_GCP_secret_id": GCP_json_keyfile_GCP_secret_id,
    "json_keyfile_colab": GCP_json_keyfile_colab
}



full_info_from_GBQ_df = table_various_sources_to_DF(params_dic)
display(full_info_from_GBQ_df)

[AUTHENTICATION [INFO] 🔐] Entorno local/Colab detectado. Usando json_keyfile_colab.
[EXTRACTION [START ⏳]] Extrayendo datos de Google Sheets...
[EXTRACTION [SUCCESS ✅]] Datos extraídos con éxito de la hoja 'DATA'.


Unnamed: 0,project_id,dataset_id,table_name,field_name,field_type,num_rows,num_columns,size_mb,fecha_actualizacion_GBQ,fecha_actualizacion_df
0,animum-dev-datawarehouse,IMDb_01raw_01,name_basics_raw,nconst,STRING,14235647,6,865.54,10/03/2025 19:43:37,11/03/2025 17:00:05
1,animum-dev-datawarehouse,IMDb_01raw_01,name_basics_raw,primaryName,STRING,14235647,6,865.54,10/03/2025 19:43:37,11/03/2025 17:00:05
2,animum-dev-datawarehouse,IMDb_01raw_01,name_basics_raw,birthYear,INTEGER,14235647,6,865.54,10/03/2025 19:43:37,11/03/2025 17:00:05
3,animum-dev-datawarehouse,IMDb_01raw_01,name_basics_raw,deathYear,STRING,14235647,6,865.54,10/03/2025 19:43:37,11/03/2025 17:00:05
4,animum-dev-datawarehouse,IMDb_01raw_01,name_basics_raw,primaryProfession,STRING,14235647,6,865.54,10/03/2025 19:43:37,11/03/2025 17:00:05
...,...,...,...,...,...,...,...,...,...,...
9688,animum-dev-datawarehouse,vl_01raw_01,MA_PROVINCIAS,Hora_creacion,DATETIME,1033,10,0.06,10/03/2025 5:22:56,11/03/2025 17:00:05
9689,animum-dev-datawarehouse,vl_01raw_01,MA_PROVINCIAS,Usuario_creacion,STRING,1033,10,0.06,10/03/2025 5:22:56,11/03/2025 17:00:05
9690,animum-dev-datawarehouse,vl_01raw_01,MA_PROVINCIAS,Fecha_modificacion,DATETIME,1033,10,0.06,10/03/2025 5:22:56,11/03/2025 17:00:05
9691,animum-dev-datawarehouse,vl_01raw_01,MA_PROVINCIAS,Hora_modificacion,DATETIME,1033,10,0.06,10/03/2025 5:22:56,11/03/2025 17:00:05


In [9]:
# @title GBQ DATASETS
print("Datasets disponibles:\n")
for dataset in full_info_from_GBQ_df['dataset_id'].unique():
    print(f"{dataset}")

Datasets disponibles:

IMDb_01raw_01
IMDb_02st_01
IMDb_raw_01
IMDb_staging_01
cd2_01raw_01
facebook_ads_raw_v01
facebook_ads_raw_v01_facebook_ads
facebook_ads_raw_v01_facebook_ads_source
fivetran_metadata
fivetran_metadata_fivetran_platform
fivetran_metadata_stg_fivetran_platform
google_ads_raw_01
google_ads_raw_01_google_ads
google_ads_raw_01_google_ads_source
hubspot_raw_v01
hubspot_raw_v01_hubspot
hubspot_raw_v01_stg_hubspot
mkt_02st_01
mkt_03BI_01
tablas_mapeo
tp_02st_01
tp_03bi_01
vl_01raw_01


# EJECUCIONES

In [31]:
# @title OBTENCION DF CON RUTAS


# Configuración
config = {
    "spreadsheet_source_table_id": "1EEHwPEf6fWckLAEo37HYd7eOoaAp7siiZyDxy5MFaa8",
    "spreadsheet_source_table_worksheet_name": "ANIMACION",

    "ini_environment_identificated": ini_environment_identificated,
    "json_keyfile_local": GCP_json_keyfile_local,
    "json_keyfile_colab": GCP_json_keyfile_colab,
    "json_keyfile_GCP_secret_id": GCP_json_keyfile_GCP_secret_id,
}

df = table_various_sources_to_DF(config)

# display(df)


# Unir todas las columnas de 'transcription_part_*' en una única columna

transcription_columns = [col for col in df.columns if col.startswith("transcription_part_")]
df["transcription"] = df[transcription_columns].apply(lambda row: " ".join(row.dropna().astype(str)), axis=1)

# Unir todas las columnas de 'transcription_seg_part_*' en una única columna
transcription_seg_columns = [col for col in df.columns if col.startswith("transcription_seg_part_")]
df["transcription_seg"] = df[transcription_seg_columns].apply(lambda row: " ".join(row.dropna().astype(str)), axis=1)

# # Eliminar las columnas que contienen "part" en su nombre
# columns_to_drop = transcription_columns + transcription_seg_columns
# df = df.drop(columns=columns_to_drop)

df.info()
df

[AUTHENTICATION [INFO] 🔐] Entorno local/Colab detectado. Usando json_keyfile_colab.
[EXTRACTION [START ⏳]] Extrayendo datos de Google Sheets...
[EXTRACTION [SUCCESS ✅]] Datos extraídos con éxito de la hoja 'ANIMACION'.
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 613 entries, 0 to 612
Data columns (total 27 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   file_path                  613 non-null    object
 1   transcription_date         613 non-null    object
 2   transcription_duration     613 non-null    object
 3   whisper_model              613 non-null    object
 4   GPU_model                  613 non-null    object
 5   transcription_part_1       613 non-null    object
 6   transcription_part_2       613 non-null    object
 7   transcription_part_3       613 non-null    object
 8   transcription_part_4       613 non-null    object
 9   transcription_part_5       613 non-null    object
 10  transcripti

Unnamed: 0,file_path,transcription_date,transcription_duration,whisper_model,GPU_model,transcription_part_1,transcription_part_2,transcription_part_3,transcription_part_4,transcription_part_5,...,transcription_seg_part_3,transcription_seg_part_4,transcription_seg_part_5,transcription_seg_part_6,transcription_seg_part_7,transcription_seg_part_8,transcription_seg_part_9,transcription_seg_part_10,transcription,transcription_seg
0,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-02-25 15:02:43,47317,large,NVIDIA GeForce RTX 2080 SUPER,"Hola, ¿qué tal? Soy Roger Jiménez, soy animad...",,,,,...,,,,,,,,,"Hola, ¿qué tal? Soy Roger Jiménez, soy animad...","[0.00s - 14.66s]: Hola, ¿qué tal? Soy Roger J..."
1,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-02-25 15:14:29,7045,large,NVIDIA GeForce RTX 2080 SUPER,"En todas estas imágenes, ya sean de fotos o d...",,,,,...,,,,,,,,,"En todas estas imágenes, ya sean de fotos o d...","[0.00s - 10.22s]: En todas estas imágenes, ya..."
2,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-02-25 15:22:53,50293,large,NVIDIA GeForce RTX 2080 SUPER,La animación es observación. No podremos imit...,,,,,...,,,,,,,,,La animación es observación. No podremos imit...,[0.00s - 10.40s]: La animación es observación...
3,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-02-25 15:26:45,23022,large,NVIDIA GeForce RTX 2080 SUPER,¿Qué es la artisticidad? En los tiempos de la...,,,,,...,,,,,,,,,¿Qué es la artisticidad? En los tiempos de la...,[0.00s - 4.00s]: ¿Qué es la artisticidad?\n[4...
4,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-02-25 15:34:20,45395,large,NVIDIA GeForce RTX 2080 SUPER,¿Qué es el proceso de aprendizaje? Durante to...,,,,,...,,,,,,,,,¿Qué es el proceso de aprendizaje? Durante to...,[0.00s - 2.00s]: ¿Qué es el proceso de aprend...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
608,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-03-07 6:50:00,75059,large,NVIDIA GeForce RTX 2080 SUPER,¿Cómo funciona el video? ¿Cómo funciona el vi...,,,,,...,,,,,,,,,¿Cómo funciona el video? ¿Cómo funciona el vi...,[0.00s - 29.98s]: ¿Cómo funciona el video?\n[...
609,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-03-07 7:24:23,205978,large,NVIDIA GeForce RTX 2080 SUPER,"Hola de nuevo, ¿qué tal? Bueno, vamos a echar...",,,,,...,,,,,,,,,"Hola de nuevo, ¿qué tal? Bueno, vamos a echar...","[0.00s - 6.54s]: Hola de nuevo, ¿qué tal?\n[7..."
610,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-03-07 7:46:52,134612,large,NVIDIA GeForce RTX 2080 SUPER,"Bueno, vamos a continuar viendo mi progreso p...",,,,,...,,,,,,,,,"Bueno, vamos a continuar viendo mi progreso p...","[0.00s - 10.68s]: Bueno, vamos a continuar vi..."
611,\\animum.local\Produccion\LOL-Contenido\ASIGNA...,2025-03-07 7:47:21,233,large,NVIDIA GeForce RTX 2080 SUPER,¿Qué es lo que más te gusta de la lección? ¿Q...,,,,,...,,,,,,,,,¿Qué es lo que más te gusta de la lección? ¿Q...,[0.00s - 29.98s]: ¿Qué es lo que más te gusta...


In [32]:
def LLM_process_text(params: dict) -> None:
    """
    Procesa filas de un DataFrame (source_table_df) utilizando un modelo LLM según el prompt proporcionado,
    y escribe progresivamente los resultados en una hoja de cálculo de Google Sheets.

    La hoja de cálculo resultante contendrá todas las columnas originales del DataFrame de origen y
    se le agregarán columnas adicionales:
        - target_files_path_table_spreadsheet_field_transcription_name: "transciption_clean"
          (se crearán columnas "transciption_clean_part_1", "transciption_clean_part_2", ..., hasta 10 partes)
        - target_files_path_table_spreadsheet_field_comments_name: "comments"

    La respuesta del LLM se espera que tenga el siguiente formato:
        <transcripción limpia> + <sep> + <comentarios>
    donde <sep> es el valor definido en "target_files_path_table_spreadsheet_field_transcription_comments_sep" (por ejemplo "|||").

    Args:
        params (dict):
            - source_table_df (pandas.DataFrame): DataFrame con los datos de entrada.
            - source_table_field_name (str): Nombre de la columna que contiene el texto a procesar.
            - system_prompt (str): URL del Markdown en GitHub con el prompt.
            - LLM_API_key (str): Clave de API del LLM.
            - model_name (str, opcional): Nombre del modelo (default: "gpt-4").
            - source_table_row_range (str, opcional): Rango de filas a procesar (ej: "all", "1", "1-10"; default: "all").
            - temperature (float, opcional): Valor de temperatura (default: 0.7).
            - ConversationBufferMemory_params (dict, opcional): Parámetros para la memoria conversacional.
            - ini_environment_identificated (str): Entorno de ejecución ("LOCAL", "COLAB", "COLAB_ENTERPRISE" o project_id).
            - json_keyfile_local (str): Credencial para entornos LOCAL.
            - json_keyfile_colab (str): Credencial para entornos COLAB.
            - json_keyfile_GCP_secret_id (str): Credencial para entornos GCP.

            # Parámetros específicos para Google Sheets y salida:
            - target_files_path_table_spreadsheet_url (str): URL de la Google Sheet destino.
            - target_files_path_table_spreadsheet_worksheet (str): Nombre de la worksheet destino.
            - target_files_path_table_spreadsheet_field_transcription_name (str): Nombre base para el campo de transcripción limpia (ej. "transciption_clean").
            - target_files_path_table_spreadsheet_field_comments_name (str): Nombre del campo para comentarios (ej. "comments").
            - target_files_path_table_spreadsheet_field_transcription_comments_sep (str): Cadena separadora que divide la respuesta del LLM (ej. "|||").

    Returns:
        None

    Raises:
        ValueError: Si faltan parámetros esenciales o el DataFrame es inválido/está vacío.
        Exception: Para otros errores inesperados.
    """
    import time
    import pandas as pd
    import requests
    from langchain_openai import ChatOpenAI
    from langchain.prompts import (
        SystemMessagePromptTemplate,
        HumanMessagePromptTemplate,
        ChatPromptTemplate
    )
    from langchain.chains import LLMChain
    from langchain.memory import ConversationBufferWindowMemory

    import gspread
    from oauth2client.service_account import ServiceAccountCredentials

    # -------------------------------------------------------------------------
    # 0. FUNCIÓN AUXILIAR PARA TROCEAR TEXTO
    # -------------------------------------------------------------------------
    def _trocear_texto(texto: str, max_chars: int = 50000, max_partes: int = 10) -> list:
        """
        Trocea un texto en partes de longitud <= max_chars y retorna una lista de longitud max_partes.
        """
        trozos = [texto[i:i + max_chars] for i in range(0, len(texto), max_chars)]
        trozos = trozos[:max_partes]
        if len(trozos) < max_partes:
            trozos += [""] * (max_partes - len(trozos))
        return trozos

    # -------------------------------------------------------------------------
    # 1. SUBFUNCIÓN PARA VALIDACIÓN INICIAL DE PARÁMETROS
    # -------------------------------------------------------------------------
    def _validate_params() -> None:
        """
        Valida que existan los parámetros esenciales y que el DataFrame sea válido.
        Lanza ValueError si falta algo importante o si el DataFrame está vacío.
        """
        required_params = [
            "source_table_df",
            "source_table_field_name",
            "system_prompt",
            "LLM_API_key",
            "target_files_path_table_spreadsheet_url",
            "target_files_path_table_spreadsheet_worksheet"
        ]
        # Parámetros adicionales para la salida en Sheet:
        additional_required = [
            "target_files_path_table_spreadsheet_field_transcription_name",
            "target_files_path_table_spreadsheet_field_comments_name",
            "target_files_path_table_spreadsheet_field_transcription_comments_sep"
        ]
        for req in required_params + additional_required:
            if req not in params:
                raise ValueError(f"[VALIDATION [ERROR ❌]] Falta el parámetro esencial '{req}' en 'params'.")
            if req == "source_table_df":
                df = params["source_table_df"]
                if not isinstance(df, pd.DataFrame) or df.empty:
                    raise ValueError("[VALIDATION [ERROR ❌]] El DataFrame de entrada está vacío o no es válido.")
            else:
                if not params[req]:
                    raise ValueError(f"[VALIDATION [ERROR ❌]] El parámetro '{req}' está vacío o no es válido.")

    # -------------------------------------------------------------------------
    # 2. SUBFUNCIÓN DE AUTENTICACIÓN CON GOOGLE SHEETS
    # -------------------------------------------------------------------------
    def _auth_with_google_sheets() -> gspread.Worksheet:
        """
        Se autentica con Google Sheets según el entorno definido en 'ini_environment_identificated'.
        Devuelve el worksheet donde se escribirán los resultados.
        """
        ini_env = params.get("ini_environment_identificated")
        if ini_env == "LOCAL":
            credentials_path = params.get("json_keyfile_local")
            print("[AUTH INFO ℹ️] Entorno LOCAL: usando json_keyfile_local.", flush=True)
        elif ini_env == "COLAB":
            credentials_path = params.get("json_keyfile_colab")
            print("[AUTH INFO ℹ️] Entorno COLAB: usando json_keyfile_colab.", flush=True)
        elif ini_env == "COLAB_ENTERPRISE":
            credentials_path = params.get("json_keyfile_GCP_secret_id")
            print("[AUTH INFO ℹ️] Entorno COLAB_ENTERPRISE: usando json_keyfile_GCP_secret_id.", flush=True)
        else:
            credentials_path = params.get("json_keyfile_GCP_secret_id")
            print("[AUTH WARNING ⚠️] Entorno no reconocido. Se asume GCP secret ID.", flush=True)

        if not credentials_path:
            print("[AUTH WARNING ⚠️] No se ha definido ruta o ID de credenciales. Se intentará sin credenciales.", flush=True)

        scope = ["https://www.googleapis.com/auth/spreadsheets", "https://www.googleapis.com/auth/drive"]
        creds = ServiceAccountCredentials.from_json_keyfile_name(credentials_path, scope)
        client = gspread.authorize(creds)

        target_sheet_url = params["target_files_path_table_spreadsheet_url"]
        target_worksheet_name = params["target_files_path_table_spreadsheet_worksheet"]

        spreadsheet_dest = client.open_by_url(target_sheet_url)
        try:
            destination_sheet = spreadsheet_dest.worksheet(target_worksheet_name)
        except gspread.WorksheetNotFound:
            print("[SHEET INFO ℹ️] Worksheet no encontrado, creando uno nuevo...", flush=True)
            destination_sheet = spreadsheet_dest.add_worksheet(title=target_worksheet_name, rows=1000, cols=30)

        return destination_sheet

    # -------------------------------------------------------------------------
    # 3. SUBFUNCIÓN PARA PREPARAR EL ENCABEZADO DE LA HOJA
    # -------------------------------------------------------------------------
    def _append_sheet_header(sheet: gspread.Worksheet) -> None:
        """
        Limpia la worksheet y escribe un encabezado para los resultados.
        La cabecera incluye las columnas originales del DataFrame y las columnas:
          - transciption_clean_part_1 ... transciption_clean_part_10
          - comments
        """
        sheet.clear()
        df_columns = list(params["source_table_df"].columns)
        transcription_field = params["target_files_path_table_spreadsheet_field_transcription_name"]
        comments_field = params["target_files_path_table_spreadsheet_field_comments_name"]
        transcription_columns = [f"{transcription_field}_part_{i}" for i in range(1, 11)]
        header = df_columns + transcription_columns + [comments_field]
        # Usar argumentos nombrados para evitar el DeprecationWarning:
        sheet.update(range_name="A1", values=[header])
        print("[SHEET INFO ℹ️] Worksheet limpia y encabezado escrito.", flush=True)

    # -------------------------------------------------------------------------
    # 4. SUBFUNCIÓN PARA OBTENER Y PREPARAR EL PROMPT DESDE GITHUB
    # -------------------------------------------------------------------------
    def _get_system_prompt_text() -> str:
        """
        Descarga el contenido del prompt (system_prompt) desde la URL proporcionada.
        Retorna el texto listo para usarse en el ChatOpenAI.
        """
        system_prompt_url = params["system_prompt"]
        response = requests.get(system_prompt_url)
        if response.status_code != 200:
            raise ValueError(f"[VALIDATION [ERROR ❌]] No se pudo obtener el system_prompt desde {system_prompt_url}. "
                             f"Código: {response.status_code}")
        prompt_text = response.text
        # Eliminar placeholders innecesarios
        prompt_text = prompt_text.replace("{className}", "").replace("{message}", "")
        return prompt_text

    # -------------------------------------------------------------------------
    # 5. SUBFUNCIÓN PARA CONFIGURAR EL MODELO LLM Y LA MEMORIA
    # -------------------------------------------------------------------------
    def _configure_llm_chain(system_prompt_text: str) -> LLMChain:
        """
        Crea y retorna el LLMChain configurado con ChatOpenAI y la memoria conversacional.
        """
        model_name = params.get("model_name", "gpt-4")
        temperature = params.get("temperature", 0.7)
        llm_api_key = params["LLM_API_key"]

        # Conversational memory
        conversation_memory_params = params.get("ConversationBufferMemory_params", {})
        memory_obj = ConversationBufferWindowMemory(**conversation_memory_params)

        # Inicializar ChatOpenAI
        llm_obj = ChatOpenAI(api_key=llm_api_key, model_name=model_name, temperature=temperature)

        # Preparar templates
        system_msg_template = SystemMessagePromptTemplate.from_template(
            system_prompt_text, template_format="jinja2"
        )
        human_msg_template = HumanMessagePromptTemplate.from_template(
            "Aquí tienes el contenido (texto completo):\n{content}"
        )
        chat_prompt_template = ChatPromptTemplate.from_messages([system_msg_template, human_msg_template])
        chat_prompt_template.input_variables = ["content"]

        chain = LLMChain(llm=llm_obj, prompt=chat_prompt_template, memory=memory_obj)
        return chain

    # -------------------------------------------------------------------------
    # 6. SUBFUNCIÓN PARA PROCESAR UNA FILA Y ESCRIBIR RESULTADO EN SHEET
    # -------------------------------------------------------------------------
    def _process_row_and_write(
            chain: LLMChain,
            sheet: gspread.Worksheet,
            row_data: dict,
            row_index: int
    ) -> None:
        """
        Procesa el contenido de una fila utilizando 'chain' y escribe el resultado en Google Sheet.
        La fila escrita contendrá:
          - Los datos originales de source_table_df (según su orden de columnas)
          - El campo 'transciption_clean' troceado en 10 partes
          - El campo 'comments'
        """
        source_table_field_name = params["source_table_field_name"]
        content = row_data.get(source_table_field_name, "")
        if not content.strip():
            print(f"[PROCESSING WARNING ⚠️] Contenido vacío en la fila {row_index}.", flush=True)
            return

        print(f"[PROCESSING INFO ℹ️] Procesando fila {row_index}. Longitud contenido: {len(content)}.", flush=True)
        t_start = time.time()

        # Llamada al modelo
        response_str = chain.run(content=content).strip()
        t_diff = round(time.time() - t_start, 2)
        print(f"[PROCESSING SUCCESS ✅] Resumen generado en {t_diff} segundos. Fila: {row_index}", flush=True)
        print(f"[RESULT] {response_str}", flush=True)

        # Separar la respuesta en transciption_clean y comments utilizando el separador definido
        sep = params["target_files_path_table_spreadsheet_field_transcription_comments_sep"]
        split_result = response_str.split(sep, 1)
        if len(split_result) == 2:
            transcription_clean_text = split_result[0].strip()
            comments_text = split_result[1].strip()
        else:
            transcription_clean_text = response_str
            comments_text = ""

        # Trocear el texto de transciption_clean en 10 partes
        transcription_parts = _trocear_texto(transcription_clean_text)

        # Preparar la fila: se toman los datos originales del DataFrame (en el orden de sus columnas)
        df_columns = list(params["source_table_df"].columns)
        original_data = [row_data.get(col, "") for col in df_columns]

        # Fila final: datos originales + 10 partes de transciption_clean + comments
        row_to_insert = original_data + transcription_parts + [comments_text]

        try:
            sheet.append_row(row_to_insert, value_input_option="USER_ENTERED")
            print(f"[SHEET WRITE ✅] Fila {row_index} escrita en la hoja.", flush=True)
        except Exception as e:
            print(f"[ERROR ❌] Error al escribir la fila {row_index}: {e}", flush=True)

    # -------------------------------------------------------------------------
    # 7. SUBFUNCIÓN PRINCIPAL DE PROCESAMIENTO
    # -------------------------------------------------------------------------
    def _process_all_rows(chain: LLMChain, sheet: gspread.Worksheet) -> None:
        """
        Selecciona el rango de filas a procesar, itera sobre cada una y escribe resultados parciales en la Sheet.
        """
        source_table_df = params["source_table_df"]
        source_table_row_range = params.get("source_table_row_range", "all")
        all_data = source_table_df.to_dict(orient="records")

        # Calcular rango
        if source_table_row_range.lower() == "all":
            data_list = all_data
        elif "-" in source_table_row_range:
            try:
                start_row, end_row = map(int, source_table_row_range.split("-"))
                data_list = all_data[start_row - 1:end_row]
            except Exception as e:
                raise ValueError(f"[VALIDATION [ERROR ❌]] Rango inválido: {e}")
        else:
            try:
                idx = int(source_table_row_range) - 1
                data_list = [all_data[idx]]
            except Exception as e:
                raise ValueError(f"[VALIDATION [ERROR ❌]] Rango inválido: {e}")

        print(f"[RANGE INFO ℹ️] Total de filas a procesar: {len(data_list)}", flush=True)

        # Iterar y procesar cada fila
        for i, row_dic in enumerate(data_list, start=1):
            _process_row_and_write(chain, sheet, row_dic, i)

    # -------------------------------------------------------------------------
    # 8. EJECUCIÓN ORQUESTADA
    # -------------------------------------------------------------------------
    print("🔹🔹🔹 [START ▶️] Iniciando LLM_process_text 🔹🔹🔹", flush=True)
    try:
        # Validar parámetros
        _validate_params()

        # Autenticar y preparar la hoja de cálculo
        print("[AUTH START ▶️] Autenticando con Google Sheets...", flush=True)
        dest_sheet = _auth_with_google_sheets()
        print("[AUTH FINISHED ✅] Autenticación lista.", flush=True)

        # Encabezado en la hoja (incluye columnas originales + nuevas columnas)
        _append_sheet_header(dest_sheet)

        # Descargar prompt y configurar el LLM
        prompt_text = _get_system_prompt_text()
        chain_llm = _configure_llm_chain(prompt_text)

        # Procesar todas las filas y escribir resultados parciales
        _process_all_rows(chain_llm, dest_sheet)

        print("🔹🔹🔹 [FINISHED ✅] LLM_process_text finalizado. Resultados en Google Sheet. 🔹🔹🔹", flush=True)

    except ValueError as ve:
        print(f"[ERROR ❌] Valor inválido: {ve}", flush=True)
        raise
    except Exception as ex:
        print(f"[ERROR ❌] Error inesperado: {ex}", flush=True)
        raise


In [36]:
# @title EJECUTAR PROMPT DE LIMPIEZA

# Configuración de la memoria conversacional (mantiene sólo las últimas 5 interacciones)
ConversationBufferMemory_params = {
    "return_messages": False,   # Si es False, retorna solo el texto concatenado
    "human_prefix": "Usuario",
    "ai_prefix": "Asistente",
    "memory_key": "history",
    "k": 5                      # Mantener en memoria sólo las últimas 5 interacciones
}

# Preparar el diccionario de parámetros
params = {
    # --- Entorno de ejecución y credenciales ---
    "ini_environment_identificated": ini_environment_identificated,  # Ejemplo: "COLAB_ENTERPRISE"
    "json_keyfile_local": GCP_json_keyfile_local,                    # Ruta a credenciales para LOCAL
    "json_keyfile_colab": GCP_json_keyfile_colab,                    # Ruta a credenciales para COLAB
    "json_keyfile_GCP_secret_id": GCP_json_keyfile_GCP_secret_id,    # ID del secreto para GCP

    # --- DataFrame y rango de filas ---
    "source_table_df": df,           # DataFrame con los textos a procesar
    "source_table_field_name": "transcription",# Nombre de la columna con el texto
    "source_table_row_range": "1-3",            # Procesar solo filas del 1 al 3 (opciones: "all", "1", "1-10", etc.)

    # --- Parámetros del modelo LLM ---
    "LLM_API_key": OpenAI_API_key,             # Clave de API para el modelo
    "model_name": "chatgpt-4o-latest",         # Nombre del modelo (ej. "gpt-4")
    "temperature": 0.7,                        # Valor de temperatura para el modelo
    "ConversationBufferMemory_params": ConversationBufferMemory_params,  # Memoria conversacional

    # --- Prompt principal (descargado desde GitHub) ---
    "system_prompt": "https://github.com/DavidP0011/mocadi/blob/main/prompt_transcription.md",

    # --- Parámetros de destino en Google Sheets ---
    "target_files_path_table_spreadsheet_url": "https://docs.google.com/spreadsheets/d/1legg18ZqrQD1rTSwwQ71I1vaZFkez9vRnjSYq5zuWeE",
    "target_files_path_table_spreadsheet_worksheet": "ResponseAPI",
    "target_files_path_table_spreadsheet_field_transcription_name": "transciption_clean",
    "target_files_path_table_spreadsheet_field_comments_name": "comments",
    "target_files_path_table_spreadsheet_field_transcription_comments_sep": "|||"
}

# Ejecutar la función
# (Los resultados se guardan directamente en la Google Sheet especificada, sin retornar DataFrame)
LLM_process_text(params)
print("Proceso finalizado. Revisa la hoja de cálculo para ver los resultados.")


🔹🔹🔹 [START ▶️] Iniciando LLM_process_text 🔹🔹🔹
[AUTH START ▶️] Autenticando con Google Sheets...
[AUTH INFO ℹ️] Entorno COLAB: usando json_keyfile_colab.
[AUTH FINISHED ✅] Autenticación lista.
[SHEET INFO ℹ️] Worksheet limpia y encabezado escrito.
[RANGE INFO ℹ️] Total de filas a procesar: 3
[PROCESSING INFO ℹ️] Procesando fila 1. Longitud contenido: 1875.
[PROCESSING SUCCESS ✅] Resumen generado en 20.8 segundos. Fila: 1
[RESULT] Aquí tienes el texto corregido, manteniendo la literalidad absoluta y ajustando solo los errores de transcripción confirmados:

---

Hola, ¿qué tal? Soy Roger Jiménez, soy animador profesional desde el año 2000 y sobre el año 2010 empecé también a hacer trabajos de supervisión de animación. Yo soy quien va a desarrollar las lecciones sobre animación de este curso de preparación. Antes de ponernos manos a la obra en el ordenador, es muy importante que os ubique en esta disciplina artística. Los animadores se dedican a dar vida a los personajes. Para poder adquir