# **Resumidor**

Este notebook muestra cómo generar un una minuta resumen de tres cartas relacionadas con el sistema eléctrico chileno, utilizando **LangChain** y un modelo de lenguaje.  

El resumen se basa en un *prompt* detallado que exige una síntesis clara, concisa e imparcial, siguiendo las reglas específicas descritas en `prompt_summarizer`.



# 1. Instalación de dependencias y librerías


In [1]:
!pip install langchain_openai
!pip install --upgrade gdown

Collecting langchain_openai
  Downloading langchain_openai-0.3.6-py3-none-any.whl.metadata (2.3 kB)
Collecting tiktoken<1,>=0.7 (from langchain_openai)
  Downloading tiktoken-0.9.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.7 kB)
Downloading langchain_openai-0.3.6-py3-none-any.whl (54 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m54.9/54.9 kB[0m [31m1.6 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading tiktoken-0.9.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.2 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.2/1.2 MB[0m [31m20.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: tiktoken, langchain_openai
Successfully installed langchain_openai-0.3.6 tiktoken-0.9.0


In [2]:
import os

from langchain_core.prompts import PromptTemplate
from langchain_openai import ChatOpenAI

In [3]:
def read_txt(path):
    with open(path, 'r', encoding='utf-8') as file:
        return file.read()

# 2. Configuración de variables de entorno


In [4]:
os.environ["OPENAI_API_KEY"] = "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"

# 3. Definición del prompt de resumen


In [5]:
prompt_summarizer = """
# Función
Resume el contenido de los siguientes documentos en una minuta. El texto que elabores debe tener en cuenta los siguientes puntos:
1. La información proviene de un OCR  y podría o no estar en formato markdown.
2. Elabora una minuta lo más extensa posible, maximizando la cantidad de detalles.
3. Tus analisis deben ser neutrales y objetivos.
4. Usa markdown para estructurar tu respuesta.

# Documento 1
{doc_1}

# Documento 2
{doc_2}

# Documento 3
{doc_3}

# Respuesta
"""

print("Prompt cargado correctamente.")


Prompt cargado correctamente.


# 4. Clase Summarizer

In [6]:
class Summarizer:
    """
    Clase que combina un prompt predefinido (prompt_summarizer)
    con un modelo de lenguaje para generar un resumen especializado.
    """
    def __init__(self, model="gpt-4o-2024-11-20", temperature=0):
        """
        model: str con el nombre del modelo OpenAI (ej. gpt-4o-2024-11-20).
        temperature: Control de 'creatividad' (0 -> más determinista).
        """
        # Definimos el LLM de OpenAI
        llm = ChatOpenAI(model=model, temperature=temperature)

        # Creamos una plantilla (PromptTemplate) que usa 'prompt_summarizer'
        # e introduce las variables "doc_1", "doc_2", "doc_3" donde irán los textos a resumir
        prompt = PromptTemplate(
            template=prompt_summarizer,
            input_variables=["doc_1", "doc_2", "doc_3"] # input_variables
        )

        # Encadenamos el prompt y el modelo en un solo paso
        self.chain = prompt | llm

    def __call__(self, input_texts):
        """
        Llama a la cadena (prompt + modelo) con uno o varios textos a resumir.
        Retorna el resumen generado.
        """

        # Ejecutamos la cadena con los textos correspondientes a doc_1, doc_2 y doc_3
        output = self.chain.invoke({"doc_1": input_texts[0], "doc_2": input_texts[1], "doc_3": input_texts[2]})

        return output.content

# 5. Ejemplo de uso

Prueba diferentes LLMs para encontrar la configuración que mejor funcione. El siguiente link contiene los [modelos de OpenAI](https://platform.openai.com/docs/models) disponibles.


In [7]:
folder_id = "1lcNwzeXpfCMMcwpA2ojsdCLCkJF9O_8d"
!gdown --folder https://drive.google.com/drive/folders/{folder_id}

Retrieving folder contents
Processing file 1MTkrbDj2D_fAyduOlH7pLX_ylg8jwDpU doc_1.md
Processing file 16fCfxK3fvvGvvJApF42ZQqJzOjv5k-eb doc_2.txt
Processing file 1CEdk4t4GUDvOkci9W_mf2N06CL-tygCy doc_3.txt
Retrieving folder contents completed
Building directory structure
Building directory structure completed
Downloading...
From: https://drive.google.com/uc?id=1MTkrbDj2D_fAyduOlH7pLX_ylg8jwDpU
To: /content/documentos_prueba/doc_1.md
100% 3.87k/3.87k [00:00<00:00, 16.6MB/s]
Downloading...
From: https://drive.google.com/uc?id=16fCfxK3fvvGvvJApF42ZQqJzOjv5k-eb
To: /content/documentos_prueba/doc_2.txt
100% 1.63k/1.63k [00:00<00:00, 8.02MB/s]
Downloading...
From: https://drive.google.com/uc?id=1CEdk4t4GUDvOkci9W_mf2N06CL-tygCy
To: /content/documentos_prueba/doc_3.txt
100% 1.31k/1.31k [00:00<00:00, 5.82MB/s]
Download completed


In [None]:
# Creamos una instancia del resumidor con GPT-4o y temperatura=0 (más determinista)
summarizer = Summarizer(model="gpt-4o-2024-11-20", temperature=0)

# Debes importar los documentos a tu carpeta principal en colab
doc_1 = read_txt("/content/documentos_prueba/doc_1.md")
doc_2 = read_txt("/content/documentos_prueba/doc_2.txt")
doc_3 = read_txt("/content/documentos_prueba/doc_3.txt")

input_docs = [doc_1, doc_2, doc_3]

# Llamamos a la clase con el texto a resumir
resumen_generado = summarizer(input_docs)

print("=== RESUMEN GENERADO === \n")
print(resumen_generado)
