# **Clasificador**

Este notebook muestra cómo generar un clasificador de cartas relacionadas con el sistema eléctrico chileno, utilizando **LangChain** y un modelo de lenguaje.  

La clasificación se basa en un *prompt* detallado que evalúa si una carta trata sobre **mantenimiento mayor** o no, devolviendo un valor **True** o **False**, según las reglas definidas en `prompt_summarizer`.  

Los archivos de entrada deben estar en formato `.txt` dentro del directorio `/content/input`, y los resultados se guardan en un archivo Excel llamado `clasificacion_cartas.xlsx`.


# 1. Instalación de dependencias y librerías


In [7]:
import os
import pandas as pd
import openpyxl

from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate
from langchain_openai import ChatOpenAI


# 2. Configuración de variables de entorno


In [2]:
os.environ["OPENAI_API_KEY"] = "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"

# 3. Definición del prompt de resumen


In [3]:
prompt_summarizer = """Este es el texto de una carta:

{doc}

Indica si la carta se trata sobre un mantenimiento mayor (True o False).
Responde únicamente con True o False.
"""

# Plantilla que inyecta el texto de la carta en {doc}
prompt = PromptTemplate(
    template=prompt_summarizer,
    input_variables=["doc"]
)

Prueba diferentes LLMs para encontrar la configuración que mejor funcione. El siguiente link contiene los [modelos de OpenAI](https://platform.openai.com/docs/models) disponibles.


In [4]:
# Inicializar el modelo (puedes ajustar model y temperature)
llm = ChatOpenAI(
    model='gpt-4o-2024-11-20',
    temperature=0
)

# Crear el chain combinando prompt y LLM
chain = LLMChain(llm=llm, prompt=prompt)

  chain = LLMChain(llm=llm, prompt=prompt)


# 4. Clase Categorizer

In [5]:
class Categorizer:
    def __init__(self, chain, input_dir="/content"):
        """
        Construye un objeto para clasificar cartas de un directorio dado.
        chain: LLMChain para ejecutar la clasificación.
        input_dir: ruta que contiene los .txt a clasificar.
        """
        self.chain = chain
        self.input_dir = input_dir

    def execute(self):
        """
        Lee cada .txt del directorio de entrada, ejecuta la clasificación,
        y guarda un archivo Excel con los resultados.
        """
        results = []

        for filename in os.listdir(self.input_dir):
            if filename.endswith('.txt'):
                # Lee el contenido del archivo
                file_path = os.path.join(self.input_dir, filename)
                with open(file_path, 'r', encoding='utf-8') as f:
                    text = f.read()

                # Invocamos el Chain con la variable "doc"
                output = self.chain.invoke({"doc": text})
                # Obtenemos la clasificación (True o False)
                classification = output.get("text", "").strip()

                results.append({
                    "Documento": filename,
                    "MantenimientoMayor": classification
                })

        # Convertimos la lista de resultados a DataFrame
        df = pd.DataFrame(results)

        # Guardamos a un Excel
        df.to_excel('clasificacion_cartas.xlsx', index=False)
        print("Clasificación completada. Resultados:\n")
        print(df)


# 5. Ejemplo de uso


In [8]:
# Creamos un objeto Categorizer pasando nuestro chain y la ruta de .txt
categorizer = Categorizer(chain=chain, input_dir="documentos_prueba_txt/")

# Ejecutamos la clasificación
categorizer.execute()


Clasificación completada. Resultados:

        Documento MantenimientoMayor
0  DE00179-25.txt              False
1  DE00065-25.txt              False
2  DE00196-25.txt               True
3  DE00278-25.txt               True
4  DE00362-25.txt               True
5  DE00358-25.txt              False
6  DE00303-25.txt               True
7  DE00239-25.txt              False
8  DE07524-24.txt               True
