# **Clasificador**

Este notebook muestra cómo generar un clasificador de cartas relacionadas con el sistema eléctrico chileno, utilizando **LangChain** y un modelo de lenguaje.  

La clasificación se basa en un *prompt* detallado que evalúa si una carta trata sobre **mantenimiento mayor** o no, devolviendo un valor **True** o **False**, según las reglas definidas en `prompt_summarizer`.  

Los archivos de entrada deben estar en formato `.txt` dentro del directorio `/content/input`, y los resultados se guardan en un archivo Excel llamado `clasificacion_cartas.xlsx`.


# 1. Instalación de dependencias y librerías


In [None]:
!pip install langchain_openai pandas
!pip install --upgrade gdown

Collecting langchain_openai
  Downloading langchain_openai-0.3.6-py3-none-any.whl.metadata (2.3 kB)
Collecting tiktoken<1,>=0.7 (from langchain_openai)
  Downloading tiktoken-0.9.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.7 kB)
Downloading langchain_openai-0.3.6-py3-none-any.whl (54 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m54.9/54.9 kB[0m [31m810.6 kB/s[0m eta [36m0:00:00[0m
[?25hDownloading tiktoken-0.9.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.2 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.2/1.2 MB[0m [31m11.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: tiktoken, langchain_openai
Successfully installed langchain_openai-0.3.6 tiktoken-0.9.0


In [None]:
import os
import pandas as pd

from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate
from langchain_openai import ChatOpenAI


# 2. Configuración de variables de entorno


In [None]:
os.environ["OPENAI_API_KEY"] = "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"

# 3. Definición del prompt de resumen


In [None]:
prompt_summarizer = """Este es el texto de una carta:

{doc}

Indica si la carta se trata sobre un mantenimiento mayor (True o False).
Responde únicamente con True o False.
"""

# Plantilla que inyecta el texto de la carta en {doc}
prompt = PromptTemplate(
    template=prompt_summarizer,
    input_variables=["doc"]
)

Prueba diferentes LLMs para encontrar la configuración que mejor funcione. El siguiente link contiene los [modelos de OpenAI](https://platform.openai.com/docs/models) disponibles.


In [None]:
# Inicializar el modelo (puedes ajustar model y temperature)
llm = ChatOpenAI(
    model='gpt-4o-2024-11-20',
    temperature=0
)

# Crear el chain combinando prompt y LLM
chain = LLMChain(llm=llm, prompt=prompt)

  chain = LLMChain(llm=llm, prompt=prompt)


# 4. Clase Categorizer

In [None]:
class Categorizer:
    def __init__(self, chain, input_dir="/content"):
        """
        Construye un objeto para clasificar cartas de un directorio dado.
        chain: LLMChain para ejecutar la clasificación.
        input_dir: ruta que contiene los .txt a clasificar.
        """
        self.chain = chain
        self.input_dir = input_dir

    def execute(self):
        """
        Lee cada .txt del directorio de entrada, ejecuta la clasificación,
        y guarda un archivo Excel con los resultados.
        """
        results = []

        for filename in os.listdir(self.input_dir):
            if filename.endswith('.txt'):
                # Lee el contenido del archivo
                file_path = os.path.join(self.input_dir, filename)
                with open(file_path, 'r', encoding='utf-8') as f:
                    text = f.read()

                # Invocamos el Chain con la variable "doc"
                output = self.chain.invoke({"doc": text})
                # Obtenemos la clasificación (True o False)
                classification = output.get("text", "").strip()

                results.append({
                    "Documento": filename,
                    "MantenimientoMayor": classification
                })

        # Convertimos la lista de resultados a DataFrame
        df = pd.DataFrame(results)

        # Guardamos a un Excel
        df.to_excel('clasificacion_cartas.xlsx', index=False)
        print("Clasificación completada. Resultados:\n")
        print(df)


# 5. Ejemplo de uso


In [None]:
folder_id = "1WUV1SCsNcjgVs-GfS_GhxrqOMJ6svno6"
!gdown --folder https://drive.google.com/drive/folders/{folder_id}

Retrieving folder contents
Processing file 1ijrF7Nsaw2fKb86YvK2Ug4c86ELu9Cec DE00065-25.txt
Processing file 1Xluv2mavCm_jQtUcnj8eKU1DE2z5pygV DE00179-25.txt
Processing file 1iPeYhhM3njQkJIMqOrfxN3SnwXZd05iZ DE00196-25.txt
Processing file 1jxP_WFEGEJWByCxSFUFPcAC0Q2UeH0zs DE00239-25.txt
Processing file 187ncQL-0D7vpYcagd4aR1cuA58PhZz5h DE00278-25.txt
Processing file 1eFKOAhfi4S7J64n0NuBMi0oL0Ad6ogv0 DE00303-25.txt
Processing file 1Ytj9V_GXXOnAFKvh5kDcgpH6MNPQtERb DE00358-25.txt
Processing file 1lDZjgMPLMV2skQqobdJLKCgFzw1UygU6 DE00362-25.txt
Processing file 1H7EESheDzy9-MbZEvGbQcCg8r8yC5S3B DE07524-24.txt
Retrieving folder contents completed
Building directory structure
Building directory structure completed
Downloading...
From: https://drive.google.com/uc?id=1ijrF7Nsaw2fKb86YvK2Ug4c86ELu9Cec
To: /content/documentos_prueba_txt/DE00065-25.txt
100% 906/906 [00:00<00:00, 2.41MB/s]
Downloading...
From: https://drive.google.com/uc?id=1Xluv2mavCm_jQtUcnj8eKU1DE2z5pygV
To: /content/documentos_

In [None]:
# Creamos un objeto Categorizer pasando nuestro chain y la ruta de .txt
categorizer = Categorizer(chain=chain, input_dir="/content/documentos_prueba_txt/")

# Ejecutamos la clasificación
categorizer.execute()


Clasificación completada. Resultados:

        Documento MantenimientoMayor
0  DE00065-25.txt              False
1  DE00362-25.txt               True
2  DE00239-25.txt              False
3  DE00303-25.txt               True
4  DE07524-24.txt               True
5  DE00196-25.txt               True
6  DE00278-25.txt               True
7  DE00358-25.txt              False
8  DE00179-25.txt              False
