# **Clasificador**

Este notebook muestra cómo generar un clasificador de cartas relacionadas con el sistema eléctrico chileno, utilizando **LangChain** y un modelo de lenguaje.  

La clasificación se basa en un *prompt* detallado que evalúa si una carta trata sobre **mantenimiento mayor** o no, devolviendo un valor **True** o **False**, según las reglas definidas en `prompt_summarizer`.  

Los archivos de entrada deben estar en formato `.txt` dentro del directorio `/content/input`, y los resultados se guardan en un archivo Excel llamado `clasificacion_cartas.xlsx`.


# 1. Instalación de dependencias y librerías


In [1]:
!pip install langchain_openai pandas
!pip install llama-parse openpyxl  # openpyxl para el guardado a Excel
!pip install --upgrade gdown

Collecting langchain_openai
  Downloading langchain_openai-0.3.6-py3-none-any.whl.metadata (2.3 kB)
Collecting tiktoken<1,>=0.7 (from langchain_openai)
  Downloading tiktoken-0.9.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.7 kB)
Downloading langchain_openai-0.3.6-py3-none-any.whl (54 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m54.9/54.9 kB[0m [31m1.6 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading tiktoken-0.9.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.2 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.2/1.2 MB[0m [31m17.5 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: tiktoken, langchain_openai
Successfully installed langchain_openai-0.3.6 tiktoken-0.9.0
Collecting llama-parse
  Downloading llama_parse-0.6.1-py3-none-any.whl.metadata (6.9 kB)
Collecting llama-cloud-services>=0.6.1 (from llama-parse)
  Downloading llama_cloud_services-0.6.1-py3-none-any.whl.metadata (2.7 k

In [3]:
import os
import pandas as pd
import nest_asyncio
from llama_parse import LlamaParse

from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate
from langchain_openai import ChatOpenAI


# 2. Configuración de variables de entorno


In [4]:
os.environ["OPENAI_API_KEY"] = "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"
os.environ["LLAMA_CLOUD_API_KEY"] = "llx-8v5h42HTpAHWUI3YlAnj1vKiFU9RizaF9w6APcg0AU0Lw7Pa"

# 3. Definición del prompt del parser



In [5]:
parsing_instructions = '''
The document contains structured text that includes headers, dates, names of individuals, institutions, and places, as well as numbered sections, lists, and tables. Many of these documents feature text that is highly deteriorated and requires careful interpretation, contextualization, and reconstruction. Non-essential elements, such as scratches, signatures, and diagonal annotations, must be omitted.
To ensure the integrity of the extracted information, the text must be preserved in its literal form without summarizing, paraphrasing, or modifying its meaning. Treat each document as evidentiary material, prioritizing rigorous and faithful extraction practices.
Recognize that most documents are typewritten, which introduces specific challenges such as ink smudges, duplicated letters, and words split across lines. Proactively correct these errors, ensuring clarity and precision in the recovered content.
While processing, handle page breaks to maintain the narrative flow, and retain the original structure of tables and lists without flattening their format. Extract and clearly highlight key names, dates, and places. Quotes, dialogues, abbreviations, and codes must be preserved exactly as they appear. Non-textual elements should be omitted to focus solely on the written content.
The output should adhere to Markdown formatting conventions but must not include code block tags such as markdown. Use bold formatting for headers, numbered or bulleted lists for structured sections, block quotes for quoted material, and Markdown-compatible tables for tabular data. Narrative text should be continuous, providing both factual information and detailed descriptions, while preserving the integrity and original context of the document. Additionally, prioritize correcting OCR-related errors caused by typewriter artifacts whenever possible.
The response must be exclusively in the original language of the document, which is generally Spanish. No translation or language modification is allowed.
'''

print("Instrucciones de parseo definidas.")


Instrucciones de parseo definidas.


# 3.1. Definición del prompt de resumen






In [6]:
prompt_summarizer = """Este es el texto de una carta:

{doc}

Indica si la carta se trata sobre un mantenimiento mayor (True o False).
Responde únicamente con True o False.
"""

# Plantilla que inyecta el texto de la carta en {doc}
prompt = PromptTemplate(
    template=prompt_summarizer,
    input_variables=["doc"]
)

Prueba diferentes LLMs para encontrar la configuración que mejor funcione. El siguiente link contiene los [modelos de OpenAI](https://platform.openai.com/docs/models) disponibles.


In [7]:
# Inicializar el modelo (puedes ajustar model y temperature)
llm = ChatOpenAI(
    model='gpt-4o-2024-11-20',
    temperature=0
)

# Crear el chain combinando prompt y LLM
chain = LLMChain(llm=llm, prompt=prompt)

  chain = LLMChain(llm=llm, prompt=prompt)


# 4. Clase PDFtoTextConverter

In [8]:
# Asegura que asyncio funcione correctamente en Colab/Jupyter
nest_asyncio.apply()

class PDFtoTextConverter:
    """
    Clase encargada de convertir archivos PDF en texto plano (.txt) mediante LlamaParse.
    """
    def __init__(self, parsing_instructions=None, language='es'):
        """
        parsing_instructions: Reglas personalizadas para el parsing (ver docs de LlamaParse).
        language: Idioma principal de extracción (ej. 'es').
        """
        self.parsing_instructions = parsing_instructions
        self.language = language

    def convert_pdf_to_txt(self, pdf_path):
        """
        Convierte un archivo PDF a .txt usando LlamaParse y devuelve la ruta
        al archivo de texto resultante.
        """
        parser = LlamaParse(
            result_type="markdown",
            parsing_instructions=self.parsing_instructions,
            language=self.language,
            skip_diagonal_text=True,
            do_not_unroll_columns=False
        )

        # Procesa y extrae el texto del PDF
        document = parser.load_data(pdf_path)
        full_text = ''
        for section in document:
            full_text += '\n\n' + section.text

        # Crea el nombre de archivo .txt y lo escribe
        txt_path = os.path.splitext(pdf_path)[0] + ".txt"
        with open(txt_path, "w", encoding="utf-8") as file:
            file.write(full_text)

        return txt_path


# 4.1. Clase Categorizer

In [9]:
class Categorizer:
    """
    Clase encargada de:
      1) Convertir PDFs a .txt (si no existen) usando la clase PDFtoTextConverter.
      2) Leer los .txt y clasificarlos usando un LLMChain.
    """
    def __init__(self, chain, ocr_converter=None, input_dir="/content"):
        """
        chain: LLMChain para ejecutar la clasificación.
        ocr_converter: Instancia de PDFtoTextConverter para convertir PDFs a .txt.
        input_dir: ruta que contiene los .pdf y/o .txt a clasificar.
        """
        self.chain = chain
        self.ocr_converter = ocr_converter  # Puede ser None si no se desea conversión
        self.input_dir = input_dir

    def execute(self):
        """
        1) Convierte cada .pdf del directorio a .txt (si no existen).
        2) Lee cada .txt del directorio, ejecuta la clasificación,
        3) Guarda un archivo Excel con los resultados.
        """
        # 1) Si hay PDF, conviértelos a .txt
        if self.ocr_converter:
            for filename in os.listdir(self.input_dir):
                if filename.lower().endswith('.pdf'):
                    pdf_path = os.path.join(self.input_dir, filename)
                    self.ocr_converter.convert_pdf_to_txt(pdf_path)

        # 2) Clasificar cada archivo .txt existente en el directorio
        results = []
        for filename in os.listdir(self.input_dir):
            if filename.lower().endswith('.txt'):
                file_path = os.path.join(self.input_dir, filename)
                with open(file_path, 'r', encoding='utf-8') as f:
                    text = f.read()

                # Llama a la cadena (Chain) con la variable "doc"
                output = self.chain.invoke({"doc": text})
                # Asume que el Chain retorna algo en "text" (True/False u otra etiqueta)
                classification = output.get("text", "").strip()

                results.append({
                    "Documento": filename,
                    "MantenimientoMayor": classification
                })

        # 3) Exportar a Excel
        df = pd.DataFrame(results)
        df.to_excel('clasificacion_cartas.xlsx', index=False)
        print("Clasificación completada. Resultados:\n")
        print(df)


# 5. Ejemplo de uso


Importar directorio con documentos de prueba

In [11]:
folder_id = "189Q1pzYNb_kDkFTg--YrnaOhBYwQhZ-g"
!gdown --folder https://drive.google.com/drive/folders/{folder_id}

Retrieving folder contents
Processing file 1DDaNmOUna9KfCRR-audxPn3XchkOg1HS DE00065-25.pdf
Processing file 1MaQLtC8q7CAHENBDocE_hU1qaw_o6QRY DE00179-25.pdf
Processing file 1l0mrTm85IYRr0oXglGKiLKfKisWNB2T1 DE00196-25.pdf
Processing file 1Ag9luybzEGfVrsOZnV901mN3IjWVOO7z DE00239-25.pdf
Processing file 1bmkfW6ZL9kmDz68_8GrcGvaYAWtSZ-dg DE00278-25.pdf
Processing file 10ag2mHEjjSja_sSNdsUUoLg5hRfnL8UX DE00303-25.pdf
Processing file 1Tdp6-NA6IV5Re0DESV8zdOH6f8feX4mX DE00358-25.pdf
Processing file 10N8BIcNhjqAIY08vWa8oU9lG6Uu_b9x2 DE00362-25.pdf
Processing file 1F7BksbTjM7oFS4BjlHbX_Zi3zmDAftgE DE07524-24.pdf
Retrieving folder contents completed
Building directory structure
Building directory structure completed
Downloading...
From: https://drive.google.com/uc?id=1DDaNmOUna9KfCRR-audxPn3XchkOg1HS
To: /content/documentos_prueba/DE00065-25.pdf
100% 83.2k/83.2k [00:00<00:00, 101MB/s]
Downloading...
From: https://drive.google.com/uc?id=1MaQLtC8q7CAHENBDocE_hU1qaw_o6QRY
To: /content/documentos_p

In [12]:
# Ejecutamos OCR
ocr = PDFtoTextConverter(parsing_instructions=parsing_instructions, language='es')
# Creamos un objeto Categorizer pasando nuestro chain y la ruta de .txt
categorizer = Categorizer(chain=chain, ocr_converter=ocr, input_dir="/content/documentos_prueba")
# Ejecutamos la clasificación
categorizer.execute()

Error while parsing the file '/content/documentos_prueba/DE07524-24.pdf': Server disconnected without sending a response.


KeyboardInterrupt: 