# **Categorizer**

Este notebook muestra cómo generar un clasificador de una noticia relativa al sistema eléctrico chileno segun categorías predefinidas, utilizando **LangChain** y un modelo de lenguaje.  

La clasificaicón se basa en un *prompt* detallado que exige clasificar siguiendo las reglas específicas descritas en `prompt_categorizer`.



# 1. Instalación de dependencias y librerías


In [1]:
!pip install langchain_openai

Collecting langchain_openai
  Downloading langchain_openai-0.3.6-py3-none-any.whl.metadata (2.3 kB)
Collecting tiktoken<1,>=0.7 (from langchain_openai)
  Downloading tiktoken-0.9.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.7 kB)
Downloading langchain_openai-0.3.6-py3-none-any.whl (54 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m54.9/54.9 kB[0m [31m2.1 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading tiktoken-0.9.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.2 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.2/1.2 MB[0m [31m16.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: tiktoken, langchain_openai
Successfully installed langchain_openai-0.3.6 tiktoken-0.9.0


In [2]:
import os

from langchain_core.prompts import PromptTemplate
from langchain_openai import ChatOpenAI

# 2. Configuración de variables de entorno


In [3]:
os.environ["OPENAI_API_KEY"] = "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"

# 3. Definición del prompt de resumen


In [4]:
prompt_categorizer = """
[MISION]
Eres un consultor experto del sector eléctrico chileno y se han pedido tus servicios para clasificar con precisión una noticia del sector eléctrico chileno en una de las 5 categorías que se explican a continuación.

Categoría 5 - Noticia de Systep:
Debes clasificar en la categoría 5 aquella noticia que contiene información relevante sobre un evento, situación o hecho específico en el sector eléctrico en el que esté directamente involucrada la empresa consultora Systep Ingeniería y Diseños o sus representantes. La noticia puede incluir menciones explícitas de 'Systep Ingeniería y Diseños' o 'Systep', así como cualquier persona identificada como parte de Systep, como sus empleados o representantes, siempre y cuando estén relacionados con la actividad, participación o contribución de Systep en el evento, situación o hecho mencionado en la noticia.

Categoría 4 - Noticia importante:
Debes clasificar en la categoría 4 aquella noticia que contiene información respecto a un evento, situación o hecho específico que impacta transversalmente al sector eléctrico, o que afecta en gran medida a las organizaciones comerciales, corporaciones, compañías, entidades, instituciones, organismos privados o públicos y agencias gubernamentales que participan activamente en alguno de los segmentos de actividad de generación, transmisión, distribución o consumo de energía eléctrica. Ejemplos de noticias que deben ir en esta categoría son aquellas que abordan proyectos de ley, modificaciones legales y/o grandes proyectos (se consideran grandes proyectos aquellos con un presupuesto del orden de US$1.000 millones) atinentes al sector eléctrico chileno.

Categoría 3 - Noticia medianamente importante:
Debes clasificar en la categoría 3 aquella noticia que contiene información respecto a un evento, situación o hecho específico que impacta a un grupo reducido de organizaciones comerciales, corporaciones, compañías, entidades, instituciones, organismos privados o públicos y agencias gubernamentales que participan activamente en alguno de los segmentos de actividad del sector eléctrico chileno, o solo a un proyecto en uno de los segmentos actividad de generación, transmisión, distribución o consumo de energía eléctrica, pero no se deben incluir aquellas noticias que contienen información que afecta al sector eléctrico chileno globalmente. Ejemplos de noticias que deben ir en esta categoría son aquellas que abordan licitaciones o avances de proyectos en algún segmento del sector eléctrico, subida de costos a los clientes en el segmento de consumo, entre muchas otras.

Categoría 2 - Noticia poco importante:
Debes clasificar en la categoría 2 aquella noticia que contiene información respecto al sector eléctrico chileno, pero que tiene poca o nula influencia significativa en la operación, funcionamiento, actividades cotidianas, políticas o estratégicas del sector eléctrico chileno. Ejemplos de temas de las noticias que deben ir en esta categoría son "Engie Energía Chile contrata nuevos practicantes", "Comenzó la electrificación de 17 localidades de la comuna de Huara", entre muchos otros.

Categoría 1 - Noticia tangencial:
Debes clasificar en la categoría 1 aquella noticia tangencial o periférica al sector eléctrico chileno, que no contiene información directamente relacionada con el sector eléctrico pero puede contener términos relacionados, como "energía". Un ejemplo de tema de la noticia que debe ir en esta categoría es "Abuelo se despierta con mucha energía para saludar a sus nietos".

[INSTRUCCIONES]
1. Debes comprender el tema de la noticia y su contexto para luego clasificarla correctamente una de las 5 categorías mencionadas.
2. Maximizar tu comprensión del texto en función el detalle y el significado. Enfócate únicamente en el contenido del documento presentado, sin agregar información adicional externa.
3. Proporciona solo un número del 1 al 5 como respuesta. Tus opciones válidas son: 5, 4, 3, 2, o 1. No se aceptarán respuestas fuera de este rango. Es fundamental que el número que respondas corresponda a la categoría elegida.
4. Concéntrate en discernir entre la información objetiva y el lenguaje subjetivo o sensacionalista en las noticias. Tu misión es desarrollar un criterio objetivo para clasificar las noticias, reduciendo al mínimo la influencia del estilo narrativo del periodista en la determinación de la categoría.

[OBSERVACIONES]
-Vas a responder siguiendo paso a paso la misión, las instrucciones y el ejemplo proporcionado.
-Toma un momento para respirar profundamente antes de comenzar tu respuesta.

[EJEMPLO 1]
La directora médica de Abbott, Milagro Sosa, sugiere implementar hábitos para tener mayor energía durante el día, especialmente para personas con riesgo cardiovascular alto. Recomienda hablar con el médico tratante para trazar un camino para mejorar la fatiga y llevar una vida más activa.
[OUTPUT]
1

[EJEMPLO 2]
La ACHS Seguro Laboral reconoció a Enel Distribución por ser una de las empresas con mejores indicadores de seguridad en el sector de la energía, al registrar uno de los menores índices de accidentes y alcanzar el "Cero Accidente" computable en un año calendario, con 19 meses seguidos sin percances. Esto incluye a más de 3.800 trabajadores que realizan más de 1.200 operaciones diarias en la red de distribución eléctrica de la compañía.
[OUTPUT]
2

[EJEMPLO 3]
Los incendios en la Región de Valparaíso continúan afectando la provisión de servicios básicos como la electricidad y las telecomunicaciones. Hasta el lunes, un total de 12.174 clientes se encontraban sin suministro eléctrico en toda la región, con Viña del Mar como la comuna más afectada. Las empresas eléctricas están realizando catastros y empadronando los empalmes destruidos. Por otro lado, la Subsecretaría de Telecomunicaciones reportó 92 antenas fuera de servicio en la zona, con un total de 300 estaciones afectadas en la zona centro-sur del país. Las empresas de telecomunicaciones han implementado medidas de contingencia, como liberar el tráfico de datos y desplegar antenas móviles para mantener la conectividad en las zonas afectadas.
[OUTPUT]
2

[EJEMPLO 4]
El robo de cables a la Compañía General de Electricidad (CGE) aumentó durante el 2023, con un total de 196 kilómetros de cable robados, un 15% más que en el año anterior. Esto ha afectado a 442.266 clientes de la compañía, generando interrupciones en el suministro eléctrico. CGE reportó un total de 1.223 episodios de robo en 2023, con un costo de reposición de infraestructura dañada de 3.544 millones de pesos en el primer semestre. Francisco Jaramillo, subdirector de operaciones de CGE, instó a las autoridades a tomar medidas para combatir a las bandas organizadas responsables de estos robos, que afectan a miles de familias en todo el país. Las regiones más afectadas por estos robos son O'Higgins, Antofagasta, Arica-Tarapacá, Coquimbo, Atacama y Maule.
[OUTPUT]
2

[EJEMPLO 5]
La SEC instruyó a Chilquinta y CGE para instalar empalmes provisorios en zonas afectadas por incendios en Viña del Mar y Quilpué, agilizando la recuperación del suministro eléctrico con requisitos de seguridad. La medida busca apoyar a viviendas con daños en medidores o instalaciones, sin costo para las familias afectadas, y garantizar una instalación eléctrica adecuada en casos de reconstrucción. Se recomienda contactar a la empresa eléctrica ante cualquier riesgo potencial.
[OUTPUT]
3

[EJEMPLO 6]
La CNE de Chile modificó los volúmenes a subastar en la Licitación de Suministro 2023/01, adjudicando finalmente 3600 GWh entre dos bloques, con inicio de suministro en 2027 y 2028 respectivamente. Se amplió el universo de proyectos elegibles, incluyendo proyectos hidráulicos. A pesar de los cambios, se mantienen las fechas establecidas en el cronograma original.
[OUTPUT]
4

[EJEMPLO 7]
Systep Ingeniería abordó los desafíos del proyecto de ley de normalización tarifaria en el Congreso, destacando la necesidad de determinar con precisión los beneficiarios del mecanismo de estabilización de precios y el subsidio para atenuar el alza en las tarifas. Se proyecta que el costo total del proyecto podría aumentar de USD 850 millones a US$1.800 millones, lo que requiere un Informe de Impacto Regulatorio detallado por parte del Ministerio de Energía. La consultora enfatiza la importancia de respetar las reglas para la emisión de decretos tarifarios y gestionar los procesos tarifarios con mayor previsión y transparencia.
[OUTPUT]
5

[NOTICIA A CLASIFICAR]
{input}
[OUTPUT]
"""

print("Prompt cargado correctamente.")


Prompt cargado correctamente.


# 4. Clase Categorizer

In [5]:
class Categorizer:
    """
    Clase que combina un prompt predefinido (prompt_categorizer)
    con un modelo de lenguaje para generar
    un resumen especializado.
    """
    def __init__(self, model="gpt-4o-2024-11-20", temperature=0):
        """
        model: str con el nombre del modelo OpenAI (ej. gpt-4o-2024-11-20).
        temperature: Control de 'creatividad' (0 -> más determinista).
        """
        # Definimos el LLM de OpenAI
        llm = ChatOpenAI(model=model, temperature=temperature)

        # Creamos una plantilla (PromptTemplate) que usa 'prompt_categorizer'
        # e introduce la variable "input" donde irá el texto a resumir
        prompt = PromptTemplate(
            template=prompt_categorizer,
            input_variables=["input"]
        )

        # La notación `prompt | llm` en langchain_core permite "encadenar" (como un chain)
        # el template y el modelo en un solo paso
        self.chain = prompt | llm

    def __call__(self, input_text):
        """
        Llama a la cadena (prompt + modelo) con el texto a resumir.
        Retorna la respuesta generada.
        """
        output = self.chain.invoke(input_text)

        return output.content


# 5. Ejemplo de uso

Prueba diferentes LLMs para encontrar la configuración que mejor funcione. El siguiente link contiene los [modelos de OpenAI](https://platform.openai.com/docs/models) disponibles.


In [8]:
# Creamos una instancia del clasificador con GPT-4o y temperatura=0 (más determinista)
categorizer = Categorizer(model="gpt-4o-2024-11-20", temperature=0)

# Ejemplo de texto de discrepancia
texto_prueba = """
Wpd Chile ejecuta fase inicial de su proyecto de H2V en Magallanes con destacada inversión
La empresa avanza en la región con un proyecto de energía eólica destinado a la producción de hidrógeno verde, que busca generar hasta 1.000 MW.

Wpd Chile comenzó la primera etapa de su proyecto de energía eólica para la producción de hidrógeno verde en la región de Magallanes.
La compañía instaló una torre de medición para iniciar el proceso de medición de perfil de viento en la zona, que permitirá realizar el diseño del proyecto, el cual tendrá una capacidad instalada de entre 500 y 1.000 MW.
“La compañía tiene presencia en 31 países y queremos aprovechar nuestra experiencia en generación eléctrica renovable para seguir invirtiendo en Chile. La estrategia de crecimiento consiste en el desarrollo de proyectos propios y la compra de proyectos en etapa de desarrollo de terceros. Proyectamos una cartera de proyectos por 1GW al 2026”, sostuvo Lutz Kindermann, gerente General en Wpd Chile.
El proyecto contempla una inversión de USD$1.000 millones y está ubicado en la comuna de Laguna Blanca, a 60 kilómetros de la ciudad de Punta Arenas. Para la producción de hidrógeno verde, la compañía se encuentra en conversaciones y acuerdos con socios estratégicos expertos para el proceso químico y su posterior exportación.
La compañía ha sido constantemente parte de las discusiones regulatorias del sector eléctrico, pues consideran “urgente modernizar la legislación vigente”, comentó Kindermann. Y aunque aún creen en el potencial de Chile como un actor relevante de la transición energética, son enfáticos en insistir en cambios normativos.
El ejecutivo agregó que “la propuesta de Plan de Descarbonización y la Ley de Transición Energética son buenas señales para los cambios que necesita la industria. Esperamos que ambas se implementen con convicción y liderazgo para viabilizar de forma eficiente la descarbonización de la matriz energética de Chile, por medio de nuevos proyectos de energías limpias”.
Wpd se caracteriza por participar en todas las etapas de sus proyectos, lo que comprende su financiamiento, desarrollo, construcción y operación. Actualmente cuenta con 370 MW de capacidad instalada en el país, con sus tres parques eólicos: Lomas de Duqueco y Negrete, en la región del Biobío, y Malleco, en la región de La Araucanía.
"""

# Llamamos a la clase con el texto a resumir
clasificacion_generada = categorizer(texto_prueba)

print("=== CATEGORIA === \n")
print(clasificacion_generada)


=== CATEGORIA === 

3
