# Proyecto Final: 
# Generación automatizada de reportes con IA

## Introducción

### Nombre del proyecto:
#### Generación automatizada de reportes con IA

### Presentación del problema a abordar:
En el ámbito de la administración de sistemas y monitoreo IT, herramientas como **Zabbix** generan una gran cantidad de datos sobre disponibilidad, rendimiento y alertas. Aunque estos datos son esenciales, el proceso de convertirlos en reportes significativos para gerentes y stakeholders suele ser tedioso y consume tiempo, ya que requiere:

 - Extraer métricas relevantes de los sistemas.

 - Analizar tendencias y comportamientos en los datos.

 - Presentar resultados de manera clara y profesional.

Este problema es particularmente relevante porque los reportes son fundamentales para tomar decisiones estratégicas, medir acuerdos de nivel de servicio (SLAs) y comunicar resultados de manera efectiva. Sin embargo, los equipos técnicos pueden perder un tiempo valioso en tareas repetitivas en lugar de enfocarse en actividades críticas.


### Desarrollo de la propuesta de solución:
La solución propuesta consiste en desarrollar un sistema automatizado que utilice **modelos de IA** para generar reportes narrativos y también gráficos basados en datos extraídos de Zabbix. Este sistema tendrá dos componentes principales:

**Texto a texto**:

1. Usar prompts que transformen métricas y datos de Zabbix en un análisis narrativo.

2. Por ejemplo, convertir una tabla con tiempos de disponibilidad e indisponibilidad de un cierto servicio en un resumen como:
   - "El servicio X tuvo una disponibilidad del 99.87% esta semana, cumpliendo con el SLA acordado. Hubo una interrupción de 15 minutos el día miércoles, causada por XY razón."


**Texto a imagen**:

1. Generar gráficos y diagramas (disponibilidad semanal, tiempos de indisponibilidad, etc.) basados en las métricas, que complementen el análisis narrativo.

2. Por ejemplo: gráficos de barras para comparar la disponibilidad entre servicios o líneas de tiempo para visualizar tendencias. En caso de no quedar satisfecho con las generaciones de imágenes sobre estos puntos, nuestra contingencia será generar imágenes indicadoras a modo de resumen o pantallazo general de como fue el comportamiento de disponibilidad de los servicios monitoreados.



### Justificación de la viabilidad del proyecto:
Este proyecto es técnicamente viable debido a:

1. Acceso a herramientas: Se utilizará la API de OpenAI para implementar los modelos de IA necesarios.

2. Procesamiento eficiente: Los datos provenientes de Zabbix ya están procesados en un formato amigable para la IA, además, al menos para esta segunda pre-entrega, partimos de una entrada de datos estática en el código.

3. Control de costos: Los prompts se diseñaron para ser breves y optimizados, minimizando por ese lado el gasto de tokens al generar resúmenes y gráficos, no obstante, en algunos escenarios no se acudió al modelo de openai más barato, ya que se requiere de una inteligencia superior para lograr  análisis más complejos.  Así y todo, los costos siguen siendo minimos, ya que la ejecución del script es puntual, en principio es semanal. Además todas las respuestas cuentan con un limitador de tokens para evitar cualquier problema de desborde y topear los costos por respuesta como medida preventiva.


## Objetivos
### Objetivo general:
 - Automatizar la creación de resúmenes narrativos y gráficos representativos a partir de datos de disponibilidad y SLA.

### Objetivos específicos:

 - Generar resúmenes narrativos claros y útiles a partir de datos procesados de Zabbix.
 - Crear gráficos conceptuales que visualicen de forma intuitiva el desempeño semanal.
 - Demostrar la efectividad de los modelos de IA en la generación automatizada de reportes.

## Metodología
**Preparación de los datos (previo a este desarrollo):**

 - Extraer los datos de Zabbix usando su API
 - Procesar y formatear los datos en JSON, csv o excel (en caso de ser necesario)


**Lectura de los datos:**
 - Lectura y procesamiento de los datos de Zabbix desde un archivo json, csv o excel


**Generación del resumen narrativo:**

 - Crear prompts optimizados que alimenten el modelo de texto a texto (GPT).
 - Evaluar y ajustar los resultados generados para garantizar claridad y precisión.

**Creación de gráficos visuales:**

 - Usar un modelo de texto a imagen para generar gráficos conceptuales basados en un score calculado por servicio.

**Pruebas y ajustes:**

 - Validar los resultados con datos reales para garantizar que sean útiles y comprensibles.
 - Optimizar prompts para mejorar la relación costo-beneficio.

## Herramientas y tecnologías

**Librerías:**

 - **openai (0.28)** para interacción con modelos de IA. Se fijó la versión 0.28 para este curso/proyecto
 - **json (last version)** para trabajar con datos estructudos en este formato
 - **pandas (last version)** para facilitar el manejo de los datos en csv y excel
 - **dotenv (last version)** para cargar variables de entorno
 - **os (last version)** para lectura de parámetros de un archivo, en este caso para leer el parámetro que almacena la apikey
   



  
**Técnicas de prompting:**

 - **One-shot prompting:** Para garantizar que el modelo produzca respuestas claras y específicas en situaciones donde el formato esperado es crítico (como el score).
 - **A few-shot prompting** Para alinear el resultado con la estructura propuesta, para ello brindamos ejemplos de como pretendemos que sea el formato de salida. Utilizamos esta técnica para definir el contexto (system role)



## Implementación



In [1]:
# Importamos librería de openai para manejo de la IA
import openai

In [2]:
# Importamos otras librerías requeridas para uso del script
import json
import pandas as pd
import os
from dotenv import load_dotenv

In [3]:
# Definición de funciones a utilizar en el proyecto

def configure_openai_api():
    """
    Configura la API de OpenAI con la API-Key de las variables de entorno.
    """
    # Cargar variables de entorno desde un archivo .env (load_dotenv de python-dotenv)
    load_dotenv()

    # Obtener la API key desde las variables de entorno
    apikey = os.getenv("OPENAI_API_KEY")
    if not apikey:
        raise ValueError("API key no encontrada. Asegurarse de que OPENAI_API_KEY esté configurado en las variables de entorno.")    
    return apikey

def load_json(data_str):
    """
    Carga un JSON a partir de un string.
    
    Args:
        data_str (str): Un JSON en formato string.
    
    Returns:
        dict: JSON parseado como un diccionario.
    """
    try:
        return json.loads(data_str)
    except json.JSONDecodeError as e:
        print(f"Error al cargar el JSON: {e}")
        return None

def load_json_from_file(file_path):
    """
    Carga un JSON a partir de un archivo.
    
    Args:
        file_path (str): Ruta hacia el archivo JSON.
    
    Returns:
        dict: JSON parseado como un diccionario.
    """
    try:
        with open(file_path, 'r') as file:
            return json.load(file)
    except (FileNotFoundError, json.JSONDecodeError) as e:
        print(f"Error al cargar el archivo JSON: {e}")
        return None

def load_csv_from_file(file_path):
    """
    Carga datos de un archivo CSV y devuelve un DataFrame de pandas.

    Args:
        file_path (str): Ruta hacia el archivo CSV.

    Returns:
        pd.DataFrame: DataFrame que contiene los datos del CSV, o None si ocurrió un error.
    """
    try:
        df = pd.read_csv(file_path)
        data = df.to_dict(orient="records")
        return data
    except FileNotFoundError:
        print(f"Error: No se encontró el archivo {file_path}")
    except pd.errors.EmptyDataError:
        print(f"Error: El archivo {file_path} está vacío o no es un CSV valido.")
    except Exception as e:
        print(f"Ocurrió un error inesperado al cargar el CSV: {e}")
    return None


def load_excel_from_file(file_path):
    """
    Carga datos de un archivo Excel y devuelve un DataFrame de pandas.

    Args:
        file_path (str): Ruta hacia el archivo Excel.

    Returns:
        pd.DataFrame: DataFrame que contiene los datos de Excel, o None si ocurrió un error.
    """
    try:
        df = pd.read_excel(file_path)
        data = df.to_dict(orient="records")
        return data
    except FileNotFoundError:
        print(f"Error: No se encontró el archivo {file_path}")
    except ValueError as e:
        print(f"Error: {e}. Por favor, asegurarse de que el archivo es un archivo Excel válido.")
    except Exception as e:
        print(f"Ocurrió un error inesperado al cargar el Excel: {e}")
    return None

def load_data(file_path, file_type):
    """
    Carga los datos de entrada de un archivo según su tipo.
    
    Args:
        file_path (str): Ruta del archivo de entrada.
        file_type (str): Tipo de archivo ('json', 'csv', 'excel').
        
    Returns:
        dict: Datos parseados en formato diccionario.
    """
    
    if file_type == "json":
        return load_json_from_file(file_path)
    elif file_type == "csv":
        return load_csv_from_file(file_path)
    elif file_type == "excel":
        return load_excel_from_file(file_path)
    else:
        print(f"Error: Tipo de archivo no soportado '{file_type}'.")
        return None



In [4]:
# Obtenemos la api-key de variable de entorno
apikey = configure_openai_api()

In [5]:
# Seteamos la api-key con la cual vamos a interactuar con la api de openai
openai.api_key = apikey

In [6]:
# Cargamos los datos de entrada en data_in
#data_in = load_json_from_file("./input_data_example1.json")
#data_in = load_data("./input_data_example1.json", "json")
#data_in = load_data("./input_data_example1.csv", "csv")
data_in = load_data("./input_data_example1.xlsx", "excel")

In [7]:
# Mostramos la carga de los datos de entrada
print(data_in)

[{'service_name': 'Servidor Web', 'availability': 99.87, 'downtime/total_minutes': 15, 'downtime/events/0/date': '2024-11-27', 'downtime/events/0/duration_minutes': 15.0, 'downtime/events/0/cause': 'Fallo de red', 'sla_target': 99.9, 'alerts': 3, 'observations': 'Cumplió con el SLA a pesar de una pequeña interrupción.'}, {'service_name': 'Servidor Backend', 'availability': 100.0, 'downtime/total_minutes': 0, 'downtime/events/0/date': nan, 'downtime/events/0/duration_minutes': nan, 'downtime/events/0/cause': nan, 'sla_target': 99.9, 'alerts': 0, 'observations': nan}, {'service_name': 'Base de Datos', 'availability': 99.95, 'downtime/total_minutes': 5, 'downtime/events/0/date': '2024-11-28', 'downtime/events/0/duration_minutes': 5.0, 'downtime/events/0/cause': 'Mantenimiento', 'sla_target': 99.95, 'alerts': 1, 'observations': 'Cumplió con el SLA con interrupciones mínimas.'}]


In [9]:
# Definimos el contexto (system role)
# Few-shot prompting en el context: Formato de salida con ejemplos para una respuesta estructurada
context = """Eres un analista de datos especializado en redactar informes narrativos detallados sobre la disponibilidad de servicios.
Tus informes deben incluir:
1. Un resumen del desempeño general.
2. Un análisis detallado de cada servicio, incluyendo:
   - Nombre
   - Disponibilidad y objetivo del SLA
   - Detalles del tiempo de inactividad (eventos, causas)
   - Observaciones o recomendaciones.
3. Una conclusión con recomendaciones accionables.
El informe debe ser conciso y no superar los 500 tokens.

Ejemplo:
Informe de Disponibilidad: 2024-11-18 al 2024-11-24  

Resumen:  
- Todos los servicios cumplieron con los objetivos del SLA. Tiempo de inactividad total: 10 minutos en todos los servicios.  

Análisis por Servicio:  
1. Servicio A:  
   - Disponibilidad: 99.95% (Objetivo: 99.90%)  
   - Tiempo de inactividad: 5 minutos (1 evento: Mantenimiento el 2024-11-20).  
   - Observaciones: SLA cumplido con interrupciones mínimas.  

2. Servicio B:  
   - Disponibilidad: 100% (Objetivo: 99.90%)  
   - Tiempo de inactividad: Ninguno.  
   - Observaciones: Rendimiento excelente.  

Conclusión:  
No se detectaron problemas graves. Continúe monitoreando para mantener el cumplimiento del SLA.  
"""

In [10]:
# Definimos el prompt que vamos a utilizar, la petición (entrada) a la IA
prompt = f"""
Analiza los siguientes datos y genera un informe de disponibilidad estructurado en el formato especificado:
{data_in}
"""

In [11]:
# Definimos la estructura de la conversación
conversation = [
    {"role": "system", "content": context},
    {"role": "user", "content": prompt}
]

In [12]:
# Generamos la respuesta de la conversación y la almacenamos (raw) en response
response = openai.ChatCompletion.create(
    model = 'gpt-4',
    messages = conversation,
    max_tokens = 500
)

In [13]:
# Extraemos solo la respuesta de la conversación
narrated_summary = response["choices"][0]["message"]["content"].strip()

In [14]:
# Desplegamos la respuesta por pantalla
print(narrated_summary)

Informe de Disponibilidad: 2024-11-27 al 2024-11-28  

Resumen:  
- Todos los servicios cumplieron con los objetivos del SLA. Tiempo de inactividad total: 20 minutos en todos los servicios.  

Análisis por Servicio:  
1. Servidor Web:  
   - Disponibilidad: 99.87% (Objetivo: 99.90%)  
   - Tiempo de inactividad: 15 minutos (1 evento: Fallo de red el 2024-11-27).  
   - Observaciones: Cumplió con el SLA a pesar de una pequeña interrupción.  

2. Servidor Backend:  
   - Disponibilidad: 100% (Objetivo: 99.90%)  
   - Tiempo de inactividad: Ninguno.  
   - Observaciones: Rendimiento excelente.  

3. Base de Datos:
   - Disponibilidad: 99.95% (Objetivo: 99.95%)
   - Tiempo de inactividad: 5 minutos (1 evento: Mantenimiento el 2024-11-28).
   - Observaciones: Cumplió con el SLA con interrupciones mínimas.

Conclusión:  
A pesar de algún tiempo de inactividad, todos los servicios han conseguido cumplir con sus objetivos del SLA. Sin embargo, el "Servidor Web" necesita ser supervisado de cerc

In [15]:
# Definimos nuevo prompt y lo agregamos a la conversación
score_summary_request = "En base al resumen narrado construído, se requiere calificar el desempeño de los servicios en general en relación al SLA objetivo, y se pide elegir una clasificación de entre 0 y 10, donde 0 es desastroso y 10 es la excelencia. Que número elegirías? Por favor, respondeme solo el número indicador, ni más ni menos."

conversation.append({"role": "user", "content": score_summary_request})

In [16]:
# Generamos una nueva respuesta y la almacenamos en score_summary
response_2 = openai.ChatCompletion.create(
    model='gpt-3.5-turbo',
    messages=conversation,
    max_tokens=10
)

score_summary = response_2['choices'][0]['message']['content'].strip()

In [17]:
# Desplegamos por pantalla el score obtenido
print("Score:", score_summary)

Score: 8


In [18]:
# Definimos nuevo prompt, esta vez para la creación de una imagen a partir de texto y lo añadimos a la conversación
score_image = f"Crear un diseño minimalista estilo gauge que refleje un desempeño basado en un score. El diseño es de un color entre rojo (score 0) y verde (score 10), con tonos intermedios según el score. Fondo blanco, diseño limpio y profesional. La imagén resultante no debe de tener números ni letras. El score es {score_summary}"

conversation.append({"role": "user", "content": score_image})

In [19]:
# Generamos la imagen de respuesta y desplegamos el enlace para acceder a ella
image_response = openai.Image.create(
    prompt=score_image,
    n=1,
    size="256x256"
)

print(image_response['data'][0]['url'])

https://oaidalleapiprodscus.blob.core.windows.net/private/org-zxk0LPtO3ZaaLczq31fRsE41/user-bLzPwqfphC1UZxdNXxq563OB/img-uptebrq5OZx2KCFZVQ756XH5.png?st=2024-12-20T21%3A17%3A36Z&se=2024-12-20T23%3A17%3A36Z&sp=r&sv=2024-08-04&sr=b&rscd=inline&rsct=image/png&skoid=d505667d-d6c1-4a0a-bac7-5c84a87759f8&sktid=a48cca56-e6da-484e-a814-9c849652bcb3&skt=2024-12-20T20%3A23%3A35Z&ske=2024-12-21T20%3A23%3A35Z&sks=b&skv=2024-08-04&sig=dXmaswDAq6r78ZXWERvroEu%2Bzn4KnYz8PAdO3WwEmi0%3D


## Resultados
La implementación del proyecto ha logrado cumplir con los objetivos planteados inicialmente. 
Los principales resultados obtenidos incluyen:

**Interacción con OpenAI:**

La integración con OpenAI se realizó con éxito, permitiendo generar informes narrativos estructurados basados en datos de entrada. Los resultados de las interacciones son precisos y cumplen con los requisitos del formato especificado tanto para la entrada/lectura de datos, como para la salida. Lo que no se logró tanto fue la generación de imagenes a partir de texto usando la api de openai. Creemos que los prompts están bien trabajados y son buenos, pero la versión de openai que estamos utilizando es bastante antigua y en este caso resultó ser una limitante. Creemos que el mismo prompt para generación de imágenes pero a través de una tecnología más reciente, nos puede generar muy buenos resultados.


**Generación de imágenes:**

En nuestra solución, la generación de imagenes a partir de texto no era un punto tan valioso, de todas maneras se incluyó en la solución para demostrar el conocimiento adquirido en el curso. En el repositorio de github incluímos la imagen guage_txt_to_img_noapi.jpg generada a través de la interfaz web de Nightcafe. Dicha imágen fue generada con el mismo prompt que se utilizó en el código utilizando dalle a través de openai 0.28.

Prompt utilizado:
Crear un diseño minimalista estilo gauge que refleje un desempeño basado en un score. El diseño es de un color entre rojo (score 0) y verde (score 10), con tonos intermedios según el score. Fondo blanco, diseño limpio y profesional. La imagén resultante no debe de tener números ni letras. El score es 8


**Soporte para múltiples formatos de entrada:**

Se implementaron funciones que permiten cargar datos desde archivos JSON, CSV y Excel, lo que otorga flexibilidad al sistema para manejar distintos tipos de datos de entrada.



**Gestión segura de credenciales:**

Se implementó el uso de variables de entorno para manejar la API key de OpenAI, lo que refuerza la seguridad y asegura que las credenciales confidenciales no estén expuestas en el código fuente.


**Documentación y legibilidad:**

El código se estructuró en funciones independientes, en la medida que fue posible, sin perder de vista la simplicidad del seguimiento que te da la jupyter notebook.
Se comentaron las lineas de código relevantes y se documentaron las funciones, lo que facilita su comprensión, mantenimiento y escalabilidad. Cada función está documentada adecuadamente y sigue las buenas prácticas de programación.


## Conclusiones
Al finalizar el desarrollo del proyecto, se pueden destacar las siguientes conclusiones:

**Objetivos alcanzados:**

El proyecto logró los objetivos propuestos, proporcionando un sistema funcional y flexible para analizar datos y generar informes detallados, narrativos y visuales, siendo esta solución, el componente o módulo que trabaja con IA para enriquecer una solución ya creada y funcional.


**Flexibilidad y escalabilidad:**
Este desarrollo no pretende ser el software que recolecta los datos, los trabaja con la IA y los publica en un documento unificado, sino por el contrario, lee los datos de un reporte ya establecido y retorna la salida narrada en texto plano de forma simple y escalable. Luego, esta salida la pueden tomar otros modulos que se encargan de formatear la salida acorde al formato del documento a presentar, ya sea presentación, pdf o excel.
El sistema está preparado para ser ampliado en el futuro. Por ejemplo, se podrían agregar nuevos formatos de entrada o extender la funcionalidad para generar informes personalizados.


**Impacto de la automatización:**
La integración con OpenAI demostró ser una herramienta poderosa para automatizar tareas complejas, como la generación de informes narrativos detallados. Esto puede ser especialmente útil en entornos empresariales donde la generación de informes es una tarea frecuente.


**Viabilidad y costos:**
A lo largo del desarrollo del proyecto, uno de los objetivos fue mantener los costos asociados al uso de la API de OpenAI bajo control. Para lograrlo, se implementaron estrategias como la reducción de los prompts enviados y la selección cuidadosa de los modelos de IA a utilizar. Siempre se optó por modelos más económicos cuando la complejidad de la tarea lo permitía, logrando resultados satisfactorios sin comprometer el presupuesto.

Sin embargo, en situaciones donde se requería mayor precisión y profundidad en las respuestas, como en la generación del resumen narrativo de los datos, se decidió invertir en modelos más avanzados. Esta decisión se tomó con la premisa de garantizar que los resultados fueran consistentes y valiosos, priorizando la calidad por encima del ahorro en esos casos puntuales.

Además, se aseguró que el sistema fuera eficiente en términos de consumo: cada informe requiere un número reducido de consultas a la API, lo que minimiza significativamente el costo operativo por reporte. Para evitar escenarios imprevistos que pudieran aumentar los costos, se definieron límites claros de tokens en cada llamado a la API, protegiendo el proyecto de posibles errores o "catástrofes" en el consumo de recursos.

En resumen, el enfoque adoptado logró un balance entre costos controlados y resultados de calidad, demostrando que es posible implementar soluciones basadas en IA de manera eficiente y rentable.



En resumen, el proyecto no solo cumplió con los objetivos establecidos, sino que también demostró ser una solución robusta, rentable y adaptable a distintos escenarios.


## Referencias

**OpenAI API Documentation:**
https://platform.openai.com/docs

**Pandas Library Documentation:**
https://pandas.pydata.org/docs/

**Python dotenv Library Documentation:**
https://pypi.org/project/python-dotenv/

**Curso de Coderhouse: Inteligencia artificial: Generación de Prompts, Comisión #67115**

**Artículos y recursos propios sobre programación y buenas prácticas**