# INTEGRACIÓN PARA CONSTRUCCIÓN DE UN GOLDEN DATASET CON API GPT-3.5 Turbo

In [3]:
from openai import OpenAI
import os
import pathlib 
import pandas as pd
import ast
from dotenv import load_dotenv
from collections import defaultdict

#pip install --upgrade openai==1.1.1
#pip install cohere tiktoken
#!pip3 install python-dotenv

#print(openai.__version__)

In [6]:
ruta_archivo = '/export/usuarios_ml4ds/cggamella/RAG_tool/dataset_pruebas.xlsx'
# Utiliza la función to_excel para exportar el DataFrame a un archivo Excel
df = pd.read_excel(ruta_archivo)

In [7]:
df

Unnamed: 0,acronyms,expanded_acronyms,text,detected_acronyms,LLM_expanded_acronyms
0,ONG,ONG,Las ONG son organizaciones no gubernamentales ...,,
1,"CIA, FBI","CIA, FBI",La CIA y el FBI colaboran en investigaciones i...,,
2,"UE, OTAN","UE, OTAN",La unión europea y la OTAN tienen roles crucia...,,
3,NASA,NASA,"La NASA es la agencia espacial estadounidense,...",,
4,UNICEF,UNICEF,"UNICEF, trabajan por los derechos de los niños...",,
...,...,...,...,...,...
63,FAQ,FAQ,La sección de preguntas frecuentes FAQ proporc...,,
64,CEO,CEO,El CEO de la compañía anunció planes de expans...,,
65,CFO,CFO,El chief financial officer presentó el informe...,,
66,CTO,CTO,El CTO lidera el equipo de desarrollo tecnológ...,,


## Integración OpenAI

Esta función sirve para generar las queries asociadas a los servicios, cat y subcat con el modelo de GPT-3.5 Turbo, además se crea una función auxiliar para crear la base de datos escribiendo en el campo necesario la información de la Categoría, Subcategoría, Servicio, Query. 

In [None]:
def generar_queries_servicios(category_dict):
    
    data = [] 

    for categoria, subcategorias in category_dict.items():
        for subcategoria, servicios in subcategorias.items():
            for servicio in servicios:
                try:
                    completion = openai.chat.completions.create(
                        model="gpt-3.5-turbo-0125",
                        messages=[
                          {"role": "system", "content": "You are a nice and helpful assistant.I need your imagination to create some queries that a human can send to find a service or professional. Language used must be Spanish."},
                          {"role": "user", "content": f"Generate 5 examples of queries that a user without specific knowledge could make describing his issue looking for services related to the service name: {servicio},which belongs to subcategory: {subcategoria}, which is part of the category {categoria}. Each query should be no longer than 8 words, not being enumerated neither with quotation marks, provide plain text"}
                        ],
                        temperature = 0.7, #Es configurable entre 0 y 2, cuanto más alto sea, el modelo es más creativo
                        max_tokens = 300 # Para limitar el número de tokens, aproximadamente 100 tokens son 75 palabras
                    )
                    # Acceder directamente al texto generado y dividirlo en líneas para obtener las queries
                    queries = completion.choices[0].message.content.strip().split('\n')
                    
                    return queries
                
                except Exception as e:
                    print(f"Se produjo un error al generar las queries para el servicio {servicio} en {subcategoria} de {categoria}: {e}")
                    # Continúa con el siguiente servicio en caso de error
                    continue

def generar_tabla_queries(category_dict):

    data = []

    # Itera sobre el diccionario de categorías
    for categoria, subcategorias in category_dict.items():
        for subcategoria, servicios in subcategorias.items():
            for servicio in servicios:
                # Obtiene las queries para el servicio actual
                queries = generar_queries_servicios({categoria: {subcategoria: [servicio]}})
                # Añade cada query al listado de datos
                for query in queries:
                    data.append({
                        "Categoría": categoria,
                        "Subcategoría": subcategoria,
                        "Servicio": servicio,
                        "Query": query
                    })

    # Crea un DataFrame con los datos acumulados
    df_queries = pd.DataFrame(data)

    # Devuelve el DataFrame
    return df_queries


# Genera el DataFrame con las queries
df_queries = generar_tabla_queries(category_dict)

# Guarda el DataFrame en un archivo Excel
df_queries.to_excel("queries_sinteticas_servicios.xlsx", index=False)

Ha tardado 1h 8 mins en generar 5205 queries

Leyendo el archivo de queries_sintéticas creado

In [None]:
df_bbdd = pd.read_excel("queries_sinteticas_servicios.xlsx")

## Integración para acronyms con DSPY

In [None]:
#!pip install git+https://github.com/stanfordnlp/dspy.git

In [1]:
#!pip list

In [None]:
#!pip install --upgrade pydantic
#!pip install --upgrade openai

In [2]:
import pathlib
import pandas as pd
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
import matplotlib.pyplot as plt
from sentence_transformers import SentenceTransformer
import random
import os
import re
import dspy
from dotenv import load_dotenv
import pickle

In [15]:
# Clase para dar formato al output del terminal
class Colors:
    BLUE = '\033[94m'
    ENDC = '\033[0m'

In [273]:
###########
#   LLM   #
###########
path_env = pathlib.Path("/export/usuarios_ml4ds/lbartolome/NextProcurement/NP-Search-Tool/.env")
print(path_env)
load_dotenv(path_env)
api_key = os.getenv("OPENAI_API_KEY")
os.environ["OPENAI_API_KEY"] = api_key

#lm = dspy.HFClientTGI(model="meta-llama/Meta-Llama-3-8B ", port=8080, url="http://127.0.0.1")
lm = dspy.OpenAI(model="gpt-3.5-turbo")# "gpt-4o-2024-05-13")

dspy.settings.configure(lm=lm, temperature = 0)

/export/usuarios_ml4ds/lbartolome/NextProcurement/NP-Search-Tool/.env


### Just checking that DSPY with LLAMA works

In [4]:
qa = dspy.ChainOfThought('question -> answer')

# Run with Llama instead
with dspy.context(lm=lm):
    response = qa(question="What is the first day of the week?")
    print('Meta-Llama-3-8B:', response.answer)

Meta-Llama-3-8B: Sunday


### Synthetic acronymn generation

In [11]:
# Cargar dataframe donde se guardará la información 
ruta_archivo = '/export/usuarios_ml4ds/cggamella/RAG_tool/dataset_pruebas.xlsx'
df = pd.read_excel(ruta_archivo)
df.head(2)

Unnamed: 0,acronyms,expanded_acronyms,text,detected_acronyms,LLM_expanded_acronyms
0,ONG,ONG,Las ONG son organizaciones no gubernamentales ...,,
1,"CIA, FBI","CIA, FBI",La CIA y el FBI colaboran en investigaciones i...,,


In [14]:
lista_acronyms = set(df['acronyms'].str.lower().tolist())
list(lista_acronyms)[:10]

['html',
 'onu',
 's.a.',
 'cia, fbi',
 'seat',
 'ue, otan',
 'ong',
 'ocde',
 'renfe',
 'cfo']

In [282]:
"""
class AcronymGenerator(dspy.Signature):
    #
    Genera un texto extenso para los acrónimos dados, asegurándose de que contenga los acrónimos dentro de un contexto simulado.
    
    Ejemplo:
    --------
    ACRÓNIMOS: ["ONU", "NASA"]
    TEXTO_GENERADO: "En la última reunión de la ONU, se discutieron los avances tecnológicos presentados por la NASA.
    La ONU destacó la importancia de estos desarrollos para la exploración espacial y la cooperación internacional..."
    
    ACRONIMOS = dspy.InputField(desc="List of acronyms in spanish that must be used to generate realistic text")
    TEXTO_GENERADO = dspy.OutputField(desc="List of acronyms in spanish that must be used to generate realistic text")
"""

# Te he modificado esto un poco. Si haces las instrucciones en inglés, las definiciones del input y del output también deberían estar en inglés.
# Ten en cuenta que la signature es tu prompt, simplemente la estás definiendo como una clase
class AcronymGenerator(dspy.Signature):
    """
    Genera un texto en ESPAÑOL que contenga ACRONIMOS dentro de un contexto simulado. 
    
    ACRONIMOS: IVA, PYME, IRPF, PIB
    TEXTO_GENERADO: La reforma del sistema tributario ha traído cambios significativos en el IVA, afectando tanto a consumidores como a empresarios. Las PYME han mostrado preocupación por el aumento de la carga fiscal, ya que sus márgenes de beneficio son más ajustados. Por otro lado, el gobierno ha ajustado las tasas del IRPF para aliviar la presión sobre las rentas más bajas. Según los últimos informes, el PIB del país ha crecido un 2% en el último trimestre, reflejando una recuperación económica gradual. Sin embargo, los expertos advierten que es esencial seguir monitorizando estos indicadores para evitar futuros desequilibrios.
    """
    
    ACRONIMOS = dspy.InputField(desc="Lista de acrónimos")
    TEXTO_GENERADO = dspy.OutputField(desc="Texto generado")

    
class AcronymGeneratorModule(dspy.Module):
    def __init__(self, model_url, model_port):
        super().__init__()
        self.generator = dspy.Predict(AcronymGenerator) # para este caso de uso el Predict funciona mejor que el ChainOfThought
        #self.lm = dspy.HFClientTGI(model="meta-llama/Meta-Llama-3-8B", port=model_port, url=model_url) # esto lo he comentado porque para hacer pruebas entre usar un llm y otro me resulta más fácil cambiarlo desde fuera, pero me parece bien definirlo así
        #dspy.settings.configure(lm=self.lm)

    def forward(self, acronyms):
        # prompt = self.create_prompt(acronyms) # No entiendo muy bien para que haces esto. ¿Por qué no usas la signature que has creado?
        # qa = dspy.ChainOfThought('question -> answer')

        # Utilizando el contexto de dspy con LLaMA
        #with dspy.context(lm=self.lm):
            #response = qa(question=prompt
        
        response = self.generator(ACRONIMOS=", ".join(acronyms))
        
        #generated_text = response.answer.strip()
        return dspy.Prediction(TEXTO_GENERADO=response.TEXTO_GENERADO)
    
    #def create_prompt(self, acronyms):
    #    acronyms_str = ", ".join(acronyms)
    #    prompt = (
    #        f"Genera un texto en español que incluya los siguientes acrónimos en un contexto realista y detallado: {acronyms_str}. "
    #        "El texto debe ser extenso y desarrollar un escenario en el cual estos acrónimos sean relevantes. "
    #        "Por favor, asegúrate de que el texto sea coherente y bien estructurado."
    #    )
    #    return prompt

In [283]:
acronyms = [
    ["ADN", "ARN"],
    ["Concacaf"],
    ["OVNI", "UNESCO", "Radar"],
    ["ONU", "INE", "OCDE", "IBEX", "CIP"]
]
model_url = "http://127.0.0.1"  # URL del servidor del modelo LLaMA
model_port = 8080  # Puerto del servidor del modelo LLaMA

my_acronym_generator = AcronymGeneratorModule(model_url=model_url, model_port=model_port)
for ac in acronyms:
    print(ac)
    #prediction = module.forward(acronyms)
    #print(prediction.TEXTO_GENERADO)
    print(my_acronym_generator(ac))

['ADN', 'ARN']
Prediction(
    TEXTO_GENERADO='El estudio de la genética ha avanzado significativamente gracias a la investigación en el ADN y el ARN. Estos ácidos nucleicos son fundamentales para comprender la herencia genética y el funcionamiento de los organismos vivos. Los científicos continúan explorando las posibilidades que ofrecen estas moléculas en el campo de la medicina y la biotecnología.'
)
['Concacaf']
Prediction(
    TEXTO_GENERADO='La selección nacional de fútbol ha logrado clasificar a la próxima Copa Oro de la Concacaf, demostrando un gran nivel de juego y compromiso en cada partido. Los aficionados están emocionados por ver a sus jugadores favoritos representando al país en esta importante competición regional. ¡Vamos equipo, a por la victoria en la Concacaf!'
)
['OVNI', 'UNESCO', 'Radar']
Prediction(
    TEXTO_GENERADO='Durante la última década, los avistamientos de OVNI han aumentado significativamente en todo el mundo, lo que ha llevado a la UNESCO a iniciar inves

In [284]:
lm.inspect_history(1)





Genera un texto en ESPAÑOL que contenga ACRONIMOS dentro de un contexto simulado. 
    
    ACRONIMOS: IVA, PYME, IRPF, PIB
    TEXTO_GENERADO: La reforma del sistema tributario ha traído cambios significativos en el IVA, afectando tanto a consumidores como a empresarios. Las PYME han mostrado preocupación por el aumento de la carga fiscal, ya que sus márgenes de beneficio son más ajustados. Por otro lado, el gobierno ha ajustado las tasas del IRPF para aliviar la presión sobre las rentas más bajas. Según los últimos informes, el PIB del país ha crecido un 2% en el último trimestre, reflejando una recuperación económica gradual. Sin embargo, los expertos advierten que es esencial seguir monitorizando estos indicadores para evitar futuros desequilibrios.

---

Follow the following format.

ACRONIMOS: Lista de acrónimos
TEXTO GENERADO: Texto generado

---

ACRONIMOS: ONU, INE, OCDE, IBEX, CIP
TEXTO GENERADO:[32m La ONU ha publicado un informe en colaboración con el INE y la OCDE, de

In [63]:
# Para comprobar la conexión al servidor LLaMA
!curl -X POST http://127.0.0.1:8080/generate -d '{"prompt": "Hello"}'

curl: (7) Failed to connect to 127.0.0.1 port 8080 after 0 ms: Connection refused


In [None]:
'''
filtered_samples = samples_train[samples_train['answers'].apply(lambda x: len(x) > 0)]
df_unique_titles = filtered_samples.drop_duplicates(subset='title', keep='first')
df_unique_titles.reset_index(drop=True, inplace=True)

new_samples = []
for idx, el in df_unique_titles.iterrows():
    if idx % 100 == 0:
        print(f"-- -- Processing index {idx} out of {len(df_unique_titles)}")
    cherry_picker = negator(question=el.question, golden_answer=el.answers[0]["text"])
    new_samples.append(
        [
            el.question, # question
            el.answers[0]["text"], # answer1
            cherry_picker.CHERRY_ANSWER, # answer2
            "CONTRADICTION", # label
            cherry_picker.RATIONALE, # rationale
        ]
    )

# Convert new_samples to a DataFrame if needed
new_samples_df = pd.DataFrame(new_samples, columns=['question', 'answer1', 'answer2', 'label', 'rationale'])
'''