# 05-4. Comparativa LLMs y métricas en wandb

In [None]:
!pip install wandb
!pip install openai
!pip install cohere
!pip install google-cloud-platform --upgrade

## Setup wandb

In [None]:
import wandb

config = dict(
    temperature = 1.0,
    max_output_tokens = 128,
    top_p = 0.8,
    top_k = 40,
)
wandb.init(project="comparison-openai-google", config=config, name = "comparison")
print(wandb.util.generate_id())
print(wandb.run)
table = wandb.Table(columns=["model", "test", "time", "temperature", "max_output_tokens", "top_p", "top_k", "prompt", "response"])


## Setup GCP and models

In [None]:
# TODO: Change PROJECT_ID
PROJECT_ID = "YOUR_PROJECT_ID"   # <---- CHANGE THIS
LOCATION = "us-central1"   
# Code examples may misbehave if the model is changed.
MODEL_NAME = "text-bison@001"  

In [None]:
import vertexai
from vertexai.language_models import TextGenerationModel
from vertexai.preview.generative_models import GenerativeModel

vertexai.init(project=PROJECT_ID,
              location=LOCATION)
parameters = {
    "temperature": 0,
    "max_output_tokens": 1024,
    "top_p": 0.8,
    "top_k": 40
}

google_palm_model = TextGenerationModel.from_pretrained(MODEL_NAME)

google_gemini_model = GenerativeModel("gemini-pro")

## Setup OpenAI

In [None]:
from openai import OpenAI

# TODO: Change OPENAI API KEY
openai_client = OpenAI(api_key=YOUR_OPENAI_API_KEY)  # <---- CHANGE THIS

## Setup Cohere

In [None]:
import cohere

co = cohere.Client(YOUR_COHERE_API_KEY)  # <---- CHANGE THIS

## Setup Gemini

In [None]:
!pip install -q -U google-generativeai
import google.generativeai as genai

GOOGLE_API_KEY='AIzaSyC93QZK9ZJivQf1LFisn0aKje5WK1FMwMc'

genai.configure(api_key=GOOGLE_API_KEY)

google_gemini_model = genai.GenerativeModel('gemini-1.5-flash')



## Set queries

In [None]:
import time

def call_llms(description, parameters, llm_call, show_activity = True):
  
 # text-bison
  t0 = time.perf_counter()
  res_google = google_palm_model.predict(llm_call, **parameters).text
  table.add_data(
      "text-bison@001", 
      description, 
      time.perf_counter() - t0, 
      config["temperature"], 
      config["max_output_tokens"], 
      config["top_p"], 
      config["top_k"], 
      llm_call, 
      res_google)
  
  # gpt-3.5-turbo (ChatGPT)
  t0 = time.perf_counter()
  res_openai = openai_client.chat.completions.create(
    model="gpt-3.5-turbo",
    messages=[
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": llm_call},
    ]
  )  
  table.add_data(
    "gpt-3.5-turbo", 
    description, 
    time.perf_counter() - t0, 
    config["temperature"], 
    config["max_output_tokens"], 
    config["top_p"], 
    config["top_k"], 
    llm_call, 
    res_openai.choices[0].message.content
  )
  
  # gpt-4-8k
  t0 = time.perf_counter()
  res_openai = openai_client.chat.completions.create(
    model="gpt-4-0613",
    messages=[
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": llm_call},
    ]
  )
  
  table.add_data(
    "gpt-4-0613", 
    description, 
    time.perf_counter() - t0, 
    config["temperature"], 
    config["max_output_tokens"], 
    config["top_p"], 
    config["top_k"], 
    llm_call, 
    res_openai.choices[0].message.content
  )

  # Gemini text
  t0 = time.perf_counter() 
  res_google = google_gemini_model.generate_content(
    [llm_call],
    generation_config={
        "max_output_tokens": 2048,
        "temperature": 0.9,
        "top_p": 1
    },
  stream=False,
  ) 
  table.add_data(
    "gemini-pro", 
    description, 
    time.perf_counter() - t0, 
    0.9, 
    2048, 
    1, 
    config["top_k"], 
    llm_call, 
    res_google.text
  )
  
  # Cohere
  t0 = time.perf_counter() 
  res_cohere = co.generate(  
    model='command-nightly',  
    prompt = llm_call,  
    max_tokens=200, # This parameter is optional. 
    temperature=0.750)
  table.add_data(
    "cohere", 
    description, 
    time.perf_counter() - t0, 
    0.750, 
    200, 
    1, 
    config["top_k"], 
    llm_call, 
    res_cohere.generations[0].text  
  )
    
  ## Only show response from Gemini-pro, not from all LLMs
  if show_activity:
    BOLD = "\033[1m"
    UNFORMAT = "\033[0m\x1B[0m"
    print(f"{BOLD}The call to the LLM:{UNFORMAT}\n{llm_call}\n")
    print(f"{BOLD}The response:{UNFORMAT}")
    print(res_google)
        

  return res_google 

In [None]:
import time, wandb
from tqdm.auto import tqdm

queries = [
    "El planeta Tierra es ",
    "Implementar una función en Python para calcular los números de Fibonacci.",
    "Escribir una función en Rust que realice una exponenciación binaria.",
    "¿Cómo reservo memoria en C?",
    "¿Cuáles son las diferencias entre Javascript y Python?",
    "¿Cómo encuentro índices inválidos en Postgres?",
    "¿Cómo puedes implementar una caché LRU (Least Recently Used) en Python?",
    "¿Qué enfoque usarías para detectar y prevenir condiciones de carrera en una aplicación multiproceso?",
    "¿Puedes explicar cómo funciona un algoritmo de árbol de decisión en el aprendizaje automático?",
    "¿Cómo diseñarías una base de datos simple de almacenamiento clave-valor desde cero?",
    "¿Cómo manejas situaciones de interbloqueo en la programación concurrente?",
    "¿Cuál es la lógica detrás del algoritmo de búsqueda A*, y dónde se utiliza?",
    "¿Cómo puedes diseñar un sistema de autocompletado eficiente?",
    "¿Qué enfoque tomarías para diseñar un sistema seguro de gestión de sesiones en una aplicación web?",
    "¿Cómo manejarías las colisiones en una tabla hash?",
    "¿Cómo puedes implementar un balanceador de carga para un sistema distribuido?",
    "Escribe un cuento sobre un historiador que viaja en el tiempo y que presencie los eventos más significativos de la historia de la humanidad.",
    "Describe un día en la vida de un agente secreto que también es padre/madre a tiempo completo."
]

## Call models

In [None]:
for q in tqdm(queries):
    t0 = time.perf_counter()
    res = call_llms("comparison", parameters, q)


## Write to wandb

In [None]:
wandb.log({"comparison": table})
table = wandb.Table(columns=["model", "test", "time", "temperature", "max_output_tokens", "top_p", "top_k", "prompt", "response"])
wandb.finish()