# [Azure OpenAI Responses API's](https://learn.microsoft.com/en-us/azure/ai-services/openai/how-to/responses?tabs=python-secure#generate-a-text-response) (with Entra ID authentication)

In [1]:
# !az login

In [4]:
import os, json
from openai import AzureOpenAI
from azure.identity import DefaultAzureCredential, get_bearer_token_provider
from dotenv import load_dotenv # requires python-dotenv

load_dotenv("./../../config/credentials_my.env")

os.environ["AZURE_OPENAI_ENDPOINT"] = os.environ['AZURE_OPENAI_ENDPOINT']
api_version = os.environ["OPENAI_API_VERSION"] # at least "2025-03-01-preview"

# credential = DefaultAzureCredential() 

token_provider = get_bearer_token_provider(
    DefaultAzureCredential(), "https://cognitiveservices.azure.com/.default")

client = AzureOpenAI(
  azure_ad_token_provider=token_provider,
  api_version=api_version)

# Read the system message plus the json list of metrics

In [5]:
# Open the system_message file in read mode
with open("system_message.txt", "r", encoding="utf-8") as file:
    system_message = file.read()

# Open the metrics file in read mode
with open("metrics.json", "r", encoding="utf-8") as file:
    metrics_list = json.loads(file.read().replace("\n", ""))

i=1
for m in metrics_list:
    print (f'{i}: {m["metric_name"]}')
    i += 1

1: Intent Resolution
2: Tool Call Accuracy
3: Task Adherence
4: Response Completeness
5: Groundedness (prompt-based)
6: Groundedness Pro
7: Retrieval
8: Relevance
9: Coherence
10: Fluency
11: Similarity
12: F1 Score
13: BLEU Score
14: ROUGE Score
15: METEOR Score


In [8]:
from IPython.display import Markdown, display

index = int(input("Which metric would you like to analyze?"))

display(Markdown(f"\n\n**GREAT CHOICE!** Here are a couple examples for the metric `<{metrics_list[index-1]['metric_name']}>`\n"))

messages=[{"role": "system", "content": system_message},
          {"role": "user", "content": json.dumps(metrics_list[index-1])}]

response = client.responses.create(
    model=os.environ['AZURE_OPENAI_CHAT_DEPLOYMENT_NAME'],
    input=messages)

display(Markdown(response.output_text.replace("\n", "  \n")))

Which metric would you like to analyze? 3




**GREAT CHOICE!** Here are a couple examples for the metric `<Task Adherence>`


Sure, let's create examples for Task Adherence with different scores:  
  
### Score 5 (Highest Quality)  
**QUESTION:** Qual è l'aggiornamento più recente del software?  
**ANSWER:** L'ultimo aggiornamento è la versione 3.5.  
**SCORE:** 5  
**EXPLANATION:** La risposta è precisa, diretta, e completa, aderendo perfettamente al compito di fornire l'ultima versione del software.  
  
### Score 4  
**QUESTION:** Puoi spiegare come cambiare la password?  
**ANSWER:** Vai nelle impostazioni e seleziona 'Cambia password'.  
**SCORE:** 4  
**EXPLANATION:** La risposta è corretta e utile, ma potrebbe includere più dettagli per migliorare l'aderenza al compito.  
  
### Score 3  
**QUESTION:** Qual è l'orario di apertura del negozio?  
**ANSWER:** Il negozio è aperto dalle 9 alle 18.  
**SCORE:** 3  
**EXPLANATION:** La risposta è adeguata ma manca l'informazione del giorno specifico richiesto, riducendo l'aderenza al compito.  
  
### Score 2  
**QUESTION:** Dove trovo il pulsante di aiuto?  
**ANSWER:** Dovresti cercare nel menu.  
**SCORE:** 2  
**EXPLANATION:** La risposta è vaga e non fornisce un'indicazione chiara, riducendo significativamente l'aderenza al compito.  
  
### Score 1 (Lowest Quality)  
**QUESTION:** Qual è il saldo del mio conto?  
**ANSWER:** Il negozio apre alle 9.  
**SCORE:** 1  
**EXPLANATION:** La risposta non è pertinente o utile rispetto alla domanda, dimostrando scarsa aderenza al compito.  
  
