# [Azure OpenAI Responses API's](https://learn.microsoft.com/en-us/azure/ai-services/openai/how-to/responses?tabs=python-secure#generate-a-text-response) (with Entra ID authentication)

In [1]:
from azure.identity import DefaultAzureCredential
credential = DefaultAzureCredential()

In [2]:
import os, json
from openai import AzureOpenAI
from azure.identity import DefaultAzureCredential, get_bearer_token_provider
from dotenv import load_dotenv # requires python-dotenv

load_dotenv("./../../config/credentials_my.env")

os.environ["AZURE_OPENAI_ENDPOINT"] = os.environ['AZURE_OPENAI_ENDPOINT']
api_version = os.environ["OPENAI_API_VERSION"] # at least "2025-03-01-preview"

# credential = DefaultAzureCredential() 

token_provider = get_bearer_token_provider(
    DefaultAzureCredential(), "https://cognitiveservices.azure.com/.default")

client = AzureOpenAI(
  azure_ad_token_provider=token_provider,
  api_version=api_version)

# Read the system message plus the json list of metrics

In [3]:
# Open the system_message file in read mode
with open("system_message.txt", "r", encoding="utf-8") as file:
    system_message = file.read()

# Open the metrics file in read mode
with open("metrics.json", "r", encoding="utf-8") as file:
    metrics_list = json.loads(file.read().replace("\n", ""))

i=1
for m in metrics_list:
    print (f'{i}: {m["metric_name"]}')
    i += 1

1: Intent Resolution
2: Tool Call Accuracy
3: Task Adherence
4: Response Completeness
5: Groundedness (prompt-based)
6: Groundedness Pro
7: Retrieval
8: Relevance
9: Coherence
10: Fluency
11: Similarity
12: F1 Score
13: BLEU Score
14: ROUGE Score
15: METEOR Score


# You may run the next cell multiple times to explore metrics samples

In [6]:
from IPython.display import Markdown, display

index = int(input("Which metric would you like to analyze?"))

display(Markdown(f"\n\n**GREAT CHOICE!** Here are a couple examples for the metric `<{metrics_list[index-1]['metric_name']}>`\n"))

messages=[{"role": "system", "content": system_message},
          {"role": "user", "content": json.dumps(metrics_list[index-1])}]

response = client.responses.create(
    model=os.environ['AZURE_OPENAI_CHAT_DEPLOYMENT_NAME'],
    input=messages)

display(Markdown(response.output_text.replace("\n", "  \n")))

Which metric would you like to analyze? 5




**GREAT CHOICE!** Here are a couple examples for the metric `<Groundedness (prompt-based)>`


Certainly! Let's delve into examples for the "Groundedness (prompt-based)" metric:  
  
### Score 5: Highest Quality  
- **QUESTION**: Qual è la capitale della Francia?  
- **ANSWER**: La capitale della Francia è Parigi.  
- **SCORE**: 5  
- **EXPLANATION**: La risposta è completamente allineata e supportata dal contesto fornito, che identificava Parigi come la capitale.  
  
### Score 4: High Quality  
- **QUESTION**: In quale continente si trova il Brasile?  
- **ANSWER**: Il Brasile è in Sud America.  
- **SCORE**: 4  
- **EXPLANATION**: La risposta è corretta e generalmente supportata dal contesto, ma potrebbe mancare dettagli aggiuntivi relativi alla posizione geografica specifica.  
  
### Score 3: Moderate Quality  
- **QUESTION**: Qual è la capitale dell’Italia?  
- **ANSWER**: La capitale dell’Italia è Milano.  
- **SCORE**: 3  
- **EXPLANATION**: La risposta è imprecisa poiché la capitale è Roma, dimostrando una mancanza di allineamento completo con i dati contestuali.  
  
### Score 2: Low Quality  
- **QUESTION**: Dove si trova la Grande Muraglia Cinese?  
- **ANSWER**: La Grande Muraglia Cinese è in Giappone.  
- **SCORE**: 2  
- **EXPLANATION**: La risposta è inaccurata rispetto al contesto, indicando una forte discrepanza e confusione geografica.  
  
### Score 1: Lowest Quality  
- **QUESTION**: Chi ha scoperto l’America?  
- **ANSWER**: L’America è stata scoperta da Galileo.  
- **SCORE**: 1  
- **EXPLANATION**: La risposta è totalmente errata rispetto al contesto storico, dimostrando una mancanza di validità e rilevanza.