#@title üîë Clusterizza e Misura (speciale AST 2025)

[![Licenza MIT](https://img.shields.io/badge/License-MIT-green.svg)](https://opensource.org/licenses/MIT)

In [1]:
# FONDAMENTALE!
# Installiamo in memoria le librerie necessarie
# NB: nelle macchine virtuali di colab √® necessario installare ogni volta le librerie se la macchina √® stata riavviata o si √® auto-disattivata
!pip install requests pandas -q
print("Dipendenze installate.")


Dipendenze installate.


In [2]:
#@title üîë Inserisci la chiave API di OpenRouter (o usa i Segreti di Colab)
#@markdown ---
#@markdown **Questa cella ti permette di fornire la tua chiave API di OpenRouter.**
#@markdown
#@markdown **Opzione 1 (Consigliata & Sicura): Usa i Segreti di Colab**
#@markdown 1. Clicca sull'icona 'üîë' (Chiave) nella barra laterale sinistra.
#@markdown 2. Aggiungi un nuovo segreto chiamato `OPENROUTER_API_KEY`.
#@markdown 3. Incolla la tua chiave API come valore e abilita "Accesso al notebook".
#@markdown 4. **Lascia il campo di input qui sotto VUOTO.** Lo script user√† automaticamente il segreto.
#@markdown ---
#@markdown **Opzione 2 (Meno Sicura - Incolla Direttamente):**
#@markdown Se preferisci non usare i Segreti di Colab, incolla direttamente la tua chiave API nel campo qui sotto.
#@markdown **Nota:** Chiunque condivida questo notebook con te e esegua questa cella potrebbe vedere la chiave se ispeziona l'output salvato.
api_key_from_form = "la_tua_chiave_api" #@param {type:"string"}
#@markdown ---
print("Campo di inserimento della chiave API elaborato. L'assegnazione della chiave avviene nella cella successiva.")


Campo di inserimento della chiave API elaborato. L'assegnazione della chiave avviene nella cella successiva.


In [3]:
#@title Prompts

# il classification prompt √® quello che serve per classificare le query in base alla categoria e alla sotto categoria
# il similarity prompt √® quello che serve per misurare la somiglianza semantica tra il risultato dell'LLM e la ground truth letta da file

# se dovete cambiare i prompt, potete farlo qui sotto, per ottenere un risultato soddisfacente dovete definire categorie e sotto categorie che siano appropriate per il vostro dataset

CLASSIFICATION_PROMPT_TEMPLATE = """Classify a series of queries related to tourism in Italy for the year 2025.
Assign each query only one of the most appropriate category from the list provided, then assign Only one of the most appropriate subcategory from the list.
If the term is not Italian, interpret the meaning and choose the closest category and subcategory listed.
Categories
	-	Cantine
	-	Degustazione formaggi
	-	Degustazione grappe
	-	Degustazione miele
	-	Degustazione vini
	-	Frantoi
	-	Servizi
	-	Turismo enogastronomico
Subcategories
	-	Franciacorta
	-	Lago di Garda
	-	Trentino Alto Adige
	-	Generico
	-	Online
Output format
category,subcategory
(do not add additional context!)


Examples, (ground truth)
	- cantina franciacorta visita > Cantine,Franciacorta
	- degustazione vini in bicicletta > Degustazione vini,Generico
	- degustazione vini sirmione > Degustazione vini,Lago di Garda
	- weekend enogastronomici > Turismo enogastronomico,Generico
query: {input_text}
Answer:
"""

SIMILARITY_PROMPT_TEMPLATE = """
Abbiamo fatto la classificazione di una query.
Ti fornisco il risultato ottenuto dall'LLM e la classificazione corretta (ground truth).
Misura la somiglianza semantica tra questi due testi.
Voglio un punteggio per capire quanto il risultato dell'LLM corrisponde alla ground truth.
Esprimi **solo** un punteggio numerico compreso tra 0 (completamente dissimile) e 100 (semanticamente identico), senza aggiungere alcuna spiegazione o testo aggiuntivo.

Ground Truth: "{ground_truth_text}"
Risultato LLM: "{llm_result_text}"

Punteggio (0-100):
"""


In [4]:
#@title 3.Importiamo le chiavi API e i settaggi

# questo passaggio √® per rendere il sistema pi√π robusto e sicuro, ma per dei testi privati √® sufficiente inserire la chiave API direttamente nella cella 2

import os
import sys
import requests
import pandas as pd
import time
import re
from google.colab import userdata # For Colab secrets
from google.colab import files    # For file uploads/downloads

# --- Determine the Final API Key ---
FINAL_API_KEY = None
api_key_source = "None"

# 1. Try Colab Secrets first
try:
    key_from_secrets = userdata.get('OPENROUTER_API_KEY')
    if key_from_secrets:
        FINAL_API_KEY = key_from_secrets
        api_key_source = "Colab Secrets"
        print("‚úÖ API Key loaded successfully from Colab Secrets.")
    else:
         print("‚ìò API Key Secret 'OPENROUTER_API_KEY' found but is empty. Checking form input...")
except userdata.SecretNotFoundError:
    print("‚ìò API Key Secret 'OPENROUTER_API_KEY' not found. Checking form input...")
except Exception as e:
    print(f"‚ö†Ô∏è Error accessing Colab Secrets: {e}. Checking form input...")

# 2. Fallback to form input if secrets didn't yield a key
if FINAL_API_KEY is None:
    if 'api_key_from_form' in locals():
        key_input_stripped = api_key_from_form.strip()
        if key_input_stripped:
            FINAL_API_KEY = key_input_stripped
            api_key_source = "Direct Input Form"
            print("‚úÖ API Key loaded from the direct input form field.")
            print("   ‚ö†Ô∏è Warning: Using the form field is less secure than Colab Secrets.")
        else:
             print("‚ìò Direct input form field is also empty.")
    else:
         print("Error: api_key_from_form variable not found. Ensure Cell 2 ran.")

# 3. Final Check
if FINAL_API_KEY:
    print(f"üîë Using API Key obtained from: {api_key_source}")
else:
    print("‚ùå ERROR: OpenRouter API Key is MISSING.")
    print("   Please provide it via Colab Secrets or the form in Cell 2.")

# --- Istruzioni per il caricamento del file ---
print("\nüìÑ Carica il tuo file CSV di input (ad esempio, 'input.csv').")
print("   Deve contenere obbligatoriamente le colonne chiamate 'input' e 'ground_truth'.")
print("   La colonna 'input' deve contenere le query da classificare.")
print("   La colonna 'ground_truth' deve contenere le categorie e sotto categorie identificate dal professionista (vedi prompt).")
print("   ‚úÖ Usa la scheda 'File' (icona a forma di cartella) nel pannello a sinistra per caricare il file.")


‚ìò API Key Secret 'OPENROUTER_API_KEY' not found. Checking form input...
‚úÖ API Key loaded from the direct input form field.
üîë Using API Key obtained from: Direct Input Form

üìÑ Carica il tuo file CSV di input (ad esempio, 'input.csv').
   Deve contenere obbligatoriamente le colonne chiamate 'input' e 'ground_truth'.
   La colonna 'input' deve contenere le query da classificare.
   La colonna 'ground_truth' deve contenere le categorie e sotto categorie identificate dal professionista (vedi prompt).
   ‚úÖ Usa la scheda 'File' (icona a forma di cartella) nel pannello a sinistra per caricare il file.


In [None]:
#@title 4. Configure Models, Prompts, Files & Delay

# --- LLM Models ---
CLASSIFICATION_MODEL = "openai/gpt-5.1-chat" #@param {type:"string"}
SIMILARITY_MODEL = "openai/gpt-4o-mini" #@param {type:"string"}


# --- File Paths ---
# Assumes files are uploaded to the root Colab directory '/content/'
INPUT_CSV_PATH = "/content/test-300-martino.csv" #@param {type:"string"}
OUTPUT_CSV_PATH = "/content/evaluation_results_gpt51chat.csv" #@param {type:"string"}

# --- Processing Delay ---
DELAY_SECONDS = 0.2 #@param {type:"number"}

# --- Temperature---
TEMPERATURE = 0 #@param {type:"number"}
#@markdown ‚ö†Ô∏è **Nota:** Se la temperatura √® impostata a 0, il parametro verr√† omesso in fase di chiamata API.
# scriviamo sotto il parametro TEMPERATURE  un messaggio che se la temperatura √® 0, il parametro viene omesso
if TEMPERATURE == 0:
    print("‚ö†Ô∏è nota bene: la temperatura √® impostata a 0, il parametro verr√† omesso in fase di chiamata API.")


# --- API Endpoint (Usually fixed) ---
OPENROUTER_API_ENDPOINT = "https://openrouter.ai/api/v1/chat/completions"

# --- Validation & Summary ---
errors = []
if not CLASSIFICATION_MODEL: errors.append("CLASSIFICATION_MODEL cannot be empty.")
if not SIMILARITY_MODEL: errors.append("SIMILARITY_MODEL cannot be empty.")
if "{input_text}" not in CLASSIFICATION_PROMPT_TEMPLATE: errors.append("CLASSIFICATION_PROMPT_TEMPLATE missing '{input_text}'.")
if "{ground_truth_text}" not in SIMILARITY_PROMPT_TEMPLATE: errors.append("SIMILARITY_PROMPT_TEMPLATE missing '{ground_truth_text}'.")
if "{llm_result_text}" not in SIMILARITY_PROMPT_TEMPLATE: errors.append("SIMILARITY_PROMPT_TEMPLATE missing '{llm_result_text}'.")
if not INPUT_CSV_PATH: errors.append("INPUT_CSV_PATH cannot be empty.")
if not OUTPUT_CSV_PATH: errors.append("OUTPUT_CSV_PATH cannot be empty.")
if DELAY_SECONDS < 0: errors.append("DELAY_SECONDS cannot be negative.")

if errors:
    print("‚ùå Configuration Errors Found:")
    for err in errors:
        print(f"   - {err}")
else:
    print("‚úÖ Configuration looks OK.")
    print("\n--- Current Settings ---")
    print(f"Classification Model: {CLASSIFICATION_MODEL}")
    print(f"Similarity Model: {SIMILARITY_MODEL}")
    print(f"Input CSV: {INPUT_CSV_PATH}")
    print(f"Output CSV: {OUTPUT_CSV_PATH}")
    print(f"Delay per row: {DELAY_SECONDS}s")
    print(f"Temperature: {TEMPERATURE}")
    # Displaying prompts might be long, consider commenting out if needed
    # print("Classification Prompt:\n```\n" + CLASSIFICATION_PROMPT_TEMPLATE + "\n```")
    # print("Similarity Prompt:\n```\n" + SIMILARITY_PROMPT_TEMPLATE + "\n```")
    print("Prompts set (view in form above).")


‚úÖ La configurazione sembra corretta.

--- Impostazioni attuali ---
Modello di classificazione: openrouter/horizon-beta
Modello di similarit√†: openai/gpt-4o-mini
CSV di input: /content/test-300-martino.csv
CSV di output: /content/evaluation_results_horizonbeta.csv
Attesa per riga: 0.3s
Prompt impostati (visualizzabili nel form sopra).


In [None]:
#@title 4b. Configurazione Reasoning e Parametri Aggiuntivi
#@markdown ---
#@markdown **Controllo Reasoning Tokens per modelli OpenRouter**
#@markdown
#@markdown Configura i parametri di reasoning. **IMPORTANTE**: OpenRouter non permette di usare entrambi i parametri insieme.
#@markdown - **Max Tokens**: Per modelli Anthropic/Gemini - numero di token per il reasoning (0 = disabilitato)
#@markdown - **Effort Level**: Per modelli OpenAI (o1, o3, GPT-5) e Grok - livello di intensit√† ("none" = disabilitato)
#@markdown
#@markdown ‚ö†Ô∏è **Nota**: Se imposti entrambi, verr√† usato solo "Effort Level" (priorit√† ai modelli OpenAI/Grok).
#@markdown
#@markdown üí° **Suggerimento**: Per disabilitare il reasoning su Grok/OpenAI, usa `effort: "none"`.
#@markdown Se usi `max_tokens: 0`, verr√† automaticamente convertito in `effort: "none"` per questi modelli.
#@markdown
#@markdown üìñ [Documentazione OpenRouter Reasoning](https://openrouter.ai/docs/use-cases/reasoning-tokens)
#@markdown ---

import json
#@markdown ---

# --- Configurazione Max Tokens (per modelli Anthropic/Gemini) ---
REASONING_MAX_TOKENS = 30 #@param {type:"raw"}
#@markdown **Max Tokens per Reasoning** (lascia vuoto per usare il default, oppure imposta un numero):
#@markdown - Lascia vuoto: usa la configurazione predefinita (max_tokens: 25)
#@markdown - Numero > 0: specifica il numero massimo di token per il reasoning
#@markdown - 0: disabilita il reasoning

#@markdown ---

# --- Configurazione Effort Level (per modelli OpenAI) ---
REASONING_EFFORT = "none" #@param [ "high", "medium", "low", "minimal", "none"]
#@markdown **Effort Level** (lascia "None" per non usare questo parametro):
#@markdown - `high`: ~80% dei max_tokens per reasoning
#@markdown - `medium`: ~50% dei max_tokens per reasoning
#@markdown - `low`: ~20% dei max_tokens per reasoning
#@markdown - `minimal`: ~10% dei max_tokens per reasoning
#@markdown - `none`: Disabilita il reasoning

#@markdown ---

# --- Escludi reasoning dalla risposta ---
REASONING_EXCLUDE = False #@param {type:"boolean"}
#@markdown **Escludi reasoning dalla risposta:**
#@markdown Se `True`, il modello user√† reasoning internamente ma non lo restituir√† nella risposta.

# --- Costruzione del dizionario parametri ---
ADDITIONAL_PARAMS_DICT = None
reasoning_config = {}

# IMPORTANTE: OpenRouter non permette di specificare sia "effort" che "max_tokens" insieme
# Se entrambi sono impostati, diamo priorit√† a "effort" (pi√π comune per modelli OpenAI)

has_effort = REASONING_EFFORT is not None and REASONING_EFFORT != "None" and REASONING_EFFORT != ""
has_max_tokens = REASONING_MAX_TOKENS is not None and REASONING_MAX_TOKENS != ""

# Gestione effort (ha priorit√† se entrambi sono impostati)
if has_effort:
    reasoning_config["effort"] = REASONING_EFFORT
    if has_max_tokens:
        print("‚ö†Ô∏è Nota: sia 'effort' che 'max_tokens' sono impostati. Verr√† usato solo 'effort' (OpenRouter non permette entrambi).")

# Gestione max_tokens (solo se effort non √® impostato)
elif has_max_tokens:
    try:
        max_tokens_val = int(REASONING_MAX_TOKENS)
        reasoning_config["max_tokens"] = max_tokens_val
    except (ValueError, TypeError):
        print("‚ö†Ô∏è Warning: REASONING_MAX_TOKENS non √® un numero valido. Verr√† ignorato.")

# Gestione exclude (pu√≤ essere aggiunto a qualsiasi configurazione)
if REASONING_EXCLUDE:
    reasoning_config["exclude"] = True

# Costruiamo il dizionario finale solo se abbiamo almeno un parametro
if reasoning_config:
    ADDITIONAL_PARAMS_DICT = {"reasoning": reasoning_config}

    # Messaggi informativi
    if "max_tokens" in reasoning_config:
        if reasoning_config["max_tokens"] == 0:
            print("‚úÖ Reasoning disabilitato (max_tokens: 0)")
        else:
            print(f"‚úÖ Reasoning configurato: max_tokens={reasoning_config['max_tokens']}")
    elif "effort" in reasoning_config:
        if reasoning_config["effort"] == "none":
            print("‚úÖ Reasoning disabilitato (effort: 'none')")
        else:
            print(f"‚úÖ Reasoning configurato: effort='{reasoning_config['effort']}'")

    if REASONING_EXCLUDE:
        print("   Reasoning tokens esclusi dalla risposta.")
else:
    print("‚ìò Usando la configurazione predefinita del reasoning (max_tokens: 25).")


In [None]:
#@title 5. Define Helper Functions

def deep_merge_dict(base_dict, update_dict):
    """
    Merge update_dict into base_dict recursively.
    Nested dictionaries are merged, not replaced.
    """
    result = base_dict.copy()
    for key, value in update_dict.items():
        if key in result and isinstance(result[key], dict) and isinstance(value, dict):
            result[key] = deep_merge_dict(result[key], value)
        else:
            result[key] = value
    return result

def call_openrouter_llm(messages, model_name, api_key, purpose="task", timeout=60):
    """Generic function to call the OpenRouter Chat Completions API."""
    if not api_key: # Check moved inside
        print(f"\n‚ùå Error ({purpose}): OpenRouter API Key is missing.")
        return None

    headers = {
        "Authorization": f"Bearer {api_key}",
        "Content-Type": "application/json",
        # Add Referer/Title if needed for OpenRouter tracking
        "HTTP-Referer": "https://colab.research.google.com/",
        "X-Title": "Colab LLM Eval",
    }
    max_tokens = 500 if purpose == "classification" else 550
    # Determine temperature based on purpose, but be mindful of model compatibility
    current_temperature = TEMPERATURE if purpose == "classification" else 0.1

    # Updated data structure to potentially leverage caching and reasoning
    data = {
        "model": model_name,
        "messages": messages, # Use the structured messages passed from calling function
        "max_tokens": max_tokens,
    }

    # Default reasoning configuration (used if section 4b doesn't override it)
    default_reasoning = {
        "reasoning": {
            "max_tokens": 25
        }
    }

    # Conditionally add temperature if it's greater than 0, as some models don't support it
    # NOTE: This is a heuristic. A more robust solution might involve checking model capabilities
    # via the OpenRouter API itself, but for now, we only add temperature if it's non-zero.
    if current_temperature > 0:
        data["temperature"] = current_temperature

    # Add reasoning and additional parameters from section 4b if configured
    if 'ADDITIONAL_PARAMS_DICT' in globals() and ADDITIONAL_PARAMS_DICT is not None:
        # If ADDITIONAL_PARAMS_DICT contains reasoning, it replaces the default
        # Otherwise, use the default reasoning
        if "reasoning" in ADDITIONAL_PARAMS_DICT:
            # User specified reasoning in section 4b, use it (will replace default)
            reasoning_config = ADDITIONAL_PARAMS_DICT["reasoning"].copy()
            
            # Rilevamento del tipo di modello per usare il parametro corretto
            model_lower = model_name.lower()
            supports_effort = any(keyword in model_lower for keyword in [
                "grok", "o1", "o3", "gpt-5", "openai/o1", "openai/o3", "openai/gpt-5", "x-ai"
            ])
            supports_max_tokens = any(keyword in model_lower for keyword in [
                "gemini", "claude", "anthropic", "qwen"
            ])
            
            has_effort = "effort" in reasoning_config
            has_max_tokens = "max_tokens" in reasoning_config
            
            # Se entrambi sono impostati, scegliamo quello corretto per il modello
            if has_effort and has_max_tokens:
                if supports_effort:
                    # Modello supporta effort, rimuoviamo max_tokens
                    del reasoning_config["max_tokens"]
                    print(f"   ‚ÑπÔ∏è Modello {model_name} supporta 'effort', rimosso 'max_tokens'")
                elif supports_max_tokens:
                    # Modello supporta max_tokens, manteniamo max_tokens e rimuoviamo effort
                    # (l'utente ha impostato max_tokens che √® quello corretto per questo modello)
                    effort_val = reasoning_config["effort"]
                    del reasoning_config["effort"]
                    print(f"   ‚ÑπÔ∏è Modello {model_name} supporta 'max_tokens', rimosso 'effort' (mantenuto max_tokens: {reasoning_config['max_tokens']})")
                else:
                    # Modello sconosciuto, manteniamo effort (pi√π comune)
                    del reasoning_config["max_tokens"]
                    print(f"   ‚ö†Ô∏è Modello {model_name} sconosciuto, usando 'effort' (rimosso 'max_tokens')")
            
            # Se abbiamo solo effort ma il modello supporta solo max_tokens
            elif has_effort and supports_max_tokens and not supports_effort:
                effort_val = reasoning_config["effort"]
                del reasoning_config["effort"]
                
                if effort_val == "none":
                    reasoning_config["max_tokens"] = 0
                    print(f"   ‚ÑπÔ∏è Convertito effort: 'none' ‚Üí max_tokens: 0 per modello {model_name}")
                else:
                    # Stima basata su effort
                    effort_to_tokens = {"high": 2000, "medium": 1000, "low": 400, "minimal": 200}
                    reasoning_config["max_tokens"] = effort_to_tokens.get(effort_val, 1000)
                    print(f"   ‚ÑπÔ∏è Convertito effort: '{effort_val}' ‚Üí max_tokens: {reasoning_config['max_tokens']} per modello {model_name}")
            
            # Se abbiamo solo max_tokens ma il modello supporta solo effort
            elif has_max_tokens and supports_effort and not supports_max_tokens:
                max_tokens_val = reasoning_config["max_tokens"]
                del reasoning_config["max_tokens"]
                
                if max_tokens_val == 0:
                    reasoning_config["effort"] = "none"
                    print(f"   ‚ÑπÔ∏è Convertito max_tokens: 0 ‚Üí effort: 'none' per modello {model_name}")
                else:
                    # Per valori > 0, usiamo "medium" come default
                    reasoning_config["effort"] = "medium"
                    print(f"   ‚ÑπÔ∏è Convertito max_tokens: {max_tokens_val} ‚Üí effort: 'medium' per modello {model_name}")
            
            # Ricostruiamo ADDITIONAL_PARAMS_DICT con la configurazione modificata
            modified_params = ADDITIONAL_PARAMS_DICT.copy()
            modified_params["reasoning"] = reasoning_config
            data = deep_merge_dict(data, modified_params)
        else:
            # User specified other params but not reasoning, merge default reasoning + custom params
            data = deep_merge_dict(data, default_reasoning)
            data = deep_merge_dict(data, ADDITIONAL_PARAMS_DICT)
    else:
        # No custom params from section 4b, use default reasoning
        data = deep_merge_dict(data, default_reasoning)


    try:
        response = requests.post(OPENROUTER_API_ENDPOINT, headers=headers, json=data, timeout=timeout)
        response.raise_for_status()
        result = response.json()
        choices = result.get("choices")
        if choices and len(choices) > 0 and choices[0].get("message") and choices[0]["message"].get("content"):
            return choices[0]["message"]["content"].strip()
        else:
            print(f"\n‚ö†Ô∏è Warning ({purpose}): Could not extract content. Response: {result}")
            return None
    except requests.exceptions.RequestException as e:
        error_msg = f"\n‚ùå Error ({purpose}) API call to {model_name}: {e}"
        if hasattr(e, 'response') and e.response is not None:
            error_msg += f". Status: {e.response.status_code}, Body: {e.response.text}"
        print(error_msg)
        return None
    except Exception as e:
        print(f"\n‚ùå Unexpected error during {purpose} API call ({model_name}): {e}")
        return None

def get_llm_classification(query_text, model_name, api_key):
    """Gets classification using the predefined template with structured messages."""
    try:
        # Access global template defined in Cell 4
        prompt_template = CLASSIFICATION_PROMPT_TEMPLATE.format(input_text="") # Format template without the query

        # Structure messages for potential caching
        messages = [
            {
                "role": "system",
                "content": [
                    {"type": "text", "text": prompt_template.strip(), "cache_control": {"type": "ephemeral"}}
                ]
            },
            {
                "role": "user",
                "content": [{"type": "text", "text": query_text.strip()}]
            }
        ]

    except KeyError:
        print(f"\n‚ùå Error: CLASSIFICATION_PROMPT_TEMPLATE missing '{{input_text}}'. Check Cell 4.")
        return None
    except Exception as e:
        print(f"\n‚ùå Error formatting classification prompt: {e}")
        return None
    return call_openrouter_llm(messages, model_name, api_key, purpose="classification")

def get_semantic_similarity_score(llm_output, ground_truth, model_name, api_key):
    """Gets similarity score using the predefined template."""
    if not isinstance(llm_output, str) or not isinstance(ground_truth, str) or not llm_output or not ground_truth:
        return 0.0
    try:
        # Access global template defined in Cell 4
        prompt = SIMILARITY_PROMPT_TEMPLATE.format(ground_truth_text=ground_truth, llm_result_text=llm_output)
    except KeyError:
        print(f"\n‚ùå Error: SIMILARITY_PROMPT_TEMPLATE missing placeholder(s). Check Cell 4.")
        return 0.0
    except Exception as e:
        print(f"\n‚ùå Error formatting similarity prompt: {e}")
        return 0.0
    messages = [{"role": "user", "content": prompt}] # Keep simple structure for similarity
    raw_score_text = call_openrouter_llm(messages, model_name, api_key, purpose="similarity")
    if raw_score_text is None:
        print("   Similarity scoring failed (API error).")
        return 0.0
    # Robust Score Parsing
    try:
        score = float(raw_score_text.strip())
        return max(0.0, min(100.0, score))
    except ValueError:
        match = re.search(r'\b(\d{1,3}(?:\.\d+)?)\b', raw_score_text)
        if match:
            try:
                score = float(match.group(1))
                print(f"   [Sim Score Parsed: {score} from '{raw_score_text}']", end='')
                return max(0.0, min(100.0, score))
            except ValueError: pass
        print(f"   Similarity scoring failed: Could not parse number from '{raw_score_text}'.")
        return 0.0

print("‚úÖ Helper functions defined.")

‚úÖ Helper functions defined.


In [7]:
#@title 6. Define Main Evaluation Logic

def run_evaluation(input_csv_path, output_csv_path, class_model, sim_model, api_key, delay):
    """
    Esegue il ciclo completo di valutazione utilizzando la configurazione definita nelle celle precedenti.
    """
    print(f"\nüöÄ Inizio il processo di valutazione...")
    print("---")

    # --- Validate API Key ---
    if not api_key:
        print("‚ùå CRITICAL ERROR: la chiave API √® mancante. Non posso procedere.")
        return None # Stop execution

    # --- Load Input Data ---
    try:
        input_df = pd.read_csv(input_csv_path)
        required_cols = ['input', 'ground_truth']
        input_df.columns = [col.lower().strip() for col in input_df.columns] # Normalize column names
        missing_cols = [col for col in required_cols if col not in input_df.columns]
        if missing_cols:
            raise ValueError(f"Il file CSV '{input_csv_path}' mancano delle colonne richieste: {', '.join(missing_cols)}")
        print(f"üëç Caricato {len(input_df)} righe da '{input_csv_path}'. Colonne: {list(input_df.columns)}")
    except FileNotFoundError:
        print(f"‚ùå Error: il file non √® stato trovato in '{input_csv_path}'. Hai caricato il file?")
        return None
    except ValueError as ve:
        print(f"‚ùå Error: {ve}")
        return None
    except Exception as e:
        print(f"‚ùå Errore nel caricamento del file CSV '{input_csv_path}': {e}")
        return None

    # --- Run Evaluations ---
    results_list = []
    total_items = len(input_df)

    for index, row in input_df.iterrows():
        item_num = index + 1
        print(f"üîÑ Processo query {item_num}/{total_items}: ", end='')

        original_query = str(row.get('input', '')).strip()
        ground_truth = str(row.get('ground_truth', '')).strip()

        if not original_query:
            print(" Saltato - query vuota.")
            llm_classification = "INPUT_ERROR"
            exact_match = False
            similarity_score = 0.0
        else:
            # 1. Classification
            print(" Classificazione...", end='')
            llm_classification = get_llm_classification(original_query, class_model, api_key)
            if llm_classification is None:
                print(" Classificazione fallita.", end='')
                llm_classification = "CLASSIFICATION_API_ERROR"
                exact_match = False
                similarity_score = 0.0
            else:
                llm_classification = str(llm_classification)
                print(f" Got '{llm_classification}'.", end='')
                # 2. Exact Match
                exact_match = (llm_classification == ground_truth)
                print(f" Match: {exact_match}.", end='')
                # 3. Similarity Score
                print(" Scoring Similarity...", end='')
                similarity_score = get_semantic_similarity_score(llm_classification, ground_truth, sim_model, api_key)
                print(f" Score: {similarity_score:.2f}.", end='')

        # Store Result
        results_list.append({
            'original_query': original_query,
            'ground_truth': ground_truth,
            'classification': llm_classification,
            'match': exact_match,
            'semantic_similarity': round(similarity_score, 2)
        })
        print("") # Newline after processing each item
        time.sleep(delay) # Apply delay

    # --- Save Results ---
    if results_list:
        results_df = pd.DataFrame(results_list)
        try:
            results_df.to_csv(output_csv_path, index=False, encoding='utf-8')
            print(f"\n--- ‚úÖ Valutazione Completata ---")
            print(f"Risultati salvati in '{output_csv_path}'. Puoi scaricarli dalla scheda Files o il browser dovrebbe proporre di scaricare il file.")
            # --- Calculate and Print Statistics ---
            total_queries = len(results_df)
            exact_matches = results_df['match'].sum()
            partial_matches = total_queries - exact_matches
            avg_similarity = results_df['semantic_similarity'].mean()

            print("\n--- Statistiche di valutazione ---")
            print(f"Totale query processate: {total_queries}")
            print(f"Query con corrispondenza al 100%: {exact_matches}")
            print(f"Query con corrispondenza <100%: {partial_matches}")
            print(f"Stima Similarit√† semantica media: {avg_similarity:.2f}")
            # restituisce l'output
            return output_csv_path # Return filename on success

        except Exception as e:
            print(f"\n‚ùå Errore nel salvataggio dei risultati in '{output_csv_path}': {e}")
            return None
    else:
        print("\n--- ‚ö†Ô∏è Valutazione Completata ---")
        print("Attenzione: nessun risultato generato. Controlla il file di input e i log.")
        return None

print("‚úÖ Funzione principale di valutazione 'run_evaluation' pronta ad essere chiamata.")

‚úÖ Funzione principale di valutazione 'run_evaluation' pronta ad essere chiamata.


In [8]:
#@title 7. ‚ñ∂Ô∏è Eseguiamo la valutazione

# importiamo il time e facciamo partire il cronomentro
import time # Import the time module
start_time = time.time() # Use time.time() to get the timestamp

# controlliamo che tutto sia pronto per l'esecuzione
# --- Final Check Before Running ---
if 'FINAL_API_KEY' in locals() and FINAL_API_KEY and \
   'CLASSIFICATION_MODEL' in locals() and CLASSIFICATION_MODEL and \
   'SIMILARITY_MODEL' in locals() and SIMILARITY_MODEL and \
   'INPUT_CSV_PATH' in locals() and INPUT_CSV_PATH and \
   'OUTPUT_CSV_PATH' in locals() and OUTPUT_CSV_PATH and \
   'DELAY_SECONDS' in locals() and DELAY_SECONDS >= 0:

    print("Controlli pre-esecuzione passati. Inizio valutazione...")
    #print(CLASSIFICATION_PROMPT_TEMPLATE)
    #print(SIMILARITY_PROMPT_TEMPLATE)

    # --- Call the main function ---
    output_file = run_evaluation(
        input_csv_path=INPUT_CSV_PATH,
        output_csv_path=OUTPUT_CSV_PATH,
        class_model=CLASSIFICATION_MODEL,
        sim_model=SIMILARITY_MODEL,
        api_key=FINAL_API_KEY,
        delay=DELAY_SECONDS
    )

    # --- Optional: Offer download link ---
    if output_file and os.path.exists(output_file):
        try:
            print(f"\n‚¨áÔ∏è Tentativo di attivare il download per '{os.path.basename(output_file)}'...")
            files.download(output_file)
        except Exception as e:
            print(f"   Non √® stato possibile attivare il download automatico: {e}")
            print(f"   Scarica '{output_file}' manualmente dalla scheda Files.")
    elif output_file:
         print(f"\nNota: il file di output '{output_file}' era previsto ma non trovato per il download.")

else:
    print("\n‚ùå Esecuzione annullata: una o pi√π configurazioni critiche mancano.")
    print("   Assicurati di avere:")
    print("   1. Inserito la chiave API (cella 2 & 3).")
    print("   2. Configurato i modelli, i percorsi dei file e i prompt (cella 4).")
    print("   3. Caricato il file CSV di input, attenzione ai nomi delle colonne!")
    print("   Riavvia le celle sopra se necessario.")

#@title üîî Final Notification Sound

import requests
from IPython.display import Audio, display

try:
    # Using a more common format like MP3 might be slightly more compatible, but OGG usually works.
    url = "https://upload.wikimedia.org/wikipedia/commons/0/0c/Meow_domestic_cat.ogg"
    #url = "https://interactive-examples.mdn.mozilla.net/media/cc0-audio/t-rex-roar.mp3" # Example MP3

    # Define a custom User-Agent header
    headers = {
        "User-Agent": "MyColabScript/1.0 (https://colab.research.google.com/; MyEmail@example.com)"
    }

    audio_response = requests.get(url, headers=headers, timeout=10) # Pass headers to the request
    audio_response.raise_for_status() # Check for HTTP errors
    audio_content = audio_response.content

    print("segnale audio...")
    # Explicitly display the Audio object
    display(Audio(audio_content, autoplay=True)) # Added autoplay=True

except requests.exceptions.RequestException as e:
    print(f"‚ùå Errore nel recupero del segnale audio: {e}")
except Exception as e:
    print(f"‚ùå Errore nel riprodurre il segnale audio: {e}")

# fermiamo il timer e stampiamo i secondi
end_time = time.time() # Use time.time() to get the timestamp
elapsed_time = end_time - start_time
print(f"Tempo di esecuzione: {elapsed_time:.2f} secondi")
# e lo stampiamo anche in minuti
print(f"Tempo di esecuzione: {elapsed_time/60:.2f} minuti")

Controlli pre-esecuzione passati. Inizio valutazione...

üöÄ Inizio il processo di valutazione...
---
üëç Caricato 325 righe da '/content/test-300-martino.csv'. Colonne: ['input', 'ground_truth']
üîÑ Processo query 1/325:  Classificazione... Got 'Cantine,Franciacorta'. Match: True. Scoring Similarity... Score: 100.00.
üîÑ Processo query 2/325:  Classificazione... Got 'Cantine,Franciacorta'. Match: True. Scoring Similarity... Score: 100.00.
üîÑ Processo query 3/325:  Classificazione... Got 'Cantine,Franciacorta'. Match: True. Scoring Similarity... Score: 100.00.
üîÑ Processo query 4/325:  Classificazione... Got 'Cantine,Franciacorta'. Match: True. Scoring Similarity... Score: 100.00.
üîÑ Processo query 5/325:  Classificazione...

KeyboardInterrupt: 