# 📊 Analisi Interattiva di Commenti Excel con AI Multi-Provider

Questo notebook permette di analizzare e etichettare automaticamente commenti da file Excel utilizzando diversi provider di intelligenza artificiale.

## 🤖 Provider AI Supportati:
- **🏠 Ollama** - Modelli locali gratuiti (Mixtral, LLaMA, Qwen, etc.)
- **🌐 OpenRouter** - Accesso a modelli multipli via API (molti gratuiti)

## 🎯 Funzionalità:
- **Selezione interattiva** del provider AI
- **Caricamento interattivo** di file Excel
- **Template di prompt** per diversi tipi di analisi
- **Prompt personalizzabile** per l'analisi
- **Etichettatura automatica** dei commenti
- **Report finale** in formato Excel

## 📝 Come usare:
1. Esegui le celle in ordine
2. Scegli il provider AI che preferisci
3. Seleziona il file Excel da analizzare
4. Scegli un template di prompt o creane uno personalizzato
5. Avvia l'analisi e ottieni i risultati

## 💡 Vantaggi Multi-Provider:
- **Ollama**: Completamente gratuito, privacy totale
- **OpenRouter**: Accesso a modelli all'avanguardia, molti gratuiti

## 📚 1. Importazione Librerie

Importiamo tutte le librerie necessarie per l'analisi.

## Inizializzazione Variabili Globali di Configurazione
Configurazione interattiva dei parametri principali del sistema di analisi

In [None]:
# Widget per la configurazione dei parametri
import ipywidgets as widgets
from IPython.display import display, clear_output

# Stile personalizzato per i widget
style = {'description_width': 'initial'}
layout = widgets.Layout(width='400px')

print("🔧 Configurazione Parametri Sistema")
print("=" * 50)

# Widget per AI Provider Fase 1 (Etichettatura)
ai_provider_fase1_widget = widgets.Dropdown(
    options=['openrouter', 'ollama', 'openai'],
    value='openrouter',
    description='Provider Fase 1:',
    style=style,
    layout=layout
)

# Widget per AI Provider Fase 2 (Analisi Avanzata)
ai_provider_fase2_widget = widgets.Dropdown(
    options=['openrouter', 'ollama', 'openai'],
    value='openrouter',
    description='Provider Fase 2:',
    style=style,
    layout=layout
)

# Widget per modello specifico Fase 1
model_fase1_widget = widgets.Dropdown(
    options=['llama3.1:8b', 'llama3.1:70b', 'qwen2.5:14b', 'mistral:7b', 'claude-3-haiku', 'gpt-4o-mini'],
    value='llama3.1:8b',
    description='Modello Fase 1:',
    style=style,
    layout=layout
)

# Widget per modello specifico Fase 2
model_fase2_widget = widgets.Dropdown(
    options=['llama3.1:70b', 'qwen2.5:14b', 'claude-3-sonnet', 'gpt-4o', 'llama3.1:8b', 'mistral:7b'],
    value='llama3.1:70b',
    description='Modello Fase 2:',
    style=style,
    layout=layout
)

# Widget per AI Provider Report Discorsivo
ai_provider_report_widget = widgets.Dropdown(
    options=['openrouter', 'ollama', 'openai'],
    value='openrouter',
    description='Provider Report:',
    style=style,
    layout=layout
)

# Widget per modello specifico Report Discorsivo
model_report_widget = widgets.Dropdown(
    options=['claude-3-sonnet', 'gpt-4o', 'llama3.1:70b', 'qwen2.5:14b', 'claude-3-haiku', 'gpt-4o-mini'],
    value='claude-3-sonnet',
    description='Modello Report:',
    style=style,
    layout=layout
)

# Widget per modalità analisi
modalita_widget = widgets.Dropdown(
    options=['comportamenti', 'pro_contro', 'ostacoli', 'punti_forza'],
    value='comportamenti',
    description='Modalità Analisi:',
    style=style,
    layout=layout
)

# Widget per temperature
temperature_widget = widgets.FloatSlider(
    value=0.3,
    min=0.0,
    max=1.0,
    step=0.1,
    description='Temperature:',
    style=style,
    layout=layout,
    readout_format='.1f'
)

# Widget per soglia confidenza
soglia_conf_widget = widgets.FloatSlider(
    value=0.7,
    min=0.0,
    max=1.0,
    step=0.05,
    description='Soglia Confidenza:',
    style=style,
    layout=layout,
    readout_format='.2f'
)

# Widget per soglia secondarie
soglia_sec_widget = widgets.FloatSlider(
    value=0.5,
    min=0.0,
    max=1.0,
    step=0.05,
    description='Soglia Secondarie:',
    style=style,
    layout=layout,
    readout_format='.2f'
)

# Widget per batch size
batch_size_widget = widgets.IntSlider(
    value=10,
    min=1,
    max=50,
    step=1,
    description='Batch Size:',
    style=style,
    layout=layout
)

# Widget per max etichette dinamiche
max_etichette_widget = widgets.IntSlider(
    value=15,
    min=5,
    max=30,
    step=1,
    description='Max Etichette:',
    style=style,
    layout=layout
)

# Widget per modalità batch
batch_mode_widget = widgets.Checkbox(
    value=True,
    description='Modalità Batch',
    style=style
)

# Widget per etichette multiple
etichette_multiple_widget = widgets.Checkbox(
    value=True,
    description='Etichette Multiple',
    style=style
)

# Pulsante per applicare la configurazione
apply_button = widgets.Button(
    description='✅ Applica Configurazione',
    button_style='success',
    layout=widgets.Layout(width='200px', height='40px')
)

# Reset button
reset_button = widgets.Button(
    description='🔄 Reset Defaults',
    button_style='warning',
    layout=widgets.Layout(width='200px', height='40px')
)

# Funzione per applicare la configurazione
def apply_config(button):
    global AI_PROVIDER, MODALITA_ANALISI, TEMPERATURE, SOGLIA_CONFIDENZA
    global SOGLIA_SECONDARIE, BATCH_SIZE, MAX_ETICHETTE_DINAMICHE
    global BATCH_MODE, ETICHETTE_MULTIPLE
    global AI_PROVIDER_FASE1, AI_PROVIDER_FASE2, MODEL_FASE1, MODEL_FASE2
    global AI_PROVIDER_REPORT, MODEL_REPORT
    
    # Applica i valori dai widget alle variabili globali
    AI_PROVIDER = ai_provider_fase1_widget.value  # Mantieni compatibilità
    AI_PROVIDER_FASE1 = ai_provider_fase1_widget.value
    AI_PROVIDER_FASE2 = ai_provider_fase2_widget.value
    AI_PROVIDER_REPORT = ai_provider_report_widget.value
    MODEL_FASE1 = model_fase1_widget.value
    MODEL_FASE2 = model_fase2_widget.value
    MODEL_REPORT = model_report_widget.value
    MODALITA_ANALISI = modalita_widget.value
    TEMPERATURE = temperature_widget.value
    SOGLIA_CONFIDENZA = soglia_conf_widget.value
    SOGLIA_SECONDARIE = soglia_sec_widget.value
    BATCH_SIZE = batch_size_widget.value
    MAX_ETICHETTE_DINAMICHE = max_etichette_widget.value
    BATCH_MODE = batch_mode_widget.value
    ETICHETTE_MULTIPLE = etichette_multiple_widget.value
    
    # Feedback visivo
    with output:
        clear_output()
        print("✅ Configurazione applicata con successo!")
        print(f"🤖 Provider Fase 1 (Etichettatura): {AI_PROVIDER_FASE1}")
        print(f"🧠 Modello Fase 1: {MODEL_FASE1}")
        print(f"🤖 Provider Fase 2 (Analisi): {AI_PROVIDER_FASE2}")  
        print(f"🧠 Modello Fase 2: {MODEL_FASE2}")
        print(f"🤖 Provider Report (Discorsivo): {AI_PROVIDER_REPORT}")
        print(f"🧠 Modello Report: {MODEL_REPORT}")
        print(f"📊 Modalità: {MODALITA_ANALISI}")
        print(f"🌡️  Temperature: {TEMPERATURE}")
        print(f"🎯 Soglia Confidenza: {SOGLIA_CONFIDENZA}")
        print(f"🔍 Soglia Secondarie: {SOGLIA_SECONDARIE}")
        print(f"📦 Batch Size: {BATCH_SIZE}")
        print(f"🏷️  Max Etichette: {MAX_ETICHETTE_DINAMICHE}")
        print(f"⚙️  Batch Mode: {BATCH_MODE}")
        print(f"🔗 Etichette Multiple: {ETICHETTE_MULTIPLE}")

# Funzione per reset ai valori di default
def reset_config(button):
    ai_provider_fase1_widget.value = 'openrouter'
    ai_provider_fase2_widget.value = 'openrouter'
    ai_provider_report_widget.value = 'openrouter'
    model_fase1_widget.value = 'llama3.1:8b'
    model_fase2_widget.value = 'llama3.1:70b'
    model_report_widget.value = 'claude-3-sonnet'
    modalita_widget.value = 'comportamenti'
    temperature_widget.value = 0.3
    soglia_conf_widget.value = 0.7
    soglia_sec_widget.value = 0.5
    batch_size_widget.value = 10
    max_etichette_widget.value = 15
    batch_mode_widget.value = True
    etichette_multiple_widget.value = True
    
    with output:
        clear_output()
        print("🔄 Parametri resettati ai valori di default")

# Collega i pulsanti alle funzioni
apply_button.on_click(apply_config)
reset_button.on_click(reset_config)

# Output area per i messaggi
output = widgets.Output()

# Layout dei widget
config_box = widgets.VBox([
    widgets.HTML("<h3>🔧 Parametri di Configurazione Avanzata - Triple Model</h3>"),
    widgets.HBox([
        widgets.VBox([
            widgets.HTML("<b>🏷️  Fase 1 - Etichettatura Dinamica:</b>"),
            ai_provider_fase1_widget,
            model_fase1_widget,
            widgets.HTML("<br><b>🧠 Fase 2 - Analisi Avanzata:</b>"),
            ai_provider_fase2_widget,
            model_fase2_widget,
            widgets.HTML("<br><b>📝 Report Discorsivo:</b>"),
            ai_provider_report_widget,
            model_report_widget
        ]),
        widgets.VBox([
            widgets.HTML("<b>📊 Modalità e Parametri:</b>"),
            modalita_widget,
            temperature_widget,
            widgets.HTML("<br><b>🎯 Soglie di Qualità:</b>"),
            soglia_conf_widget,
            soglia_sec_widget,
            widgets.HTML("<br><b>⚙️  Elaborazione:</b>"),
            batch_size_widget,
            max_etichette_widget,
            widgets.HTML("<br><b>🔗 Opzioni:</b>"),
            batch_mode_widget,
            etichette_multiple_widget
        ])
    ]),
    widgets.HTML("""
    <div style="background-color: #e3f2fd; padding: 10px; border-radius: 5px; margin: 10px 0;">
        <strong>💡 Configurazione Triple-Model:</strong><br>
        • <strong>Fase 1</strong>: Modello veloce per etichettatura dinamica (es. llama3.1:8b)<br>
        • <strong>Fase 2</strong>: Modello equilibrato per analisi approfondita (es. llama3.1:70b)<br>
        • <strong>Report</strong>: Modello specializzato in scrittura narrativa (es. claude-3-sonnet)<br>
        • Ottimizza velocità, qualità e capacità narrative per ogni fase dell'analisi
    </div>
    """),
    widgets.HBox([apply_button, reset_button]),
    widgets.HTML("<br>"),
    output
])

# Mostra i widget
display(config_box)

# Inizializza con i valori di default se le variabili non esistono
if 'AI_PROVIDER' not in globals():
    apply_config(None)  # Applica la configurazione iniziale

🔧 Configurazione Parametri Sistema


VBox(children=(HTML(value='<h3>🔧 Parametri di Configurazione</h3>'), HBox(children=(VBox(children=(HTML(value=…

In [None]:
# Visualizzazione stato configurazione corrente
def mostra_configurazione_attuale():
    """Mostra lo stato attuale di tutte le variabili di configurazione"""
    print("📋 STATO CONFIGURAZIONE ATTUALE")
    print("=" * 40)
    
    # Configurazione Triple-Model
    print("🔧 MODELLI TRIPLE-PHASE:")
    if 'AI_PROVIDER_FASE1' in globals():
        print(f"🏷️  Fase 1: {globals()['AI_PROVIDER_FASE1']}/{globals().get('MODEL_FASE1', 'default')}")
        print(f"🧠 Fase 2: {globals()['AI_PROVIDER_FASE2']}/{globals().get('MODEL_FASE2', 'default')}")
        print(f"📝 Report: {globals().get('AI_PROVIDER_REPORT', 'non configurato')}/{globals().get('MODEL_REPORT', 'default')}")
    else:
        print("❌ Configurazione triple-model non applicata")
    
    print("\n📊 PARAMETRI GENERALI:")
    
    # Controlla se le variabili esistono e mostra i loro valori
    config_vars = {
        'MODALITA_ANALISI': 'Modalità Analisi', 
        'TEMPERATURE': 'Temperature',
        'SOGLIA_CONFIDENZA': 'Soglia Confidenza',
        'SOGLIA_SECONDARIE': 'Soglia Secondarie',
        'BATCH_SIZE': 'Batch Size',
        'MAX_ETICHETTE_DINAMICHE': 'Max Etichette Dinamiche',
        'BATCH_MODE': 'Modalità Batch',
        'ETICHETTE_MULTIPLE': 'Etichette Multiple'
    }
    
    for var_name, description in config_vars.items():
        if var_name in globals():
            value = globals()[var_name]
            if isinstance(value, float):
                print(f"🔹 {description:<20}: {value:.2f}")
            elif isinstance(value, bool):
                print(f"🔹 {description:<20}: {'✅ Sì' if value else '❌ No'}")
            else:
                print(f"🔹 {description:<20}: {value}")
        else:
            print(f"🔹 {description:<20}: ⚠️  Non definita")
    
    print("\n💡 Usa i widget sopra per modificare questi parametri")
    print("🚀 La configurazione triple-model ottimizza velocità, qualità e capacità narrative")

# Mostra la configurazione attuale
mostra_configurazione_attuale()

📋 STATO CONFIGURAZIONE ATTUALE
🔹 Provider AI         : ollama
🔹 Modalità Analisi    : comportamenti
🔹 Temperature         : 0.30
🔹 Soglia Confidenza   : 0.70
🔹 Soglia Secondarie   : 0.50
🔹 Batch Size          : 10
🔹 Max Etichette Dinamiche: 15
🔹 Modalità Batch      : ✅ Sì
🔹 Etichette Multiple  : ✅ Sì

💡 Usa i widget sopra per modificare questi parametri


In [None]:
# 🔄 Sistema Dual-Model Management
def inizializza_llm_fase(provider, model_name, temperatura=0.3):
    """
    Inizializza un LLM specifico per una fase
    """
    try:
        if provider == 'ollama':
            from langchain_ollama import OllamaLLM
            return OllamaLLM(
                model=model_name,
                temperature=temperatura,
                num_predict=2048
            )
        elif provider == 'openrouter':
            from langchain_openai import ChatOpenAI
            return ChatOpenAI(
                model=model_name,
                temperature=temperatura,
                api_key=os.getenv("OPENROUTER_API_KEY"),
                base_url="https://openrouter.ai/api/v1"
            )
        elif provider == 'openai':
            from langchain_openai import ChatOpenAI
            return ChatOpenAI(
                model=model_name,
                temperature=temperatura,
                api_key=os.getenv("OPENAI_API_KEY")
            )
        else:
            raise ValueError(f"Provider non supportato: {provider}")
            
    except Exception as e:
        print(f"❌ Errore inizializzazione LLM {provider}/{model_name}: {str(e)}")
        return None

def get_llm_per_fase(fase):
    """
    Restituisce l'LLM appropriato per la fase specificata
    Args:
        fase (int): 1 per etichettatura, 2 per analisi avanzata, 3 per report discorsivo
    """
    global AI_PROVIDER_FASE1, AI_PROVIDER_FASE2, AI_PROVIDER_REPORT
    global MODEL_FASE1, MODEL_FASE2, MODEL_REPORT, TEMPERATURE
    
    try:
        if fase == 1:
            # Usa configurazione Fase 1 (etichettatura)
            provider = AI_PROVIDER_FASE1 if 'AI_PROVIDER_FASE1' in globals() else 'openrouter'
            model = MODEL_FASE1 if 'MODEL_FASE1' in globals() else 'llama3.1:8b'
            temp = TEMPERATURE if 'TEMPERATURE' in globals() else 0.3
            
            print(f"🏷️  Inizializzo LLM Fase 1: {provider}/{model} (temp: {temp})")
            return inizializza_llm_fase(provider, model, temp)
            
        elif fase == 2:
            # Usa configurazione Fase 2 (analisi avanzata)
            provider = AI_PROVIDER_FASE2 if 'AI_PROVIDER_FASE2' in globals() else 'openrouter'
            model = MODEL_FASE2 if 'MODEL_FASE2' in globals() else 'llama3.1:70b'
            temp = TEMPERATURE if 'TEMPERATURE' in globals() else 0.3
            
            print(f"🧠 Inizializzo LLM Fase 2: {provider}/{model} (temp: {temp})")
            return inizializza_llm_fase(provider, model, temp)
            
        elif fase == 3:
            # Usa configurazione Report Discorsivo
            provider = AI_PROVIDER_REPORT if 'AI_PROVIDER_REPORT' in globals() else 'openrouter'
            model = MODEL_REPORT if 'MODEL_REPORT' in globals() else 'claude-3-sonnet'
            temp = TEMPERATURE if 'TEMPERATURE' in globals() else 0.3
            
            print(f"📝 Inizializzo LLM Report: {provider}/{model} (temp: {temp})")
            return inizializza_llm_fase(provider, model, temp)
            
        else:
            raise ValueError(f"Fase non valida: {fase}. Usa 1, 2 o 3.")
            
    except Exception as e:
        print(f"❌ Errore configurazione LLM fase {fase}: {str(e)}")
        return None

def mostra_configurazione_dual_model():
    """Mostra la configurazione attuale dei modelli triple-phase"""
    print("🔧 CONFIGURAZIONE TRIPLE-MODEL ATTUALE")
    print("=" * 50)
    
    # Fase 1 - Etichettatura
    provider1 = globals().get('AI_PROVIDER_FASE1', '❌ Non configurato')
    model1 = globals().get('MODEL_FASE1', '❌ Non configurato')
    print(f"🏷️  FASE 1 (Etichettatura):")
    print(f"    Provider: {provider1}")
    print(f"    Modello:  {model1}")
    print(f"    Scopo:    Generazione etichette dinamiche rapida")
    
    print()
    
    # Fase 2 - Analisi
    provider2 = globals().get('AI_PROVIDER_FASE2', '❌ Non configurato')
    model2 = globals().get('MODEL_FASE2', '❌ Non configurato')
    print(f"🧠 FASE 2 (Analisi Avanzata):")
    print(f"    Provider: {provider2}")
    print(f"    Modello:  {model2}")
    print(f"    Scopo:    Analisi dettagliata e categorizzazione")
    
    print()
    
    # Fase 3 - Report
    provider3 = globals().get('AI_PROVIDER_REPORT', '❌ Non configurato')
    model3 = globals().get('MODEL_REPORT', '❌ Non configurato')
    print(f"📝 FASE 3 (Report Discorsivo):")
    print(f"    Provider: {provider3}")
    print(f"    Modello:  {model3}")
    print(f"    Scopo:    Generazione report narrativo professionale")
    
    print()
    
    # Parametri comuni
    temp = globals().get('TEMPERATURE', '❌ Non configurato')
    modalita = globals().get('MODALITA_ANALISI', '❌ Non configurato')
    print(f"⚙️  PARAMETRI COMUNI:")
    print(f"    Temperature:  {temp}")
    print(f"    Modalità:     {modalita}")
    
    print("\n💡 Configurazione triple-model ottimizza velocità, qualità e capacità narrative")

# Test configurazione triple-model
if 'AI_PROVIDER_FASE1' not in globals():
    print("⚠️  Configurazione triple-model non ancora applicata")
    print("💡 Usa i widget sopra per configurare i modelli per le tre fasi")
else:
    mostra_configurazione_dual_model()

In [33]:
import pandas as pd
import logging
import os
import time
from datetime import datetime
from langchain_ollama import OllamaLLM
from dotenv import load_dotenv
import ipywidgets as widgets
from IPython.display import display, clear_output
import requests
import json

# Carica le variabili di ambiente dal file .env
load_dotenv()

# Configurazione del logging
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s',
    handlers=[
        logging.FileHandler("operazioni_log.log"),
        logging.StreamHandler()
    ]
)

print("✅ Librerie importate con successo!")

✅ Librerie importate con successo!


## 🔧 2. Configurazione Provider AI

Configuriamo la connessione con il provider AI scelto (OpenRouter o Ollama).

In [34]:
# Configurazione provider AI multipli
AI_PROVIDER = os.getenv('AI_PROVIDER', 'ollama').lower()
TEMPERATURE = float(os.getenv('TEMPERATURE', '0.7'))

class OpenRouterLLM:
    """Wrapper personalizzato per OpenRouter senza dipendere da OpenAI"""
    
    def __init__(self, model, api_key, temperature=0.7):
        self.model = model
        self.api_key = api_key
        self.temperature = temperature
        self.base_url = "https://openrouter.ai/api/v1/chat/completions"
    
    def invoke(self, messages):
        """Invoca il modello OpenRouter con i messaggi forniti"""
        
        # Se messages è una stringa, convertila in formato chat
        if isinstance(messages, str):
            formatted_messages = [{"role": "user", "content": messages}]
        else:
            formatted_messages = messages
            
        headers = {
            "Authorization": f"Bearer {self.api_key}",
            "HTTP-Referer": "http://localhost:8888",
            "X-Title": "Analisi Excel AI",
            "Content-Type": "application/json"
        }
        
        data = {
            "model": self.model,
            "messages": formatted_messages,
            "temperature": self.temperature
        }
        
        try:
            response = requests.post(self.base_url, headers=headers, json=data, timeout=60)
            response.raise_for_status()
            
            result = response.json()
            return result['choices'][0]['message']['content']
            
        except requests.exceptions.RequestException as e:
            raise ValueError(f"❌ Errore nella chiamata a OpenRouter: {e}")
        except (KeyError, IndexError) as e:
            raise ValueError(f"❌ Formato risposta non valido da OpenRouter: {e}")

def check_all_providers():
    """Verifica lo stato di tutti i provider disponibili"""
    print("🔍 VERIFICA STATO PROVIDER AI")
    print("=" * 50)
    
    # Verifica Ollama
    print("\n🏠 OLLAMA (Locale)")
    ollama_status = "❌"
    ollama_info = ""
    try:
        base_url = os.getenv('OLLAMA_BASE_URL', 'http://192.168.129.14:11435')
        model = os.getenv('OLLAMA_MODEL', 'mixtral:8x7b')
        
        response = requests.get(f"{base_url}/api/tags", timeout=5)
        if response.status_code == 200:
            models = response.json().get('models', [])
            ollama_status = "✅"
            ollama_info = f"Server: {base_url} | Modello: {model} | Disponibili: {len(models)}"
        else:
            ollama_info = f"Server risponde con errore: {response.status_code}"
    except Exception as e:
        ollama_info = f"Server non raggiungibile: {base_url}"
    
    print(f"{ollama_status} Ollama: {ollama_info}")
    
    # Verifica OpenRouter
    print("\n🌐 OPENROUTER (API)")
    openrouter_status = "❌"
    openrouter_info = ""
    try:
        api_key = os.getenv('OPENROUTER_API_KEY', '')
        model = os.getenv('OPENROUTER_MODEL', 'nvidia/llama-3.1-nemotron-ultra-253b-v1')
        
        if api_key and api_key != 'sk-or-your-openrouter-api-key-here':
            openrouter_status = "✅"
            openrouter_info = f"API Key: {api_key[:15]}...{api_key[-4:]} | Modello: {model}"
        else:
            openrouter_info = "API Key non configurata"
    except Exception as e:
        openrouter_info = f"Errore configurazione: {e}"
    
    print(f"{openrouter_status} OpenRouter: {openrouter_info}")
    
    print("\n" + "=" * 50)
    return ollama_status == "✅", openrouter_status == "✅"

def create_llm():
    """Crea l'istanza LLM basata sul provider configurato"""
    
    if AI_PROVIDER == 'openrouter':
        api_key = os.getenv('OPENROUTER_API_KEY')
        model = os.getenv('OPENROUTER_MODEL', 'nvidia/llama-3.1-nemotron-ultra-253b-v1')
        
        if not api_key:
            raise ValueError("❌ OPENROUTER_API_KEY non trovata nel file .env")
        
        llm = OpenRouterLLM(
            model=model,
            api_key=api_key,
            temperature=TEMPERATURE
        )
        return llm
        
    elif AI_PROVIDER == 'ollama':
        base_url = os.getenv('OLLAMA_BASE_URL', 'http://192.168.129.14:11435')
        model = os.getenv('OLLAMA_MODEL', 'mixtral:8x7b')
        
        # Verifica che Ollama sia raggiungibile
        try:
            response = requests.get(f"{base_url}/api/tags", timeout=5)
            if response.status_code != 200:
                raise ValueError(f"❌ Ollama non raggiungibile su {base_url}")
        except requests.exceptions.RequestException:
            raise ValueError(f"❌ Impossibile connettersi a Ollama su {base_url}")
        
        llm = OllamaLLM(
            model=model,
            base_url=base_url,
            temperature=TEMPERATURE
        )
        return llm
        
    else:
        raise ValueError(f"❌ Provider AI non supportato: {AI_PROVIDER}. Usa: openrouter, ollama")

# Verifica tutti i provider
ollama_ok, openrouter_ok = check_all_providers()

# Crea l'istanza LLM per il provider attivo
try:
    llm = create_llm()
    print(f"\n🎯 PROVIDER ATTIVO: {AI_PROVIDER.upper()} ✅")
except Exception as e:
    print(f"\n❌ ERRORE PROVIDER ATTIVO ({AI_PROVIDER.upper()}): {e}")
    llm = None

# Riepilogo finale
print(f"\n📊 RIEPILOGO CONFIGURAZIONE:")
print(f"   🏠 Ollama: {'✅ Disponibile' if ollama_ok else '❌ Non disponibile'}")
print(f"   🌐 OpenRouter: {'✅ Configurato' if openrouter_ok else '❌ Non configurato'}")
print(f"   🎯 Attivo: {AI_PROVIDER.upper()} {'✅' if llm else '❌'}")

if not ollama_ok and not openrouter_ok:
    print("\n⚠️  ATTENZIONE: Nessun provider configurato correttamente!")
    print("   Configura almeno uno dei provider per utilizzare il notebook.")

🔍 VERIFICA STATO PROVIDER AI

🏠 OLLAMA (Locale)
✅ Ollama: Server: http://192.168.129.14:11435 | Modello: deepseek-r1:latest | Disponibili: 12

🌐 OPENROUTER (API)
✅ OpenRouter: API Key: sk-or-v1-872377...f823 | Modello: nvidia/llama-3.1-nemotron-ultra-253b-v1


🎯 PROVIDER ATTIVO: OLLAMA ✅

📊 RIEPILOGO CONFIGURAZIONE:
   🏠 Ollama: ✅ Disponibile
   🌐 OpenRouter: ✅ Configurato
   🎯 Attivo: OLLAMA ✅


## 🎛️ 2.1. Selezione Provider AI

Scegli il provider AI che vuoi utilizzare per l'analisi. Puoi cambiarlo in qualsiasi momento.

In [None]:
# ⚙️ QUESTA SEZIONE È STATA RIMOSSA - DUPLICAZIONE DI VARIABILI GLOBALI
#
# ❌ SEZIONE LEGACY RIMOSSA - DUPLICAZIONE PARAMETRI CONFIGURAZIONE
# 
# Le variabili globali di configurazione sono ora gestite esclusivamente dalla 
# sezione "2. Configurazione AI Avanzata (Triple-Model)" tramite apply_config().
#
# Duplicazioni rimosse:
# - SOGLIA_CONFIDENZA, ETICHETTE_MULTIPLE, SOGLIA_SECONDARIE
# - MODALITA_ANALISI, MAX_ETICHETTE_DINAMICHE
# - BATCH_MODE, BATCH_SIZE (parametri batch processing)
#
# ➡️ RIFERIMENTO: Utilizzare solo la configurazione centralizzata triple-model
# 
print("✅ Sezione parametri legacy rimossa - utilizzare la configurazione avanzata")
print("💡 Puoi modificare questi parametri nella sezione 'Configurazione Avanzata'")
print("🚀 La modalità batch velocizza l'analisi raggruppando più commenti per chiamata API")

🔧 CONFIGURAZIONE INIZIALIZZATA:
   🎯 Soglia confidenza: 0.3
   🏷️ Etichette multiple: True
   📋 Soglia secondarie: 0.4
   ⚙️ Modalità analisi: balanced
   📊 Max etichette dinamiche: 20
   ⚡ Modalità batch: ✅ Attiva
   📦 Dimensione batch: 5 commenti
   🚀 Velocizzazione stimata: ~5x

💡 Puoi modificare questi parametri nella sezione 'Configurazione Avanzata'
🚀 La modalità batch velocizza l'analisi raggruppando più commenti per chiamata API


In [None]:
# 💡 NOTA: Configurazione AI migrata nel sistema Triple-Model
# La configurazione dei provider AI è ora gestita nella sezione
# "Inizializzazione Variabili Globali di Configurazione" sopra
# con supporto per modelli separati per le tre fasi:
# - Fase 1: Etichettatura dinamica
# - Fase 2: Analisi avanzata  
# - Fase 3: Report discorsivo
print("ℹ️  Configurazione AI disponibile nella sezione Triple-Model sopra")

VBox(children=(HTML(value='<h3>🎛️ Seleziona Provider e Modello AI</h3>'), Dropdown(description='Provider:', la…

## 🛠️ 3. Funzioni di Supporto

Definiamo le funzioni necessarie per l'analisi (basate su generico.py).

In [37]:
# 📁 Funzione per creare la cartella di output
def create_output_dir(tipo_analisi):
    timestamp = datetime.now().strftime("%Y-%m-%d_%H-%M-%S")
    output_dir = f'{tipo_analisi}_output_{timestamp}'
    os.makedirs(output_dir, exist_ok=True)
    logging.info(f"Cartella di output creata: {output_dir}")
    return output_dir

# 📄 Funzione per leggere il file Excel
def load_excel(file_path, colonna_riferimento):
    try:
        df = pd.read_excel(file_path)
        logging.info(f"File Excel '{file_path}' caricato con successo.")
        return df, colonna_riferimento
    except Exception as e:
        logging.error(f"Errore durante il caricamento del file Excel: {e}")
        raise

# 🔍 FASE 1: Analisi globale della colonna per generare etichette dinamiche
def analizza_colonna_completa(df, colonna_riferimento, prompt_personalizzato, tipo_analisi):
    """
    Analizza l'intera colonna per identificare pattern e generare etichette dinamiche
    """
    logging.info(f"Inizio analisi globale della colonna '{colonna_riferimento}'")
    
    # Estrae tutti i commenti non vuoti
    commenti_validi = df[colonna_riferimento].dropna().astype(str).tolist()
    
    if not commenti_validi:
        raise ValueError("❌ Nessun commento valido trovato nella colonna")
    
    # Combina tutti i commenti per l'analisi globale
    testo_completo = "\n".join(commenti_validi)
    
    # Prompt specifico per generare etichette dinamiche
    prompt_etichette = f"""Analizza TUTTO il seguente testo che contiene {len(commenti_validi)} commenti di un progetto scolastico.

OBIETTIVO: Genera un dizionario completo di etichette dinamiche basate sui contenuti REALI di questi commenti.

ISTRUZIONI:
1. Leggi tutti i commenti per identificare temi, pattern e concetti ricorrenti
2. Crea etichette specifiche e pertinenti al contenuto effettivo
3. Ogni etichetta deve rappresentare un concetto distintivo presente nei dati
4. Fornisci una descrizione dettagliata per ogni etichetta
5. Includi anche etichette per concetti minoritari ma significativi

FORMATO RICHIESTO:
Per ogni etichetta, scrivi:
ETICHETTA: [nome_breve]
DESCRIZIONE: [spiegazione dettagliata di cosa rappresenta]
ESEMPI: [parole chiave o frasi tipiche]
---

TEMPLATE ANALISI:
{prompt_personalizzato}

TESTO DA ANALIZZARE:
{testo_completo}

Genera massimo 25 etichette dinamiche basate sui contenuti reali."""

    try:
        if AI_PROVIDER == 'ollama':
            risposta_etichette = llm.invoke(prompt_etichette)
        else:
            messages = [
                {"role": "system", "content": f"Sei un esperto analista che genera etichette dinamiche per {tipo_analisi} di progetti educativi."},
                {"role": "user", "content": prompt_etichette}
            ]
            risposta_etichette = llm.invoke(messages)
        
        # Parsing delle etichette dalla risposta
        etichette_dinamiche = parse_etichette_dinamiche(str(risposta_etichette))
        
        logging.info(f"Analisi globale completata: {len(etichette_dinamiche)} etichette generate")
        
        return {
            "etichette_dinamiche": etichette_dinamiche,
            "statistiche_colonna": {
                "totale_commenti": len(commenti_validi),
                "lunghezza_media": sum(len(c) for c in commenti_validi) / len(commenti_validi),
                "commenti_vuoti": len(df) - len(commenti_validi)
            },
            "analisi_completa": risposta_etichette
        }
        
    except Exception as e:
        logging.error(f"Errore durante l'analisi globale: {e}")
        raise

# 🏷️ FASE 2: Etichettatura avanzata con coefficienti di confidenza
def etichetta_con_coefficiente(df, etichette_dinamiche, colonna_riferimento, tipo_analisi, soglia_confidenza=0.3):
    """
    Etichetta ogni cella con coefficienti di corrispondenza per tutte le etichette
    """
    global fase_label, progress_bar  # Accesso ai widget di progresso
    
    logging.info(f"Inizio etichettatura con coefficienti (soglia: {soglia_confidenza})")
    
    risultati = {
        "etichette_principali": [],
        "coefficienti_principali": [],
        "etichette_secondarie": [],
        "coefficienti_completi": [],
        "confidenza_media": []
    }
    
    # Prepara la lista delle etichette per il prompt
    lista_etichette = "\n".join([
        f"- {nome}: {info['descrizione']}" 
        for nome, info in etichette_dinamiche.items()
    ])
    
    for index, row in df.iterrows():
        commento = row[colonna_riferimento]
        
        if pd.isna(commento):
            risultati["etichette_principali"].append("Vuota")
            risultati["coefficienti_principali"].append(0.0)
            risultati["etichette_secondarie"].append("")
            risultati["coefficienti_completi"].append("{}")
            risultati["confidenza_media"].append(0.0)
            continue
        
        # Calcola progresso dettagliato
        numero_corrente = index + 1
        totale_commenti = len(df)
        percentuale = int((numero_corrente / totale_commenti) * 100)
        
        # Aggiorna l'indicatore di progresso con formato p% 4/100
        fase_label.value = f"<b>🏷️ FASE 2: Etichettatura {percentuale}% {numero_corrente}/{totale_commenti}</b>"
        
        # Aggiorna anche la progress bar (40-80% è riservato per la fase 2)
        progress_fase2 = 40 + int((numero_corrente / totale_commenti) * 40)
        progress_bar.value = progress_fase2
        
        logging.info(f"Analizzando commento {numero_corrente}/{totale_commenti} ({percentuale}%)")
        
        # Prompt per calcolare coefficienti per tutte le etichette
        prompt_coefficienti = f"""Analizza questo commento e calcola quanto si adatta a OGNI etichetta (coefficiente 0.0-1.0).

ETICHETTE DISPONIBILI:
{lista_etichette}

COMMENTO DA ANALIZZARE:
"{commento}"

ISTRUZIONI:
1. Per OGNI etichetta, assegna un coefficiente da 0.0 (nessuna corrispondenza) a 1.0 (perfetta corrispondenza)
2. Sii preciso nella valutazione - usa l'intera scala 0.0-1.0
3. Identifica l'etichetta principale (coefficiente più alto)
4. Indica anche etichette secondarie significative (sopra {soglia_confidenza})

FORMATO RISPOSTA:
PRINCIPALE: [nome_etichetta] (coefficiente: 0.XX)
SECONDARIE: [etichetta1] (0.XX), [etichetta2] (0.XX)
TUTTI_COEFFICIENTI: {{\"etichetta1\": 0.XX, \"etichetta2\": 0.XX, ...}}
CONFIDENZA_GENERALE: 0.XX"""

        try:
            if AI_PROVIDER == 'ollama':
                risposta = llm.invoke(prompt_coefficienti)
            else:
                messages = [
                    {"role": "system", "content": f"Sei un analista esperto che calcola coefficienti di corrispondenza per {tipo_analisi}."},
                    {"role": "user", "content": prompt_coefficienti}
                ]
                risposta = llm.invoke(messages)
            
            # Parsing della risposta per estrarre coefficienti
            risultato_parsing = parse_coefficienti_risposta(str(risposta), soglia_confidenza)
            
            risultati["etichette_principali"].append(risultato_parsing["principale"])
            risultati["coefficienti_principali"].append(risultato_parsing["coeff_principale"])
            risultati["etichette_secondarie"].append(risultato_parsing["secondarie"])
            risultati["coefficienti_completi"].append(risultato_parsing["tutti_coefficienti"])
            risultati["confidenza_media"].append(risultato_parsing["confidenza_generale"])
            
            logging.info(f"[{percentuale}% {numero_corrente}/{totale_commenti}] Etichetta: {risultato_parsing['principale']} ({risultato_parsing['coeff_principale']:.2f})")
            
            # Mostra progresso ogni 10 commenti o su milestone importanti
            if numero_corrente % 10 == 0 or numero_corrente in [1, 5] or numero_corrente == totale_commenti:
                print(f"   📊 Progresso: {percentuale}% ({numero_corrente}/{totale_commenti} commenti completati)")
            
        except Exception as e:
            logging.error(f"[{percentuale}% {numero_corrente}/{totale_commenti}] Errore nell'etichettatura: {e}")
            risultati["etichette_principali"].append("Errore")
            risultati["coefficienti_principali"].append(0.0)
            risultati["etichette_secondarie"].append("")
            risultati["coefficienti_completi"].append("{}")
            risultati["confidenza_media"].append(0.0)
        
        # Pausa per evitare rate limiting
        time.sleep(1)
    
    # Calcola statistiche finali
    coefficienti_validi = [c for c in risultati["coefficienti_principali"] if c > 0]
    risultati["statistiche_confidenza"] = {
        "media_coefficienti": sum(coefficienti_validi) / len(coefficienti_validi) if coefficienti_validi else 0,
        "alta_confidenza": len([c for c in coefficienti_validi if c >= 0.7]),
        "media_confidenza": len([c for c in coefficienti_validi if 0.4 <= c < 0.7]),
        "bassa_confidenza": len([c for c in coefficienti_validi if 0.1 <= c < 0.4]),
        "molto_bassa": len([c for c in coefficienti_validi if c < 0.1])
    }
    
    logging.info("Etichettatura con coefficienti completata")
    return risultati

# 🔧 Funzioni di supporto per parsing
def parse_etichette_dinamiche(risposta_ai):
    """Estrae etichette e descrizioni dalla risposta dell'AI"""
    etichette = {}
    linee = risposta_ai.split('\n')
    
    etichetta_corrente = None
    descrizione_corrente = ""
    esempi_correnti = ""
    
    for linea in linee:
        linea = linea.strip()
        if linea.startswith('ETICHETTA:'):
            if etichetta_corrente:
                etichette[etichetta_corrente] = {
                    'descrizione': descrizione_corrente,
                    'esempi': esempi_correnti
                }
            etichetta_corrente = linea.replace('ETICHETTA:', '').strip()
            descrizione_corrente = ""
            esempi_correnti = ""
        elif linea.startswith('DESCRIZIONE:'):
            descrizione_corrente = linea.replace('DESCRIZIONE:', '').strip()
        elif linea.startswith('ESEMPI:'):
            esempi_correnti = linea.replace('ESEMPI:', '').strip()
    
    # Aggiungi l'ultima etichetta
    if etichetta_corrente:
        etichette[etichetta_corrente] = {
            'descrizione': descrizione_corrente,
            'esempi': esempi_correnti
        }
    
    return etichette

def parse_coefficienti_risposta(risposta, soglia):
    """Estrae coefficienti dalla risposta dell'AI"""
    import re
    
    risultato = {
        "principale": "Incerto",
        "coeff_principale": 0.0,
        "secondarie": "",
        "tutti_coefficienti": "{}",
        "confidenza_generale": 0.0
    }
    
    # Estrae etichetta principale
    match_principale = re.search(r'PRINCIPALE:\s*([^(]+)\s*\(coefficiente:\s*([\d.]+)\)', risposta)
    if match_principale:
        risultato["principale"] = match_principale.group(1).strip()
        risultato["coeff_principale"] = float(match_principale.group(2))
    
    # Estrae etichette secondarie
    match_secondarie = re.search(r'SECONDARIE:\s*(.+)', risposta)
    if match_secondarie:
        risultato["secondarie"] = match_secondarie.group(1).strip()
    
    # Estrae coefficienti completi
    match_coefficienti = re.search(r'TUTTI_COEFFICIENTI:\s*(\{.+\})', risposta)
    if match_coefficienti:
        risultato["tutti_coefficienti"] = match_coefficienti.group(1)
    
    # Estrae confidenza generale
    match_confidenza = re.search(r'CONFIDENZA_GENERALE:\s*([\d.]+)', risposta)
    if match_confidenza:
        risultato["confidenza_generale"] = float(match_confidenza.group(1))
    
    return risultato

# 💾 Salvataggio risultati avanzati
def salva_risultati_avanzati(df, risultati_etichettatura, etichette_dinamiche, output_dir, tipo_analisi):
    """Salva risultati con colonne aggiuntive per coefficienti"""
    
    # Crea DataFrame avanzato
    df_risultati = df.copy()
    df_risultati['Etichetta_Principale'] = risultati_etichettatura["etichette_principali"]
    df_risultati['Coefficiente_Principale'] = risultati_etichettatura["coefficienti_principali"]
    df_risultati['Etichette_Secondarie'] = risultati_etichettatura["etichette_secondarie"]
    df_risultati['Confidenza_Generale'] = risultati_etichettatura["confidenza_media"]
    df_risultati['Coefficienti_Completi'] = risultati_etichettatura["coefficienti_completi"]
    
    # Salva Excel avanzato
    excel_path = os.path.join(output_dir, f'report_avanzato_{tipo_analisi}.xlsx')
    df_risultati.to_excel(excel_path, index=False)
    
    # Salva dizionario etichette
    etichette_path = os.path.join(output_dir, f'etichette_dinamiche_{tipo_analisi}.json')
    with open(etichette_path, 'w', encoding='utf-8') as f:
        json.dump(etichette_dinamiche, f, ensure_ascii=False, indent=2)
    
    # Salva statistiche
    statistiche_path = os.path.join(output_dir, f'statistiche_confidenza_{tipo_analisi}.json')
    with open(statistiche_path, 'w', encoding='utf-8') as f:
        json.dump(risultati_etichettatura["statistiche_confidenza"], f, ensure_ascii=False, indent=2)
    
    logging.info(f"Risultati avanzati salvati in {output_dir}")
    return excel_path, etichette_path, statistiche_path

# 📝 Funzione per aggiornare automaticamente il prompt in base al tipo di analisi
def aggiorna_prompt_automatico():
    """Aggiorna il prompt in base al tipo di analisi selezionato"""
    if 'tipo_analisi' in globals() and 'template_prompts' in globals() and tipo_analisi in template_prompts:
        global prompt_personalizzato
        prompt_personalizzato = template_prompts[tipo_analisi]['prompt']
        print(f"✅ Prompt automatico caricato per: {template_prompts[tipo_analisi]['nome']}")
        return True
    return False

print("✅ Sistema avanzato di analisi e etichettatura definito!")

✅ Sistema avanzato di analisi e etichettatura definito!


In [38]:
# 🎯 DEFINIZIONE TEMPLATE DI PROMPT PER ANALISI QUALITATIVE

template_prompts = {
    "sentiment_analysis": {
        "nome": "📊 Sentiment Analysis",
        "descrizione": "Analizza il sentiment (positivo, negativo, neutro) dei commenti",
        "prompt": """Analizza il sentiment e le emozioni espressi nei seguenti commenti.

Per ogni commento, identifica:
1. **Sentiment generale**: Positivo, Negativo, Neutro, Misto
2. **Intensità emotiva**: Bassa, Media, Alta
3. **Emozioni specifiche**: Gioia, Rabbia, Tristezza, Paura, Sorpresa, Disgusto, Anticipazione, Fiducia
4. **Indicatori linguistici**: Parole chiave che indicano il sentiment

Crea categorie di sentiment che raggruppino i commenti simili. Massimo 15 categorie.
Per ogni categoria, fornisci:
- Nome della categoria (es: "Entusiasmo-Alto", "Preoccupazione-Moderata")
- Descrizione del sentiment
- Esempi di parole/frasi indicative

Testo da analizzare:"""
    },
    
    "pro_contro": {
        "nome": "⚖️ Analisi Pro e Contro",
        "descrizione": "Identifica vantaggi, svantaggi, benefici e criticità",
        "prompt": """Analizza i pro e i contro emersi dai seguenti commenti relativi al progetto educativo.

Identifica e categorizza:

**ASPETTI POSITIVI (PRO):**

**Benefici Educativi:**
- Miglioramento apprendimento
- Sviluppo competenze specifiche
- Innovazione didattica
- Personalizzazione percorsi
- Risultati accademici

**Benefici Sociali:**
- Inclusione e integrazione
- Collaborazione tra studenti
- Coinvolgimento famiglie
- Apertura verso territorio
- Sviluppo comunità educante

**Benefici Organizzativi:**
- Efficienza processi
- Ottimizzazione risorse
- Flessibilità organizzativa
- Comunicazione migliorata
- Coordinamento attività

**Benefici Emotivi/Motivazionali:**
- Aumento motivazione
- Maggiore soddisfazione
- Senso di appartenenza
- Autostima rafforzata
- Benessere psicologico

**ASPETTI NEGATIVI (CONTRO):**

**Criticità Educative:**
- Difficoltà apprendimento
- Lacune formative
- Metodi inadeguati
- Sovraccarico cognitivo
- Risultati insoddisfacenti

**Criticità Sociali:**
- Conflitti interpersonali
- Esclusione di alcuni gruppi
- Resistenze familiari
- Isolamento sociale
- Disparità di trattamento

**Criticità Organizzative:**
- Carenza risorse
- Problemi logistici
- Tempi inadeguati
- Comunicazione inefficace
- Coordinamento carente

**Criticità Emotivi/Motivazionali:**
- Stress e ansia
- Demotivazione
- Frustrazione
- Bassa autostima
- Malessere generale

**ASPETTI AMBIVALENTI:**
- Elementi che presentano sia vantaggi che svantaggi
- Benefici con costi associati
- Opportunità con rischi

Per ogni categoria identificata:
- Livello di impatto (Alto, Medio, Basso)
- Frequenza di menzione
- Intensità emotiva associata
- Possibili soluzioni (per i contro) o rafforzamenti (per i pro)
- Stakeholder coinvolti

Massimo 20 categorie totali tra pro e contro.

Testo da analizzare:"""
    },
    
    "comportamenti": {
        "nome": "👥 Analisi Comportamentale",
        "descrizione": "Identifica comportamenti, atteggiamenti e modalità di partecipazione",
        "prompt": """Analizza i comportamenti e gli atteggiamenti descritti nei seguenti commenti.

Identifica e categorizza:
1. **Comportamenti osservati**: Partecipazione attiva, passiva, collaborativa, individuale
2. **Modalità di interazione**: Con insegnanti, con pari, con materiali, con ambiente
3. **Atteggiamenti**: Apertura, resistenza, curiosità, disinteresse, entusiasmo
4. **Stili di apprendimento**: Visivo, auditivo, cinestetico, sociale, individuale
5. **Strategie utilizzate**: Problem-solving, memorizzazione, sperimentazione

Per ogni categoria comportamentale:
- Nome breve e descrittivo
- Descrizione del comportamento osservato
- Contesto in cui si manifesta
- Frequenza/intensità

Massimo 18 categorie comportamentali.

Testo da analizzare:"""
    },
    
    "emozioni_dettagliate": {
        "nome": "💝 Analisi Emotiva Dettagliata",
        "descrizione": "Analisi approfondita delle emozioni e stati d'animo",
        "prompt": """Conduci un'analisi emotiva approfondita dei seguenti commenti.

Analizza le emozioni su più livelli:

**EMOZIONI PRIMARIE:**
- Gioia/Felicità - Tristezza/Malinconia
- Rabbia/Frustrazione - Calma/Serenità  
- Paura/Ansia - Sicurezza/Tranquillità
- Sorpresa/Stupore - Anticipazione/Aspettativa

**EMOZIONI SOCIALI:**
- Orgoglio - Vergogna
- Gratitudine - Risentimento
- Empatia - Indifferenza
- Appartenenza - Esclusione

**STATI MOTIVAZIONALI:**
- Entusiasmo - Apatia
- Determinazione - Rassegnazione
- Curiosità - Noia
- Fiducia - Sfiducia

Per ogni categoria emotiva identificata:
- Nome dell'emozione/stato
- Intensità (1-5)
- Durata (momentanea, persistente)
- Trigger scatenanti
- Manifestazioni concrete

Massimo 20 categorie emotive.

Testo da analizzare:"""
    },
    
    "motivazioni": {
        "nome": "🎯 Analisi Motivazionale",
        "descrizione": "Identifica motivazioni, bisogni e driver comportamentali",
        "prompt": """Analizza le motivazioni e i bisogni espressi nei seguenti commenti.

Identifica e categorizza:

**MOTIVAZIONI INTRINSECHE:**
- Curiosità intellettuale
- Desiderio di competenza/maestria
- Bisogno di autonomia
- Piacere dell'apprendimento
- Sfida personale

**MOTIVAZIONI ESTRINSECHE:**
- Riconoscimento sociale
- Voti/valutazioni
- Approvazione genitori/insegnanti
- Competizione con pari
- Ricompense concrete

**BISOGNI FONDAMENTALI:**
- Appartenenza e connessione
- Sicurezza e stabilità
- Stima e riconoscimento
- Autorealizzazione
- Significato e scopo

**OSTACOLI MOTIVAZIONALI:**
- Paura del fallimento
- Mancanza di fiducia
- Sovraccarico cognitivo
- Disallineamento valori

Per ogni categoria motivazionale:
- Nome del driver motivazionale
- Livello di intensità
- Fattori di rinforzo
- Potenziali ostacoli

Massimo 16 categorie.

Testo da analizzare:"""
    },
    
    "bisogni_necessita": {
        "nome": "🔍 Analisi Bisogni e Necessità",
        "descrizione": "Identifica bisogni espressi, impliciti e necessità emergenti",
        "prompt": """Analizza i bisogni e le necessità emergenti dai seguenti commenti.

Classifica i bisogni in:

**BISOGNI EDUCATIVI:**
- Supporto personalizzato
- Materiali adeguati
- Metodologie diverse
- Feedback costruttivo
- Tempo sufficiente

**BISOGNI SOCIO-EMOTIVI:**
- Relazioni positive
- Senso di appartenenza
- Sicurezza emotiva
- Supporto psicologico
- Gestione stress

**BISOGNI ORGANIZZATIVI:**
- Chiarezza istruzioni
- Struttura/routine
- Flessibilità orari
- Spazi adeguati
- Tecnologie funzionanti

**BISOGNI COMUNICATIVI:**
- Ascolto attivo
- Comunicazione chiara
- Feedback frequente
- Canali multipli
- Dialogo bidirezionale

**BISOGNI EMERGENTI:**
- Competenze digitali
- Soft skills
- Orientamento futuro
- Sostenibilità
- Inclusività

Per ogni bisogno identificato:
- Urgenza (bassa, media, alta)
- Complessità di risposta
- Risorse necessarie
- Impatto se non soddisfatto

Massimo 20 categorie di bisogni.

Testo da analizzare:"""
    },
    
    "barriere_ostacoli": {
        "nome": "🚧 Analisi Barriere e Ostacoli",
        "descrizione": "Identifica ostacoli, difficoltà e barriere all'apprendimento",
        "prompt": """Identifica e categorizza gli ostacoli e le barriere presenti nei commenti.

Analizza ostacoli su diversi livelli:

**BARRIERE COGNITIVE:**
- Difficoltà di comprensione
- Sovraccarico informativo
- Lacune prerequisiti
- Stili apprendimento non supportati
- Problemi attenzione/concentrazione

**BARRIERE EMOTIVE:**
- Ansia da prestazione
- Bassa autostima
- Paura del giudizio
- Demotivazione
- Stress emotivo

**BARRIERE SOCIALI:**
- Isolamento sociale
- Conflitti interpersonali
- Differenze culturali
- Problemi comunicazione
- Esclusione dal gruppo

**BARRIERE STRUTTURALI:**
- Risorse inadeguate
- Tempo insufficiente
- Spazi non idonei
- Tecnologie obsolete
- Organizzazione carente

**BARRIERE SISTEMICHE:**
- Politiche rigide
- Mancanza formazione docenti
- Valutazione inadeguata
- Curriculum non aggiornato
- Burocrazia eccessiva

Per ogni barriera:
- Gravità dell'impatto (1-5)
- Frequenza di manifestazione
- Possibili soluzioni
- Livello di intervento richiesto

Massimo 18 categorie di barriere.

Testo da analizzare:"""
    },
    
    "relazioni_dinamiche": {
        "nome": "🤝 Analisi Relazionale e Dinamiche",
        "descrizione": "Analizza relazioni interpersonali e dinamiche di gruppo",
        "prompt": """Analizza le relazioni e le dinamiche interpersonali descritte nei commenti.

Esamina:

**RELAZIONI INTERPERSONALI:**
- Studente-Insegnante: Collaborativa, Conflittuale, Distante, Supportiva
- Studente-Studente: Cooperativa, Competitiva, Peer-tutoring, Isolamento
- Gruppo-Individuo: Inclusione, Esclusione, Leadership, Followership
- Famiglia-Scuola: Alleanza, Tensione, Distacco, Coinvolgimento

**DINAMICHE DI COMUNICAZIONE:**
- Modalità comunicative (assertiva, passiva, aggressiva)
- Frequenza interazioni
- Qualità del dialogo
- Ascolto reciproco
- Feedback bidirezionale

**DINAMICHE DI POTERE:**
- Autorità vs Autoritarismo
- Partecipazione decisionale
- Empowerment studenti
- Gerarchia vs Orizzontalità

**CLIMATE RELAZIONALE:**
- Fiducia reciproca
- Rispetto delle diversità
- Supporto emotivo
- Gestione conflitti
- Collaborazione vs Competizione

Per ogni dinamica relazionale:
- Qualità della relazione
- Impatto sull'apprendimento
- Fattori facilitanti/ostacolanti
- Suggerimenti miglioramento

Massimo 15 categorie relazionali.

Testo da analizzare:"""
    },
    
    "aspettative_percezioni": {
        "nome": "🎭 Analisi Aspettative e Percezioni",
        "descrizione": "Esplora aspettative, percezioni e rappresentazioni mentali",
        "prompt": """Analizza aspettative, percezioni e rappresentazioni mentali nei commenti.

Identifica:

**ASPETTATIVE:**
- Verso se stessi (autoefficacia, obiettivi personali)
- Verso insegnanti (supporto, competenza, equità)
- Verso compagni (collaborazione, rispetto)
- Verso istituzione (organizzazione, risorse)
- Verso futuro (opportunità, sbocchi)

**PERCEZIONI:**
- Del proprio ruolo (attivo, passivo, protagonista)
- Della qualità educativa (alta, media, bassa)
- Dell'ambiente scolastico (accogliente, freddo, stimolante)
- Delle proprie competenze (adeguate, insufficienti)
- Del sistema valutativo (giusto, ingiusto, trasparente)

**RAPPRESENTAZIONI MENTALI:**
- Concetto di apprendimento
- Idea di successo/fallimento
- Visione del proprio futuro
- Significato dell'educazione
- Ruolo della scuola nella società

**DISCREPANZE:**
- Aspettative vs Realtà
- Percezioni vs Fatti oggettivi
- Autorappresentazione vs Etero-percezione

Per ogni categoria:
- Livello di realismo
- Impatto motivazionale
- Fonti di influenza
- Possibilità di allineamento

Massimo 17 categorie percettive.

Testo da analizzare:"""
    }
}

print("✅ Template di prompt caricati e disponibili!")

✅ Template di prompt caricati e disponibili!


## 📁 4. Caricamento File Excel e Selezione Analisi

Carica il file Excel dalla cartella `dati` o inserisci un percorso personalizzato, poi seleziona automaticamente la colonna da analizzare e il tipo di analisi desiderato.

### 🔄 Funzionalità Automatiche:
- **📂 File dalla cartella `dati`**: Menu a tendina con tutti i file Excel disponibili
- **✏️ Percorso personalizzato**: Opzione per inserire un percorso manualmente
- **🔄 Aggiornamento dinamico**: Pulsante per ricaricare la lista file
- **🔍 Rilevamento colonne**: Il sistema rileva automaticamente tutte le colonne del file
- **📊 Conteggio commenti**: Mostra il numero di commenti non vuoti per ogni colonna
- **🎯 Selezione tipo analisi**: Menu a tendina con 9 tipi di analisi specializzate
- **🤖 Prompt automatico**: Il prompt viene caricato automaticamente in base al tipo selezionato

### 📋 Tipi di Analisi Disponibili:
1. **📊 Sentiment Analysis** - Analizza emozioni e sentimenti
2. **⚖️ Pro e Contro** - Identifica vantaggi e svantaggi  
3. **👥 Comportamenti** - Analizza comportamenti e atteggiamenti
4. **💝 Emozioni Dettagliate** - Analisi emotiva approfondita
5. **🎯 Motivazioni** - Identifica motivazioni e driver
6. **🔍 Bisogni e Necessità** - Rileva bisogni emergenti
7. **🚧 Barriere e Ostacoli** - Identifica difficoltà
8. **🤝 Relazioni e Dinamiche** - Analizza relazioni interpersonali
9. **🎭 Aspettative e Percezioni** - Esplora aspettative

### 📁 File Disponibili nella Cartella `dati`:
I file Excel presenti nella cartella `dati` vengono automaticamente rilevati e mostrati nel menu a tendina. Usa il pulsante "🔄 Aggiorna Lista" se aggiungi nuovi file.

## ⚙️ 3.1. Configurazione Parametri Avanzati

Configura i parametri per l'analisi avanzata con coefficienti di confidenza.

In [None]:
# ⚙️ QUESTA SEZIONE È STATA SOSTITUITA CON LA CONFIGURAZIONE AVANZATA TRIPLE-MODEL
#
# ❌ SEZIONE LEGACY RIMOSSA - USO DUPLICAZIONE DI PARAMETRI
# 
# La configurazione AI avanzata è ora centralizzata nella sezione precedente.
# Tutti i parametri (confidenza, batch, modalità, ecc.) sono gestiti
# dal sistema di configurazione avanzata con triple-model per Fase 1, Fase 2, Report.
#
# ➡️ RIFERIMENTO: Vedere la sezione "2. Configurazione AI Avanzata (Triple-Model)"
# 
print("✅ Configurazione parametri legacy rimossa - utilizzare la sezione centralizzata")

VBox(children=(HTML(value='<h3>⚙️ Configurazione Parametri Avanzati</h3>'), HTML(value="<p><em>Personalizza i …

In [None]:
# Funzione per scansionare i file nella cartella dati
def scansiona_file_dati():
    """Scansiona la cartella dati e restituisce i file Excel disponibili"""
    cartella_dati = "dati"
    file_excel = []
    
    try:
        if os.path.exists(cartella_dati):
            for file in os.listdir(cartella_dati):
                if file.endswith(('.xlsx', '.xls')):
                    file_path = os.path.join(cartella_dati, file)
                    # Crea una descrizione più leggibile
                    nome_breve = file.replace('.xlsx', '').replace('.xls', '')
                    if len(nome_breve) > 60:
                        nome_breve = nome_breve[:57] + "..."
                    file_excel.append((f"📊 {nome_breve}", file_path))
        
        # Aggiungi opzione per percorso personalizzato
        file_excel.append(("✏️ Inserisci percorso personalizzato...", "custom"))
        
    except Exception as e:
        print(f"⚠️ Errore nella scansione della cartella dati: {e}")
        file_excel = [("✏️ Inserisci percorso personalizzato...", "custom")]
    
    return file_excel

# Widget dropdown per selezionare il file dalla cartella dati
file_dropdown = widgets.Dropdown(
    options=scansiona_file_dati(),
    description='File disponibili:',
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='90%')
)

# Widget per inserire il percorso personalizzato (inizialmente nascosto)
file_path_custom = widgets.Text(
    value='',
    placeholder='Inserisci il percorso completo del file Excel...',
    description='Percorso custom:',
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='80%', display='none')
)

# Widget dropdown per selezionare la colonna (sarà popolato automaticamente)
colonna_dropdown = widgets.Dropdown(
    options=[],
    description='Colonna commenti:',
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='50%'),
    disabled=True
)

# Widget dropdown per il tipo di analisi
tipo_analisi_options = [
    ('📊 Sentiment Analysis - Analizza emozioni e sentimenti', 'sentiment_analysis'),
    ('⚖️ Pro e Contro - Identifica vantaggi e svantaggi', 'pro_contro'),
    ('👥 Comportamenti - Analizza comportamenti e atteggiamenti', 'comportamenti'),
    ('💝 Emozioni Dettagliate - Analisi emotiva approfondita', 'emozioni_dettagliate'),
    ('🎯 Motivazioni - Identifica motivazioni e driver', 'motivazioni'),
    ('🔍 Bisogni e Necessità - Rileva bisogni emergenti', 'bisogni_necessita'),
    ('🚧 Barriere e Ostacoli - Identifica difficoltà', 'barriere_ostacoli'),
    ('🤝 Relazioni e Dinamiche - Analizza relazioni interpersonali', 'relazioni_dinamiche'),
    ('🎭 Aspettative e Percezioni - Esplora aspettative', 'aspettative_percezioni')
]

tipo_analisi_dropdown = widgets.Dropdown(
    options=tipo_analisi_options,
    description='Tipo analisi:',
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='80%')
)

# Pulsante per caricare il file
load_button = widgets.Button(
    description='📂 Carica File',
    button_style='primary',
    layout=widgets.Layout(width='200px')
)

# Pulsante per ricaricare i file dalla cartella dati
refresh_button = widgets.Button(
    description='🔄 Aggiorna Lista',
    button_style='info',
    layout=widgets.Layout(width='200px')
)

# Pulsante per confermare la selezione
confirm_selection_button = widgets.Button(
    description='✅ Conferma Selezione',
    button_style='success',
    layout=widgets.Layout(width='200px'),
    disabled=True
)

# Output area per mostrare i risultati
output_area = widgets.Output()

def on_file_dropdown_change(change):
    """Callback quando cambia la selezione del file"""
    if change['new'] == 'custom':
        file_path_custom.layout.display = 'block'
    else:
        file_path_custom.layout.display = 'none'
        file_path_custom.value = ''

def on_refresh_button_clicked(b):
    """Ricarica la lista dei file dalla cartella dati"""
    with output_area:
        print("🔄 Aggiornamento lista file...")
    
    try:
        nuovi_file = scansiona_file_dati()
        file_dropdown.options = nuovi_file
        
        with output_area:
            print(f"✅ Lista aggiornata! Trovati {len(nuovi_file)-1} file Excel nella cartella dati")
    except Exception as e:
        with output_area:
            print(f"❌ Errore nell'aggiornamento: {e}")

def on_load_button_clicked(b):
    with output_area:
        clear_output()
        try:
            # Determina il percorso del file
            if file_dropdown.value == 'custom':
                file_path = file_path_custom.value.strip()
                if not file_path:
                    print("❌ Inserisci il percorso del file Excel!")
                    return
            else:
                file_path = file_dropdown.value
            
            # Carica il file Excel
            global df_temp
            df_temp = pd.read_excel(file_path)
            
            print(f"✅ File caricato con successo!")
            print(f"📁 Percorso: {file_path}")
            print(f"📊 Dimensioni: {df_temp.shape[0]} righe, {df_temp.shape[1]} colonne")
            
            # Popola automaticamente il dropdown delle colonne
            colonne_disponibili = [(f"{col} ({df_temp[col].notna().sum()} commenti)", col) for col in df_temp.columns]
            colonna_dropdown.options = colonne_disponibili
            colonna_dropdown.disabled = False
            confirm_selection_button.disabled = False
            
            print(f"📋 Colonne rilevate automaticamente:")
            for i, col in enumerate(df_temp.columns, 1):
                commenti_validi = df_temp[col].notna().sum()
                tipo_dati = str(df_temp[col].dtype)
                print(f"   {i}. {col}: {commenti_validi} commenti non vuoti ({tipo_dati})")
            
            print(f"\n💡 Seleziona la colonna contenente i commenti da analizzare")
            print(f"💡 Scegli il tipo di analisi dal menu a tendina")
            print(f"💡 Clicca 'Conferma Selezione' per procedere")
                
        except Exception as e:
            print(f"❌ Errore nel caricamento del file: {str(e)}")
            print(f"💡 Verifica che il percorso sia corretto e che il file sia un Excel valido")

def on_confirm_selection(b):
    with output_area:
        print("\n" + "="*50)
        try:
            if colonna_dropdown.value is None:
                print("❌ Seleziona una colonna!")
                return
            
            global df, colonna_riferimento, tipo_analisi, tipo_analisi_nome, file_analizzato
            
            # Assegna le variabili globali
            df = df_temp.copy()
            colonna_riferimento = colonna_dropdown.value
            tipo_analisi = tipo_analisi_dropdown.value
            
            # Salva info del file per riferimento
            if file_dropdown.value == 'custom':
                file_analizzato = file_path_custom.value.strip()
            else:
                file_analizzato = file_dropdown.value
            
            # Trova il nome leggibile del tipo di analisi
            tipo_analisi_nome = next(name for name, value in tipo_analisi_options if value == tipo_analisi)
            
            print(f"✅ CONFIGURAZIONE CONFERMATA!")
            print(f"📁 File: {file_analizzato}")
            print(f"📋 Colonna selezionata: {colonna_riferimento}")
            print(f"🎯 Tipo analisi: {tipo_analisi_nome}")
            print(f"📝 Commenti da analizzare: {df[colonna_riferimento].notna().sum()}")
            print(f"❌ Commenti vuoti: {df[colonna_riferimento].isna().sum()}")
            
            # Mostra anteprima
            print(f"\n🔍 Anteprima primi 3 commenti dalla colonna '{colonna_riferimento}':")
            for i, comment in enumerate(df[colonna_riferimento].dropna().head(3)):
                print(f"{i+1}. {str(comment)[:100]}...")
                
            print(f"\n🚀 Ora puoi procedere alla sezione successiva per avviare l'analisi!")
            
            # Aggiorna automaticamente il prompt per il tipo di analisi selezionato
            aggiorna_prompt_automatico()
                
        except Exception as e:
            print(f"❌ Errore nella conferma: {str(e)}")

# Collega i callback
file_dropdown.observe(on_file_dropdown_change, names='value')
load_button.on_click(on_load_button_clicked)
refresh_button.on_click(on_refresh_button_clicked)
confirm_selection_button.on_click(on_confirm_selection)

# Mostra i widget
display(widgets.VBox([
    widgets.HTML("<h3>📁 Caricamento e Configurazione File</h3>"),
    widgets.HTML("<p><em>1. Seleziona un file dalla cartella 'dati' o inserisci un percorso personalizzato</em></p>"),
    widgets.HBox([file_dropdown, refresh_button]),
    file_path_custom,
    load_button,
    widgets.HTML("<p><em>2. Seleziona la colonna contenente i commenti</em></p>"),
    colonna_dropdown,
    widgets.HTML("<p><em>3. Scegli il tipo di analisi da eseguire</em></p>"),
    tipo_analisi_dropdown,
    confirm_selection_button,
    output_area
]))

VBox(children=(HTML(value='<h3>📁 Caricamento e Configurazione File</h3>'), HTML(value="<p><em>1. Seleziona un …

## ✏️ 5. Prompt Automatico

Il prompt di analisi viene caricato automaticamente in base al tipo di analisi selezionato nella sezione precedente.

In [None]:
# Il prompt viene ora selezionato automaticamente in base al tipo di analisi scelto
# Questo widget mostra il prompt che verrà utilizzato

prompt_display = widgets.HTML(
    value="<p><em>Il prompt verrà caricato automaticamente quando confermi la selezione del file e tipo di analisi.</em></p>",
    layout=widgets.Layout(width='90%')
)

# Widget per visualizzare il prompt corrente (read-only)
prompt_preview = widgets.Textarea(
    value='',
    description='Prompt automatico:',
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='90%', height='200px'),
    disabled=True
)

# Pulsante per confermare il prompt (opzionale, per visualizzazione)
confirm_prompt_button = widgets.Button(
    description='✅ Prompt Confermato',
    button_style='success',
    layout=widgets.Layout(width='200px'),
    disabled=True
)

# Output area per il prompt
prompt_output = widgets.Output()

def aggiorna_prompt_automatico():
    """Aggiorna il prompt in base al tipo di analisi selezionato"""
    if 'tipo_analisi' in globals() and tipo_analisi in template_prompts:
        global prompt_personalizzato
        prompt_personalizzato = template_prompts[tipo_analisi]['prompt']
        
        # Aggiorna la visualizzazione
        prompt_preview.value = prompt_personalizzato
        prompt_display.value = f"""
        <div style='background: #e8f5e8; padding: 10px; border-radius: 5px; margin: 10px 0;'>
        <h4>✅ Prompt Automatico Caricato</h4>
        <p><b>Tipo di analisi:</b> {template_prompts[tipo_analisi]['nome']}</p>
        <p><b>Descrizione:</b> {template_prompts[tipo_analisi]['descrizione']}</p>
        <p><b>Lunghezza prompt:</b> {len(prompt_personalizzato)} caratteri</p>
        </div>
        """
        confirm_prompt_button.disabled = False
        
        with prompt_output:
            clear_output()
            print("✅ Prompt automatico caricato e confermato!")
            print(f"🎯 Tipo: {template_prompts[tipo_analisi]['nome']}")
            print(f"📝 Lunghezza: {len(prompt_personalizzato)} caratteri")
            print("🚀 Puoi procedere all'analisi!")
    else:
        prompt_display.value = "<p><em>⚠️ Seleziona prima il tipo di analisi nella sezione precedente.</em></p>"
        prompt_preview.value = ""
        confirm_prompt_button.disabled = True

def on_confirm_prompt(b):
    with prompt_output:
        clear_output()
        print("✅ Prompt confermato e pronto per l'analisi!")

confirm_prompt_button.on_click(on_confirm_prompt)

# Controlla se il tipo di analisi è già stato selezionato
if 'tipo_analisi' in globals():
    aggiorna_prompt_automatico()

# Mostra i widget
display(widgets.VBox([
    widgets.HTML("<h3>✏️ Prompt Automatico</h3>"),
    widgets.HTML("<p><em>Il prompt viene selezionato automaticamente in base al tipo di analisi scelto</em></p>"),
    prompt_display,
    prompt_preview,
    confirm_prompt_button,
    prompt_output
]))

VBox(children=(HTML(value='<h3>✏️ Prompt Automatico</h3>'), HTML(value='<p><em>Il prompt viene selezionato aut…

In [42]:
# 🤖 Generazione Report Descrittivo AI
def genera_report_ai_risultati():
    """Genera un report descrittivo AI dei risultati dell'analisi"""
    
    if 'risultati_etichettatura_globali' not in globals() or 'etichette_dinamiche_globali' not in globals():
        print("❌ Nessun risultato disponibile per il report AI!")
        return ""
    
    try:
        print("\n🤖 GENERAZIONE REPORT DESCRITTIVO AI...")
        print("-" * 50)
        
        # Prepara i dati per l'AI
        stats = risultati_etichettatura_globali["statistiche_confidenza"]
        etichette_principali = risultati_etichettatura_globali["etichette_principali"]
        
        # Conta le etichette più frequenti
        from collections import Counter
        conteggi_etichette = Counter([e for e in etichette_principali if e not in ["Vuota", "Errore", "Incerto"]])
        top_5_etichette = conteggi_etichette.most_common(5)
        
        # Calcola statistiche aggiuntive
        commenti_totali = len(df)
        commenti_analizzati = df[colonna_riferimento].notna().sum()
        percentuale_analizzati = (commenti_analizzati / commenti_totali) * 100
        
        # Crea il prompt per l'AI
        prompt_report = f"""
Analizza questi risultati di etichettatura automatica di commenti e genera un report descrittivo professionale.

CONTESTO DELL'ANALISI:
- Tipo di analisi: {tipo_analisi}
- File analizzato: {file_analizzato}
- Colonna analizzata: {colonna_riferimento}
- Commenti totali: {commenti_totali}
- Commenti analizzati: {commenti_analizzati} ({percentuale_analizzati:.1f}%)

ETICHETTE DINAMICHE GENERATE ({len(etichette_dinamiche_globali)} totali):
"""
        
        # Aggiungi le etichette dinamiche
        for nome, info in etichette_dinamiche_globali.items():
            prompt_report += f"- {nome}: {info['descrizione']}\n"
        
        prompt_report += f"""

STATISTICHE DI QUALITÀ:
- Coefficiente medio: {stats['media_coefficienti']:.3f}
- Alta confidenza (≥0.7): {stats['alta_confidenza']} commenti ({stats['alta_confidenza']/commenti_totali*100:.1f}%)
- Media confidenza (0.4-0.7): {stats['media_confidenza']} commenti ({stats['media_confidenza']/commenti_totali*100:.1f}%)
- Bassa confidenza (0.1-0.4): {stats['bassa_confidenza']} commenti ({stats['bassa_confidenza']/commenti_totali*100:.1f}%)
- Molto bassa (<0.1): {stats['molto_bassa']} commenti ({stats['molto_bassa']/commenti_totali*100:.1f}%)

TOP 5 ETICHETTE PIÙ FREQUENTI:
"""
        
        for i, (etichetta, count) in enumerate(top_5_etichette, 1):
            percentuale = (count / commenti_analizzati) * 100
            prompt_report += f"{i}. {etichetta}: {count} occorrenze ({percentuale:.1f}%)\n"
        
        prompt_report += """

RICHIESTA:
Genera un report professionale di 3-4 paragrafi che includa:

1. SINTESI GENERALE: Una panoramica dei risultati principali e della qualità dell'analisi
2. ANALISI TEMATICA: Discussione delle etichette più significative e dei pattern emergenti
3. VALUTAZIONE QUALITATIVA: Commento sulla distribuzione della confidenza e affidabilità dei risultati
4. RACCOMANDAZIONI: Suggerimenti per l'utilizzo di questi risultati e possibili approfondimenti

Il report deve essere professionale, chiaro e focalizzato sui insights più importanti emersi dall'analisi.
"""
        
        print("🔄 Invio richiesta all'AI per il report...")
        
        # Genera il report con l'AI
        if AI_PROVIDER == 'ollama':
            response = llm.invoke(prompt_report)
        elif AI_PROVIDER == 'openrouter':
            response = llm.invoke(prompt_report)
        else:
            return "❌ Provider AI non configurato correttamente"
        
        # Pulisci la risposta
        if hasattr(response, 'content'):
            report_ai = response.content
        else:
            report_ai = str(response)
        
        # Salva il report
        if 'output_dir' in globals():
            report_path = os.path.join(output_dir, f'report_ai_descrittivo_{tipo_analisi}.txt')
            with open(report_path, 'w', encoding='utf-8') as f:
                f.write("🤖 REPORT DESCRITTIVO AI - ANALISI COMMENTI\n")
                f.write("=" * 60 + "\n\n")
                f.write(f"Data: {datetime.now().strftime('%d/%m/%Y %H:%M:%S')}\n")
                f.write(f"File: {file_analizzato}\n")
                f.write(f"Tipo analisi: {tipo_analisi}\n")
                f.write(f"Commenti analizzati: {commenti_analizzati}/{commenti_totali}\n\n")
                f.write(report_ai)
            
            print(f"💾 Report AI salvato in: {report_path}")
        
        return report_ai
        
    except Exception as e:
        error_msg = f"❌ Errore nella generazione del report AI: {str(e)}"
        print(error_msg)
        return error_msg

In [43]:
# ⚡ ETICHETTATURA BATCH OTTIMIZZATA per velocizzare l'analisi
def etichetta_con_coefficiente_batch(df, etichette_dinamiche, colonna_riferimento, tipo_analisi, soglia_confidenza=0.3, batch_size=5):
    """
    Etichetta ogni cella con coefficienti di corrispondenza per tutte le etichette
    VERSIONE OTTIMIZZATA: Raggruppa più commenti per ridurre le chiamate API
    
    Args:
        batch_size (int): Numero di commenti da analizzare insieme (1-20 consigliato)
    """
    global fase_label, progress_bar  # Accesso ai widget di progresso
    
    logging.info(f"Inizio etichettatura BATCH ottimizzata (batch_size: {batch_size}, soglia: {soglia_confidenza})")
    print(f"🚀 MODALITÀ BATCH ATTIVA: {batch_size} commenti per chiamata API")
    print(f"⚡ Velocizzazione stimata: {batch_size}x rispetto alla modalità singola")
    
    risultati = {
        "etichette_principali": [],
        "coefficienti_principali": [],
        "etichette_secondarie": [],
        "coefficienti_completi": [],
        "confidenza_media": []
    }
    
    # Prepara la lista delle etichette per il prompt
    lista_etichette = "\n".join([
        f"- {nome}: {info['descrizione']}" 
        for nome, info in etichette_dinamiche.items()
    ])
    
    # Filtra commenti validi
    df_validi = df[df[colonna_riferimento].notna()].copy()
    df_validi = df_validi.reset_index(drop=True)
    
    # Processa in batch
    total_rows = len(df)
    processed_rows = 0
    
    # Prima aggiungi le righe vuote con i loro indici originali
    for index, row in df.iterrows():
        if pd.isna(row[colonna_riferimento]):
            risultati["etichette_principali"].append("Vuota")
            risultati["coefficienti_principali"].append(0.0)
            risultati["etichette_secondarie"].append("")
            risultati["coefficienti_completi"].append("{}")
            risultati["confidenza_media"].append(0.0)
            processed_rows += 1
        else:
            # Placeholder per i commenti validi (verranno riempiti dal batch)
            risultati["etichette_principali"].append(None)
            risultati["coefficienti_principali"].append(None)
            risultati["etichette_secondarie"].append(None)
            risultati["coefficienti_completi"].append(None)
            risultati["confidenza_media"].append(None)
    
    # Processa i commenti validi in batch
    valid_indices = df[df[colonna_riferimento].notna()].index.tolist()
    
    for batch_start in range(0, len(valid_indices), batch_size):
        batch_end = min(batch_start + batch_size, len(valid_indices))
        batch_indices = valid_indices[batch_start:batch_end]
        batch_commenti = [df.loc[idx, colonna_riferimento] for idx in batch_indices]
        
        # Calcola progresso dettagliato
        batch_progress = batch_end
        percentuale = int((batch_progress / len(valid_indices)) * 100)
        
        # Aggiorna l'indicatore di progresso
        fase_label.value = f"<b>🏷️ FASE 2: Etichettatura BATCH {percentuale}% {batch_progress}/{len(valid_indices)}</b>"
        
        # Aggiorna progress bar (40-80% riservato per fase 2)
        progress_fase2 = 40 + int((batch_progress / len(valid_indices)) * 40)
        progress_bar.value = progress_fase2
        
        logging.info(f"Processando batch {batch_start//batch_size + 1}: commenti {batch_start+1}-{batch_end} ({percentuale}%)")
        print(f"   ⚡ Batch {batch_start//batch_size + 1}: Analizzando {len(batch_commenti)} commenti insieme...")
        
        # Crea prompt per il batch
        prompt_batch = f"""Analizza questi {len(batch_commenti)} commenti e calcola quanto ognuno si adatta a OGNI etichetta (coefficiente 0.0-1.0).

ETICHETTE DISPONIBILI:
{lista_etichette}

COMMENTI DA ANALIZZARE:
"""
        
        for i, commento in enumerate(batch_commenti, 1):
            prompt_batch += f"COMMENTO_{i}: \"{commento}\"\n"
        
        prompt_batch += f"""
ISTRUZIONI:
1. Per OGNI commento e OGNI etichetta, assegna un coefficiente da 0.0 (nessuna corrispondenza) a 1.0 (perfetta corrispondenza)
2. Sii preciso nella valutazione - usa l'intera scala 0.0-1.0
3. Per ogni commento, identifica l'etichetta principale (coefficiente più alto)
4. Indica anche etichette secondarie significative (sopra {soglia_confidenza})

FORMATO RISPOSTA (ripeti per ogni commento):
=== COMMENTO_1 ===
PRINCIPALE: [nome_etichetta] (coefficiente: 0.XX)
SECONDARIE: [etichetta1] (0.XX), [etichetta2] (0.XX)
TUTTI_COEFFICIENTI: {{\"etichetta1\": 0.XX, \"etichetta2\": 0.XX, ...}}
CONFIDENZA_GENERALE: 0.XX

=== COMMENTO_2 ===
PRINCIPALE: [nome_etichetta] (coefficiente: 0.XX)
SECONDARIE: [etichetta1] (0.XX), [etichetta2] (0.XX)
TUTTI_COEFFICIENTI: {{\"etichetta1\": 0.XX, \"etichetta2\": 0.XX, ...}}
CONFIDENZA_GENERALE: 0.XX

[continua per tutti i commenti...]"""

        try:
            if AI_PROVIDER == 'ollama':
                risposta = llm.invoke(prompt_batch)
            else:
                messages = [
                    {"role": "system", "content": f"Sei un analista esperto che calcola coefficienti di corrispondenza per {tipo_analisi}. Analizza sempre TUTTI i commenti forniti."},
                    {"role": "user", "content": prompt_batch}
                ]
                risposta = llm.invoke(messages)
            
            # Parsing della risposta batch
            risultati_batch = parse_batch_response(str(risposta), len(batch_commenti), soglia_confidenza)
            
            # Assegna i risultati agli indici corretti
            for i, idx in enumerate(batch_indices):
                if i < len(risultati_batch):
                    risultato = risultati_batch[i]
                    risultati["etichette_principali"][idx] = risultato["principale"]
                    risultati["coefficienti_principali"][idx] = risultato["coeff_principale"]
                    risultati["etichette_secondarie"][idx] = risultato["secondarie"]
                    risultati["coefficienti_completi"][idx] = risultato["tutti_coefficienti"]
                    risultati["confidenza_media"][idx] = risultato["confidenza_generale"]
                else:
                    # Fallback in caso di errore di parsing
                    risultati["etichette_principali"][idx] = "Errore_Batch"
                    risultati["coefficienti_principali"][idx] = 0.0
                    risultati["etichette_secondarie"][idx] = ""
                    risultati["coefficienti_completi"][idx] = "{}"
                    risultati["confidenza_media"][idx] = 0.0
            
            print(f"   ✅ Batch completato: {len(batch_commenti)} commenti processati")
            
            # Mostra alcuni risultati del batch
            for i, idx in enumerate(batch_indices[:3]):  # Mostra primi 3 risultati
                if i < len(risultati_batch):
                    risultato = risultati_batch[i]
                    print(f"      📝 Riga {idx+1}: {risultato['principale']} ({risultato['coeff_principale']:.2f})")
            
        except Exception as e:
            logging.error(f"Errore nel batch {batch_start//batch_size + 1}: {e}")
            print(f"   ❌ Errore nel batch: {e}")
            
            # Assegna valori di errore a tutto il batch
            for idx in batch_indices:
                risultati["etichette_principali"][idx] = "Errore_Batch"
                risultati["coefficienti_principali"][idx] = 0.0
                risultati["etichette_secondarie"][idx] = ""
                risultati["coefficienti_completi"][idx] = "{}"
                risultati["confidenza_media"][idx] = 0.0
        
        # Pausa più breve tra batch (invece di pausa per ogni commento)
        time.sleep(0.5)
    
    # Calcola statistiche finali
    coefficienti_validi = [c for c in risultati["coefficienti_principali"] if c and c > 0]
    risultati["statistiche_confidenza"] = {
        "media_coefficienti": sum(coefficienti_validi) / len(coefficienti_validi) if coefficienti_validi else 0,
        "alta_confidenza": len([c for c in coefficienti_validi if c >= 0.7]),
        "media_confidenza": len([c for c in coefficienti_validi if 0.4 <= c < 0.7]),
        "bassa_confidenza": len([c for c in coefficienti_validi if 0.1 <= c < 0.4]),
        "molto_bassa": len([c for c in coefficienti_validi if c < 0.1])
    }
    
    print(f"\n🎉 ETICHETTATURA BATCH COMPLETATA!")
    print(f"⚡ Velocizzazione ottenuta: ~{batch_size}x rispetto alla modalità singola")
    print(f"🔢 Batch processati: {(len(valid_indices) + batch_size - 1) // batch_size}")
    print(f"📊 Commenti validi: {len(valid_indices)}/{len(df)}")
    
    logging.info("Etichettatura batch con coefficienti completata")
    return risultati

def parse_batch_response(risposta, num_commenti, soglia):
    """Parsing specializzato per risposte batch"""
    import re
    
    risultati = []
    
    # Dividi la risposta per commenti
    sezioni_commento = re.split(r'=== COMMENTO_\d+ ===', risposta)
    
    # Rimuovi la prima sezione se vuota
    if sezioni_commento and not sezioni_commento[0].strip():
        sezioni_commento.pop(0)
    
    for i in range(num_commenti):
        risultato = {
            "principale": "Incerto",
            "coeff_principale": 0.0,
            "secondarie": "",
            "tutti_coefficienti": "{}",
            "confidenza_generale": 0.0
        }
        
        if i < len(sezioni_commento):
            sezione = sezioni_commento[i]
            
            # Estrae etichetta principale
            match_principale = re.search(r'PRINCIPALE:\s*([^(]+)\s*\(coefficiente:\s*([\d.]+)\)', sezione)
            if match_principale:
                risultato["principale"] = match_principale.group(1).strip()
                risultato["coeff_principale"] = float(match_principale.group(2))
            
            # Estrae etichette secondarie
            match_secondarie = re.search(r'SECONDARIE:\s*(.+)', sezione)
            if match_secondarie:
                risultato["secondarie"] = match_secondarie.group(1).strip()
            
            # Estrae coefficienti completi
            match_coefficienti = re.search(r'TUTTI_COEFFICIENTI:\s*(\{.+\})', sezione)
            if match_coefficienti:
                risultato["tutti_coefficienti"] = match_coefficienti.group(1)
            
            # Estrae confidenza generale
            match_confidenza = re.search(r'CONFIDENZA_GENERALE:\s*([\d.]+)', sezione)
            if match_confidenza:
                risultato["confidenza_generale"] = float(match_confidenza.group(1))
        
        risultati.append(risultato)
    
    return risultati

## 🚀 6. Esecuzione Analisi Completa

Avvia l'analisi completa dei commenti utilizzando il prompt personalizzato.

In [44]:
# Pulsante per avviare l'analisi avanzata
start_analysis_button = widgets.Button(
    description='🚀 Avvia Analisi Avanzata',
    button_style='warning',
    layout=widgets.Layout(width='220px')
)

# Progress bar avanzata
progress_bar = widgets.IntProgress(
    value=0,
    min=0,
    max=100,
    description='Progresso:',
    bar_style='info',
    style={'bar_color': '#1f77b4'},
    layout=widgets.Layout(width='80%')
)

# Label per fase corrente
fase_label = widgets.HTML(value="<b>⏳ In attesa di avvio...</b>")

# Output area per l'analisi
analysis_output = widgets.Output()

def on_start_analysis_avanzata(b):
    global etichette_dinamiche_globali, risultati_etichettatura_globali
    
    with analysis_output:
        clear_output()
        
        try:
            # Verifica configurazione
            if 'df' not in globals() or 'prompt_personalizzato' not in globals():
                print("❌ Assicurati di aver caricato il file e confermato il prompt!")
                return
            
            if 'SOGLIA_CONFIDENZA' not in globals():
                print("❌ Configura prima i parametri avanzati!")
                return
            
            print("🚀 AVVIO ANALISI AVANZATA CON COEFFICIENTI")
            print("=" * 60)
            
            # Calcola stima del tempo
            commenti_da_analizzare = df[colonna_riferimento].notna().sum()
            tempo_per_commento = 2.5  # secondi medi per commento (basato su esperienza)
            tempo_analisi_globale = 30  # secondi per analisi globale
            tempo_totale_sec = tempo_analisi_globale + (commenti_da_analizzare * tempo_per_commento)
            
            # Converti in formato leggibile
            if tempo_totale_sec < 60:
                tempo_stima = f"{int(tempo_totale_sec)} secondi"
            elif tempo_totale_sec < 3600:
                minuti = int(tempo_totale_sec // 60)
                secondi = int(tempo_totale_sec % 60)
                tempo_stima = f"{minuti}m {secondi}s"
            else:
                ore = int(tempo_totale_sec // 3600)
                minuti = int((tempo_totale_sec % 3600) // 60)
                tempo_stima = f"{ore}h {minuti}m"
            
            print(f"⏱️  STIMA TEMPO: {tempo_stima} ({commenti_da_analizzare} commenti × ~{tempo_per_commento}s)")
            print(f"💡 Fattori: Analisi globale (~30s) + Etichettatura individuale (~{tempo_per_commento}s/commento)")
            print()
            
            # Registra tempo di inizio
            import time
            tempo_inizio = time.time()
            
            # === FASE 1: ANALISI GLOBALE ===
            fase_label.value = "<b>🔍 FASE 1: Analisi globale della colonna...</b>"
            progress_bar.value = 5
            print("🔍 FASE 1: Analisi globale per generare etichette dinamiche")
            
            output_dir = create_output_dir(tipo_analisi)
            print(f"📁 Cartella output: {output_dir}")
            
            progress_bar.value = 15
            print(f"📊 Configurazione: Soglia {SOGLIA_CONFIDENZA:.1f} | Modalità {MODALITA_ANALISI.upper()}")
            print(f"📝 Commenti da analizzare: {df[colonna_riferimento].notna().sum()}")
            
            # Analisi globale della colonna
            fase_label.value = "<b>🤖 Generazione etichette dinamiche...</b>"
            risultati_globali = analizza_colonna_completa(df, colonna_riferimento, prompt_personalizzato, tipo_analisi)
            progress_bar.value = 35
            
            etichette_dinamiche_globali = risultati_globali["etichette_dinamiche"]
            print(f"✅ FASE 1 COMPLETATA: {len(etichette_dinamiche_globali)} etichette dinamiche generate")
            
            # Mostra etichette generate
            print("\\n🏷️ ETICHETTE DINAMICHE GENERATE:")
            for i, (nome, info) in enumerate(etichette_dinamiche_globali.items(), 1):
                print(f"{i:2d}. {nome}: {info['descrizione'][:60]}...")
            
            # Salva analisi globale
            analisi_path = os.path.join(output_dir, f'analisi_globale_{tipo_analisi}.txt')
            with open(analisi_path, 'w', encoding='utf-8') as f:
                f.write(risultati_globali["analisi_completa"])
            print(f"💾 Analisi globale salvata: {analisi_path}")
            
            # === FASE 2: ETICHETTATURA CON COEFFICIENTI ===
            fase_label.value = "<b>🏷️ FASE 2: Preparazione etichettatura...</b>"
            progress_bar.value = 40
            print("\\n🏷️ FASE 2: Etichettatura avanzata con coefficienti di confidenza")
            
            # Conteggio commenti da analizzare
            commenti_validi = df[colonna_riferimento].notna().sum()
            print(f"📝 Commenti da etichettare: {commenti_validi}")
            print(f"🎯 Etichette dinamiche generate: {len(etichette_dinamiche_globali)}")
            print(f"⚙️ Soglia confidenza: {SOGLIA_CONFIDENZA:.1f}")
            print("🚀 Inizio etichettatura con indicatori di progresso dettagliati...")
            
            # Etichettatura con coefficienti - SCELTA MODALITÀ AUTOMATICA
            if BATCH_MODE:
                print(f"⚡ MODALITÀ BATCH ATTIVA: {BATCH_SIZE} commenti per chiamata")
                print(f"🚀 Velocizzazione stimata: ~{BATCH_SIZE}x rispetto alla modalità singola")
                risultati_etichettatura_globali = etichetta_con_coefficiente_batch(
                    df, 
                    etichette_dinamiche_globali, 
                    colonna_riferimento, 
                    tipo_analisi, 
                    SOGLIA_CONFIDENZA,
                    BATCH_SIZE  # Usa la dimensione batch configurata
                )
            else:
                print(f"🐌 MODALITÀ SINGOLA: Un commento alla volta (massima precisione)")
                risultati_etichettatura_globali = etichetta_con_coefficiente(
                    df, 
                    etichette_dinamiche_globali, 
                    colonna_riferimento, 
                    tipo_analisi, 
                    SOGLIA_CONFIDENZA
                )
            progress_bar.value = 80
            
            print(f"✅ FASE 2 COMPLETATA: Tutti i {df[colonna_riferimento].notna().sum()} commenti etichettati con successo!")
            print(f"🎯 Etichettatura al 100% completata con coefficienti di confidenza")
            
            # Mostra statistiche confidenza
            stats = risultati_etichettatura_globali["statistiche_confidenza"]
            print(f"\\n📊 STATISTICHE CONFIDENZA:")
            print(f"   📈 Media coefficienti: {stats['media_coefficienti']:.3f}")
            print(f"   🟢 Alta confidenza (≥0.7): {stats['alta_confidenza']} celle")
            print(f"   🟡 Media confidenza (0.4-0.7): {stats['media_confidenza']} celle")
            print(f"   🟠 Bassa confidenza (0.1-0.4): {stats['bassa_confidenza']} celle")
            print(f"   🔴 Molto bassa (<0.1): {stats['molto_bassa']} celle")
            
            # === FASE 3: SALVATAGGIO AVANZATO ===
            fase_label.value = "<b>💾 FASE 3: Salvataggio risultati avanzati...</b>"
            progress_bar.value = 90
            print("\\n💾 FASE 3: Salvataggio risultati avanzati")
            
            # Salva risultati completi
            excel_path, etichette_path, stats_path = salva_risultati_avanzati(
                df, 
                risultati_etichettatura_globali, 
                etichette_dinamiche_globali, 
                output_dir, 
                tipo_analisi
            )
            
            progress_bar.value = 100
            fase_label.value = "<b>✅ ANALISI AVANZATA COMPLETATA!</b>"
            
            # Calcola tempo reale impiegato
            tempo_fine = time.time()
            tempo_reale = tempo_fine - tempo_inizio
            
            if tempo_reale < 60:
                tempo_reale_str = f"{int(tempo_reale)} secondi"
            elif tempo_reale < 3600:
                minuti = int(tempo_reale // 60)
                secondi = int(tempo_reale % 60)
                tempo_reale_str = f"{minuti}m {secondi}s"
            else:
                ore = int(tempo_reale // 3600)
                minuti = int((tempo_reale % 3600) // 60)
                tempo_reale_str = f"{ore}h {minuti}m"
            
            print("\\n🎉 ANALISI AVANZATA COMPLETATA CON SUCCESSO!")
            print("=" * 60)
            print(f"⏱️  TEMPO IMPIEGATO: {tempo_reale_str} (stima: {tempo_stima})")
            print(f"⚡ Velocità media: {tempo_reale/commenti_da_analizzare:.1f}s per commento")
            print(f"📊 Report Excel avanzato: {excel_path}")
            print(f"🏷️ Etichette dinamiche: {etichette_path}")
            print(f"📈 Statistiche confidenza: {stats_path}")
            
            # Anteprima risultati - COMPLETA E SENZA TRONCAMENTI
            print("\\n🔍 ANTEPRIMA RISULTATI AVANZATI (COMPLETA):")
            print("=" * 60)
            
            # Crea anteprima senza assumere colonna 'id' - NESSUN TRONCAMENTO
            for i in range(min(5, len(df))):
                commento_completo = str(df.iloc[i][colonna_riferimento])  # TESTO COMPLETO
                etichetta = risultati_etichettatura_globali["etichette_principali"][i]
                coeff = risultati_etichettatura_globali["coefficienti_principali"][i]
                conf = risultati_etichettatura_globali["confidenza_media"][i]
                secondarie = risultati_etichettatura_globali["etichette_secondarie"][i]
                
                # Indicatore qualità esteso
                if coeff >= 0.7:
                    qualita_desc = "🟢 ALTA CONFIDENZA"
                elif coeff >= 0.4:
                    qualita_desc = "🟡 MEDIA CONFIDENZA"
                elif coeff >= 0.1:
                    qualita_desc = "🟠 BASSA CONFIDENZA"
                else:
                    qualita_desc = "🔴 CONFIDENZA MOLTO BASSA"
                
                print(f"\\n📝 RIGA {i+1} - {qualita_desc}")
                print(f"🏷️  ETICHETTA: **{etichetta}** (coefficiente: {coeff:.3f}, confidenza: {conf:.3f})")
                
                # Mostra descrizione dell'etichetta se disponibile
                if etichetta in etichette_dinamiche_globali:
                    descrizione = etichette_dinamiche_globali[etichetta]['descrizione']
                    print(f"📝  DESCRIZIONE: {descrizione}")
                    esempi = etichette_dinamiche_globali[etichetta].get('esempi', '')
                    if esempi:
                        print(f"💡  ESEMPI: {esempi}")
                
                print(f"💬 COMMENTO COMPLETO:")
                print(f"   {commento_completo}")  # TESTO INTEGRALE SENZA TRONCAMENTO
                
                if secondarie and secondarie.strip():
                    print(f"📋 ETICHETTE SECONDARIE: {secondarie}")
                print("─" * 70)
            
            # === FASE 4: GENERAZIONE REPORT AI ===
            fase_label.value = "<b>🤖 FASE 4: Generazione report descrittivo AI...</b>"
            print("\n" + "=" * 60)
            print("🤖 FASE 4: GENERAZIONE REPORT DESCRITTIVO AI")
            print("=" * 60)
            
            report_ai = genera_report_ai_risultati()
            
            if report_ai and not report_ai.startswith("❌"):
                print("\n📋 REPORT DESCRITTIVO AI DELL'ANALISI:")
                print("=" * 60)
                print(report_ai)
                print("=" * 60)
            else:
                print("⚠️ Non è stato possibile generare il report AI")
            
        except Exception as e:
            print(f"❌ ERRORE DURANTE L'ANALISI AVANZATA: {str(e)}")
            fase_label.value = f"<b style='color: red;'>❌ Errore: {str(e)[:50]}...</b>"
            progress_bar.value = 0
            import traceback
            print(f"\\n🔍 Dettagli errore:\\n{traceback.format_exc()}")

start_analysis_button.on_click(on_start_analysis_avanzata)

# Layout interfaccia esecuzione
execution_interface = widgets.VBox([
    widgets.HTML("<h3>🚀 Esecuzione Analisi Avanzata</h3>"),
    widgets.HTML("<p><em>Sistema a 2 fasi: analisi globale + etichettatura con coefficienti</em></p>"),
    start_analysis_button,
    fase_label,
    progress_bar,
    analysis_output
])

display(execution_interface)

VBox(children=(HTML(value='<h3>🚀 Esecuzione Analisi Avanzata</h3>'), HTML(value='<p><em>Sistema a 2 fasi: anal…

## 📊 7. Visualizzazione Risultati

Esplora i risultati dell'analisi e le statistiche generate.

In [None]:
# 📊 Visualizzazione Avanzata dei Risultati
def visualizza_risultati_avanzati():
    """Visualizza risultati avanzati con metriche di qualità e grafici"""
    
    if 'risultati_etichettatura_globali' not in globals() or 'etichette_dinamiche_globali' not in globals():
        print("❌ Esegui prima l'analisi avanzata per vedere i risultati!")
        return
    
    print("📊 RIEPILOGO ANALISI AVANZATA")
    print("=" * 60)
    print(f"📁 Tipo di analisi: {tipo_analisi}")
    print(f"📄 File analizzato: {file_analizzato}")
    print(f"📋 Colonna analizzata: {colonna_riferimento}")
    print(f"📝 Numero totale commenti: {len(df)}")
    print(f"✅ Commenti analizzati: {df[colonna_riferimento].notna().sum()}")
    print(f"❌ Commenti vuoti: {df[colonna_riferimento].isna().sum()}")
    
    # Statistiche etichette dinamiche
    print(f"\\n🏷️ ETICHETTE DINAMICHE GENERATE: {len(etichette_dinamiche_globali)}")
    print("=" * 70)
    for i, (nome, info) in enumerate(etichette_dinamiche_globali.items(), 1):
        print(f"\\n{i:2d}. 📌 **{nome}**")
        print(f"    📝 Descrizione: {info['descrizione']}")
        if info.get('esempi', ''):
            print(f"    💡 Esempi: {info['esempi']}")
        print("    " + "-" * 60)
    
    # Statistiche di qualità
    stats = risultati_etichettatura_globali["statistiche_confidenza"]
    print("📈 METRICHE DI QUALITÀ")
    print("-" * 30)
    print(f"🎯 Media coefficienti: {stats['media_coefficienti']:.3f}")
    print(f"🟢 Alta confidenza (≥0.7): {stats['alta_confidenza']} celle ({stats['alta_confidenza']/len(df)*100:.1f}%)")
    print(f"🟡 Media confidenza (0.4-0.7): {stats['media_confidenza']} celle ({stats['media_confidenza']/len(df)*100:.1f}%)")
    print(f"🟠 Bassa confidenza (0.1-0.4): {stats['bassa_confidenza']} celle ({stats['bassa_confidenza']/len(df)*100:.1f}%)")
    print(f"🔴 Molto bassa (<0.1): {stats['molto_bassa']} celle ({stats['molto_bassa']/len(df)*100:.1f}%)")
    
    # Distribuzione etichette principali
    print("\\n🏆 TOP 10 ETICHETTE PRINCIPALI")
    print("-" * 35)
    etichette_principali = risultati_etichettatura_globali["etichette_principali"]
    from collections import Counter
    conteggi = Counter([e for e in etichette_principali if e not in ["Vuota", "Errore", "Incerto"]])
    
    for i, (etichetta, count) in enumerate(conteggi.most_common(10), 1):
        # Calcola coefficiente medio per questa etichetta
        coefficienti_etichetta = [
            risultati_etichettatura_globali["coefficienti_principali"][j] 
            for j, e in enumerate(etichette_principali) 
            if e == etichetta
        ]
        coeff_medio = sum(coefficienti_etichetta) / len(coefficienti_etichetta) if coefficienti_etichetta else 0
        print(f"{i:2d}. {etichetta}: {count} occorrenze (coeff. medio: {coeff_medio:.2f})")
    
    # Anteprima dati avanzati - SENZA TRONCAMENTI
    print("\\n📋 ANTEPRIMA DATI AVANZATI (COMPLETA)")
    print("=" * 60)
    for i in range(min(8, len(df))):
        commento_completo = str(df.iloc[i][colonna_riferimento])  # NESSUN TRONCAMENTO
        etichetta = risultati_etichettatura_globali["etichette_principali"][i]
        coefficiente = risultati_etichettatura_globali["coefficienti_principali"][i]
        confidenza = risultati_etichettatura_globali["confidenza_media"][i]
        secondarie = risultati_etichettatura_globali["etichette_secondarie"][i]
        
        # Indicatore qualità
        if coefficiente >= 0.7:
            qualita = "🟢 ALTA"
        elif coefficiente >= 0.4:
            qualita = "🟡 MEDIA"
        elif coefficiente >= 0.1:
            qualita = "🟠 BASSA"
        else:
            qualita = "🔴 MOLTO BASSA"
        
        print(f"\\n📝 RIGA {i+1} - QUALITÀ: {qualita}")
        print(f"🏷️  ETICHETTA PRINCIPALE: **{etichetta}** (coefficiente: {coefficiente:.3f})")
        
        # Mostra descrizione dell'etichetta se disponibile
        if etichetta in etichette_dinamiche_globali:
            descrizione = etichette_dinamiche_globali[etichetta]['descrizione']
            esempi = etichette_dinamiche_globali[etichetta].get('esempi', '')
            print(f"📝  DESCRIZIONE ETICHETTA: {descrizione}")
            if esempi:
                print(f"💡  ESEMPI: {esempi}")
        
        print(f"💬 COMMENTO COMPLETO:")
        print(f"   {commento_completo}")  # TESTO COMPLETO SENZA TRONCAMENTI
        
        if secondarie and secondarie.strip():
            print(f"📋 ETICHETTE SECONDARIE: {secondarie}")
        print("─" * 80)
    
    # Grafico distribuzione qualità (semplificato)
    print("📊 DISTRIBUZIONE QUALITÀ")
    print("-" * 25)
    
    # Istogramma ASCII semplice
    totale = stats['alta_confidenza'] + stats['media_confidenza'] + stats['bassa_confidenza'] + stats['molto_bassa']
    if totale > 0:
        alta_perc = stats['alta_confidenza'] / totale
        media_perc = stats['media_confidenza'] / totale  
        bassa_perc = stats['bassa_confidenza'] / totale
        molto_bassa_perc = stats['molto_bassa'] / totale
        
        larghezza = 40
        print(f"🟢 Alta:       {'█' * int(alta_perc * larghezza):<{larghezza}} {alta_perc*100:.1f}%")
        print(f"🟡 Media:      {'█' * int(media_perc * larghezza):<{larghezza}} {media_perc*100:.1f}%")
        print(f"🟠 Bassa:      {'█' * int(bassa_perc * larghezza):<{larghezza}} {bassa_perc*100:.1f}%")
        print(f"🔴 Molto bassa: {'█' * int(molto_bassa_perc * larghezza):<{larghezza}} {molto_bassa_perc*100:.1f}%")
    
    # File generati
    print("\\n💾 FILE GENERATI")
    print("-" * 15)
    if 'output_dir' in globals():
        print(f"📁 Cartella output: {output_dir}")
        print(f"📊 Report Excel avanzato: report_avanzato_{tipo_analisi}.xlsx")
        print(f"🏷️ Etichette dinamiche: etichette_dinamiche_{tipo_analisi}.json")
        print(f"📈 Statistiche confidenza: statistiche_confidenza_{tipo_analisi}.json")
        print(f"🔍 Analisi globale: analisi_globale_{tipo_analisi}.txt")

# Widget per visualizzazione avanzata
show_advanced_results_button = widgets.Button(
    description='📊 Mostra Risultati Avanzati',
    button_style='info',
    layout=widgets.Layout(width='250px')
)

# Widget per esportare metriche
export_metrics_button = widgets.Button(
    description='📈 Esporta Metriche',
    button_style='success',
    layout=widgets.Layout(width='200px')
)

# Widget per confronto qualità
quality_analysis_button = widgets.Button(
    description='🔍 Analisi Qualità',
    button_style='warning',
    layout=widgets.Layout(width='200px')
)

results_output = widgets.Output()

def on_show_advanced_results(b):
    with results_output:
        clear_output()
        visualizza_risultati_avanzati()

def on_export_metrics(b):
    with results_output:
        if 'risultati_etichettatura_globali' not in globals():
            print("❌ Nessun risultato da esportare!")
            return
        
        try:
            import json
            metrics_data = {
                "timestamp": datetime.now().isoformat(),
                "configurazione": {
                    "soglia_confidenza": SOGLIA_CONFIDENZA,
                    "modalita_analisi": MODALITA_ANALISI,
                    "etichette_multiple": ETICHETTE_MULTIPLE
                },
                "statistiche": risultati_etichettatura_globali["statistiche_confidenza"],
                "etichette_generate": len(etichette_dinamiche_globali),
                "commenti_analizzati": df[colonna_riferimento].notna().sum()
            }
            
            metrics_path = os.path.join(output_dir, f'metriche_dettagliate_{tipo_analisi}.json')
            with open(metrics_path, 'w', encoding='utf-8') as f:
                json.dump(metrics_data, f, ensure_ascii=False, indent=2)
            
            print(f"✅ Metriche esportate in: {metrics_path}")
        except Exception as e:
            print(f"❌ Errore nell'esportazione: {e}")

def on_quality_analysis(b):
    with results_output:
        if 'risultati_etichettatura_globali' not in globals():
            print("❌ Nessun risultato da analizzare!")
            return
        
        clear_output()
        print("🔍 ANALISI DETTAGLIATA DELLA QUALITÀ")
        print("=" * 50)
        
        coefficienti = risultati_etichettatura_globali["coefficienti_principali"]
        coefficienti_validi = [c for c in coefficienti if c > 0]
        
        if coefficienti_validi:
            print(f"📊 Statistiche coefficienti:")
            print(f"   📈 Massimo: {max(coefficienti_validi):.3f}")
            print(f"   📉 Minimo: {min(coefficienti_validi):.3f}")
            print(f"   📊 Media: {sum(coefficienti_validi)/len(coefficienti_validi):.3f}")
            print(f"   📏 Mediana: {sorted(coefficienti_validi)[len(coefficienti_validi)//2]:.3f}")
            
            # Identifica celle problematiche
            problematiche = [(i, c) for i, c in enumerate(coefficienti) if 0 < c < 0.2]
            if problematiche:
                print(f"\\n⚠️  CELLE PROBLEMATICHE (coefficiente < 0.2): {len(problematiche)}")
                for i, (idx, coeff) in enumerate(problematiche[:5]):
                    commento = str(df.iloc[idx][colonna_riferimento])[:60] + "..." if len(str(df.iloc[idx][colonna_riferimento])) > 60 else str(df.iloc[idx][colonna_riferimento])
                    etichetta = risultati_etichettatura_globali["etichette_principali"][idx]
                    print(f"   {i+1}. Riga {idx+1}: {etichetta} ({coeff:.3f})")
                    print(f"      💬 {commento}")
            
            # Celle di alta qualità
            eccellenti = [(i, c) for i, c in enumerate(coefficienti) if c >= 0.8]
            if eccellenti:
                print(f"\\n🌟 CELLE ECCELLENTI (coefficiente ≥ 0.8): {len(eccellenti)}")
                print("   Esempi di etichettatura di alta qualità:")
                for i, (idx, coeff) in enumerate(eccellenti[:3]):
                    etichetta = risultati_etichettatura_globali["etichette_principali"][idx]
                    print(f"   ⭐ {etichetta} ({coeff:.3f})")

show_advanced_results_button.on_click(on_show_advanced_results)
export_metrics_button.on_click(on_export_metrics)
quality_analysis_button.on_click(on_quality_analysis)

# Layout interfaccia risultati avanzati
advanced_results_interface = widgets.VBox([
    widgets.HTML("<h3>📊 Visualizzazione Risultati Avanzati</h3>"),
    widgets.HTML("<p><em>Esplora risultati, metriche di qualità e coefficienti di confidenza</em></p>"),
    widgets.HBox([show_advanced_results_button, export_metrics_button, quality_analysis_button]),
    results_output
])

display(advanced_results_interface)

VBox(children=(HTML(value='<h3>📊 Visualizzazione Risultati Avanzati</h3>'), HTML(value='<p><em>Esplora risulta…

## 🎉 Analisi Avanzata Completata!

Congratulazioni! Hai completato l'analisi interattiva avanzata dei tuoi commenti Excel utilizzando il **sistema a 2 fasi con coefficienti di confidenza**.

### 🚀 **Nuovo Sistema Avanzato:**
- **🔍 Fase 1**: Analisi globale della colonna → Etichette dinamiche generate dal contenuto reale
- **🏷️ Fase 2**: Etichettatura con coefficienti di confidenza (0.0-1.0) per ogni cella
- **📊 Metriche di qualità**: Statistiche dettagliate sulla qualità dell'etichettatura

### 📁 **File Generati Avanzati:**
- **📊 Report Excel Avanzato**: Contiene etichette principali, coefficienti, confidenza generale e etichette secondarie
- **🏷️ Etichette Dinamiche JSON**: Dizionario completo delle etichette generate automaticamente
- **📈 Statistiche Confidenza**: Metriche dettagliate sulla qualità dell'analisi
- **🔍 Analisi Globale**: Testo completo dell'analisi globale della colonna

### ⚙️ **Parametri Configurabili:**
- **🎯 Soglia Confidenza**: Coefficiente minimo per etichette valide
- **📋 Soglia Secondarie**: Limite per etichette aggiuntive
- **🏷️ Etichette Multiple**: Permetti più etichette per cella
- **⚙️ Modalità Analisi**: Strict/Balanced/Loose

### 📊 **Colonne Output Excel:**
- `Etichetta_Principale` → Etichetta con coefficiente più alto
- `Coefficiente_Principale` → Valore di confidenza (0.0-1.0)
- `Etichette_Secondarie` → Altre etichette significative
- `Confidenza_Generale` → Media ponderata di tutte le etichette
- `Coefficienti_Completi` → JSON con tutti i coefficienti

### 🔄 **Per Nuove Analisi Avanzate:**
1. **Cella 4**: Carica nuovo file Excel
2. **Cella 3.1**: Configura parametri avanzati (soglie, modalità)
3. **Cella 5**: Seleziona template di analisi o personalizza prompt
4. **Cella 6**: Avvia analisi avanzata a 2 fasi
5. **Cella 7**: Visualizza risultati e metriche di qualità

### 💡 **Vantaggi del Sistema Avanzato:**
- ✅ **Etichette dinamiche** generate dal contenuto reale
- ✅ **Coefficienti di confidenza** per ogni etichettatura
- ✅ **Metriche di qualità** dettagliate
- ✅ **Configurazione flessibile** dei parametri
- ✅ **Identificazione celle problematiche** (bassa confidenza)
- ✅ **Etichette multiple** con pesi diversi
- ✅ **Tracciabilità completa** di ogni decisione AI

### 🔍 **Interpretazione Coefficienti:**
- **🟢 0.7-1.0**: Alta confidenza - Etichettatura molto affidabile
- **🟡 0.4-0.7**: Media confidenza - Buona qualità, controllare se necessario
- **🟠 0.1-0.4**: Bassa confidenza - Rivedere manualmente
- **🔴 <0.1**: Molto bassa - Probabile errore o commento ambiguo

### 📈 **Suggerimenti per Ottimizzare:**
- **Modalità Strict**: Per analisi di alta precisione con poche etichette incerte
- **Modalità Balanced**: Equilibrio ideale per la maggior parte dei casi
- **Modalità Loose**: Per massima copertura, accettando più incertezza
- **Soglie personalizzate**: Adatta in base al tipo di dati e requisiti di qualità

---
*Sistema Avanzato di Analisi AI - Versione 2.0 con Coefficienti di Confidenza*

## 🎯 Migliorie Implementate - Versione Completa

### ⏱️ **Sistema di Stima del Tempo**
Il sistema ora calcola e mostra:
- **🔮 Stima iniziale**: Basata su ~2.5s per commento + 30s per analisi globale
- **⏱️ Tempo reale**: Cronometro preciso dall'inizio alla fine dell'analisi
- **⚡ Velocità media**: Secondi per commento effettivi

### 🤖 **Report Descrittivo AI Automatico**
Nuova funzionalità di **Fase 4** che genera automaticamente:
- **📋 Sintesi generale**: Panoramica dei risultati principali
- **🔍 Analisi tematica**: Discussione delle etichette più significative
- **📊 Valutazione qualitativa**: Commento sulla distribuzione della confidenza
- **💡 Raccomandazioni**: Suggerimenti per utilizzo dei risultati

### 🏷️ **Etichette Comprensibili con Descrizioni ed Esempi**
Ogni etichetta include sempre:
- **📝 Nome chiaro**: Terminologia comprensibile
- **📖 Descrizione dettagliata**: Spiegazione del significato
- **💡 Esempi pratici**: Illustrazioni concrete dell'etichetta

### 📄 **Visualizzazione Senza Troncamenti**
Completamente eliminato ogni troncamento:
- **💬 Commenti completi**: Testo integrale sempre visibile
- **📋 Anteprima estesa**: Descrizioni ed esempi per ogni etichetta
- **🔍 Dettagli completi**: Nessuna informazione nascosta o abbreviata

### 📊 **Sistema di Progresso Dettagliato**
Indicatori precisi in tempo reale:
- **Formato**: `p% numero_corrente/totale` (es: `25% 25/100`)
- **Progress bar**: Sincronizzata con percentuale esatta
- **Milestone**: Aggiornamenti ogni 10 commenti

### 💾 **File Generati**
L'analisi produce ora:
- **📊 Report Excel avanzato**: Con tutte le etichette e coefficienti
- **🤖 Report AI descrittivo**: Discussione automatica dei risultati
- **🏷️ Etichette dinamiche**: JSON con descrizioni ed esempi
- **📈 Statistiche confidenza**: Metriche dettagliate di qualità
- **🔍 Analisi globale**: Testo completo dell'analisi iniziale

### 🎯 **Risultato Finale**
Un sistema completo che fornisce:
1. **Stima del tempo accurata** prima dell'avvio
2. **Progresso dettagliato** durante l'analisi  
3. **Etichette comprensibili** con descrizioni ed esempi
4. **Visualizzazione completa** senza troncamenti
5. **Report AI automatico** per discussione professionale dei risultati

## ⚡ Sistema Batch Processing - Ottimizzazione Velocità

### 🚀 **Funzionalità Batch Implementata**
Il sistema ora supporta l'**etichettatura batch** per velocizzare drasticamente l'analisi:

#### 📦 **Come Funziona**
- **Modalità Singola** (vecchia): 1 commento → 1 chiamata API
- **Modalità Batch** (nuova): N commenti → 1 chiamata API

#### ⚡ **Vantaggi del Batch Processing**
1. **🚀 Velocità**: Riduce il numero di chiamate API di N volte (dove N = batch_size)
2. **💰 Costi**: Meno chiamate API = costi ridotti per provider a pagamento
3. **🌐 Rete**: Riduce la latenza di rete e il tempo di attesa
4. **⚙️ Configurabile**: Dimensione batch personalizzabile (1-20 commenti)

#### 📊 **Raccomandazioni Batch Size**
- **Batch Size 1**: Un commento alla volta (lento ma massima precisione)
- **Batch Size 3-5**: Buon bilanciamento velocità/qualità ⭐ **CONSIGLIATO**
- **Batch Size 8-12**: Priorità velocità (possibile lieve calo qualità)
- **Batch Size 15-20**: Massima velocità (per dataset grandi)

#### 🎯 **Controllo Qualità**
- L'AI analizza sempre **ogni commento individualmente**
- Il parsing separa automaticamente i risultati per ogni commento
- Fallback automatico in caso di errori batch
- Indicatori di progresso dettagliati durante l'elaborazione

#### 🔧 **Configurazione**
Nella sezione **"Configurazione Avanzata"**:
1. ✅ **Attiva Modalità Batch** (checkbox)
2. 📦 **Imposta Dimensione Batch** (slider 1-20)
3. 📊 **Vedi Velocizzazione Stimata** in tempo reale

### 💡 **Esempio Prestazioni**
- **File 100 commenti, Batch Size 5**: 
  - Modalità singola: 100 chiamate API
  - Modalità batch: 20 chiamate API
  - **Velocizzazione: 5x**

## 📝 Report Discorsivo AI

Generazione automatica di un report narrativo dell'analisi utilizzando l'intelligenza artificiale per sintetizzare e discutere i risultati ottenuti.

In [None]:
# 📝 Generatore Report Discorsivo AI Avanzato
import json
import pandas as pd
from datetime import datetime
import ipywidgets as widgets
from IPython.display import display, clear_output, Markdown, HTML
from collections import Counter
import re

def estrai_esempi_rappresentativi(risultati, etichetta, max_esempi=3):
    """Estrae esempi rappresentativi per una specifica etichetta"""
    esempi = []
    for key, item in risultati.items():
        if 'etichette' in item and 'testo_originale' in item:
            etichette = item['etichette']
            if isinstance(etichette, list) and etichetta in etichette:
                esempi.append({
                    'testo': item['testo_originale'][:200] + "..." if len(item['testo_originale']) > 200 else item['testo_originale'],
                    'confidenza': item.get('confidenza', 0),
                    'key': key
                })
            elif isinstance(etichette, str) and etichette == etichetta:
                esempi.append({
                    'testo': item['testo_originale'][:200] + "..." if len(item['testo_originale']) > 200 else item['testo_originale'],
                    'confidenza': item.get('confidenza', 0),
                    'key': key
                })
    
    # Ordina per confidenza e prendi i migliori
    esempi.sort(key=lambda x: x['confidenza'], reverse=True)
    return esempi[:max_esempi]

def analizza_configurazione_completa():
    """Raccoglie tutti i dati di configurazione disponibili includendo triple-model"""
    config_data = {}
    
    # Configurazione Triple-Model
    config_data['CONFIGURAZIONE_TRIPLE_MODEL'] = {
        'AI_PROVIDER_FASE1': globals().get('AI_PROVIDER_FASE1', 'non configurato'),
        'MODEL_FASE1': globals().get('MODEL_FASE1', 'non configurato'), 
        'AI_PROVIDER_FASE2': globals().get('AI_PROVIDER_FASE2', 'non configurato'),
        'MODEL_FASE2': globals().get('MODEL_FASE2', 'non configurato'),
        'AI_PROVIDER_REPORT': globals().get('AI_PROVIDER_REPORT', 'non configurato'),
        'MODEL_REPORT': globals().get('MODEL_REPORT', 'non configurato')
    }
    
    # Variabili di configurazione standard
    config_vars = ['MODALITA_ANALISI', 'TEMPERATURE', 'SOGLIA_CONFIDENZA', 
                   'SOGLIA_SECONDARIE', 'BATCH_SIZE', 'MAX_ETICHETTE_DINAMICHE', 
                   'BATCH_MODE', 'ETICHETTE_MULTIPLE']
    
    for var in config_vars:
        if var in globals():
            config_data[var] = globals()[var]
    
    # Mantieni compatibilità con AI_PROVIDER legacy
    if 'AI_PROVIDER' in globals():
        config_data['AI_PROVIDER_LEGACY'] = globals()['AI_PROVIDER']
    
    # Prompt utilizzato
    if 'prompt_personalizzato' in globals():
        config_data['PROMPT_UTILIZZATO'] = prompt_personalizzato
    
    # Etichette dinamiche
    if 'etichette_dinamiche_globali' in globals():
        config_data['ETICHETTE_DINAMICHE'] = etichette_dinamiche_globali
    
    return config_data

def genera_report_discorsivo_avanzato():
    """
    Genera un report discorsivo avanzato con analisi dettagliata, esempi e contesto metodologico
    """
    
    # Verifica prerequisiti
    if 'risultati_etichettatura_globali' not in globals() or not risultati_etichettatura_globali:
        print("❌ Nessun risultato di analisi disponibile!")
        print("💡 Esegui prima un'analisi per generare il report discorsivo.")
        return
    
    if 'AI_PROVIDER_REPORT' not in globals() or 'MODEL_REPORT' not in globals():
        print("❌ Configurazione modello report non trovata!")
        print("💡 Configura prima il provider e modello per il report nella sezione configurazione.")
        return
    
    print("🤖 Generazione Report Discorsivo Avanzato...")
    print("=" * 50)
    
    try:
        # === RACCOLTA DATI COMPLETA ===
        risultati = risultati_etichettatura_globali
        config_data = analizza_configurazione_completa()
        totale = len(risultati)
        
        # Analisi statistiche dettagliate
        etichette_freq = {}
        confidenze = []
        etichette_per_item = []
        testi_originali = []
        
        for key, item in risultati.items():
            # Etichette
            if 'etichette' in item:
                etichette = item['etichette']
                if isinstance(etichette, list):
                    etichette_per_item.append(len(etichette))
                    for etichetta in etichette:
                        etichette_freq[etichetta] = etichette_freq.get(etichetta, 0) + 1
                else:
                    etichette_per_item.append(1)
                    etichette_freq[etichette] = etichette_freq.get(etichette, 0) + 1
            
            # Confidenze
            if 'confidenza' in item:
                confidenze.append(item['confidenza'])
            
            # Testi originali per analisi linguistica
            if 'testo_originale' in item:
                testi_originali.append(item['testo_originale'])
        
        # Statistiche avanzate
        etichette_ordinate = sorted(etichette_freq.items(), key=lambda x: x[1], reverse=True)
        confidenza_media = sum(confidenze) / len(confidenze) if confidenze else 0
        confidenza_min = min(confidenze) if confidenze else 0
        confidenza_max = max(confidenze) if confidenze else 0
        media_etichette_per_item = sum(etichette_per_item) / len(etichette_per_item) if etichette_per_item else 0
        
        # Raccolta esempi per top etichette
        esempi_per_etichetta = {}
        for etichetta, freq in etichette_ordinate[:5]:
            esempi_per_etichetta[etichetta] = estrai_esempi_rappresentativi(risultati, etichetta, 2)
        
        # === COSTRUZIONE PROMPT AVANZATO ===
        prompt_avanzato = f"""
Sei un esperto analista di ricerca qualitativa con esperienza in analisi del sentiment e categorizzazione automatica. 
Analizza i seguenti dati e genera un report discorsivo completo, professionale e ricco di insights.

=== CONFIGURAZIONE METODOLOGICA ===
{json.dumps(config_data, indent=2, ensure_ascii=False)}

=== STATISTICHE DELL'ANALISI ===
- Totale commenti analizzati: {totale}
- Confidenza media: {confidenza_media:.3f} (min: {confidenza_min:.3f}, max: {confidenza_max:.3f})
- Media etichette per commento: {media_etichette_per_item:.2f}
- Numero totale etichette uniche: {len(etichette_freq)}
- Distribuzione completa etichette: {etichette_ordinate}

=== ESEMPI RAPPRESENTATIVI PER CATEGORIA ===
{json.dumps(esempi_per_etichetta, indent=2, ensure_ascii=False)}

=== CAMPIONE DATI DETTAGLIATO ===
{json.dumps(dict(list(risultati.items())[:8]), indent=2, ensure_ascii=False)}

=== RICHIESTA REPORT DISCORSIVO AVANZATO ===

Genera un report strutturato e approfondito che includa:

## 1. EXECUTIVE SUMMARY
- Panoramica dei risultati chiave in 2-3 paragrafi
- Principali finding e loro significato

## 2. METODOLOGIA E CONFIGURAZIONE
- Analisi dettagliata dell'approccio utilizzato
- Discussione dei parametri di configurazione (temperature, soglie, batch mode)
- Valutazione della qualità metodologica

## 3. ANALISI DELLE ETICHETTE E CATEGORIZZAZIONE
- Descrizione del sistema di etichettatura utilizzato
- Analisi della distribuzione delle categorie
- Discussione delle etichette più e meno frequenti
- Significato qualitativo delle categorie emerse

## 4. ESEMPI SOSTANZIALI E PATTERN LINGUISTICI
- Per ogni categoria principale, fornisci analisi dettagliata degli esempi
- Identifica pattern linguistici, temi ricorrenti, tonalità
- Discuti la coerenza e qualità della categorizzazione
- Evidenzia casi interessanti o atipici

## 5. INSIGHTS QUALITATIVI APPROFONDITI
- Correlazioni tra diverse dimensioni
- Osservazioni sulla qualità e natura dei commenti
- Temi emergenti e sottotemi
- Implicazioni dei pattern identificati

## 6. VALUTAZIONE TECNICA
- Analisi delle performance dell'AI (distribuzione confidenze)
- Qualità della categorizzazione automatica
- Limitazioni e punti di forza dell'approccio
- Considerazioni sulla reliability dei risultati

## 7. CONCLUSIONI E RACCOMANDAZIONI OPERATIVE
- Sintesi dei finding principali con evidenze
- Implicazioni pratiche specifiche
- Raccomandazioni actionable basate sui dati
- Suggerimenti per analisi future

=== STILE E FORMATO ===
- Linguaggio professionale e accademico ma accessibile
- Tono analitico, obiettivo e supportato da evidenze
- Usa esempi concreti e citazioni per sostanziare ogni punto
- Lunghezza: 1800-2200 parole
- Formato markdown con intestazioni chiare
- Bilancia analisi quantitativa e insights qualitativi

Genera il report in italiano, mantenendo un equilibrio tra rigore metodologico e leggibilità.
"""
        
        print("🔄 Elaborazione avanzata in corso con AI...")
        print(f"📊 Analizzando {totale} commenti con {len(etichette_freq)} etichette uniche...")
        
        # Genera il report usando l'AI specificata per il report
        try:
            # Usa il modello specifico per il report discorsivo (Fase 3)
            llm_report = get_llm_per_fase(3)
            if llm_report is None:
                print("❌ Impossibile inizializzare LLM per report")
                print("💡 Verifica la configurazione del provider e modello per il report")
                return
                
            response = llm_report.invoke(prompt_avanzato)
            
            # Mostra il report generato
            print("✅ Report avanzato generato con successo!")
            print("\n" + "="*70)
            print("📋 REPORT DISCORSIVO AVANZATO AI")
            print("="*70)
            
            # Mostra in formato markdown
            display(Markdown(response))
            
            # Salva il report esteso
            timestamp = datetime.now().strftime("%Y-%m-%d_%H-%M-%S")
            modalita = config_data.get('MODALITA_ANALISI', 'sconosciuta')
            filename = f"report_avanzato_{modalita}_{timestamp}.md"
            
            # Costruisci header dettagliato
            header_dettagliato = f"""# Report Discorsivo Avanzato AI - {modalita.title()}

**Data e ora generazione**: {datetime.now().strftime('%d/%m/%Y %H:%M:%S')}
**Modalità di analisi**: {modalita}
**Commenti analizzati**: {totale}
**Etichette uniche identificate**: {len(etichette_freq)}
**Confidenza media**: {confidenza_media:.3f}
**Provider AI**: {config_data.get('AI_PROVIDER', 'non specificato')}
**Temperature**: {config_data.get('TEMPERATURE', 'non specificata')}

---

## Configurazione Tecnica Completa

```json
{json.dumps(config_data, indent=2, ensure_ascii=False)}
```

---

## Distribuzione Etichette

{chr(10).join([f"- **{etichetta}**: {freq} occorrenze ({freq/totale*100:.1f}%)" for etichetta, freq in etichette_ordinate[:10]])}

---

"""
            
            with open(filename, 'w', encoding='utf-8') as f:
                f.write(header_dettagliato)
                f.write(response)
                f.write(f"\n\n---\n*Report generato automaticamente dal Sistema di Analisi Interattiva - {datetime.now().strftime('%d/%m/%Y %H:%M:%S')}*")
            
            print(f"\n💾 Report avanzato salvato in: {filename}")
            print(f"📄 Dimensione: ~{len(response)} caratteri")
            print(f"🏷️  Top 3 etichette: {[e[0] for e in etichette_ordinate[:3]]}")
            
        except Exception as e:
            print(f"❌ Errore durante la generazione AI: {str(e)}")
            print("💡 Verifica la configurazione del provider AI")
            
    except Exception as e:
        print(f"❌ Errore generale: {str(e)}")

# Widget per generare il report avanzato
print("🎯 GENERATORE REPORT DISCORSIVO AVANZATO AI")
print("=" * 50)

genera_button = widgets.Button(
    description='🤖 Genera Report Avanzato',
    button_style='info',
    layout=widgets.Layout(width='250px', height='50px')
)

output_report = widgets.Output()

def on_genera_click(button):
    with output_report:
        clear_output()
        genera_report_discorsivo_avanzato()

genera_button.on_click(on_genera_click)

# Mostra interfaccia avanzata
interface_box = widgets.VBox([
    widgets.HTML("<h3>🤖 Report Discorsivo Avanzato - Analisi Completa</h3>"),
    widgets.HTML("""
    <div style="background-color: #f8f9fa; padding: 15px; border-radius: 8px; margin: 10px 0;">
        <h4>🚀 Funzionalità Avanzate:</h4>
        <ul>
            <li><strong>📊 Analisi Metodologica Completa</strong> - Configurazione, parametri e prompt utilizzati</li>
            <li><strong>🏷️ Catalogazione Etichette Dettagliata</strong> - Distribuzione, frequenze e significato qualitativo</li>
            <li><strong>📝 Esempi Sostanziali</strong> - Citazioni rappresentative per ogni categoria principale</li>
            <li><strong>🔍 Pattern Linguistici</strong> - Analisi tonalità, temi ricorrenti e correlazioni</li>
            <li><strong>📈 Valutazione Tecnica</strong> - Performance AI, confidenze e quality assessment</li>
            <li><strong>💡 Insights Qualitativi</strong> - Osservazioni approfondite e implicazioni pratiche</li>
            <li><strong>📋 Raccomandazioni Operative</strong> - Suggerimenti actionable basati sui dati</li>
            <li><strong>💾 Salvataggio Esteso</strong> - File markdown con header tecnico completo</li>
        </ul>
        
        <h4>📄 Struttura Report (1800-2200 parole):</h4>
        <ol>
            <li><strong>Executive Summary</strong> - Panoramica risultati chiave</li>
            <li><strong>Metodologia e Configurazione</strong> - Approccio dettagliato e parametri</li>
            <li><strong>Analisi Etichette</strong> - Sistema categorizzazione e distribuzione</li>
            <li><strong>Esempi e Pattern</strong> - Citazioni concrete e analisi linguistica</li>
            <li><strong>Insights Qualitativi</strong> - Correlazioni e temi emergenti</li>
            <li><strong>Valutazione Tecnica</strong> - Performance e reliability dell'AI</li>
            <li><strong>Conclusioni Operative</strong> - Sintesi e raccomandazioni specifiche</li>
        </ol>
        
        <p><em>🎯 <strong>Output:</strong> Report accademico professionale con rigore metodologico, esempi concreti e insights actionable.</em></p>
    </div>
    """),
    genera_button,
    output_report
])

display(interface_box)

🎯 GENERATORE REPORT DISCORSIVO AVANZATO AI


VBox(children=(HTML(value='<h3>🤖 Report Discorsivo Avanzato - Analisi Completa</h3>'), HTML(value='\n    <div …