## *<b>LLAMAINDEX</b>*

#### Setting keys

In [31]:
import os
from dotenv import load_dotenv

load_dotenv()
os.environ["GOOGLE_API_KEY"] = os.getenv("GOOGLE_API_KEY")
os.environ["COHERE_API_KEY"] = os.getenv("COHERE_API_KEY")
os.environ["HUGGINGFACE_API_KEY"] = os.getenv("HUGGINGFACE_API_KEY")
os.environ["QDRANT__API_KEY"] = os.getenv("QDRANT__API_KEY")

#### Setting default options for llama index

In [32]:
from llama_index.core import Settings
from llama_index.llms.google_genai import GoogleGenAI
from llama_index.embeddings.huggingface import HuggingFaceEmbedding

Settings.embed_model = HuggingFaceEmbedding(model_name="BAAI/bge-m3", token=os.getenv("HUGGINGFACE_API_KEY"))

Settings.llm = GoogleGenAI(
    model="gemini-2.5-flash",
    api_key=os.getenv("GOOGLE_API_KEY"),
    temperature=0.5,
)



#### Utility functions

In [27]:
import pickle
import os

def save_to_pickle(data, filepath):
    """Salva qualsiasi oggetto Python in un file pickle."""
    print(f"Salvataggio di {len(data)} oggetti in '{filepath}'...")
    with open(filepath, "wb") as f:
        pickle.dump(data, f)
    print("Salvataggio completato.")

def load_from_pickle(filepath):
    """Carica qualsiasi oggetto Python da un file pickle."""
    if not os.path.exists(filepath):
        print(f"File di cache '{filepath}' non trovato.")
        return []
        
    print(f"Caricamento oggetti dalla cache '{filepath}'...")
    with open(filepath, "rb") as f:
        data = pickle.load(f)
    print(f"Caricati {len(data)} oggetti.")
    return data

#### Main workflow

In [44]:
# ==============================================================================
# --- SEZIONE 0: IMPORTAZIONI E CONFIGURAZIONE GLOBALE ---
# ==============================================================================
import requests
from bs4 import BeautifulSoup
import time
from urllib.parse import urljoin, urlparse, parse_qs, urlencode
from collections import deque
import re
import json
import hashlib
import os
import pickle
import random
from tqdm import tqdm
import io
from pypdf import PdfReader

# Import per Selenium
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By

# Import per LlamaIndex
from llama_index.core.schema import Document
from llama_index.core.node_parser import SentenceSplitter
from llama_index.core.ingestion import IngestionPipeline
from llama_index.llms.google_genai import GoogleGenAI

# Import per Qdrant
from llama_index.core import VectorStoreIndex, StorageContext
from llama_index.vector_stores.qdrant import QdrantVectorStore
from qdrant_client import QdrantClient

from MCER import MainContentExtractorReader
from MCE import MainContentExtractor

# File dove salvare lo stato delle pagine (ETag, Last-Modified, e hash)
STATE_FILE = "data/page_update_state.json"
ALL_URLS_FILE = "urls_lists/urls_html_master_list.txt"
ALL_URLS_PDF_FILE = "urls_lists/urls_pdf_master_list.txt"
DOWNLOADED_PDF_URLS_FILE = "urls_lists/urls_pdf_downloaded_list.txt"
NODES_OUTPUT_FILE = "nodes/nodes_metadata_sentence_x16.pkl"
NEW_NODES_OUTPUT_FILE = "nodes/nodes_metadata_update.pkl"

QDRANT_URL = "https://e542824d-6590-4005-91db-6dd34bf8f471.eu-west-2-0.aws.cloud.qdrant.io:6333"
QDRANT_COLLECTION_NAME = "diem_chatbot3_v2"

# Configurazione per l'estrazione metadati
LLM_MODEL_NAME = "gemini-2.5-flash-lite"
MIN_DELAY_SECONDS = 1
MAX_DELAY_SECONDS = 2

# Header da inviare per simulare un browser reale
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

# ==============================================================================
# --- SEZIONE 1: FUNZIONI DI SUPPORTO ---
# ==============================================================================

def save_to_pickle(data, filepath):
    """Salva qualsiasi oggetto Python in un file pickle."""
    print(f"Salvataggio di {len(data)} oggetti in '{filepath}'...")
    with open(filepath, "wb") as f:
        pickle.dump(data, f)
    print("Salvataggio completato.")

def load_from_pickle(filepath):
    """Carica qualsiasi oggetto Python da un file pickle."""
    if not os.path.exists(filepath):
        print(f"File di cache '{filepath}' non trovato.")
        return []
        
    print(f"Caricamento oggetti dalla cache '{filepath}'...")
    with open(filepath, "rb") as f:
        data = pickle.load(f)
    print(f"Caricati {len(data)} oggetti.")
    return data

def load_state(filepath):
    """Carica in modo sicuro lo stato precedente da un file JSON."""
    if not os.path.exists(filepath) or os.path.getsize(filepath) == 0:
        return {}
    try:
        with open(filepath, "r", encoding="utf-8") as f:
            return json.load(f)
    except (json.JSONDecodeError, IOError) as e:
        print(f"Attenzione: impossibile leggere il file di stato '{filepath}'. Parto da uno stato vuoto. Errore: {e}")
        return {}

def save_state(filepath, state):
    """Salva lo stato corrente in un file JSON."""
    try:
        with open(filepath, "w", encoding="utf-8") as f:
            json.dump(state, f, indent=4)
        print(f"\nStato aggiornato salvato con successo in '{filepath}'.")
    except IOError as e:
        print(f"Errore critico: impossibile salvare il file di stato '{filepath}'. Errore: {e}")

def get_content_hash(content):
    """Calcola l'hash SHA256 del contenuto testuale di una pagina."""
    return hashlib.sha256(content.encode('utf-8')).hexdigest()

def get_clean_content_hash(html_content):
    """
    Estrae il contenuto principale (come Markdown) usando MainContentExtractor
    e calcola il suo hash.
    """
    try:
        markdown_content = MainContentExtractor.extract(
            html=html_content,
            output_format="markdown",
            include_links=True
        )
        
        if not markdown_content:
            # Se l'estrattore non trova nulla, per sicurezza
            # eseguiamo l'hash di una stringa vuota.
            return get_content_hash("")

        return get_content_hash(markdown_content)
    
    except Exception as e:
        print(f"   Avviso: Fallita estrazione 'clean' del contenuto: {e}. Eseguo hash su testo grezzo.")
        # Se l'estrattore fallisce, esegue il fallback sull'hash del contenuto grezzo
        return get_content_hash(html_content)

def clean_and_validate_url(url):
    """
    Pulisce un URL rimuovendo parametri specifici e il fragment.
    Restituisce l'URL pulito e un flag booleano che è True se la struttura
    è quella del DIEM (300638) o se non è specificata.
    """
    default_params_to_remove = {'bando', 'progetto', 'lettera', 'avvisi', 'coorte', 'schemaid', 'schemaId', 'adCodFraz', 'adCodRadice', 'annoOfferta', 'annoOrdinamento', 'teamId'}
    DIEM_STRUCTURE_ID = '300638'
    
    # Scomponi l'URL e la sua query in un dizionario
    parsed_url = urlparse(url)
    query_dict = parse_qs(parsed_url.query)

    is_diem_structure = True # Assumiamo che sia valido di default
    
    params_to_remove_this_time = default_params_to_remove.copy()
    # Controlla il parametro 'struttura'
    if 'struttura' in query_dict:
        # Se mi trovo nella sezione strutture della rubrica allora rimuovo anche "struttura"
        if "https://rubrica.unisa.it/strutture" in url:
            params_to_remove_this_time.add('struttura')
        # Se il parametro esiste ma il suo valore non è quello corretto
        elif query_dict['struttura'][0] != DIEM_STRUCTURE_ID:
            is_diem_structure = False
            
    # Controlla il parametro 'cdsStruttura'
    elif 'cdsStruttura' in query_dict:
        # Se il parametro esiste ma il suo valore non è quello corretto
        if query_dict['cdsStruttura'][0] != DIEM_STRUCTURE_ID:
            is_diem_structure = False

    # Controlla l'url base per casi speciali
    elif 'https://www.diem.unisa.it/home/bandi' in url and 'modulo' in query_dict and query_dict['modulo'][0] != '226':
        is_diem_structure = False

    # Aggiungi il parametro 'anno' se non esiste
    if 'https://www.diem.unisa.it/home/bandi' in url and 'modulo' in query_dict and 'anno' not in query_dict:
        query_dict['anno'] = ['2025']  

    # Logica di pulizia dei parametri
    if 'bando' in query_dict and 'idConcorso' in query_dict:
        params_to_remove_this_time.remove('bando')
    
    # Rimuovi le chiavi indesiderate
    for param in params_to_remove_this_time:
        query_dict.pop(param, None)
        
    # Ricostruisci la stringa di query e l'URL
    new_query_string = urlencode(query_dict, doseq=True)
    clean_parsed_url = parsed_url._replace(query=new_query_string, fragment="")
    cleaned_url = clean_parsed_url.geturl()
    
    # Restituisce sia l'URL pulito che il flag
    return cleaned_url, is_diem_structure

def get_insegnamento_signature(url):
    """
    Se l'URL è di tipo 'insegnamenti', calcola la sua "firma" unica
    rimuovendo il penultimo segmento del percorso. Altrimenti, restituisce None.
    """
    if "insegnamenti" in url and "corsi" not in url:
        try:
            path_segments = urlparse(url).path.strip('/').split('/')
            if len(path_segments) < 2:
                return None
            signature = tuple(path_segments[:-2] + path_segments[-1:])
            return signature
        except Exception:
            return None
    else:
        return None
    
def make_markdown_links_absolute(markdown_text, base_url):
    def replacer(match):
        link_text = match.group(1)
        link_url = match.group(2)
        absolute_url = urljoin(base_url, link_url)
        return f"[{link_text}]({absolute_url})"
    markdown_link_pattern = r'\[([^\]]+)\]\(([^)]+)\)'
    return re.sub(markdown_link_pattern, replacer, markdown_text)

# ==============================================================================
# --- SEZIONE 2: CONTROLLO DEGLI AGGIORNAMENTI ---
# ==============================================================================

def check_for_updates_robust(urls_to_check, last_state):
    """
    Controlla una lista di URL usando una strategia ibrida basata solo su richieste GET.
    """
    updated_urls = []
    current_state = {}
    
    print(f"Controllo di {len(urls_to_check)} URL per aggiornamenti...")
    
    for url in urls_to_check:
        print(f"\n-> Controllando: {url}")
        previous_data = last_state.get(url, {})
        request_headers = HEADERS.copy()

        # Aggiungi gli header di caching se li abbiamo salvati
        if previous_data.get("etag"):
            request_headers["If-None-Match"] = previous_data["etag"]
        if previous_data.get("last_modified"):
            request_headers["If-Modified-Since"] = previous_data["last_modified"]

        try:
            with requests.get(url, headers=request_headers, timeout=10, allow_redirects=True, stream=True) as response:
                time.sleep(0.25)

                # 1. CONTROLLO EFFICIENTE TRAMITE HEADER
                if response.status_code == 304: # 304 Not Modified
                    print("   Stato: Non modificato (304 via GET).")
                    current_state[url] = previous_data
                    continue
                
                # Se il server risponde 200 OK e fornisce header di caching, li usiamo
                # senza scaricare l'intero contenuto.
                if response.status_code == 200 and (response.headers.get("ETag") or response.headers.get("Last-Modified")):
                    print("   Stato: Aggiornato (rilevato via header GET). Salvo nuovi ETag/Last-Modified.")
                    updated_urls.append(url)
                    current_state[url] = {
                        "etag": response.headers.get("ETag"),
                        "last_modified": response.headers.get("Last-Modified"),
                        "content_hash": None # Resettiamo l'hash
                    }
                    continue

                # 2. FALLBACK SU HASH DEL CONTENUTO
                # Solo se il server risponde 200 OK ma non fornisce header di caching,
                # procediamo a scaricare l'intero contenuto.
                if response.status_code == 200:
                    print("   Info: Il server non supporta caching efficiente. Eseguo fallback su hash del contenuto.")
                    
                    # Scarica il contenuto del body
                    content = response.text
                    new_hash = get_clean_content_hash(content)
                    old_hash = previous_data.get("content_hash")
                    
                    if new_hash != old_hash:
                        print(f"   Stato: Aggiornato (rilevato via hash). Hash: {new_hash[:10]}... (precedente: {str(old_hash)[:10]}...)")
                        updated_urls.append(url)
                        current_state[url] = {
                            "etag": None,
                            "last_modified": None,
                            "content_hash": new_hash
                        }
                    else:
                        print("   Stato: Non modificato (hash identico).")
                        current_state[url] = previous_data
                else:
                    # Gestisce altri status code (es. 403, 404, 500)
                    response.raise_for_status()

        except requests.RequestException as e:
            print(f"   ERRORE: Impossibile controllare l'URL. Errore: {e}")
            if url in last_state:
                current_state[url] = last_state[url]
            
    return updated_urls, current_state

# ==============================================================================
# --- SEZIONE 3: CRAWLER ---
# ==============================================================================

def run_crawler(start_urls, pre_visited_urls):
    """
    Esegue il crawler partendo da una lista di URL fornita.
    """
    if not start_urls:
        print("\n--- FASE 2: Nessuna pagina aggiornata da cui partire. Crawling non avviato. ---")
        return

    print(f"\n--- FASE 2: Inizio crawling da {len(start_urls)} pagine aggiornate ---")

    # Imposta e avvia il browser automatizzato
    options = webdriver.ChromeOptions()
    options.add_argument('--headless') # Esegue Chrome in background, senza aprire una finestra
    options.add_argument('--no-sandbox')
    options.add_argument('--disable-dev-shm-usage')
    driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)

    # --- IMPOSTAZIONI ---
    ALLOWED_DOMAINS = ["www.diem.unisa.it", "rubrica.unisa.it", "docenti.unisa.it", "easycourse.unisa.it", "web.unisa.it", "corsi.unisa.it", "unisa.coursecatalogue.cineca.it"]
    DOMAINS_REQUIRING_JS = {"unisa.coursecatalogue.cineca.it"}
    EXCLUDED_LANGUAGES = {'en', 'es', 'de', 'fr', 'zh'}

    # --- STRUTTURE DATI ---
    # La coda mantiene la logica del percorso per la stampa a schermo
    urls_to_visit = deque([(url, [url]) for url in start_urls])
    visited_urls = pre_visited_urls # Inizializza con gli URL già visitati
    seen_insegnamenti_signatures = set() # Per evitare duplicati in "insegnamenti"

    for url in visited_urls:
        if "unisa.coursecatalogue.cineca.it" in url:
            signature = get_insegnamento_signature(url)
            if signature and signature not in seen_insegnamenti_signatures:
                seen_insegnamenti_signatures.add(signature)

    for url in start_urls:
        if "unisa.coursecatalogue.cineca.it" in url:
            signature = get_insegnamento_signature(url)
            if signature and signature not in seen_insegnamenti_signatures:
                seen_insegnamenti_signatures.add(signature)

    newly_found_urls = set()

    while urls_to_visit:
        current_url, current_path = urls_to_visit.popleft()

        if current_url in visited_urls:
            continue

        path_str = " -> ".join(current_path)
        print(f"-> Visitando: {path_str}")
        
        visited_urls.add(current_url)
        page_content = None
        try:
            time.sleep(0.5)
            current_domain = urlparse(current_url).netloc

            if current_domain in DOMAINS_REQUIRING_JS:
                try:
                    # Se il dominio richiede JS, usiamo Selenium
                    driver.get(current_url)
                    wait = WebDriverWait(driver, 10) # Aspetta massimo 10 secondi
                    wait.until(
                        EC.visibility_of_element_located((By.CSS_SELECTOR, "main.app-main-container"))
                    )
                    page_content = driver.page_source
                except TimeoutException:
                    print(f"Timeout durante l'attesa del contenuto dinamico per {current_url}")
                    page_content = None # Se non carica, non abbiamo contenuto da analizzare
                except Exception as e:
                    print(f"Un altro errore di Selenium è occorso per {current_url}: {e}")
                    page_content = None
            else:
                # Altrimenti, usiamo 'requests'
                response = requests.get(current_url, timeout=10)
                if response.status_code == 200 and 'text/html' in response.headers.get('Content-Type', ''):
                    page_content = response.content
                
            if page_content:
                newly_found_urls.add(current_url)

                soup = BeautifulSoup(page_content, 'html.parser')

                # Gestione dei link relativi senza slash iniziale
                parsed_current_url = urlparse(current_url)
                base_for_join = current_url
                if "EasyCourse" in current_url:
                    if not current_url.endswith('/') and '.' not in parsed_current_url.path.split('/')[-1]:
                        base_for_join += '/'

                for link in soup.find_all('a', href=True):

                    href = link['href']
                    absolute_url = urljoin(base_for_join, href)
                    parsed_url = urlparse(absolute_url)  
                    path_segments = parsed_url.path.split('/')
                    clean_url = parsed_url._replace(fragment="").geturl()
                    param_cleaned_url, is_diem_structure = clean_and_validate_url(clean_url)
                    new_domain = parsed_url.netloc
                    path = urlparse(clean_url).path
                    module_count = path.count("/module/")
                    row_count = path.count("/row/")

                    if new_domain not in ALLOWED_DOMAINS or EXCLUDED_LANGUAGES.intersection(path_segments) or "sitemap" in clean_url or \
                    ("unisa-rescue-page" in clean_url and ((module_count > 1 and row_count > 1) or "/uploads/rescue/" in clean_url)) or not is_diem_structure or \
                        clean_url.endswith(('.pdf', '.doc', '.docx', '.jpg', '.png', '.htm')) or clean_url.startswith("http://"): 
                        continue

                    should_add = False
                    if new_domain == "www.diem.unisa.it" and current_domain == "www.diem.unisa.it":
                        should_add = True
                    elif new_domain == "rubrica.unisa.it" and current_domain == "www.diem.unisa.it":
                        should_add = True
                    elif new_domain == "docenti.unisa.it" and (current_domain == "rubrica.unisa.it" or (current_domain == "docenti.unisa.it" and (("curriculum" in clean_url and not clean_url.endswith("/")) or ("didattica" in clean_url and "didattica" not in current_url)))) and clean_url != "https://docenti.unisa.it" and "simona.mancini" not in clean_url:
                        should_add = True
                    elif new_domain == "easycourse.unisa.it" and ("Dipartimento_di_Ingegneria_dellInformazione_ed_Elettrica_e_Matematica_Applicata" in clean_url or "Facolta_di_Ingegneria_-_Esami" in clean_url):
                        if ("index" in current_url and ("ttCdlHtml" not in clean_url and "index" not in clean_url)) or "ttCdlHtml" in current_url: 
                            should_add = False
                        else:
                            should_add = True
                    elif new_domain == "web.unisa.it" and (current_domain == "www.diem.unisa.it" or current_domain == "web.unisa.it") and "servizi-on-line" in clean_url:
                        should_add = True
                    elif new_domain == "corsi.unisa.it" and (current_domain == "www.diem.unisa.it" or current_domain == "corsi.unisa.it") and clean_url != "https://corsi.unisa.it" and clean_url != "http://corsi.unisa.it" and "unisa-rescue-page" not in clean_url and "news" not in clean_url and "occupazione-spazi" not in clean_url and "information-Engineering-for-digital-medicine" not in clean_url and not re.search(r"^https://corsi\.unisa\.it/\d{5,}", clean_url):
                        should_add = True
                    elif new_domain == "unisa.coursecatalogue.cineca.it" and (current_domain == "corsi.unisa.it" or current_domain == "unisa.coursecatalogue.cineca.it") and clean_url != "https://unisa.coursecatalogue.cineca.it/" and "gruppo" not in clean_url and "cerca-" not in clean_url and "support.apple.com" not in clean_url and "WWW.ESSE3WEB.UNISA.IT" not in clean_url:
                        signature = get_insegnamento_signature(param_cleaned_url)
                        if not signature or signature in seen_insegnamenti_signatures:
                            continue # Salta se la firma non è valida o è già stata vista
                        
                        seen_insegnamenti_signatures.add(signature)
                        should_add = True
                    
                    if should_add:
                        if param_cleaned_url not in visited_urls:
                            new_path = current_path + [param_cleaned_url]
                            urls_to_visit.append((param_cleaned_url, new_path))

        except requests.RequestException as e:
            print(f"Errore durante la richiesta a {current_url}: {e}")

    driver.quit()

    print("\nCrawling completato.")
    newly_found_urls = [url for url in newly_found_urls if "rubrica.unisa.it" not in url]
    return newly_found_urls

# ==============================================================================
# --- SEZIONE 4: LOGICA DI ELABORAZIONE DEL CONTENUTO ---
# ==============================================================================

def process_urls_to_documents(urls_to_process):
    """
    Prende una lista di URL, estrae il contenuto principale, lo elabora
    e salva il risultato in un file pickle.
    """
    if not urls_to_process:
        print("\nFASE 3: Nessun nuovo documento da elaborare.")
        return

    print(f"\nFASE 3: Elaborazione del contenuto di {len(urls_to_process)} pagine...")

    # 1. Estrazione del blocco HTML principale
    loader = MainContentExtractorReader()
    html_documents = loader.load_data(urls=urls_to_process)

    # 2. Aggiunta dei metadati
    for doc, url in zip(html_documents, urls_to_process):
        doc.metadata["source_url"] = url
    print(f"Metadato 'source_url' aggiunto a {len(html_documents)} documenti.")

    # 3. Elaborazione del testo e creazione dei documenti finali
    processed_documents = []
    for doc in html_documents:
        base_url = doc.metadata.get("source_url", "")
        clean_text_with_links = make_markdown_links_absolute(doc.text, base_url)
        processed_documents.append(
            Document(text=clean_text_with_links, metadata=doc.metadata, id_=base_url)
        )

    # 4. Salvataggio del risultato
    print(f"Elaborati {len(processed_documents)} documenti.")
    return processed_documents

def process_pdfs(url_list_file, url_list_downloaded_file):
    """
    Legge gli URL dei PDF, li scarica in memoria, estrae il testo 
    e restituisce una lista di Document di LlamaIndex.
    """
    
    with open(url_list_file, "r") as f:
        urls_to_process = [line.strip() for line in f if line.strip()]
    
    print(f"Trovati {len(urls_to_process)} PDF da processare in memoria.")

    with open(url_list_downloaded_file, "r") as f:
        already_downloaded_urls = [line.strip() for line in f if line.strip()]

    pdfs_to_process = [url for url in urls_to_process if url not in already_downloaded_urls]
    
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    
    pdf_documents = []

    for url in pdfs_to_process:
        try:
            print(f"-> Processando in memoria: {url}")
            response = requests.get(url, timeout=30, headers=headers)
            response.raise_for_status() # Controlla errori HTTP

            # Assicurati che sia un PDF prima di continuare
            if 'application/pdf' not in response.headers.get('content-type', ''):
                print(f"  [SKIPPATO] L'URL non è un PDF, ma: {response.headers.get('content-type')}")
                continue

            pdf_bytes = io.BytesIO(response.content)
            
            reader = PdfReader(pdf_bytes)
            text = ""
            for page in reader.pages:
                text += page.extract_text() or "" # Aggiungi "" se la pagina è vuota
            
            if not text.strip():
                print("  [SKIPPATO] Il PDF è vuoto o contiene solo immagini (no testo).")
                continue

            doc = Document(
                text=text,
                metadata={
                    "source_url": url,
                }
            )
            pdf_documents.append(doc)

            # Aggiungi l'URL alla lista dei già scaricati
            with open(url_list_downloaded_file, "a") as f:
                f.write(url + "\n")

        except requests.RequestException as e:
            print(f"  [ERRORE DOWNLOAD]: {e}")
        except Exception as e:
            print(f"  [ERRORE LETTURA PDF]: {e}")

    print(f"Processati {len(pdf_documents)} documenti PDF in memoria.")
    return pdf_documents

# ==============================================================================
# --- SEZIONE 5: ARRICCHIMENTO METADATI E CREAZIONE NODI ---
# ==============================================================================

def enrich_documents_with_metadata(documents):
    """
    Arricchisce una lista di documenti con metadati generati da un LLM.
    """
    if not documents:
        print("\nFASE 4: Nessun documento da arricchire con metadati.")
        return []

    print(f"\nFASE 4: Inizio arricchimento metadati per {len(documents)} documenti...")
    gemini_model = GoogleGenAI(model=LLM_MODEL_NAME, api_key="AIzaSyCznWdvY5RRcbnNUxHm6SbjsA0QUAYUgqY" ,temperature=0.2)

    for document in tqdm(documents, desc="Arricchendo documenti"):
        if not isinstance(document.text, str) or not document.text.strip():
            continue
        
        # Estratto dal tuo codice di estrazione
        prompt = (
            "Analizza il seguente documento, inclusa la sua URL di origine, per estrarre i metadati richiesti. "
            "Fornisci l'output esclusivamente in formato JSON, seguendo la struttura e le regole specificate.\n\n"
            "--- DOCUMENTO ---\n"
            f'"""{document.text}"""\n'
            "--- FINE DOCUMENTO ---\n\n"
            
            "REGOLE GENERALI:\n"
            "- Se il documento è troppo breve o non contiene informazioni sufficienti per generare un campo specifico (title, summary, etc.), lascia quel campo vuoto (es. `\"title\": \"\"` o `\"questions\": []`).\n"
            "- **Keywords**: Estrai un numero di parole chiave proporzionale alla lunghezza del testo, fino a un massimo di 10. Per documenti molto brevi, poche parole chiave (o nessuna) sono accettabili.\n"
            "- **Domande**: Genera un numero di domande proporzionale alla lunghezza del testo, fino a un massimo di 3. Per documenti molto brevi, una sola domanda o nessuna sono accettabili.\n\n"

            "REGOLE PER 'years':\n"
            "- Identifica l'anno o gli anni accademici (es. '2024/2025') o solari (es. '2023') *PRINCIPALI* del documento. Controlla sia il testo che l'URL di origine.\n"
            "- Se il documento tratta un singolo anno, inserisci solo quello. Esempio: [\"2023\"].\n"
            "- Se nell'URL è presente il parametro 'anno', considera il suo valore corrispondente come UNICO anno principale, NON considerare il parametro quando 'anno=0'.\n"
            "- Se tratta più anni, IDENTIFICA QUELLO PRINCIPALE ed inseriscilo, altrimenti inseriscili tutti. Esempio: [\"2022\", \"2023\", \"2024\"].\n"
            "- Se non riesci ad identificare l'anno principale dal testo, ma è presente nell'URL, usa quello. Esempio: [\"2023\"] se l'URL contiene 'anno=2023' (sempre escludendo il caso in cui sia 'anno=0').\n"
            "- Se non ha un anno di riferimento, lascia la lista vuota. Esempio: [].\n\n"

            "Formato JSON richiesto:\n"
            "{\n"
            '  "title": "Un titolo conciso e descrittivo del documento",\n'
            '  "summary": "Un riassunto di 2-3 frasi del contenuto principale",\n'
            '  "questions": [],\n'  # Da 0 a 3 domande in base alla lunghezza del testo
            '  "keywords": [],\n'   # Da 0 a 10 parole chiave in base alla lunghezza del testo
            '  "years": []\n'
            "}\n\n"
            "Output JSON:"
        )
        
        try:
            response = gemini_model.complete(prompt)
            cleaned_response = response.text.strip().replace("```json", "").replace("```", "").strip()
            metadata = json.loads(cleaned_response)
            document.metadata.update(metadata) # Aggiorna direttamente i metadati del documento
        except Exception as e:
            print(f"\nErrore durante l'arricchimento del documento {document.metadata.get('source_url', 'N/A')}: {e}")
        
        time.sleep(random.uniform(MIN_DELAY_SECONDS, MAX_DELAY_SECONDS))
        
    print("Arricchimento metadati completato.")
    return documents

def create_nodes_from_documents(documents, output_filepath):
    """
    Prende una lista di documenti arricchiti e li trasforma in nodi.
    Prima di salvare, rimuove i nodi obsoleti dal file .pkl esistente
    per evitare duplicati.
    """
    if not documents:
        print("\nFASE 5: Nessun documento da trasformare in nodi.")
        return [] # Restituisce una lista vuota se non ci sono nuovi nodi

    print(f"\nFASE 5: Creazione di nodi da {len(documents)} nuovi documenti...")
    
    sentence_splitter = SentenceSplitter(chunk_size=512*16, chunk_overlap=512*2)
    pipeline = IngestionPipeline(transformations=[sentence_splitter])
    
    # 1. Crea i nuovi nodi
    new_nodes = pipeline.run(documents=documents, show_progress=True)
    print(f"Creati {len(new_nodes)} nuovi nodi.")

    # 2. Ottieni gli ID dei documenti che stiamo aggiornando
    doc_ids_to_update = set(doc.id_ for doc in documents if doc.id_)
    
    if not doc_ids_to_update:
        print("ATTENZIONE: I documenti in input non hanno un 'id_'.")
        print("La rimozione dei duplicati potrebbe fallire. Controllo 'source_url' nei metadati...")
        # Fallback nel caso in cui l'id_ non sia stato impostato, ma 'source_url' sì
        doc_ids_to_update = set(doc.metadata.get("source_url") for doc in documents if doc.metadata.get("source_url"))
        if not doc_ids_to_update:
            print("ERRORE: Impossibile determinare gli ID dei documenti da aggiornare. L'unione dei nodi conterrà duplicati.")
            
    # 3. Carica i nodi esistenti
    existing_nodes = []
    if os.path.exists(output_filepath):
        try:
            print(f"File '{output_filepath}' esistente. Caricamento nodi...")
            existing_nodes = load_from_pickle(output_filepath)
            
            if not isinstance(existing_nodes, list):
                print(f"Attenzione: il file '{output_filepath}' non conteneva una lista. Sarà sovrascritto.")
                existing_nodes = []
            else:
                print(f"Caricati {len(existing_nodes)} nodi esistenti.")
                
                if doc_ids_to_update:
                    print(f"Filtraggio dei nodi obsoleti (documenti da aggiornare: {len(doc_ids_to_update)})...")
                    
                    filtered_existing_nodes = []
                    nodes_removed_count = 0
                    
                    for node in existing_nodes:
                        if node.ref_doc_id not in doc_ids_to_update:
                            filtered_existing_nodes.append(node)
                        else:
                            nodes_removed_count += 1
                            
                    print(f"Rimossi {nodes_removed_count} nodi obsoleti.")
                    existing_nodes = filtered_existing_nodes # Sovrascrivi la lista

        except Exception as e:
            print(f"Errore nel caricamento di '{output_filepath}': {e}. Il file sarà sovrascritto.")
            existing_nodes = []
    
    # 4. Combina i nodi esistenti (filtrati) con i nuovi nodi
    all_nodes = existing_nodes + new_nodes
    
    # 5. Salva la lista completa
    save_to_pickle(all_nodes, output_filepath)
    print(f"Salvataggio completato. Totale nodi in '{output_filepath}': {len(all_nodes)}")

    # Restituisce solo i nodi appena creati
    return new_nodes

# ==============================================================================
# --- SEZIONE 6: INDICIZZAZIONE SU QDRANT ---
# ==============================================================================

def index_nodes_to_qdrant(nodes_to_index, urls_to_delete):
    """
    Indicizza una lista di nodi in una collezione Qdrant.
    Crea la collezione se non esiste, altrimenti aggiunge i nodi.
    """
    if not nodes_to_index:
        print("\nFASE 6: Nessun nuovo nodo da indicizzare.")
        return

    print(f"\nFASE 6: Inizio indicizzazione di {len(nodes_to_index)} nodi su Qdrant...")

    # 1. Connettiti a Qdrant
    client = QdrantClient(url=QDRANT_URL, api_key=os.getenv("QDRANT__API_KEY"))
    vector_store = QdrantVectorStore(client=client, collection_name=QDRANT_COLLECTION_NAME)

    # 2. Controlla se la collezione esiste già
    try:
        # Questo comando fallisce se la collezione non esiste
        client.get_collection(collection_name=QDRANT_COLLECTION_NAME)
        collection_exists = True
        print(f"La collezione '{QDRANT_COLLECTION_NAME}' esiste già. Aggiungo i nuovi nodi.")
    except Exception:
        collection_exists = False
        print(f"La collezione '{QDRANT_COLLECTION_NAME}' non esiste. Verrà creata.")

    # 3. Indicizza i nodi
    if collection_exists:
        # Carica l'indice esistente
        index = VectorStoreIndex.from_vector_store(vector_store)

        # Rimuovi i vecchi nodi corrispondenti agli URL da eliminare
        doc_ids_to_delete = list(urls_to_delete)
        for doc_id in tqdm(doc_ids_to_delete, desc="Eliminazione vecchi nodi"):
            # delete_ref_doc cerca e rimuove tutti i nodi con questo ref_doc_id
            index.delete_ref_doc(doc_id, delete_from_docstore=True)

        # Inserisci i nuovi nodi
        index.insert_nodes(nodes_to_index, show_progress=True)
    else:
        # Crea l'indice da zero con i nuovi nodi
        storage_context = StorageContext.from_defaults(vector_store=vector_store)
        index = VectorStoreIndex(nodes_to_index, storage_context=storage_context, show_progress=True)
    
    print("Indicizzazione su Qdrant completata con successo.")

# ==============================================================================
# --- SEZIONE 7: ESECUZIONE DEL FLUSSO INTEGRATO ---
# ==============================================================================

def main_workflow():
    """ Esegue il flusso completo di controllo aggiornamenti e crawling. """
    print(f"--- AVVIO PROCESSO DI AGGIORNAMENTO ({time.ctime()}) ---")
    
    # 1. Carica la lista master di URL da monitorare
    try:
        with open(ALL_URLS_FILE, "r", encoding="utf-8") as f:
            urls_to_monitor = [line.strip() for line in f if line.strip()]
    except FileNotFoundError:
        print(f"File {ALL_URLS_FILE} non trovato. Inizio con la sitemap di default.")
        urls_to_monitor = ["https://www.diem.unisa.it/home?sitemap"]
    
    # 2. Controlla gli aggiornamenti
    last_known_state = load_state(STATE_FILE)
    updated_pages, new_state = check_for_updates_robust(urls_to_monitor, last_known_state)
    
    # 3. Usa le pagine aggiornate come punto di partenza per il crawler
    # Se non ci sono pagine aggiornate, il crawler non parte.
    # Se è la prima esecuzione (last_known_state è vuoto), tutte le pagine sono "nuove".
    start_points_for_crawler = updated_pages
    if not last_known_state:
        print("\nPrima esecuzione: tutte le pagine verranno considerate 'da visitare'.")
        start_points_for_crawler = urls_to_monitor
        # Alla prima esecuzione, non ci sono pagine da ignorare
        unchanged_urls = set()
    else:
        print(f"Rilevati {len(updated_pages)} URL HTML aggiornati.")
        unchanged_urls = set(urls_to_monitor) - set(updated_pages)

    crawled_urls = run_crawler(start_points_for_crawler, unchanged_urls)

    # 4. Aggiorna la lista master degli URL HTML
    if crawled_urls:
        print(f"\nAggiornamento della lista URL master con {len(crawled_urls)} nuove pagine.")
        # Unisci i vecchi URL con i nuovi trovati, rimuovendo duplicati
        os.makedirs(os.path.dirname(ALL_URLS_FILE), exist_ok=True)
        final_url_set = set(urls_to_monitor).union(crawled_urls)
        with open(ALL_URLS_FILE, "w", encoding="utf-8") as f:
            for url in sorted(list(final_url_set)):
                f.write(f"{url}\n")
        print(f"Lista URL master aggiornata con {len(crawled_urls)} nuovi URL.")
    
    # 5. Estrai il contenuto
    newly_processed_htmls = process_urls_to_documents(crawled_urls)
    newly_processed_pdfs = process_pdfs(ALL_URLS_PDF_FILE, DOWNLOADED_PDF_URLS_FILE)

    newly_processed_documents = newly_processed_htmls + newly_processed_pdfs
    if not newly_processed_documents:
        print("Nessun nuovo documento (HTML o PDF) da elaborare.")
        save_state(STATE_FILE, new_state) # Salva comunque lo stato
        print(f"--- PROCESSO DI AGGIORNAMENTO TERMINATO ({time.ctime()}) ---")
        return

    # 6. Arricchisci con metadati
    enriched_documents = enrich_documents_with_metadata(newly_processed_documents)
    
    # 7. Crea e salva i nodi
    new_nodes = create_nodes_from_documents(enriched_documents, NODES_OUTPUT_FILE)
    save_to_pickle(new_nodes, NEW_NODES_OUTPUT_FILE)
    save_to_pickle(start_points_for_crawler, "start_points_for_crawler.pkl")

    # 8. Indicizza i nodi su Qdrant
    # index_nodes_to_qdrant(new_nodes, start_points_for_crawler)
    
    # 9. Salva lo stato aggiornato delle pagine per il prossimo controllo
    save_state(STATE_FILE, new_state)
    print(f"--- PROCESSO DI AGGIORNAMENTO TERMINATO ({time.ctime()}) ---")

In [45]:
# with open("urls_lists/urls_html_recover.txt", "r", encoding="utf-8") as f:
#     urls = [line.strip() for line in f if line.strip()]

# newly_processed_htmls = process_urls_to_documents(urls)
ref_doc_ids_new = set(doc.id_ for doc in newly_processed_htmls if doc.id_)
print(f"Numero di documenti unici nuovi creati: {len(ref_doc_ids_new)}")
enriched_documents = enrich_documents_with_metadata(newly_processed_htmls)
new_nodes = create_nodes_from_documents(enriched_documents, NODES_OUTPUT_FILE)
save_to_pickle(new_nodes, NEW_NODES_OUTPUT_FILE)

Numero di documenti unici nuovi creati: 2635

FASE 4: Inizio arricchimento metadati per 2635 documenti...


Arricchendo documenti:   0%|          | 1/2635 [00:03<2:42:41,  3.71s/it]


Errore durante l'arricchimento del documento https://corsi.unisa.it/digital-health-and-bioinformatic-engineering/attivita-e-servizi: 400 INVALID_ARGUMENT. {'error': {'code': 400, 'message': 'API key expired. Please renew the API key.', 'status': 'INVALID_ARGUMENT', 'details': [{'@type': 'type.googleapis.com/google.rpc.ErrorInfo', 'reason': 'API_KEY_INVALID', 'domain': 'googleapis.com', 'metadata': {'service': 'generativelanguage.googleapis.com'}}, {'@type': 'type.googleapis.com/google.rpc.LocalizedMessage', 'locale': 'en-US', 'message': 'API key expired. Please renew the API key.'}]}}


Arricchendo documenti:   1%|          | 19/2635 [01:08<2:50:51,  3.92s/it]


Errore durante l'arricchimento del documento https://corsi.unisa.it/digital-health-and-bioinformatic-engineering/didattica/piano-di-studi?anno=2020: 400 INVALID_ARGUMENT. {'error': {'code': 400, 'message': 'API key expired. Please renew the API key.', 'status': 'INVALID_ARGUMENT', 'details': [{'@type': 'type.googleapis.com/google.rpc.ErrorInfo', 'reason': 'API_KEY_INVALID', 'domain': 'googleapis.com', 'metadata': {'service': 'generativelanguage.googleapis.com'}}, {'@type': 'type.googleapis.com/google.rpc.LocalizedMessage', 'locale': 'en-US', 'message': 'API key expired. Please renew the API key.'}]}}


Arricchendo documenti:   3%|▎         | 89/2635 [05:08<2:40:46,  3.79s/it]Retrying llama_index.llms.google_genai.base.GoogleGenAI._chat in 0.33031003483188415 seconds as it raised ServerError: 503 UNAVAILABLE. {'error': {'code': 503, 'message': 'The model is overloaded. Please try again later.', 'status': 'UNAVAILABLE'}}.
Retrying llama_index.llms.google_genai.base.GoogleGenAI._chat in 0.979428284353778 seconds as it raised ServerError: 503 UNAVAILABLE. {'error': {'code': 503, 'message': 'The model is overloaded. Please try again later.', 'status': 'UNAVAILABLE'}}.
Arricchendo documenti:   9%|▉         | 244/2635 [14:12<2:27:35,  3.70s/it]Retrying llama_index.llms.google_genai.base.GoogleGenAI._chat in 0.2914841168908645 seconds as it raised ServerError: 503 UNAVAILABLE. {'error': {'code': 503, 'message': 'The model is overloaded. Please try again later.', 'status': 'UNAVAILABLE'}}.
Arricchendo documenti:  37%|███▋      | 974/2635 [58:51<1:45:07,  3.80s/it]Retrying llama_index.llms.goo


Errore durante l'arricchimento del documento https://unisa.coursecatalogue.cineca.it/insegnamenti/2023/516620-1/2023/10000/500665: 503 UNAVAILABLE. {'error': {'code': 503, 'message': 'The model is overloaded. Please try again later.', 'status': 'UNAVAILABLE'}}


Arricchendo documenti:  75%|███████▌  | 1982/2635 [1:58:25<34:08,  3.14s/it]  


Errore durante l'arricchimento del documento https://www.diem.unisa.it/home/bandi?anno=2019&struttura=300638&modulo=316: Invalid \escape: line 5 column 87 (char 516)


Arricchendo documenti:  76%|███████▌  | 1997/2635 [1:59:20<39:18,  3.70s/it]


Errore durante l'arricchimento del documento https://www.diem.unisa.it/home/bandi?anno=2020&struttura=300638&modulo=67: Invalid \escape: line 6 column 85 (char 729)


Arricchendo documenti: 100%|██████████| 2635/2635 [2:35:00<00:00,  3.53s/it]


Arricchimento metadati completato.

FASE 5: Creazione di nodi da 2635 nuovi documenti...


Parsing nodes: 100%|██████████| 2635/2635 [00:05<00:00, 487.27it/s]


Creati 2789 nuovi nodi.
File 'nodes/nodes_metadata_sentence_x16.pkl' esistente. Caricamento nodi...
Caricamento oggetti dalla cache 'nodes/nodes_metadata_sentence_x16.pkl'...
Caricati 2911 oggetti.
Caricati 2911 nodi esistenti.
Filtraggio dei nodi obsoleti (documenti da aggiornare: 2635)...
Rimossi 2650 nodi obsoleti.
Salvataggio di 3050 oggetti in 'nodes/nodes_metadata_sentence_x16.pkl'...
Salvataggio completato.
Salvataggio completato. Totale nodi in 'nodes/nodes_metadata_sentence_x16.pkl': 3050
Salvataggio di 2789 oggetti in 'nodes/nodes_metadata_update.pkl'...
Salvataggio completato.


In [46]:
start_point = load_from_pickle("start_points_for_crawler.pkl")
print(f"Numero di URL di partenza per il crawler: {len(start_point)}")

Caricamento oggetti dalla cache 'start_points_for_crawler.pkl'...
Caricati 2505 oggetti.
Numero di URL di partenza per il crawler: 2505


In [13]:
# Esegui il flusso completo
main_workflow()

--- AVVIO PROCESSO DI AGGIORNAMENTO (Wed Nov  5 02:34:05 2025) ---
Controllo di 2517 URL per aggiornamenti...

-> Controllando: https://corsi.unisa.it/digital-health-and-bioinformatic-engineering/attivita-e-servizi
   Info: Il server non supporta caching efficiente. Eseguo fallback su hash del contenuto.
   Stato: Aggiornato (rilevato via hash). Hash: cb60216291... (precedente: 84fc0c9af2...)

-> Controllando: https://corsi.unisa.it/digital-health-and-bioinformatic-engineering/attivita-e-servizi/accompagnamento-al-lavoro
   Info: Il server non supporta caching efficiente. Eseguo fallback su hash del contenuto.
   Stato: Aggiornato (rilevato via hash). Hash: 2d722263b1... (precedente: b202d43f29...)

-> Controllando: https://corsi.unisa.it/digital-health-and-bioinformatic-engineering/attivita-e-servizi/orientamento-in-ingresso
   Info: Il server non supporta caching efficiente. Eseguo fallback su hash del contenuto.
   Stato: Aggiornato (rilevato via hash). Hash: d7bf6287b3... (preceden

Arricchendo documenti:  16%|█▌        | 415/2635 [20:53<1:45:29,  2.85s/it]


Errore durante l'arricchimento del documento https://www.diem.unisa.it/home/bandi?anno=2019&struttura=300638&categoria=177&modulo=67: Invalid \escape: line 3 column 278 (char 330)


Arricchendo documenti: 100%|██████████| 2635/2635 [2:12:13<00:00,  3.01s/it]  


Arricchimento metadati completato.

FASE 5: Creazione di nodi da 2635 nuovi documenti...


Parsing nodes: 100%|██████████| 2635/2635 [00:06<00:00, 435.01it/s]


Creati 2789 nuovi nodi.
File 'nodes/nodes_metadata_sentence_x16.pkl' esistente. Caricamento nodi...
Caricamento oggetti dalla cache 'nodes/nodes_metadata_sentence_x16.pkl'...
Caricati 2911 oggetti.
Caricati 2911 nodi esistenti.
Filtraggio dei nodi obsoleti (documenti da aggiornare: 1)...
Rimossi 1 nodi obsoleti.
Salvataggio di 5699 oggetti in 'nodes/nodes_metadata_sentence_x16.pkl'...
Salvataggio completato.
Salvataggio completato. Totale nodi in 'nodes/nodes_metadata_sentence_x16.pkl': 5699
Salvataggio di 2789 oggetti in 'nodes/nodes_metadata_update.pkl'...
Salvataggio completato.
Salvataggio di 2505 oggetti in 'start_points_for_crawler.pkl'...
Salvataggio completato.

Stato aggiornato salvato con successo in 'data/page_update_state.json'.
--- PROCESSO DI AGGIORNAMENTO TERMINATO (Wed Nov  5 07:12:54 2025) ---


In [22]:
old_nodes = load_from_pickle(NODES_OUTPUT_FILE)
print(f"Numero di nodi prima dell'aggiornamento: {len(old_nodes)}")
new_nodes = load_from_pickle(NEW_NODES_OUTPUT_FILE)
print(f"Numero di nuovi nodi creati: {len(new_nodes)}")

ref_doc_ids_old = set(node.ref_doc_id for node in old_nodes)
print(f"Numero di documenti unici prima dell'aggiornamento: {len(ref_doc_ids_old)}")
ref_doc_ids_new = set(node.ref_doc_id for node in new_nodes)
print(f"Numero di documenti unici nuovi creati: {len(ref_doc_ids_new)}")
source_urls_new = set(node.metadata.get("source_url") for node in new_nodes if node.metadata.get("source_url"))
print(f"Numero di URL di origine unici nei nuovi nodi: {len(source_urls_new)}")

new_nodes[262].metadata

Caricamento oggetti dalla cache 'nodes/nodes_metadata_sentence_x16.pkl'...
Caricati 2911 oggetti.
Numero di nodi prima dell'aggiornamento: 2911
Caricamento oggetti dalla cache 'nodes/nodes_metadata_update.pkl'...
Caricati 2789 oggetti.
Numero di nuovi nodi creati: 2789
Numero di documenti unici prima dell'aggiornamento: 2560
Numero di documenti unici nuovi creati: 1
Numero di URL di origine unici nei nuovi nodi: 1


{'source_url': 'https://unisa.coursecatalogue.cineca.it/insegnamenti/2025/516046/2022/9999/500648',
 'title': '[0623200016] - FINAL EXAMINATION - Corso di Laurea Magistrale in Information Engineering for Digital Medicine',
 'summary': 'Questo documento descrive il "FINAL EXAMINATION" (Esame Finale) per il corso di studi "Information Engineering for Digital Medicine". L\'attività formativa è di tipo "LINGUA/PROVA FINALE", vale 14 CFU, è di tipo "PROVA FINALE" e si svolge con modalità "Orale". L\'anno di offerta del corso è il 2025/2026.',
 'questions': ['Qual è il tipo di attività formativa e il tipo di esame per il "FINAL EXAMINATION"?',
  'Quanti crediti formativi universitari (CFU) sono associati a questa prova finale?',
  "Qual è l'anno di offerta del corso di studi Information Engineering for Digital Medicine?"],
 'keywords': ['FINAL EXAMINATION',
  'Information Engineering for Digital Medicine',
  'Corso di Laurea Magistrale',
  'Prova Finale',
  'CFU',
  'Orale',
  '2025/2026',
 

#### Crawler

In [None]:
import requests
from bs4 import BeautifulSoup
import time
from urllib.parse import urljoin, urlparse
from collections import deque
import re

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

from selenium.common.exceptions import TimeoutException
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By

# Imposta e avvia il browser automatizzato
options = webdriver.ChromeOptions()
options.add_argument('--headless') # Esegue Chrome in background, senza aprire una finestra
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)

# --- IMPOSTAZIONI ---
START_URL = ["https://www.diem.unisa.it/home?sitemap"]
ALLOWED_DOMAINS = ["www.diem.unisa.it", "rubrica.unisa.it", "docenti.unisa.it", "easycourse.unisa.it", "web.unisa.it", "corsi.unisa.it", "unisa.coursecatalogue.cineca.it"]
DOMAINS_REQUIRING_JS = {"unisa.coursecatalogue.cineca.it"}
EXCLUDED_LANGUAGES = {'en', 'es', 'de', 'fr', 'zh'}

# --- STRUTTURE DATI ---
# La coda mantiene la logica del percorso per la stampa a schermo
urls_to_visit = deque([(url, [url]) for url in START_URL])
seen_insegnamenti_signatures = set() # Per evitare duplicati in "insegnamenti"

visited_urls = set()
filename = "urls_lists/urls_html_master_list.txt"
try:
    with open(filename, 'r', encoding='utf-8') as f:
        visited_urls = {line.strip() for line in f if line.strip()}
    print(f"Caricati {len(visited_urls)} URL già visitati dal file '{filename}'.")
except FileNotFoundError:
    print(f"File '{filename}' non trovato. Si parte con un set di URL visitati vuoto.")

html_urls = set()

print(f"Inizio crawling da: {START_URL}")

while urls_to_visit:
    current_url, current_path = urls_to_visit.popleft()

    if current_url in visited_urls:
        continue

    path_str = " -> ".join(current_path)
    print(f"-> Visitando: {path_str}")
    
    visited_urls.add(current_url)
    page_content = None
    try:
        time.sleep(1)
        current_domain = urlparse(current_url).netloc

        if current_domain in DOMAINS_REQUIRING_JS:
            try:
                # Se il dominio richiede JS, usiamo Selenium
                driver.get(current_url)
                wait = WebDriverWait(driver, 10) # Aumentato a 10 secondi per sicurezza
                wait.until(
                    EC.visibility_of_element_located((By.CSS_SELECTOR, "main.app-main-container"))
                )
                #time.sleep(3) # Attesa fissa per sicurezza
                page_content = driver.page_source
            except TimeoutException:
                print(f"Timeout durante l'attesa del contenuto dinamico per {current_url}")
                page_content = None # Se non carica, non abbiamo contenuto da analizzare
            except Exception as e:
                print(f"Un altro errore di Selenium è occorso per {current_url}: {e}")
                page_content = None
        else:
            # Altrimenti, usiamo il veloce 'requests'
            response = requests.get(current_url, timeout=10)
            if response.status_code == 200 and 'text/html' in response.headers.get('Content-Type', ''):
                page_content = response.content
            
        if page_content:
            html_urls.add(current_url)

            soup = BeautifulSoup(page_content, 'html.parser')

            # Gestione dei link relativi senza slash iniziale
            parsed_current_url = urlparse(current_url)
            base_for_join = current_url
            if "EasyCourse" in current_url:
                if not current_url.endswith('/') and '.' not in parsed_current_url.path.split('/')[-1]:
                    base_for_join += '/'

            for link in soup.find_all('a', href=True):

                href = link['href']
                absolute_url = urljoin(base_for_join, href)
                parsed_url = urlparse(absolute_url)  
                path_segments = parsed_url.path.split('/')
                clean_url = parsed_url._replace(fragment="").geturl()
                param_cleaned_url, is_diem_structure = clean_and_validate_url(clean_url)
                new_domain = parsed_url.netloc
                path = urlparse(clean_url).path
                module_count = path.count("/module/")
                row_count = path.count("/row/")

                if new_domain not in ALLOWED_DOMAINS or EXCLUDED_LANGUAGES.intersection(path_segments) or "sitemap" in clean_url or \
                   ("unisa-rescue-page" in clean_url and ((module_count > 1 and row_count > 1) or "/uploads/rescue/" in clean_url)) or not is_diem_structure or \
                    clean_url.endswith(('.pdf', '.doc', '.docx', '.jpg', '.png', '.htm')) or clean_url.startswith("http://"):
                    continue

                should_add = False
                if new_domain == "www.diem.unisa.it" and current_domain == "www.diem.unisa.it":
                    should_add = True
                elif new_domain == "rubrica.unisa.it" and current_domain == "www.diem.unisa.it":
                    should_add = True
                elif new_domain == "docenti.unisa.it" and (current_domain == "rubrica.unisa.it" or (current_domain == "docenti.unisa.it" and (("curriculum" in clean_url and not clean_url.endswith("/")) or ("didattica" in clean_url and "didattica" not in current_url)))) and clean_url != "https://docenti.unisa.it" and "simona.mancini" not in clean_url:
                    should_add = True
                elif new_domain == "easycourse.unisa.it" and ("Dipartimento_di_Ingegneria_dellInformazione_ed_Elettrica_e_Matematica_Applicata" in clean_url or "Facolta_di_Ingegneria_-_Esami" in clean_url):
                    if ("index" in current_url and ("ttCdlHtml" not in clean_url and "index" not in clean_url)) or "ttCdlHtml" in current_url:
                        should_add = False
                    else:
                        should_add = True
                elif new_domain == "web.unisa.it" and (current_domain == "www.diem.unisa.it" or current_domain == "web.unisa.it") and "servizi-on-line" in clean_url:
                    should_add = True
                elif new_domain == "corsi.unisa.it" and (current_domain == "www.diem.unisa.it" or current_domain == "corsi.unisa.it") and clean_url != "https://corsi.unisa.it" and clean_url != "http://corsi.unisa.it" and "unisa-rescue-page" not in clean_url and "news" not in clean_url and "occupazione-spazi" not in clean_url and "information-Engineering-for-digital-medicine" not in clean_url and not re.search(r"^https://corsi\.unisa\.it/\d{5,}", clean_url):
                    should_add = True
                elif new_domain == "unisa.coursecatalogue.cineca.it" and (current_domain == "corsi.unisa.it" or current_domain == "unisa.coursecatalogue.cineca.it") and clean_url != "https://unisa.coursecatalogue.cineca.it/" and "gruppo" not in clean_url and "cerca-" not in clean_url and "support.apple.com" not in clean_url and "WWW.ESSE3WEB.UNISA.IT" not in clean_url:
                    signature = get_insegnamento_signature(param_cleaned_url)
                    if not signature or signature in seen_insegnamenti_signatures:
                        continue # Salta se la firma non è valida o è già stata vista

                    seen_insegnamenti_signatures.add(signature)
                    should_add = True
                
                if should_add:
                    if param_cleaned_url not in visited_urls:
                        new_path = current_path + [param_cleaned_url]
                        urls_to_visit.append((param_cleaned_url, new_path))

    except requests.RequestException as e:
        print(f"Errore durante la richiesta a {current_url}: {e}")

driver.quit()

print("\nCrawling completato.")
html_urls = [url for url in html_urls if "rubrica.unisa.it" not in url]
print(f"Pagine HTML trovate: {len(html_urls)}")

# Salva solo gli URL, uno per riga
with open("urls_html6.txt", "a", encoding="utf-8") as f:
    for url in sorted(list(html_urls)):
        f.write(f"{url}\n")

print("File 'urls_html6.txt' salvato con la lista degli URL.")

#### Pulizia lista link

In [32]:
from urllib.parse import urlparse

# --- 1. CONFIGURAZIONE ---
INPUT_FILE = "urls_html6_2.txt" 
OUTPUT_FILE = "urls_html6_3.txt"

# --- 2. FUNZIONI DI SUPPORTO ---

def get_insegnamento_signature(url):
    """
    Se l'URL è di tipo 'insegnamenti', calcola la sua "firma" unica
    rimuovendo il penultimo segmento del percorso. Altrimenti, restituisce None.
    """
    try:
        path_segments = urlparse(url).path.strip('/').split('/')
        if len(path_segments) < 2:
            return None
        signature = tuple(path_segments[:-2] + path_segments[-1:])
        return signature
    except Exception:
        return None

def filter_and_deduplicate_urls(input_filepath, output_filepath):
    """
    Legge gli URL, rimuove quelli contenenti 'rubrica.unisa.it', de-duplica
    i link 'insegnamenti' simili e salva il risultato.
    """
    try:
        with open(input_filepath, 'r', encoding='utf-8') as f:
            all_urls = [line.strip() for line in f if line.strip()]
        print(f"Letti {len(all_urls)} URL da '{input_filepath}'.")
    except FileNotFoundError:
        print(f"Errore: File di input '{input_filepath}' non trovato.")
        return

    filtered_urls = []
    seen_signatures = set()

    for url in all_urls:

        if "rubrica.unisa.it" in url:
            continue

        # Controlla se è un URL 'insegnamenti' per la de-duplicazione speciale
        if "unisa.coursecatalogue.cineca.it/insegnamenti" in url:
            signature = get_insegnamento_signature(url)
            
            if not signature or signature in seen_signatures:
                continue
            
            seen_signatures.add(signature)
            filtered_urls.append(url)
        else:
            # Se non è un URL da escludere o un 'insegnamenti' duplicato, lo teniamo
            filtered_urls.append(url)

    # Scrive i risultati nel file di output
    try:
        with open(output_filepath, 'w', encoding='utf-8') as f:
            for url in filtered_urls:
                f.write(f"{url}\n")
        
        print(f"Processo completato. Salvati {len(filtered_urls)} URL unici in '{output_filepath}'.")
    except Exception as e:
        print(f"Errore durante il salvataggio del file: {e}")

Letti 3501 URL da 'urls_html6_2.txt'.
Processo completato. Salvati 2551 URL unici in 'urls_html6_3.txt'.


In [None]:
filter_and_deduplicate_urls(INPUT_FILE, OUTPUT_FILE)

#### Page updates

In [None]:
import requests
import json
import hashlib
import os
import time

# --- 1. CONFIGURAZIONE ---

# File dove salvare lo stato delle pagine (ETag, Last-Modified, e hash)
STATE_FILE = "page_update_state.json"

# Header da inviare per simulare un browser reale
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

# --- 2. FUNZIONI DI SUPPORTO ---

def load_state(filepath):
    """Carica in modo sicuro lo stato precedente da un file JSON."""
    if not os.path.exists(filepath) or os.path.getsize(filepath) == 0:
        return {}
    try:
        with open(filepath, "r", encoding="utf-8") as f:
            return json.load(f)
    except (json.JSONDecodeError, IOError) as e:
        print(f"Attenzione: impossibile leggere il file di stato '{filepath}'. Parto da uno stato vuoto. Errore: {e}")
        return {}

def save_state(filepath, state):
    """Salva lo stato corrente in un file JSON."""
    try:
        with open(filepath, "w", encoding="utf-8") as f:
            json.dump(state, f, indent=4)
        print(f"\nStato aggiornato salvato con successo in '{filepath}'.")
    except IOError as e:
        print(f"Errore critico: impossibile salvare il file di stato '{filepath}'. Errore: {e}")

def get_content_hash(content: str) -> str:
    """Calcola l'hash SHA256 del contenuto testuale di una pagina."""
    return hashlib.sha256(content.encode('utf-8')).hexdigest()

# --- 3. LOGICA PRINCIPALE DI CONTROLLO ---

def check_for_updates_robust(urls_to_check, last_state):
    """
    Controlla una lista di URL usando una strategia ibrida basata solo su richieste GET.
    """
    updated_urls = []
    current_state = {}
    
    print(f"Controllo di {len(urls_to_check)} URL per aggiornamenti...")
    
    for url in urls_to_check:
        print(f"\n-> Controllando: {url}")
        previous_data = last_state.get(url, {})
        request_headers = HEADERS.copy()

        # Aggiungi gli header di caching se li abbiamo salvati
        if previous_data.get("etag"):
            request_headers["If-None-Match"] = previous_data["etag"]
        if previous_data.get("last_modified"):
            request_headers["If-Modified-Since"] = previous_data["last_modified"]

        try:
            # Il 'with' assicura che la connessione sia chiusa correttamente.
            with requests.get(url, headers=request_headers, timeout=10, allow_redirects=True, stream=True) as response:
                time.sleep(0.5)

                # 1. CONTROLLO EFFICIENTE TRAMITE HEADER
                if response.status_code == 304: # 304 Not Modified
                    print("   Stato: Non modificato (304 via GET).")
                    current_state[url] = previous_data
                    continue
                
                # Se il server risponde 200 OK e fornisce header di caching, li usiamo
                # senza scaricare l'intero contenuto.
                if response.status_code == 200 and (response.headers.get("ETag") or response.headers.get("Last-Modified")):
                    print("   Stato: Aggiornato (rilevato via header GET). Salvo nuovi ETag/Last-Modified.")
                    updated_urls.append(url)
                    current_state[url] = {
                        "etag": response.headers.get("ETag"),
                        "last_modified": response.headers.get("Last-Modified"),
                        "content_hash": None # Resettiamo l'hash
                    }
                    continue

                # 2. FALLBACK SU HASH DEL CONTENUTO
                # Solo se il server risponde 200 OK ma non fornisce header di caching,
                # procediamo a scaricare l'intero contenuto.
                if response.status_code == 200:
                    print("   Info: Il server non supporta caching efficiente. Eseguo fallback su hash del contenuto.")
                    
                    # Scarica il contenuto del body
                    content = response.text
                    new_hash = get_content_hash(content)
                    old_hash = previous_data.get("content_hash")
                    
                    if new_hash != old_hash:
                        print(f"   Stato: Aggiornato (rilevato via hash). Hash: {new_hash[:10]}... (precedente: {str(old_hash)[:10]}...)")
                        updated_urls.append(url)
                        current_state[url] = {
                            "etag": None,
                            "last_modified": None,
                            "content_hash": new_hash
                        }
                    else:
                        print("   Stato: Non modificato (hash identico).")
                        current_state[url] = previous_data
                else:
                    # Gestisce altri status code (es. 403, 404, 500)
                    response.raise_for_status()

        except requests.RequestException as e:
            print(f"   ERRORE: Impossibile controllare l'URL. Errore: {e}")
            if url in last_state:
                current_state[url] = last_state[url]
            
    return updated_urls, current_state

# --- 4. ESECUZIONE ---
url_filepath = "urls_html6_3.txt"

with open(url_filepath, "r") as f:
    html_urls = [line.strip() for line in f if line.strip()]

last_known_state = load_state(STATE_FILE)
updated_pages, new_state = check_for_updates_robust(html_urls, last_known_state)

if updated_pages:
    print("\n--- Pagine Aggiornate Rilevate ---")
    for page in updated_pages:
        print(f"- {page}")
else:
    print("\n--- Nessuna Pagina Aggiornata Rilevata ---")
    
save_state(STATE_FILE, new_state)

#### Download PDF

In [3]:
import requests
import io
from pypdf import PdfReader
from llama_index.core.schema import Document

def process_pdfs(url_list_file, url_list_downloaded_file):
    """
    Legge gli URL dei PDF, li scarica in memoria, estrae il testo 
    e restituisce una lista di Document di LlamaIndex.
    """
    
    with open(url_list_file, "r") as f:
        urls_to_process = [line.strip() for line in f if line.strip()]
    
    print(f"Trovati {len(urls_to_process)} PDF da processare in memoria.")

    with open(url_list_downloaded_file, "r") as f:
        already_downloaded_urls = [line.strip() for line in f if line.strip()]

    pdfs_to_process = [url for url in urls_to_process if url not in already_downloaded_urls]
    
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    
    pdf_documents = []

    for url in pdfs_to_process:
        try:
            print(f"-> Processando in memoria: {url}")
            response = requests.get(url, timeout=30, headers=headers)
            response.raise_for_status() # Controlla errori HTTP

            # Assicurati che sia un PDF prima di continuare
            if 'application/pdf' not in response.headers.get('content-type', ''):
                print(f"  [SKIPPATO] L'URL non è un PDF, ma: {response.headers.get('content-type')}")
                continue

            pdf_bytes = io.BytesIO(response.content)
            
            reader = PdfReader(pdf_bytes)
            text = ""
            for page in reader.pages:
                text += page.extract_text() or "" # Aggiungi "" se la pagina è vuota
            
            if not text.strip():
                print("  [SKIPPATO] Il PDF è vuoto o contiene solo immagini (no testo).")
                continue

            doc = Document(
                text=text,
                metadata={
                    "source_url": url,
                }
            )
            pdf_documents.append(doc)

            # Aggiungi l'URL alla lista dei già scaricati
            with open(url_list_downloaded_file, "a") as f:
                f.write(url + "\n")

        except requests.RequestException as e:
            print(f"  [ERRORE DOWNLOAD]: {e}")
        except Exception as e:
            print(f"  [ERRORE LETTURA PDF]: {e}")

    print(f"Processati {len(pdf_documents)} documenti PDF in memoria.")
    return pdf_documents

#### HTML Reader

In [None]:
from urllib.parse import urljoin
from llama_index.core.schema import Document
import re
from urllib.parse import urljoin

def make_markdown_links_absolute(markdown_text, base_url):
    """
    Trova tutti i link in formato Markdown [testo](url) in una stringa
    e converte gli URL relativi in URL assoluti.
    """
    
    def replacer(match):
        # Estrai il testo del link (gruppo 1) e l'URL (gruppo 2) dal match
        link_text = match.group(1)
        link_url = match.group(2)
        
        # Trasforma l'URL in assoluto. Se è già assoluto, non cambia nulla.
        absolute_url = urljoin(base_url, link_url)
        
        # Ricostruisci il link in formato Markdown
        return f"[{link_text}]({absolute_url})"

    # L'espressione regolare per trovare tutti i link Markdown
    # Cerca un pattern [qualsiasi_testo](qualsiasi_url)
    markdown_link_pattern = r'\[([^\]]+)\]\(([^)]+)\)'
    
    # Usa re.sub con la funzione replacer per sostituire tutti i link trovati
    return re.sub(markdown_link_pattern, replacer, markdown_text)

# --- ESECUZIONE CODICE ---

url_filepath = "urls_html_master_list.txt"

with open(url_filepath, "r") as f:
    html_urls = [line.strip() for line in f if line.strip()]

print("Fase 1: Isolamento del blocco HTML principale...")

from MCER import MainContentExtractorReader
loader = MainContentExtractorReader()

html_documents = loader.load_data(urls=html_urls)

try:

    # Controlla che il numero di documenti e di URL corrisponda
    if len(html_documents) != len(html_urls):
        print("!!! ATTENZIONE: Il numero di documenti processati non corrisponde al numero di URL.")
        print(f"Documenti: {len(html_documents)}, URL: {len(html_urls)}")
    else:
        # Itera contemporaneamente su documenti e URL e assegna i metadati
        for doc, url in zip(html_documents, html_urls):
            doc.metadata["source_url"] = url
        
        print(f"Metadato 'source_url' aggiunto con successo a {len(html_documents)} documenti.")

except FileNotFoundError:
    print(f"ERRORE: File '{url_filepath}' non trovato. Assicurati che il percorso sia corretto.")

# Processa ogni blocco di HTML per ottenere il testo finale
print("Fase 2: Elaborazione dell'HTML per incorporare i link...")
processed_documents = []
for doc in html_documents:

    base_url = doc.metadata.get("source_url", "")

    clean_text_with_links = make_markdown_links_absolute(doc.text, base_url)
    
    # Crea un nuovo oggetto Document con il testo finale e i metadati originali
    processed_documents.append(
        Document(text=clean_text_with_links, metadata=doc.metadata, id_=url)
    )

print("\n--- ESEMPIO DI OUTPUT ---")
if processed_documents:
    save_to_pickle(processed_documents, "processed_documents7.pkl")
    print(processed_documents[0].text[:500])  # Stampa i primi 500 caratteri del testo del primo documento
    print(processed_documents[0].metadata)

#### Parser, splitter and metadata extractor

In [None]:
import os
import json
import time
import random
from tqdm import tqdm
from llama_index.llms.google_genai import GoogleGenAI

# --- 1. CONFIGURAZIONE ---

LLM_MODEL_NAME = "gemini-2.5-flash-lite"
MIN_DELAY_SECONDS = 1
MAX_DELAY_SECONDS = 2

# Indice di partenza per la ripresa del processo
START_INDEX = 372

# File di input e output
DOCUMENTS_PICKLE_FILE = "processed_documents7.pkl" 
OUTPUT_METADATA_FILE = "data/extracted_metadata.json"

# --- 2. INIZIALIZZAZIONE E CARICAMENTO DATI ---

gemini_model = GoogleGenAI(model=LLM_MODEL_NAME)

try:
    original_documents = load_from_pickle(DOCUMENTS_PICKLE_FILE)
except Exception as e:
    print(f"ERRORE CRITICO: Impossibile caricare i documenti di contesto. {e}")
    raise

# --- 3. FUNZIONE DI ESTRAZIONE METADATI ---

def extract_metadata_single_doc(document_text, model):
    """
    Chiama l'LLM con un prompt specifico per estrarre tutti i metadati
    in un unico output formattato come JSON.
    """
    try:
        prompt = (
            "Analizza il seguente documento, inclusa la sua URL di origine, per estrarre i metadati richiesti. "
            "Fornisci l'output esclusivamente in formato JSON, seguendo la struttura e le regole specificate.\n\n"
            "--- DOCUMENTO ---\n"
            f'"""{document_text}"""\n'
            "--- FINE DOCUMENTO ---\n\n"
            
            "REGOLE GENERALI:\n"
            "- Se il documento è troppo breve o non contiene informazioni sufficienti per generare un campo specifico (title, summary, etc.), lascia quel campo vuoto (es. `\"title\": \"\"` o `\"questions\": []`).\n"
            "- **Keywords**: Estrai un numero di parole chiave proporzionale alla lunghezza del testo, fino a un massimo di 10. Per documenti molto brevi, poche parole chiave (o nessuna) sono accettabili.\n"
            "- **Domande**: Genera un numero di domande proporzionale alla lunghezza del testo, fino a un massimo di 3. Per documenti molto brevi, una sola domanda o nessuna sono accettabili.\n\n"

            "REGOLE PER 'years':\n"
            "- Identifica l'anno o gli anni accademici (es. '2024/2025') o solari (es. '2023') *PRINCIPALI* del documento. Controlla sia il testo che l'URL di origine.\n"
            "- Se il documento tratta un singolo anno, inserisci solo quello. Esempio: [\"2023\"].\n"
            "- Se nell'URL è presente il parametro 'anno', considera il suo valore corrispondente come UNICO anno principale, NON considerare il parametro quando 'anno=0'.\n"
            "- Se tratta più anni, IDENTIFICA QUELLO PRINCIPALE ed inseriscilo, altrimenti inseriscili tutti. Esempio: [\"2022\", \"2023\", \"2024\"].\n"
            "- Se non riesci ad identificare l'anno principale dal testo, ma è presente nell'URL, usa quello. Esempio: [\"2023\"] se l'URL contiene 'anno=2023' (sempre escludendo il caso in cui sia 'anno=0').\n"
            "- Se non ha un anno di riferimento, lascia la lista vuota. Esempio: [].\n\n"

            "Formato JSON richiesto:\n"
            "{\n"
            '  "title": "Un titolo conciso e descrittivo del documento",\n'
            '  "summary": "Un riassunto di 2-3 frasi del contenuto principale",\n'
            '  "questions": [],\n'  # Da 0 a 3 domande in base alla lunghezza del testo
            '  "keywords": [],\n'   # Da 0 a 10 parole chiave in base alla lunghezza del testo
            '  "years": []\n'
            "}\n\n"
            "Output JSON:"
        )
        response = model.complete(prompt)
        # Rimuovi eventuali ```json ... ``` che il modello potrebbe aggiungere
        cleaned_response = response.text.strip().replace("```json", "").replace("```", "").strip()
        return cleaned_response

    except Exception as e:
        print(f"  -> Si è verificato un errore durante la chiamata all'LLM: {e}")
        raise ConnectionError(f"La chiamata API è fallita con errore: {e}")

# --- 4. FLUSSO PRINCIPALE ---

def extract_metadata():

    gemini_model =  GoogleGenAI(model=LLM_MODEL_NAME, temperature=0.2)

    documents_to_process = original_documents[START_INDEX:]
    all_extracted_metadata = []
    
    print(f"Inizio estrazione metadati per {len(documents_to_process)} documenti (partendo dall'indice {START_INDEX})...")

    try:
        for i, document in enumerate(tqdm(documents_to_process, desc="Estraendo metadati"), start=START_INDEX):

            if not isinstance(document.text, str) or not document.text.strip():
                print(f"\nDocumento {i} saltato perché vuoto.")
                continue

            # Estrai i metadati come stringa JSON
            json_string_response = extract_metadata_single_doc(document.text, gemini_model)

            # Prova a parsare la stringa JSON per ottenere un dizionario
            try:
                metadata = json.loads(json_string_response)
                # Aggiungi informazioni utili per il tracciamento
                metadata["original_document_index"] = i
                metadata["source_url"] = document.metadata.get("source_url", "N/A")
                all_extracted_metadata.append(metadata)
            except json.JSONDecodeError:
                print(f"\nATTENZIONE: Risposta non JSON valida per il documento {i}. Risposta ricevuta:\n{json_string_response[:200]}...")
                # Salva comunque la risposta grezza per un'analisi successiva
                all_extracted_metadata.append({
                    "original_document_index": i,
                    "source_url": document.metadata.get("source_url", "N/A"),
                    "error": "Invalid JSON response",
                    "raw_response": json_string_response
                })

            # Pausa per rispettare i rate limit
            sleep_time = random.uniform(MIN_DELAY_SECONDS, MAX_DELAY_SECONDS)
            time.sleep(sleep_time)
            
    finally:
        # Questo blocco viene eseguito SEMPRE, sia in caso di successo che di errore.
        print("\n--- Blocco di salvataggio finale in esecuzione ---")
        if not all_extracted_metadata:
            print("Nessun nuovo metadato da salvare in questa sessione.")
        else:
            try:
                existing_data = []
                # Controlla se dobbiamo aggiungere a un file esistente
                if START_INDEX > 0 and os.path.exists(OUTPUT_METADATA_FILE):
                    print(f"Tentativo di aggiungere i nuovi risultati al file esistente '{OUTPUT_METADATA_FILE}'...")
                    with open(OUTPUT_METADATA_FILE, 'r', encoding='utf-8') as f:
                        try:
                            # Carica i metadati già salvati
                            existing_data = json.load(f)
                            print(f"Caricati {len(existing_data)} record esistenti.")
                        except json.JSONDecodeError:
                            print("ATTENZIONE: Il file di output esisteva ma era corrotto. Verrà sovrascritto.")

                # Unisci i dati vecchi e quelli nuovi
                final_data = existing_data + all_extracted_metadata

                # Scrivi il file completo
                with open(OUTPUT_METADATA_FILE, 'w', encoding='utf-8') as f:
                    json.dump(final_data, f, ensure_ascii=False, indent=4)
                
                print(f"Salvataggio completato! Totale di {len(final_data)} record di metadati in '{OUTPUT_METADATA_FILE}'.")
            
            except Exception as e:
                print(f"ERRORE durante il salvataggio del file JSON: {e}")

In [None]:
extract_metadata()

In [None]:
import json

# --- 1. CONFIGURAZIONE ---

DOCUMENTS_PICKLE_FILE = "processed_documents7.pkl"

METADATA_FILE = "data/extracted_metadata.json"

OUTPUT_PICKLE_FILE = "processed_documents7.pkl"

# --- 2. FUNZIONI DI CARICAMENTO E SALVATAGGIO ---

def load_metadata_from_json(filepath):
    """Carica una lista di metadati da un file JSON."""
    try:
        with open(filepath, 'r', encoding='utf-8') as f:
            metadata_list = json.load(f)
        print(f"Caricati {len(metadata_list)} record di metadati da '{filepath}'.")
        return metadata_list
    except FileNotFoundError:
        print(f"ERRORE: File dei metadati '{filepath}' non trovato.")
        raise
    except json.JSONDecodeError:
        print(f"ERRORE: Il file '{filepath}' non è un JSON valido.")
        raise

# --- 3. FLUSSO PRINCIPALE ---

def add_metadata():
    """
    Carica documenti e metadati, li unisce e salva il risultato.
    """
    # Carica i dati necessari
    documents = load_from_pickle(DOCUMENTS_PICKLE_FILE)
    metadata_list = load_metadata_from_json(METADATA_FILE)
    
    print("\nInizio processo di assegnazione dei metadati...")
    
    assigned_count = 0
    # Itera su ogni record di metadati estratto
    for metadata_record in metadata_list:
        # Controllo se il record contiene l'indice del documento originale
        if "original_document_index" not in metadata_record:
            print(f"ATTENZIONE: Record di metadati saltato perché non contiene 'original_document_index'.")
            continue
            
        doc_index = metadata_record.pop("original_document_index")
        
        # Controllo che l'indice sia valido per la lista dei documenti
        if 0 <= doc_index < len(documents):
            # Prendi il documento corrispondente
            target_document = documents[doc_index]
            
            # Aggiorna il dizionario dei metadati del documento
            target_document.metadata.update(metadata_record)
            assigned_count += 1
        else:
            print(f"ATTENZIONE: Indice documento '{doc_index}' non valido. Metadato saltato.")
            
    print(f"\nAssegnazione completata. Aggiornati i metadati per {assigned_count} documenti.")
    
    # Salva la lista di documenti ora arricchita in un nuovo file pickle
    save_to_pickle(documents, OUTPUT_PICKLE_FILE)

add_metadata()

In [None]:
from llama_index.core.node_parser import SemanticSplitterNodeParser
from llama_index.core.node_parser import SentenceSplitter
from llama_index.core.ingestion import IngestionPipeline
from llama_index.core.node_parser import MarkdownNodeParser
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.core.node_parser import HierarchicalNodeParser
from llama_index.core.node_parser import SentenceWindowNodeParser

markdown_splitter = MarkdownNodeParser()

embed_model = HuggingFaceEmbedding(model_name="BAAI/bge-m3")

semantic_splitter = SemanticSplitterNodeParser(
    embed_model=embed_model,
    buffer_size=1, 
    breakpoint_percentile_threshold=98,
)

hierarchical_parser = HierarchicalNodeParser.from_defaults(
    chunk_sizes=[4096*4, 1024*4, 512*2],
    chunk_overlap=64
)

sentence_splitter = SentenceSplitter(
    chunk_size=512*16,
    chunk_overlap=512*2
)

sentence_splitter2 = SentenceSplitter(
    chunk_size=512*4,
    chunk_overlap=256 
)

sentence_window_parser = SentenceWindowNodeParser.from_defaults(
    sentence_splitter=sentence_splitter2,
    # how many sentences on either side to capture
    window_size=3,
    # the metadata key that holds the window of surrounding sentences
    window_metadata_key="window",
    # the metadata key that holds the original sentence
    original_text_metadata_key="original_sentence",
)

transformations = [
    # markdown_splitter,
    sentence_splitter,
    # hierarchical_parser,
    # semantic_splitter,
    # sentence_window_parser
]

# Pipeline per i documenti HTML
pipeline = IngestionPipeline(transformations=transformations)
processed_documents = load_from_pickle("documents/processed_documents7.pkl")
nodes = pipeline.run(documents=processed_documents, show_progress=True)
save_to_pickle(nodes, "nodes/nodes_metadata_sentence_x16.pkl")

#### Node analysis

In [24]:
import seaborn as sns
import matplotlib.pyplot as plt

def analyze_and_plot_nodes(nodes):
    """
    Analizza una lista di nodi, stampa statistiche sulla loro lunghezza
    e genera un istogramma della distribuzione delle lunghezze.
    """
    if not nodes:
        print("La lista dei nodi è vuota. Impossibile analizzare.")
        return

    # Calcola le lunghezze dei nodi
    node_lengths = [len(node.get_content()) for node in nodes]
    
    # --- Calcola Statistiche ---
    avg_length = int(sum(node_lengths) / len(nodes))
    max_length = max(node_lengths)
    total_nodes = len(nodes)

    print(f"--- Analisi dei Nodi ---")
    print(f"Numero totale di nodi: {total_nodes}")
    print(f"Lunghezza massima di un nodo (in caratteri): {max_length}")
    print(f"Lunghezza media di un nodo (in caratteri): {avg_length}")

    # --- Creazione del Grafico ---
    print("\nGenerazione del grafico di distribuzione...")
    plt.figure(figsize=(10, 6)) # Imposta la dimensione del grafico
    
    # Crea l'istogramma e ottieni l'asse (ax) per la personalizzazione
    ax = sns.histplot(data=node_lengths, kde=True, bins=50)
    
    # Aggiungi una linea verticale per la media
    ax.axvline(x=avg_length, color='r', linestyle='--', label=f'Mean: {avg_length}')
    
    stats_text = (
        f"Total nodes: {total_nodes}\n"
        f"Max lenght (in characters): {max_length}"
    )
    
    # Posiziona il testo nell'angolo in alto a destra
    ax.text(0.95, 0.95, stats_text,
            transform=ax.transAxes,
            verticalalignment='top',
            horizontalalignment='right',
            fontsize=12,
            # Aggiunge un riquadro bianco semitrasparente per la leggibilità
            bbox=dict(boxstyle='round,pad=0.5', fc='white', alpha=0.7))
    
    # Aggiungi etichette e titolo usando l'oggetto 'ax'
    ax.set_title('Nodes Lenght Distribution')
    ax.set_xlabel('Node Length (in characters)')
    ax.set_ylabel('Count')
    ax.legend()
    ax.grid(True)
    
    # Mostra il grafico
    plt.show()

    # --- Ispezione dei Nodi più Lunghi ---
    longest_nodes = sorted(nodes, key=lambda x: len(x.get_content()), reverse=True)
    print("\n--- Contenuto dei 5 nodi più lunghi ---")
    for i in range(min(5, len(longest_nodes))):
        node = longest_nodes[i]
        print(f"Nodo {i+1}, Lunghezza: {len(node.get_content())}, Metadati: {node.metadata}")
        print(f"Inizio del testo: {node.get_content()[:500]}...\n") # Stampa i primi 500 caratteri

In [None]:
from llama_index.core.node_parser import get_leaf_nodes

nodes = load_from_pickle("nodes/nodes_metadata_hierarchical_x8x2x1.pkl")
# leaf_nodes = get_leaf_nodes(nodes)

analyze_and_plot_nodes(nodes)

### QDrant Vectore Store

In [77]:
from qdrant_client import QdrantClient, AsyncQdrantClient

qdrant_client = QdrantClient(
    url="https://e542824d-6590-4005-91db-6dd34bf8f471.eu-west-2-0.aws.cloud.qdrant.io:6333",
    api_key=os.getenv("QDRANT__API_KEY"),
)

qdrant_aclient = AsyncQdrantClient(
    url="https://e542824d-6590-4005-91db-6dd34bf8f471.eu-west-2-0.aws.cloud.qdrant.io:6333",
    api_key=os.getenv("QDRANT__API_KEY"),
)

In [6]:
from llama_index.vector_stores.qdrant import QdrantVectorStore

vector_store = QdrantVectorStore(
    "diem_chatbot3",
    client=qdrant_client,
    aclient=qdrant_aclient,
)

# diem_chatbot1: nodes_metadata_sentence_x8.pkl
# diem_chatbot2: nodes_metadata_hierarchical_x32x8x2.pkl
# diem_chatbot3: nodes_metadata_sentence_x16.pkl *Aggiornato con tutti i documenti nuovi*
# diem_chatbot3_v2: nodes_metadata_sentence_x16.pkl con id_=source_url per eliminazione nodi vecchi *Aggiornato con tutti i documenti nuovi*
# diem_chatbot4: nodes_metadata_hierarchical_x16x4x1.pkl
# diem_chatbot5: nodes_metadata_hierarchical_x8x2x1.pkl

# REFUSI (non più usati)
# diem_chatbot_public: nodes_metadata_sentence_x16.pkl, con text-embeddings-004 (tra pochi mesi non più supportato)
# diem_chatbot_final: nodes_metadata_sentence_x16.pkl, con gemini-embeddings-001

#### Create vectore store

In [None]:
from llama_index.core.node_parser import get_leaf_nodes

nodes = load_from_pickle("nodes/nodes_metadata_hierarchical_x8x2x1.pkl")
leaf_nodes = get_leaf_nodes(nodes)

In [None]:
from llama_index.core import StorageContext, VectorStoreIndex

# Creazione dello storage context e dell'indice
storage_context = StorageContext.from_defaults(vector_store=vector_store)

# Per sentence splitter
vector_index = VectorStoreIndex(nodes, storage_context=storage_context, show_progress=True)
# Per hierarchical splitter
vector_index = VectorStoreIndex(leaf_nodes, storage_context=storage_context, show_progress=True)

#### Load vectore store

##### Sentence splitter case

In [7]:
from llama_index.core import VectorStoreIndex, StorageContext

storage_context = StorageContext.from_defaults(vector_store=vector_store)
vector_index = VectorStoreIndex.from_vector_store(vector_store=vector_store)

##### Hierarchical splitter case

In [None]:
from llama_index.core import VectorStoreIndex, StorageContext
from llama_index.core.storage.docstore import SimpleDocumentStore

docstore = SimpleDocumentStore()

# Insert nodes into docstore
docstore.add_documents(nodes)

# Define storage context
storage_context = StorageContext.from_defaults(docstore=docstore)

vector_index = VectorStoreIndex.from_vector_store(vector_store=vector_store)

### Query/Chat engine

In [10]:
from llama_index.core.memory import ChatMemoryBuffer

memory = ChatMemoryBuffer.from_defaults(token_limit=50000)

In [11]:
system_prompt_template = (
    """Sei AskDIEM, un assistente virtuale dell'Università di Salerno, specializzato nell'aiutare gli studenti del Dipartimento di Ingegneria dell'Informazione ed Elettrica e Matematica Applicata (DIEM).

    Il tuo obiettivo è fornire risposte accurate basandoti esclusivamente sulle informazioni ufficiali che ti vengono fornite.
    Tieni presente che oggi è: {current_date}.

    REGOLE GENERALI:
    - *IMPORTANTE*: Se la domanda ti viene posta in inglese rispondi in inglese, a prescindere dalla lingua dei messaggi precedenti o da quella del contesto fornito.
    - A meno che nella domanda non venga specificato un anno o una data in particolare, rispondi sempre tenendo presente la data di oggi.
    - Se nomini un evento, adegua i tempi verbali in base alla data attuale.
    - Se non disponi delle informazioni necessarie per rispondere a una domanda, dichiara chiaramente: "Non dispongo delle informazioni necessarie per rispondere a questa domanda."
    - Non inventare mai informazioni, contatti, date o procedure. La tua priorità è l'accuratezza."""
)

In [12]:
import datetime
from babel.dates import format_datetime

current_date_str = format_datetime(datetime.datetime.now(), format="EEEE, d MMMM yyyy", locale="it_IT")

system_prompt = system_prompt_template.format(current_date=current_date_str)

In [13]:
context_prompt = (
    """Date le seguenti informazioni estratte dai documenti ufficiali e la domanda dell'utente, fornisci una risposta chiara ed esaustiva.

    Contesto:
    {context_str}

    Istruzioni per la risposta:
    - Se il contesto è presente ED È RILEVANTE per la domanda, basa la tua risposta su di esso.
    - Se il contesto è vuoto o NON È RILEVANTE per la domanda (ad esempio, se la domanda è un saluto, "come ti chiami?", o una domanda conversazionale generica), rispondi alla domanda usando la tua conoscenza generale e seguendo la tua personalità definita nel system prompt.
    
    - ISTRUZIONE PER I LINK: Se nel contesto è presente una risorsa rilevante (come un PDF di un bando, una graduatoria o una pagina web) che supporta la tua risposta, devi citarla usando il formato Markdown: [Titolo Significativo](URL).
    - Il "Titolo Significativo" dovrebbe essere il titolo del documento (es. 'Bando Collaborazioni studentesche 2024') che trovi nel contesto.
    - L' "URL" è l'indirizzo web (source_url) associato a quel titolo.
    
    - Esempio di formato CORRETTO:
    Per maggiori dettagli, puoi consultare il [Bando per Collaborazioni Studentesche](https://www.unisa.it/bando-collaborazioni-...).
    
    - Esempio di formato ERRATO (da non usare):
    Per maggiori dettagli, puoi consultare https://www.unisa.it/bando-collaborazioni-...
    
    - Non includere link o titoli che non siano esplicitamente presenti nel contesto.

    Domanda: {query_str}
    Risposta:
    """
)

In [11]:
from llama_index.core.retrievers import VectorIndexAutoRetriever
from llama_index.core.vector_stores.types import MetadataInfo, VectorStoreInfo

metadata_field_info = VectorStoreInfo(
    content_info="Blocchi di testo estratti da documenti e pagine web dell'Università degli Studi di Salerno, riguardanti avvisi, offerta formativa, regolamenti e altre informazioni accademiche.",
    metadata_info=[
        MetadataInfo(
            name="title",
            type="str",
            description="Il titolo completo del documento.",
        ),
        MetadataInfo(
            name="summary",
            type="str",
            description="Un riassunto conciso del contenuto principale e dello scopo del documento.",
        ),
        MetadataInfo(
            name="questions",
            type="list[str]",
            description="Una lista di domande specifiche a cui il testo del documento è in grado di rispondere.",
        ),
        MetadataInfo(
            name="keywords",
            type="list[str]",
            description="Una lista di parole chiave e concetti principali estratti dal documento. Utile per ricerche tematiche (es. 'seminario', 'ingegneria informatica').",
        ),
        MetadataInfo(
            name="years",
            type="list[str]",
            description="Una lista di anni accademici o solari di riferimento per il documento (es. '2026', '2027'). Cruciale per filtrare le informazioni per un anno specifico.",
        ),
        MetadataInfo(
            name="source_url",
            type="str",
            description="L'URL originale della pagina web da cui è stato estratto il documento.",
        ),
    ],
)

retriever = VectorIndexAutoRetriever(
    vector_index,
    vector_store_info=metadata_field_info,
    similarity_top_k=15,
    verbose=True
)

In [8]:
from llama_index.core.retrievers import AutoMergingRetriever

base_retriever = vector_index.as_retriever(similarity_top_k=15)

retriever = AutoMergingRetriever(
    base_retriever,
    storage_context,
    verbose=True
)

In [None]:
from llama_index.core.query_engine import RetrieverQueryEngine
from llama_index.core.prompts import PromptTemplate
from llama_index.core import get_response_synthesizer
from llama_index.core.postprocessor import SentenceTransformerRerank
from llama_index.core.postprocessor import SimilarityPostprocessor

qa_prompt_template_str = system_prompt + context_prompt
qa_prompt_template = PromptTemplate(qa_prompt_template_str)

response_synthesizer = get_response_synthesizer(response_mode="compact", text_qa_template=qa_prompt_template)

st_rerank = SentenceTransformerRerank(
    model="cross-encoder/ms-marco-MiniLM-L6-v2", top_n=15
)

similarity_pp = SimilarityPostprocessor(similarity_cutoff=0.15)

# Query engine used only for evaluation
query_engine = RetrieverQueryEngine.from_args(
    retriever=base_retriever,
    response_synthesizer=response_synthesizer,
    node_postprocessors=[st_rerank, similarity_pp],
)

In [15]:
from llama_index.core.chat_engine import CondensePlusContextChatEngine
from llama_index.postprocessor.cohere_rerank import CohereRerank
import os

cohere_rerank = CohereRerank(api_key=os.environ['COHERE_API_KEY'], top_n=15)

chat_engine = CondensePlusContextChatEngine.from_defaults(
    retriever=base_retriever,
    memory=memory,
    system_prompt=system_prompt,
    context_prompt=context_prompt,
    node_postprocessors=[cohere_rerank],
    verbose=True,
)

In [None]:
response = chat_engine.stream_chat("Chi è mario vento?")

for token in response.response_gen:
    print(token, end="")

In [None]:
print("Documenti usati per generare la risposta:")
if response.source_nodes:
    for i, node in enumerate(response.source_nodes):
        print(f"--- Documento Sorgente {i+1} (Score: {node.score:.2f}) ---")
        
        if 'source_url' in node.metadata:
            print(f"URL: {node.metadata['source_url']}")
        else:
            print(node.metadata)
            print("Nessun URL disponibile per questo nodo.")
            
        print(f"Contenuto: {node.text[:500]}...\n")
else:
    print("Nessun documento sorgente è stato recuperato per questa query.")

### <b>Evaluation</b>

#### Evaluation LLM

In [None]:
from llama_index.llms.google_genai import GoogleGenAI

eval_llm = GoogleGenAI(
    model="gemini-2.5-flash-lite",
    temperature=0.2,
)

#### Synthetic dataset generation

In [None]:
import os
import json
import time
import random
from tqdm import tqdm
from llama_index.llms.google_genai import GoogleGenAI

# --- 1. CONFIGURAZIONE ---

# Modello LLM da utilizzare
LLM_MODEL_NAME = "gemini-2.5-flash-lite"

# Numero di domande da generare per ogni documento
QUESTIONS_PER_DOCUMENT = 2

# Pausa tra le chiamate API (in secondi)
MIN_DELAY_SECONDS = 1
MAX_DELAY_SECONDS = 2

# Indice di partenza per il ciclo sui documenti
START_INDEX = 32

# File di output per le domande generate
OUTPUT_FILE = "data/generated_questions3.json"

# --- 2. FUNZIONE DI GENERAZIONE ---

def generate_questions_for_document(document_text, model, num_questions):
    """
    Chiama l'LLM per generare un numero specifico di domande basate sul testo di un documento.
    Restituisce una lista di domande.
    """
    try:        
        prompt = (
            f"Basandoti sul seguente documento, genera esattamente {num_questions} domande pertinenti e auto-contenute.\n\n"
            "DOCUMENTO:\n"
            f'"""{document_text}"""\n\n'
            
            "ISTRUZIONI FONDAMENTALI:\n"
            "- **Crea domande auto-contenute**: Ogni domanda deve includere il soggetto principale del testo (es. il nome di un corso, di un regolamento, o di un professore) per essere comprensibile *ANCHE SENZA LEGGERE IL DOCUMENTO*.\n"
            "- **Esempi di domande da NON fare**:\n"
            "  1)\"In quale semestre si svolgerà il corso?\" (Non si sa a quale corso si fa riferimento)\n"
            "  2)\"In quale intervallo di date erano previste le immatricolazioni per il dottorato di ricerca in \"INGEGNERIA INDUSTRIALE\" secondo il Decreto Rettorale menzionato?\" (Non si sa cosa è stato menzionato)\n"
            "  3)\"Quale categoria di notizie è attualmente visualizzata nel documento, come indicato dal titolo \"Premi e riconoscimenti\"?\" (Non si sa a quale documento fa riferimento)\n"
            "  4)\"In quale anno accademico si riferisce il Piano di Studi del corso di Digital Health and Bioinformatic Engineering presentato in questa pagina?\" (Non si sa a quale pagina fa riferimento)\n"
            "- **Esempi di domande da FARE (auto-contenute)**:\n"
            "  1)\"In quale semestre si svolgerà il corso di 'Sistemi Informativi Sanitari'?\"\n"
            "  2)\"In quale piattaforma gli studenti devono compilare il Piano di Studi per il corso di Digital Health and Bioinformatic Engineering?\"\n"
            "  3)\"Chi è il responsabile del corso \"ELEMENTI DI BIOCHIMICA E MEDICINA DI LABORATORIO\" e quali sono le ore dedicate alle esercitazioni e alle lezioni rispettivamente?\"\n"
            "  4)\"Quali sono i compiti del Delegato alla mobilità internazionale del Dipartimento di eccellenza?\"\n"
            "  5)\"Qual è il numero di crediti formativi universitari (CFU) associati al corso \"DRAFTING OF THE DOCTORATE THESIS\"?\"\n\n"

            "ISTRUZIONI DI FORMATTAZIONE:\n"
            "- Restituisci solo ed esclusivamente le domande.\n"
            "- Separa ogni domanda con un 'a capo'.\n"
            "- Non numerare le domande.\n"
            "- Non aggiungere testo introduttivo o conclusivo.\n"
            "- Se un documento è troppo breve o non contiene informazioni sufficienti per generare il numero richiesto di domande, genera soltanto la frase \"DOMANDE NON GENERATE\"."
        )
        
        response = model.complete(prompt)
        
        # Pulisce la risposta e la divide in singole domande
        questions = [q.strip() for q in response.text.strip().split('\n') if q.strip()]
        return questions

    except Exception as e:
        print(f"  -> Si è verificato un errore durante la chiamata all'LLM: {e}")
        # Solleva un'eccezione per interrompere il ciclo e attivare il salvataggio
        raise ConnectionError(f"La chiamata API è fallita con errore: {e}")

# --- 4. FLUSSO PRINCIPALE ---

def question_generator():
    """
    Flusso di lavoro principale: carica i documenti, genera le domande e salva il risultato.
    """
    gemini_model = GoogleGenAI(model=LLM_MODEL_NAME, temperature=0.2)

    os.makedirs(os.path.dirname(OUTPUT_FILE), exist_ok=True)
    
    # --- Inserisci qui i tuoi documenti ---
    documents = load_from_pickle("processed_documents7.pkl")
    #documents = nodes[START_INDEX:]
    documents = documents[START_INDEX:]
    
    generated_data = []

    print(f"Inizio generazione di {QUESTIONS_PER_DOCUMENT} domande per {len(documents)} documenti...")
    
    try:
        
        for doc_index, doc in enumerate(tqdm(documents, desc="Generando domande", leave=False), start=START_INDEX):
            
            print(f"\nProcessando documento {doc_index + 1}/{len(documents)}...")

            # 1. Estrai l'URL dai metadati
            source_url = doc.metadata.get("source_url", "Nessuna fonte specificata")
            
            # 2. Crea la stringa combinata da passare all'LLM.
            document_text_with_context = (
                f"URL di origine del documento: {source_url}\n\n"
                f"--- TESTO DEL DOCUMENTO ---\n"
                f"{doc.text}"
            )
            
            # Genera le domande per il documento corrente
            questions = generate_questions_for_document(document_text_with_context, gemini_model, QUESTIONS_PER_DOCUMENT)
            
            if not questions:
                print(f"  -> Nessuna domanda generata per il documento {doc_index + 1}.")
                
            else:
                # Aggiungi le domande generate alla lista dei risultati
                for question_num, question_text in enumerate(questions, start=1):
                    generated_data.append({
                        "document_index": doc_index,
                        "question_number": question_num,
                        "question": question_text
                    })
                print(f"  -> Generate {len(questions)} domande.")
            
            # Pausa per rispettare i rate limit
            sleep_time = random.uniform(MIN_DELAY_SECONDS, MAX_DELAY_SECONDS)
            time.sleep(sleep_time)

    finally:
        if not generated_data:
            print("Nessuna domanda è stata generata. Controlla eventuali errori precedenti.")
        else:
            # Salva i dati in un file JSON
            try:
                with open(OUTPUT_FILE, 'a', encoding='utf-8') as f:
                    json.dump(generated_data, f, ensure_ascii=False, indent=4)
                print(f"\nOperazione completata! {len(generated_data)} domande salvate in '{OUTPUT_FILE}'.")
            except Exception as e:
                print(f"Errore durante il salvataggio del file JSON: {e}")

In [None]:
question_generator()

In [None]:
import os
import json
import time
import random
from tqdm import tqdm
from llama_index.llms.google_genai import GoogleGenAI

# --- 1. CONFIGURAZIONE ---

LLM_MODEL_NAME = "gemini-2.5-flash-lite"
MIN_DELAY_SECONDS = 1
MAX_DELAY_SECONDS = 2

START_INDEX = 1905

DOCUMENTS_PICKLE_FILE = "processed_documents7.pkl" 
INPUT_QUESTIONS_FILE = "data/generated_questions3.json"
OUTPUT_QA_FILE = "data/generated_rag_answers2.json"

# --- 2. CARICAMENTO DATI ---

try:
    original_documents = load_from_pickle(DOCUMENTS_PICKLE_FILE)
    print(f"Caricati {len(original_documents)} documenti di contesto.")
except Exception as e:
    print(f"ERRORE CRITICO: Impossibile caricare i documenti di contesto. {e}")
    raise

# --- 3. FUNZIONE DI GENERAZIONE RISPOSTE ---

def generate_rag_answer(question, context, model):
    """
    Chiama un LLM per generare una risposta basandosi esclusivamente su domanda e contesto.
    """
    try:
        prompt = (
            "Il tuo compito è rispondere alla domanda basandoti esclusivamente sul contesto fornito.\n"
            "Le risposte devono essere esclusivamente in italiano.\n"
            "Rispondi in modo completo ed esaustivo. Inizia direttamente con la risposta, senza frasi introduttive o commenti.\n"
            "Se la risposta non è presente nel contesto, rispondi con 'Le informazioni non sono presenti nel contesto fornito.'\n\n"
            "--- CONTESTO ---\n"
            f"{context}\n"
            "--- FINE CONTESTO ---\n\n"
            f"Domanda: \"{question}\"\n\n"
            "Risposta:"
        )

        response = model.complete(prompt)
        return response.text.strip()

    except Exception as e:
        print(f"  -> Si è verificato un errore durante la chiamata all'LLM: {e}")
        # Solleva un'eccezione per interrompere il ciclo e attivare il salvataggio
        raise ConnectionError(f"La chiamata API è fallita con errore: {e}")

# --- 4. FLUSSO PRINCIPALE ---

def answer_generator():
    """
    Flusso di lavoro principale: carica le domande, genera le risposte RAG e salva i risultati.
    """

    gemini_model = GoogleGenAI(model=LLM_MODEL_NAME, temperature=0.2)

    try:
        with open(INPUT_QUESTIONS_FILE, 'r', encoding='utf-8') as f:
            all_questions_data = json.load(f)
        print(f"Caricate {len(all_questions_data)} domande da '{INPUT_QUESTIONS_FILE}'.")
    except Exception as e:
        print(f"ERRORE: Impossibile caricare il file di domande. {e}")
        return

    # Seleziona solo le domande da processare a partire da START_INDEX
    questions_to_process = all_questions_data[START_INDEX:]
    
    # Lista per salvare i nuovi risultati di questa sessione
    qa_results_this_session = []
    
    print(f"Inizio generazione risposte per {len(questions_to_process)} domande (partendo dall'indice {START_INDEX})...")

    try:
        for i, item in enumerate(tqdm(questions_to_process, desc="Generando risposte RAG"), start=START_INDEX):
            question_text = item.get("question")
            doc_index = item.get("document_index")

            if not question_text or doc_index is None:
                continue

            try:
                context_document = original_documents[doc_index]
                source_url = context_document.metadata.get("source_url", "N/A")
                context_text = f"Fonte: {source_url}\n\nContenuto:\n{context_document.text}"
            except IndexError:
                print(f"  -> ATTENZIONE: Indice documento {doc_index} (alla domanda {i}) non trovato. Domanda saltata.")
                continue

            answer_text = generate_rag_answer(question_text, context_text, gemini_model)

            qa_pair = item.copy()
            qa_pair["answer"] = answer_text
            qa_results_this_session.append(qa_pair)

            sleep_time = random.uniform(MIN_DELAY_SECONDS, MAX_DELAY_SECONDS)
            time.sleep(sleep_time)
            
    finally:
        print("\n--- Blocco di salvataggio finale in esecuzione ---")
        if not qa_results_this_session:
            print("Nessuna nuova risposta da salvare in questa sessione.")
        else:
            try:
                # Se il file di output esiste già ed è la prima esecuzione (START_INDEX == 0),
                # lo sovrascriviamo per iniziare da capo. Altrimenti, aggiungiamo in coda.
                mode = 'w' if START_INDEX == 0 else 'a'
                
                existing_data = []
                if mode == 'a' and os.path.exists(OUTPUT_QA_FILE):
                    with open(OUTPUT_QA_FILE, 'r', encoding='utf-8') as f:
                        try:
                            existing_data = json.load(f)
                        except json.JSONDecodeError:
                            print("Attenzione: il file di output esisteva ma era corrotto. Verrà sovrascritto.")

                final_data = existing_data + qa_results_this_session

                with open(OUTPUT_QA_FILE, 'w', encoding='utf-8') as f:
                    json.dump(final_data, f, ensure_ascii=False, indent=4)
                print(f"Salvataggio completato! Totale di {len(final_data)} coppie Q&A in '{OUTPUT_QA_FILE}'.")
            except Exception as e:
                print(f"ERRORE durante il salvataggio del file JSON: {e}")

In [None]:
answer_generator()

In [None]:
import json

HALF = True

nome_file_json = 'data/generated_rag_answers.json' 

# Inizializza le due liste vuote
domande = []
risposte = []

try:
    # Apri e leggi il file JSON
    with open(nome_file_json, 'r', encoding='utf-8') as f:
        dati = json.load(f)

    # Scansiona ogni elemento (coppia Q&A) nel file
    for elemento in dati:
        # Aggiungi la domanda alla lista delle domande
        if 'question' in elemento:
            if HALF:
                if elemento['question_number'] == 1:
                    domande.append(elemento['question'])
            else:
                domande.append(elemento['question'])
        
        # Aggiungi la risposta alla lista delle risposte
        if 'answer' in elemento:
            if HALF:
                if elemento['question_number'] == 1:
                    risposte.append(elemento['answer'])
            else:
                risposte.append(elemento['answer'])

    # Stampa i risultati per verifica
    print("Processo completato!")
    print(f"\n--- LISTA DELLE DOMANDE ({len(domande)}) ---")
    print(domande)

    print(f"\n--- LISTA DELLE RISPOSTE ({len(risposte)}) ---")
    print(risposte)

except FileNotFoundError:
    print(f"ERRORE: Il file '{nome_file_json}' non è stato trovato.")
except json.JSONDecodeError:
    print(f"ERRORE: Il file '{nome_file_json}' non contiene un JSON valido.")
except Exception as e:
    print(f"Si è verificato un errore inaspettato: {e}")

In [None]:
from llama_index.core.evaluation import generate_question_context_pairs
import random

nodes_ssx8 = load_from_pickle("nodes/nodes_metadata_sentence_x8.pkl")
nodes_ssx16 = load_from_pickle("nodes/nodes_metadata_sentence_x16.pkl")
nodes_hsx16x4x1 = load_from_pickle("nodes/nodes_metadata_hierarchical_x16x4x1.pkl")
nodes_hsx8x2x1 = load_from_pickle("nodes/nodes_metadata_hierarchical_x8x2x1.pkl")

qa_generate_prompt = (
    "Le informazioni del contesto sono qui sotto.\n"
    "---------------------\n"
    "{context_str}\n"
    "---------------------\n"
    "Data le informazioni del contesto e nessuna conoscenza pregressa, "
    "genera solo {num_questions_per_chunk} domanda a cui questo contesto può rispondere.\n"
    "IMPORTANTE: Il tuo output deve essere solo ed esclusivamente l'elenco delle domande, una per riga. "
    "NON includere frasi come 'Ecco le domande:', numerazione, o qualsiasi altro testo introduttivo.\n"
)

random.seed(2025)
nodes_sample = random.sample(nodes_ssx16, 1000)

qa_dataset = generate_question_context_pairs(
    nodes_sample, llm=eval_llm, num_questions_per_chunk=1, qa_generate_prompt_tmpl=qa_generate_prompt
)

#### Response evaluation

In [14]:
from tqdm import tqdm

def get_responses_sync(questions, query_engine, show_progress = True):
    """
    Una versione sincrona di get_responses. Esegue le query una alla volta.
    """
    responses = []
    
    iterator = tqdm(questions) if show_progress else questions
    
    print("Ottenimento delle risposte in modalità sincrona...")
    for question in iterator:
        response = query_engine.query(question)
        responses.append(response)
        
    return responses

In [None]:
from llama_index.core.evaluation import (
    CorrectnessEvaluator,
    SemanticSimilarityEvaluator,
    RelevancyEvaluator,
    FaithfulnessEvaluator,
    BatchEvalRunner,
)
import nest_asyncio
from llama_index.embeddings.huggingface import HuggingFaceEmbedding

nest_asyncio.apply()

embed_model = HuggingFaceEmbedding(model_name="BAAI/bge-m3", device="cuda")

# define evaluator
correctness_evaluator = CorrectnessEvaluator(llm=eval_llm)
semanticsimilarity_evaluator = SemanticSimilarityEvaluator(embed_model=embed_model)
faithfulness_evaluator = FaithfulnessEvaluator(llm=eval_llm)
relevancy_evaluator = RelevancyEvaluator(llm=eval_llm)

evaluator_dict = {
    "correctness": correctness_evaluator,
    "faithfulness": faithfulness_evaluator,
    "relevancy": relevancy_evaluator,
    "semantic_similarity": semanticsimilarity_evaluator,
}

pred_responses = get_responses_sync(domande, query_engine, show_progress=True)

# save_to_pickle(pred_responses, "results/pred_responses_ssx8_base-retriever.pkl")

batch_runner = BatchEvalRunner(evaluator_dict, workers=2, show_progress=True)

eval_results = await batch_runner.aevaluate_responses(
    domande, responses=pred_responses, reference=risposte
)

save_to_pickle(eval_results, "results/response/eval_results_ssx8_base-retriever.pkl")

In [9]:
from llama_index.core.evaluation.eval_utils import get_results_df

result = load_from_pickle("results/response/eval_results_ssx8_base-retriever.pkl") # 10-5
result2 = load_from_pickle("results/response/eval_results_ssx16_base-retriever.pkl") # 10-5
result3 = load_from_pickle("results/response/eval_results_ssx8_auto-retriever.pkl") # 10-5
result4 = load_from_pickle("results/response/eval_results_ssx16_auto-retriever.pkl") # 10-5
result5 = load_from_pickle("results/response/eval_results_hsx16_base-retriever.pkl") # 10-5
result6 = load_from_pickle("results/response/eval_results_hsx16_auto-retriever.pkl") # 10-5
result7 = load_from_pickle("results/response/eval_results_hsx16_base-retriever_v2.pkl") # 10-10
result8 = load_from_pickle("results/response/eval_results_hsx16_auto-retriever_v2.pkl") # 10-10
result9 = load_from_pickle("results/response/eval_results_hsx16_auto-retriever_v3.pkl") # 15-15
result10 = load_from_pickle("results/response/eval_results_ssx16_base-retriever_v2.pkl") # 15-15
result11 = load_from_pickle("results/response/eval_results_hsx8_base-retriever_v3.pkl") # 15-15

results_df = get_results_df(
    [result, result2, result3, result4, result5, result6, result7, result8, result9, result10],
    ["SSx8-BaseRetriever", "SSx16-BaseRetriever", "SSx8-AutoRetriever", "SSx16-AutoRetriever", "HSx16-BaseRetriever", "HSx16-AutoRetriever", "HSx16-BaseRetriever-v2", "HSx16-AutoRetriever-v2", "HSx16-AutoRetriever-v3", "SSx16-BaseRetriever-v2"],
    ["correctness", "relevancy", "faithfulness", "semantic_similarity"],
)

results_df2 = get_results_df(
    [result10, result2, result9, result, result8, result6, result4, result7, result3, result5, result11],
    ["SSx16 BaseRetriever 15-15", "SSx16 BaseRetriever 10-5", "HSx16 AutoRetriever 15-15", "SSx8 BaseRetriever 10-5", "HSx16 AutoRetriever 10-10", "HSx16 AutoRetriever 10-5", "SSx16 AutoRetriever 10-5", "HSx16 BaseRetriever 10-10", "SSx8 AutoRetriever 10-5",  "HSx16 BaseRetriever 10-5", "HSx8 BaseRetriever 15-15"],
    ["correctness", "relevancy", "faithfulness", "semantic_similarity"],
)
display(results_df2)

Caricamento oggetti dalla cache 'results/response/eval_results_ssx8_base-retriever.pkl'...
Caricati 4 oggetti.
Caricamento oggetti dalla cache 'results/response/eval_results_ssx16_base-retriever.pkl'...
Caricati 4 oggetti.
Caricamento oggetti dalla cache 'results/response/eval_results_ssx8_auto-retriever.pkl'...
Caricati 4 oggetti.
Caricamento oggetti dalla cache 'results/response/eval_results_ssx16_auto-retriever.pkl'...
Caricati 4 oggetti.
Caricamento oggetti dalla cache 'results/response/eval_results_hsx16_base-retriever.pkl'...
Caricati 4 oggetti.
Caricamento oggetti dalla cache 'results/response/eval_results_hsx16_auto-retriever.pkl'...
Caricati 4 oggetti.
Caricamento oggetti dalla cache 'results/response/eval_results_hsx16_base-retriever_v2.pkl'...
Caricati 4 oggetti.
Caricamento oggetti dalla cache 'results/response/eval_results_hsx16_auto-retriever_v2.pkl'...
Caricati 4 oggetti.
Caricamento oggetti dalla cache 'results/response/eval_results_hsx16_auto-retriever_v3.pkl'...
Caric

Unnamed: 0,names,correctness,relevancy,faithfulness,semantic_similarity
0,SSx16 BaseRetriever 15-15,4.32,0.928,0.976,0.908555
1,SSx16 BaseRetriever 10-5,4.25,0.916,0.98,0.889979
2,HSx16 AutoRetriever 15-15,4.149,0.886,0.982,0.884888
3,SSx8 BaseRetriever 10-5,4.148,0.902,0.976,0.89042
4,HSx16 AutoRetriever 10-10,4.009,0.898,0.984,0.877768
5,HSx16 AutoRetriever 10-5,3.89,0.846,0.976,0.872818
6,SSx16 AutoRetriever 10-5,3.874,0.824,0.934,0.844344
7,HSx16 BaseRetriever 10-10,3.821,0.846,0.966,0.878128
8,SSx8 AutoRetriever 10-5,3.79,0.816,0.93,0.836704
9,HSx16 BaseRetriever 10-5,3.781,0.808,0.962,0.866446


#### Retrival evaluation

In [None]:
from llama_index.core.evaluation import RetrieverEvaluator

retriever_evaluator = RetrieverEvaluator.from_metric_names(
    ["mrr", "hit_rate", "ndcg"], retriever=base_retriever
)

eval_results = await retriever_evaluator.aevaluate_dataset(qa_dataset, show_progress=True)

save_to_pickle(eval_results, "results/retrieval/eval_results_ssx8_base-retriever.pkl")

In [12]:
import pandas as pd
from collections import defaultdict

def calculate_average_scores(eval_results_list):
    """
    Funzione di supporto per calcolare i punteggi medi da una 
    lista di risultati di valutazione del retriever.
    Gestisce il formato 'RetrievalEvalResult'.
    """
    scores_per_metric = defaultdict(list)
    
    if not eval_results_list:
        return {}

    for query_result in eval_results_list:
        if hasattr(query_result, 'metric_dict') and query_result.metric_dict:
            for metric_name, metric_value in query_result.metric_dict.items():
                
                numeric_score = None

                if isinstance(metric_value, (int, float)):
                    numeric_score = metric_value
                elif hasattr(metric_value, 'score') and isinstance(getattr(metric_value, 'score', None), (int, float)):
                    numeric_score = metric_value.score
                
                if numeric_score is not None:
                    scores_per_metric[metric_name].append(numeric_score)
    
    # Calcola le medie
    average_scores = {}
    for metric_name, scores in scores_per_metric.items():
        average_scores[metric_name] = sum(scores) / len(scores) if scores else 0
    
    return average_scores

# --- 1. CARICO I DATI ---
result = load_from_pickle("results/retrieval/retrival_eval_results_ssx16_base_v2.pkl") # 15-15
result2 = load_from_pickle("results/retrieval/retrival_eval_results_ssx16_base.pkl") # 10-5
result3 = load_from_pickle("results/retrieval/retrival_eval_results_ssx8_base.pkl") # 10-5
result4 = load_from_pickle("results/retrieval/retrival_eval_results_hsx16_base.pkl") # 10-5
result5 = load_from_pickle("results/retrieval/retrival_eval_results_hsx16_base_v2.pkl") # 15-15
result6 = load_from_pickle("results/retrieval/retrival_eval_results_hsx8_base_v2.pkl") # 15-15

# --- 2. CALCOLO LE MEDIE PER OGNI SET DI RISULTATI ---
avg_result = calculate_average_scores(result)
avg_result2 = calculate_average_scores(result2)
avg_result3 = calculate_average_scores(result3)
avg_result4 = calculate_average_scores(result4)
avg_result5 = calculate_average_scores(result5)
avg_result6 = calculate_average_scores(result6)

# --- 3. COMBINO I RISULTATI IN UN DIZIONARIO ---
data_for_comparison = {
    "Sentence x16 Base 15-15": avg_result,
    "Sentence x16 Base 10-5": avg_result2,
    "Sentence x8 Base 10-5": avg_result3,
    "Hierarchical x16 Base 15-15": avg_result5,
    "Hierarchical x16 Base 10-5": avg_result4,
    "Hierarchical x8 Base 15-15": avg_result6,
}

# --- 4. CREO E MOSTRO IL DATAFRAME ---
comparison_df = pd.DataFrame(data_for_comparison).T

comparison_df_formatted = comparison_df.map(lambda x: f"{x:.4f}")

display(comparison_df_formatted)

Caricamento oggetti dalla cache 'results/retrieval/retrival_eval_results_ssx16_base_v2.pkl'...
Caricati 500 oggetti.
Caricamento oggetti dalla cache 'results/retrieval/retrival_eval_results_ssx16_base.pkl'...
Caricati 500 oggetti.
Caricamento oggetti dalla cache 'results/retrieval/retrival_eval_results_ssx8_base.pkl'...
Caricati 500 oggetti.
Caricamento oggetti dalla cache 'results/retrieval/retrival_eval_results_hsx16_base.pkl'...
Caricati 500 oggetti.
Caricamento oggetti dalla cache 'results/retrieval/retrival_eval_results_hsx16_base_v2.pkl'...
Caricati 500 oggetti.
Caricamento oggetti dalla cache 'results/retrieval/retrival_eval_results_hsx8_base_v2.pkl'...
Caricati 500 oggetti.
Caricamento oggetti dalla cache 'results/retrieval/retrival_eval_results_hsx8_auto_v2.pkl'...
Caricati 500 oggetti.


Unnamed: 0,mrr,hit_rate,ndcg
Sentence x16 Base 15-15,0.5285,0.892,0.6135
Sentence x16 Base 10-5,0.5247,0.834,0.5992
Sentence x8 Base 10-5,0.4059,0.716,0.4797
Hierarchical x16 Base 15-15,0.0727,0.164,0.0933
Hierarchical x16 Base 10-5,0.0706,0.138,0.0864
Hierarchical x8 Base 15-15,0.0382,0.096,0.0511
