### **1. Introduzione al paradigma RAG**

#### **1.1. Cos’è un sistema RAG**

**Concetto base: Retrieval-Augmented Generation**
Il paradigma RAG (Retrieval-Augmented Generation) è una tecnica che unisce modelli di linguaggio generativi (LLM) con meccanismi di recupero di informazioni pertinenti da una base di conoscenza esterna. L’obiettivo è rispondere a domande o generare contenuti basati non solo sulla conoscenza interna del modello, ma anche su dati specifici, aggiornati o personalizzati forniti in tempo reale.

A differenza di un modello che genera testi basandosi solo su quanto ha appreso durante il training, RAG consente di ampliare artificialmente la "memoria" del modello estraendo contenuti rilevanti da un corpus di documenti, per poi utilizzarli come contesto nella generazione finale.

**Architettura ibrida: recupero + generazione**
Un sistema RAG è composto da due componenti principali:

1. **Retriever**: un modulo che, dato un input (tipicamente una domanda), recupera porzioni di testo rilevanti da una base documentale pre-processata e indicizzata tramite tecniche di similarità semantica. Questo modulo lavora con vector store, embeddings e metadati.

2. **Generator**: un modulo basato su LLM che riceve l'input utente più il contesto recuperato dal retriever. A partire da queste informazioni, genera una risposta coerente, contestuale e arricchita.

Questa architettura a due fasi consente di superare alcuni limiti tipici degli LLM, come la memoria limitata o la scarsa precisione su dati di nicchia.

**Differenza con Prompt-only LLM**
Nei modelli di linguaggio tradizionali, l'intero prompt (comprensivo di eventuali documenti, spiegazioni e contesto) deve essere fornito manualmente e in tempo reale. Il modello lavora esclusivamente con le informazioni contenute in quel prompt, senza alcuna capacità di consultare o ricercare conoscenza esterna.

Con RAG, invece, il sistema può "espandere" automaticamente il prompt, recuperando contenuti pertinenti da una base di dati e fornendoli al modello in modo dinamico. In pratica, il prompt non è più scritto interamente dall'utente, ma è arricchito automaticamente dal sistema in base alla query.

**Vantaggi del paradigma RAG rispetto al prompt tradizionale**:

* Estensione virtualmente illimitata della conoscenza disponibile.
* Possibilità di aggiornare le fonti senza retrain del modello.
* Risposte più accurate su domini specifici (ad esempio documentazione tecnica, manuali interni, leggi).
* Riduzione di allucinazioni e risposte generiche.

Questo approccio è alla base di molte delle applicazioni LLM moderne che richiedono precisione, tracciabilità e aggiornamento continuo delle fonti.


#### **1.2. Perché usare RAG**

**Superamento del token limit**
I modelli LLM hanno un limite fisico alla quantità di testo che possono gestire in un singolo prompt, noto come *token window*. Ad esempio, GPT-3.5 supporta fino a 16.000 token, mentre GPT-4 arriva a 128.000 token, ma in entrambi i casi c’è un limite rigido. Questo impedisce di includere interi manuali, basi di conoscenza o documentazione estesa direttamente nel prompt.
Con RAG, il sistema può memorizzare e indicizzare interi dataset di documenti (anche milioni di righe), estraendo solo le porzioni più rilevanti per ogni domanda. In questo modo, l’input al modello è sempre entro i limiti, ma costruito dinamicamente per ogni richiesta.

**Inserimento di conoscenze aggiornate e specifiche**
Gli LLM tradizionali non possono conoscere eventi successivi alla loro data di training. Ad esempio, un modello addestrato nel 2023 non sa nulla degli eventi del 2025.
Con RAG, è possibile costruire un sistema che interroga documenti aggiornati in tempo reale, come articoli, report aziendali, FAQ, documentazione interna o dati legali aggiornati.
Inoltre, è possibile personalizzare la base di conoscenza per ambiti specifici: un RAG per medici userà articoli medici, uno per supporto clienti userà le guide del prodotto, e così via.

**Maggiore controllo sulle fonti**
Un sistema RAG può essere configurato per restituire, insieme alla risposta, anche i documenti o i paragrafi da cui ha estratto l’informazione. Questo consente di:

* Verificare la correttezza della risposta
* Tracciare la provenienza dei dati
* Gestire la fiducia in ambienti critici (medicina, legale, sicurezza)

È anche possibile applicare filtri ai documenti in base ai metadati, in modo da usare solo fonti verificate o aggiornate.

**Riduzione di allucinazioni**
Uno dei problemi noti degli LLM è l'*hallucination*: il modello genera contenuti apparentemente plausibili ma completamente inventati. Questo è particolarmente rischioso in ambiti sensibili.
Con RAG, il modello non deve "indovinare" le informazioni, ma le riceve già filtrate e contestuali dal retriever. Questo riduce significativamente la probabilità che vengano fornite risposte false o fuorvianti, specialmente se il prompt include istruzioni come "basati solo sulle fonti fornite".

In sintesi, l’adozione del paradigma RAG consente di costruire sistemi più **scalabili, affidabili, aggiornabili e verificabili**, andando oltre i limiti strutturali dei modelli linguistici tradizionali.


#### **1.3. Esempi d’uso reali**

**Chatbot su knowledge base aziendale**
Uno dei casi d’uso più frequenti per un sistema RAG è la costruzione di un assistente conversazionale che conosce e comprende tutta la documentazione interna di un’azienda: manuali operativi, policy, verbali, documenti di onboarding, domande frequenti.
In questo scenario, il chatbot può rispondere a domande come:

* “Qual è la procedura per aprire un ticket tecnico?”
* “Quali sono le linee guida per il lavoro da remoto?”
  Invece di hardcodare le risposte o cercare di inserire tutti i documenti in un prompt unico, il sistema recupera solo i paragrafi rilevanti da un corpus strutturato e li inietta nel prompt.

**Assistenti legali o medici**
In ambito professionale, un sistema RAG può essere impiegato per l’analisi di documenti giuridici, norme, linee guida cliniche, articoli scientifici o protocolli.
Esempi:

* Un avvocato può interrogare un assistente RAG per sapere se una clausola è conforme a una normativa vigente, ricevendo anche riferimenti diretti al testo di legge.
* Un medico può chiedere raccomandazioni cliniche aggiornate basate su linee guida, articoli accademici o evidenze scientifiche.
  Questo approccio è particolarmente utile quando serve **precisione documentale**, e ogni affermazione dev’essere **giustificabile con una fonte**.

**Helpdesk e supporto clienti**
In aziende con prodotti complessi o molte richieste di assistenza, è possibile costruire un sistema che fornisce risposte immediate e coerenti a domande tecniche o commerciali.
Esempi:

* “Come resetto la mia password?”
* “Quali sono le differenze tra i piani tariffari?”
* “Cosa devo fare se il mio dispositivo non si accende?”
  In questo caso, il sistema RAG può essere addestrato su FAQ, manuali tecnici, e ticket precedenti per generare risposte contestuali e supportate.

**Semantic search avanzata**
Oltre ai chatbot, RAG può essere usato per creare motori di ricerca intelligenti che, invece di cercare per parole chiave, **recuperano informazioni per significato**.
Ad esempio, in una banca dati di articoli scientifici, si può cercare:

* “Quali studi recenti parlano dell’efficacia della terapia X nei pazienti oncologici?”
  Il sistema userà l’embedding semantico per trovare i paragrafi più rilevanti, anche se non contengono esattamente quelle parole.
  Questo tipo di ricerca è più potente della keyword search classica (come quella di Google) perché tiene conto del **significato** più che della forma.

In tutti questi casi, l’approccio RAG rende i sistemi LLM **utilizzabili in contesti professionali**, in cui accuratezza, tracciabilità e aggiornamento delle fonti sono indispensabili.


### **2. Caricamento dei documenti (Document Loader)**

#### **2.1. Cos’è un `Document` in LangChain**

**Oggetto `Document`: `page_content + metadata`**
In LangChain, ogni unità testuale da usare nel sistema RAG è rappresentata da un oggetto chiamato `Document`.
Un `Document` è una semplice struttura dati composta da due elementi principali:

* `page_content`: il contenuto testuale vero e proprio, ovvero la parte che sarà usata per generare l'embedding e poi fornita al modello LLM come contesto.
* `metadata`: un dizionario opzionale contenente informazioni aggiuntive sulla provenienza del contenuto (es. titolo del file, pagina, sezione, autore, data).

Esempio:

```python
from langchain.schema import Document

doc = Document(
    page_content="Questo è il contenuto di una pagina PDF.",
    metadata={"source": "manuale_tecnico.pdf", "page": 4}
)
```

I metadati **non vengono embeddati**, ma sono molto utili:

* per **filtrare** documenti durante la ricerca
* per **restituire informazioni di contesto** insieme alla risposta (es. "Risposta tratta da: manuale\_tecnico.pdf, pagina 4")
* per effettuare **re-ranking** o aggregazioni

**Differenza tra loader grezzo e strutturato**
LangChain supporta diversi tipi di document loader, ciascuno progettato per un formato specifico (es. `.txt`, `.pdf`, `.csv`, `.html`, ecc.). Possiamo suddividerli in due categorie:

1. **Loader grezzo (raw)**
   Questi loader leggono semplicemente il contenuto del file come testo puro, senza interpretare la struttura interna.
   Esempi: `TextLoader`, `UnstructuredFileLoader`.

   Vantaggi:

   * Semplice da usare
   * Adatto a testi brevi e lineari

   Limiti:

   * Perde la struttura semantica (sezioni, titoli, paragrafi)
   * Non distingue capitoli, intestazioni, o blocchi

2. **Loader strutturato (semantically aware)**
   Questi loader, invece, usano modelli o parser avanzati (es. `unstructured`, `pdfminer`, `html.parser`) per ricostruire la struttura del documento e suddividerlo in blocchi logici coerenti.

   Esempi:

   * `UnstructuredPDFLoader`: estrae testo da PDF con rilevamento di intestazioni, paragrafi, tabelle
   * `MarkdownHeaderTextSplitter`: mantiene la gerarchia dei titoli
   * `BSHTMLLoader`: pulisce e struttura contenuti HTML

   Vantaggi:

   * Mantiene la coerenza semantica
   * Migliore qualità nei chunking successivi

   Limiti:

   * Richiede dipendenze esterne
   * Più lento e sensibile alla qualità del documento

La scelta tra loader grezzo e strutturato dipende dal tipo di fonte.
Per esempio, per un dataset `.txt` generato automaticamente è sufficiente un loader semplice, mentre per un manuale tecnico complesso in PDF conviene usare un loader strutturato per mantenere la logica del documento.

In sintesi, il caricamento corretto dei documenti rappresenta il primo passo fondamentale per ottenere un RAG efficace, poiché determina la **qualità e la struttura dei dati** che verranno poi spezzettati, indicizzati e utilizzati nelle risposte generate.




> Requisiti:
> `pip install -U langchain langchain-community langchain-core langchain-huggingface \
  sentence-transformers faiss-cpu transformers torch accelerate rank-bm25
`

```python
# rag_better_hf.py
# ------------------------------------------------------------------------------
# SCOPO DEL FILE
# ------------------------------------------------------------------------------
# Questo script implementa una pipeline RAG (Retrieval-Augmented Generation)
# minimale ma robusta usando esclusivamente componenti gratuiti di Hugging Face
# e LangChain:
#   1) Carica un piccolo corpus (qui simulato come singolo documento).
#   2) Lo suddivide in "chunk" per migliorare il recupero (retrieval).
#   3) Indicizza i chunk in un Vector Store FAISS usando embeddings multilingua.
#   4) Crea un retriever ibrido: BM25 (keyword) + vettoriale (semantico).
#   5) Costruisce una catena RAG: recupero dei documenti -> iniezione nel prompt
#      -> generazione di una risposta con un LLM locale (FLAN-T5).
#   6) Pulizia finale dell’output per ridurre ripetizioni.
#
# NOTE PRATICHE:
# - Il modello LLM di default è "google/flan-t5-base" (testato su CPU).
# - Cambia il modello impostando la variabile d'ambiente HF_LLM (es. flan-t5-small).
# - Su Windows, eventuali warning sui symlink HF sono innocui (puoi ignorarli).
# ------------------------------------------------------------------------------

import os
import re
from typing import List

# Disattiva la telemetria HF (opzionale): riduce rumore in console/log
os.environ["HF_HUB_DISABLE_TELEMETRY"] = "1"

from transformers.utils import logging as hf_logging
# Silenzia i log dei modelli/transformers (utile in demo/notebook)
hf_logging.set_verbosity_error()

# ------------------------------------------------------------------------------
# LangChain: tipi base e utilità per testi
# ------------------------------------------------------------------------------
from langchain.schema import Document
# Text splitter ricorsivo: spezza tenendo conto di strutture gerarchiche (es. titoli)
from langchain.text_splitter import RecursiveCharacterTextSplitter

# Nuovi import "non deprecati" dal pacchetto langchain-huggingface:
# - HuggingFaceEmbeddings: calcolo embeddings tramite modelli sentence-transformers
# - HuggingFacePipeline: wrapper di un pipeline HF come LLM per LangChain
from langchain_huggingface import HuggingFaceEmbeddings, HuggingFacePipeline

# Vector store FAISS (in memoria): indicizzazione e ricerca per similarità
from langchain_community.vectorstores import FAISS

# ------------------------------------------------------------------------------
# Transformers (HF) per il LLM e pipeline di generazione
# ------------------------------------------------------------------------------
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline

# Prompt e catene LangChain:
# - PromptTemplate: definisce i placeholder {input} e {context}
# - create_stuff_documents_chain: concatena i documenti nel prompt (strategia "stuff")
# - create_retrieval_chain: orchestrazione retrieve -> prompt -> LLM
from langchain.prompts import PromptTemplate
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain.chains import create_retrieval_chain

# ------------------------------------------------------------------------------
# Retriever tradizionale (BM25) e Ensemble per combinare BM25 + Vettoriale
# ------------------------------------------------------------------------------
from langchain_community.retrievers import BM25Retriever
from langchain.retrievers import EnsembleRetriever


def build_corpus() -> List[Document]:
    """
    Crea il corpus di partenza. In un caso reale:
      - potresti leggere file da disco (PDF, TXT, MD, HTML) via loader dedicati
      - arricchire i metadati (es. 'source', 'page', 'section', 'date')
    Qui usiamo un testo "inline" per massima semplicità.
    """
    file_text = """
    Product Guide ZX-100

    Introduction
    The ZX-100 model is a device designed for industrial use.
    It supports operating modes A, B, and C. The average power consumption is 45W.

    Installation
    1) Mount the device on a flat surface.
    2) Connect the power supply to 220V.
    3) Start in mode A for the initial setup.

    Safety
    Do not open the panel while the device is powered on.
    Maintenance must be performed by qualified personnel.

    FAQ
    - How do you reset the device? Hold down the RESET button for 10 seconds.
    - Difference between mode A and B? Mode B enables detailed logging.
    """
    # Ogni "Document" ha: page_content (testo) + metadata (dizionario)
    return [Document(page_content=file_text, metadata={"source": "guide_zx100.txt"})]


def make_chunks(documents: List[Document], size: int = 300, overlap: int = 50):
    """
    Suddivide i documenti in chunk di lunghezza 'size' con sovrapposizione 'overlap'.
    Perché è importante:
      - Gli embeddings lavorano meglio su porzioni concise e coerenti.
      - Il retriever recupera passaggi più pertinenti.
    'RecursiveCharacterTextSplitter' tende a mantenere coesione semantica meglio
    di uno splitter "cieco" a caratteri.
    """
    splitter = RecursiveCharacterTextSplitter(chunk_size=size, chunk_overlap=overlap)
    return splitter.split_documents(documents)


def make_vectorstore(chunks: List[Document]) -> FAISS:
    """
    Crea il Vector Store (FAISS) a partire dai chunk:
      - Calcola embeddings con un modello multilingua (ottimo anche per inglese/italiano).
      - Indicizza gli embeddings in FAISS per similarità (cosine di default).
    Nota: FAISS qui è in memoria; per persistenza su disco servono metodi di save/load.
    """
    # Modello consigliato per IT/EN: più robusto di MiniLM monolingua su testi misti.
    emb = HuggingFaceEmbeddings(
        model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
    )
    return FAISS.from_documents(chunks, emb)


def build_hf_llm() -> HuggingFacePipeline:
    """
    Costruisce un LLM locale basato su Transformers:
      - Default: google/flan-t5-base (sequ2seq, instruction-tuned).
      - Per CPU deboli: usa HF_LLM=google/flan-t5-small (più veloce, meno qualità).
    Parametri chiave del pipeline:
      - max_new_tokens: accorcia le risposte (meno rischio di ripetizioni/deriva).
      - do_sample + temperature/top_p/top_k: sampling "leggero", riduce loop deterministici.
      - repetition_penalty + no_repeat_ngram_size: penalità esplicite contro le ripetizioni.
    """
    model_id = os.getenv("HF_LLM", "google/flan-t5-base")
    tok = AutoTokenizer.from_pretrained(model_id)
    mdl = AutoModelForSeq2SeqLM.from_pretrained(model_id)
    gen_pipe = pipeline(
        task="text2text-generation",
        model=mdl,
        tokenizer=tok,
        max_new_tokens=64,       # risposte corte e mirate al QA
        do_sample=True,          # un minimo di stochasticità evita "eco"
        temperature=0.2,         # bassa creatività (risposte tecniche concise)
        top_p=0.9,               # nucleus sampling
        top_k=50,                # filtra token a massima probabilità
        repetition_penalty=1.15, # scoraggia ripetizioni letterali
        no_repeat_ngram_size=3   # evita tri-gram ripetuti
    )
    # Wrapper LangChain per usare il pipeline HF come LLM in una Chain
    return HuggingFacePipeline(pipeline=gen_pipe)


# Prompt rigido e minimale: impone lingua, formato, limite alle allucinazioni.
# {input} = domanda utente; {context} = concatenazione passaggi recuperati.
PROMPT = PromptTemplate.from_template(
    "You are a technical assistant. Answer in ENGLISH using ONLY the context below.\n"
    "If the information is not in the context, write exactly: \"Not specified in the context.\".\n"
    "Write 1 clear and concise sentence, no bullet points, do not repeat context text.\n\n"
    "QUESTION:\n{input}\n\n"
    "CONTEXT:\n{context}\n\n"
    "ANSWER:"
)


def clean_answer(text: str) -> str:
    """
    Post-processing minimale dell'output del LLM:
      - rimuove ripetizioni palesi del tipo "-frase -frase -frase"
      - normalizza spazi multipli
      - tronca a 400 caratteri per evitare "trailing" indesiderati
    Nota: non sostituisce i vincoli del prompt né i parametri anti-ripetizione,
    ma aiuta a rifinire ulteriormente le risposte.
    """
    text = re.sub(r"(?:\s*[-•]\s*)?(.+?)(?:\s*(?:-|\n)\s*\1\b)+", r"\1", text, flags=re.IGNORECASE)
    text = re.sub(r"\s{2,}", " ", text).strip()
    return text[:400]


def build_hybrid_retriever(chunks: List[Document], db: FAISS):
    """
    Costruisce un retriever ibrido che combina:
      - BM25: eccellente per keyword esatte, termini rari, sigle, numeri.
      - Vettoriale (FAISS): eccellente per similarità semantica (parafrasi, sinonimi).
    La combinazione (EnsembleRetriever) somma i punteggi pesati:
      - weights=[0.6, 0.4] -> dà un po' più importanza alla componente semantica.
    k (top-k) su entrambi a 4: in totale, il contesto tenderà a includere passaggi
    sia "keyword-match" che "semantic-match".
    """
    bm25 = BM25Retriever.from_documents(chunks)
    bm25.k = 4
    vec_retriever = db.as_retriever(search_kwargs={"k": 4})
    return EnsembleRetriever(retrievers=[vec_retriever, bm25], weights=[0.6, 0.4])


def answer_with_hf(retriever, user_query: str) -> str:
    """
    Pipeline RAG end-to-end per una singola query:
      1) Usa il retriever ibrido per ottenere i passaggi più rilevanti.
      2) "Stuff" chain: concatena i passaggi nel placeholder {context} del prompt.
      3) Chiama l'LLM locale (FLAN-T5) per generare la risposta.
      4) Applica una pulizia leggera per eliminare eventuali ripetizioni residue.
    Ritorna una singola frase, come imposto dal prompt.
    """
    llm = build_hf_llm()
    stuff_chain = create_stuff_documents_chain(llm=llm, prompt=PROMPT)
    rag_chain = create_retrieval_chain(retriever=retriever, combine_docs_chain=stuff_chain)

    # IMPORTANTE: le chain "nuove" di LangChain si aspettano la chiave 'input'
    result = rag_chain.invoke({"input": user_query})
    return clean_answer(result.get("answer", str(result)))


def main():
    """
    Flusso di esempio:
      - costruisce corpus, chunking e vectorstore
      - crea retriever ibrido
      - esegue alcune query dimostrative
    Suggerimenti:
      - prova a cambiare HF_LLM e confronta i risultati (small/base)
      - prova a cambiare il modello di embeddings (es. all-MiniLM-L6-v2 per EN puro)
      - aumenta/diminuisci 'k' e i pesi dell'ensemble per calibrare il retrieval
    """
    docs = build_corpus()
    chunks = make_chunks(docs)
    db = make_vectorstore(chunks)
    retriever = build_hybrid_retriever(chunks, db)

    queries = [
        "How do you reset the ZX-100 device?",
        "What is the difference between mode A and B?",
        "What is the average power consumption of the device?",
        "How do you perform the initial installation?"
    ]

    for q in queries:
        print("\n=== Query (HF local) ===")
        print(q)
        print(answer_with_hf(retriever, q))


if __name__ == "__main__":
    main()


```

Note rapide:

* Cambia modello LLM con `HF_LLM=google/flan-t5-small python rag_minimal_hf.py` se vuoi più velocità.
* Tutto gira su CPU; per GPU basta avere PyTorch con CUDA/ROCm e il pipeline userà la GPU automaticamente.


#### **2.2. Tipologie di loader**

In LangChain esistono numerosi **loader specializzati**, progettati per leggere contenuti testuali da diverse fonti e formati. Questi loader convertono i file in oggetti `Document` che possono essere processati nel flusso RAG. La scelta del loader corretto dipende dal tipo di documento e dalla qualità dell’estrazione necessaria.

---

**TextLoader**
Loader semplice e diretto, usato per file `.txt`.
Carica l’intero contenuto del file come una singola stringa, senza tentativi di parsing semantico.

```python
from langchain.document_loaders import TextLoader

loader = TextLoader("path/to/file.txt", encoding="utf-8")
documents = loader.load()
```

Vantaggi:

* Veloce
* Nessuna dipendenza esterna

Limiti:

* Nessuna struttura semantica
* Tutto il contenuto è caricato come un unico blocco

---

**PyPDFLoader**
Loader specifico per file `.pdf`, utilizza `pdfminer.six` per estrarre il testo pagina per pagina.

```python
from langchain.document_loaders import PyPDFLoader

loader = PyPDFLoader("documento.pdf")
documents = loader.load()
```

Ogni pagina viene caricata come un documento distinto, con metadati relativi alla pagina.
Questo è utile quando si vuole effettuare chunking per pagina o identificare facilmente la posizione del contenuto nel file.

Vantaggi:

* Estrazione pagina per pagina
* Facile da usare
* Include metadati di pagina

Limiti:

* Non riconosce titoli o intestazioni
* Sensibile alla qualità del PDF (soprattutto se scansioni)

---

**UnstructuredLoader (via Unstructured.io)**
Utilizza una libreria di parsing intelligente per estrarre testo strutturato da PDF, DOCX, HTML, e-mail, ecc.

Esempio con PDF:

```python
from langchain.document_loaders import UnstructuredPDFLoader

loader = UnstructuredPDFLoader("manuale.pdf")
documents = loader.load()
```

Vantaggi:

* Riconosce sezioni, titoli, paragrafi, tabelle
* Ideale per documenti complessi o eterogenei
* Supporta molti formati

Limiti:

* Richiede installazione di `unstructured` e librerie di supporto (`pytesseract`, `pdfplumber`, ecc.)
* Può essere lento su file lunghi

---

**DirectoryLoader e glob pattern**
Quando si hanno molti file in una cartella (PDF, TXT, ecc.), è possibile usare `DirectoryLoader` per caricarli in batch, specificando un pattern per selezionare solo certi tipi di file.

```python
from langchain.document_loaders import DirectoryLoader, TextLoader

loader = DirectoryLoader(
    path="dataset/",
    glob="**/*.txt",
    loader_cls=TextLoader
)
documents = loader.load()
```

Opzioni:

* `glob="**/*.pdf"`: per includere tutti i PDF, anche in sottocartelle
* `loader_cls`: definisce il tipo di loader da usare per ciascun file

Vantaggi:

* Automazione del caricamento
* Adatto a progetti con centinaia di documenti
* Compatibile con qualsiasi loader

Limiti:

* Tutti i file devono essere coerenti con il loader scelto

---

**Altri loader disponibili in LangChain:**

* `CSVLoader`: per file CSV
* `WebBaseLoader`: per scaricare e caricare da URL
* `BSHTMLLoader`: per pagine HTML usando BeautifulSoup
* `NotionDBLoader`, `GoogleDriveLoader`: per fonti cloud o API

---

**Conclusione:**
La scelta del loader è un passaggio cruciale. Se i dati non sono ben estratti o i contenuti non sono divisi logicamente, l’intero sistema RAG ne risentirà. In generale:

* Usa `TextLoader` per dati strutturati semplici
* Usa `PyPDFLoader` per PDF leggibili pagina per pagina
* Usa `UnstructuredLoader` per documenti ricchi e complessi
* Usa `DirectoryLoader` per gestire collezioni di documenti in batch




---

## 2.3 Metadati

### Utilità dei metadati (filename, sezione, fonte, ecc.)

1. **Filtraggio e selezione avanzata**
   I metadati permettono di aggiungere alle porzioni di testo informazioni strutturate, come nome file, titolo sezione, autore, data, numero di pagina, categoria. Questo consente di applicare filtri (ad esempio recuperare solo documenti di una certa data o autore) prima di eseguire la fase di embedding e retrieval.

2. **Tracciabilità e contesto delle risposte**
   Quando si restituisce una risposta generata, è fondamentale indicare la fonte: sapere da quale file, sezione o pagina proviene l’informazione consente di verificare l’attendibilità e di dare trasparenza all’utente.

3. **Ottimizzazione delle prestazioni del retriever**
   In scenari con molti documenti, i metadati aiutano a ridurre il corpus iniziale applicando filtri semantici o logici, migliorando la velocità di risposta e la qualità del contesto generato.

4. **Ri-ranking e rilevanza contestuale**
   I metadati possono essere utilizzati per pesare i risultati durante la fase di retrieval, ad esempio aumentando la priorità di documenti con certe caratteristiche (date più recenti, fonti autorevoli, ecc.).

5. **Analisi e monitoraggio del modello**
   In fase di sviluppo o produzione, i metadati permettono di conducendo analisi quali: da quali fonti provengono le risposte più efficaci o dove l’LLM genera errori, facilitando debugging e iterazione.

### Come personalizzare i metadati durante il caricamento

1. **Modifica post‐load dei metadati**
   Dopo aver caricato i documenti con un loader, si può iterare sull’elenco restituito e modificare il `metadata` di ciascun `Document`:

   ```python
   from langchain_community.document_loaders import UnstructuredWordDocumentLoader
   loader = UnstructuredWordDocumentLoader("example.docx")
   documents = loader.load()

   for doc in documents:
       doc.metadata['source'] = 'my_source_label'
       doc.metadata['section'] = 'Introduzione'
   ```

   In questo modo si aggiungono o sovrascrivono informazioni utili ([GitHub][1], [LangChain][2]).

2. **Uso di `metadata_func` in loader JSON o simili**
   Alcuni loader, come JSONLoader, supportano la funzione `metadata_func` che permette di estrarre e inserire metadati direttamente dal contenuto dei dati in ingresso:

   ```python
   from langchain.document_loaders import JSONLoader

   def metadata_func(record: dict, metadata: dict) -> dict:
       metadata["sender_name"] = record.get("sender_name")
       metadata["timestamp_ms"] = record.get("timestamp_ms")
       return metadata

   loader = JSONLoader(
       file_path="chat.json",
       jq_schema=".messages[]",
       content_key="content",
       metadata_func=metadata_func
   )
   documents = loader.load()
   ```

   In questo esempio, ogni `Document` includerà i campi `sender_name` e `timestamp_ms` nei metadati ([Medium][3]).

3. **Aggiunta automatica di metadati con OpenAI Metadata Tagger**
   È possibile automatizzare l’estrazione di metadati strutturati utilizzando strumenti come `OpenAIMetadataTagger`, che impiegano modelli LLM per identificare campi come titolo, tono, data, autore, secondo uno schema JSON definito:

   ```python
   from langchain_community.document_transformers.openai_functions import create_metadata_tagger
   from langchain_openai import ChatOpenAI

   schema = {
       "properties": {
           "movie_title": {"type": "string"},
           "critic": {"type": "string"},
           "tone": {"type": "string", "enum": ["positive", "negative"]},
           "rating": {"type": "integer"}
       },
       "required": ["movie_title", "critic", "tone"]
   }

   llm = ChatOpenAI(model="gpt-3.5-turbo-0613", temperature=0)
   transformer = create_metadata_tagger(metadata_schema=schema, llm=llm)
   enhanced_docs = transformer.transform_documents(original_documents)
   ```

   Ogni documento conterrà metadati estratti automaticamente (ad esempio `movie_title`, `critic`, e altri campi), arricchendo le informazioni disponibili per retrieval e filter ([LangChain][4]).

4. **Personalizzazione avanzata subclassificando `BaseLoader` o `DirectoryLoader`**
   Per esigenze sofisticate, è possibile creare un loader custom estendendo `DirectoryLoader` o `BaseLoader`, ad esempio per includere data di creazione o modifica dei file:

   ```python
   class DateDirectoryLoader(DirectoryLoader):
       def load_file(self, item: Path, path: Path, docs: List[Document], pbar: Optional[Any]) -> None:
           super().load_file(item, path, docs, pbar)
           if docs:
               stat = os.stat(item)
               creation = datetime.fromtimestamp(stat.st_ctime).isoformat()
               docs[-1].metadata['creation_date'] = creation
   ```

   Questa tecnica consente di aggiungere metadati di sistema come la data di creazione del file ([Stack Overflow][5]).

---

### Riepilogo

* I metadati offrono **filtraggio, contesto, tracciabilità**, oltre a sostenere ranking e analisi.
* Possono essere aggiunti manualmente, tramite funzioni di trasformazione automatizzate, o mediante loader custom.
* Integrarli correttamente è fondamentale per costruire un sistema RAG affidabile, trasparente ed efficiente.


### **3. Segmentazione dei documenti (Chunking)**

#### **3.1. Perché fare chunking**

**Limite di token per embedding e prompt**
I modelli di embedding e i LLM hanno dei limiti nella quantità di testo che possono gestire in una singola chiamata.
Ad esempio:

* Il modello `text-embedding-ada-002` ha un limite di 8191 token per input.
* I modelli LLM (come GPT-4) hanno anch’essi una finestra massima di contesto (da 8k a 128k token a seconda della versione).

Se si tenta di elaborare un documento intero troppo lungo, il sistema restituirà un errore o taglierà il testo, perdendo contenuto utile.
Fare chunking consente di **suddividere il documento in parti più piccole**, garantendo che ciascun frammento sia compatibile con i limiti del modello usato, sia per l'embedding sia per l'iniezione nel prompt.

---

**Miglioramento della granularità semantica**
Suddividere un documento in segmenti coerenti aiuta il sistema a recuperare **blocchi significativi**, piuttosto che porzioni casuali di testo.
Un buon chunk ha:

* una lunghezza equilibrata (né troppo corto né troppo lungo)
* una coerenza semantica interna (cioè parla di un solo concetto o paragrafo)

Un chunking ben fatto evita problemi come:

* perdita di contesto (spezzando frasi o paragrafi a metà)
* ambiguità semantica (testo troppo corto o fuori contesto)
* scarsa rilevanza nei risultati del retriever

Esempio:

* Un singolo documento di 10.000 token può essere diviso in 20–30 chunk da 400–600 token, ciascuno rappresentante una sezione autonoma (es. un paragrafo, una voce di FAQ, una pagina).

---

**Ottimizzazione del recupero**
L’efficacia di un sistema RAG dipende in larga parte dalla qualità del *retrieval* (cioè dal processo di recupero dei documenti più pertinenti).
Un chunking adeguato:

* **aumenta la precisione del retriever**, perché lavora su unità semantiche complete
* **migliora la recall**, perché segmenti sovrapposti possono coprire più casi d’uso
* **riduce il rumore**: invece di recuperare intere sezioni generiche, otteniamo solo ciò che è utile

Inoltre, il chunking consente di:

* assegnare **embedding specifici per ogni segmento**, rendendo la rappresentazione semantica più precisa
* visualizzare nei risultati di ricerca non l'intero documento, ma esattamente la porzione che ha portato alla risposta

---

**In sintesi**
Il chunking è una fase essenziale e strategica per un sistema RAG robusto, perché:

* consente di rientrare nei limiti tecnici dei modelli
* migliora la qualità delle risposte
* ottimizza le performance del retrieval
* permette una gestione più raffinata della conoscenza nei documenti



#### **3.2. Strategie di chunking**

La segmentazione dei documenti (chunking) può seguire **diverse strategie**, ciascuna adatta a un tipo specifico di contenuto e obiettivo. Scegliere la strategia giusta è essenziale per ottenere un sistema RAG preciso, coerente e performante.

---

**Fixed-length vs semantico**

**Fixed-length (lunghezza fissa)**
Questa è la strategia più semplice e usata più frequentemente, soprattutto con tool come LangChain. I documenti vengono divisi in porzioni basate su un numero fisso di caratteri o token.

Esempio:

* `chunk_size = 500` caratteri
* `chunk_overlap = 100` caratteri

Il contenuto viene diviso in segmenti di 500 caratteri, ciascuno sovrapposto ai precedenti di 100 caratteri per mantenere continuità tra le sezioni.

Vantaggi:

* Facile da implementare
* Prevedibile e stabile
* Utile con modelli che hanno limiti rigidi di token

Svantaggi:

* Rischio di **tagliare frasi o paragrafi** a metà
* Non sempre rispetta la coerenza semantica

**Semantico**
Questa strategia tenta di suddividere il testo in base a **unità logiche o concettuali**: frasi complete, paragrafi, sezioni, titoli. Si basa su:

* punteggiatura (es. fine frase)
* marcatori (es. `###` nei Markdown)
* struttura HTML (tag come `<h1>`, `<p>`, ecc.)

È possibile usarla tramite splitter come:

* `MarkdownHeaderTextSplitter`
* `SentenceTransformersTextSplitter` (avanzato)

Vantaggi:

* Chunk coerenti e leggibili
* Miglior interpretabilità nella risposta generata
* Miglior recupero semantico

Svantaggi:

* Meno prevedibile in termini di lunghezza
* Complessa da implementare con documenti destrutturati

---

**Chunk overlap: cos’è e perché usarlo**
Il *chunk overlap* è il numero di caratteri (o token) condivisi tra un chunk e il successivo. È una tecnica fondamentale per:

1. **Evitare perdita di contesto**: se una frase inizia alla fine di un chunk e continua nel successivo, senza overlap si rischia di tagliarla.
2. **Mantenere coerenza semantica**: la ripetizione parziale tra blocchi aiuta a non spezzare concetti importanti.
3. **Rendere più robusto il retrieval**: una domanda potrebbe essere rilevante per entrambi i chunk sovrapposti.

Tipico setup:

* `chunk_size = 500`
* `chunk_overlap = 100`

Quindi ogni nuovo chunk inizia 400 caratteri dopo il precedente (non 500), sovrapponendosi parzialmente.

**Trade-off**:

* Più overlap = maggiore continuità, ma anche più duplicazione e maggiore uso di memoria
* Meno overlap = chunk più distinti, ma rischio di perdita informativa

---

**Sliding window**
Lo sliding window è una strategia specifica di chunking **dinamico e continuo**, dove ogni chunk viene generato spostando una “finestra mobile” sul testo.
È un caso particolare della chunking con overlap, ma può essere applicato in modo ancora più flessibile, anche a livello di token o parola.

Ad esempio:

* Finestra di 50 parole, spostata ogni 10 parole
* Ogni finestra è un nuovo chunk

Questa tecnica è utile quando:

* Si lavora con modelli che richiedono input molto brevi
* Si vuole **massimizzare la copertura** e la granularità dell’analisi
* Si costruiscono sistemi per **detection locale** (es. analisi di frasi specifiche)

Svantaggi:

* Maggiore costo computazionale (si generano molti chunk)
* Rischio di contenuti ridondanti

---

**Conclusione**
La strategia di chunking va scelta in base al tipo di documento, al modello usato, e all’obiettivo del sistema:

| Obiettivo                     | Strategia consigliata      |
| ----------------------------- | -------------------------- |
| Efficienza e velocità         | Fixed-length + overlap     |
| Coerenza semantica            | Chunking semantico         |
| Massima copertura             | Sliding window             |
| Documenti destrutturati       | Fixed-length conservativo  |
| Documenti con gerarchia forte | MarkdownHeaderTextSplitter |



#### **3.3. Tool per chunking in LangChain**

LangChain fornisce una serie di strumenti predefiniti per suddividere documenti in **chunk coerenti** e compatibili con i modelli di embedding e LLM. Ogni splitter ha caratteristiche diverse, pensate per specifici tipi di documento o esigenze di segmentazione.

---

### **`RecursiveCharacterTextSplitter`**

**Descrizione:**
È il tool di chunking più versatile e comunemente usato in LangChain. Suddivide il testo usando un approccio ricorsivo, cercando di mantenere porzioni leggibili e complete, partendo dai separatori più "forti" (paragrafi, frasi, parole).

**Logica di funzionamento:**

1. Prova a dividere il testo usando `\n\n` (due newline consecutivi).
2. Se la lunghezza del chunk è ancora troppo lunga, passa a `\n` (una sola newline).
3. Poi a punteggiatura (`.`, `,`, `;`) e infine spazi.
4. Alla fine, se serve, taglia in modo brutale (caratteri puri).

**Codice di esempio:**

```python
from langchain.text_splitter import RecursiveCharacterTextSplitter

splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=100,
    separators=["\n\n", "\n", ".", " ", ""]
)

chunks = splitter.split_documents(documents)
```

**Quando usarlo:**

* Per la maggior parte dei documenti testuali lineari (.txt, PDF convertiti in testo)
* Quando non c’è una struttura gerarchica chiara
* Quando si vuole il massimo controllo su lunghezza e continuità

---

### **`MarkdownHeaderTextSplitter`**

**Descrizione:**
È uno splitter progettato per documenti in formato Markdown (`.md`), che sfrutta la **gerarchia dei titoli** (es. `#`, `##`, `###`) per suddividere il testo in sezioni logiche e semantiche.

**Funzionamento:**

* Riconosce i livelli di heading e segmenta il contenuto in base alla struttura gerarchica del documento.
* Ogni chunk può includere il contenuto e i titoli di contesto (es. "Sezione: Sicurezza > Autenticazione").

**Codice di esempio:**

```python
from langchain.text_splitter import MarkdownHeaderTextSplitter

splitter = MarkdownHeaderTextSplitter(headers_to_split_on=[
    ("#", "header_1"),
    ("##", "header_2"),
    ("###", "header_3")
])

chunks = splitter.split_text(markdown_text)
```

**Quando usarlo:**

* Quando si lavora con documentazione tecnica, note strutturate, guide API, README
* Quando si vuole mantenere il **contesto semantico** (es. titolo della sezione da cui proviene il contenuto)
* Ideale per prompt con sezioni strutturate o navigazione tra argomenti

---

### **Custom splitter**

**Descrizione:**
LangChain consente di creare splitter personalizzati, estendendo la classe base `TextSplitter`. Questo è utile per casi specifici in cui:

* la struttura del documento è unica o personalizzata
* servono regole aziendali particolari (es. separare per paragrafo + codice)
* si vuole applicare pre-processing avanzato prima del chunking

**Esempio base di splitter personalizzato:**

```python
from langchain.text_splitter import TextSplitter

class CustomSplitter(TextSplitter):
    def split_text(self, text: str) -> list[str]:
        paragraphs = text.split("\n\n")
        return [p.strip() for p in paragraphs if p.strip()]
```

**Quando usarlo:**

* Quando gli splitter standard non producono chunk coerenti
* Se si lavora con log di sistema, output JSON, script tecnici
* Se si vogliono regole su misura (es. mantenere codice + spiegazione nel chunk)

---

### **Conclusione**

| Splitter                         | Vantaggi principali                                   | Quando usarlo                        |
| -------------------------------- | ----------------------------------------------------- | ------------------------------------ |
| `RecursiveCharacterTextSplitter` | Flessibile, controllato, gestisce testo destrutturato | Quasi sempre                         |
| `MarkdownHeaderTextSplitter`     | Mantiene contesto semantico, utile con titoli         | Documenti `.md` ben strutturati      |
| Custom splitter                  | Adattabile a ogni esigenza                            | Casi aziendali o strutture complesse |

Il chunking, se ben progettato, migliora la qualità dell’embedding, l’efficienza del retriever e la coerenza delle risposte del modello. È una fase **non banale** che merita attenzione quanto l'embedding e la generazione.


### **4. Generazione degli embedding**

#### **4.1. Cos’è un embedding**

**Proiezione di un testo in uno spazio vettoriale**
Un embedding è una rappresentazione numerica densa di un input testuale (una frase, un paragrafo, una parola), ottenuta attraverso un modello neurale.
Lo scopo è quello di **trasformare il testo in un vettore di dimensione fissa**, normalmente composto da centinaia o migliaia di valori reali, che possono essere comparati matematicamente.

Questa trasformazione è fondamentale perché:

* I modelli e le operazioni computazionali lavorano su numeri, non su parole.
* La semantica del testo (cioè il suo significato) viene **"compressa" in forma geometrica**.

Esempio:
Il testo `"come funziona il motore di ricerca"` potrebbe essere trasformato in un vettore di 1536 dimensioni, ciascuna con un valore tipo:

```
[0.023, -0.457, 0.331, ..., -0.112]
```

Ogni posizione nel vettore cattura una dimensione latente del significato. Più l’embedding è potente, più queste dimensioni risultano informative e precise.

---

**Vicinanza semantica tra vettori**
Il grande vantaggio degli embedding è che **la distanza tra vettori corrisponde a una misura della similarità semantica**.
Frasi con significato simile avranno vettori "vicini" nello spazio geometrico. Frasi diverse o opposte avranno vettori più lontani.

Esempi:

* `"Quanto costa una Tesla?"` sarà vicino a `"Prezzo di una Tesla Model Y"`
* `"Dove si trova Firenze?"` sarà lontano da `"Come cucinare il risotto"`

Le misure più comuni per confrontare i vettori sono:

* **Cosine similarity**: misura l’angolo tra i vettori (vicini = simili)
* **Dot product**: prodotto scalare (più alto = più simile)
* **L2 (euclidea)**: distanza geometrica tra due punti

Questo comportamento rende gli embedding strumenti perfetti per:

* **ricerca semantica** (retrieval)
* **clustering** e **classificazione**
* **re-ranking** di risposte
* **costruzione di sistemi RAG**, dove query e documenti vengono confrontati tramite i loro embedding

---

**Embedding e RAG**
In un sistema RAG, l'embedding è usato sia per:

1. **Indicizzare** i chunk dei documenti → ogni chunk è trasformato in un vettore e memorizzato nel vector store.
2. **Interpretare** la query dell’utente → anche la domanda viene embeddizzata e confrontata con i documenti indicizzati.

Il successo di un sistema RAG dipende in gran parte dalla **qualità di questi vettori**. Se due frasi semanticamente simili finiscono in posizioni molto lontane nello spazio vettoriale, il sistema fallirà nel recuperare i documenti corretti.

---

In sintesi:

* Un embedding è una traduzione matematica del significato di un testo.
* La distanza tra embedding corrisponde alla distanza semantica.
* Sono alla base del retrieval moderno e dell’intelligenza artificiale linguistica.



### **4.2. Modelli disponibili**

La qualità degli embedding dipende in larga parte dal **modello utilizzato**. In LangChain e in molti framework di NLP, è possibile scegliere tra modelli **proprietari (API)** e modelli **open-source (locale)**. La scelta dipende da fattori come accuratezza, costo, performance e privacy.

---

**`text-embedding-ada-002` (OpenAI)**

* È il modello di embedding più usato su OpenAI.
* Dimensione vettore: 1536
* Addestrato su molteplici lingue e tipi di testo.
* Ottimo per domande, documenti, codice, query di ricerca, ecc.
* Utilizzabile tramite API OpenAI (servizio a pagamento).

Esempio di utilizzo in LangChain:

```python
from langchain.embeddings import OpenAIEmbeddings

embedding_model = OpenAIEmbeddings(model="text-embedding-ada-002")
```

**Pro:**

* Alta qualità
* Supporto per lingue multiple
* Ottima generalizzazione
* Manutenzione e aggiornamento garantiti

**Contro:**

* A pagamento (costo per 1.000 token)
* Richiede connessione Internet
* Rischi di privacy o regolamentazioni (es. GDPR) se si usa con dati sensibili

---

**Modelli open-source (locale)**

LangChain supporta anche modelli open-source tramite HuggingFace. Tra i più diffusi:

* **`all-MiniLM-L6-v2`**

  * Velocissimo, dimensione vettore 384
  * Ottimo compromesso per uso locale
* **`bge-base-en-v1.5`**

  * Ottimizzato per ricerca semantica, ottima qualità
  * Supporta query/documento ottimizzati
* **`Instructor XL`**

  * Estremamente potente, accetta istruzioni insieme al testo
  * Perfetto per compiti complessi

Esempio di utilizzo:

```python
from langchain.embeddings import HuggingFaceEmbeddings

embedding_model = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
```

**Pro:**

* Gratuito
* Nessuna latenza di rete
* Possibilità di esecuzione offline
* Personalizzabile

**Contro:**

* Qualità inferiore ai modelli proprietari nei casi complessi
* Serve hardware adeguato per i modelli più grandi
* Alcuni modelli sono ottimizzati solo per l’inglese

---

**Conclusione**

| Modello                  | Qualità    | Costo       | Lingua         | Uso              |
| ------------------------ | ---------- | ----------- | -------------- | ---------------- |
| `text-embedding-ada-002` | Alta       | A pagamento | Multilingue    | API OpenAI       |
| `MiniLM`                 | Media      | Gratuito    | Multilingue    | Locale           |
| `bge-base`               | Alta       | Gratuito    | EN/Multilingue | Locale / ricerca |
| `Instructor`             | Molto alta | Gratuito    | EN             | Avanzato NLP     |

---

### **4.3. Embedding di documenti e query**

#### **Embedding di chunk**

Ogni documento viene spezzato in *chunk*, e ogni chunk è embeddizzato in fase di indexing.
Questo processo permette di costruire un **vector store**, in cui ogni vettore rappresenta un pezzo semantico del corpus.
Il chunk può contenere, ad esempio, un paragrafo o una sezione autonoma del documento.
È importante che ogni embedding mantenga coerenza e significato isolato.

```python
vector_store = FAISS.from_documents(chunks, embedding_model)
```

#### **Embedding di query utente**

Quando l’utente pone una domanda, anche essa viene trasformata in embedding.
Il sistema **non cerca parole chiave**, ma confronta l’embedding della query con quelli dei documenti usando una metrica di similarità.

```python
query = "Come si attiva la garanzia del prodotto?"
query_vector = embedding_model.embed_query(query)
```

Questo consente di recuperare contenuti **semanticamente simili** anche se la formulazione è diversa.

#### **Concetto di simmetria semantica**

La qualità di un sistema RAG dipende fortemente dal fatto che:

* **documenti e query siano rappresentati nello stesso spazio semantico**
* i **vettori siano confrontabili** tra loro

Questa proprietà è nota come *simmetria semantica*:

* `"Quanto costa un iPhone?"`
* `"Prezzo medio di un iPhone 14 Pro"`

Devono risultare **vicini** nello spazio degli embedding anche se le parole sono diverse.

Per ottenere questa simmetria:

* è fondamentale usare un modello addestrato sia per *query* che per *documenti*
* alcuni modelli (es. `bge-base`) hanno modalità distinte per query e documenti (query tuning)

---

**Conclusione**

La fase di embedding è il cuore matematico del sistema RAG.
Una buona strategia di chunking + scelta accurata del modello di embedding garantiscono:

* recupero semantico preciso
* risposte pertinenti
* alte performance anche su basi di conoscenza estese



### **5. Vector Store e indicizzazione semantica**

#### **5.1. Cos’è un Vector Store**

**Archivio vettoriale per embedding testuali**
Un **Vector Store** è una struttura dati progettata per **memorizzare, organizzare e interrogare grandi quantità di vettori** ad alta dimensione (gli embedding).
Nel contesto di un sistema RAG, ogni *chunk* di documento viene trasformato in un embedding e salvato all’interno del vector store, associato ai suoi metadati.

Ogni voce nel vector store contiene:

* il vettore numerico (embedding del chunk),
* i metadati (es. titolo del documento, numero di pagina, fonte),
* il contenuto originale del chunk (testo grezzo).

Il vector store è quindi il **cuore dell'indicizzazione semantica**: permette di "cercare significati", non parole.

Esempio base con FAISS:

```python
from langchain.vectorstores import FAISS
from langchain.embeddings import OpenAIEmbeddings

embedding_model = OpenAIEmbeddings()
vector_store = FAISS.from_documents(documents, embedding_model)
```

In questo esempio:

* ogni documento viene trasformato in uno o più vettori,
* FAISS li indicizza in modo da poterli confrontare efficientemente in fase di ricerca.

---

**Interrogazione per similarità**

A differenza dei classici database che cercano corrispondenze esatte tra stringhe o valori (es. SQL: `WHERE name = 'Mario'`), un vector store consente di cercare **in base alla vicinanza semantica** tra embedding.

Funzionamento:

1. L’utente pone una domanda in linguaggio naturale.
2. La domanda viene embeddizzata con lo stesso modello usato per i documenti.
3. Il sistema cerca i vettori più “vicini” a quello della query.
4. I chunk corrispondenti vengono restituiti, con eventuale ordinamento per rilevanza.

Esempio:

```python
retriever = vector_store.as_retriever()
results = retriever.get_relevant_documents("Quali sono le cause dell'inflazione?")
```

Il vector store confronta l’embedding della domanda con gli embedding salvati, calcola le distanze (es. cosine similarity), e restituisce i chunk più simili.

Questa capacità è ciò che rende un sistema RAG **semanticamente potente**, in grado di:

* recuperare informazioni anche con parole diverse da quelle usate nel testo originale,
* comprendere domande formulate in modo naturale o non perfetto,
* restituire contenuti pertinenti e contestuali.

---

**Conclusione**
Un vector store non è un semplice archivio: è uno **spazio semantico interrogabile**, ottimizzato per gestire informazioni complesse in linguaggio naturale.
Costruirlo correttamente è essenziale per la riuscita di qualsiasi sistema RAG.



#### **5.2. Opzioni principali**

Nel costruire un sistema RAG, la scelta del **vector store** ha un impatto diretto su:

* la **scalabilità** del sistema (numero di documenti gestibili),
* le **performance di ricerca** (velocità e precisione),
* la **gestione della persistenza** dei dati (salvataggio e recupero),
* la **modalità di deployment** (locale o cloud),
* le **funzionalità avanzate**, come filtri, aggiornamento dinamico, o re-ranking.

Di seguito un confronto approfondito delle principali opzioni supportate in LangChain e nel panorama attuale.

---

### **FAISS – Facebook AI Similarity Search**

**Caratteristiche:**

* Libreria sviluppata da Meta per la ricerca di similarità su grandi quantità di vettori.
* Altamente performante su CPU e GPU.
* Lavora interamente **in locale** (nessun server richiesto).

**Pro:**

* Estremamente veloce, anche con decine di migliaia di vettori.
* Supporta varie tecniche di indicizzazione (es. Flat, IVF, HNSW).
* Ottimo per prototipi e applicazioni standalone.

**Contro:**

* **Non ha persistenza nativa**: i dati devono essere salvati e ricaricati manualmente.
* Non supporta filtri complessi basati su metadati.
* Non è un database, ma una libreria in memoria.

**Esempio in LangChain:**

```python
from langchain.vectorstores import FAISS
vectorstore = FAISS.from_documents(documents, embedding_model)
```

---

### **Qdrant – Vector DB open-source**

**Caratteristiche:**

* Database vettoriale open-source (Rust + gRPC/HTTP).
* Può essere eseguito in locale o su server cloud.
* Supporta ricerca per similarità **con metadati e filtri strutturati**.

**Pro:**

* **Persistente** su disco.
* Supporta **filtraggio booleano avanzato** (es. "source = 'manuale' AND anno > 2022").
* Supporta upsert, delete e aggiornamento dinamico.
* Integrazione con HuggingFace Transformers.
* Open source, comunità attiva.

**Contro:**

* Richiede setup con Docker o binario standalone.
* Più lento di FAISS per dataset molto piccoli.

**Caso d’uso tipico:**

* Applicazioni aziendali, progetti self-hosted, sistemi RAG con filtri avanzati.

---

### **Pinecone – Vector DB as a Service**

**Caratteristiche:**

* Servizio completamente gestito di vector DB in cloud.
* Prestazioni elevate con indicizzazione scalabile (milioni di vettori).
* Piattaforma commerciale con vari piani.

**Pro:**

* **Scalabilità automatica** e gestione del carico.
* **Persistenza garantita**, multi-index, backup.
* Supporta ricerca ibrida (vector + keyword), e re-ranking.
* Interfaccia API semplice.

**Contro:**

* Richiede account e chiave API.
* È un servizio a pagamento (freemium con limiti).
* I dati sono esternalizzati (privacy, latenza).

**Ideale per:**

* Applicazioni in produzione che devono scalare.
* Team che non vogliono gestire server o database locali.

---

### **Altre soluzioni (cenni)**

**Weaviate**

* Vector DB open-source, con supporto a GraphQL.
* Supporta modelli di embedding integrati ("Bring Your Own Model").
* Persistente, supporta filtri semantici, classi, relazioni tra dati.

**Chroma**

* Vector DB locale, minimalista, focalizzato su prototipi e applicazioni leggere.
* Ottimo in abbinamento con LangChain per piccoli progetti.
* Salvataggio automatico in locale (persist directory).

**Elasticsearch + KNN plugin**

* Motore di ricerca classico che, con plugin, supporta anche ricerca per similarità vettoriale.
* Ottimo per sistemi che combinano ricerca full-text e semantica.
* Più complesso da configurare.

---

### **Confronto sintetico**

| Sistema  | Tipo      | Persistente  | Filtri avanzati | Deployment     | Performance | Costo       |
| -------- | --------- | ------------ | --------------- | -------------- | ----------- | ----------- |
| FAISS    | Libreria  | No (manuale) | No              | Locale         | Altissima   | Gratuito    |
| Qdrant   | DB        | Sì           | Sì              | Locale / Cloud | Ottima      | Gratuito    |
| Pinecone | Cloud     | Sì           | Sì              | Cloud          | Altissima   | A pagamento |
| Weaviate | DB        | Sì           | Sì              | Locale / Cloud | Buona       | Gratuito    |
| Chroma   | DB locale | Sì           | Limitati        | Locale         | Media       | Gratuito    |

---

**Conclusione**

La scelta del vector store va fatta in base al contesto:

* **Sviluppo locale o prototipazione veloce** → FAISS o Chroma
* **Sistema self-hosted e con dati aziendali** → Qdrant o Weaviate
* **Produzione su larga scala e zero manutenzione** → Pinecone



#### **5.3. Costruzione dell’indice**

Il processo di **costruzione dell’indice vettoriale** è una fase fondamentale in un sistema RAG. Consiste nel trasformare un corpus testuale in una struttura interrogabile semanticamente, tramite la generazione di embedding e l’inserimento dei vettori in un **vector store**.

Vediamo i due aspetti principali:

---

### **Creazione del database dal corpus**

La costruzione dell’indice si articola in questi passaggi fondamentali:

1. **Caricamento e segmentazione del corpus**
   Si parte da una collezione di documenti caricati e spezzettati in chunk coerenti.

   ```python
   loader = DirectoryLoader("docs/", glob="**/*.pdf", loader_cls=PyPDFLoader)
   documents = loader.load()

   splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)
   chunks = splitter.split_documents(documents)
   ```

2. **Generazione degli embedding**
   Ogni chunk viene convertito in un vettore numerico mediante un modello di embedding.

   ```python
   from langchain.embeddings import OpenAIEmbeddings

   embedding_model = OpenAIEmbeddings()
   ```

3. **Creazione dell’indice vettoriale**
   I chunk embeddizzati vengono salvati in un vector store, come FAISS, Qdrant, Pinecone o altri.

   ```python
   from langchain.vectorstores import FAISS

   vector_store = FAISS.from_documents(chunks, embedding_model)
   ```

Il risultato è un **indice vettoriale semanticamente interrogabile**, dove ogni unità testuale è associata al suo embedding e ai relativi metadati.

---

### **Salvataggio e ricaricamento**

Nel caso di vector store locali (come FAISS o Chroma), è importante **salvare l’indice su disco** per evitare di ricostruirlo ogni volta.

#### **FAISS – salvataggio**

```python
vector_store.save_local("indice_faiss")
```

#### **FAISS – caricamento**

```python
from langchain.vectorstores import FAISS

vector_store = FAISS.load_local("indice_faiss", embeddings=embedding_model)
```

Questo approccio è molto utile per:

* salvare tempo in ambienti di sviluppo,
* riutilizzare l’indice in sessioni successive o in ambienti di produzione,
* condividere un indice pre-costruito con altri sistemi.

#### **Altri sistemi**

* **Qdrant**: è persistente nativamente, non richiede salvataggio manuale.
* **Chroma**: può essere inizializzato con un percorso locale persistente:

  ```python
  Chroma(persist_directory="./chroma_db", ...)
  ```
* **Pinecone**: essendo un servizio cloud, l’indice è salvato automaticamente lato server.

---

### **Buone pratiche**

* Assicurarsi di usare sempre **lo stesso modello di embedding** per creazione e interrogazione.
* Aggiungere **metadati significativi** ai documenti (es. `title`, `source`, `page`, `category`) per facilitare il filtraggio e la tracciabilità.
* Se il corpus cambia frequentemente, prevedere **strategie di aggiornamento dinamico** (upsert, delete) o ricostruzione periodica.

---

**Conclusione**
La costruzione dell’indice rappresenta il passaggio in cui la conoscenza testuale diventa realmente "utilizzabile" dal sistema RAG. Senza un indice ben costruito e persistente, l’intero sistema perde efficienza, coerenza e reattività.



#### **5.4. Retriever**

Il **retriever** è il componente che consente di interrogare un vector store in modo semantico. In un sistema RAG, il retriever è responsabile di prendere in input una **query utente**, convertirla in embedding e restituire i **chunk più simili** dal database vettoriale.

Non è solo una semplice funzione di ricerca: può essere **personalizzato** in profondità per controllare la quantità, la qualità e il tipo di contenuti che verranno restituiti al modello generativo.

---

### **Creazione del retriever**

In LangChain, una volta costruito un vector store, è possibile creare un retriever con:

```python
retriever = vector_store.as_retriever()
```

Questo oggetto implementa il metodo:

```python
retriever.get_relevant_documents(query: str)
```

che restituisce una lista di `Document` ordinati per similarità rispetto alla query.

Esempio completo:

```python
query = "Quali sono le cause dell’inflazione?"
docs_rilevanti = retriever.get_relevant_documents(query)
for doc in docs_rilevanti:
    print(doc.page_content)
```

Questa è la base del flusso RAG: il contenuto restituito da `retriever` sarà poi iniettato nel prompt dell’LLM.

---

### **Personalizzazione**

LangChain consente di configurare e raffinare il comportamento del retriever. Le opzioni principali includono:

#### **Score Function e Similarity Metric**

Il calcolo della similarità tra l’embedding della query e i vettori indicizzati può essere eseguito con:

* **cosine similarity** (più usata in NLP)
* **dot product**
* **L2 (distanza euclidea)**

In FAISS, la scelta del metodo dipende dall’indice usato (`IndexFlatIP`, `IndexFlatL2`, ecc.).
Nei vector store come Qdrant, la metrica è dichiarata alla creazione della collezione.

#### **top\_k**

Indica quanti documenti restituire come rilevanti.
Di default `top_k=4`, ma può essere configurato:

```python
retriever = vector_store.as_retriever(search_kwargs={"k": 10})
```

Scegliere il giusto `k` è un bilanciamento tra:

* **Qualità** (troppi documenti possono “confondere” il modello)
* **Copertura** (pochi documenti rischiano di perdere il contenuto corretto)

#### **Filtraggio per metadati**

Se i documenti contengono metadati (es. `{"source": "manuale.pdf", "anno": 2023}`), è possibile filtrare i risultati solo su subset specifici.

Esempio con Qdrant o Pinecone (supportano nativamente i filtri):

```python
retriever = vector_store.as_retriever(
    search_kwargs={
        "k": 5,
        "filter": {"source": "manuale.pdf", "anno": {"$gte": 2022}}
    }
)
```

Questa funzione è essenziale per:

* **limitare la ricerca a documenti rilevanti per il contesto corrente**
* **gestire ambienti multi-azienda, multi-prodotto o multilingua**
* **eseguire ricerche tematiche o temporali**

---

### **Esempio pratico completo (FAISS semplificato)**

```python
retriever = vector_store.as_retriever(search_kwargs={"k": 5})

query = "Come resettare il dispositivo?"
docs = retriever.get_relevant_documents(query)

for d in docs:
    print(f"{d.metadata['source']}:\n{d.page_content[:200]}")
```

---

### **Conclusione**

Il retriever è il "motore di ricerca interno" del sistema RAG.
Personalizzarlo consente di:

* migliorare l’accuratezza delle risposte
* ridurre la quantità di informazioni non pertinenti
* ottimizzare le performance del modello generativo

Nei sistemi RAG professionali, retriever e vector store sono spesso **ottimizzati e calibrati** tanto quanto il modello LLM stesso.


### **6. Metriche di similarità**

#### **6.1. Definizione**

**Cos’è una metrica di similarità: misura della "vicinanza" semantica**

In un sistema RAG basato su embedding, ogni documento e ogni query vengono rappresentati come **vettori numerici ad alta dimensionalità**. A quel punto, il recupero dei documenti più rilevanti rispetto a una query non avviene più tramite keyword matching, ma confrontando questi vettori.

Per confrontare due vettori è necessario **definire una metrica di similarità**, cioè una funzione matematica che quantifica **quanto due vettori sono simili tra loro** in termini geometrici.

Nel contesto del NLP, una metrica di similarità:

* assume in input due vettori `A` e `B`,
* restituisce un valore numerico che rappresenta **quanto sono vicini nel significato**,
* è usata per classificare o ordinare i documenti rispetto a una query.

La “vicinanza” in questo contesto è **semantica**, non testuale:

* `"Qual è il prezzo di una Tesla?"`
* `"Quanto costa un'auto elettrica di marca Tesla?"`
  sono frasi testualmente diverse ma semanticamente simili, e i loro vettori avranno una **similarità alta**.

Queste metriche sono fondamentali nei **retriever**: servono per confrontare l’embedding della query con tutti gli embedding presenti nell’indice e selezionare i più simili.
Un sistema RAG efficace **si basa completamente sulla capacità di queste metriche di catturare la prossimità semantica**.

---

#### Tipi di metrica (anticipazione del 6.2)

La scelta della metrica influisce su:

* l’accuratezza del retrieval,
* le performance di calcolo,
* la compatibilità con il tipo di indice usato (es. FAISS richiede scelte esplicite).

Le metriche principali sono:

* **Cosine Similarity**
* **Dot Product**
* **L2 Distance (Euclidean)**



#### **6.2. Tipi di metriche**

In un sistema RAG, le metriche di similarità servono per **determinare quali documenti (rappresentati da vettori) sono più vicini alla query (anch’essa rappresentata da un vettore)**. A seconda della metrica scelta, il sistema selezionerà **vettori diversi come “più simili”**, e ciò influenzerà direttamente la qualità del retrieval e delle risposte.

Vediamo in dettaglio le tre metriche principali.

---

### **Cosine Similarity**

**Descrizione:**
La metrica più usata nei sistemi NLP.
Calcola il **coseno dell’angolo** tra due vettori nello spazio, ignorandone la lunghezza. In altre parole, misura **quanto i vettori puntano nella stessa direzione**, indipendentemente dalla loro intensità.

**Formula:**

$$
\text{similarity}(A, B) = \frac{A \cdot B}{\|A\| \cdot \|B\|}
$$

dove:

* $A \cdot B$ è il prodotto scalare tra i due vettori,
* $\|A\|$ e $\|B\|$ sono le norme (lunghezze) dei vettori.

**Valori:**

* 1 → massima similarità (stessa direzione)
* 0 → ortogonali (nessuna relazione)
* -1 → opposti (molto raro negli embedding NLP)

**Vantaggi:**

* Robusta in spazi di alta dimensionalità
* Invariante rispetto alla scala del vettore (es. normalizza l’intensità)
* Riflette bene la similarità semantica tra frasi e documenti

**Svantaggi:**

* Non tiene conto della lunghezza del contenuto (es. un documento lungo e uno corto ma simili possono essere considerati uguali)

**Quando usarla:**

* NLP in generale (embedding di frasi, documenti, query)
* Sistemi RAG con FAISS, Qdrant, Pinecone, ecc.

---

### **Dot Product (prodotto scalare)**

**Descrizione:**
È il semplice **prodotto scalare** tra due vettori, senza normalizzazione.
Molto usato internamente nei transformer (es. per l’attenzione) e in modelli addestrati con dot product come metrica nativa.

**Formula:**

$$
A \cdot B = \sum_{i=1}^{n} A_i \cdot B_i
$$

**Valori:**

* Positivo e grande → i vettori puntano nella stessa direzione
* Zero → ortogonali
* Negativo → direzioni opposte

**Vantaggi:**

* Più veloce da calcolare (nessuna normalizzazione)
* Adatto a modelli che non normalizzano i vettori
* È la base del funzionamento di molti modelli neurali

**Svantaggi:**

* Dipende dalla lunghezza dei vettori (una versione amplificata della cosine similarity)
* Non sempre utile se gli embedding non sono stati addestrati con questa metrica in mente

**Quando usarla:**

* Modelli personalizzati che restituiscono vettori non normalizzati
* Retrieval interni a modelli neurali (es. retrieval di token nei transformer)

---

### **L2 Norm (Euclidean Distance)**

**Descrizione:**
È la **distanza geometrica classica** tra due punti nello spazio.
In pratica, misura “quanto lontani” sono i vettori in termini di coordinate.

**Formula:**

$$
\text{distance}(A, B) = \sqrt{\sum_{i=1}^{n} (A_i - B_i)^2}
$$

**Valori:**

* 0 → i vettori sono identici
* Più è grande → meno sono simili

**Vantaggi:**

* Intuitiva dal punto di vista geometrico
* È utile se la distribuzione degli embedding ha significato spaziale diretto

**Svantaggi:**

* Sensibile alla scala del vettore
* Non funziona bene in spazi ad alta dimensionalità (fenomeno della “curse of dimensionality”)
* Richiede normalizzazione per essere efficace nel NLP

**Quando usarla:**

* Sistemi non linguistici (es. computer vision, sensori)
* Con modelli che producono embedding omogenei e centrati

---

### **Confronto sintetico**

| Metrica           | Tipo      | Normalizzata | Usata in NLP?  | Performance | Accuratezza semantica |
| ----------------- | --------- | ------------ | -------------- | ----------- | --------------------- |
| Cosine Similarity | Direzione | Sì           | Sì (molto)     | Alta        | Molto alta            |
| Dot Product       | Intensità | No           | Sì (ma meno)   | Altissima   | Dipende dal modello   |
| L2 Norm           | Distanza  | No           | No (raramente) | Media       | Bassa/variabile       |

---

**Conclusione**
La metrica **coseno** è quasi sempre la scelta migliore per sistemi NLP e RAG, a meno che:

* si utilizzi un modello che specificamente richiede il dot product (es. BERT-as-service),
* si lavori in un contesto non linguistico.


### **7. Hybrid Search: BM25 + Vector Search**

#### **7.1. Cos’è BM25**

**Algoritmo classico di ranking (IR tradizionale)**
BM25 (Best Matching 25) è uno degli algoritmi più noti e affidabili nel campo del **Information Retrieval tradizionale**.
È alla base dei motori di ricerca classici, come Lucene/Elasticsearch, e viene usato per classificare i documenti in base alla loro **rilevanza rispetto a una query di parole chiave**.

BM25 fa parte della famiglia degli algoritmi probabilistici e si basa su una logica **statistica**: misura quanto è probabile che un documento sia rilevante per una determinata query, sulla base di quanto spesso compaiono le parole chiave in quel documento rispetto all’intero corpus.

---

**Calcolo sulla base di keyword matching e frequenza**
L’idea centrale di BM25 è che:

* **più spesso una parola della query compare in un documento**, più quel documento è rilevante;
* ma se la parola è **molto frequente in tutto il corpus**, il suo peso va ridotto (concetto di *IDF*, inverse document frequency);
* inoltre, documenti troppo lunghi devono essere penalizzati per non favorire il "keyword stuffing".

**Formula semplificata:**

$$
\text{BM25}(D, Q) = \sum_{q_i \in Q} IDF(q_i) \cdot \frac{f(q_i, D) \cdot (k_1 + 1)}{f(q_i, D) + k_1 \cdot (1 - b + b \cdot \frac{|D|}{\text{avgdl}})}
$$

dove:

* $q_i$: una parola della query,
* $f(q_i, D)$: frequenza di $q_i$ nel documento $D$,
* $|D|$: lunghezza del documento,
* $\text{avgdl}$: lunghezza media dei documenti del corpus,
* $k_1, b$: parametri di bilanciamento (solitamente $k_1 \approx 1.2$, $b \approx 0.75$).

---

**Caratteristiche di BM25:**

* È **lessicale**: lavora a livello di parole, non di significato.
* Non ha bisogno di modelli neurali o embedding.
* Funziona **molto bene con documenti tecnici o con strutture ripetitive**, dove il vocabolario è limitato e specifico.
* È **trasparente e interpretabile**, a differenza delle metriche neurali.

---

**Limiti di BM25 in un contesto moderno:**

* Non comprende sinonimi o riformulazioni (“costo” ≠ “prezzo”).
* Non gestisce ambiguità semantica o contesto.
* Fallisce quando la query è espressa in modo differente rispetto al testo nel documento.

**Esempio:**

* Query: `"Come posso risolvere un errore 404?"`
* Documento: `"Soluzione per problemi di pagina non trovata"`
  BM25 fallisce, perché non trova corrispondenze lessicali esplicite, anche se il significato è simile.

---

**Conclusione:**
BM25 è ancora utile nei contesti dove il **match diretto tra parole è significativo**, e dove si desidera una componente **esatta e interpretabile** nel processo di retrieval.
Per questo motivo, è spesso usato **in combinazione con il vector search**, per realizzare un retrieval ibrido che unisca **precisione lessicale** e **comprensione semantica**.



#### **7.2. Limiti del solo vector search**

Il vector search, basato su **embedding semantici**, è estremamente potente nel catturare il significato globale di una frase o di un documento, anche in presenza di sinonimi, riformulazioni o contesto implicito. Tuttavia, questa flessibilità semantica ha anche dei limiti strutturali, soprattutto quando si lavora con contenuti altamente specifici o dove è richiesta precisione lessicale.

Ecco i principali limiti del vector search **quando usato da solo**.

---

### **Fatica con nomi propri, keyword specifiche, date**

#### **1. Nomi propri**

I modelli di embedding tendono a **generalizzare**, e non sempre riescono a gestire correttamente nomi propri come:

* Nomi di persone, luoghi, prodotti o aziende
* Titoli di articoli, documenti, libri, sentenze

**Esempio:**

* Query: “Chi è Mario Rossi?”
* Documento: “Mario Rossi è l’autore del manuale XYZ”

Se il nome compare una sola volta o in un contesto poco esplicito, il modello potrebbe **non assegnargli sufficiente peso semantico**, e quindi l’embedding della query potrebbe non essere abbastanza vicino a quello del documento.

---

#### **2. Keyword tecniche o rare**

Il vector search può ignorare **termini rari** o **sigle** molto specifiche, specie se non compaiono spesso nel corpus di training del modello di embedding.

**Esempio:**

* Query: “Specifiche del protocollo X.509”
* Documento: “L’autenticazione si basa sullo standard X.509 definito da…”

Se il modello non è stato addestrato su quel dominio, potrebbe non considerare X.509 un concetto significativo.

Questo è particolarmente problematico in ambiti:

* legali
* scientifici
* medici
* tecnici (manuali, specifiche, standard)

---

#### **3. Date, numeri, versioni**

I modelli di embedding **non gestiscono bene numeri precisi, versioni o date**, perché nella rappresentazione vettoriale:

* “2021” è trattato come un token privo di contesto temporale preciso,
* “versione 1.2.4” potrebbe essere indistinguibile da “1.3” a livello semantico,
* le differenze numeriche **non sono lineari né semanticamente rilevanti**.

**Esempio:**

* Query: “Normativa aggiornata nel 2023”
* Documento 1: “Aggiornamento del 2022”
* Documento 2: “Revisione del 2023 in vigore da aprile”

Il modello potrebbe attribuire **rilevanza simile a entrambi**, anche se la data è un vincolo decisivo.

---

### **Altri limiti importanti**

#### Ambiguità controllata

Il vector search tende a **favorire documenti semanticamente vicini**, anche se **non contengono esplicitamente la risposta**. Questo può portare a:

* Allucinazioni semantiche (documenti troppo generici ma semanticamente simili)
* Rumore nei top-k documenti (chunk irrilevanti ma simili per tono)

#### Mancanza di trasparenza

Il vector search non restituisce un “perché” un documento è stato scelto.
A differenza di BM25, non è immediato dire “questa parola chiave ha avuto peso X”.

---

### **Conclusione**

Il vector search eccelle nel trovare **concetti simili**, ma non è affidabile per:

* precisione lessicale (nomi propri, sigle, keyword)
* dati strutturati (date, versioni, numeri)
* domini dove la **presenza esatta di termini** è cruciale

Per questo motivo, è buona pratica **combinare il vector search con un sistema di retrieval classico** (es. BM25) attraverso un **approccio ibrido**, che permette di unire il meglio dei due mondi.



#### **7.3. Tecnica ibrida: BM25 + Vector Search**

Combining il recupero basato su parole chiave (BM25) con la ricerca semantica (via embeddings) crea un sistema di retrieval più potente e accurato—un approccio ideale per i sistemi RAG più robusti.

---

### Combinazione ponderata: BM25 + Embeddings

L’idea alla base della **hybrid search** è semplice:

1. **Lo sparse retriever** (come BM25) eccelle nel trovare parole chiave esatte, nomi propri o dati precisi.
2. **Il dense retriever** (basato su embeddings) capisce il significato generale, anche se le parole nella query differiscono da quelle del testo.

In un sistema ibrido, entrambi i risultati vengono **uniti e riordinati** secondo una formula ponderata. Ad esempio, si può assegnare un peso 0.4 a BM25 e 0.6 all'embedding-based (FAISS), così da bilanciare precisione lessicale e copertura semantica ([Medium][1], [LangChain][2]).

---

### Ensemble Retriever: configurazione e tuning

LangChain supporta un componente chiamato `EnsembleRetriever` per combinare più retriever in parallelo:

* Si definiscono due retriever distinti:

  * **BM25Retriever**, per la ricerca lessicale.
  * **Vector retriever**, su FAISS o simile, per la similarità semantica.
* Poi si crea l’**ensemble retriever** con pesi personalizzabili:

```python
from langchain.retrievers import BM25Retriever, EnsembleRetriever
from langchain.vectorstores import FAISS
from langchain.embeddings import OpenAIEmbeddings

# BM25 retriever su lista di testi (o chunk)
bm25 = BM25Retriever.from_documents(documents)
bm25.k = 2  # top-k documenti da BM25

# Vector retriever su FAISS
embeddings = OpenAIEmbeddings()
vector_store = FAISS.from_documents(documents, embeddings)
vector = vector_store.as_retriever(search_kwargs={"k": 2})

# Ensemble retriever con pesi (ad esempio 50-50)
ensemble = EnsembleRetriever(retrievers=[bm25, vector], weights=[0.5, 0.5])
```

Il metodo `get_relevant_documents(query)` restituisce i documenti riordinati sulla base del punteggio combinato ([Medium][1], [Superlinked][3]).

---

### Vantaggi dell’ibrido

* Copre **sia la precisione lessicale** (es. nomi propri, date, keyword specifiche) sia la **flessibilità semantica** (sineddoche, sinonimi, contesto implicito).
* Risultati più **robusti e rilevanti**, soprattutto su query complesse o su corpus con stile variegato ([Weaviate][4]).
* È un modello versatile, facilmente adattabile e calibrabile grazie ai pesi dell’ensemble ([Medium][1], [Superlinked][3]).

---

### Conclusione

L’approccio ibrido consente di superare i limiti intrinseci sia delBM25 (rigidità lessicale) sia del vector search (imprecisione su concetti espliciti). Usando `EnsembleRetriever`, si ottiene un sistema RAG molto più efficace e adatto ai contenuti reali.



### **8. Conversational Memory e gestione token**

#### **8.1. Il problema della memoria nei LLM**

I **modelli linguistici di grandi dimensioni (LLM)**, come GPT, Claude o PaLM, sono progettati per generare testo in risposta a un prompt. Tuttavia, questi modelli non possiedono una “memoria a lungo termine” tra le chiamate successive: **ogni interazione avviene in una finestra di contesto limitata**, chiamata **token window**.

---

### **Token window e dimenticanza**

**Cos’è la token window?**
È il limite massimo di contenuto che può essere fornito al modello (tra input e output) in una singola interazione. Tutto il testo (prompt, documenti recuperati, cronologia della conversazione, istruzioni) deve stare **entro questo limite**, espresso in **token** (unità minime di testo, simili a parole spezzate).

| Modello          | Token Window tipica                        |
| ---------------- | ------------------------------------------ |
| GPT-3.5-turbo    | 4k – 16k token                             |
| GPT-4            | 8k – 128k token (a seconda della versione) |
| Claude 2         | fino a 200k token                          |
| LLaMA-2 (locale) | \~4k – 32k token                           |

**Cosa succede quando si supera il limite?**

* Il contenuto in eccesso viene **tagliato automaticamente**, partendo dalle prime righe del prompt.
* Il modello **“dimentica”** le parti rimosse, anche se erano importanti per mantenere il contesto.
* Questo può portare a risposte incoerenti, ripetizioni o contraddizioni.

Esempio:

* Se si fa una domanda riferendosi a una risposta data 10 scambi prima, e il token limit è stato superato, il modello **non sarà più in grado di ricordarla**.

---

### **Perché è un problema nei sistemi conversazionali (RAG)**

I sistemi RAG che usano LLM in modalità conversazionale, come i chatbot aziendali o gli assistenti virtuali, spesso hanno queste caratteristiche:

* Lo scambio con l’utente è **progressivo** (domande, follow-up, chiarimenti).
* Ogni risposta **dipende dal contesto** (precedenti messaggi o risposte).
* Devono **adattarsi dinamicamente** alla conversazione, mantenendo coerenza.

Ma con un limite di token:

* Dopo una certa lunghezza, **il sistema dimentica le parti iniziali della conversazione**.
* Il modello non può “ricordare” messaggi precedenti se non vengono **riportati manualmente nel prompt**, il che però consuma token preziosi.
* Inoltre, se il sistema recupera chunk da documenti esterni, questi devono competere con la conversazione nel prompt, aumentando il rischio di dimenticanza.

---

### **Conseguenze pratiche**

* È impossibile mantenere lo storico completo oltre i limiti del modello.
* I contenuti recuperati dal retriever potrebbero **non entrare** nel prompt se la memoria conversazionale è troppo lunga.
* La **qualità delle risposte decresce** man mano che la finestra viene riempita.
* Occorre gestire manualmente **cosa ricordare, cosa riassumere e cosa dimenticare**.

---

### **Conclusione**

I LLM non hanno una vera “memoria persistente” e lavorano in una finestra limitata.
Questo rende necessaria l’implementazione di **strategie di memoria personalizzate** (che vedremo nei punti successivi), per conservare il contesto e mantenere conversazioni coerenti, soprattutto in applicazioni su larga scala o in dialoghi lunghi.


#### **8.2. Tipi di memoria in LangChain**

In LangChain, la **memoria conversazionale** serve per simulare una forma di continuità tra le richieste successive inviate all’LLM. Poiché i modelli non hanno una memoria persistente tra le chiamate, LangChain fornisce componenti chiamati **Memory**, che si occupano di **salvare, aggiornare e fornire il contesto** al modello a ogni interazione.

Esistono diversi tipi di memoria, ciascuno con vantaggi e compromessi differenti. Vediamoli uno per uno.

---

### **1. `ConversationBufferMemory` – cronologia semplice**

**Descrizione:**
Salva tutto lo storico della conversazione come un **unico blocco testuale** (prompt di tipo: "User: ...\nAI: ..."). Ogni volta che viene fatta una richiesta, l’intero contesto viene concatenato e reinviato al modello.

**Caratteristiche principali:**

* Salva tutto: nessun riassunto o filtro.
* I messaggi vengono ripetuti nel prompt ogni volta.
* Perfetta fedeltà della cronologia.

**Uso tipico:**

```python
from langchain.memory import ConversationBufferMemory

memory = ConversationBufferMemory()
```

**Vantaggi:**

* Facilissimo da usare.
* Coerenza perfetta nel breve termine.
* Adatto a conversazioni brevi o prototipi.

**Svantaggi:**

* Quando il numero di token diventa troppo alto, **il prompt esplode** e si taglia il contenuto.
* Nessuna strategia di compressione.

**Quando usarlo:**

* Demo, ambienti controllati, sessioni brevi.

---

### **2. `ConversationSummaryMemory` – riassunto automatico**

**Descrizione:**
Man mano che la conversazione si allunga e i token crescono, il sistema **riassume automaticamente i messaggi precedenti**, comprimendo il contenuto per rimanere entro il limite della finestra.

Utilizza un **modello LLM per generare riassunti semantici** del contesto trascorso.

**Uso tipico:**

```python
from langchain.memory import ConversationSummaryMemory
from langchain.chat_models import ChatOpenAI

memory = ConversationSummaryMemory(llm=ChatOpenAI())
```

**Funzionamento:**

* Dopo ogni scambio, il sistema aggiorna un riassunto.
* Il riassunto viene passato nel prompt come contesto, anziché tutta la cronologia.

**Vantaggi:**

* Più scalabile: consente di sostenere sessioni lunghe.
* Riduce il numero di token consumati.
* Mantiene la coerenza delle informazioni centrali.

**Svantaggi:**

* **Perdita di dettaglio**: alcune informazioni minori possono andare perse nel riassunto.
* Richiede un modello per sintetizzare (costo computazionale aggiuntivo).

**Quando usarlo:**

* Conversazioni estese.
* Sistemi di assistenza clienti, coaching, helpdesk.

---

### **3. `ConversationBufferWindowMemory` – finestra scorrevole**

**Descrizione:**
Mantiene solo **gli ultimi N scambi** (es. ultimi 3 messaggi utente + 3 risposte AI), ignorando il resto della conversazione.

È una via di mezzo tra `BufferMemory` (tutto) e `SummaryMemory` (riassunto): in questo caso si **taglia attivamente la cronologia** più vecchia.

**Uso tipico:**

```python
from langchain.memory import ConversationBufferWindowMemory

memory = ConversationBufferWindowMemory(k=3)  # conserva ultimi 3 turni
```

**Vantaggi:**

* Più efficiente in termini di token.
* Buona coerenza se l’interazione si basa solo su contenuti recenti.

**Svantaggi:**

* Nessuna traccia del contesto remoto.
* L’utente può confondersi se fa riferimento a messaggi più vecchi.

**Quando usarlo:**

* Bot informativi con interazioni rapide.
* Interfacce in cui si sa che le domande non richiederanno contesto storico.

---

### **4. `VectorStoreRetrieverMemory` (o `VectorStoreMemory`) – memoria semantica a lungo termine**

**Descrizione:**
Salva la conversazione in un **vector store**, generando un embedding per ogni messaggio. Quando necessario, viene fatta una ricerca semantica per recuperare i messaggi più rilevanti rispetto alla query corrente.

**Uso tipico:**

```python
from langchain.memory import VectorStoreRetrieverMemory
from langchain.vectorstores import FAISS
from langchain.embeddings import OpenAIEmbeddings

vectorstore = FAISS.from_texts([], OpenAIEmbeddings())
retriever = vectorstore.as_retriever()
memory = VectorStoreRetrieverMemory(retriever=retriever)
```

**Vantaggi:**

* **Memoria persistente e scalabile** anche su centinaia di messaggi.
* Recupera contenuti semanticamente vicini, anche se formulati diversamente.
* Utile per chatbot su lungo periodo o con interazioni profonde.

**Svantaggi:**

* Più complesso da configurare.
* Il retrieval potrebbe fallire su messaggi brevi o ambigui.
* Richiede un buon sistema di embedding.

**Quando usarlo:**

* Chatbot intelligenti che devono “ricordare” interazioni passate per settimane o mesi.
* Sistemi multi-turno in cui la logica della conversazione è distribuita nel tempo.

---

### **Conclusione**

Ogni tipo di memoria ha vantaggi specifici. La scelta va fatta in base a:

* **Durata e profondità** della conversazione.
* **Vincoli di costo** (es. modelli per il riassunto).
* **Obiettivo del sistema** (demo, produzione, prototipo, ecc.).

| Tipo di memoria      | Caratteristica chiave             | Quando usarla                       |
| -------------------- | --------------------------------- | ----------------------------------- |
| `BufferMemory`       | Storico completo                  | Conversazioni brevi                 |
| `SummaryMemory`      | Riassunto automatico              | Dialoghi lunghi, sistemi reali      |
| `BufferWindowMemory` | Solo ultimi N scambi              | Interazioni rapide e recenti        |
| `VectorStoreMemory`  | Memoria semantica su vector store | Persistenza e recupero intelligente |



#### **8.3. Gestione avanzata della memoria conversazionale**

Nei sistemi RAG in produzione o nei chatbot con interazioni multi-sessione, non basta tenere in memoria il contesto corrente: è necessario **salvare, recuperare e persistere** lo stato della conversazione, anche dopo ore, giorni o settimane. Questo consente di costruire sistemi più **coerenti, personalizzati e intelligenti**, capaci di "ricordare" l’utente.

Vediamo come gestire la memoria in modo avanzato in LangChain.

---

### **Salvataggio e ripristino della conversazione**

Le memorie di LangChain possono essere serializzate e deserializzate, così da poter:

* salvare lo stato dopo ogni interazione (autosave),
* ricaricarlo al login successivo dell’utente,
* spostarlo tra ambienti (es. sviluppo → produzione).

#### Esempio – `ConversationBufferMemory`

```python
from langchain.memory import ConversationBufferMemory
import json

# Creazione della memoria e aggiunta di uno scambio
memory = ConversationBufferMemory()
memory.save_context({"input": "Ciao"}, {"output": "Ciao! Come posso aiutarti?"})

# Serializzazione in JSON
json_data = json.dumps(memory.chat_memory.dict())

# Salvataggio su file
with open("memoria.json", "w") as f:
    f.write(json_data)

# In un secondo momento: ricarico la memoria
from langchain.schema import messages_from_dict, messages_to_dict
from langchain.memory.chat_memory import ChatMessageHistory

with open("memoria.json", "r") as f:
    data = json.loads(f.read())

# Riconversione e reinserimento nella memoria
chat_history = ChatMessageHistory(messages=messages_from_dict(data["messages"]))
memory.chat_memory = chat_history
```

Questo approccio è **compatibile con qualsiasi tipo di memoria**, purché l’oggetto `chat_memory` sia disponibile.

---

### **Persistenza in JSON, DB o Cloud**

#### **1. File JSON (locale)**

* Soluzione semplice e leggera.
* Ideale per prototipi, piccoli progetti, testing.
* Ogni utente può avere un file dedicato (es. `utente_42_memoria.json`).

#### **2. SQLite / PostgreSQL / MongoDB**

Per progetti reali multiutente, è consigliato salvare la memoria in un database strutturato:

* Ogni utente ha una sessione con uno o più messaggi salvati.
* È possibile usare ORM (come SQLAlchemy) per mappare il contenuto della conversazione in una tabella.
* Ogni messaggio viene salvato come JSON (`{"role": "user", "content": "..."}`).

Esempio struttura tabella:

```sql
CREATE TABLE memoria_chat (
    utente_id TEXT,
    timestamp TIMESTAMP,
    messaggi JSONB
);
```

#### **3. Persistenza per vector store memory**

Se si utilizza `VectorStoreMemory`, è possibile **salvare il vector store su disco** (FAISS, Chroma) oppure utilizzare una soluzione persistente come Qdrant o Weaviate.

```python
# Salvataggio FAISS
retriever.vectorstore.save_local("memoria_semantica")

# Ricarica
from langchain.vectorstores import FAISS
retriever.vectorstore = FAISS.load_local("memoria_semantica", embedding_model)
```

---

### **Best practice**

* Assegna un **ID univoco per ogni utente/sessione**, per distinguere le conversazioni.
* Usa **timestamp** o ID incrementale per ordinare cronologicamente i messaggi.
* Applica un **limite di profondità o durata** per evitare che le conversazioni crescano all’infinito.
* In caso di memory summary, salva anche il **riassunto intermedio**, non solo la cronologia.

---

### **Conclusione**

La gestione avanzata della memoria è fondamentale per:

* creare chatbot personalizzati,
* rendere le risposte più coerenti e contestuali,
* garantire un’esperienza continuativa anche tra sessioni diverse.

LangChain fornisce gli strumenti per gestire questa persistenza sia in locale (file, vector store) sia su infrastrutture più complesse (DB o cloud).



#### **9.1. Prompt Template dinamico**

Nei sistemi RAG, il prompt non è statico. A differenza di un semplice "chatbot", qui il prompt viene **costruito dinamicamente a ogni interazione**, combinando:

* istruzioni di sistema,
* documenti recuperati dal retriever,
* messaggi utente,
* eventuale memoria conversazionale.

Per ottenere risposte coerenti, pertinenti e controllabili, è fondamentale **costruire prompt ben strutturati**, con sezioni chiare e componibili. Questo viene fatto tramite i cosiddetti **prompt template dinamici**.

---

### **Struttura: istruzione + contesto + domanda**

La struttura di un prompt RAG tipico si può rappresentare come:

```
[System Prompt o istruzione iniziale]
+
[Contesto recuperato]  ← (chunk dai documenti)
+
[Domanda utente]
```

Esempio concreto:

```text
Sei un assistente esperto in normative fiscali italiane. Rispondi in modo accurato, citando solo i documenti forniti.

Contesto:
1. "Nel regime forfettario, l’aliquota IRPEF è ridotta al 5% per i primi cinque anni."
2. "L’INPS deve essere calcolata sulla base del reddito imponibile al 25,72%."

Domanda:
Quali sono le aliquote da considerare per un consulente in regime forfettario?
```

Questo approccio presenta due vantaggi fondamentali:

* il **prompt cambia a ogni interazione**, adattandosi ai documenti più rilevanti per quella specifica domanda;
* il contesto è **controllato e tracciabile**, riducendo le allucinazioni del modello.

In LangChain, si può usare un `PromptTemplate` o `ChatPromptTemplate` per generare dinamicamente il prompt:

```python
from langchain.prompts import PromptTemplate

template = """
Sei un assistente tecnico. Usa esclusivamente i documenti seguenti per rispondere.

Contesto:
{context}

Domanda:
{question}
"""

prompt = PromptTemplate(
    input_variables=["context", "question"],
    template=template
)
```

---

### **Personalizzazione per tono e stile**

Un vantaggio dei LLM è la loro **versatilità stilistica**. Modificando la parte "istruzione" del prompt, possiamo guidare la risposta in base al contesto d’uso.

#### Esempi di personalizzazione:

* **Tono formale e tecnico**:

  ```text
  Rispondi come un consulente legale esperto, con linguaggio tecnico ma accessibile.
  ```

* **Tono marketing**:

  ```text
  Rispondi come un copywriter professionista: tono persuasivo, orientato alla vendita.
  ```

* **Stile bullet point**:

  ```text
  Rispondi con un elenco puntato ordinato, evidenziando vantaggi e svantaggi.
  ```

* **Lingua o dialetto specifico**:

  ```text
  Rispondi in inglese britannico formale.
  Rispondi in italiano semplice, adatto a studenti delle superiori.
  ```

* **Contesto aziendale specifico**:

  ```text
  Rispondi come se fossi il chatbot ufficiale di [Nome Azienda], che si rivolge ai clienti con tono cordiale ma professionale.
  ```

Queste istruzioni possono essere **template-izzate** e inserite all’inizio del prompt, come blocco `system`.

---

### **Best practice per la costruzione di prompt dinamici RAG**

1. **Isola i documenti nel prompt**: ad es. metti ogni chunk numerato o separato da delimitatori (`---`).
2. **Includi istruzioni chiare**: specifica che il modello **deve usare solo le fonti fornite**.
3. **Aggiungi vincoli di formato**, se desideri output in JSON, elenco puntato, paragrafo breve, ecc.
4. **Evita di fornire troppe fonti**: se il contesto è troppo lungo, il modello può confondersi o ignorarne una parte.
5. **Sfrutta la funzione `return_source_documents=True`** per esporre all’utente i documenti usati.

---

### **Conclusione**

Il prompt dinamico è la vera interfaccia tra retrieval e generazione.
Scrivere buoni template significa:

* migliorare la qualità della risposta,
* ridurre allucinazioni e ambiguità,
* adattare lo stile dell’output al proprio brand o dominio.



#### **9.2. LangChain `RetrievalQA` chain**

In LangChain, la classe `RetrievalQA` rappresenta una **catena composita** che unisce in modo diretto due elementi fondamentali in un sistema RAG:

1. Il **retriever**, responsabile del recupero dei documenti rilevanti dal vector store o da una fonte ibrida (es. ensemble con BM25).
2. Il **LLM**, incaricato di generare la risposta a partire dal contesto recuperato.

Questa classe fornisce un’interfaccia semplice e modulare per costruire sistemi RAG robusti, componibili e facilmente personalizzabili.

---

### **Integrazione tra retriever e LLM**

Il componente `RetrievalQA` si comporta come una classica LangChain chain: prende un input (in questo caso, la domanda), esegue un recupero dei documenti, costruisce un prompt dinamico con i contenuti trovati, e infine interroga il modello LLM per generare la risposta finale.

#### **Esempio base di utilizzo:**

```python
from langchain.chains import RetrievalQA
from langchain.chat_models import ChatOpenAI

qa_chain = RetrievalQA.from_chain_type(
    llm=ChatOpenAI(temperature=0),
    retriever=retriever,  # può essere FAISS, Qdrant, ensemble, etc.
    return_source_documents=True
)
```

Dopo aver creato la catena, si può eseguire una query con:

```python
result = qa_chain("Quali sono le condizioni per accedere al regime forfettario?")
print(result["result"])  # risposta generata
```

---

### **Cosa fa internamente:**

1. **Embeddizza la query** usando lo stesso modello usato per il corpus.
2. **Recupera i chunk più simili** dal vector store tramite il retriever.
3. **Inserisce i chunk nel prompt** dinamico usando un template standard (o personalizzato).
4. **Chiama l’LLM** con il prompt così costruito.
5. **Restituisce la risposta** (e, se richiesto, le fonti).

---

### **Opzione `return_source_documents`**

Passando `return_source_documents=True` durante l’inizializzazione, la catena restituirà anche i **documenti/chunk usati per generare la risposta**.

Questo è molto utile in vari casi:

* **Debugging**: vedere cosa è stato realmente recuperato dal retriever.
* **Auditing e spiegabilità**: mostrare all’utente l’origine delle informazioni.
* **Valutazione della qualità del retrieval**: confrontare la risposta con le fonti.

#### Esempio:

```python
result = qa_chain("Qual è l'aliquota IRPEF per un forfettario?")
print("Risposta:", result["result"])

print("\nFonti:")
for doc in result["source_documents"]:
    print("-", doc.metadata.get("source", "sconosciuto"))
    print("  ", doc.page_content[:200], "...\n")
```

---

### **Best practice per `RetrievalQA`**

* Usa `temperature=0` per risposte più coerenti e meno creative (soprattutto se l’output deve essere preciso e documentato).
* Personalizza il `prompt_template` se vuoi controllare il tono o la forma della risposta.
* Aggiungi filtri al retriever per usare solo un subset di documenti (es. categoria, lingua, fonte).
* Se hai bisogno di maggiore controllo, usa una **custom chain** con `RetrievalQAWithSourcesChain` o `ConversationalRetrievalChain`.

---

### **Conclusione**

La `RetrievalQA` chain è il punto d’ingresso più semplice e potente per costruire un sistema RAG funzionante con LangChain.
Con pochi parametri puoi:

* combinare retrieval e generazione,
* accedere alle fonti originali,
* creare un flusso di risposta dinamico e scalabile.


#### **9.3. Errori comuni nella costruzione del prompt e gestione del contesto**

Anche se LangChain automatizza molti aspetti della costruzione di un sistema RAG, esistono **errori frequenti** che degradano la qualità delle risposte generate o rendono il comportamento del sistema incoerente. I due più diffusi riguardano l’uso improprio del **contesto** e la formulazione della **domanda utente**.

---

### **Contesto troppo lungo**

#### Problema:

Quando si inserisce nel prompt **un numero eccessivo di chunk** (ad esempio 10–20 blocchi di 500 token), si corre il rischio di:

* superare la finestra massima di token del modello (token window),
* far “annegare” la domanda in un contesto troppo verboso o ridondante,
* introdurre contenuti **non rilevanti** che possono “distrarre” il modello.

#### Effetti:

* Il modello può ignorare la parte più importante della domanda.
* La risposta può essere generica, vaga o fuori tema.
* Il comportamento diventa non deterministico: la stessa domanda può produrre risposte diverse, a seconda di quali chunk vengono tagliati.

#### Esempio:

```text
Contesto (10 chunk da 500 token)
+
Domanda: Qual è l’aliquota IRPEF?

→ Il modello risponde con un’introduzione generale alla fiscalità, ma **non fornisce l’aliquota specifica**.
```

#### Soluzioni:

* Imposta un limite ragionato al numero di documenti (`top_k`) restituiti dal retriever (es. 3–5).
* Applica **re-ranking** o filtri per selezionare solo i chunk più rilevanti.
* Considera strategie come:

  * **Chunk scoring**
  * **Prompt compressi (raggruppati)**
  * **RAG con selezione dinamica per posizione o metadati**

---

### **Mancanza di struttura nella domanda**

#### Problema:

Una domanda **troppo vaga o mal strutturata** impedisce al modello di:

* capire il contesto richiesto (chi è l’utente? cosa si aspetta?),
* scegliere tra ambiguità,
* restituire un output formattato correttamente.

#### Esempi di domande deboli:

* “Mi parli del regime forfettario”
* “Quali sono i problemi?”
* “Spiegami cosa devo sapere”

In queste formulazioni:

* non è chiaro cosa si vuole sapere (definizione? vantaggi? requisiti? esempi?).
* il modello può **riempire il vuoto con contenuto generico**, anche se il contesto è preciso.

#### Effetti:

* La risposta è vaga, eccessivamente ampia o parziale.
* Il contesto viene sottoutilizzato.
* La generazione può introdurre “allucinazioni” non supportate.

#### Soluzioni:

* **Formulare domande specifiche, chiare, mirate**, ad esempio:

  * “Quali sono i requisiti di accesso al regime forfettario secondo la normativa 2023?”
  * “Qual è l’aliquota IRPEF applicabile a un consulente nel primo anno?”
* Se l’utente finale può inserire la domanda, usare **prompt di sistema che diano esempi di buone domande**.
* Integrare sistemi di **rephrasing automatico** o **classificazione dell’intento** per adattare o chiarire la domanda in background.

---

### **Conclusione**

Evitare questi errori comuni significa:

* ottimizzare l’efficacia del retriever e del modello generativo,
* risparmiare token,
* aumentare la precisione, la coerenza e la soddisfazione dell’utente.

Questi accorgimenti, pur semplici, fanno spesso la differenza tra un RAG mediocre e un sistema realmente utile.


#### **10.1. Precision\@k**

Quando si costruisce un sistema RAG, è fondamentale **valutare le sue prestazioni in modo oggettivo**, sia per migliorarlo iterativamente che per confrontare alternative (modelli, retriever, strategie di chunking, etc.).
Una delle metriche fondamentali per valutare **la qualità del recupero dei documenti** è la **precision\@k**.

---

### **Definizione: % di documenti rilevanti nei primi k**

**Precision\@k** (precision at top-k) misura **quanti dei primi `k` documenti restituiti dal retriever sono effettivamente rilevanti** per una determinata domanda.

$$
\text{Precision@k} = \frac{\text{Numero di documenti rilevanti nei primi k}}{k}
$$

#### Esempio:

Supponiamo che il sistema restituisca i primi 5 documenti (`k = 5`), e che 3 di questi contengano effettivamente l'informazione necessaria per rispondere correttamente alla domanda.
Allora:

$$
\text{Precision@5} = \frac{3}{5} = 0.6
$$

**Interpretazione:**

* Precision\@k = 1 → tutti i documenti recuperati sono rilevanti
* Precision\@k = 0 → nessun documento utile è stato trovato tra i primi k

**Nota importante:**
La precision\@k **valuta solo il retriever**, non il modello generativo. È utile per sapere se il sistema ha *recuperato* i dati giusti prima ancora di costruire il prompt per l'LLM.

---

### **Calcolo manuale vs automatico**

#### **Calcolo manuale**

Nel calcolo manuale, un valutatore umano (o docente, nel caso di un progetto didattico) esamina i documenti recuperati rispetto a una domanda e decide quali sono:

* **rilevanti** (contengono la risposta in modo esplicito, corretto e utile),
* **non rilevanti** (fuori tema, vaghi o fuorvianti).

**Esempio di checklist manuale:**

```text
Domanda: "Qual è l’aliquota IRPEF nel regime forfettario?"
Documenti restituiti:
1. Sì – contiene la risposta corretta → ✔
2. No – parla della gestione INPS → ✘
3. Sì – riporta aliquota aggiornata → ✔
4. Sì – contiene confronto tra aliquote → ✔
5. No – parla del regime ordinario → ✘

Precision@5 = 3/5 = 0.6
```

Questa modalità è ideale per:

* progetti pilota,
* testing qualitativo,
* dataset piccoli con supervisione.

#### **Calcolo automatico**

In ambienti più grandi o automatizzati, è possibile calcolare la precision\@k in modo **semi-automatico o automatico**:

1. **Ground truth**: si predispone un dataset di domande con le fonti corrette (documenti rilevanti per ciascuna).
2. Si esegue il retrieval per ogni domanda.
3. Si confrontano i documenti restituiti con quelli attesi.

Questo è particolarmente utile in pipeline con:

* benchmark automatizzati,
* test A/B tra retriever diversi,
* ottimizzazione iterativa (ad esempio con `Optuna` o altri tool di tuning).

**Attenzione:**
Il calcolo automatico della precision richiede che i documenti abbiano **ID stabili** (es. filename + numero di pagina o hash) per poter confrontare in modo affidabile le corrispondenze tra retrieved e expected.

---

### **Conclusione**

**Precision\@k** è una metrica semplice ma potente per:

* diagnosticare errori del retriever,
* confrontare configurazioni diverse (modelli, chunking, metadati),
* valutare quanto il sistema recupera **effettivamente** informazioni utili.

Nella pratica, va usata **in combinazione con metriche generative**, come la qualità della risposta finale (vedi 10.2), per ottenere un quadro completo delle performance del sistema.


#### **10.2. Valutazione della risposta**

Dopo aver valutato la qualità del **retrieval** (ad es. con precision\@k), è fondamentale misurare la **correttezza e utilità della risposta generata dal LLM**.
Questa fase di valutazione mira a rispondere a domande come:

* La risposta è **corretta** rispetto al contesto fornito?
* È **completa**, **coerente**, **non allucinata**?
* Riflette fedelmente il contenuto dei documenti recuperati?

Esistono due approcci principali:

---

### **1. Valutazione Manuale (Human Evaluation)**

Il metodo più affidabile ma costoso in termini di tempo. Un umano valuta se la risposta è:

| Criterio             | Descrizione                                                         |
| -------------------- | ------------------------------------------------------------------- |
| **Correctness**      | La risposta è corretta rispetto alla domanda?                       |
| **Faithfulness**     | L’output si basa solo sul contesto fornito (no allucinazioni)?      |
| **Completeness**     | La risposta copre tutti gli aspetti rilevanti della domanda?        |
| **Readability**      | È comprensibile, ben scritta, coerente?                             |
| **Source alignment** | Le affermazioni fatte nella risposta sono supportate dai documenti? |

#### Esempio di scala a 3 punti:

* **2 = Corretta e supportata**
* **1 = Parzialmente corretta o incompleta**
* **0 = Sbagliata o allucinata**

Questo tipo di valutazione è ideale:

* in fase di test iniziale,
* per valutare piccoli dataset,
* durante lo sviluppo di RAG specialistici (es. legali, medici, aziendali).

---

### **2. Valutazione Automatica (LLM-as-a-Judge)**

Per validare molte risposte rapidamente, è possibile **usare un altro LLM per giudicare** la correttezza dell’output generato dal primo modello.
Questa tecnica è chiamata **"LLM-as-a-Judge"**.

#### Prompt tipico:

```text
Hai ricevuto una risposta a una domanda, e un insieme di documenti come contesto.

Domanda:
{question}

Contesto:
{retrieved_chunks}

Risposta:
{generated_answer}

La risposta è corretta e basata sui documenti?
- Rispondi con: CORRETTA / PARZIALMENTE CORRETTA / SBAGLIATA
- Spiega brevemente il perché.
```

#### Output desiderato:

```text
CORRETTA

La risposta specifica l’aliquota IRPEF del 5% come riportato nel documento 1, ed è coerente con le fonti.
```

---

### **Pro e contro della valutazione automatica**

| Pro                                    | Contro                                 |
| -------------------------------------- | -------------------------------------- |
| Rapida e scalabile                     | Meno affidabile per risposte complesse |
| Può essere integrata in pipeline MLOps | Rischio di bias del modello            |
| Può generare spiegazioni per debugging | Richiede prompt ben progettati         |

#### Consigli:

* Usa **modelli di valutazione diversi** dal generatore, se possibile.
* Usa **zero-shot** o **few-shot prompting** per aiutare il valutatore a essere più rigoroso.
* Valuta campioni casuali con **validazione incrociata umana**, per verificare la qualità della valutazione automatica.

---

### **Bonus: metriche automatiche classiche (limitate)**

* **BLEU**, **ROUGE**, **METEOR**: usate nel NLP classico per confrontare output testuali con ground truth.
  Ma in RAG sono spesso **inadeguate**, perché la risposta può essere corretta anche se diversa da quella “attesa”.
* **BERTScore**: confronta le risposte a livello semantico, usando embedding. Utile per valutazioni più “flessibili”.

---

### **Conclusione**

Una buona valutazione delle risposte deve bilanciare:

* **accuratezza umana**, quando possibile,
* **scalabilità automatica**, con prompt ben calibrati.

In un progetto didattico o aziendale, una pipeline mista (es. 10% valutazione umana + 90% automatica) è spesso la soluzione più efficace.


#### **10.3. Prompt di validazione**

Oltre a una semplice classificazione “corretta/sbagliata”, i **prompt di validazione ben progettati** possono aiutare un LLM (o un valutatore umano assistito) a giudicare in modo più sottile e preciso le risposte di un sistema RAG.
Questa pratica è fondamentale per analizzare: **qualità, affidabilità, tono, completezza, presenza di bias**, e allucinazioni.

---

### **Prompt per analisi della correttezza**

Questi prompt servono per validare se la **risposta è supportata dai documenti** e **rilevante per la domanda**.

#### Prompt base:

```text
Hai ricevuto una domanda, una risposta generata da un modello, e i documenti di supporto.

Valuta se la risposta è:
1. Corretta rispetto alla domanda
2. Basata esclusivamente sui documenti forniti
3. Rilevante e focalizzata

Domanda: {question}
Risposta: {generated_answer}
Documenti: {retrieved_documents}

Scrivi: CORRETTA / PARZIALMENTE CORRETTA / SBAGLIATA
Motiva la tua valutazione in 1-2 frasi.
```

#### Prompt con scoring:

```text
Valuta la qualità della risposta da 1 a 5 secondo questi criteri:
- Correttezza
- Aderenza alle fonti
- Completezza
- Chiarezza

Domanda: {question}
Risposta: {generated_answer}
Fonti: {retrieved_chunks}

Restituisci il punteggio per ogni criterio + una spiegazione breve.
```

---

### **Prompt per valutare tono, bias e completezza**

Oltre alla correttezza, in ambienti professionali (legali, medici, aziendali), è spesso utile controllare altri aspetti:

#### 1. **Valutazione del tono**

```text
Analizza la risposta seguente.

- È scritta in modo professionale?
- È adatta a un pubblico non esperto?
- Il tono è neutro, cordiale, autorevole?

Domanda: {question}
Risposta: {answer}

Valuta il tono con: OTTIMALE / ACCETTABILE / NON APPROPRIATO + motivazione.
```

#### 2. **Rilevamento di bias**

```text
La risposta contiene bias impliciti o opinioni non supportate?

- Ci sono affermazioni soggettive non giustificate?
- Viene trattato un argomento sensibile in modo imparziale?

Risposta: {answer}
Fonti: {retrieved_documents}

Restituisci: NEUTRA / PARZIALMENTE BIASATA / BIASATA + spiegazione.
```

#### 3. **Analisi della completezza**

```text
La risposta copre tutti i punti chiave richiesti dalla domanda?

Domanda: {question}
Risposta: {generated_answer}
Documenti: {retrieved_chunks}

Restituisci: COMPLETA / PARZIALE / INCOMPLETA
+ elenco di elementi coperti e mancanti.
```

---

### **Prompt specializzati (per analisi comparativa)**

Quando si confrontano più modelli o versioni:

```text
Hai due risposte alla stessa domanda, generate da due sistemi diversi.

- Quale delle due è più completa?
- Quale è più corretta secondo i documenti?
- Quale è scritta meglio?

Domanda: {question}
Risposta A: {answer_A}
Risposta B: {answer_B}
Fonti: {context}

Rispondi indicando la preferita e motivando la scelta.
```

---

### **Conclusione**

I prompt di validazione ben progettati permettono di:

* Automatizzare test complessi,
* Identificare debolezze ricorrenti (allucinazioni, omissioni, incoerenza),
* Integrare controlli di qualità nelle pipeline di sviluppo o in ambienti di produzione (es. AI assistant, chatbot aziendali, motori di ricerca semantici).


## RECAP GUIDA ##

---

# RAG: guida step-by-step (da 0 a prod)

```
[0] Setup  →  [1] Load  →  [2] Chunk  →  [3] Embed  →  [4] Index
            → [5] Retrieve  →  [6] Hybrid  →  [7] Memory
            → [8] Prompt+LLM  →  [9] Chain  →  [10] Eval
```

---

## 0) Setup ambiente

**Install**

```bash
pip install langchain langchain-community langchain-openai faiss-cpu unstructured pypdf
# per HF embeddings:
pip install sentence-transformers
# opzionale: qdrant-client pinecone-client chromadb
```

**Chiavi**

```python
import os
os.environ["OPENAI_API_KEY"] = "..."
```

---

## 1) Document loading (`Document`, loader)

**Classi chiave**

* `langchain.schema.Document`
* `DirectoryLoader`, `TextLoader`, `PyPDFLoader`, `UnstructuredPDFLoader`

**Esempio**

```python
from langchain.document_loaders import DirectoryLoader, PyPDFLoader, TextLoader

pdf_loader  = DirectoryLoader("data/pdf",  glob="**/*.pdf",  loader_cls=PyPDFLoader)
txt_loader  = DirectoryLoader("data/txt",  glob="**/*.txt",  loader_cls=TextLoader)

documents = pdf_loader.load() + txt_loader.load()
# documents: List[Document] con .page_content e .metadata
```

---

## 2) Chunking (splitter)

**Classi chiave**

* `RecursiveCharacterTextSplitter` (generico)
* `MarkdownHeaderTextSplitter` (per .md)
* Custom `TextSplitter` (se servono regole ad hoc)

**Esempio**

```python
from langchain.text_splitter import RecursiveCharacterTextSplitter

splitter = RecursiveCharacterTextSplitter(
    chunk_size=500, chunk_overlap=100,
    separators=["\n\n", "\n", ".", " ", ""]
)
chunks = splitter.split_documents(documents)
```

---

## 3) Embeddings (query & docs nello stesso spazio)

**Modelli comuni**

* OpenAI: `text-embedding-ada-002` (1536-d)
* HF locale: `sentence-transformers/all-MiniLM-L6-v2`
* Altri: `BAAI/bge-base-en-v1.5`, `hkunlp/instructor-large`

**Classi chiave**

* `OpenAIEmbeddings`
* `HuggingFaceEmbeddings`

**Esempio (OpenAI)**

```python
from langchain.embeddings import OpenAIEmbeddings
emb = OpenAIEmbeddings(model="text-embedding-ada-002")
```

**Esempio (HF)**

```python
from langchain.embeddings import HuggingFaceEmbeddings
emb = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
```

---

## 4) Vector store (index)

**Opzioni**

* Locale: `FAISS`, `Chroma`
* Self-hosted: `Qdrant`, `Weaviate`
* Cloud: `Pinecone`

**Esempio (FAISS)**

```python
from langchain.vectorstores import FAISS
vs = FAISS.from_documents(chunks, emb)       # build
vs.save_local("index_faiss")                 # persist
# reload: vs = FAISS.load_local("index_faiss", emb)
```

---

## 5) Retriever (semantic search)

**API chiave**

* `vectorstore.as_retriever(search_kwargs={"k": K, ...})`
* `retriever.get_relevant_documents(query)`

**Esempio**

```python
retriever = vs.as_retriever(search_kwargs={"k": 4})
docs = retriever.get_relevant_documents("Come attivo la garanzia?")
```

---

## 6) Hybrid search (BM25 + vectors)

**Classi chiave**

* `BM25Retriever.from_documents(chunks)`
* `EnsembleRetriever(retrievers=[...], weights=[...])`

**Esempio**

```python
from langchain.retrievers import BM25Retriever, EnsembleRetriever

bm25 = BM25Retriever.from_documents(chunks); bm25.k = 4
vec  = vs.as_retriever(search_kwargs={"k": 4})

hybrid = EnsembleRetriever(
    retrievers=[bm25, vec],
    weights=[0.4, 0.6]  # tuning: 0.3–0.7, 0.5–0.5, ecc.
)
```

---

## 7) Conversational memory (token-aware)

**Classi chiave**

* `ConversationBufferMemory` (storico completo)
* `ConversationSummaryMemory` (riassunto automatico)
* `ConversationBufferWindowMemory(k=...)` (ultimi N turni)
* `VectorStoreRetrieverMemory` (memoria semantica)

**Esempio (summary)**

```python
from langchain.memory import ConversationSummaryMemory
from langchain.chat_models import ChatOpenAI

memory = ConversationSummaryMemory(llm=ChatOpenAI(temperature=0))
```

---

## 8) Prompt dinamico (istruzioni + contesto + domanda)

**Classi chiave**

* `PromptTemplate` / `ChatPromptTemplate`

**Esempio**

```python
from langchain.prompts import PromptTemplate

TEMPLATE = """Sei un assistente tecnico. Usa SOLO i documenti forniti.
Se non trovi la risposta, dì esplicitamente che non è presente.

Contesto:
{context}

Domanda:
{question}

Rispondi in modo conciso e cita le fonti (metadata.source/pagina)."""
prompt = PromptTemplate(
    input_variables=["context", "question"],
    template=TEMPLATE
)
```

---

## 9) Chain RAG (LLM + retriever)

**Classi chiave**

* `RetrievalQA.from_chain_type(...)`
* Alternative: `ConversationalRetrievalChain` (se chat multi-turno)
* Opzione: `return_source_documents=True`

**Esempio (RetrievalQA + hybrid)**

```python
from langchain.chains import RetrievalQA
from langchain.chat_models import ChatOpenAI

llm = ChatOpenAI(temperature=0)  # deterministico
qa = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=hybrid,                 # o retriever vettoriale
    return_source_documents=True
)

res = qa("Qual è la durata della garanzia standard?")
print(res["result"])
for d in res["source_documents"]:
    print(d.metadata.get("source"), d.metadata.get("page"))
```

**Conversational (memoria)**

```python
from langchain.chains import ConversationalRetrievalChain

crc = ConversationalRetrievalChain.from_llm(
    llm=llm,
    retriever=hybrid,
    memory=memory,
    return_source_documents=True
)
out = crc({"question": "E per i prodotti ricondizionati?"})
```

---

## 10) Valutazione (retrieval + risposta)

### 10.1 Retrieval: **precision\@k**

Pseudo-codice:

```python
def precision_at_k(queries, gold_doc_ids, retriever, k=5):
    ok, tot = 0, 0
    for q in queries:
        got = retriever.get_relevant_documents(q)[:k]
        got_ids = { (d.metadata["source"], d.metadata.get("page")) for d in got }
        rel_ids = set(gold_doc_ids[q])  # ground truth
        ok += len(got_ids & rel_ids)
        tot += k
    return ok / tot
```

### 10.2 Risposta: **LLM-as-a-Judge**

Prompt tipo:

```text
Domanda: {question}
Risposta: {answer}
Documenti: {chunks}

Valuta: CORRETTA / PARZIALE / SBAGLIATA.
Spiega in 1-2 frasi citando i documenti.
```

---

# Scelte rapide (riassunto design)

* **Loader**: `PyPDFLoader`/`UnstructuredPDFLoader` + `DirectoryLoader`
* **Splitter**: `RecursiveCharacterTextSplitter(500, overlap=100)`
* **Embeddings**: `OpenAIEmbeddings("text-embedding-ada-002")` oppure `HuggingFaceEmbeddings("all-MiniLM-L6-v2")`
* **Store**: `FAISS` (prototipi) → `Qdrant`/`Pinecone` (prod)
* **Retriever**: `vs.as_retriever(k=4)` + opzionale `BM25Retriever` → `EnsembleRetriever`
* **Memory**: `ConversationSummaryMemory` per sessioni lunghe
* **LLM**: `ChatOpenAI(temperature=0)`
* **Chain**: `RetrievalQA(..., return_source_documents=True)`
* **Eval**: `precision@k` + **LLM-as-a-Judge**

---

# Flow minimale “collaudo rapido”

```python
# 1) load → 2) chunk → 3) embed → 4) index
documents = DirectoryLoader("data", glob="**/*.pdf", loader_cls=PyPDFLoader).load()
chunks = RecursiveCharacterTextSplitter(500, 100).split_documents(documents)
emb = OpenAIEmbeddings(model="text-embedding-ada-002")
vs = FAISS.from_documents(chunks, emb)

# 5) retrievers
vec  = vs.as_retriever(search_kwargs={"k": 4})
bm25 = BM25Retriever.from_documents(chunks); bm25.k = 4
retr = EnsembleRetriever(retrievers=[bm25, vec], weights=[0.4, 0.6])

# 6) chain
llm = ChatOpenAI(temperature=0)
qa  = RetrievalQA.from_chain_type(llm=llm, retriever=retr, return_source_documents=True)

# 7) query
res = qa("Come si attiva la garanzia del prodotto X?")
print(res["result"])
for s in res["source_documents"]:
    print(s.metadata)
```


Titolo: Costruisci un RAG end-to-end partendo da documenti generati via prompt

Obiettivo: Gli studenti progettano e realizzano un sistema RAG completo. Il corpus di partenza non è fornito: va generato con ChatGPT tramite prompt, in più formati e con diversi stili e livelli di “rumore” (errori, ridondanze, versioni). Al termine, il RAG dovrà rispondere correttamente a domande specifiche citando le fonti.

Consegna

1. Generazione del corpus via prompt (obbligatoria con ChatGPT)

   * Progetta 6–10 prompt per far generare a ChatGPT un corpus multiformato sullo stesso dominio tematico (scegli uno tra: manuale prodotto, regolamento interno, guida API, policy privacy, documentazione corso).
   * Deve includere almeno:
     a) 2 file .md con titoli gerarchici (H1–H3) e sezioni coerenti;
     b) 2 file .txt con FAQ e tutorial passo-passo;
     c) 1 file HTML con una sezione “Note legali” e una tabella;
     d) 1 CSV con dati tabellari coerenti col dominio (es. tariffario, piani, campi API);
     e) 1 documento “noisy” (es. changelog con date/versioni, errori ortografici, sinonimi) in formato .txt;
     f) 1 documento lungo che superi 3.000 parole (potrà essere spezzato in più file).
   * Variante PDF: prendi uno dei .md generati e convertilo in PDF (anche tramite esportazione del tuo editor) per testare loader diversi.
   * Inserisci nei prompt richieste esplicite su: struttura, titoli, metadati nel front-matter (per i .md), esempi concreti, sezioni “Limitazioni/Assunzioni”.

   Output atteso: una cartella “data/” con sottocartelle per formato (md/, txt/, html/, csv/, pdf/). Includi un file README che descrive dominio, versione e sintesi dei contenuti.


# IN MANCANZA DI TEMPO UTILIZZA SOLO UN TIPO DI FILE!! #
3. Caricamento e arricchimento metadati

   * Carica tutti i documenti usando loader idonei per ciascun formato.
   * Aggiungi metadati minimi: source, format, section/title, version/date (se presenti), language.
   * Mostra come useresti filtri sui metadati per restringere la ricerca (es. solo version >= X, solo format=md).

4. Chunking strategico

   * Applica `RecursiveCharacterTextSplitter` con almeno due configurazioni a confronto (es. 500/100 e 800/120).
   * Per i .md usa `MarkdownHeaderTextSplitter` per preservare contesto gerarchico.
   * Giustifica per iscritto la configurazione scelta sulla base del dominio e della lunghezza media dei chunk.

5. Embedding e indicizzazione

   * Confronta due modelli di embedding: uno OpenAI (es. text-embedding-ada-002) e uno locale (es. all-MiniLM-L6-v2 o bge-base).
   * Indicizza con FAISS (obbligatorio) e, a scelta, uno tra Qdrant/Chroma/Pinecone.
   * Documenta tempi di indicizzazione e dimensione dell’indice.

6. Retrieval e ricerca ibrida

   * Implementa un retriever vettoriale (`k` tra 3 e 6) e uno BM25.
   * Crea un `EnsembleRetriever` con pesi diversi in due scenari (es. 0.4/0.6 e 0.6/0.4). Spiega l’impatto osservato su query con nomi propri, sigle, date/versioni e sinonimi.
   * Prepara almeno 12 query di test, di cui: 4 factuali con numeri/date, 4 concettuali, 4 “trick” con ambiguità o sinonimi.

7. Prompting e generazione

   * Definisci un prompt template: istruzione di sistema + contesto numerato + domanda + richiesta di citare `metadata.source` e, se applicabile, `page`/`section`.
   * Usa `RetrievalQA` con `return_source_documents=True`. Imposta `temperature=0`.
   * Aggiungi variante conversazionale con `ConversationalRetrievalChain` e `ConversationSummaryMemory` per 3 turni consecutivi sulla stessa tematica.

8. Valutazione

   * Retrieval: calcola precision\@k su un sottoinsieme di 10 query con ground truth manuale (indica per ciascuna i documenti attesi).
   * Risposta: usa un prompt “LLM-as-a-Judge” per etichettare CORRETTA / PARZIALE / SBAGLIATA + spiegazione di 1–2 frasi, confrontando i due setup di embedding e i due pesi dell’ensemble.
   * Riporta una tabella finale con: query, setup, precision\@k, giudizio risposta, note.

9. Analisi errori e miglioramenti

   * Identifica 3 cause principali di fallimento (es. chunk troppo lunghi, mancanza di metadati utili, pesi ensemble subottimali).
   * Proponi 3 azioni correttive concrete (es. filtro metadati per version, re-ranking lessicale, aumento overlap o split per sezioni).

Criteri di valutazione

* Completezza del corpus e aderenza ai requisiti di formato e “rumore”.
* Qualità del design (scelte motivate su chunking, embedding, retriever).
* Correttezza e tracciabilità delle risposte (citazioni fonti).
* Rigorosità della valutazione (precision\@k, LLM-as-a-Judge, analisi comparativa).
* Chiarezza del README e del report finale.

Consegne richieste

* Cartella `data/` con i file generati via ChatGPT e il PDF.
* Script o notebook con pipeline completa (load → chunk → embed → index → retrieve → generate → eval).
* README con istruzioni d’esecuzione, dipendenze e scelte progettuali.
* Report breve (max 2 pagine) con risultati, tabelle di valutazione e proposte di miglioramento.

Vincoli

* Niente hard-coding delle risposte nel prompt.
* Citare sempre le fonti in output (almeno `source`).
* Limitare il contesto passato all’LLM a un massimo di 4–6 chunk.

Bonus

* Re-ranking dei candidati con funzione custom (es. boost su `version` recente).
* Integrazione di un piccolo set di test automatizzati.
* Visualizzazione interattiva delle query con fonti e score.
