# 🗂️ **Indexing API in LangChain — Gestione Efficiente dei Documenti nei Vector Store**

## 🧠 Problema

Senza un sistema di indicizzazione intelligente, l’archivio vettoriale può contenere:

* ❌ **Documenti duplicati** (aggiunti più volte)
* ❌ **Documenti obsoleti** (rimossi alla fonte ma ancora presenti nel vector store)

🧪 Soluzioni ingenue come:

```python
vectorstore.delete_all()
vectorstore.add_documents(new_docs)
```

➡️ Sono inefficienti e costose per grandi moli di dati.

---

## ✅ Soluzione: **Indexing API**

LangChain fornisce un’API di alto livello per:

* ✏️ **Aggiungere documenti nuovi**
* 🔁 **Aggiornare documenti modificati**
* 🧹 **Eliminare documenti rimossi**

---

## 🧱 Setup di PGVector con Docker

### `docker-compose.yml`

```yaml
version: "3"
services:
  postgres:
    build: ./app/postgres
    ports:
      - "5432:5432"
    environment:
      POSTGRES_USER: admin
      POSTGRES_PASSWORD: admin
      POSTGRES_DB: vectordb
```

Comando:

```bash
docker compose up --build
```

✅ Quando vedi *“database system is ready to accept connections”*, sei pronto.

---

## 📦 Caricamento Documenti

In [1]:
from langchain_openai import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores.pgvector import PGVector
from langchain_community.document_loaders import DirectoryLoader
import os
from dotenv import load_dotenv
load_dotenv()

openai_api_key = os.getenv("OPENAI_API_KEY")

In [2]:
embeddings = OpenAIEmbeddings()

CONNECTION_STRING = "postgresql+psycopg2://admin:admin@127.0.0.1:5432/vectordb"
COLLECTION_NAME = "vectordb"

loader = DirectoryLoader("./data", glob="**/*.txt")

docs = loader.load()

print(f"{len(docs)} documents loaded!")

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=200,
    chunk_overlap=20, 
    length_function=len,
    is_separator_regex=False
)

chunks = text_splitter.split_documents(docs)

print(f"{len(chunks)} chunks from {len(docs)} docs created!")

libmagic is unavailable but assists in filetype detection. Please consider installing libmagic for better results.
libmagic is unavailable but assists in filetype detection. Please consider installing libmagic for better results.
libmagic is unavailable but assists in filetype detection. Please consider installing libmagic for better results.


3 documents loaded!
56 chunks from 3 docs created!


---

## 🔌 Connessione al Vector Store (PGVector)

🛑 Rischio: ogni volta che esegui `add_documents()`, aggiungi duplicati!

In [3]:
vectorstore = PGVector(
    connection_string=CONNECTION_STRING,
    embedding_function=embeddings,
    collection_name=COLLECTION_NAME
)

  vectorstore = PGVector(
  vectorstore = PGVector(


In [4]:
# eseguiamo la funzione ass_documents 
vectorstore.add_documents(chunks)

['a72fbf30-fb5f-4f80-9e25-983a248a8281',
 '5219a884-f1db-4463-a480-0276fff53168',
 '1d9343c0-9b49-4851-b35c-c0bf7e2a12e7',
 '0c1f8cae-fe8b-480e-961e-9b1e965057cd',
 '7530d298-9415-4ef7-83e8-395e0292d7ae',
 '936860ac-7b7d-4701-9132-d0924e523311',
 'f82fd566-40d6-4194-a2c8-35dd63900638',
 '76c202c7-ce7a-4462-ad29-e16a9956ea6e',
 '41fa8465-0fac-4d20-b5e6-bd18b2c21b31',
 '5bc5a921-78eb-45f4-807c-dbe519ac9a4f',
 '13fb825c-76a1-404b-b8a8-97600112105e',
 '574ff863-875b-4678-bfa9-52624ff2a7b7',
 'ed389b8e-0fc1-414d-9280-a8936a6f3958',
 '41d8569f-0c46-413a-9d6c-12bbb2ad2a30',
 '08350bfb-b045-4e2a-a051-3312a0f37e4e',
 'ab1f8267-108e-4c69-a153-383644d68ddf',
 '7d841245-564e-43ce-bbbd-e2c4f6d2b657',
 '8d39a139-c649-4df1-9e65-23fc56729c2f',
 '3e396fee-e63d-4641-8a18-3f625b363c06',
 'e410ec47-b288-40f3-961a-29a2c0ff2d31',
 '6873ecc7-e2cc-4c93-9b69-6eb697c8df60',
 '6ad828ae-7ce1-47a7-b5f6-7fded0f1993d',
 '5c56962f-da75-44a5-9b54-62e6b36ee8db',
 'c9202ed1-1de6-4712-bb1e-d3bdb4e6caed',
 '7cef82f5-1deb-

---

## 🔍 Controllo con SQL (psycopg2)

In [11]:
# usiamo Psycopg2 per eseguire alcune operazioni SQL sul nostro database

import psycopg2

TABLE_NAME = "langchain_pg_embedding"
CONN_STRING = "dbname='vectordb' user='admin' host='127.0.0.1' password='admin'"

conn = psycopg2.connect(CONN_STRING)

# cursor è un oggetto che rappresenta un canale di comunicazione tra il tuo programma e il database
# 1. invia comandi SQL al database
# 2. riceve risultati da query (SELECT, INSERT, ecc.)
# 3. mantiene il contesto di esecuzione 
cur = conn.cursor()

query = f"SELECT COUNT(*) FROM {TABLE_NAME};"

cur.execute(query)

row_count = cur.fetchone()[0]

print(f"Total rows in '{TABLE_NAME}': {row_count}")

cur.close()

conn.close()

Total rows in 'langchain_pg_embedding': 0


---

## 🧼 Indexing API & Pulizia della Tabella

Se rieseguiamo il comando add_documents avremo chunks duplicati nel nostro vestordb: da 56 a 112.

Questo è un problema perchè se facciamo una ricerca per similarità, recuperiamo i quattro documenti più simili che in realtà sono lo stesso documento con lo stesso contenuto (i duplicati).

Questo è ciò che possiamo evitare con l'API di Indicizzazione.

Prima di applicare l'API di indicizzazione ripuliamo la tabella.

🔁 Ora possiamo partire con l’**Indexing API** da una tabella vuota.

In [12]:
# ripuliamo la tabella

delete_query = f"DELETE FROM {TABLE_NAME};"

conn = psycopg2.connect(CONN_STRING)
cur = conn.cursor()
cur.execute(delete_query)
conn.commit()

print(f"All rows from '{TABLE_NAME}' have been deleted.")

cur.close()
conn.close()

All rows from 'langchain_pg_embedding' have been deleted.


In [13]:
# API Indexing dobbiamo iniziare con il database vuoto
# importiamo il RecordManager 

CONNECTION_STRING = "postgresql+psycopg2://admin:admin@127.0.0.1:5432/vectordb"

from langchain.indexes import SQLRecordManager, index

namespace = f"pgvector/{COLLECTION_NAME}"

record_manager = SQLRecordManager(namespace, db_url=CONNECTION_STRING)

In [14]:
record_manager.create_schema()

---

### 📥 Inserimento con `index()`

> 📌 Il campo `source` nei metadati viene usato come identificativo unico del documento.



---

## 🔄 Modalità di Cleanup

| Modalità        | Comportamento                                                              |
| --------------- | -------------------------------------------------------------------------- |
| `"none"`        | ✅ Aggiunge nuovi / aggiorna se cambiati. ❌ Non rimuove nulla.              |
| `"incremental"` | ✅ Aggiunge / aggiorna. ❌ Non rimuove documenti mancanti.                   |
| `"full"`        | ✅ Aggiorna, ✅ elimina quelli mancanti (❗ se non inclusi nella nuova lista) |


In [16]:
# non usaimo più il vectorstore e l'aggiunta dei documenti
# utilizziamo semplicemente la funzione di indicizzazione

index(
    chunks, 
    record_manager,
    vectorstore, 
    cleanup=None, 
    # source_id_key viene memorizzata nel dizionario dei metadati di un Document
    source_id_key="source"
)

  _warn_about_sha1()


{'num_added': 56, 'num_updated': 0, 'num_skipped': 0, 'num_deleted': 0}

Vediamo che abbiamo aggiunto 56 documenti al nostro vectorstore. Se lo eseguiamo di nuovo vediamo che non viene aggiunto nessun documento, ma vengono saltati 56 documenti. 


Questa è la differenza rispetto al metodo `add_documents` del vectorstore.

Non avremo documenti duplicati nel nostro vectorstore perchè il `record manager` ne tiene traccia.

In [17]:
index(
    chunks, 
    record_manager,
    vectorstore, 
    cleanup=None, 
    # source_id_key viene memorizzata nel dizionario dei metadati di un Document
    source_id_key="source"
)

{'num_added': 0, 'num_updated': 0, 'num_skipped': 56, 'num_deleted': 0}

---

## 🧪 Esempi di Modifica

Dato che prima non abbiamo aggiornato nessun documento non ne sono stati aggiunti. 

Ora aggiorniamo il page_content del chunk con indice 1. Aggiornandolo deve poi essere inserito nel vectorstore.

### 🔁 Esempio: Aggiornamento e Aggiunta

In [None]:
from langchain.schema import Document

chunks[1].page_content = "updated" # 5 la vecchia versione viene cancellata

del chunks[6] # deleted

chunks.append(Document(page_content="new content", metadata={"source": "important"}))

In [20]:
index(
    chunks, 
    record_manager,
    vectorstore, 
    cleanup=None, 
    source_id_key="source"
)

{'num_added': 2, 'num_updated': 0, 'num_skipped': 54, 'num_deleted': 0}

In [None]:
# proviamo con altre modifiche

chunks[1].page_content = "update again" # 1 added 6 deleted la vecchia versione viene cancellata
del chunks[2] # 2 deleted
del chunks[3] # 3 deleted
del chunks[4] # 4 deleted

chunks.append(Document(page_content="more new content", metadata={"source": "important"})) # 2 added

In [22]:
# rifacciamo l'index ma con mode="incremental"

index(
    chunks, 
    record_manager,
    vectorstore, 
    cleanup="incremental", 
    source_id_key="source"
)

{'num_added': 2, 'num_updated': 0, 'num_skipped': 52, 'num_deleted': 6}

---

### 🧹 Esempio: Rimozione (Cleanup "full")

✅ Risultato:

* Tutti i documenti vengono rimossi dall’archivio vettoriale

In [23]:
# li diamo una lista vuota

index(
    [], 
    record_manager,
    vectorstore, 
    cleanup="incremental", 
    source_id_key="source"
)

{'num_added': 0, 'num_updated': 0, 'num_skipped': 0, 'num_deleted': 0}

Non viene aggiunto nulla nè viene cancellato nulla dato che abbiamo fornito solo una lista vuota.

Ora facciamo lo stesso ma con cleanup mode a full.

In [24]:
# elimina tutti gli elementi che non sono aggiunti nella lista (tutti)
index(
    [], 
    record_manager,
    vectorstore, 
    cleanup="full", 
    source_id_key="source"
)

{'num_added': 0, 'num_updated': 0, 'num_skipped': 0, 'num_deleted': 54}

Quando il contenuto di un documento cambia, sia la modalità incrementale che quella full rimuovono le vecchie versioni. Tuttavia, se un documento viene eliminato e non viene più messo nella lista, la modalità `full` lo elimina anche dal vectorstore.

---

## ✅ Best Practices

| Caso                          | Strategia                   |
| ----------------------------- | --------------------------- |
| Piccoli dataset in memoria    | Usa `cleanup="full"`        |
| Dataset grandi (incrementali) | Usa `cleanup="incremental"` |
| Solo aggiunte/aggiornamenti   | Usa `cleanup="none"`        |

---

## 🧠 Conclusione

✅ L’**Indexing API** ti permette di:

* Evitare duplicazioni
* Sincronizzare il vector store con i dati reali
* Gestire aggiornamenti e cancellazioni in modo controllato

---

## 🛠️ Consiglio pratico

> Quando costruisci un'app RAG **seria**, **non usare mai `add_documents()` direttamente in produzione**.
> Usa sempre l’**Indexing API** per mantenere la consistenza dei dati.

---

🔜 Prossimo modulo: **Valutazione automatica di sistemi RAG** con strumenti come LangSmith o DeepEval.