In [1]:
# creiamo il nostro modello di documento

from pydantic import BaseModel, Field
from typing import Optional


# proprtio come i Document di Langchain ma con io campo key in più 
class DocumentModel(BaseModel):
    key: Optional[str] = Field(None)
    page_content: Optional[str] = Field(None)
    metadata: dict = Field(default_factory=dict)

In [2]:
# creiamo la nostra tabella per sql

from sqlalchemy import Column, String, create_engine
from sqlalchemy.orm import declarative_base
from sqlalchemy.dialects.postgresql import JSONB

Base = declarative_base()

class SQLDocument(Base):
    __tablename__ = "docstore"
    key = Column(String, primary_key=True)
    value = Column(JSONB)

    def __repr__(self):
        return f"<SQLDocument(key='{self.key}', value='{self.value}')>"

# 🧩 Costruire un DocStore Personalizzato con PostgreSQL in LangChain

## 📌 Obiettivo

Creare un sistema **persistente** per salvare i documenti “parent” recuperabili con il **Parent-Child Retriever**, evitando il limite dell’`InMemoryDocstore`.

---

## 🧱 1. Creazione del `PostgresStore`

### ✅ Infrastruttura

* **Eredita** da `BaseStore[str, Document]`
* Funziona con:

  * `key: str`
  * `value: Document` (serializzato in JSON)

In [10]:
import logging 
from typing import Generic, Iterator, Sequence, TypeVar
from langchain.schema import Document 
from langchain_core.stores import BaseStore

from sqlalchemy.orm import sessionmaker, scoped_session

logger = logging.getLogger(__name__)

D = TypeVar("D", bound=Document)

class PostgresStore(BaseStore[str, DocumentModel], Generic[D]):
    def __init__(self, connection_string: str):
        self.engine = create_engine(connection_string)
        Base.metadata.create_all(self.engine)
        self.Session = scoped_session(sessionmaker(bind=self.engine))

    def serialize_document(self, doc: Document) -> dict:
        return {"page_content": doc.page_content, "metadata": doc.metadata}

    def deserialize_document(self, value: dict) -> Document:
        return Document(
            page_content=value.get("page_content", ""),
            metadata=value.get("metadata", {})
        )

    # usato per prendere i documenti
    def mget(self, keys: Sequence[str]) -> list[Document]:
        with self.Session() as session:
            try: 
                sql_documents = (
                    session.query(SQLDocument).filter(SQLDocument.key.in_(keys)).all()
                )

                return [
                    self.deserialize_document(sql_doc.value)
                    for sql_doc in sql_documents
                ]
            except Exception as e:
                logger.error(f"Error in mget: {e}")
                session.rollback()
                return []

    # metodo per l'inserimento dei dati nel nostro docstore
    def mset(self, key_value_pairs: Sequence[tuple[str, Document]]) -> None:
        with self.Session() as session:
            try:
                serialized_docs = []
                for key, document in key_value_pairs:
                    serialized_doc = self.serialize_document(document)
                    serialized_docs.append((key, serialized_doc))

                # in realtà abbiamo bisogno di un elenco di documenti SQL
                documents_to_update = [
                    SQLDocument(key=key, value=value) for key, value in serialized_docs
                ]

                session.bulk_save_objects(documents_to_update, update_changed_only=True)

                session.commit()

            except Exception as e:
                logger.error(f"Error in mset: {e}")
                session.rollback()

    # metodo per cacellare dal docstore
    def mdelete(self, keys: Sequence[str]) -> None:
        with self.Session() as session:
            try:
                session.query(SQLDocument).filter(SQLDocuments.key.in_(keys)).delete(
                    synchronize_session=False
                )
                session.commit()

            except Exception as e:
                logger.error(f"Error in mdelete: {e}")
                session.roll()


    def yield_keys(self) -> Iterator[str]:
        with self.Session() as session:
            try:
                query = session.query(SQLDocument.key)
                for key in query:
                    yield key[0]
            except Exception as e:
                logger.error(f"Error in yield_keys: {e}")
                session.rollback()

---

## 🐳 4. Setup PostgreSQL + PGVector via Docker Compose

### ✅ Parametri

```yaml
POSTGRES_DB: vector_db
POSTGRES_USER: admin
POSTGRES_PASSWORD: admin
ports:
  - "45432:5432"
```

Verifica che tutto funzioni:

```bash
docker ps        # controllo container
docker compose up
```

Ora che il container è pronto possiamo connetterci.

In [5]:
from langchain_community.vectorstores.pgvector import PGVector
from langchain_openai import OpenAIEmbeddings

DATABASE_URL = "postgresql+psycopg2://admin:admin@localhost:5432/vectordb"

embeddings = OpenAIEmbeddings()

store = PGVector( # vectorstore di Postgres
    collection_name="vectordb",
    connection_string=DATABASE_URL,
    embedding_function=embeddings
)



---

## 🔄 5. Integrazione con Parent-Child Retriever


Ora possiamo utilizzare il ParentDocumentRetriever passando il vectorstore appena creato, e il nostro docstore custom `PostgresStore()` il quale prende in input la stringa di connessione, la quale si tratta dello stesso URL del PGVector

```python
retriever = ParentDocumentRetriever(
    vectorstore=pgvector,
    docstore=PostgresStore(conn_str),
    child_splitter=child_splitter,
    parent_splitter=optional_parent_splitter
)
```

In [None]:
from langchain_openai import ChatOpenAI
from langchain_community.document_loaders.directory import DirectoryLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from dotenv import load_dotenv
import os
load_dotenv()

loader = DirectoryLoader("./data", glob="**/*.txt")

docs = loader.load()

model = ChatOpenAI()

✅ Se ids=None:
LangChain:

genera ID univoci automaticamente per ogni documento

solitamente usa uuid.uuid4().hex

In [None]:
from langchain.retrievers import ParentDocumentRetriever

child_splitter = RecursiveCharacterTextSplitter(chunk_size=250)

parent_splitter = RecursiveCharacterTextSplitter(chunk_size=600)

retriever = ParentDocumentRetriever(
    vectorstore=store,
    docstore=PostgresStore(connection_string=DATABASE_URL),
    child_splitter=child_splitter,
    parent_splitter=parent_splitter
)


# recupera i documenti parent (con contesto più ampio) dal docstore
retriever.add_documents(docs, ids=None)

In [13]:
retriever.invoke("who is the owner?")

[Document(metadata={'source': 'data\\founder.txt'}, page_content='As he grew, so did his desire to explore beyond the shores of Sicily. Venturing through Italy, Amico worked alongside renowned chefs, each teaching him a new facet of Italian cuisine. From the rolling hills of Tuscany to the romantic canals of Venice, he absorbed the diverse regional flavors, techniques, and traditions that would later influence his unique culinary style.\n\nCreating Chef Amico’s Restaurant'),
 Document(metadata={'source': 'data\\founder.txt'}, page_content='Creating Chef Amico’s Restaurant\n\nReturning to Palermo with a vision, Amico opened the doors to "Chef Amico," a restaurant that was a culmination of his travels and a tribute to his Sicilian roots. Nestled in a quaint corner of the city, the restaurant quickly gained fame for its authentic flavors and Amico’s innovative twists on traditional recipes.'),
 Document(metadata={'source': 'data\\restaurant.txt'}, page_content="One evening, as the sun cas

Dato che PGVector (vectostore) è basato su Postgres, non dobbiamo trattarlo come una scatola nera, ma possiamo eseguire query sul database. Sono stati creati due script in python per ispezionare il database e per eliminare le tabelle presenti. Gli script sono `inspect_db.py` e `clear_tables.py`

```bash
<comando> python inspect_db.py
Table 'products' not found.
Table 'langchain_pg_embedding' has 98 rows.  # questi sono i child_splitter
Table 'docstore' has 22 rows. # questi sono i parent_splitter 
```

---

## 📊 Verifica Effettiva

| Configurazione          | Righe VectorStore | Righe DocStore |
| ----------------------- | ----------------- | -------------- |
| Solo splitter figlio    | 93                | 0              |
| Splitter padre + figlio | 98                | 22             |

---

## 🧠 Quando usare il Parent-Child Retrieval?

### ✅ Raccomandato se:

* Usi un **LLM con finestra di contesto ampia**
* I documenti trattano **argomenti multipli o complessi**
* Vuoi **preservare il contesto semantico**, ma migliorare il matching semantico

### 🚫 Non necessario se:

* I documenti sono già **monotematici**
* Hai un **ottimo chunking LLM-based**
* Vuoi evitare la **complessità** del parent-child retrieval

---

## 📎 Conclusione

Hai costruito:

* Un `PostgresStore` persistente
* Integrato con `ParentDocumentRetriever`
* Completamente compatibile con LangChain
* Ispezionabile e gestibile grazie a SQL
