# Part 2: Advanced Retrieval Strategies

In Part 1, we built a "naive" RAG pipeline. It works, but it has flaws:
1. **Missed Context**: Splitting documents arbitrarily might cut a key idea in half.
2. **Bad Access Patterns**: Searching for a specific keyword might miss a document that uses a synonym.
3. **Distraction**: Retrieving 10 documents might confuse the LLM if only 1 is relevant ("Lost in the Middle" phenomenon).

In this notebook, we fix these issues.

In [12]:
import os
from dotenv import load_dotenv
from langchain_openai import AzureChatOpenAI, AzureOpenAIEmbeddings
from langchain_community.vectorstores import Chroma
from langchain_community.document_loaders import TextLoader

load_dotenv()
azure_endpoint = os.getenv("AZURE_OPENAI_ENDPOINT", "https://VAS_RESOURCE_NAME.openai.azure.com/")
api_key = os.getenv("AZURE_OPENAI_API_KEY", "VAS_API_KEY") # V prost≈ôed√≠ ƒçasto jako AZURE_OPENAI_API_KEY
deployment_name = os.getenv("AZURE_OPENAI_EMBEDDING_DEPLOYMENT", "text-embedding-ada-002") # N√°zev nasazen√≠ modelu (ne modelu samotn√©ho!)
api_version = os.getenv("AZURE_OPENAI_API_VERSION", "2023-05-15") 

# Inicializace Azure Embeddings
embeddings = AzureOpenAIEmbeddings(
    azure_endpoint=azure_endpoint,
    api_key=api_key,
    azure_deployment=deployment_name,
    openai_api_version=api_version,
)

llm = AzureChatOpenAI(
    azure_deployment="gpt-4o",  # P≈ôedpokl√°d√°me, ≈æe n√°zev deploymentu v Azure je "gpt-4o"
    openai_api_version=os.getenv("AZURE_OPENAI_API_VERSION", "2023-05-15"),
    azure_endpoint=os.getenv("AZURE_OPENAI_ENDPOINT"),
    api_key=os.getenv("AZURE_OPENAI_API_KEY"),
    temperature=0
)

## 1. MultiQuery Retriever (Inteligentn√≠ roz≈°√≠≈ôen√≠ dotazu)

**P≈ôedstavte si to jako**: Kdy≈æ nƒõco hled√°te na Googlu a na prvn√≠ pokus nenajdete to, co chcete, zkus√≠te dotaz p≈ôeformulovat. Zkus√≠te synonyma, odbornƒõj≈°√≠ v√Ωrazy nebo se zept√°te z jin√©ho √∫hlu. **MultiQuery Retriever** dƒõl√° p≈ôesnƒõ tohle za v√°s ‚Äì automaticky a okam≈æitƒõ.

### üïµÔ∏è‚Äç‚ôÇÔ∏è V ƒçem je probl√©m? (Distance-based vector search)
Vektorov√© datab√°ze hledaj√≠ dokumenty podle "v√Ωznamov√© vzd√°lenosti". Nƒõkdy se ale stane, ≈æe **slova u≈æivatele** a **slova v dokumentu** jsou p≈ô√≠li≈° odli≈°n√°, i kdy≈æ popisuj√≠ stejnou vƒõc.
*   *U≈æivatel nap√≠≈°e:* "Nefunguje √∫ƒçtov√°n√≠."
*   *Dokument obsahuje:* "Protokol pro ≈ôe≈°en√≠ transakƒçn√≠ch v√Ωjimek."

Pokud polo≈æ√≠te jen jednu ot√°zku, m√°te jen **jeden pokus** trefit se do spr√°vn√©ho m√≠sta v datab√°zi. Pokud se netref√≠te, RAG sel≈æe.

### üí° ≈òe≈°en√≠: "Rozhozen√≠ ≈°ir≈°√≠ s√≠tƒõ"
M√≠sto toho, abychom poslali do datab√°ze jen v√°≈° jeden nedokonal√Ω dotaz, vyu≈æijeme pomoc LLM:

1.  **Generov√°n√≠ variant**: LLM si vezme va≈°i ot√°zku a vymysl√≠ 3‚Äì5 r≈Øzn√Ωch zp≈Øsob≈Ø, jak se zeptat na to sam√© (pou≈æije synonyma, r≈Øzn√© perspektivy).
2.  **Hromadn√© hled√°n√≠**: Spust√≠ se vyhled√°v√°n√≠ pro **KA≈ΩDOU** z tƒõchto variant zvl√°≈°≈•.
3.  **Sjednocen√≠ (Unique Union)**: Syst√©m posb√≠r√° v≈°echny nalezen√© dokumenty ze v≈°ech dotaz≈Ø, odstran√≠ duplicity (ty, kter√© se na≈°ly v√≠cekr√°t) a vr√°t√≠ v√°m kompletn√≠ sadu.

**P≈ô√≠klad z praxe:**
*   **V√°≈° dotaz:** *"How to handle server outages?"*
*   **Co udƒõl√° MultiQuery (na pozad√≠):** Vygeneruje a hled√° tak√©:
    1.  *"What are the protocols for system downtime?"*
    2.  *"Emergency procedures for server failure"*
    3.  *"Recovery steps during network incidents"*

D√≠ky tomu "prohled√°te" mnohem vƒõt≈°√≠ ƒç√°st datab√°ze a m√°te jistotu, ≈æe v√°m neunikne kl√≠ƒçov√Ω dokument jen kv≈Øli ≈°patnƒõ zvolen√©mu slov√≠ƒçku.

In [28]:
# 1. Inicializace (jako doposud)
# Ujistƒõte se, ≈æe vectorstore je spr√°vnƒõ naƒçten√Ω s persist_directory="../chroma_db"
try:
    from langchain.retrievers.multi_query import MultiQueryRetriever
except ImportError:
    from langchain_classic.retrievers import MultiQueryRetriever

retriever_mq = MultiQueryRetriever.from_llm(
    retriever=vectorstore.as_retriever(),
    llm=llm
)

question = "How to handle server outages?"

# --- FUNKƒåN√ç ANAL√ùZA ---
print(f"‚ùì P≈Øvodn√≠ dotaz: '{question}'")
print("\n--- 1. F√°ze: Generov√°n√≠ variant (Explicitn√≠ spu≈°tƒõn√≠) ---")

# Zde si "vyt√°hneme" vnit≈ôn√≠ ≈ôetƒõzec, kter√Ω m√° na starosti pouze generov√°n√≠
# a spust√≠me ho samostatnƒõ, abychom vidƒõli v√Ωsledek.
if hasattr(retriever_mq, "llm_chain"):
    # Spu≈°tƒõn√≠ generov√°n√≠
    variants_result = retriever_mq.llm_chain.invoke({"question": question})
    
    # V√Ωsledek m≈Ø≈æe b√Ωt objekt nebo slovn√≠k, vytiskneme text
    if isinstance(variants_result, dict) and "text" in variants_result:
        print(variants_result["text"])
    else:
        print(variants_result)
else:
    print("‚ùå Nepoda≈ôilo se nal√©zt atribut 'llm_chain'.")

print("\n--- 2. F√°ze: Samotn√© vyhled√°v√°n√≠ dokument≈Ø ---")
# Nyn√≠ probƒõhne standardn√≠ proces (znovu si vygeneruje ot√°zky a vyhled√° je)
docs = retriever_mq.invoke(question)

print(f"‚úÖ Nalezeno {len(docs)} unik√°tn√≠ch dokument≈Ø.")
for i, d in enumerate(docs):
    print(f"   [{i+1}] {d.page_content[:80]}... (Zdroj: {d.metadata.get('source', 'N/A')})")

from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate

print("\n--- 3. F√°ze: Generov√°n√≠ fin√°ln√≠ odpovƒõdi (LCEL RAG Chain) ---")

# A. Prompt (Instrukce pro model)
template = """Answer the question based only on the following context:
{context}

Question: {question}
"""
prompt = ChatPromptTemplate.from_template(template)

# B. Pomocn√° funkce pro zform√°tov√°n√≠ dokument≈Ø do textu
def format_docs(docs):
    return "\n\n".join([d.page_content for d in docs])

# C. Sestaven√≠ RAG ≈ôetƒõzce (Chain)
# ZMƒöNA: M√≠sto 'retriever' pou≈æijeme n√°≈° 'retriever_mq'
rag_chain_from_multiquery = (
    {"context": retriever_mq | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

# D. Spu≈°tƒõn√≠
# .invoke() spust√≠ cel√Ω proces: MultiQuery vyhled√°v√°n√≠ (s 3-5 variantami) -> form√°tov√°n√≠ -> prompt -> GPT
print(f"Ot√°zka: {question}")
print("-" * 30)
response = rag_chain_from_multiquery.invoke(question)
print("Odpovƒõƒè:", response)

‚ùì P≈Øvodn√≠ dotaz: 'How to handle server outages?'

--- 1. F√°ze: Generov√°n√≠ variant (Explicitn√≠ spu≈°tƒõn√≠) ---
['What are the best practices for managing server downtime?', 'How can I effectively deal with server outages?', 'What strategies can be used to handle server failures?']

--- 2. F√°ze: Samotn√© vyhled√°v√°n√≠ dokument≈Ø ---
‚úÖ Nalezeno 4 unik√°tn√≠ch dokument≈Ø.
   [1] SERVICE LEVEL AGREEMENT (SLA) for NebulaDB Enterprise

1. DEFINITIONS
"Uptime" r... (Zdroj: ../data/legal/sla_contract.txt)
   [2] 4. EXCLUSIONS
The Service Commitment does not apply to any unavailability, suspe... (Zdroj: ../data/legal/sla_contract.txt)
   [3] Quarter: Q2 2024
Revenue: 1200000
Expenses: 850000
Profit: 350000
Notes: cost op... (Zdroj: ../data/finance/financial_report.csv)
   [4] 3. SERVICE CREDITS
If we do not meet the Service Commitment, you will be eligibl... (Zdroj: ../data/legal/sla_contract.txt)

--- 3. F√°ze: Generov√°n√≠ fin√°ln√≠ odpovƒõdi (LCEL RAG Chain) ---
Ot√°zka: How to h

## 2. Parent Document Retriever (Mal√Ω detektiv, Velk√Ω ƒçten√°≈ô)

Abychom pochopili, proƒç tuto techniku pot≈ôebujeme, mus√≠me si nejd≈ô√≠ve uk√°zat, kde **klasick√Ω RAG selh√°v√°**.

### 1. Klasick√Ω p≈ô√≠stup (Bez Parent Retrieveru)
V klasick√©m RAGu dƒõl√°te kompromis. Mus√≠te se rozhodnout pro jednu velikost kousk≈Ø (chunks) pro v≈°echno.
*   Jeden chunk slou≈æ√≠ k tomu, aby byl **nalezen** (vyhled√°v√°n√≠).
*   TEN SAM√ù chunk se po≈°le LLM, aby z nƒõj **odpovƒõdƒõlo** (generov√°n√≠).

**Dilema:**
*   **Kdy≈æ udƒõl√°te chunks mal√© (nap≈ô. 1 vƒõta):**
    *   ‚úÖ **Vyhled√°v√°n√≠ je super:** Kdy≈æ u≈æivatel hled√° *"cena podpory"*, poƒç√≠taƒç to snadno najde, proto≈æe ve vƒõtƒõ *"Cena podpory je 500 Kƒç"* tvo≈ô√≠ tato slova 50 % obsahu. Je to jasn√Ω sign√°l.
    *   ‚ùå **LLM sel≈æe:** Modelu po≈°lete jen tu jednu vƒõtu: *"Cena podpory je 500 Kƒç"*. LLM se zept√°: *"Aha, a jak√© podpory? Mƒõs√≠ƒçn√≠? Roƒçn√≠? Pro koho?"* Chyb√≠ mu **kontext**.

*   **Kdy≈æ udƒõl√°te chunks velk√© (nap≈ô. cel√° str√°nka):**
    *   ‚úÖ **LLM je spokojen√©:** Vid√≠ celou str√°nku, v√≠, ≈æe jde o *"NebulaDB Enterprise roƒçn√≠ pl√°n"*. M√° kontext.
    *   ‚ùå **Vyhled√°v√°n√≠ sel≈æe:** Ve velk√© str√°nce textu se slova *"cena podpory"* ztrat√≠. Tvo≈ô√≠ t≈ôeba jen 1 % textu. Vektorov√° podobnost bude n√≠zk√° a datab√°ze tento dokument v≈Øbec nenajde (tzv. "utopen√≠ jehly v kupce sena").

### 2. ≈òe≈°en√≠: Parent Document Retriever
Tato metoda **oddƒõluje** to, co hled√°me, od toho, co ƒçte LLM.

1.  **Indexujeme "Dƒõti" (Small Chunks):** Dokument rozsek√°me na maliƒçk√© kousky (nap≈ô. 100 znak≈Ø). Ty pou≈æijeme **POUZE pro vyhled√°v√°n√≠**. D√≠ky tomu je hled√°n√≠ extr√©mnƒõ citliv√© a p≈ôesn√©.
2.  **Ukl√°d√°me "Rodiƒçe" (Large Chunks):** Z√°rove≈à si pamatujeme, ≈æe tyto mal√© kousky pat≈ô√≠ do vƒõt≈°√≠ho bloku (nap≈ô. 500 znak≈Ø nebo cel√° str√°nka).
3.  **Proces:**
    *   U≈æivatel hled√° *"cena"*.
    *   Datab√°ze najde mal√Ω kousek (D√≠tƒõ): *"Cena je 500 Kƒç"*.
    *   Retriever ale nevr√°t√≠ toto d√≠tƒõ. Pod√≠v√° se, kdo je jeho rodiƒç.
    *   LLM po≈°le cel√©ho rodiƒçe: *"Cen√≠k pro rok 2024. Slu≈æba NebulaDB. Z√°kladn√≠ cena je zdarma. Cena pr√©miov√© podpory je 500 Kƒç mƒõs√≠ƒçnƒõ p≈ôi √∫vazku na rok."*

### 3. Proƒç "LLM funguje l√©pe s velk√Ωmi kousky"?
Pt√°te se spr√°vnƒõ: *"LLM se pou≈æ√≠v√° v≈ædy, ne?"*
Ano, ale LLM je jako **kucha≈ô**. Jeho j√≠dlo (odpovƒõƒè) je jen tak dobr√©, jak dobr√© jsou **suroviny** (kontext), kter√© mu dod√°te.

*   **P≈ô√≠klad:** U≈æivatel se zept√°: *"Co se stane p≈ôi v√Ωpadku?"*
*   **Vstup pro LLM (bez Parent Retrieveru - mal√Ω chunk):**
    > *"Dostanete kredit 10 %."*
    *   *V√Ωsledek:* LLM odpov√≠: "Dostanete 10% kredit." (Nev√≠ za co, nev√≠ komu).
*   **Vstup pro LLM (s Parent Retrieverem - velk√Ω chunk):**
    > *"3. KOMPENZACE. Pokud dostupnost klesne pod 99.9%, z√°kazn√≠k m√° n√°rok na kompenzaci. U v√Ωpadku nad 1 hodinu dostanete kredit 10 % z mƒõs√≠ƒçn√≠ platby."*
    *   *V√Ωsledek:* LLM odpov√≠: "Pokud v√Ωpadek trv√° d√©le ne≈æ hodinu a dostupnost klesne pod 99.9 %, m√°te n√°rok na kredit ve v√Ω≈°i 10 % z mƒõs√≠ƒçn√≠ platby."

**Z√°vƒõr:** Parent Document Retriever n√°m d√°v√° to nejlep≈°√≠ z obou svƒõt≈Ø: **P≈ôesnost vyhled√°v√°n√≠** v mal√Ωch datech a **bohatost kontextu** ve velk√Ωch datech.

In [37]:
from langchain_classic.retrievers import ParentDocumentRetriever
from langchain_classic.storage import InMemoryStore
# Pou≈æ√≠v√°me modern√≠ cestu pro splittery
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import TextLoader

# 1. P≈ô√≠prava √∫lo≈æi≈°≈•
# Vectorstore (Chroma) bude dr≈æet jen "mal√© dƒõti" (vektory)
# Docstore (InMemory) bude dr≈æet "velk√© rodiƒçe" (cel√Ω text)
vectorstore_parent = Chroma(
    collection_name="rag_parent", 
    embedding_function=embeddings,
    # Tady nepou≈æ√≠v√°me persistenci na disk pro zjednodu≈°en√≠ uk√°zky, 
    # ale v praxi byste chtƒõli i 'store' ukl√°dat (nap≈ô. RedisStore).
)
store = InMemoryStore()

# 2. Nastaven√≠ Splitter≈Ø (Dƒõlen√≠ textu)
# "Rodiƒç" - vƒõt≈°√≠ bloky (nap≈ô. 500 znak≈Ø), kter√© chce ƒç√≠st LLM
parent_splitter = RecursiveCharacterTextSplitter(chunk_size=500,chunk_overlap=100)
# "D√≠tƒõ" - mal√© √∫tr≈æky (nap≈ô. 100 znak≈Ø), kter√© slou≈æ√≠ jen pro vyhled√°n√≠
child_splitter = RecursiveCharacterTextSplitter(chunk_size=100,chunk_overlap=50)

# 3. Inicializace Retrieveru
retriever_parent = ParentDocumentRetriever(
    vectorstore=vectorstore_parent, 
    docstore=store, 
    child_splitter=child_splitter,  # Podle tohoto se hled√°
    parent_splitter=parent_splitter # Toto se vrac√≠ do promptu
)

# 4. Naƒçten√≠ dat a indexace
print("--- Indexuji dokumenty ---")
# Naƒçteme n√°≈° Markdown soubor
loader = TextLoader("../data/tech_docs/api_docs.md")
docs = loader.load()

# Tady se dƒõje kouzlo: add_documents samo rozsek√° text na mal√© i velk√© kusy a propoj√≠ je
retriever_parent.add_documents(docs)
print(f"Indexov√°no {len(docs)} p≈Øvodn√≠ dokument≈Ø.")

# 5. Test vyhled√°v√°n√≠
query = "rate limits"
print(f"\n‚ùì Hled√°m dotaz: '{query}'")

# Pou≈æijeme .invoke()
results = retriever_parent.invoke(query)

if len(results) > 0:
    print(f"‚úÖ Nalezeno dokument≈Ø: {len(results)}")
    print(f"   D√©lka vr√°cen√©ho obsahu: {len(results[0].page_content)} znak≈Ø")
    print(f"   Uk√°zka obsahu (Rodiƒç):")
    print("-" * 20)
    print(results[0].page_content)
    print("-" * 20)
else:
    print("‚ùå Nic nenalezeno.")

--- Indexuji dokumenty ---
Indexov√°no 1 p≈Øvodn√≠ dokument≈Ø.

‚ùì Hled√°m dotaz: 'rate limits'
‚úÖ Nalezeno dokument≈Ø: 1
   D√©lka vr√°cen√©ho obsahu: 143 znak≈Ø
   Uk√°zka obsahu (Rodiƒç):
--------------------
## Error Codes
- `400`: Invalid parameters (e.g., node_count < 3).
- `401`: unauthorized.
- `429`: Rate limit exceeded (100 req/sec per token).
--------------------


## 3. Contextual Compression (Destilace informac√≠)

Tato technika ≈ôe≈°√≠ probl√©m **"informaƒçn√≠ho ≈°umu"**.

### 1. Probl√©m: Vektorov√© hled√°n√≠ je "hloup√©"
Vektorov√° datab√°ze je velmi rychl√°, ale neum√≠ ƒç√≠st. Porovn√°v√° pouze matematickou podobnost vektor≈Ø.
*   **P≈ô√≠klad:** Hled√°te *"Jakou dostanu slevu za v√Ωpadek?"*
*   **Vector Store najde:** *"Kompenzace (slevy) se nevztahuj√≠ na pl√°novan√© v√Ωpadky √∫dr≈æby..."*
    *   Matematicky je to velmi podobn√° vƒõta (obsahuje slova *v√Ωpadek, sleva*).
    *   Fakticky je to ale **opak** toho, co chcete (≈ô√≠k√°, kdy slevu nedostanete).
*   **V√Ωsledek:** Pokud po≈°lete LLM 10 takov√Ωch dokument≈Ø, zahlt√≠te ho balastem (tzv. "lost in the middle").

### 2. ≈òe≈°en√≠: Contextual Compression (Re-ranking)
P≈ôedstavte si to jako dvouf√°zov√Ω proces **r√Ω≈æov√°n√≠ zlata**:

1.  **Bagr (Base Retriever):** Nejd≈ô√≠ve nabereme velkou l≈æ√≠ci hl√≠ny a kamen√≠. ≈òekneme datab√°zi: *"Dej mi v≈°echno, co aspo≈à trochu souvis√≠ s dotazem."* (Nap≈ô. 20 dokument≈Ø).
2.  **Pinzeta (Compressor/Nov√© LLM):** Pot√© vezmeme chytr√Ω model (LLM), kter√Ω si tƒõch 20 dokument≈Ø p≈ôeƒçte a ≈ôekne: *"Tohle je jen o pl√°novan√© √∫dr≈æbƒõ - vyhodit. Tohle je o slev√°ch na rohl√≠ky - vyhodit. Tady! Tohle je o slev√°ch za v√Ωpadek - nechat."*

Nav√≠c model dok√°≈æe text **"vy≈æd√≠mat"** (komprimovat). Pokud je dokument dlouh√Ω 500 slov, ale odpovƒõƒè je v jedn√© vƒõtƒõ, model v≈°echno ostatn√≠ sma≈æe a vr√°t√≠ v√°m jen tu jednu zlatou vƒõtu.

In [None]:
# Importy - sna≈æ√≠me se naƒç√≠st ze spr√°vn√©ho m√≠sta pro va≈°i verzi
try:
    from langchain.retrievers import ContextualCompressionRetriever
    from langchain.retrievers.document_compressors import LLMChainExtractor
except ImportError:
    from langchain_classic.retrievers import ContextualCompressionRetriever
    from langchain_classic.retrievers.document_compressors import LLMChainExtractor

# 1. Vytvo≈ôen√≠ kompresoru
# Tento "inteligentn√≠ filtr" pou≈æ√≠v√° LLM k posouzen√≠ ka≈æd√©ho dokumentu
compressor = LLMChainExtractor.from_llm(llm)

# 2. Sestaven√≠ Retrieveru
# Spoj√≠me "Bagr" (vectorstore -- hled√° hrubƒõ) a "Pinzetu" (compressor -- ƒçist√≠)
compression_retriever = ContextualCompressionRetriever(
    base_compressor=compressor,
    base_retriever=vectorstore.as_retriever(search_kwargs={"k": 5}) # Vyt√°hni z datab√°ze 5 nejlep≈°√≠ch polo≈æek, kter√© najde≈°. V kontextu RAG jsou tyto "polo≈æky" technicky vzato Chunky (ty rozsekan√© kousky textu, kter√© jsme vytvo≈ôili pomoc√≠ splitteru). Pro LangChain je to objekt Document, ale fakticky je to Chunk.
)

# 3. Testov√°n√≠
query = "What is the SLA credit for 96% uptime?"
print(f"‚ùì Dotaz: '{query}'\n")

# Zkus√≠me naj√≠t dokumenty
compressed_docs = compression_retriever.invoke(query)

print(f"‚úÖ Nalezeno relevantn√≠ch √∫ryvk≈Ø: {len(compressed_docs)}")
if len(compressed_docs) > 0:
    print("-" * 30)
    # V≈°imnƒõte si, ≈æe vr√°cen√Ω text je krat≈°√≠ ne≈æ origin√°l - je "vyƒçi≈°tƒõn√Ω"
    print(compressed_docs[0].page_content)
    print("-" * 30)
    print(f"(Zdroj: {compressed_docs[0].metadata.get('source', 'nezn√°m√Ω')})")
else:
    print("‚ùå Model vyhodnotil, ≈æe ≈æ√°dn√Ω dokument neobsahuje p≈ô√≠mou odpovƒõƒè.")

‚ùì Dotaz: 'What is the SLA credit for 96% uptime?'

‚úÖ Nalezeno relevantn√≠ch √∫ryvk≈Ø: 1
------------------------------
- < 99.0% but >= 95.0%: 25% Credit
------------------------------
(Zdroj: ../data/legal/sla_contract.txt)


## Conclusion
We have explored:
- **MultiQuery**: For vague user intent.
- **ParentDocument**: For better context management.
- **Compression**: For precision filtering.

In the next notebook, we will learn how to **evaluate** which of these is actually better for our use case using RAGAS.