# 03 - Assemble the RAG Pipeline

Notebook steps:

   - Load the vector database retriever and test it
   - Initialize the reader with a prompt template and a LLM
   - Some retrievers optimizations: hybrid search and reranking
   - Create a RAG pipeline that combines the retriever and the reader


In [3]:
import os
import time
import asyncio
import logging
import re
from typing import List, Tuple
from collections import defaultdict

import pandas as pd
import language_tool_python

import lmstudio as lms
from nltk.tokenize import sent_tokenize
from langchain_openai import ChatOpenAI
from langchain_core.documents import Document

from IPython.display import display, Markdown
from jinja2 import Template

from lib.vector_store import VectorDB
from lib.io_utils import get_absolute_path

## Retriever

In the previous notebook, we created the vector database that works in the RAG as a boosted search engine that brings up the most relevant documents in relation to a user query.

We call it the retriever in the RAG.

We init the retriever, to understand how it works, we can look at the notebook `notebooks/scripts/02-build_vectordb.ipynb` which allows us to create a vectordb from a dataframe.


In [6]:
# init variables for retriever just for example (check available in config.yml for more details)
backend = "lancedb"
embedding_model_name = "Lajavaness/sentence-camembert-large"
db_store_path = get_absolute_path("data/retrievers/vectordb/camembert-large_lancedb")

db = VectorDB(
    backend=backend,
    embedding_model=embedding_model_name,
    path=db_store_path
)

üì¶ LanceDB intialization on: /Users/lucaterre/Documents/pro/Travail_courant/DEV/AI-ENC-Projects/on-github/encpos-qa-rag/data/retrievers/vectordb/camembert-large_lancedb
‚ÑπÔ∏è LanceDB table founded.


Let's try the retriever with a query.

In [8]:
def group_by_thesis(results_with_score: list[tuple[Document, float]]) -> dict[str, list[tuple[Document, float]]]:
    """Group the results by thesis file_id.

    Args:
        results_with_score (list[tuple[Document, float]]): List of tuples containing Document and score.

    Returns:
        dict[str, list[tuple[Document, float]]]: Dictionary with file_id as keys and list of (Document, score) tuples as values.
    """
    grouped = defaultdict(list)
    for doc, score in results_with_score:
        file_id = doc.metadata.get("file_id", "unknown")
        grouped[file_id].append((doc, score))
    return grouped

def readeable_output_display(grouped_results: dict[str, list[tuple[Document, float]]]) -> None:
    """ Display the grouped results in a readable format.

    Args:
        grouped_results (dict[str, list[tuple[Document, float]]]): Dictionary with file_id as keys and list of (Document, score) tuples as values.
    Returns:
        None: This function prints the results directly.
    """
    for file_id, docs in grouped_results.items():
        # Sort documents by score
        docs = sorted(docs, key=lambda tup: tup[1], reverse=True)

        titre = docs[0][0].metadata.get("position_name", "Sans titre")
        auteur = docs[0][0].metadata.get("author", "Inconnu")
        date = docs[0][0].metadata.get("year", "Inconnu")

        print(f"\nüìÑ {auteur}, {titre}, promotion {date}")
        print(f"üß© Chunks founded : {len(docs)}\n")

        for i, (doc, score) in enumerate(docs):
            extrait = doc.metadata.get("raw_chunk", doc.page_content).strip().replace("\n", " ")
            section = doc.metadata.get("section", "Inconnu")
            print(f"  ‚ñ™Ô∏è Extract {i + 1} from section '{section}' (score={score:.4f}) : [‚Ä¶]{extrait}[‚Ä¶]")
        print("-" * 80)

def mini_retriever_playground(k: int=10)-> None:
    """Mini retriever playground to test the retriever with user input.

    Args:
        k (int): Number of results to return. Defaults to 10.

    Returns:
        None: This function runs an interactive loop to query the retriever.
    """
    query = input("Query: ")

    results = db.query(query, k=k)
    grouped_results = group_by_thesis(results)
    print(f"User query: {query}\n")
    readeable_output_display(grouped_results)
    return query, results


In [9]:
%%time
query, results = mini_retriever_playground(k=10)

User query: Quels sont les th√®mes iconographiques au Moyen-√Çge ?


üìÑ Emmanuelle Giry, L√©on Bloy et le Moyen √Çge l‚Äôimaginaire catholique renouvel√© ?, promotion 2011
üß© Chunks founded : 1

  ‚ñ™Ô∏è Extract 1 from section 'Annexes' (score=0.5563) : [‚Ä¶]Iconographie. ‚Äî Index des personnages m√©di√©vaux cit√©s dans l‚Äô≈ìuvre de Bloy. ‚Äî Tableau synoptique des principaux historiens lus par Bloy. ‚Äî Index g√©n√©ral.[‚Ä¶]
--------------------------------------------------------------------------------

üìÑ Jacques Yvon, L‚Äôillustration des romans arthuriens du xiiie au xve si√®cle, promotion 1948
üß© Chunks founded : 1

  ‚ñ™Ô∏è Extract 1 from section 'Chapitre III L‚Äôiconographie.' (score=0.5548) : [‚Ä¶]L‚Äôiconographie profane a √©t√© peu √©tudi√©e. Elle a fait des emprunts √† l‚Äôiconographie religieuse qui sont visibles dans l‚Äôillustration des romans de chevalerie. Certains th√®mes religieux ont √©t√© trait√©s par les enlumineurs de romans, comme l‚ÄôAnnonciation, l

## Reader

The reader is the RAG component that takes the results from the retriever and transforms them (interpolation) into a pre-structured prompt, which is then passed to an LLM that generates a structured or unstructured response.

The parameters to consider for the reader are:
- The LLM model that will be used to generate the response;
- The prompt that will be used to generate the response;

To initialize the Reader, we use LangChain's `ChatOpenAI` interface, which allows us to use OpenAI's LLM models (or models compatible with the OpenAI API specification, such as Mistral, Llama, etc.).
The LLM is served by LM Studio, which is a server compatible with the OpenAI API and allows you to easily use local LLM models (there are other solutions such as Ollama or Vllm, for example).

To initialize the LLM, you must specify (see the documentation https://python.langchain.com/docs/integrations/chat/openai/):
- The maximum number of tokens to be generated by the LLM (`max_tokens`);
- The OpenAI API URL (which is actually the LM Studio server URL) (`openai_api_base`);
- The response will be streamed (`streaming=True`) to display the response as it is generated.
- max_retries: the number of generation attempts in case of error (for example, if the LLM does not respond within a reasonable time) (`max_retries`).
- timeout: the maximum waiting time for a response from the LLM (`timeout`).

Inference parameters (set directly in lmstudio):

- The temperature of the LLM (for the creativity of the response). A temperature of 0.0 will make the LLM very deterministic, while a temperature of 1.0 will make it more creative and random (`temperature`);
- The top_p parameter (which is not used here, but can be useful to control the diversity of the generated response) (`top_p`);


In [22]:
llm_name = "mistral-nemo-instruct-2407"

llm_only = lms.list_loaded_models("llm")
if len(llm_only) > 0:
    print("The following models were loaded:")
    for model in llm_only:
        print(f"- {model}")
    llm = ChatOpenAI(
    model_name="mistral-nemo-instruct-2407",
    openai_api_base="http://localhost:1234/v1",
    openai_api_key="lm-studio",
    streaming=True,
    max_tokens=4096,
)
else:
    print("No LLM models loaded in LM Studio. Try to load a new instance.")
    client = lms.get_default_client()
    client.llm.unload(llm_name)
    model = client.llm.load_new_instance(llm_name)
    llm = ChatOpenAI(
    model_name="mistral-nemo-instruct-2407",
    openai_api_base="http://localhost:1234/v1",
    openai_api_key="lm-studio",
    streaming=True,
    max_tokens=4096,
)


The following models were loaded:
- LLM(identifier='mistral-nemo-instruct-2407')


### Reader - the prompt

In [10]:
def get_token_count(text: str) -> int:
    """Get the number of tokens in a text using the LLM tokenizer.
    Args:
        text (str): The text to tokenize.
    Returns:
        int: The number of tokens in the text.
    """
    model = lms.llm(
    )
    return len(model.tokenize(text))

def truncate_by_sentence(text: str, max_tokens: int) -> str:
    """Truncate a text by sentences to fit within a maximum token limit.

    Args:
        text (str): The text to truncate.
        max_tokens (int): The maximum number of tokens allowed.

    Returns:
        str: The truncated text, ending with an ellipsis if truncated.
    """
    sentences = sent_tokenize(text)
    result = []
    for sent in sentences:
        result.append(sent)
        joined = " ".join(result)
        if get_token_count(joined) > max_tokens:
            result.pop()
            break
    return " ".join(result).strip() + " [‚Ä¶]"

def build_context_prompt(
    results: List[Tuple[Document, float]],
    question: str,
    template_path: str,
    max_total_tokens: int = 4096,
    output_buffer: int = 512,
) -> str:
    """Build a context prompt from the retrieved documents and a question.

    Args:
        results (List[Tuple[Document, float]]): List of tuples containing Document and score.
        question (str): The question to be answered.
        template_path (str): Path to the Jinja2 template file for the prompt.
        max_total_tokens (int): Maximum total tokens allowed for the prompt.
        output_buffer (int): Buffer space reserved for the output tokens.

    Returns:
        str: The rendered prompt with context and question.
    """
    prompt_template = Template(open(template_path, encoding="utf-8").read())

    grouped = defaultdict(list)
    for doc, score in results:
        grouped[doc.metadata.get("file_id", "inconnu")].append((doc, score))

    # test if all score is under < 0.5:
    if all(score < 0.5 for _, score in results):
        return "no documents found"

    sorted_groups = sorted(grouped.items(), key=lambda item: max(s for _, s in item[1]), reverse=True)

    included_chunks = []
    fallback_chunks = []
    token_budget = max_total_tokens - output_buffer

    header_base = prompt_template.render(context="PLACEHOLDER", question="PLACEHOLDER", annex="PLACEHOLDER")
    header_tokens = get_token_count(header_base.replace("{{context}}", "").replace("{{question}}", ""))

    total_tokens = header_tokens

    for file_id, chunks in sorted_groups:
        chunks.sort(key=lambda x: x[1], reverse=True)
        meta = chunks[0][0].metadata
        header = f"* Position de th√®se : {meta.get('author','?')}, {meta.get('position_name','?')}, promotion {meta.get('year','?')}\n"
        section_lines = [header]

        for i, (doc, _) in enumerate(chunks):
            section = doc.metadata.get("section", "")
            extrait = doc.metadata.get("raw_chunk", doc.page_content).strip().replace("\n", " ")
            #extrait = truncate_by_sentence(extrait, max_chunk_tokens)

            line = f"Extrait {i+1}"
            if section:
                line += f" - section ¬´ {section} ¬ª"
            line += f" : {extrait}"

            chunk_tokens = get_token_count(line)
            if total_tokens + chunk_tokens > token_budget:
                fallback_chunks.append((meta, i+1, section))
                continue

            section_lines.append(line)
            total_tokens += chunk_tokens

        if len(section_lines) > 1:
            included_chunks.append("\n".join(section_lines) + "\n")

    context = "\n".join(included_chunks)

    # Th√®ses √©loign√©es
    if fallback_chunks:
        annex_by_thesis = defaultdict(list)
        for meta, i, section in fallback_chunks:
            file_id = meta.get("file_id", "inconnu")
            annex_by_thesis[file_id].append((meta, i, section))

        annex_lines = []
        for file_id, chunk_infos in annex_by_thesis.items():
            meta = chunk_infos[0][0]
            title = meta.get("position_name", "?")
            author = meta.get("author", "?")
            promo = meta.get("year", "?")
            header = f"* {author}, {title}, promotion {promo} :"
            annex_lines.append(header)

            for _, i, section in chunk_infos:
                line = f"\t- "
                if section:
                    line += f"section ¬´ {section} ¬ª"
                annex_lines.append(line)

        annex = "\n".join(annex_lines)
    else:
        annex = None

    return prompt_template.render(context=context, question=question, annex=annex)

In [11]:
final_prompt = build_context_prompt(
    results=results,
    question=query,
    template_path="../prompt_templates/v2.jinja",
    max_total_tokens=4096,
    output_buffer=512,
)

print(final_prompt)

**Votre identit√© et objectif principal:**
Vous √™tes un assistant IA sp√©cialis√© dans l'exploration et l'analyse du corpus des "Positions des th√®ses" de l'√âcole nationale des chartes, publi√©es depuis 1849. Votre r√¥le est d'aider les utilisateurs √† naviguer, comprendre et extraire des informations pertinentes de ces documents historiques. Vous devez baser vos r√©ponses **exclusivement** sur les informations contenues dans les "Positions des th√®ses" qui vous sont fournies.

Rappelez clairement √† l'utilisateur, notamment au d√©but de l'interaction et chaque fois que le contexte le justifie (par exemple, si la question implique une recherche d'exhaustivit√© ou si l'information trouv√©e est tr√®s concise), que vos r√©ponses sont bas√©es exclusivement sur les 'positions de th√®se'. Pr√©cisez que celles-ci sont des r√©sum√©s et que, pour une compr√©hension approfondie ou compl√®te, la consultation de la th√®se originale est recommand√©e.

**Nature des donn√©es :**
1.  Vous avez acc√®

### Reader - try it

We pass the prompt to the LLM to generate a response. The response will be streamed, meaning that it will be displayed as it is generated, allowing for a more interactive experience.

We add some post-processing operations on generated content such as:

- Spell check to avoid spelling mistakes in the response due to a small LLM with a strategy to prevent overcorrection by naive named entities masking;
- Avoid LLM abrupt cutoffs on the middle of sentence by splitting the response to the last sentence;
- Add a user disclaimer at the end of the response to remind the user that the response is generated by an LLM and may contain errors or approximations.

In [31]:
os.environ["TOKENIZERS_PARALLELISM"] = "false"
tool = language_tool_python.LanguageTool('fr')

def mask_capitalized_words(text: str) -> Tuple[str, dict]:
    """Mask all words starting with a capital letter in the text.

    Args:
        text (str): The input text to mask.

    Returns:
        Tuple[str, dict]: A tuple containing the masked text and a dictionary of masks.
    """
    masks = {}
    def replacer(match):
        key = f"__MASK{len(masks)}__"
        masks[key] = match.group(0)
        return key

    # Mask all the words that start with a capital letter
    pattern = r'\b[A-Z√â√à√Ä√Ç√ä√é√î√õ√á][a-z√©√®√™√†√ß√Æ√¥√ª√§√´√Ø√∂√º]+\b'
    masked_text = re.sub(pattern, replacer, text)
    return masked_text, masks

def unmask_text(text: str, masks: dict) -> str:
    """Unmask the text by replacing the masked words with their original values.

    Args:
        text (str): The masked text.
        masks (dict): A dictionary containing the masks.
    Returns:
        str: The unmasked text with original words restored.
    """
    for key, original in masks.items():
        text = text.replace(key, original)
    return text

# Disclamer
CONCLUSION = (
    "Pour rappel, cette r√©ponse est g√©n√©r√©e automatiquement √† partir d'un mod√®le de langue elle peut contenir des approximations, des surcorrections, des erreurs factuelles "
    "ou des interpr√©tations partielles. Cette r√©ponse ne pr√©tend pas se subsituer √† la critique des sources. Dans ce cadre, il est vivement recommand√© de v√©rifier les sources mentionn√©es "
    "dans cette r√©ponse et de consulter d'autres positions de th√®ses pour approfondir votre question."
)

def finalize_response(text: str, conclusion: str = CONCLUSION) -> str:
    """Post-processing operations on the generated text to clean it up and prepare it for display.

    Args:
        text (str): The generated text to be cleaned.
        conclusion (str): The conclusion to be appended at the end of the response.

    Returns:
        str: The cleaned text with sentences properly formatted and the conclusion appended.
    """
    lines = text.strip().split('\n')
    final_lines = []

    for line in lines:
        sentences = re.split(r'(?<=[.!?])\s+', line)
        if not sentences:
            continue
        if not re.search(r'[.!?]["‚Äù¬ª‚Äù]?\s*$', sentences[-1]):
            sentences = sentences[:-1]
        if sentences:
            final_lines.append(" ".join(sentences))

    cleaned_text = "\n".join(final_lines).strip()
    if not cleaned_text:
        return conclusion

    masked_text, masks = mask_capitalized_words(cleaned_text)
    matches = tool.check(masked_text)
    corrected = language_tool_python.utils.correct(masked_text, matches)
    corrected_text = unmask_text(corrected, masks)

    return corrected_text + "\n\n" + conclusion


async def stream_and_print(llm, prompt: str, max_tokens: int=100000, timeout: int=100000) -> str:
    """Launch the generation process and display the response.

    Args:
        llm: The LLM model instance to use for generation.
        prompt (str): The prompt to send to the LLM.
        max_tokens (int): Maximum number of tokens allowed in the response.
        timeout (int): Maximum time to wait for the response.

    Returns:
        str: The final cleaned response from the LLM.
    """
    full_response = ""
    output_display = display(Markdown("üü° Processing..."), display_id=True)

    async def _run_stream():
        nonlocal full_response
        chunks = []
        async for chunk in llm.astream(prompt):
            text = getattr(chunk, "content", str(chunk))
            full_response += text
            chunks.append(text)
            output_display.update(Markdown("".join(chunks).replace("\n", "\n\n")))
            if len(full_response.split()) > max_tokens:
                output_display.update(Markdown("‚õîÔ∏è **Truncated response: too many tokens.**"))
                break

    try:
        await asyncio.wait_for(_run_stream(), timeout=timeout)
    except asyncio.TimeoutError:
        logging.warning("‚è≥ Timeout ‚Äî relaunch in stream...")
        output_display.update(Markdown("üîÅ **timeout...**"))
        full_response = ""
        try:
            await asyncio.wait_for(_run_stream(), timeout=timeout)
        except Exception as e:
            logging.error(f"‚ùå Failed to stream : {e}")
            output_display.update(Markdown("‚ùå **No generation possible.**"))
            return "Erreur"
    except Exception as e:
        logging.warning(f"üí• Error during streaming: {e}")
        output_display.update(Markdown("üîÅ **Test again...**"))
        full_response = ""
        try:
            await asyncio.wait_for(_run_stream(), timeout=timeout)
        except Exception as e:
            logging.error(f"‚ùå Failed on second test: {e}")
            output_display.update(Markdown("‚ùå **No generation possible**"))
            return "Erreur"

    # Nettoyage et finalisation
    cleaned_response = finalize_response(full_response)
    output_display.update(Markdown(cleaned_response.replace("\n", "\n\n")))
    return cleaned_response

# Utilisation
if final_prompt == "no documents found":
    response = "Je n'ai trouv√© aucun document pertinent pour r√©pondre √† votre question. Veuillez reformuler votre question ou bien consulter les positions de th√®ses disponibles."
    # stream this
    output_display = display(Markdown(response), display_id=True)
else:
    response = await stream_and_print(llm, final_prompt)


D'apr√®s les positions de th√®se que j'ai consult√©es, plusieurs th√®mes iconographiques √©taient courants au Moyen √Çge. Les principale th√©matique concernent l'histoire religieuse, les √©v√©nements historiques, les portraits et les sc√®nes de genre.

1. **Religion** : Les positions de th√®se mentionnent souvent des sujets li√©s √† la religion, tels que la Crucifixion, l'Annonciation, la Vierge √† l'Enfant, les saints, les sc√®nes bibliques et les th√®mes religieux dans les romans de chevalerie.

2. **Histoire** : L'histoire est un autre sujet populaire pour l'iconographie au Moyen √Çge. Les positions de th√®se font r√©f√©rence √† des √©v√©nements historiques, comme des batailles, des couronnements, des mariages royaux, des naissances et des d√©c√®s de membres de la famille royale.

3. **Portraits** : Les portraits de personnalit√©s, tels que les membres de la royaut√©, les saints et les h√©ros de l'√©poque, √©taient √©galement courants dans l'iconographie m√©di√©vale.

4. **Sc√®nes de genre** : Des sc√®nes de la vie quotidienne, comme le travail des champs, la chasse, le march√©, etc., ont aussi √©t√© souvent repr√©sent√©es.

Il convient de noter que ces positions de th√®se sont des r√©sum√©s, il est donc possible que les th√®ses compl√®tes contiennent des informations plus d√©taill√©es sur l'iconographie au Moyen √Çge.



Pour rappel, cette r√©ponse est g√©n√©r√©e automatiquement √† partir d'un mod√®le de langue elle peut contenir des approximations, des surcorrections, des erreurs factuelles ou des interpr√©tations partielles. Cette r√©ponse ne pr√©tend pas se subsituer √† la critique des sources. Dans ce cadre, il est vivement recommand√© de v√©rifier les sources mentionn√©es dans cette r√©ponse et de consulter d'autres positions de th√®ses pour approfondir votre question.

### Reader - optimisations: hybrid search and reranking

There are two possible optimizations:

- Hybrid search: classic information retrieval algorithm (e.g., BM25) combined with a vector retriever (such as FAISS or Qdrant) to improve the relevance of results.
Classic algorithms are often very good at detecting the presence/absence of keywords in documents, while vector algorithms are better at detecting semantic similarity between documents and the question asked.
The two approaches are therefore combined to obtain more relevant results. This is possible via LangChain's `EnsembleRetriever`, which allows several retrievers to be combined into one based on a hybrid search algorithm that performs a weighted combination of the results from each retriever.

- Reranking: this method allows the results obtained by the retriever to be reordered according to their relevance to the question asked, using a language model before the retriever finally returns the results. The idea is that the language model can better understand the context and relevance of the documents in relation to the question asked, and thus reorganize the results to return the most relevant ones first.

Like the VectorDB class, we have created an abstraction `RAGPipeline` that includes the Retriever via `VectorDB`, the logic seen above, and the possibility of using hybrid search and reranking.

In [1]:
from lib.rag_pipeline import RAGPipeline

#### Hybrid search

In [35]:
pipeline = RAGPipeline(
    vectordb_path=get_absolute_path("data/retrievers/vectordb/camembert-base_faiss"),
    template_path=get_absolute_path("prompt_templates/v3.jinja"),
    backend="faiss",
     embedding_model="Lajavaness/sentence-camembert-base",
    hybrid=True,
    bm25_path=get_absolute_path("data/retrievers/bm25/bm25.encpos.tok.512_51.pkl"),
    rerank=False,
    use_streaming=True
)

In [36]:
results = await pipeline.generate(query)
for doc, score in pipeline.relevant_docs:
    print(f"[{score:.2f}] {doc.metadata.get('author', '?')} - {doc.metadata.get('section', '?')}")
    print(doc.page_content[:300], "...\n")

Les extraits fournis permettent d'identifier plusieurs th√®mes iconographiques qui ont √©t√© couramment utilis√©s au Moyen √Çge. Selon Jacques Yvon dans son √©tude sur l'illustration des romans arthuriens du XIIIe au XVe si√®cle, certains th√®mes religieux ont √©t√© trait√©s par les enlumineurs de ces romans, comme l'Annonciation et la Crucifixion. Ces illustrations peuvent apporter des renseignements pr√©cieux sur l'iconographie profane, qui inclut le roi, la guerre, le chevalier et sa vie, etc.

Dominique Grandon, dans ses recherches sur les incunables illustr√©s, mentionne que les √©ditions de la Vie de J√©sus-Christ appartiennent √† un groupe de productions dont le succ√®s marque les d√©buts de l'imprimerie lyonnaise et genevoise. Ces textes en langue vulgaire, qui connurent une diffusion analogue √† celle de notre texte, incluent des romans de chevalerie, des encyclop√©dies de vulgarisation, etc. L'illustration de ces incunables se compose de s√©ries homog√®nes de gravures d'un style rudimentaire, mais tr√®s r√©aliste. Les th√®mes iconographiques sont des th√®mes courants √† la fin du Moyen √Çge.

En somme, les principaux th√®mes iconographiques au Moyen √Çge incluent des sujets religieux tels que l'Annonciation et la Crucifixion, ainsi que des th√®mes profanes li√©s aux romans de chevalerie, √† la guerre, au roi, au chevalier et √† sa vie. Les gravures sur bois utilis√©es dans les incunables illustr√©s sont caract√©ristiques d'un art populaire, vivant et jeune, qui est encore marqu√© par les contraintes dues √† la technique.



Pour rappel, cette r√©ponse est g√©n√©r√©e automatiquement √† partir d'un mod√®le de langue. Elle peut contenir des approximations, des surcorrections, des erreurs factuelles ou des interpr√©tations partielles. Il est vivement recommand√© de v√©rifier les sources mentionn√©es et de consulter d'autres positions de th√®ses pour approfondir votre question.

[1.00] Marie Avril-Lossky - Chapitre V Les ic√¥nes √† sujets liturgiques aux xvie et xviie si√®cles. La liturgie des f√™tes
Le renouvellement des ic√¥nes en Russie aux xvie et xviie si√®cles : La liturgie de certaines f√™tes a suscit√© d‚Äôautres ic√¥nes ; ainsi l‚ÄôAkathiste de la M√®re de Dieu a inspir√© des illustrations litt√©rales de louanges √† la Vierge prises dans le texte de l‚Äôoffice, comme les douze sc√®nes de l‚ÄôAkathiste qu ...

[1.00] Guy Mayaud - Introduction
L‚Äô√©rudition h√©raldique au xviie si√®cle : la question des origines des armoiries : de son enseignement. L‚Äôh√©raldique, science mouvante et √©volutive, est donc mise en ordre et structur√©e par le Grand Si√®cle. Deux enjeux principaux paraissent d√®s lors s‚Äôimposer dans une √©tude sur l‚Äô√©rudition h√©raldique ...

[1.00] Jacques Yvon - Chapitre III L‚Äôiconographie.
L‚Äôillustration des romans arthuriens du xiiie au xve si√®cle : L‚Äôiconographie profane a √©t√© peu √©tudi√©e. Elle a fait des emprunts √† 

#### Reranking

In [14]:
pipeline = RAGPipeline(
    vectordb_path=get_absolute_path("data/retrievers/vectordb/camembert-base_faiss"),
    template_path=get_absolute_path("prompt_templates/v3.jinja"),
    backend="faiss",
     embedding_model="Lajavaness/sentence-camembert-base",
    hybrid=False,
    rerank=True,
    bm25_path=None,
    use_streaming=True
)

üìÇ Loading existing FAISS index from /Users/lucaterre/Documents/pro/Travail_courant/DEV/AI-ENC-Projects/on-github/encpos-qa-rag/data/retrievers/vectordb/camembert-base_faiss


In [15]:
results = await pipeline.generate(query)
for doc, score in pipeline.relevant_docs:
    print(f"[{score:.2f}] {doc.metadata.get('author', '?')} - {doc.metadata.get('section', '?')}")
    print(doc.page_content[:300], "...\n")

<lib.vector_store.VectorDB object at 0x17b8e2e60>


Les extraits fournis permettent d'aborder la question des th√®mes iconographiques au Moyen √Çge √† travers l'analyse de deux positions de th√®se portant sur l'iconographie et l'h√©raldique.

D'une part, Nathalie Rollet dans son travail sur L‚Äôiconographie du Lancelot en prose √† la fin du Moyen √Çge (v. 1340-v. 1500) met en √©vidence les th√®mes iconographiques li√©s √† la l√©gende du Graal. Elle montre que l'iconographie de la Queste d'EL Saint Graal, qui compte entre trois et quarante-trois miniatures selon les manuscrits, m√™le mythe et religion chr√©tienne. Les chevaliers sont les h√©ros principaux de cette qu√™te, mais ils sont souvent associ√©s aux religieux dans l'illustration. L'auteur souligne √©galement que l'orientation profane de l'iconographie prolonge celle du Lancelot propre, m√™me si le texte de la Queste d'EL Saint Graal insiste moins sur les aventures guerri√®res des chevaliers que sur l'aspect religieux de leur qu√™te.

D'autre part, Michel Pastoureau dans son travail sur Le bestiaire h√©raldique au Moyen √Çge aborde les th√®mes iconographiques li√©s √† l'h√©raldique. Il montre que le dessin h√©raldique repose sur une simplification des formes de l'animal et une exag√©ration de toutes les parties pouvant servir √† l'identifier. Les r√®gles du dessin h√©raldique sont rigoureuses, avec des lois de sym√©trie et de pl√©nitude. On peut distinguer plusieurs styles nationaux dans le dessin h√©raldique des animaux, tels que le style anglais, le style fran√ßais, le style germanique et le style bourguignon-flamand.

En synth√®se, les th√®mes iconographiques au Moyen √Çge sont vari√©s et peuvent √™tre li√©s √† la litt√©rature, comme dans le cas de l'iconographie du Lancelot en prose, ou √† l'h√©raldique, comme dans le travail de Michel Pastoureau sur le bestiaire h√©raldique. Les extraits fournis montrent que ces th√®mes iconographiques sont souvent associ√©s √† des r√®gles et des styles sp√©cifiques, qui peuvent varier selon les r√©gions et les p√©riodes.



Pour rappel, cette r√©ponse est g√©n√©r√©e automatiquement √† partir d'un mod√®le de langue. Elle peut contenir des approximations, des surcorrections, des erreurs factuelles ou des interpr√©tations partielles. Il est vivement recommand√© de v√©rifier les sources mentionn√©es et de consulter d'autres positions de th√®ses pour approfondir votre question.

[1.00] Nathalie Rollet - Chapitre VI L‚Äôiconographie de la Queste del saint Graal
L‚Äôiconographie du Lancelot en prose √† la fin du Moyen √Çge (v. 1340-v. 1500) : Sept manuscrits contiennent le texte de la Queste del Saint Graal. avec un cycle d‚Äôimages comptant de trois √† quarante-trois miniatures et un total de cent quarante images. L‚Äôamplification progressive du cycle d‚Äôimages est ...

[0.96] Anne-Sophie Durozoy - Planches
√âtude de l‚Äôiconographie et de la th√©ologie de Jonas en Occident (xiie-xve si√®cle). Jonas au Moyen √Çge : Pour chaque partie iconographique, un ensemble d‚Äôimages illustrant le texte a √©t√© rassembl√©. ...

[0.92] Mathieu Deldicque - Annexes
Entre Moyen √Çge et Renaissance ? La commande artistique de l‚Äôamiral Louis Malet de Graville (v. 1440-1516) : Dossier iconographique : planches r√©parties par √©difices et type d‚Äôobjets. ‚Äî G√©n√©alogies. ‚Äî Cartes. ‚Äî Index des noms de personnes et de lieux. ...

[0.91] Nathalie Rollet - Chapitre III Quel