In [1]:
from langchain.vectorstores import FAISS
from langchain_huggingface import HuggingFaceEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain.retrievers import BM25Retriever, EnsembleRetriever
from langchain.schema import Document

In [2]:
texts = [
    "LangChain est une composante cl√© dans la cr√©ation d'applications avec des LLM.",
    "La m√©thode BM25 permet d'am√©liorer la qualit√© de la recherche documentaire.",
    "Avec FAISS, les r√©sultats sont plus pertinents gr√¢ce √† l'analyse s√©mantique.",
    "Le retrieval hybride est souvent combin√© avec des approches lexicales pour des performances accrues.",
    "L'int√©gration de embeddings dans un pipeline RAG est d√©sormais plus simple gr√¢ce √† LangChain.",
    "Les syst√®mes de vector search utilisent des embeddings pour repr√©senter le texte num√©riquement.",
    "FAISS am√©liore la pr√©cision de la recherche en comprenant le sens des requ√™tes.",
    "BM25 fonctionne tr√®s bien en local, m√™me sans infrastructure cloud.",
    "Gr√¢ce √† LangChain, on peut interroger efficacement une base documentaire complexe.",
    "La combinaison de BM25 et FAISS est tr√®s utilis√©e dans les syst√®mes RAG modernes.",
    "LLM est une composante cl√© dans la cr√©ation d'applications avec des LLM.",
    "La m√©thode hybrid methods permet d'am√©liorer la qualit√© de la recherche documentaire.",
    "Avec dense retrieval, les r√©sultats sont plus pertinents gr√¢ce √† l'analyse s√©mantique.",
    "vector search est souvent combin√© avec des approches lexicales pour des performances accrues.",
    "L'int√©gration de retrieval dans un pipeline RAG est d√©sormais plus simple gr√¢ce √† LangChain.",
    "Les syst√®mes de metadata utilisent des embeddings pour repr√©senter le texte num√©riquement.",
    "question answering am√©liore la pr√©cision de la recherche en comprenant le sens des requ√™tes.",
    "open source fonctionne tr√®s bien en local, m√™me sans infrastructure cloud.",
    "Gr√¢ce √† document processing, on peut interroger efficacement une base documentaire complexe.",
    "La combinaison de FAISS et embeddings est tr√®s utilis√©e dans les syst√®mes RAG modernes.",
    "LangChain est souvent combin√© avec FAISS dans les pipelines IA modernes.",
    "BM25 est toujours utilis√© dans les moteurs de recherche traditionnels.",
    "Les embeddings permettent une compr√©hension s√©mantique fine.",
    "Une base de connaissance bien structur√©e am√©liore le retrieval.",
    "Chunker les documents aide les retrievers √† mieux cibler les informations.",
    "Les LLMs comme Mistral ou LLaMA profitent d‚Äôun bon contexte via retrieval.",
    "Le vector store est essentiel pour la recherche dense.",
    "FAISS et Chroma sont les solutions les plus courantes en local.",
    "LangChain propose une API unifi√©e pour tous les types de retrievers.",
    "Le format des documents (PDF, Markdown, HTML) influence le chunking.",
    "BM25 reste performant sur les corpus simples ou tr√®s structur√©s.",
    "Le reranking am√©liore la qualit√© finale des documents propos√©s au LLM.",
    "Certaines approches hybrides utilisent des pond√©rations dynamiques.",
    "Weaviate permet de combiner recherche vectorielle et filtrage structur√©.",
    "Avec Ollama, les LLMs peuvent tourner localement sans cloud.",
    "Le co√ªt des embeddings d√©pend du mod√®le utilis√© (MiniLM, MPNet‚Ä¶).",
    "La qualit√© du prompt est influenc√©e par le contexte fourni par le retriever.",
    "Un bon split des documents augmente le recall.",
    "Les m√©triques comme le MRR ou Recall@k permettent d‚Äô√©valuer un retriever.",
    "L‚Äôinfrastructure locale doit √™tre optimis√©e pour charger rapidement l‚Äôindex.",
    "L‚Äôajout de m√©tadonn√©es enrichit le filtrage contextuel dans les retrievers.",
    "LangChain permet de tester rapidement plusieurs strat√©gies de retrieval.",
    "Une pipeline RAG efficace passe par un tuning pr√©cis du retriever.",
    "Le choix de l‚Äôembedding model impacte directement la pertinence des r√©sultats.",
    "Il est utile d‚Äôindexer les sources des documents pour l‚Äôauditabilit√©.",
    "Certaines approches utilisent des embeddings multi-vecteurs par chunk.",
    "FAISS HNSW est plus performant pour des recherches approximatives rapides.",
    "La vectorisation peut se faire offline pour gagner en performance.",
    "LangChain offre aussi un support pour OpenSearch et Qdrant.",
    "Un LLM avec peu de contexte aura du mal √† r√©pondre pr√©cis√©ment.",
    "Il faut ajuster la taille et le recouvrement des chunks pour chaque cas d‚Äôusage."
]
documents = [Document(page_content=t) for t in texts]

In [3]:
splitter = CharacterTextSplitter(chunk_size=100, chunk_overlap=0)
docs_split = splitter.split_documents(documents)

In [4]:
embedding_models = {
    "miniLM": HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2"),
    "mpnet": HuggingFaceEmbeddings(model_name="sentence-transformers/all-mpnet-base-v2"),
}

In [8]:
retrievers = {}

for name, embedding in embedding_models.items():
    vectorstore = FAISS.from_documents(docs_split, embedding)
    retrievers[f"FAISS ({name})"] = vectorstore.as_retriever(search_kwargs={"k": 3})

bm25_retriever = BM25Retriever.from_documents(docs_split)
bm25_retriever.k = 3
retrievers["BM25"] = bm25_retriever

hybrid_retriever = EnsembleRetriever(
    retrievers=[bm25_retriever, retrievers["FAISS (miniLM)"]],
    weights=[0.5, 0.5]
)
retrievers["Hybrid (BM25 + FAISS-miniLM)"] = hybrid_retriever

In [11]:
def test_query(query: str, top_k: int = 2):
    print(f"\nüîç Question : {query}")
    for name, retriever in retrievers.items():
        print(f"\n‚û° M√©thode : {name}")
        results = retriever.invoke(query)
        for i, doc in enumerate(results):
            print(f"{i+1}. {doc.page_content}")
    print("\n" + "="*50)

In [12]:
test_query("Comment fonctionne la recherche vectorielle ?")
test_query("Qu'est-ce qu'un mod√®le d'embedding ?")


üîç Question : Comment fonctionne la recherche vectorielle ?

‚û° M√©thode : FAISS (miniLM)
1. Le vector store est essentiel pour la recherche dense.
2. Weaviate permet de combiner recherche vectorielle et filtrage structur√©.
3. La vectorisation peut se faire offline pour gagner en performance.

‚û° M√©thode : FAISS (mpnet)
1. La vectorisation peut se faire offline pour gagner en performance.
2. Weaviate permet de combiner recherche vectorielle et filtrage structur√©.
3. Le vector store est essentiel pour la recherche dense.

‚û° M√©thode : BM25
1. Weaviate permet de combiner recherche vectorielle et filtrage structur√©.
2. La m√©thode BM25 permet d'am√©liorer la qualit√© de la recherche documentaire.
3. La m√©thode hybrid methods permet d'am√©liorer la qualit√© de la recherche documentaire.

‚û° M√©thode : Hybrid (BM25 + FAISS-miniLM)
1. Weaviate permet de combiner recherche vectorielle et filtrage structur√©.
2. Le vector store est essentiel pour la recherche dense.
3. La m√©thode