## BASE DE DONNEES VECTORIELLE ET EMBEDING

## ETAPE 1 CHUNKING

In [24]:
from pypdf import PdfReader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_core.documents import Document

def load_and_split_pdf_simple(pdf_path: str):
    """
    Charge tout le PDF en un seul Document, puis le d√©coupe en chunks
    avec chunk_size=1000 et chunk_overlap=100 (en caract√®res).
    """
    # 1. Extraire tout le texte du PDF
    reader = PdfReader(pdf_path)
    full_text = ""
    for i, page in enumerate(reader.pages):
        text = page.extract_text() or ""
        full_text += text + f"\n\n[PAGE {i+1}]\n\n"  # Ajout de marqueur de page

    # 2. Cr√©er un seul Document
    doc = Document(page_content=full_text.strip().replace('. .',''), metadata={"source": pdf_path})

    # 3. D√©couper avec RecursiveCharacterTextSplitter (par d√©faut : len = caract√®res)
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=1000,
        chunk_overlap=100,
        separators=['.'],
        keep_separator=True  # Garde les s√©parateurs pour √©viter de couper au milieu d'une phrase
    )

    # 4. Splitter
    chunks = text_splitter.split_documents([doc])

    return chunks

# Utilisation
pdf_chunks = load_and_split_pdf_simple("embedding_course_by_koulou.pdf")




In [25]:
pdf_chunks

[Document(page_content='L‚ÄôINTELLIGENCE ARTIFICIELLE\nDes fondements th√©oriques aux bases de donn√©es vectorielles\nAuteur : KOULOU crepin\nD√©partement de Data Science\n8 janvier 2026\n\n[PAGE 1]\n\nR√©sum√©\nCe rapport pr√©sente une analyse approfondie de l‚Äô√©tat actuel de l‚ÄôIntelligence ArtiÔ¨Åcielle.\nNous explorerons d‚Äôabord les fondements math√©matiques de l‚Äôapprentissage automatique\n(Machine Learning) et des r√©seaux de neurones profonds (Deep Learning). Une attention\nparticuli√®re sera port√©e aux d√©veloppements r√©cents concernant les Grands Mod√®les de\nLangage (LLM) et l‚Äôinfrastructure critique qui les soutient, notamment les bases de don-\nn√©es vectorielles (FAISS, ChromaDB, Qdrant) et les m√©canismes de similarit√©. EnÔ¨Ån, nous\naborderons les d√©Ô¨Ås √©thiques et les perspectives d‚Äôavenir.\n\n[PAGE 2]\n\nTable des mati√®res\n1 Introduction 2\n1.1 Contexte Historique                . 2\n1.2 D√©Ô¨Ånitions et Typologie               2\n2 Fondements Math√©m


<img src="faiss chroma.jpg" alt="Logo Python" width="1500" height="600">


<div style="display: flex; gap: 20px;">

  <!-- Colonne 1 -->
  <div style="flex: 1; padding: 15px; border: 2px solid #e65100; border-radius: 10px; background-color: #fff0e0; box-shadow: 2px 2px 8px rgba(0,0,0,0.1); color:#212121;">
  
  ## 1. Introduction G√©n√©rale : Les Bases de Donn√©es Vectorielles

  **Qu'est-ce que c'est ?**  
  Une base de donn√©es vectorielle est un syst√®me optimis√© pour stocker et interroger des *vecteurs* (embeddings).

  **Pourquoi en avons-nous besoin ?**  
  Les bases traditionnelles (SQL, NoSQL) g√®rent bien les correspondances exactes, mais √©chouent sur la *similarit√©*.  

  Avec l‚Äôessor de l‚ÄôIA, les donn√©es complexes (texte, images, audio) sont transform√©es en vecteurs.  
  ‚ú® Des concepts proches se retrouvent math√©matiquement voisins dans un espace multidimensionnel.  

  üëâ Fonction principale : **Vector Search**.  
  Exemple : un vecteur "chat" renvoie les images les plus proches d‚Äôun chat, m√™me sans mot-cl√©.  

  C‚Äôest le c≈ìur des applications modernes comme le **RAG (Retrieval-Augmented Generation)**, qui permet aux LLM d‚Äôacc√©der √† vos documents.  

  </div>

  <!-- Colonne 2 -->
  <div style="flex: 1; padding: 15px; border: 2px solid #e65100; border-radius: 10px; background-color: #fff0e0; box-shadow: 2px 2px 8px rgba(0,0,0,0.1); color:#212121;">
  
  ## 2. FAISS et ChromaDB : Solutions orient√©es "D√©veloppement Local"

  **FAISS (Facebook AI Similarity Search)**  
  - Origine : Meta (Facebook AI Research).  
  - Nature : Biblioth√®que C++/Python, ultra performante.  
  - Forces :  
    - üöÄ Recherche sur milliards de vecteurs.  
    - ‚ö° Optimisation GPU.  
  - Faiblesses :  
    - Bas niveau, pas de stockage persistant.  
    - Risque de perte si non sauvegard√©.  

  **ChromaDB**  
  - Origine : Projet Open Source r√©cent.  
  - Nature : Base vectorielle simple et rapide.  
  - Forces :  
    - üéØ Installation facile (`pip install chromadb`).  
    - üîÑ Vectorisation int√©gr√©e.  
  - Faiblesses :  
    - Id√©al pour petits/moyens projets.  
    - Moins robuste pour t√©raoctets en production.  

  </div>

</div>


## FAISS

In [26]:
from langchain.vectorstores import FAISS
from langchain.embeddings import HuggingFaceEmbeddings

def build_faiss_index(chunks):
    """
    Construit un index FAISS √† partir de chunks d√©j√† pr√©par√©s.
    Utilise un mod√®le gratuit Hugging Face pour g√©n√©rer les embeddings.
    """
    # 1. Cr√©er les embeddings avec Hugging Face
    embeddings = HuggingFaceEmbeddings(
        model_name="sentence-transformers/all-MiniLM-L6-v2"  # mod√®le open-source ou openaiembeddings
    )

    # 2. Construire l‚Äôindex FAISS
    vectorstore = FAISS.from_documents(chunks, embeddings)

    return vectorstore



In [29]:
# Supposons que tu as d√©j√† tes chunks :
# chunks = text_splitter.split_documents(documents)

faiss_index = build_faiss_index(pdf_chunks)

# Faire une requ√™te
query = "Explique-moi la diff√©rence entre FAISS et ChromaDB"
results = faiss_index.similarity_search(query, k=3)

# Afficher les r√©sultats
for i, res in enumerate(results):
    print(f"--- R√©sultat {i+1} ---")
    print(res.page_content[:500], "...")


--- R√©sultat 1 ---
.
8

[PAGE 10]

√âtat de l‚Äôart Rapport IA 2024
4.3.1 Comparatif Technique
‚Äî FAISS (Meta): Biblioth√®que bas niveau, optimis√©e pour la recherche par simila-
rit√© dense et le clustering. Utilise l‚Äôindexation IVF.
‚Äî ChromaDB : Solution open-source conviviale pour les d√©veloppeurs, id√©ale pour
les applications LLM l√©g√®res et le prototypage.
‚Äî Pinecone / Qdrant: Solutions g√©r√©es (SaaS) ou robustes (Rust) pour la produc-
tion √† grande √©chelle.
4.3.2 Exemple d‚Äôimpl√©mentation (Python)
Voici comment on ini ...
--- R√©sultat 2 ---
. Dans ce contexte, les r√©seaux de neurones profonds et les
bases de donn√©es vectorielles jouent un r√¥le crucial pour traiter des informations non
structur√©es. Ce paragraphe sert de remplissage pour simuler le volume de texte du rap-
port Ô¨Ånal, permettant d‚Äôappr√©cier la mise en page sans √™tre distrait par du latin. Les
avanc√©es technologiques r√©centes, notamment les architectures Transformers, ont ouvert
la voie au

## CHROMA DB

In [30]:

from langchain.vectorstores import Chroma
from langchain.embeddings import HuggingFaceEmbeddings

def build_chroma_index(chunks, persist_directory="chroma_index"):
    """
    Construit un index Chroma √† partir de chunks d√©j√† pr√©par√©s.
    Utilise un mod√®le gratuit Hugging Face pour g√©n√©rer les embeddings.
    Les donn√©es sont persist√©es dans un dossier local.
    """
    # 1. Cr√©er les embeddings avec Hugging Face
    embeddings = HuggingFaceEmbeddings(
        model_name="sentence-transformers/all-MiniLM-L6-v2"  # mod√®le open-source
    )

    # 2. Construire l‚Äôindex Chroma
    vectorstore = Chroma.from_documents(
        documents=chunks,
        embedding=embeddings,
        persist_directory=persist_directory  # dossier o√π sauvegarder l‚Äôindex
    )

    # 3. Sauvegarder l‚Äôindex
    vectorstore.persist()

    return vectorstore



In [31]:
# Supposons que tu as d√©j√† tes chunks :
# chunks = text_splitter.split_documents(documents)

# Construire l‚Äôindex
chroma_index = build_chroma_index(pdf_chunks)

# Faire une requ√™te
query = "Explique-moi la diff√©rence entre FAISS et ChromaDB"
results = chroma_index.similarity_search(query, k=3)

# Afficher les r√©sultats
for i, res in enumerate(results):
    print(f"--- R√©sultat {i+1} ---")
    print(res.page_content[:500], "...")


--- R√©sultat 1 ---
.
8

[PAGE 10]

√âtat de l‚Äôart Rapport IA 2024
4.3.1 Comparatif Technique
‚Äî FAISS (Meta): Biblioth√®que bas niveau, optimis√©e pour la recherche par simila-
rit√© dense et le clustering. Utilise l‚Äôindexation IVF.
‚Äî ChromaDB : Solution open-source conviviale pour les d√©veloppeurs, id√©ale pour
les applications LLM l√©g√®res et le prototypage.
‚Äî Pinecone / Qdrant: Solutions g√©r√©es (SaaS) ou robustes (Rust) pour la produc-
tion √† grande √©chelle.
4.3.2 Exemple d‚Äôimpl√©mentation (Python)
Voici comment on ini ...
--- R√©sultat 2 ---
. Dans ce contexte, les r√©seaux de neurones profonds et les
bases de donn√©es vectorielles jouent un r√¥le crucial pour traiter des informations non
structur√©es. Ce paragraphe sert de remplissage pour simuler le volume de texte du rap-
port Ô¨Ånal, permettant d‚Äôappr√©cier la mise en page sans √™tre distrait par du latin. Les
avanc√©es technologiques r√©centes, notamment les architectures Transformers, ont ouvert
la voie au

# explication du fonctionnement de l algo de recherche et mesure de similarite

## <img src="cosine_similarity.jpg" alt="Logo Python" width="1500" height="600">


<div style="display: flex; gap: 20px;">

  <!-- Colonne 1 : Math√©matique -->
  <div style="flex: 1; padding: 15px; border: 2px solid #e65100; border-radius: 10px; background-color: #fff0e0; box-shadow: 2px 2px 8px rgba(0,0,0,0.1); color:#212121;">
  
  ## 1. La Math√©matique : Mesurer la distance

  Dans une base vectorielle, chaque donn√©e (mot, phrase, image) est un point dans un espace multidimensionnel (souvent 768, 1536 ou plus).  
  Pour savoir si deux points sont "similaires", on mesure la **distance** ou l‚Äô**angle** entre eux.  

  ### üîë Les 3 m√©triques principales
  **A. Similarit√© Cosinus (Cosine Similarity)**  
  - Mesure l‚Äôangle entre deux vecteurs.  
  - 0¬∞ ‚Üí similarit√© = 1 (max).  
  - 180¬∞ ‚Üí similarit√© = -1.  
  - 90¬∞ ‚Üí aucune relation.  
  - Usage : NLP et recherche de texte.  

  **B. Distance Euclidienne (L2)**  
  - Distance "√† vol d‚Äôoiseau" entre deux points.  
  - Plus la valeur est petite, plus les vecteurs sont proches.  
  - Usage : reconnaissance d‚Äôimages, magnitude importante.  

  **C. Produit Scalaire (Dot Product)**  
  - Multiplication des coordonn√©es des vecteurs.  
  - Usage : syst√®mes de recommandation, apprentissage hybride.  

  </div>

  <!-- Colonne 2 : Algorithmique -->
  <div style="flex: 1; padding: 15px; border: 2px solid #e65100; border-radius: 10px; background-color: #fff0e0; box-shadow: 2px 2px 8px rgba(0,0,0,0.1); color:#212121;">
  
  ## 2. L'Algorithmique : Trouver vite (ANN)

  La m√©thode na√Øve (KNN) compare chaque document un par un ‚Üí trop lent (O(N)).  
  Les bases vectorielles utilisent des **algorithmes ANN (Approximate Nearest Neighbors)** pour gagner en vitesse.  

  ### üöÄ Les 2 algorithmes stars
  **A. HNSW (Hierarchical Navigable Small World)**  
  - Graphe multi-couches : grands sauts (avion), moyens (train), petits (marche).  
  - Avantages : rapide et pr√©cis.  
  - Inconv√©nient : consomme beaucoup de RAM.  

  **B. IVF (Inverted File Index ‚Äì FAISS)**  
  - Division de l‚Äôespace en r√©gions (cellules de Voronoi).  
  - Recherche uniquement dans la r√©gion la plus proche.  
  - Avantages : r√©duit l‚Äôespace de recherche.  
  - Inconv√©nient : n√©cessite un entra√Ænement initial (clustering).  

  ### üìä En r√©sum√©
  | Concept   | R√¥le                          | Exemple                        |
  |-----------|-------------------------------|--------------------------------|
  | Embedding | Transformer la donn√©e en chiffres | [0.1, -0.5, 0.8...]            |
  | M√©trique  | Mesurer la distance           | Cosine vs Euclidean            |
  | ANN Algo  | Chercher vite                 | HNSW (graphe multi-niveaux)    |

  </div>

</div>


## ORIENTE CLOUD

Pinecone (SaaS, cloud g√©r√©) : https://www.pinecone.io/

Qdrant (Open Source et Cloud) : https://qdrant.tech/

<img src="vectora ligne.jpg" alt="Logo Python" width="1500" height="600">

<div style="display: flex; gap: 20px;">

  <!-- Colonne 1 : Pinecone -->
  <div style="flex: 1; padding: 15px; border: 2px solid #e65100; border-radius: 10px; background-color: #fff0e0; box-shadow: 2px 2px 8px rgba(0,0,0,0.1); color:#212121;">
  
  ## 3. Pinecone : Le service Cloud g√©r√© (SaaS)

  **Nature**  
  Base de donn√©es vectorielle enti√®rement g√©r√©e dans le cloud.  
  üëâ Vous n‚Äôinstallez rien sur vos serveurs.  

  **Forces**  
  - üõ†Ô∏è **Z√©ro maintenance** : infrastructure, scaling, s√©curit√© et sauvegardes sont pris en charge.  
  - üîí **Fiabilit√©** : haute disponibilit√© et performances garanties (SLA).  
  - üéØ Choix id√©al pour les entreprises qui ne veulent pas g√©rer d‚Äôinfrastructure.  

  **Faiblesses / Cas d‚Äôusage**  
  - üí∞ **Co√ªt √©lev√©** si volume de donn√©es ou trafic important.  
  - üåê **Donn√©es externes** : vos donn√©es quittent votre infrastructure pour aller sur les serveurs Pinecone.  
  - üîí Logiciel propri√©taire (ferm√©).  

  </div>

  <!-- Colonne 2 : Qdrant -->
  <div style="flex: 1; padding: 15px; border: 2px solid #e65100; border-radius: 10px; background-color: #fff0e0; box-shadow: 2px 2px 8px rgba(0,0,0,0.1); color:#212121;">
  
  ## 3. Qdrant : Le serveur robuste et flexible (Open Source)

  **Nature**  
  Serveur de base de donn√©es vectorielle Open Source, √©crit en **Rust** (langage rapide et s√©curis√©).  

  **Forces**  
  - üîç **Recherche Hybride (Filtrage)** : combine recherche vectorielle et filtres traditionnels.  
    Exemple : *¬´ Trouve-moi des documents similaires, MAIS seulement s‚Äôils datent de 2024 et sont de cat√©gorie Finance ¬ª*.  
  - ‚ö° **Performance et stabilit√©** gr√¢ce √† Rust.  
  - üê≥ H√©bergement possible via **Docker** (gratuit) ou version cloud g√©r√©e.  

  **Faiblesses / Cas d‚Äôusage**  
  - ‚úÖ Excellent choix pour garder le contr√¥le des donn√©es (auto-h√©bergement).  
  - üîß Demande plus de configuration initiale que ChromaDB.  

  </div>

</div>


In [None]:

# Installer les d√©pendances si besoin :
# pip install pinecone-client langchain sentence-transformers

import os
from langchain.vectorstores import Pinecone
from langchain.embeddings import HuggingFaceEmbeddings
import pinecone

# 1. Initialiser Pinecone
# Mets ta cl√© API et ton environnement (trouv√©s dans ton compte Pinecone)
pinecone_api_key = "YOUR_PINECONE_API_KEY"
pinecone_environment = "us-east1-gcp"  # ex: "us-east1-gcp"

pinecone.init(api_key=pinecone_api_key, environment=pinecone_environment)

# 2. Cr√©er les embeddings avec Hugging Face (mod√®le gratuit)
embeddings = HuggingFaceEmbeddings(
    model_name="sentence-transformers/all-MiniLM-L6-v2"
)

# 3. Cr√©er l‚Äôindex Pinecone (si non existant)
index_name = "pdf-index"
if index_name not in pinecone.list_indexes():
    pinecone.create_index(name=index_name, dimension=384)  
    # 384 = dimension du mod√®le MiniLM-L6-v2

# 4. Construire le vectorstore Pinecone √† partir de tes chunks
# Supposons que tu as d√©j√† tes chunks (liste de Document LangChain)
# chunks = text_splitter.split_documents(documents)

vectorstore = Pinecone.from_documents(
    documents=pdf_chunks,
    embedding=embeddings,
    index_name=index_name
)

# 5. Faire une requ√™te de similarit√©
query = "Explique-moi la diff√©rence entre FAISS et ChromaDB"
results = vectorstore.similarity_search(query, k=3)

for i, res in enumerate(results):
    print(f"--- R√©sultat {i+1} ---")
    print(res.page_content[:300], "...")



## Ressource complementaire

https://www.youtube.com/watch?v=6rATNqmpvmQ

https://www.youtube.com/watch?v=jPYOrJHDXAQ