# Cr√©er et ex√©cuter un pipeline RAG local √† partir de z√©ro

L'objectif de ce notebook est de cr√©er un pipeline RAG (Retrieval Augmented Generation) √† partir de z√©ro et de le faire fonctionner sur un GPU local.

Plus pr√©cis√©ment, nous aimerions pouvoir ouvrir un fichier PDF, lui poser des questions (requ√™tes) et y r√©pondre par un Large Language Model (LLM).

Il existe des frameworks qui reproduisent ce type de flux de travail, notamment [LlamaIndex](https://www.llamaindex.ai/) et [LangChain](https://www.langchain.com/). Cependant, l'objectif de construire √† partir de scratch, c'est pouvoir inspecter et personnaliser toutes les pi√®ces.

## Pourquoi RAG ?

L'objectif principal de RAG est d'am√©liorer le rendement de g√©n√©ration des LLM.

Deux am√©liorations principales peuvent √™tre consid√©r√©es comme¬†:
1. **Pr√©venir les hallucinations** - Les LLM sont incroyables mais ils sont sujets √† des hallucinations potentielles, comme g√©n√©rer quelque chose qui *semble* correct mais ne l'est pas. Les pipelines RAG peuvent aider les LLM √† g√©n√©rer davantage de r√©sultats factuels en leur fournissant des entr√©es factuelles (r√©cup√©r√©es). Et m√™me si la r√©ponse g√©n√©r√©e √† partir d'un pipeline RAG ne semble pas correcte, gr√¢ce √† la r√©cup√©ration, vous avez √©galement acc√®s aux sources d'o√π elle provient.
2. **Travailler avec des donn√©es personnalis√©es** - De nombreux LLM de base sont form√©s avec des donn√©es textuelles √† l'√©chelle Internet. Cela signifie qu‚Äôils ont une grande capacit√© √† mod√©liser le langage, mais qu‚Äôils manquent souvent de connaissances sp√©cifiques. Les syst√®mes RAG peuvent fournir aux LLM des donn√©es sp√©cifiques √† un domaine telles que des informations m√©dicales ou de la documentation d'entreprise et ainsi personnaliser leurs sorties pour r√©pondre √† des cas d'utilisation sp√©cifiques.

Les auteurs de l‚Äôarticle original du RAG mentionn√© ci-dessus ont soulign√© ces deux points dans leur discussion.

> Ce travail offre plusieurs avantages soci√©taux positifs par rapport aux travaux ant√©rieurs : le fait qu'il soit plus
fortement ancr√© dans des connaissances factuelles r√©elles (dans ce cas Wikip√©dia), le rend moins ¬´ hallucin√© ¬ª
avec des g√©n√©rations plus factuelles et offre plus de contr√¥le et d‚Äôinterpr√©tabilit√©. RAG pourrait √™tre
employ√© dans une grande vari√©t√© de sc√©narios b√©n√©ficiant directement √† la soci√©t√©, par exemple en la dotant
avec un index m√©dical et en lui posant des questions ouvertes sur ce sujet, ou en aidant les gens √† √™tre plus
efficaces dans leur travail.

RAG peut √©galement √™tre une solution beaucoup plus rapide √† mettre en ≈ìuvre que d‚Äôaffiner un LLM sur des donn√©es sp√©cifiques.

Pourquoi local ?
Confidentialit√©, rapidit√©, co√ªt.

Ex√©cuter localement signifie que vous utilisez votre propre mat√©riel.

Du point de vue de la confidentialit√©, cela signifie que vous n'avez pas besoin d'envoyer de donn√©es potentiellement sensibles √† une API.

Du point de vue de la vitesse, cela signifie que vous n'aurez pas n√©cessairement √† attendre une file d'attente d'API ou un temps d'arr√™t ; si votre mat√©riel est en cours d'ex√©cution, le pipeline peut s'ex√©cuter.

Et du point de vue des co√ªts, fonctionner sur votre propre mat√©riel entra√Æne souvent un co√ªt de d√©part plus √©lev√©, mais peu ou pas de frais par la suite.

En termes de performances, les API LLM peuvent toujours fonctionner mieux qu'un mod√®le open source ex√©cut√© localement sur des t√¢ches g√©n√©rales, mais il existe de plus en plus d'exemples de mod√®les plus petits et cibl√©s surpassant les mod√®les plus grands.

## Termes cl√©s

| Term | Description |
| ----- | ----- | 
| **Jeton** | Un morceau de texte sous-mot. Par exemple, ¬´¬†Bonjour tout le monde¬†!¬†¬ª pourrait √™tre divis√© en ["hello", ",", "world", "!"]. Un jeton peut √™tre un mot entier,<br> une partie d'un mot ou un groupe de caract√®res de ponctuation. 1 jeton ~= 4 caract√®res en anglais, 100 jetons ~= 75 mots.<br> Le texte est divis√© en jetons avant d'√™tre transmis √† un LLM. |
| **Embedding** | Une repr√©sentation num√©rique apprise d‚Äôune donn√©e. Par exemple, une phrase de texte pourrait √™tre repr√©sent√©e par un vecteur avec<br> 768 valeurs. Des morceaux de texte similaires (dans leur sens) auront id√©alement des valeurs similaires. |
| **Embedding model** | Un mod√®le con√ßu pour accepter des donn√©es d'entr√©e et produire une repr√©sentation num√©rique. Par exemple, un mod√®le d'incorporation de texte peut prendre 384 <br>jetons de texte et le transformer en un vecteur de taille 768. Un mod√®le d'incorporation peut et est souvent diff√©rent d'un mod√®le LLM. |
| **Similarity search/vector search** | Similarity search/vector la recherche vise √† trouver deux vecteurs proches l‚Äôun de l‚Äôautre dans un espace de haute dimension. Par exemple, deux morceaux de texte similaire transmis via un mod√®le d'int√©gration devraient avoir un score de similarit√© √©lev√©, tandis que deux morceaux de texte sur<br> des sujets diff√©rents auront un score de similarit√© plus faible. Les mesures courantes du score de similarit√© sont la similarit√© du produit scalaire et du cosinus. |
| **Large Language Model (LLM)** | Un mod√®le qui a √©t√© entra√Æn√© pour repr√©senter num√©riquement les mod√®les dans le texte. Un LLM g√©n√©ratif continuera une s√©quence lorsqu'on lui donnera une s√©quence. <br>Par exemple, √©tant donn√© une s√©quence du texte ¬´ bonjour tout le monde ! ¬ª, un LLM g√©n√©ratif peut produire ¬´ nous allons construire un pipeline RAG aujourd'hui ! ¬ª.<br> Cette g√©n√©ration sera fortement d√©pendante de la formation donn√©es et invite.|
| **LLM context window** | Le nombre de jetons qu'un LLM peut accepter en entr√©e. Par exemple, depuis mars¬†2024, GPT-4 dispose d'une fen√™tre contextuelle par d√©faut de 32¬†000 jetons<br> (environ 96¬†pages de texte), mais peut aller jusqu'√† 128¬†000 si n√©cessaire. Un r√©cent LLM open source de Google, Gemma (mars¬†2024) a une fen√™tre contextuelle<br> de 8¬†192¬†jetons (environ 24¬†pages de texte). Une fen√™tre de contexte plus √©lev√©e signifie qu'un LLM peut accepter des informations plus pertinentes<br> pour faciliter une requ√™te. Par exemple, dans un pipeline RAG, si un mod√®le dispose d'une fen√™tre contextuelle plus grande, il peut accepter davantage d'√©l√©ments de r√©f√©rence<br> du syst√®me de r√©cup√©ration pour faciliter sa g√©n√©ration.|
| **Prompt** | Un terme courant pour d√©crire l'entr√©e dans un LLM g√©n√©ratif. L'id√©e de ¬´ [prompt Engineering](https://en.wikipedia.org/wiki/Prompt_engineering) ¬ª est de structurer une entr√©e bas√©e sur du texte<br> (ou potentiellement √©galement bas√©e sur des images) dans un LLM g√©n√©ratif dans un mani√®re sp√©cifique afin que la sortie g√©n√©r√©e soit id√©ale. Cette technique est<br>possible gr√¢ce √† la capacit√© d'un LLM √† apprendre en contexte, car il est capable d'utiliser sa repr√©sentation du langage pour d√©composer l'invite et reconna√Ætre ce que peut √™tre un r√©sultat appropri√© (remarque¬†: le r√©sultat des LLM est probable, c'est pourquoi des termes tels que ¬´¬†peut produire¬†¬ª sont utilis√©s).| 




## Ce que nous allons construire

Nous allons cr√©er un pipeline RAG qui nous permet de discuter avec un document PDF, en particulier des pdfs sur les programmes des lyc√©es au Cameroun.

Vous pourriez appeler notre projet EduChat¬†!

Nous √©crirons le code dans¬†:
1. Ouvrez un document PDF (vous pouvez utiliser presque n'importe quel PDF ici).
2. Formatez le texte du manuel PDF pour le pr√©parer √† un mod√®le d'Embedding(ce processus est connu sous le nom de fractionnement/blocage de texte).
3. Int√©grez tous les morceaux de texte dans le manuel et transformez-les en repr√©sentation num√©rique que nous pourrons stocker pour plus tard.
4. Cr√©ez un syst√®me de r√©cup√©ration qui utilise la recherche vectorielle pour trouver des morceaux de texte pertinents en fonction d'une requ√™te.
5. Cr√©ez une invite qui int√®gre les morceaux de texte r√©cup√©r√©s.
6. G√©n√©rez une r√©ponse √† une requ√™te bas√©e sur des passages du manuel.

Les √©tapes ci-dessus peuvent √™tre divis√©es en deux sections principales¬†:
1. Pr√©traitement/cr√©ation d'Embedidng des document (√©tapes 1 √† 3).
2. Recherchez et r√©pondez (√©tapes 4 √† 6).

Et c'est la structure que nous suivrons.

C'est similaire au flux de travail d√©crit sur le blog NVIDIA qui [d√©taille un pipeline RAG local](https://developer.nvidia.com/blog/rag-101-demystifying-retrieval-augmented-generation-pipelines/).

<img src="https://github.com/mrdbourke/simple-local-rag/blob/main/images/simple-local-rag-workflow-flowchart.png?raw=true" alt="organigramme d'un local Flux de travail RAG" />

## 1. Traitement de documents/textes et cr√©ation d'Embeddings

Ingr√©dients:
* Document PDF au choix.
* Mod√®le d'int√©gration au choix.

Mesures:
1. Importez un document PDF.
2. Traitez le texte pour l'int√©grer (par exemple, divis√© en morceaux de phrases).
3. Int√©grez des morceaux de texte avec le mod√®le d'int√©gration.
4. Enregistrez les int√©grations dans un fichier pour une utilisation ult√©rieure (les int√©grations seront stock√©es dans un fichier pendant de nombreuses ann√©es ou jusqu'√† ce que vous perdiez votre disque dur).

Importer les document PDF
Cela fonctionnera avec de nombreux autres types de documents.

Il existe plusieurs biblioth√®ques pour ouvrir des PDF avec Python mais j'ai trouv√© que PyMuPDF fonctionne plut√¥t bien dans de nombreux cas.


In [21]:
import os
from tqdm.auto import tqdm  # Pour afficher une barre de progression
import fitz  # PyMuPDF, pour lire les fichiers PDF

# Fonction pour formater le texte
def formater_texte(texte: str) -> str:
    """Effectue un l√©ger formatage du texte."""
    texte_nettoye = texte.replace("\n", " ").strip()  # Remplace les sauts de ligne par des espaces et supprime les espaces inutiles
    return texte_nettoye

# Fonction pour ouvrir et lire un fichier PDF
def ouvrir_et_lire_pdf(chemin_pdf: str) -> list[dict]:
    doc = fitz.open(chemin_pdf)  # Ouvre le document PDF
    pages_et_textes = []
    for numero_page, page in tqdm(enumerate(doc), desc=f"Traitement de {os.path.basename(chemin_pdf)}"):  # Parcourt les pages
        texte = page.get_text()  # Extrait le texte de la page
        texte = formater_texte(texte)  # Nettoie le texte
        pages_et_textes.append({
            "numero_page": numero_page + 1,  # Les num√©ros de page commencent √† 1
            "nb_caracteres": len(texte),
            "nb_mots": len(texte.split(" ")),
            "nb_phrases": len(texte.split(". ")),
            "nb_tokens_estime": len(texte) / 4,  # Estimation des tokens (1 token ‚âà 4 caract√®res)
            "texte": texte
        })
    return pages_et_textes

# Dossier contenant les fichiers PDF locaux
dossier_pdf = "data"  # Modifiez ceci si votre dossier a un autre nom

# V√©rifie si le dossier existe
if not os.path.exists(dossier_pdf):
    raise FileNotFoundError(f"Le dossier '{dossier_pdf}' n'existe pas.")

# Liste tous les fichiers PDF dans le dossier
fichiers_pdf = [os.path.join(dossier_pdf, f) for f in os.listdir(dossier_pdf) if f.endswith(".pdf")]

# Traite tous les fichiers PDF du dossier
contenu_tous_les_pdfs = {}

for fichier_pdf in fichiers_pdf:
    print(f"Lecture du fichier : {fichier_pdf}")
    contenu_pdf = ouvrir_et_lire_pdf(fichier_pdf)  # Lit le contenu du PDF
    contenu_tous_les_pdfs[os.path.basename(fichier_pdf)] = contenu_pdf  # Stocke le contenu avec le nom du fichier comme cl√©

# Exemple : Affiche les 2 premi√®res pages de chaque PDF trait√©
for nom_pdf, contenu in contenu_tous_les_pdfs.items():
    print(f"\n--- {nom_pdf} ---")
    for page in contenu[:2]:  # Affiche uniquement les 2 premi√®res pages
        print(f"Page {page['numero_page']} :")
        print(page['texte'])
        print("\n")


Lecture du fichier : data/Physique-Chimie-Technologie-4√®me.pdf


Traitement de Physique-Chimie-Technologie-4√®me.pdf: 47it [00:01, 44.88it/s]


Lecture du fichier : data/Physics F1-F2.pdf


Traitement de Physics F1-F2.pdf: 38it [00:01, 28.34it/s]


Lecture du fichier : data/Biology Form 3-4-5.pdf


Traitement de Biology Form 3-4-5.pdf: 55it [00:01, 29.25it/s]


Lecture du fichier : data/ANGLAIS 2de.pdf


Traitement de ANGLAIS 2de.pdf: 33it [00:00, 69.05it/s]


Lecture du fichier : data/liste-manuels-scolaires-MINESEC-ESG2024-2025.pdf


Traitement de liste-manuels-scolaires-MINESEC-ESG2024-2025.pdf: 6it [00:00, 2908.00it/s]


Lecture du fichier : data/Maths 6√®,5√®,4√®,3√®.pdf


Traitement de Maths 6√®,5√®,4√®,3√®.pdf: 84it [00:01, 45.77it/s]


Lecture du fichier : data/GEOLOGY F3 & 4.pdf


Traitement de GEOLOGY F3 & 4.pdf: 39it [00:00, 44.18it/s]


Lecture du fichier : data/Mathematics 1-2.pdf


Traitement de Mathematics 1-2.pdf: 49it [00:01, 35.91it/s]


Lecture du fichier : data/Physique-Chimique-Technologie 3eme .pdf


Traitement de Physique-Chimique-Technologie 3eme .pdf: 38it [00:01, 31.67it/s]


Lecture du fichier : data/Physique 2de C.pdf


Traitement de Physique 2de C.pdf: 14it [00:00, 25.18it/s]


Lecture du fichier : data/Biology Form1 -2.pdf


Traitement de Biology Form1 -2.pdf: 44it [00:00, 92.47it/s] 


Lecture du fichier : data/BIO-CHEM-PHY-F1-F2.pdf


Traitement de BIO-CHEM-PHY-F1-F2.pdf: 35it [00:00, 43.56it/s]


Lecture du fichier : data/Math Form 3,4 and 5.pdf


Traitement de Math Form 3,4 and 5.pdf: 78it [00:01, 54.36it/s]


Lecture du fichier : data/SBEP 2de.pdf


Traitement de SBEP 2de.pdf: 42it [00:00, 101.39it/s]


Lecture du fichier : data/official-Books-List-MINESEC-GSE2024-2025.pdf


Traitement de official-Books-List-MINESEC-GSE2024-2025.pdf: 6it [00:00, 1794.74it/s]


Lecture du fichier : data/Histoire 4√®me et 3√®me.pdf


Traitement de Histoire 4√®me et 3√®me.pdf: 54it [00:00, 90.93it/s] 


Lecture du fichier : data/HISTOIRE 6e 5e ESG.pdf


Traitement de HISTOIRE 6e 5e ESG.pdf: 62it [00:00, 64.79it/s]


Lecture du fichier : data/Informatique 6e-Tle.pdf


Traitement de Informatique 6e-Tle.pdf: 91it [00:01, 76.83it/s]


Lecture du fichier : data/GEOGRAPHIE 6e 5e ESG.pdf


Traitement de GEOGRAPHIE 6e 5e ESG.pdf: 53it [00:00, 65.86it/s]


Lecture du fichier : data/Computer F3,4 and 5.pdf


Traitement de Computer F3,4 and 5.pdf: 40it [00:00, 62.54it/s]


Lecture du fichier : data/Chemistry Form 3,4,5.pdf


Traitement de Chemistry Form 3,4,5.pdf: 49it [00:01, 39.69it/s]


Lecture du fichier : data/ANGLAIS SBEP 4e.pdf


Traitement de ANGLAIS SBEP 4e.pdf: 69it [00:00, 85.53it/s]


Lecture du fichier : data/Chimie 2deC.pdf


Traitement de Chimie 2deC.pdf: 35it [00:01, 21.15it/s]


Lecture du fichier : data/Physics Form 3,4 and 5.pdf


Traitement de Physics Form 3,4 and 5.pdf: 58it [00:01, 54.63it/s]


Lecture du fichier : data/HISTOIRE Tle-ESG.pdf


Traitement de HISTOIRE Tle-ESG.pdf: 18it [00:00, 34.19it/s]


Lecture du fichier : data/HISTOIRE Tle-EST.pdf


Traitement de HISTOIRE Tle-EST.pdf: 16it [00:00, 43.97it/s]


Lecture du fichier : data/Sciences 6e-5e.pdf


Traitement de Sciences 6e-5e.pdf: 36it [00:00, 37.87it/s]


Lecture du fichier : data/Litterature_US-LS.pdf


Traitement de Litterature_US-LS.pdf: 30it [00:01, 26.18it/s]


Lecture du fichier : data/litterature en anglais 2nd.pdf


Traitement de litterature en anglais 2nd.pdf: 30it [00:00, 54.33it/s]


Lecture du fichier : data/GEO Tle-ESG.pdf


Traitement de GEO Tle-ESG.pdf: 18it [00:00, 43.30it/s]


Lecture du fichier : data/ANGLAIS Year 3,4 Tech.pdf


Traitement de ANGLAIS Year 3,4 Tech.pdf: 69it [00:00, 73.48it/s]


Lecture du fichier : data/G√©ographie 4√®,3√®.pdf


Traitement de G√©ographie 4√®,3√®.pdf: 60it [00:00, 105.92it/s]


Lecture du fichier : data/FRENCH AS SECOND LANGUAGE Form 3,  4 et 5 .pdf


Traitement de FRENCH AS SECOND LANGUAGE Form 3,  4 et 5 .pdf: 69it [00:00, 98.84it/s] 


Lecture du fichier : data/ECM 6E 5E ESG.pdf


Traitement de ECM 6E 5E ESG.pdf: 55it [00:01, 46.92it/s]


Lecture du fichier : data/Computer Form1-2.pdf


Traitement de Computer Form1-2.pdf: 30it [00:00, 61.82it/s]


Lecture du fichier : data/Francais 4e-3e.pdf


Traitement de Francais 4e-3e.pdf: 66it [00:01, 37.77it/s]


Lecture du fichier : data/Education artistique 4e 3e.pdf


Traitement de Education artistique 4e 3e.pdf: 36it [00:00, 65.27it/s]


Lecture du fichier : data/ECM 4√®me,3√®me.pdf


Traitement de ECM 4√®me,3√®me.pdf: 48it [00:00, 71.17it/s]


Lecture du fichier : data/ANGLAIS 4e ESG .pdf


Traitement de ANGLAIS 4e ESG .pdf: 62it [00:00, 93.19it/s]


--- Physique-Chimie-Technologie-4√®me.pdf ---
Page 1 :
Page 1 sur 47      DOMAINE D‚ÄôAPPRENTISSAGE : SCIENCES ET TECHNOLOGIE  PROGRAMME D‚Äô√âTUDES : PHYSIQUE-CHIMIE-TECHNOLOGIE  NIVEAU : QUATRIEME  VOLUMES HORAIRES :  VOLUME HORAIRE ANNUEL : 75 HEURES  VOLUME HORAIRE HEBDOMADAIRE : 03 HEURES  COEFFICIENT : 03


Page 2 :
Page 2 sur 47      MODULE 1 : LA MATI√àRE : SES PROPRI√âTES ET SES TRANSFORMATIONS   VOLUME HORAIRE ALLOU√â AU MODULE : 18 HEURES   PRESENTATION DU MODULE   Ce module comporte trois (03) parties :   ‚û¢ Les propri√©t√©s et les caract√©ristiques de la mati√®re ;   ‚û¢ Les aimants, le champ magn√©tique terrestre ;   ‚û¢ La notion de r√©action chimique et d‚Äô√©l√©ment.   Cat√©gories d‚Äôactions :  -D√©termination des propri√©t√©s caract√©ristiques de la mati√®re   -R√©alisation des transformations chimiques   -D√©termination des caract√©ristiques physiques et chimiques d‚Äôun corps     Situation probl√®me :   Les objets qui nous entourent ont des propri√©t√©s diff√©ren




Prenons maintenant un √©chantillon al√©atoire des pages.

In [22]:
# Affiche toutes les pages de tous les PDFs
for nom_pdf, contenu in contenu_tous_les_pdfs.items():
    print(f"\n--- Contenu du fichier : {nom_pdf} ---")
    for page in contenu:
        print(f"\n--- Page {page['numero_page']} ---")
        print(f"Num√©ro de page : {page['numero_page']}")
        print(f"Contenu : {page['texte']}\n")



--- Contenu du fichier : Physique-Chimie-Technologie-4√®me.pdf ---

--- Page 1 ---
Num√©ro de page : 1
Contenu : Page 1 sur 47      DOMAINE D‚ÄôAPPRENTISSAGE : SCIENCES ET TECHNOLOGIE  PROGRAMME D‚Äô√âTUDES : PHYSIQUE-CHIMIE-TECHNOLOGIE  NIVEAU : QUATRIEME  VOLUMES HORAIRES :  VOLUME HORAIRE ANNUEL : 75 HEURES  VOLUME HORAIRE HEBDOMADAIRE : 03 HEURES  COEFFICIENT : 03


--- Page 2 ---
Num√©ro de page : 2
Contenu : Page 2 sur 47      MODULE 1 : LA MATI√àRE : SES PROPRI√âTES ET SES TRANSFORMATIONS   VOLUME HORAIRE ALLOU√â AU MODULE : 18 HEURES   PRESENTATION DU MODULE   Ce module comporte trois (03) parties :   ‚û¢ Les propri√©t√©s et les caract√©ristiques de la mati√®re ;   ‚û¢ Les aimants, le champ magn√©tique terrestre ;   ‚û¢ La notion de r√©action chimique et d‚Äô√©l√©ment.   Cat√©gories d‚Äôactions :  -D√©termination des propri√©t√©s caract√©ristiques de la mati√®re   -R√©alisation des transformations chimiques   -D√©termination des caract√©ristiques physiques et chimiques d‚Äôun 

### Obtenez des statistiques sur le texte

Effectuons une analyse exploratoire approximative des donn√©es (EDA) pour avoir une id√©e de la taille des textes (par exemple, nombre de caract√®res, nombre de mots, etc.) avec lesquels nous travaillons.

Les diff√©rentes tailles de textes seront un bon indicateur de la mani√®re dont nous devrions diviser nos textes.

De nombreux mod√®les d'int√©gration ont des limites quant √† la taille des textes qu'ils peuvent ing√©rer, par exemple le mod√®le [`sentence-transformers`](https://www.sbert.net/docs/pretrained_models.html) [`all-mpnet-base -v2`](https://huggingface.co/sentence-transformers/all-mpnet-base-v2) a une taille d'entr√©e de 384 jetons.

Cela signifie que le mod√®le a √©t√© entra√Æn√© √† ing√©rer et √† transformer en textes d'int√©gration avec 384 jetons (1 jeton ~= 4 caract√®res ~= 0,75 mots).

Les textes de plus de 384 jetons cod√©s par ce mod√®le seront automatiquement r√©duits √† 384 jetons, ce qui risque de perdre certaines informations.

Nous en discuterons davantage dans la section int√©gration.

Pour l'instant, transformons notre liste de dictionnaires en DataFrame et explorons-la.

In [23]:
import random

# S√©lectionne un fichier PDF particulier pour l'√©chantillonnage
nom_pdf_test = list(contenu_tous_les_pdfs.keys())[0]  # Exemple : le premier fichier PDF
pages_and_texts = contenu_tous_les_pdfs[nom_pdf_test]

# V√©rifie si `pages_and_texts` contient au moins 3 pages
if len(pages_and_texts) >= 3:
    # S√©lectionne 3 pages al√©atoires
    pages_aleatoires = random.sample(pages_and_texts, k=3)
    
    # Affiche les pages s√©lectionn√©es
    for i, page in enumerate(pages_aleatoires, start=1):
        print(f"\n--- Page Al√©atoire {i} ---")
        print(f"Num√©ro de page : {page['numero_page']}")
        print(f"Contenu : {page['texte']}\n")
else:
    print(f"Le fichier PDF '{nom_pdf_test}' contient moins de 3 pages. Impossible de faire un √©chantillonnage.")



--- Page Al√©atoire 1 ---
Num√©ro de page : 13
Contenu : Page 13 sur 47     L‚Äôintensit√© d‚Äôun courant √©lectrique se mesure √† l‚Äôaide d‚Äôun amp√®rem√®tre branch√© en s√©rie.    L‚Äôunit√© de l‚Äôintensit√© est l‚Äôamp√®re (symbole : ¬´ A ¬ª).  Activit√© : A l‚Äôaide d‚Äôun testeur, tester les deux trous (bornes) d‚Äôun circuit √©lectrique.  Que constatez-vous ? conclure.   2.2.2. Sens conventionnel du courant √©lectrique ;   A l'ext√©rieur du g√©n√©rateur le courant √©lectrique circule de la borne + √† la borne   - du g√©n√©rateur.  2.2.3. Mesure de l‚Äôintensit√© du courant ;   Un amp√®rem√®tre poss√®de une borne COM (fil noir) reli√© √† la borne n√©gative du g√©n√©rateur et une autre borne (fil rouge) qu‚Äôon peut  brancher sur la borne des 10 A ou des mA.


--- Page Al√©atoire 2 ---
Num√©ro de page : 8
Contenu : Page 8 sur 47    a-A partir de cette phrase, √©crire l‚Äô√©quation bilan de la combustion du soufre   b-Donner les r√©actifs et produit de cette r√©action.   c-Est-c

In [24]:
import pandas as pd

df = pd.DataFrame(pages_and_texts)
df.head()

Unnamed: 0,numero_page,nb_caracteres,nb_mots,nb_phrases,nb_tokens_estime,texte
0,1,252,46,1,63.0,Page 1 sur 47 DOMAINE D‚ÄôAPPRENTISSAGE : S...
1,2,1016,186,5,254.0,Page 2 sur 47 MODULE 1 : LA MATI√àRE : SES...
2,3,2255,394,17,563.75,Page 3 sur 47 2- Identifier parmi ces mots ...
3,4,2132,379,17,533.0,Page 4 sur 47 1.2- Les aimants et le champ...
4,5,1330,269,5,332.5,Page 5 sur 47 1.2.4 Utilisation d‚Äôune bouss...


In [25]:
# Get stats
df.describe().round(2)

Unnamed: 0,numero_page,nb_caracteres,nb_mots,nb_phrases,nb_tokens_estime
count,47.0,47.0,47.0,47.0,47.0
mean,24.0,1177.51,222.79,9.57,294.38
std,13.71,513.32,91.16,5.09,128.33
min,1.0,13.0,4.0,1.0,3.25
25%,12.5,785.5,144.5,6.0,196.38
50%,24.0,1246.0,248.0,8.0,311.5
75%,35.5,1499.5,283.0,12.0,374.88
max,47.0,2255.0,394.0,24.0,563.75


D'accord, il semble que notre nombre moyen de jetons par page soit de 294.

### Traitement ult√©rieur du texte (divisation des pages en phrases)

La mani√®re id√©ale de traiter le texte avant de l‚Äôint√©grer reste un domaine de recherche actif.

Une m√©thode simple que j'ai trouv√©e utile consiste √† diviser le texte en morceaux de phrases.

Comme dans, divisez une page de texte en groupes de 5, 7, 10 phrases ou plus (ces valeurs ne sont pas grav√©es dans le marbre et peuvent √™tre explor√©es).

Mais nous voulons suivre le flux de travail de¬†:

`Ing√©rer du texte -> le diviser en groupes/morceaux -> int√©grer les groupes/morceaux -> utiliser les int√©grations`

Quelques options pour diviser le texte en phrases¬†:

1. Diviser en phrases avec des r√®gles simples (par exemple diviser sur ". " avec `text = text.split(". ")`, comme nous l'avons fait ci-dessus).
2. Divisez en phrases avec une biblioth√®que de traitement du langage naturel (NLP) telle que [spaCy](https://spacy.io/) ou [nltk](https://www.nltk.org/).

Pourquoi diviser en phrases ?

* Plus facile √† g√©rer que des pages de texte plus volumineuses (surtout si les pages sont dens√©ment remplies de texte).
* Peut √™tre pr√©cis et d√©couvrir quel groupe de phrases a √©t√© utilis√© pour aider dans un pipeline RAG.

> **Ressource¬†:** Voir [instructions d'installation de spaCy](https://spacy.io/usage). 

Utilisons spaCy pour diviser notre texte en phrases, car c'est probablement un peu plus robuste que d'utiliser simplement `text.split(". ")`.

In [26]:
from spacy.lang.fr import French # see https://spacy.io/usage for install instructions

nlp = French()

# Add a sentencizer pipeline, see https://spacy.io/api/sentencizer/ 
nlp.add_pipe("sentencizer")

# Create a document instance as an example
doc = nlp("Ceci est une phrase. Voici une autre phrase.")
assert len(list(doc.sents)) == 2

# Acc√©der aux phrases du document
print(list(doc.sents))  # Affiche les phrases d√©tect√©es


[Ceci est une phrase., Voici une autre phrase.]


Nous n'avons pas n√©cessairement besoin d'utiliser spaCy, cependant, il s'agit d'une biblioth√®que open source con√ßue pour effectuer des t√¢ches NLP comme celle-ci √† grande √©chelle.

Alors ex√©cutons notre petit pipeline de d√©termination de peine sur nos pages de texte.

In [27]:
# Divise le texte en phrases pour chaque page dans `pages_and_texts`
# Liste globale pour toutes les pages de tous les PDF
pages_and_texts = []

# Traite tous les fichiers PDF du dossier
for fichier_pdf in fichiers_pdf:
    print(f"Lecture du fichier : {fichier_pdf}")
    contenu_pdf = ouvrir_et_lire_pdf(fichier_pdf)  # Lit le contenu du PDF
    
    # Ajouter les pages du fichier actuel √† la liste globale
    pages_and_texts.extend(contenu_pdf)

for item in tqdm(pages_and_texts, desc="Traitement des phrases avec SpaCy"):
    # Extraire les phrases de la page
    item["phrases"] = list(nlp(item["texte"]).sents)

    # Convertir les phrases en cha√Ænes de caract√®res
    item["phrases"] = [str(phrase) for phrase in item["phrases"]]

    # Compter le nombre de phrases d√©tect√©es sur la page
    item["nb_phrases_spacy"] = len(item["phrases"])

# Inspection d'une page al√©atoire pour v√©rifier les r√©sultats
page_aleatoire = random.sample(pages_and_texts, k=1)[0]  # S√©lectionne une page al√©atoire

# Afficher les r√©sultats pour la page s√©lectionn√©e
print("\n--- Exemple de page analys√©e ---")
print(f"Num√©ro de page : {page_aleatoire['numero_page']}")
print(f"Nombre de phrases d√©tect√©es (SpaCy) : {page_aleatoire['nb_phrases_spacy']}")
print("Quelques phrases extraites :")
for phrase in page_aleatoire["phrases"][:3]:  # Affiche les 3 premi√®res phrases
    print(f"- {phrase}")

Lecture du fichier : data/Physique-Chimie-Technologie-4√®me.pdf


Traitement de Physique-Chimie-Technologie-4√®me.pdf: 47it [00:00, 93.40it/s]


Lecture du fichier : data/Physics F1-F2.pdf


Traitement de Physics F1-F2.pdf: 38it [00:00, 41.35it/s]


Lecture du fichier : data/Biology Form 3-4-5.pdf


Traitement de Biology Form 3-4-5.pdf: 55it [00:01, 40.54it/s]


Lecture du fichier : data/ANGLAIS 2de.pdf


Traitement de ANGLAIS 2de.pdf: 33it [00:00, 61.75it/s]


Lecture du fichier : data/liste-manuels-scolaires-MINESEC-ESG2024-2025.pdf


Traitement de liste-manuels-scolaires-MINESEC-ESG2024-2025.pdf: 6it [00:00, 3204.61it/s]


Lecture du fichier : data/Maths 6√®,5√®,4√®,3√®.pdf


Traitement de Maths 6√®,5√®,4√®,3√®.pdf: 84it [00:01, 46.11it/s]


Lecture du fichier : data/GEOLOGY F3 & 4.pdf


Traitement de GEOLOGY F3 & 4.pdf: 39it [00:00, 49.02it/s]


Lecture du fichier : data/Mathematics 1-2.pdf


Traitement de Mathematics 1-2.pdf: 49it [00:00, 76.05it/s]


Lecture du fichier : data/Physique-Chimique-Technologie 3eme .pdf


Traitement de Physique-Chimique-Technologie 3eme .pdf: 38it [00:00, 66.27it/s]


Lecture du fichier : data/Physique 2de C.pdf


Traitement de Physique 2de C.pdf: 14it [00:00, 62.28it/s]


Lecture du fichier : data/Biology Form1 -2.pdf


Traitement de Biology Form1 -2.pdf: 44it [00:00, 54.32it/s]


Lecture du fichier : data/BIO-CHEM-PHY-F1-F2.pdf


Traitement de BIO-CHEM-PHY-F1-F2.pdf: 35it [00:00, 40.88it/s]


Lecture du fichier : data/Math Form 3,4 and 5.pdf


Traitement de Math Form 3,4 and 5.pdf: 78it [00:01, 46.17it/s]


Lecture du fichier : data/SBEP 2de.pdf


Traitement de SBEP 2de.pdf: 42it [00:00, 47.17it/s]


Lecture du fichier : data/official-Books-List-MINESEC-GSE2024-2025.pdf


Traitement de official-Books-List-MINESEC-GSE2024-2025.pdf: 6it [00:00, 2467.00it/s]


Lecture du fichier : data/Histoire 4√®me et 3√®me.pdf


Traitement de Histoire 4√®me et 3√®me.pdf: 54it [00:00, 63.43it/s]


Lecture du fichier : data/HISTOIRE 6e 5e ESG.pdf


Traitement de HISTOIRE 6e 5e ESG.pdf: 62it [00:02, 24.22it/s]


Lecture du fichier : data/Informatique 6e-Tle.pdf


Traitement de Informatique 6e-Tle.pdf: 91it [00:02, 41.39it/s]


Lecture du fichier : data/GEOGRAPHIE 6e 5e ESG.pdf


Traitement de GEOGRAPHIE 6e 5e ESG.pdf: 53it [00:01, 40.53it/s]


Lecture du fichier : data/Computer F3,4 and 5.pdf


Traitement de Computer F3,4 and 5.pdf: 40it [00:00, 51.18it/s]


Lecture du fichier : data/Chemistry Form 3,4,5.pdf


Traitement de Chemistry Form 3,4,5.pdf: 49it [00:01, 41.52it/s]


Lecture du fichier : data/ANGLAIS SBEP 4e.pdf


Traitement de ANGLAIS SBEP 4e.pdf: 69it [00:01, 56.65it/s]


Lecture du fichier : data/Chimie 2deC.pdf


Traitement de Chimie 2deC.pdf: 35it [00:01, 19.96it/s]


Lecture du fichier : data/Physics Form 3,4 and 5.pdf


Traitement de Physics Form 3,4 and 5.pdf: 58it [00:00, 79.30it/s]


Lecture du fichier : data/HISTOIRE Tle-ESG.pdf


Traitement de HISTOIRE Tle-ESG.pdf: 18it [00:00, 67.84it/s]


Lecture du fichier : data/HISTOIRE Tle-EST.pdf


Traitement de HISTOIRE Tle-EST.pdf: 16it [00:00, 77.56it/s]


Lecture du fichier : data/Sciences 6e-5e.pdf


Traitement de Sciences 6e-5e.pdf: 36it [00:00, 47.15it/s]


Lecture du fichier : data/Litterature_US-LS.pdf


Traitement de Litterature_US-LS.pdf: 30it [00:00, 31.15it/s]


Lecture du fichier : data/litterature en anglais 2nd.pdf


Traitement de litterature en anglais 2nd.pdf: 30it [00:00, 34.55it/s]


Lecture du fichier : data/GEO Tle-ESG.pdf


Traitement de GEO Tle-ESG.pdf: 18it [00:00, 40.95it/s]


Lecture du fichier : data/ANGLAIS Year 3,4 Tech.pdf


Traitement de ANGLAIS Year 3,4 Tech.pdf: 69it [00:01, 62.37it/s]


Lecture du fichier : data/G√©ographie 4√®,3√®.pdf


Traitement de G√©ographie 4√®,3√®.pdf: 60it [00:00, 79.02it/s] 


Lecture du fichier : data/FRENCH AS SECOND LANGUAGE Form 3,  4 et 5 .pdf


Traitement de FRENCH AS SECOND LANGUAGE Form 3,  4 et 5 .pdf: 69it [00:00, 71.87it/s]


Lecture du fichier : data/ECM 6E 5E ESG.pdf


Traitement de ECM 6E 5E ESG.pdf: 55it [00:01, 36.68it/s]


Lecture du fichier : data/Computer Form1-2.pdf


Traitement de Computer Form1-2.pdf: 30it [00:00, 80.34it/s]


Lecture du fichier : data/Francais 4e-3e.pdf


Traitement de Francais 4e-3e.pdf: 66it [00:00, 66.19it/s]


Lecture du fichier : data/Education artistique 4e 3e.pdf


Traitement de Education artistique 4e 3e.pdf: 36it [00:00, 86.56it/s]


Lecture du fichier : data/ECM 4√®me,3√®me.pdf


Traitement de ECM 4√®me,3√®me.pdf: 48it [00:00, 109.08it/s]


Lecture du fichier : data/ANGLAIS 4e ESG .pdf


Traitement de ANGLAIS 4e ESG .pdf: 62it [00:00, 94.55it/s]
Traitement des phrases avec SpaCy: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1762/1762 [00:15<00:00, 112.18it/s]


--- Exemple de page analys√©e ---
Num√©ro de page : 28
Nombre de phrases d√©tect√©es (SpaCy) : 3
Quelques phrases extraites :
- 27  B.2.6 TABLE OF MAIN COMPONENTS OF MODULE 2    CONTEXTUALISATION  COMPETENCIES TO BE ATTAINED  RESOURCES  Family of life  situations  Examples of life situations  Categories of  actions  Examples of actions  Basic knowledge  Attitudes  Other  resources  Durati on                      Searching and  communicating   information  through the  Internet                       ‚Ä¢ Navigating the Internet  ‚Ä¢ Navigating computer networks  ‚Ä¢ Simple search, e.g.
- a job, a car, ‚Ä¶  ‚Ä¢ Changes in lifestyle, schooling or  professional  ‚Ä¢ Traveling arrangements (train, plane)  ‚Ä¢ New lifestyle  ‚Ä¢ Comprehension of social issues  ‚Ä¢ Exploration of a country and its  culture, language, history, and  geography  ‚Ä¢ Learning with use of a technology  ‚Ä¢ Upgrading skills  ‚Ä¢ Interpreting societal issues  ‚Ä¢ Receiving assistance on homework  ‚Ä¢ Communication by




Merveilleux!

Transformons maintenant la liste des dictionnaires en DataFrame et obtenons quelques statistiques.

In [28]:
df = pd.DataFrame(pages_and_texts)
df.describe().round(2)

Unnamed: 0,numero_page,nb_caracteres,nb_mots,nb_phrases,nb_tokens_estime,nb_phrases_spacy
count,1762.0,1762.0,1762.0,1762.0,1762.0,1762.0
mean,27.6,1758.83,391.9,9.94,439.71,9.37
std,18.93,1024.12,290.67,10.05,256.03,9.63
min,1.0,0.0,1.0,1.0,0.0,0.0
25%,12.0,999.5,224.25,2.0,249.88,2.0
50%,25.0,1806.0,365.0,7.0,451.5,7.0
75%,40.0,2443.75,517.0,14.0,610.94,13.0
max,91.0,6458.0,2574.0,65.0,1614.5,63.0


Maintenant que notre texte est divis√© en phrases, on regroupe ces phrases¬†?

### Regrouper nos phrases ensemble

Faisons un pas pour diviser notre liste de phrases/texte en morceaux plus petits.

Comme vous l'avez peut-√™tre devin√©, ce processus est appel√© **chunking**.

Pourquoi faisons-nous cela ?

1. Plus facile de g√©rer des morceaux de texte de taille similaire.
2. Ne surchargez pas la capacit√© des mod√®les d'int√©gration pour les jetons (par exemple, si un mod√®le d'int√©gration a une capacit√© de 384 jetons, il pourrait y avoir une perte d'informations si vous essayez d'int√©grer une s√©quence de plus de 400 jetons).
3. Notre fen√™tre contextuelle LLM (la quantit√© de jetons qu'un LLM peut accepter) peut √™tre limit√©e et n√©cessite de la puissance de calcul, nous voulons donc nous assurer que nous l'utilisons aussi bien que possible.

Il convient de noter qu'il existe de nombreuses fa√ßons diff√©rentes de cr√©er des morceaux d'informations/de texte.

In [29]:
# D√©finir la taille des groupes de phrases pour cr√©er des chunks
taille_chunk_phrases = 10 

# Fonction pour diviser r√©cursivement une liste en sous-listes de taille d√©finie
def diviser_liste(liste_entree: list, 
                  taille_sous_liste: int) -> list[list[str]]:
    """
    Divise la liste_entree en sous-listes de taille taille_sous_liste (ou aussi proches que possible).

    Par exemple, une liste de 17 phrases sera divis√©e en deux sous-listes : [[10], [7]].
    """
    return [liste_entree[i:i + taille_sous_liste] for i in range(0, len(liste_entree), taille_sous_liste)]

# Parcourir les pages et textes pour diviser les phrases en chunks
for item in tqdm(pages_and_texts, desc="Cr√©ation des chunks de phrases"):
    # Diviser les phrases en groupes
    item["chunks_phrases"] = diviser_liste(liste_entree=item["phrases"],
                                           taille_sous_liste=taille_chunk_phrases)
    
    # Ajouter le nombre total de chunks
    item["nb_chunks"] = len(item["chunks_phrases"])

# Exemple : Affiche le contenu pour une page al√©atoire
import random

page_aleatoire = random.sample(pages_and_texts, k=1)[0]  # S√©lectionner une page al√©atoire

print("\n--- Exemple d'une page avec des chunks ---")
print(f"Num√©ro de page : {page_aleatoire['numero_page']}")
print(f"Nombre de chunks : {page_aleatoire['nb_chunks']}")
print("Quelques chunks de phrases :")
for i, chunk in enumerate(page_aleatoire["chunks_phrases"][:3], start=1):  # Affiche les 3 premiers chunks
    print(f"\nChunk {i} :")
    for phrase in chunk:
        print(f"- {phrase}")


Cr√©ation des chunks de phrases: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1762/1762 [00:00<00:00, 389294.33it/s]


--- Exemple d'une page avec des chunks ---
Num√©ro de page : 46
Nombre de chunks : 3
Quelques chunks de phrases :

Chunk 1 :
- Page 46 sur 84  MODULE  6 : ORGANISATION ET GESTION DES DONN√âES  CR√âDIT : 11 heures  Tableau 6 : Classe 5√®me  CADRE DE CONTEXTUALISATION  AGIR COMP√âTENT  RESSOURCES  Famille de situations  Exemples de  situations  Cat√©gories  d‚Äôactions  Exemples  d‚Äôactions  Savoirs  Savoir-faire  Savoir -√™tre  Autres  ressources                          Organisation des  donn√©es et  estimation des  quantit√©s dans tous  les domaines de vie.
-        D√©placements  quotidiens.
-  Usage de  m√©dicaments.
-  Pratique d‚Äôune  activit√© de loisir  ou sportive.
-  Achat ou vente  d‚Äôun bien de  consommation.
-  Planification de  repas ou  d‚Äôactivit√©s  agricoles.
-  Participation √†  une activit√© de  formation √†  l‚Äô√©cole ou en  milieu de travail.
-  Cheptel.
-  Population.
-  Temp√©rature.

Chunk 2 :
-  Estimation des  quantit√©s.
-                        Traitem




In [30]:
# S√©lectionner un exemple al√©atoire parmi les pages trait√©es
import random

# S√©lectionne une page al√©atoire de `pages_and_texts`
page_aleatoire = random.sample(pages_and_texts, k=1)[0]

# Afficher des informations sur la page s√©lectionn√©e
print("\n--- Exemple de page avec des chunks ---")
print(f"Num√©ro de page : {page_aleatoire['numero_page']}")
print(f"Nombre de chunks de phrases : {page_aleatoire['nb_chunks']}")

# Affiche les chunks (chaque chunk contient plusieurs phrases, si la page a plus de 10 phrases)
print("Quelques chunks de phrases :")
for i, chunk in enumerate(page_aleatoire["chunks_phrases"][:3], start=1):  # Affiche les 3 premiers chunks
    print(f"\nChunk {i} :")
    for phrase in chunk:
        print(f"- {phrase}")

# Exemple de s√©lection d'un chunk al√©atoire parmi ceux de cette page
if page_aleatoire["nb_chunks"] > 1:  # V√©rifie si la page contient plusieurs chunks
    chunk_aleatoire = random.choice(page_aleatoire["chunks_phrases"])
    print("\n--- Chunk al√©atoire s√©lectionn√© ---")
    for phrase in chunk_aleatoire:
        print(f"- {phrase}")
else:
    print("\nLa page ne contient qu'un seul chunk.")



--- Exemple de page avec des chunks ---
Num√©ro de page : 6
Nombre de chunks de phrases : 1
Quelques chunks de phrases :

Chunk 1 :
- Inspection de P√©dagogie d‚ÄôInformatique/Programme selon l‚ÄôApproche par Comp√©tences/Septembre 2010    Le sommaire  Page iv    IX.
- REFERENTIEL DES COMPETENCES POUR LES CLASSES DE SECONDES  TRONC COMMUN  (ESG ‚Äì EST-ETN) ............................................................................................................... 41  X. PRESENTATION DES MODULES  POUR LES CLASSES DE SECONDE TRONC COMMUN (ESG  ‚Äì EST-ETN) ...................................................................................................................... 43  XI.
- REFERENTIEL DES COMPETENCES POUR LES CLASSES DE PREMIERES TRONC  COMMUN (ESG ‚ÄìEST-ETN) ............................................................................................... 48  XII.
- PRESENTATION DES MODULES POUR LES CLASSES DE PREMIERES TRONC  COMMUN (ESG ‚ÄìEST-ETN) .......................

In [31]:
# Cr√©e un DataFrame √† partir des donn√©es de `pages_and_texts`
df = pd.DataFrame(pages_and_texts)

# Affiche les statistiques descriptives
df_stats = df.describe().round(2)

# Affiche le DataFrame avec les statistiques
print(df_stats)

       numero_page  nb_caracteres  nb_mots  nb_phrases  nb_tokens_estime  \
count      1762.00        1762.00  1762.00     1762.00           1762.00   
mean         27.60        1758.83   391.90        9.94            439.71   
std          18.93        1024.12   290.67       10.05            256.03   
min           1.00           0.00     1.00        1.00              0.00   
25%          12.00         999.50   224.25        2.00            249.88   
50%          25.00        1806.00   365.00        7.00            451.50   
75%          40.00        2443.75   517.00       14.00            610.94   
max          91.00        6458.00  2574.00       65.00           1614.50   

       nb_phrases_spacy  nb_chunks  
count           1762.00    1762.00  
mean               9.37       1.48  
std                9.63       0.93  
min                0.00       0.00  
25%                2.00       1.00  
50%                7.00       1.00  
75%               13.00       2.00  
max               6

### Diviser chaque morceau en son propre √©l√©ment

Nous aimerions embedder chaque morceau de phrases dans sa propre repr√©sentation num√©rique.

Donc, pour garder les choses claires, cr√©ons une nouvelle liste de dictionnaires contenant chacun un seul morceau de phrases avec des informations relatives telles que le num√©ro de page ainsi que des statistiques sur chaque morceau.

In [32]:
import re

# Liste pour stocker les chunks trait√©s
pages_et_chunks = []

# Parcourt les pages et les chunks pour cr√©er des donn√©es sur chaque chunk
for item in tqdm(pages_and_texts, desc="Traitement des chunks de phrases"):
    for chunk_de_phrases in item["chunks_phrases"]:
        chunk_dict = {}
        chunk_dict["numero_page"] = item["numero_page"]
        
        # Joindre les phrases pour former un "paragraphe" ou chunk
        chunk_texte = "".join(chunk_de_phrases).replace("  ", " ").strip()
        chunk_texte = re.sub(r'\.([A-Z])', r'. \1', chunk_texte)  # Format ".A" -> ". A" pour toute combinaison point/majuscule
        chunk_dict["chunk_texte"] = chunk_texte

        # Calculer les statistiques pour le chunk
        chunk_dict["chunk_nb_caracteres"] = len(chunk_texte)
        chunk_dict["chunk_nb_mots"] = len(chunk_texte.split(" "))
        chunk_dict["chunk_nb_tokens"] = len(chunk_texte) / 4  # Estimation des tokens (1 token ‚âà 4 caract√®res)
        
        # Ajouter le chunk trait√© √† la liste des chunks
        pages_et_chunks.append(chunk_dict)

# V√©rifie combien de chunks ont √©t√© trait√©s
print(f"Nombre total de chunks trait√©s : {len(pages_et_chunks)}")

Traitement des chunks de phrases: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1762/1762 [00:00<00:00, 2875.25it/s]

Nombre total de chunks trait√©s : 2602





In [33]:
# View a random sample
random.sample(pages_et_chunks, k=1)


[{'numero_page': 1,
  'chunk_texte': 'Programme de fran√ßais deuxi√®me langue : Classes de Form 3, Form 4 et Form 5 Page 1    REPUBLIQUE DU CAMEROUN Paix ‚Äì Travail ‚Äì Patrie   REPUBLIC OF CAMEROON Peace ‚Äì Work - Fatherland   MINISTERE DES ENSEIGNEMENTS SECONDAIRES MINISTRY OF SECONDARY EDUCATION      INSPECTION GENERALE DES ENSEIGNEMENTS INSPECTORATE GENERAL OF EDUCATION                            Observer son environnement pour mieux orienter ses choix de formation et r√©ussir sa vie  INSPECTION DE PEDAGOGIE CHARG√âE DE L‚ÄôENSEIGNEMENT ET DE LA PROMOTION DU BILINGUISME INSPECTORATE OF PEDAGOGY IN CHARGE TEACHING AND PROMOTION OF BILINGUALISM PROGRAMMES D‚ÄôETUDES DE FORMS III, IV AND V FRAN√áAIS 2√®meLANGUE',
  'chunk_nb_caracteres': 669,
  'chunk_nb_mots': 135,
  'chunk_nb_tokens': 167.25}]

**Excellent**!


### Embedder  nos morceaux de texte

In [34]:
# Cr√©er une liste des chunks de texte
chunks_texte = [item["chunk_texte"] for item in pages_et_chunks]


In [35]:
# import csv
# import logging
# from sentence_transformers import SentenceTransformer
# from tqdm import tqdm
# import numpy as np

# # Configurer le logging
# logging.basicConfig(
#     filename="embedding_generation.log",
#     level=logging.INFO,
#     format="%(asctime)s - %(levelname)s - %(message)s",
# )
# logging.info("D√©but du processus de g√©n√©ration des embeddings.")

# # Charger le mod√®le SentenceTransformer
# try:
#     model = SentenceTransformer("dunzhang/stella_en_1.5B_v5", trust_remote_code=True)
#     logging.info("Mod√®le 'dunzhang/stella_en_1.5B_v5' charg√© avec succ√®s.")
# except Exception as e:
#     logging.error(f"Erreur lors du chargement du mod√®le : {str(e)}")
#     raise

# # Liste pour stocker les r√©sultats
# chunks_with_embeddings = []

# # Traiter les chunks pour g√©n√©rer les embeddings
# for chunk in tqdm(pages_et_chunks, desc="G√©n√©ration des embeddings"):
#     chunk_dict = {}
#     chunk_dict["page_number"] = chunk["numero_page"]
#     chunk_dict["sentence_chunk"] = chunk["chunk_texte"]
#     chunk_dict["chunk_char_count"] = len(chunk["chunk_texte"])
#     chunk_dict["chunk_word_count"] = len(chunk["chunk_texte"].split())
#     chunk_dict["chunk_token_count"] = len(chunk["chunk_texte"]) / 4  # Estimation : 1 token ‚âà 4 caract√®res

#     # G√©n√©rer les embeddings
#     try:
#         chunk_embedding = model.encode(chunk["chunk_texte"], show_progress_bar=False)
#         chunk_dict["embedding"] = chunk_embedding.tolist()  # Convertir en liste pour le CSV
#         logging.info(f"Embedding g√©n√©r√© avec succ√®s pour la page {chunk['numero_page']}.")
#     except Exception as e:
#         logging.error(f"Erreur lors du traitement du chunk de la page {chunk['numero_page']} : {str(e)}")
#         chunk_dict["embedding"] = [0.0] * 1024  # Embedding par d√©faut en cas d'erreur

#     chunks_with_embeddings.append(chunk_dict)

# # Sauvegarder les embeddings dans un fichier CSV
# output_file = "chunks_embeddings.csv"

# try:
#     with open(output_file, mode="w", encoding="utf-8", newline="") as csvfile:
#         writer = csv.writer(csvfile)

#         # √âcrire l'en-t√™te
#         writer.writerow(["page_number", "sentence_chunk", "chunk_char_count", "chunk_word_count", "chunk_token_count", "embedding"])

#         # √âcrire chaque chunk et ses donn√©es
#         for chunk_data in chunks_with_embeddings:
#             writer.writerow([
#                 chunk_data["page_number"],
#                 chunk_data["sentence_chunk"],
#                 chunk_data["chunk_char_count"],
#                 chunk_data["chunk_word_count"],
#                 chunk_data["chunk_token_count"],
#                 ";".join(map(str, chunk_data["embedding"]))  # S√©rialiser l'embedding en cha√Æne
#             ])
#     logging.info(f"Les embeddings ont √©t√© sauvegard√©s dans le fichier : {output_file}")
# except Exception as e:
#     logging.error(f"Erreur lors de la sauvegarde dans le fichier CSV : {str(e)}")
#     raise

# print(f"Les embeddings ont √©t√© g√©n√©r√©s et sauvegard√©s dans le fichier : {output_file}.")
# print("Consultez 'embedding_generation.log' pour les d√©tails des logs.")


In [36]:
# Importer le fichier CSV

text_chunks_and_embedding_df_load = pd.read_csv("chunks_embeddings.csv")
text_chunks_and_embedding_df_load.head(70)




Unnamed: 0,page_number,sentence_chunk,chunk_char_count,chunk_word_count,chunk_token_count,embedding
0,1,REPUBLIQUE DU CAMEROUN Paix ‚Äì Travail ‚Äì Patrie...,540,72,135.00,0.5195522308349609;0.8008924722671509;1.845638...
1,3,"PR√âFACE En ce d√©but de mill√©naire, au moment ...",1707,255,426.75,1.2480679750442505;0.8933440446853638;1.032447...
2,5,LA R√âVISION DES PROGRAMMES D‚Äô√âTUDES DU PREMIER...,1655,240,413.75,1.674798607826233;1.5621140003204346;1.7235532...
3,6,La prise en compte de ces √©volutions et de ces...,998,148,249.50,1.0203498601913452;0.6517214179039001;1.281144...
4,8,PROFIL DE SORTIE DU 1er CYCLE Le premier cycle...,1347,214,336.75,0.3749120533466339;0.9573613405227661;0.855241...
...,...,...,...,...,...,...
65,60,b) M√©thodologie de l‚Äôanalyse des documents ...,2026,300,506.50,0.8793312311172485;0.8295912742614746;1.478770...
66,60,quoi ?o√π ?quand ?pour pr√©senter le document. P...,377,62,94.25,1.3249238729476929;1.0209988355636597;1.648361...
67,61,VII. Enqu√™tes L‚Äôenqu√™te : recherche de t√©moi...,1519,239,379.75,1.3992677927017212;-0.19110439717769623;1.7639...
68,1,REPUBLIQUE DU CAMEROUN Paix ‚Äì Travail ‚Äì Patrie...,528,71,132.00,1.6719698905944824;0.7955226898193359;1.656986...


# RAG - Recherche et R√©ponse

Nous avons bri√®vement parl√© de RAG au d√©but, mais faisons un rapide r√©capitulatif.

## Qu'est-ce que RAG ?

RAG signifie **Retrieval Augmented Generation**, ou en fran√ßais, **G√©n√©ration Augment√©e par Recherche**.  
C'est une m√©thode qui permet de **rechercher des informations pertinentes** et de **g√©n√©rer une r√©ponse augment√©e** bas√©e sur ces informations.

---

### √âtapes principales de RAG :

1. **Retrieval (Recherche)**  
   R√©cup√©rer les ressources pertinentes pour une question donn√©e.  
   Exemple :  
   - Si la question est : *"Quels sont les macronutriments ?"*, les r√©sultats devraient contenir des informations sur les prot√©ines, les glucides et les lipides.  

2. **Augmentation**  
   Ajouter les informations r√©cup√©r√©es √† l'invite utilis√©e par un mod√®le de langage (LLM) pour am√©liorer la pr√©cision de la r√©ponse g√©n√©r√©e.

3. **Generation (G√©n√©ration)**  
   Le LLM produit une r√©ponse enrichie bas√©e sur les informations pertinentes r√©cup√©r√©es. Cela permet d‚Äôobtenir une r√©ponse plus correcte et d‚Äôavoir des r√©f√©rences pour approfondir.

---

### Pourquoi utiliser RAG ?

RAG est utile pour :  
- **Les entreprises avec une grande quantit√© de documentation** : g√©n√©rer des r√©ponses pr√©cises avec des liens vers les ressources.
- **Analyser des emails ou des cha√Ænes de communication** : fournir des r√©ponses aux questions tout en indiquant les sources.

---

## Une analogie : Les LLMs comme calculatrices pour les mots

Avec des **bonnes entr√©es**, les LLM peuvent transformer des donn√©es en **r√©sultats utiles**.

---

### Illustration

Voici une image illustrant le concept de RAG :

![Illustration du concept RAG](https://upload.wikimedia.org/wikipedia/commons/7/79/Data_Visualization_Process.png)

> *Cette image montre comment des donn√©es structur√©es et non structur√©es peuvent √™tre transform√©es pour produire des informations exploitables.*

---

## Conclusion

RAG est une m√©thode puissante pour utiliser des mod√®les de langage de mani√®re plus pr√©cise et factuelle. Cela commence par une **bonne recherche** suivie d‚Äôune **g√©n√©ration augment√©e**.


# Similarity Search

**Similarity search**, aussi appel√©e recherche s√©mantique ou recherche vectorielle, repose sur l'id√©e de rechercher selon une *"vibe"*.  

Si cela semble abstrait, il s'agit en r√©alit√© d'une recherche bas√©e sur le **sens** ou la **signification**.

---

## Diff√©rence entre recherche par mot-cl√© et recherche s√©mantique

Avec une recherche par **mot-cl√©**, vous essayez de faire correspondre le mot "apple" avec "apple".  

Cependant, avec une recherche **s√©mantique/similaire**, vous pourriez rechercher *"macronutrients functions"* et obtenir des r√©sultats qui ne contiennent pas n√©cessairement les mots *"macronutrients functions"*, mais qui correspondent √† leur signification.  

---

### Exemple

Avec une recherche s√©mantique sur nos donn√©es de manuels scolaires et une requ√™te *"macronutrients functions"*, le premier r√©sultat pourrait √™tre :  

> **R√©sultat :**  
> *Il existe trois classes de macronutriments : les glucides, les lipides et les prot√©ines. Ceux-ci peuvent √™tre m√©taboliquement transform√©s en √©nergie cellulaire. L'√©nergie des macronutriments provient de leurs liaisons chimiques. Cette √©nergie chimique est convertie en √©nergie cellulaire, qui est ensuite utilis√©e pour effectuer du travail, permettant √† nos corps de remplir leurs fonctions de base.*  

Comment c'est cool, n'est-ce pas ?

---

## Lien avec Google et vos propres donn√©es

Si vous avez d√©j√† utilis√© Google, vous connaissez probablement ce genre de flux de travail.  

Mais ici, l‚Äôobjectif est d‚Äôeffectuer ce type de recherche **au sein de vos propres donn√©es**.

---

### Pr√©parer vos embeddings

Pour commencer, importons les embeddings que nous avons cr√©√©s pr√©c√©demment (tk - lien vers le fichier d'embeddings) et pr√©parons-les √† √™tre utilis√©s en les transformant en tenseur.

---

### Illustration

![Recherche s√©mantique illustr√©e](https://upload.wikimedia.org/wikipedia/commons/5/59/Word_embedding_visualization.png)

> *Cette image illustre comment les vecteurs permettent de regrouper des termes similaires dans un espace vectoriel.*

---

## En r√©sum√©

La recherche s√©mantique offre une approche puissante pour trouver des informations pertinentes en fonction de leur sens, plut√¥t qu'en se basant uniquement sur des correspondances exactes de mots.


In [2]:
import random
import torch
import numpy as np
import pandas as pd

# V√©rification du p√©riph√©rique √† utiliser : GPU (cuda) ou CPU
device = "cuda" if torch.cuda.is_available() else "cpu"

# Importer le DataFrame contenant les textes et les embeddings
text_chunks_and_embedding_df = pd.read_csv("chunks_embeddings.csv")

# Convertir la colonne d'embeddings en tableau NumPy
# (La colonne a √©t√© convertie en cha√Æne de caract√®res lorsqu'elle a √©t√© sauvegard√©e au format CSV)
text_chunks_and_embedding_df["embedding"] = text_chunks_and_embedding_df["embedding"].apply(
    lambda x: np.fromstring(x.strip("[]"), sep=" ")  # Suppression des crochets et conversion en tableau
)

# V√©rification de la taille d'un embedding pour s'assurer qu'ils ont bien la forme attendue
print(f"Exemple d'embedding : {text_chunks_and_embedding_df['embedding'].iloc[0]}")
print(f"Taille de l'embedding : {text_chunks_and_embedding_df['embedding'].iloc[0].shape}")

# Utilisation de vstack pour empiler les embeddings et cr√©er une matrice 2D
embeddings = torch.tensor(
    np.vstack(text_chunks_and_embedding_df["embedding"].values),  # Assurez-vous de bien empiler les vecteurs
    dtype=torch.float32
).to(device)

# Afficher la forme du tenseur d'embeddings
print(f"Forme du tenseur d'embeddings : {embeddings.shape}")


Exemple d'embedding : [0.51955223]
Taille de l'embedding : (1,)
Forme du tenseur d'embeddings : torch.Size([2602, 1])


  lambda x: np.fromstring(x.strip("[]"), sep=" ")  # Suppression des crochets et conversion en tableau


In [4]:
from sentence_transformers import SentenceTransformer, util
import torch
import pandas as pd
import numpy as np

# Charger le mod√®le d'embedding
embedding_model = SentenceTransformer("dunzhang/stella_en_1.5B_v5", trust_remote_code=True)

# Charger les embeddings depuis le fichier CSV
text_chunks_and_embedding_df = pd.read_csv("chunks_embeddings.csv")

# Convertir la colonne d'embeddings en tableau NumPy
text_chunks_and_embedding_df["embedding"] = text_chunks_and_embedding_df["embedding"].apply(
    lambda x: np.fromstring(x.strip("[]"), sep=" ")  # Conversion en vecteurs
)

# Convertir en tenseur PyTorch
embeddings = torch.tensor(np.array(text_chunks_and_embedding_df["embedding"].tolist()), dtype=torch.float32).to("cuda" if torch.cuda.is_available() else "cpu")

# 1. D√©finir la requ√™te
query = "macronutrients functions"
query_embedding = embedding_model.encode(query, convert_to_tensor=True).to("cuda" if torch.cuda.is_available() else "cpu")

# 2. Calculer les scores de similarit√© avec le produit scalaire
dot_scores = util.dot_score(a=query_embedding, b=embeddings)[0]

# 3. R√©cup√©rer les indices des documents les plus pertinents (par exemple, top 3)
top_k = 3
top_results_dot_product = torch.topk(dot_scores, k=top_k)

# R√©cup√©rer les passages correspondants aux indices des top-k r√©sultats
top_results = [text_chunks_and_embedding_df.iloc[i] for i in top_results_dot_product.indices.tolist()]

# Afficher les documents r√©cup√©r√©s
for i, result in enumerate(top_results):
    print(f"Document {i+1} : {result['text']}")

# Maintenant, tu peux utiliser ces documents pour les envoyer √† un mod√®le g√©n√©ratif comme GPT ou autre pour g√©n√©rer une r√©ponse.


  lambda x: np.fromstring(x.strip("[]"), sep=" ")  # Conversion en vecteurs


RuntimeError: mat1 and mat2 shapes cannot be multiplied (1x1024 and 1x2602)