# Cr√©er et ex√©cuter un pipeline RAG local √† partir de z√©ro

L'objectif de ce notebook est de cr√©er un pipeline RAG (Retrieval Augmented Generation) √† partir de z√©ro et de le faire fonctionner sur un GPU local.

Plus pr√©cis√©ment, nous aimerions pouvoir ouvrir un fichier PDF, lui poser des questions (requ√™tes) et y r√©pondre par un Large Language Model (LLM).

Il existe des frameworks qui reproduisent ce type de flux de travail, notamment [LlamaIndex](https://www.llamaindex.ai/) et [LangChain](https://www.langchain.com/). Cependant, l'objectif de construire √† partir de scratch, c'est pouvoir inspecter et personnaliser toutes les pi√®ces.

## Pourquoi RAG ?

L'objectif principal de RAG est d'am√©liorer le rendement de g√©n√©ration des LLM.

Deux am√©liorations principales peuvent √™tre consid√©r√©es comme¬†:
1. **Pr√©venir les hallucinations** - Les LLM sont incroyables mais ils sont sujets √† des hallucinations potentielles, comme g√©n√©rer quelque chose qui *semble* correct mais ne l'est pas. Les pipelines RAG peuvent aider les LLM √† g√©n√©rer davantage de r√©sultats factuels en leur fournissant des entr√©es factuelles (r√©cup√©r√©es). Et m√™me si la r√©ponse g√©n√©r√©e √† partir d'un pipeline RAG ne semble pas correcte, gr√¢ce √† la r√©cup√©ration, vous avez √©galement acc√®s aux sources d'o√π elle provient.
2. **Travailler avec des donn√©es personnalis√©es** - De nombreux LLM de base sont form√©s avec des donn√©es textuelles √† l'√©chelle Internet. Cela signifie qu‚Äôils ont une grande capacit√© √† mod√©liser le langage, mais qu‚Äôils manquent souvent de connaissances sp√©cifiques. Les syst√®mes RAG peuvent fournir aux LLM des donn√©es sp√©cifiques √† un domaine telles que des informations m√©dicales ou de la documentation d'entreprise et ainsi personnaliser leurs sorties pour r√©pondre √† des cas d'utilisation sp√©cifiques.

Les auteurs de l‚Äôarticle original du RAG mentionn√© ci-dessus ont soulign√© ces deux points dans leur discussion.

> Ce travail offre plusieurs avantages soci√©taux positifs par rapport aux travaux ant√©rieurs : le fait qu'il soit plus
fortement ancr√© dans des connaissances factuelles r√©elles (dans ce cas Wikip√©dia), le rend moins ¬´ hallucin√© ¬ª
avec des g√©n√©rations plus factuelles et offre plus de contr√¥le et d‚Äôinterpr√©tabilit√©. RAG pourrait √™tre
employ√© dans une grande vari√©t√© de sc√©narios b√©n√©ficiant directement √† la soci√©t√©, par exemple en la dotant
avec un index m√©dical et en lui posant des questions ouvertes sur ce sujet, ou en aidant les gens √† √™tre plus
efficaces dans leur travail.

RAG peut √©galement √™tre une solution beaucoup plus rapide √† mettre en ≈ìuvre que d‚Äôaffiner un LLM sur des donn√©es sp√©cifiques.

Pourquoi local ?
Confidentialit√©, rapidit√©, co√ªt.

Ex√©cuter localement signifie que vous utilisez votre propre mat√©riel.

Du point de vue de la confidentialit√©, cela signifie que vous n'avez pas besoin d'envoyer de donn√©es potentiellement sensibles √† une API.

Du point de vue de la vitesse, cela signifie que vous n'aurez pas n√©cessairement √† attendre une file d'attente d'API ou un temps d'arr√™t ; si votre mat√©riel est en cours d'ex√©cution, le pipeline peut s'ex√©cuter.

Et du point de vue des co√ªts, fonctionner sur votre propre mat√©riel entra√Æne souvent un co√ªt de d√©part plus √©lev√©, mais peu ou pas de frais par la suite.

En termes de performances, les API LLM peuvent toujours fonctionner mieux qu'un mod√®le open source ex√©cut√© localement sur des t√¢ches g√©n√©rales, mais il existe de plus en plus d'exemples de mod√®les plus petits et cibl√©s surpassant les mod√®les plus grands.

## Termes cl√©s

| Term | Description |
| ----- | ----- | 
| **Jeton** | Un morceau de texte sous-mot. Par exemple, ¬´¬†Bonjour tout le monde¬†!¬†¬ª pourrait √™tre divis√© en ["hello", ",", "world", "!"]. Un jeton peut √™tre un mot entier,<br> une partie d'un mot ou un groupe de caract√®res de ponctuation. 1 jeton ~= 4 caract√®res en anglais, 100 jetons ~= 75 mots.<br> Le texte est divis√© en jetons avant d'√™tre transmis √† un LLM. |
| **Embedding** | Une repr√©sentation num√©rique apprise d‚Äôune donn√©e. Par exemple, une phrase de texte pourrait √™tre repr√©sent√©e par un vecteur avec<br> 768 valeurs. Des morceaux de texte similaires (dans leur sens) auront id√©alement des valeurs similaires. |
| **Embedding model** | Un mod√®le con√ßu pour accepter des donn√©es d'entr√©e et produire une repr√©sentation num√©rique. Par exemple, un mod√®le d'incorporation de texte peut prendre 384 <br>jetons de texte et le transformer en un vecteur de taille 768. Un mod√®le d'incorporation peut et est souvent diff√©rent d'un mod√®le LLM. |
| **Similarity search/vector search** | Similarity search/vector la recherche vise √† trouver deux vecteurs proches l‚Äôun de l‚Äôautre dans un espace de haute dimension. Par exemple, deux morceaux de texte similaire transmis via un mod√®le d'int√©gration devraient avoir un score de similarit√© √©lev√©, tandis que deux morceaux de texte sur<br> des sujets diff√©rents auront un score de similarit√© plus faible. Les mesures courantes du score de similarit√© sont la similarit√© du produit scalaire et du cosinus. |
| **Large Language Model (LLM)** | Un mod√®le qui a √©t√© entra√Æn√© pour repr√©senter num√©riquement les mod√®les dans le texte. Un LLM g√©n√©ratif continuera une s√©quence lorsqu'on lui donnera une s√©quence. <br>Par exemple, √©tant donn√© une s√©quence du texte ¬´ bonjour tout le monde ! ¬ª, un LLM g√©n√©ratif peut produire ¬´ nous allons construire un pipeline RAG aujourd'hui ! ¬ª.<br> Cette g√©n√©ration sera fortement d√©pendante de la formation donn√©es et invite.|
| **LLM context window** | Le nombre de jetons qu'un LLM peut accepter en entr√©e. Par exemple, depuis mars¬†2024, GPT-4 dispose d'une fen√™tre contextuelle par d√©faut de 32¬†000 jetons<br> (environ 96¬†pages de texte), mais peut aller jusqu'√† 128¬†000 si n√©cessaire. Un r√©cent LLM open source de Google, Gemma (mars¬†2024) a une fen√™tre contextuelle<br> de 8¬†192¬†jetons (environ 24¬†pages de texte). Une fen√™tre de contexte plus √©lev√©e signifie qu'un LLM peut accepter des informations plus pertinentes<br> pour faciliter une requ√™te. Par exemple, dans un pipeline RAG, si un mod√®le dispose d'une fen√™tre contextuelle plus grande, il peut accepter davantage d'√©l√©ments de r√©f√©rence<br> du syst√®me de r√©cup√©ration pour faciliter sa g√©n√©ration.|
| **Prompt** | Un terme courant pour d√©crire l'entr√©e dans un LLM g√©n√©ratif. L'id√©e de ¬´ [prompt Engineering](https://en.wikipedia.org/wiki/Prompt_engineering) ¬ª est de structurer une entr√©e bas√©e sur du texte<br> (ou potentiellement √©galement bas√©e sur des images) dans un LLM g√©n√©ratif dans un mani√®re sp√©cifique afin que la sortie g√©n√©r√©e soit id√©ale. Cette technique est<br>possible gr√¢ce √† la capacit√© d'un LLM √† apprendre en contexte, car il est capable d'utiliser sa repr√©sentation du langage pour d√©composer l'invite et reconna√Ætre ce que peut √™tre un r√©sultat appropri√© (remarque¬†: le r√©sultat des LLM est probable, c'est pourquoi des termes tels que ¬´¬†peut produire¬†¬ª sont utilis√©s).| 




## Ce que nous allons construire

Nous allons cr√©er un pipeline RAG qui nous permet de discuter avec un document PDF, en particulier des pdfs sur les programmes des lyc√©es au Cameroun.

Vous pourriez appeler notre projet EduChat¬†!

Nous √©crirons le code dans¬†:
1. Ouvrez un document PDF (vous pouvez utiliser presque n'importe quel PDF ici).
2. Formatez le texte du manuel PDF pour le pr√©parer √† un mod√®le d'Embedding(ce processus est connu sous le nom de fractionnement/blocage de texte).
3. Int√©grez tous les morceaux de texte dans le manuel et transformez-les en repr√©sentation num√©rique que nous pourrons stocker pour plus tard.
4. Cr√©ez un syst√®me de r√©cup√©ration qui utilise la recherche vectorielle pour trouver des morceaux de texte pertinents en fonction d'une requ√™te.
5. Cr√©ez une invite qui int√®gre les morceaux de texte r√©cup√©r√©s.
6. G√©n√©rez une r√©ponse √† une requ√™te bas√©e sur des passages du manuel.

Les √©tapes ci-dessus peuvent √™tre divis√©es en deux sections principales¬†:
1. Pr√©traitement/cr√©ation d'Embedidng des document (√©tapes 1 √† 3).
2. Recherchez et r√©pondez (√©tapes 4 √† 6).

Et c'est la structure que nous suivrons.

C'est similaire au flux de travail d√©crit sur le blog NVIDIA qui [d√©taille un pipeline RAG local](https://developer.nvidia.com/blog/rag-101-demystifying-retrieval-augmented-generation-pipelines/).

<img src="https://github.com/mrdbourke/simple-local-rag/blob/main/images/simple-local-rag-workflow-flowchart.png?raw=true" alt="organigramme d'un local Flux de travail RAG" />

## 1. Traitement de documents/textes et cr√©ation d'Embeddings

Ingr√©dients:
* Document PDF au choix.
* Mod√®le d'int√©gration au choix.

Mesures:
1. Importez un document PDF.
2. Traitez le texte pour l'int√©grer (par exemple, divis√© en morceaux de phrases).
3. Int√©grez des morceaux de texte avec le mod√®le d'int√©gration.
4. Enregistrez les int√©grations dans un fichier pour une utilisation ult√©rieure (les int√©grations seront stock√©es dans un fichier pendant de nombreuses ann√©es ou jusqu'√† ce que vous perdiez votre disque dur).

Importer les document PDF
Cela fonctionnera avec de nombreux autres types de documents.

Il existe plusieurs biblioth√®ques pour ouvrir des PDF avec Python mais j'ai trouv√© que PyMuPDF fonctionne plut√¥t bien dans de nombreux cas.


In [2]:
import os
from tqdm.auto import tqdm  # Pour afficher une barre de progression
import fitz  # PyMuPDF, pour lire les fichiers PDF

# Fonction pour formater le texte
def formater_texte(texte: str) -> str:
    """Effectue un l√©ger formatage du texte."""
    texte_nettoye = texte.replace("\n", " ").strip()  # Remplace les sauts de ligne par des espaces et supprime les espaces inutiles
    return texte_nettoye

# Fonction pour ouvrir et lire un fichier PDF
def ouvrir_et_lire_pdf(chemin_pdf: str) -> list[dict]:
    """
    Ouvre un fichier PDF, lit son contenu page par page et collecte des statistiques.

    Param√®tres :
        chemin_pdf (str) : Chemin d'acc√®s au fichier PDF √† ouvrir et lire.

    Retourne :
        list[dict] : Une liste de dictionnaires contenant le num√©ro de page,
        le nombre de caract√®res, le nombre de mots, le nombre de phrases,
        le nombre estim√© de tokens et le texte extrait pour chaque page.
    """
    doc = fitz.open(chemin_pdf)  # Ouvre le document PDF
    pages_et_textes = []
    for numero_page, page in tqdm(enumerate(doc), desc=f"Traitement de {os.path.basename(chemin_pdf)}"):  # Parcourt les pages
        texte = page.get_text()  # Extrait le texte de la page
        texte = formater_texte(texte)  # Nettoie le texte
        pages_et_textes.append({
            "numero_page": numero_page + 1,  # Les num√©ros de page commencent √† 1
            "nb_caracteres": len(texte),
            "nb_mots": len(texte.split(" ")),
            "nb_phrases": len(texte.split(". ")),
            "nb_tokens_estime": len(texte) / 4,  # Estimation des tokens (1 token ‚âà 4 caract√®res)
            "texte": texte
        })
    return pages_et_textes

# Dossier contenant les fichiers PDF locaux
dossier_pdf = "data"  # Modifiez ceci si votre dossier a un autre nom

# V√©rifie si le dossier existe
if not os.path.exists(dossier_pdf):
    raise FileNotFoundError(f"Le dossier '{dossier_pdf}' n'existe pas.")

# Liste tous les fichiers PDF dans le dossier
fichiers_pdf = [os.path.join(dossier_pdf, f) for f in os.listdir(dossier_pdf) if f.endswith(".pdf")]

# Traite tous les fichiers PDF du dossier
contenu_tous_les_pdfs = {}

for fichier_pdf in fichiers_pdf:
    print(f"Lecture du fichier : {fichier_pdf}")
    contenu_pdf = ouvrir_et_lire_pdf(fichier_pdf)  # Lit le contenu du PDF
    contenu_tous_les_pdfs[os.path.basename(fichier_pdf)] = contenu_pdf  # Stocke le contenu avec le nom du fichier comme cl√©

# Exemple : Affiche les 2 premi√®res pages de chaque PDF trait√©
for nom_pdf, contenu in contenu_tous_les_pdfs.items():
    print(f"\n--- {nom_pdf} ---")
    for page in contenu[:2]:  # Affiche uniquement les 2 premi√®res pages
        print(f"Page {page['numero_page']} :")
        print(page['texte'])
        print("\n")


Lecture du fichier : data/Physique-Chimie-Technologie-4√®me.pdf


Traitement de Physique-Chimie-Technologie-4√®me.pdf: 47it [00:00, 88.94it/s]


Lecture du fichier : data/Physics F1-F2.pdf


Traitement de Physics F1-F2.pdf: 38it [00:01, 23.83it/s]


Lecture du fichier : data/Biology Form 3-4-5.pdf


Traitement de Biology Form 3-4-5.pdf: 55it [00:01, 49.11it/s]


Lecture du fichier : data/ANGLAIS 2de.pdf


Traitement de ANGLAIS 2de.pdf: 33it [00:00, 66.74it/s]


Lecture du fichier : data/liste-manuels-scolaires-MINESEC-ESG2024-2025.pdf


Traitement de liste-manuels-scolaires-MINESEC-ESG2024-2025.pdf: 6it [00:00, 247.36it/s]


Lecture du fichier : data/Maths 6√®,5√®,4√®,3√®.pdf


Traitement de Maths 6√®,5√®,4√®,3√®.pdf: 84it [00:01, 44.81it/s]


Lecture du fichier : data/GEOLOGY F3 & 4.pdf


Traitement de GEOLOGY F3 & 4.pdf: 39it [00:00, 40.06it/s]


Lecture du fichier : data/Mathematics 1-2.pdf


Traitement de Mathematics 1-2.pdf: 49it [00:00, 55.71it/s]


Lecture du fichier : data/Physique-Chimique-Technologie 3eme .pdf


Traitement de Physique-Chimique-Technologie 3eme .pdf: 38it [00:00, 40.48it/s]


Lecture du fichier : data/Physique 2de C.pdf


Traitement de Physique 2de C.pdf: 14it [00:00, 24.94it/s]


Lecture du fichier : data/Biology Form1 -2.pdf


Traitement de Biology Form1 -2.pdf: 44it [00:00, 66.28it/s]


Lecture du fichier : data/BIO-CHEM-PHY-F1-F2.pdf


Traitement de BIO-CHEM-PHY-F1-F2.pdf: 35it [00:01, 33.17it/s]


Lecture du fichier : data/Math Form 3,4 and 5.pdf


Traitement de Math Form 3,4 and 5.pdf: 78it [00:01, 49.12it/s]


Lecture du fichier : data/SBEP 2de.pdf


Traitement de SBEP 2de.pdf: 42it [00:00, 64.75it/s]


Lecture du fichier : data/official-Books-List-MINESEC-GSE2024-2025.pdf


Traitement de official-Books-List-MINESEC-GSE2024-2025.pdf: 6it [00:00, 1594.09it/s]


Lecture du fichier : data/Histoire 4√®me et 3√®me.pdf


Traitement de Histoire 4√®me et 3√®me.pdf: 54it [00:00, 56.69it/s]


Lecture du fichier : data/HISTOIRE 6e 5e ESG.pdf


Traitement de HISTOIRE 6e 5e ESG.pdf: 62it [00:01, 37.95it/s]


Lecture du fichier : data/Informatique 6e-Tle.pdf


Traitement de Informatique 6e-Tle.pdf: 91it [00:01, 65.54it/s]


Lecture du fichier : data/GEOGRAPHIE 6e 5e ESG.pdf


Traitement de GEOGRAPHIE 6e 5e ESG.pdf: 53it [00:00, 55.15it/s]


Lecture du fichier : data/Computer F3,4 and 5.pdf


Traitement de Computer F3,4 and 5.pdf: 40it [00:00, 51.82it/s]


Lecture du fichier : data/Chemistry Form 3,4,5.pdf


Traitement de Chemistry Form 3,4,5.pdf: 49it [00:01, 36.18it/s]


Lecture du fichier : data/ANGLAIS SBEP 4e.pdf


Traitement de ANGLAIS SBEP 4e.pdf: 69it [00:01, 57.70it/s]


Lecture du fichier : data/Chimie 2deC.pdf


Traitement de Chimie 2deC.pdf: 35it [00:00, 37.84it/s]


Lecture du fichier : data/Physics Form 3,4 and 5.pdf


Traitement de Physics Form 3,4 and 5.pdf: 58it [00:00, 65.95it/s]


Lecture du fichier : data/HISTOIRE Tle-ESG.pdf


Traitement de HISTOIRE Tle-ESG.pdf: 18it [00:00, 38.08it/s]


Lecture du fichier : data/HISTOIRE Tle-EST.pdf


Traitement de HISTOIRE Tle-EST.pdf: 16it [00:00, 59.90it/s]


Lecture du fichier : data/Sciences 6e-5e.pdf


Traitement de Sciences 6e-5e.pdf: 36it [00:00, 66.74it/s]


Lecture du fichier : data/Litterature_US-LS.pdf


Traitement de Litterature_US-LS.pdf: 30it [00:01, 21.25it/s]


Lecture du fichier : data/litterature en anglais 2nd.pdf


Traitement de litterature en anglais 2nd.pdf: 30it [00:00, 41.26it/s]


Lecture du fichier : data/GEO Tle-ESG.pdf


Traitement de GEO Tle-ESG.pdf: 18it [00:00, 35.47it/s]


Lecture du fichier : data/ANGLAIS Year 3,4 Tech.pdf


Traitement de ANGLAIS Year 3,4 Tech.pdf: 69it [00:01, 57.60it/s]


Lecture du fichier : data/G√©ographie 4√®,3√®.pdf


Traitement de G√©ographie 4√®,3√®.pdf: 60it [00:00, 88.80it/s] 


Lecture du fichier : data/FRENCH AS SECOND LANGUAGE Form 3,  4 et 5 .pdf


Traitement de FRENCH AS SECOND LANGUAGE Form 3,  4 et 5 .pdf: 69it [00:01, 54.03it/s]


Lecture du fichier : data/ECM 6E 5E ESG.pdf


Traitement de ECM 6E 5E ESG.pdf: 55it [00:01, 37.64it/s]


Lecture du fichier : data/Computer Form1-2.pdf


Traitement de Computer Form1-2.pdf: 30it [00:00, 64.48it/s]


Lecture du fichier : data/Francais 4e-3e.pdf


Traitement de Francais 4e-3e.pdf: 66it [00:01, 51.35it/s]


Lecture du fichier : data/Education artistique 4e 3e.pdf


Traitement de Education artistique 4e 3e.pdf: 36it [00:00, 71.79it/s]


Lecture du fichier : data/ECM 4√®me,3√®me.pdf


Traitement de ECM 4√®me,3√®me.pdf: 48it [00:00, 74.90it/s]


Lecture du fichier : data/ANGLAIS 4e ESG .pdf


Traitement de ANGLAIS 4e ESG .pdf: 62it [00:01, 35.75it/s]



--- Physique-Chimie-Technologie-4√®me.pdf ---
Page 1 :
Page 1 sur 47      DOMAINE D‚ÄôAPPRENTISSAGE : SCIENCES ET TECHNOLOGIE  PROGRAMME D‚Äô√âTUDES : PHYSIQUE-CHIMIE-TECHNOLOGIE  NIVEAU : QUATRIEME  VOLUMES HORAIRES :  VOLUME HORAIRE ANNUEL : 75 HEURES  VOLUME HORAIRE HEBDOMADAIRE : 03 HEURES  COEFFICIENT : 03


Page 2 :
Page 2 sur 47      MODULE 1 : LA MATI√àRE : SES PROPRI√âTES ET SES TRANSFORMATIONS   VOLUME HORAIRE ALLOU√â AU MODULE : 18 HEURES   PRESENTATION DU MODULE   Ce module comporte trois (03) parties :   ‚û¢ Les propri√©t√©s et les caract√©ristiques de la mati√®re ;   ‚û¢ Les aimants, le champ magn√©tique terrestre ;   ‚û¢ La notion de r√©action chimique et d‚Äô√©l√©ment.   Cat√©gories d‚Äôactions :  -D√©termination des propri√©t√©s caract√©ristiques de la mati√®re   -R√©alisation des transformations chimiques   -D√©termination des caract√©ristiques physiques et chimiques d‚Äôun corps     Situation probl√®me :   Les objets qui nous entourent ont des propri√©t√©s diff√©ren

Prenons maintenant un √©chantillon al√©atoire des pages.

In [6]:
import random

# S√©lectionne un fichier PDF particulier pour l'√©chantillonnage
nom_pdf_test = list(contenu_tous_les_pdfs.keys())[0]  # Exemple : le premier fichier PDF
pages_and_texts = contenu_tous_les_pdfs[nom_pdf_test]

# V√©rifie si `pages_and_texts` contient au moins 3 pages
if len(pages_and_texts) >= 3:
    # S√©lectionne 3 pages al√©atoires
    pages_aleatoires = random.sample(pages_and_texts, k=3)
    
    # Affiche les pages s√©lectionn√©es
    for i, page in enumerate(pages_aleatoires, start=1):
        print(f"\n--- Page Al√©atoire {i} ---")
        print(f"Num√©ro de page : {page['numero_page']}")
        print(f"Contenu : {page['texte']}\n")
else:
    print(f"Le fichier PDF '{nom_pdf_test}' contient moins de 3 pages. Impossible de faire un √©chantillonnage.")



--- Page Al√©atoire 1 ---
Num√©ro de page : 30
Contenu : Page 30 sur 47    Un format se pr√©sente avec :     ‚Ä¢ Le cadre int√©rieur : c‚Äôest un trac√© en trait de largeur 0,5mm, √†10mm du bord de la feuille. Le cadre limite la zone utilisable par  le dessinateur.  ‚Ä¢ La cartouche : c‚Äôest le cadre √† l‚Äôint√©rieur du cadre int√©rieur, il contient toutes les donn√©es n√©cessaires √† l‚Äôidentification et au  classement du document. Son contour est en trait fort.  Repr√©sentation du cartouche d‚Äôinscription :                          ECHELLE          NOM ET PRENOM  N¬∞  CLASSE DATE       TITRE  ETABLISSEMENT 6  6  3  90  50  50mm 40mm


--- Page Al√©atoire 2 ---
Num√©ro de page : 9
Contenu : Page 9 sur 47


--- Page Al√©atoire 3 ---
Num√©ro de page : 15
Contenu : Page 15 sur 47     c-Quelle indication porte l'amp√®rem√®tre A2?   3. La tension aux bornes d‚Äôune portion de circuit   3.1. Unit√© et appareils de mesure ;   La tension du courant √©lectrique se mesure √† l‚Äôaide d‚Äôu

In [9]:
import pandas as pd

df = pd.DataFrame(pages_and_texts)
df.head()

Unnamed: 0,numero_page,nb_caracteres,nb_mots,nb_phrases,nb_tokens_estime,texte
0,1,252,46,1,63.0,Page 1 sur 47 DOMAINE D‚ÄôAPPRENTISSAGE : S...
1,2,1016,186,5,254.0,Page 2 sur 47 MODULE 1 : LA MATI√àRE : SES...
2,3,2255,394,17,563.75,Page 3 sur 47 2- Identifier parmi ces mots ...
3,4,2132,379,17,533.0,Page 4 sur 47 1.2- Les aimants et le champ...
4,5,1330,269,5,332.5,Page 5 sur 47 1.2.4 Utilisation d‚Äôune bouss...


### Obtenez des statistiques sur le texte

Effectuons une analyse exploratoire approximative des donn√©es (EDA) pour avoir une id√©e de la taille des textes (par exemple, nombre de caract√®res, nombre de mots, etc.) avec lesquels nous travaillons.

Les diff√©rentes tailles de textes seront un bon indicateur de la mani√®re dont nous devrions diviser nos textes.

De nombreux mod√®les d'int√©gration ont des limites quant √† la taille des textes qu'ils peuvent ing√©rer, par exemple le mod√®le [`sentence-transformers`](https://www.sbert.net/docs/pretrained_models.html) [`all-mpnet-base -v2`](https://huggingface.co/sentence-transformers/all-mpnet-base-v2) a une taille d'entr√©e de 384 jetons.

Cela signifie que le mod√®le a √©t√© entra√Æn√© √† ing√©rer et √† transformer en textes d'int√©gration avec 384 jetons (1 jeton ~= 4 caract√®res ~= 0,75 mots).

Les textes de plus de 384 jetons cod√©s par ce mod√®le seront automatiquement r√©duits √† 384 jetons, ce qui risque de perdre certaines informations.

Nous en discuterons davantage dans la section int√©gration.

Pour l'instant, transformons notre liste de dictionnaires en DataFrame et explorons-la.

In [10]:
# Get stats
df.describe().round(2)

Unnamed: 0,numero_page,nb_caracteres,nb_mots,nb_phrases,nb_tokens_estime
count,47.0,47.0,47.0,47.0,47.0
mean,24.0,1177.51,222.79,9.57,294.38
std,13.71,513.32,91.16,5.09,128.33
min,1.0,13.0,4.0,1.0,3.25
25%,12.5,785.5,144.5,6.0,196.38
50%,24.0,1246.0,248.0,8.0,311.5
75%,35.5,1499.5,283.0,12.0,374.88
max,47.0,2255.0,394.0,24.0,563.75


D'accord, il semble que notre nombre moyen de jetons par page soit de 294.

### Traitement ult√©rieur du texte (divisation des pages en phrases)

La mani√®re id√©ale de traiter le texte avant de l‚Äôint√©grer reste un domaine de recherche actif.

Une m√©thode simple que j'ai trouv√©e utile consiste √† diviser le texte en morceaux de phrases.

Comme dans, divisez une page de texte en groupes de 5, 7, 10 phrases ou plus (ces valeurs ne sont pas grav√©es dans le marbre et peuvent √™tre explor√©es).

Mais nous voulons suivre le flux de travail de¬†:

`Ing√©rer du texte -> le diviser en groupes/morceaux -> int√©grer les groupes/morceaux -> utiliser les int√©grations`

Quelques options pour diviser le texte en phrases¬†:

1. Diviser en phrases avec des r√®gles simples (par exemple diviser sur ". " avec `text = text.split(". ")`, comme nous l'avons fait ci-dessus).
2. Divisez en phrases avec une biblioth√®que de traitement du langage naturel (NLP) telle que [spaCy](https://spacy.io/) ou [nltk](https://www.nltk.org/).

Pourquoi diviser en phrases ?

* Plus facile √† g√©rer que des pages de texte plus volumineuses (surtout si les pages sont dens√©ment remplies de texte).
* Peut √™tre pr√©cis et d√©couvrir quel groupe de phrases a √©t√© utilis√© pour aider dans un pipeline RAG.

> **Ressource¬†:** Voir [instructions d'installation de spaCy](https://spacy.io/usage). 

Utilisons spaCy pour diviser notre texte en phrases, car c'est probablement un peu plus robuste que d'utiliser simplement `text.split(". ")`.

In [12]:
from spacy.lang.fr import French # see https://spacy.io/usage for install instructions

nlp = French()

# Add a sentencizer pipeline, see https://spacy.io/api/sentencizer/ 
nlp.add_pipe("sentencizer")

# Create a document instance as an example
doc = nlp("Ceci est une phrase. Voici une autre phrase.")
assert len(list(doc.sents)) == 2

# Acc√©der aux phrases du document
print(list(doc.sents))  # Affiche les phrases d√©tect√©es


[Ceci est une phrase., Voici une autre phrase.]


Nous n'avons pas n√©cessairement besoin d'utiliser spaCy, cependant, il s'agit d'une biblioth√®que open source con√ßue pour effectuer des t√¢ches NLP comme celle-ci √† grande √©chelle.

Alors ex√©cutons notre petit pipeline de d√©termination de peine sur nos pages de texte.

In [14]:
# Divise le texte en phrases pour chaque page dans `pages_and_texts`
for item in tqdm(pages_and_texts, desc="Traitement des phrases avec SpaCy"):
    # Extraire les phrases de la page
    item["phrases"] = list(nlp(item["texte"]).sents)

    # Convertir les phrases en cha√Ænes de caract√®res
    item["phrases"] = [str(phrase) for phrase in item["phrases"]]

    # Compter le nombre de phrases d√©tect√©es sur la page
    item["nb_phrases_spacy"] = len(item["phrases"])

# Inspection d'une page al√©atoire pour v√©rifier les r√©sultats
page_aleatoire = random.sample(pages_and_texts, k=1)[0]  # S√©lectionne une page al√©atoire

# Afficher les r√©sultats pour la page s√©lectionn√©e
print("\n--- Exemple de page analys√©e ---")
print(f"Num√©ro de page : {page_aleatoire['numero_page']}")
print(f"Nombre de phrases d√©tect√©es (SpaCy) : {page_aleatoire['nb_phrases_spacy']}")
print("Quelques phrases extraites :")
for phrase in page_aleatoire["phrases"][:3]:  # Affiche les 3 premi√®res phrases
    print(f"- {phrase}")

Traitement des phrases avec SpaCy: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 47/47 [00:00<00:00, 47.82it/s]


--- Exemple de page analys√©e ---
Num√©ro de page : 17
Nombre de phrases d√©tect√©es (SpaCy) : 17
Quelques phrases extraites :
- Page 17 sur 47    La masse d‚Äôun corps caract√©rise la quantit√© de mati√®re que contient ou qui constitue ce corps .
-  La masse est symbolis√©e par la lettre ¬´ M ¬ª ou ¬´ m ¬ª.
- Elle se mesure √† l‚Äôaide d‚Äôune balance et son unit√© l√©gale est le kilogramme de  symbole ¬´ kg ¬ª.





Merveilleux!

Transformons maintenant la liste des dictionnaires en DataFrame et obtenons quelques statistiques.

In [15]:
df = pd.DataFrame(pages_and_texts)
df.describe().round(2)

Unnamed: 0,numero_page,nb_caracteres,nb_mots,nb_phrases,nb_tokens_estime,nb_phrases_spacy
count,47.0,47.0,47.0,47.0,47.0,47.0
mean,24.0,1177.51,222.79,9.57,294.38,9.83
std,13.71,513.32,91.16,5.09,128.33,5.52
min,1.0,13.0,4.0,1.0,3.25,1.0
25%,12.5,785.5,144.5,6.0,196.38,6.0
50%,24.0,1246.0,248.0,8.0,311.5,8.0
75%,35.5,1499.5,283.0,12.0,374.88,13.0
max,47.0,2255.0,394.0,24.0,563.75,28.0


Maintenant que notre texte est divis√© en phrases, on regroupe ces phrases¬†?

### Regrouper nos phrases ensemble

Faisons un pas pour diviser notre liste de phrases/texte en morceaux plus petits.

Comme vous l'avez peut-√™tre devin√©, ce processus est appel√© **chunking**.

Pourquoi faisons-nous cela ?

1. Plus facile de g√©rer des morceaux de texte de taille similaire.
2. Ne surchargez pas la capacit√© des mod√®les d'int√©gration pour les jetons (par exemple, si un mod√®le d'int√©gration a une capacit√© de 384 jetons, il pourrait y avoir une perte d'informations si vous essayez d'int√©grer une s√©quence de plus de 400 jetons).
3. Notre fen√™tre contextuelle LLM (la quantit√© de jetons qu'un LLM peut accepter) peut √™tre limit√©e et n√©cessite de la puissance de calcul, nous voulons donc nous assurer que nous l'utilisons aussi bien que possible.

Il convient de noter qu'il existe de nombreuses fa√ßons diff√©rentes de cr√©er des morceaux d'informations/de texte.

In [16]:
# D√©finir la taille des groupes de phrases pour cr√©er des chunks
taille_chunk_phrases = 10 

# Fonction pour diviser r√©cursivement une liste en sous-listes de taille d√©finie
def diviser_liste(liste_entree: list, 
                  taille_sous_liste: int) -> list[list[str]]:
    """
    Divise la liste_entree en sous-listes de taille taille_sous_liste (ou aussi proches que possible).

    Par exemple, une liste de 17 phrases sera divis√©e en deux sous-listes : [[10], [7]].
    """
    return [liste_entree[i:i + taille_sous_liste] for i in range(0, len(liste_entree), taille_sous_liste)]

# Parcourir les pages et textes pour diviser les phrases en chunks
for item in tqdm(pages_and_texts, desc="Cr√©ation des chunks de phrases"):
    # Diviser les phrases en groupes
    item["chunks_phrases"] = diviser_liste(liste_entree=item["phrases"],
                                           taille_sous_liste=taille_chunk_phrases)
    
    # Ajouter le nombre total de chunks
    item["nb_chunks"] = len(item["chunks_phrases"])

# Exemple : Affiche le contenu pour une page al√©atoire
import random

page_aleatoire = random.sample(pages_and_texts, k=1)[0]  # S√©lectionner une page al√©atoire

print("\n--- Exemple d'une page avec des chunks ---")
print(f"Num√©ro de page : {page_aleatoire['numero_page']}")
print(f"Nombre de chunks : {page_aleatoire['nb_chunks']}")
print("Quelques chunks de phrases :")
for i, chunk in enumerate(page_aleatoire["chunks_phrases"][:3], start=1):  # Affiche les 3 premiers chunks
    print(f"\nChunk {i} :")
    for phrase in chunk:
        print(f"- {phrase}")


Cr√©ation des chunks de phrases: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 47/47 [00:00<00:00, 26718.93it/s]


--- Exemple d'une page avec des chunks ---
Num√©ro de page : 46
Nombre de chunks : 2
Quelques chunks de phrases :

Chunk 1 :
- Page 46 sur 47    - D√©finition : jeu, surfaces fonctionnelles, moulage, emboutissage, forgeage, tournage, soudage, rivetage, montage √† force, vis-√©crou,  boulon, taraudage, filetage ;   ‚úì Le moulage : Il consiste √† verser une substance dans un moule, celle si prend la forme du moule apr√®s solidification exemple dans  la fabrication des parpaings.
-  ‚úì Le forgeage : C‚Äôest la d√©formation √† chaud ou √† froid d‚Äôun m√©tal sous l‚Äôaction de la pression.
-  ‚úì Le tournage : C‚Äôest une technique de fabrication qui consiste √† faire roter la pi√®ce pendant que l‚Äôoutil se d√©place en translation.
-  -  Proc√©d√© d‚Äôassemblage.
-  Assembler des pi√®ces c‚Äôest les mettre en liaison.
- Une liaison impose une stabilit√© entre les surfaces en contacts des deux objets.
- Ces  surfaces de contact sont appel√©s surfaces fonctionnelles.
- Il existe par cons




In [17]:
# S√©lectionner un exemple al√©atoire parmi les pages trait√©es
import random

# S√©lectionne une page al√©atoire de `pages_and_texts`
page_aleatoire = random.sample(pages_and_texts, k=1)[0]

# Afficher des informations sur la page s√©lectionn√©e
print("\n--- Exemple de page avec des chunks ---")
print(f"Num√©ro de page : {page_aleatoire['numero_page']}")
print(f"Nombre de chunks de phrases : {page_aleatoire['nb_chunks']}")

# Affiche les chunks (chaque chunk contient plusieurs phrases, si la page a plus de 10 phrases)
print("Quelques chunks de phrases :")
for i, chunk in enumerate(page_aleatoire["chunks_phrases"][:3], start=1):  # Affiche les 3 premiers chunks
    print(f"\nChunk {i} :")
    for phrase in chunk:
        print(f"- {phrase}")

# Exemple de s√©lection d'un chunk al√©atoire parmi ceux de cette page
if page_aleatoire["nb_chunks"] > 1:  # V√©rifie si la page contient plusieurs chunks
    chunk_aleatoire = random.choice(page_aleatoire["chunks_phrases"])
    print("\n--- Chunk al√©atoire s√©lectionn√© ---")
    for phrase in chunk_aleatoire:
        print(f"- {phrase}")
else:
    print("\nLa page ne contient qu'un seul chunk.")



--- Exemple de page avec des chunks ---
Num√©ro de page : 4
Nombre de chunks de phrases : 2
Quelques chunks de phrases :

Chunk 1 :
- Page 4 sur 47    1.2- Les aimants  et le champ magn√©tique terrestre   Un aimant est un mat√©riau d√©veloppant naturellement un champ magn√©tique et capable d‚Äôattirer le fer, le nickel, le cobalt et le chrome.
-  Situation probl√®me : Djiaha rapproche 2 aimants et constate qu‚Äôils se collent.
- Ensuite elle retourne un cot√© d‚Äôun aimant et les  rapprochent.
- Elle constate qu‚Äôils ne veulent pas se coller.
-  Expliquer lui ce qui se passe.
-  1.2.1 Les p√¥les d‚Äôun aimant   Un aimant √† un p√¥le nord et un p√¥le sud quel qu‚Äôen soit sa taille.
- Les p√¥les de m√™me nature se repoussent et celle de natures contraires  s‚Äôattirent.
- Il existe des aimants naturels (la magn√©tite et la terre) et des aimants artificiels (les aimants permanents tels que les aimants en  U, en barreau aimant√©, en cercle, l‚Äôaiguille magn√©tique et les aimants tempor

In [18]:
# Cr√©e un DataFrame √† partir des donn√©es de `pages_and_texts`
df = pd.DataFrame(pages_and_texts)

# Affiche les statistiques descriptives
df_stats = df.describe().round(2)

# Affiche le DataFrame avec les statistiques
print(df_stats)

       numero_page  nb_caracteres  nb_mots  nb_phrases  nb_tokens_estime  \
count        47.00          47.00    47.00       47.00             47.00   
mean         24.00        1177.51   222.79        9.57            294.38   
std          13.71         513.32    91.16        5.09            128.33   
min           1.00          13.00     4.00        1.00              3.25   
25%          12.50         785.50   144.50        6.00            196.38   
50%          24.00        1246.00   248.00        8.00            311.50   
75%          35.50        1499.50   283.00       12.00            374.88   
max          47.00        2255.00   394.00       24.00            563.75   

       nb_phrases_spacy  nb_chunks  
count             47.00      47.00  
mean               9.83       1.38  
std                5.52       0.53  
min                1.00       1.00  
25%                6.00       1.00  
50%                8.00       1.00  
75%               13.00       2.00  
max               2

### Diviser chaque morceau en son propre √©l√©ment

Nous aimerions embedder chaque morceau de phrases dans sa propre repr√©sentation num√©rique.

Donc, pour garder les choses claires, cr√©ons une nouvelle liste de dictionnaires contenant chacun un seul morceau de phrases avec des informations relatives telles que le num√©ro de page ainsi que des statistiques sur chaque morceau.

In [21]:
import re

# Liste pour stocker les chunks trait√©s
pages_et_chunks = []

# Parcourt les pages et les chunks pour cr√©er des donn√©es sur chaque chunk
for item in tqdm(pages_and_texts, desc="Traitement des chunks de phrases"):
    for chunk_de_phrases in item["chunks_phrases"]:
        chunk_dict = {}
        chunk_dict["numero_page"] = item["numero_page"]
        
        # Joindre les phrases pour former un "paragraphe" ou chunk
        chunk_texte = "".join(chunk_de_phrases).replace("  ", " ").strip()
        chunk_texte = re.sub(r'\.([A-Z])', r'. \1', chunk_texte)  # Format ".A" -> ". A" pour toute combinaison point/majuscule
        chunk_dict["chunk_texte"] = chunk_texte

        # Calculer les statistiques pour le chunk
        chunk_dict["chunk_nb_caracteres"] = len(chunk_texte)
        chunk_dict["chunk_nb_mots"] = len(chunk_texte.split(" "))
        chunk_dict["chunk_nb_tokens"] = len(chunk_texte) / 4  # Estimation des tokens (1 token ‚âà 4 caract√®res)
        
        # Ajouter le chunk trait√© √† la liste des chunks
        pages_et_chunks.append(chunk_dict)

# V√©rifie combien de chunks ont √©t√© trait√©s
print(f"Nombre total de chunks trait√©s : {len(pages_et_chunks)}")

Traitement des chunks de phrases: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 47/47 [00:00<00:00, 428.59it/s]

Nombre total de chunks trait√©s : 65





In [22]:
# View a random sample
random.sample(pages_et_chunks, k=1)


[{'numero_page': 22,
  'chunk_texte': "Page 22 sur 47  b- Apr√®s plusieurs pluies, on a constat√© que le lessivage de son champs a entrainer la croissance anormale des plantes aquatiques et la mort des animaux aquatiques due √† l‚Äôutilisation abusive des engrais dans son champs. Comment explique-t-on ce ph√©nom√®ne ?les engrais sont-ils dangereux pour notre sant√© ? 3.2. Les engrais  3.2 .1. D√©finition : Fertilisation, √©l√©ment fertilisant, engrais ;  La fertilisation est le processus consistant √† apporter √† un milieu de culture, tel que le sol, les √©l√©ments min√©raux n√©cessaires au d√©veloppement de la plante. Les engrais sont des substances organiques ou min√©rales, souvent utilis√©es en m√©langes, destin√©es √† apporter aux plantes des compl√©ments d'√©l√©ments nutritifs, de fa√ßon √† am√©liorer leur croissance, et √† augmenter le rendement et la qualit√© des cultures. Les √©l√©ments fertilisants : produits destin√©s √† assurer ou √† am√©liorer la nutrition des v√©g√©taux et

**Excellent**!


### Embedder  nos morceaux de texte

In [23]:
# Cr√©er une liste des chunks de texte
chunks_texte = [item["chunk_texte"] for item in pages_et_chunks]


Traitement des chunks:   0%|          | 0/2 [00:00<?, ?it/s]

Traitement des chunks: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2/2 [00:03<00:00,  1.90s/it]

                             chunk_texte  embedding
0          Ceci est un exemple de texte.  -0.357687
1  Un autre exemple de morceau de texte.  -0.148989



