## CulturaBot - création d'un chatbot sur la culture générale basé sur RAG destiné pour les ados/jeunes adultes


Le CulturaBot sera un chatbot qui utilisera les connaissances provenant du livre "La Culture générale pour les nuls" en version PDF pour répondre aux questions de culture générale de manière ludique et sans prétention. Ce projet se basera sur un modèle LLM extistant qui sera "augmenté" ou enrichi des connaissances dudit livre.

ETAPE 1 : Préparation des données 

Le présent notebook a pour objectif d'extraire le texte du livre "La Culture générale pour les nuls" en version PDF et d'effectuer le traitement necessaire pour les prochaines étapes.

In [None]:
# 1. Importer les bibliothèques nécessaires

import pdfplumber
import re

In [None]:
# 2. Definir les fonctions pour extraire et nettoyer le texte

def nettoyer_texte(texte):
    """Nettoie le texte extrait du PDF (supprime numéros de page, espaces, etc.)."""
    texte = re.sub(r'\n\d+\n', '\n', texte)  # Supprime les numéros de page
    texte = re.sub(r'\s+', ' ', texte)       # Supprime les espaces multiples
    texte = re.sub(r'[^\w\s,.;!?\'"-]', '', texte)  # Supprime les caractères spéciaux
    texte = texte.replace("«", '"').replace("»", '"')  # Remplace les guillemets français
    return texte.strip()

def extraire_texte_pdf(chemin_pdf):
    """Extrait le texte du PDF en ignorant les images et nettoie le résultat."""
    texte_brut = ""
    with pdfplumber.open(chemin_pdf) as pdf:
        for page in pdf.pages:
            # Extraire uniquement le texte (ignore les images)
            texte_page = page.extract_text()
            if texte_page:
                texte_brut += texte_page + "\n"
    return nettoyer_texte(texte_brut)



In [None]:
# 3. Utiliser les fonctions pour extraire et nettoyer le texte
chemin_pdf = "../data/La_Culture_Generale_Pour_Les_Nuls.pdf"  # Chemin relatif depuis la racine du projet
texte_nettoye = extraire_texte_pdf(chemin_pdf)


In [None]:
# 4. Sauvegarder le texte nettoyé
with open("../data/texte_nettoye.txt", "w", encoding="utf-8") as f:
    f.write(texte_nettoye)
print("Extraction et nettoyage terminés !")

Extraction et nettoyage terminés !


In [None]:
# 5. Afficher un extrait du texte nettoyé pour vérification

print(texte_nettoye[:500])  # Affiche les 500 premiers caractères

Avec les Nuls, tout devient facile ! 2e édition La Culture générale cid23cid3Un panorama complet de tous les domaines du savoir cid23cid3Des milliers de faits, de dates et de noms à retenir sans peine cid23cid3De nombreux portraits, histoires et anecdotes cid23cid3Édition mise à jour et augmentée Florence Braunstein Docteur ès lettres Jean-François Pépin Agrégé dhistoire Couv CultureGénéralePLN Dos37.indd 1 181109 1052 CULTUREG.indb II 091109 1007 La Culture générale 2e édition CULTUREG.indb III
