# Module NLP - Formation Compl√®te

## Plateforme IA-Solution RDC

---

### üéØ Objectifs du module

√Ä la fin de ce module, vous serez capable de :
- Comprendre les bases du traitement du langage naturel
- Pr√©traiter et nettoyer des textes
- Utiliser des mod√®les classiques (TF-IDF) et modernes (Transformers)
- Cr√©er des applications NLP pour la RDC
- Construire un chatbot simple

**Niveau :** Interm√©diaire  
**Pr√©requis :** Python, Machine Learning, Deep Learning  
**Dur√©e :** 6 semaines

---

## üìö Table des mati√®res

1. [Introduction au NLP](#chapitre-1)
2. [Pr√©traitement du texte](#chapitre-2)
3. [Word Embeddings](#chapitre-3)
4. [Transformers](#chapitre-4)
5. [Applications en RDC](#chapitre-5)
6. [Projet final : Chatbot](#chapitre-6)

In [None]:
# Installation des biblioth√®ques
!pip install nltk spacy transformers torch scikit-learn -q
!python -m spacy download fr_core_news_sm -q

print("‚úÖ Biblioth√®ques install√©es !")

In [None]:
# Imports
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import re
import string

# NLTK
import nltk
nltk.download('punkt', quiet=True)
nltk.download('stopwords', quiet=True)
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords

# SpaCy
import spacy
nlp = spacy.load('fr_core_news_sm')

# Scikit-learn
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# Transformers
from transformers import pipeline, AutoTokenizer, AutoModel

print("‚úÖ Imports termin√©s !")

---

# Chapitre 1 : Introduction au NLP <a id="chapitre-1"></a>

## 1.1 Qu'est-ce que le NLP ?

Le **NLP** (Natural Language Processing) ou **TALN** (Traitement Automatique du Langage Naturel) est le domaine de l'IA qui permet aux ordinateurs de comprendre, interpr√©ter et g√©n√©rer du langage humain.

### Applications courantes

1. **Traduction automatique** : Google Translate
2. **Assistants vocaux** : Siri, Alexa
3. **Analyse de sentiments** : Avis clients
4. **Chatbots** : Service client
5. **R√©sum√© automatique** : Articles de presse
6. **Correction orthographique** : Word, Gmail

## 1.2 Applications en RDC

### üìö **√âducation**
- Chatbots pour r√©pondre aux questions d'√©tudiants
- Correction automatique de devoirs
- Traduction de cours en langues locales

### üèõÔ∏è **Administration**
- Analyse de documents administratifs
- Classification automatique de courriers
- Extraction d'informations

### üí¨ **Communication**
- Traduction fran√ßais ‚Üî lingala/swahili
- Analyse de r√©seaux sociaux
- Mod√©ration de contenus

### üè• **Sant√©**
- Analyse de dossiers m√©dicaux
- Chatbot de premiers secours
- Extraction de sympt√¥mes

---

# Chapitre 2 : Pr√©traitement du texte <a id="chapitre-2"></a>

## 2.1 √âtapes du pr√©traitement

```
Texte brut
    ‚Üì
1. Nettoyage (ponctuation, chiffres)
    ‚Üì
2. Tokenisation (d√©coupage en mots)
    ‚Üì
3. Normalisation (minuscules)
    ‚Üì
4. Suppression des stopwords
    ‚Üì
5. Lemmatisation/Stemming
    ‚Üì
Texte pr√©trait√©
```

## 2.2 Nettoyage

In [None]:
# Exemple de texte
texte = """Bonjour ! Je m'appelle Jean et j'habite √† Kinshasa, RDC. 
J'√©tudie l'intelligence artificielle depuis 2023. C'est passionnant !!!"""

print("üìù TEXTE ORIGINAL")
print("=" * 60)
print(texte)

# Fonction de nettoyage
def nettoyer_texte(texte):
    """Nettoie un texte"""
    # Minuscules
    texte = texte.lower()
    
    # Supprimer la ponctuation
    texte = texte.translate(str.maketrans('', '', string.punctuation))
    
    # Supprimer les chiffres
    texte = re.sub(r'\d+', '', texte)
    
    # Supprimer les espaces multiples
    texte = re.sub(r'\s+', ' ', texte).strip()
    
    return texte

texte_nettoye = nettoyer_texte(texte)

print("\nüßπ TEXTE NETTOY√â")
print("=" * 60)
print(texte_nettoye)

## 2.3 Tokenisation

In [None]:
# Tokenisation en phrases
phrases = sent_tokenize(texte, language='french')

print("üìÑ TOKENISATION EN PHRASES")
print("=" * 60)
for i, phrase in enumerate(phrases, 1):
    print(f"{i}. {phrase}")

# Tokenisation en mots
mots = word_tokenize(texte_nettoye, language='french')

print("\nüî§ TOKENISATION EN MOTS")
print("=" * 60)
print(f"Nombre de mots : {len(mots)}")
print(f"Mots : {mots}")

## 2.4 Suppression des stopwords

In [None]:
# Charger les stopwords fran√ßais
stop_words = set(stopwords.words('french'))

print("üö´ STOPWORDS FRAN√áAIS (exemples)")
print("=" * 60)
print(list(stop_words)[:20])

# Filtrer les stopwords
mots_filtres = [mot for mot in mots if mot not in stop_words]

print("\n‚úÖ MOTS APR√àS FILTRAGE")
print("=" * 60)
print(f"Avant : {len(mots)} mots")
print(f"Apr√®s : {len(mots_filtres)} mots")
print(f"Mots conserv√©s : {mots_filtres}")

## 2.5 Lemmatisation avec SpaCy

In [None]:
# Exemple de lemmatisation
texte_exemple = "Les √©tudiants √©tudient l'intelligence artificielle dans les universit√©s."

doc = nlp(texte_exemple)

print("üîç LEMMATISATION")
print("=" * 60)
print(f"{'Mot':<20} {'Lemme':<20} {'POS'}")
print("-" * 60)
for token in doc:
    print(f"{token.text:<20} {token.lemma_:<20} {token.pos_}")

## 2.6 Vectorisation

### Bag-of-Words (BoW)

In [None]:
# Corpus d'exemple
corpus = [
    "L'√©ducation est importante en RDC",
    "L'intelligence artificielle transforme l'√©ducation",
    "La RDC investit dans l'√©ducation"
]

# Bag-of-Words
vectorizer_bow = CountVectorizer()
X_bow = vectorizer_bow.fit_transform(corpus)

print("üìä BAG-OF-WORDS")
print("=" * 60)
print(f"Vocabulaire : {vectorizer_bow.get_feature_names_out()}")
print(f"\nMatrice BoW :")
print(X_bow.toarray())

# Afficher sous forme de DataFrame
df_bow = pd.DataFrame(
    X_bow.toarray(),
    columns=vectorizer_bow.get_feature_names_out()
)
print("\nDataFrame :")
print(df_bow)

### TF-IDF

In [None]:
# TF-IDF
vectorizer_tfidf = TfidfVectorizer()
X_tfidf = vectorizer_tfidf.fit_transform(corpus)

print("üìà TF-IDF")
print("=" * 60)

df_tfidf = pd.DataFrame(
    X_tfidf.toarray(),
    columns=vectorizer_tfidf.get_feature_names_out()
)
print(df_tfidf)

# Similarit√© cosinus
similarity = cosine_similarity(X_tfidf)

print("\nüîó SIMILARIT√â ENTRE DOCUMENTS")
print("=" * 60)
print(pd.DataFrame(similarity, 
                   columns=[f"Doc {i+1}" for i in range(len(corpus))],
                   index=[f"Doc {i+1}" for i in range(len(corpus))]))

### üéØ Exercice 1 : Pr√©traitement

Pr√©traitez le texte suivant :
```
"Le Congo-Kinshasa compte plus de 90 millions d'habitants en 2023. 
C'est un pays riche en ressources naturelles !!!"
```

1. Nettoyez le texte
2. Tokenisez en mots
3. Supprimez les stopwords
4. Lemmatisez avec SpaCy

In [None]:
# Exercice 1 : √Ä vous de jouer !

texte_exercice = """Le Congo-Kinshasa compte plus de 90 millions d'habitants en 2023. 
C'est un pays riche en ressources naturelles !!!"""

# TODO: Pr√©traitez le texte



---

# Chapitre 3 : Word Embeddings <a id="chapitre-3"></a>

## 3.1 Qu'est-ce qu'un Word Embedding ?

Un **word embedding** est une repr√©sentation vectorielle dense d'un mot qui capture son sens s√©mantique.

### Diff√©rence avec BoW/TF-IDF

| M√©thode | Repr√©sentation | Taille | S√©mantique |
|---------|----------------|--------|------------|
| **BoW/TF-IDF** | Sparse (creuse) | Grande | Non |
| **Word Embeddings** | Dense | Petite (50-300) | Oui |

### Mod√®les populaires

- **Word2Vec** (Google, 2013)
- **GloVe** (Stanford, 2014)
- **FastText** (Facebook, 2016)

## 3.2 Utiliser des embeddings pr√©-entra√Æn√©s

In [None]:
# Utiliser SpaCy pour les embeddings
mots_test = ["roi", "reine", "homme", "femme", "√©cole", "universit√©"]

print("üî¢ WORD EMBEDDINGS")
print("=" * 60)

for mot in mots_test:
    token = nlp(mot)
    vector = token[0].vector
    print(f"{mot:<15} ‚Üí Vecteur de dimension {len(vector)}")
    print(f"  Premiers √©l√©ments : {vector[:5]}")

## 3.3 Similarit√© s√©mantique

In [None]:
# Calculer la similarit√© entre mots
def similarite_mots(mot1, mot2):
    """Calcule la similarit√© entre deux mots"""
    token1 = nlp(mot1)
    token2 = nlp(mot2)
    return token1.similarity(token2)

print("üîó SIMILARIT√â S√âMANTIQUE")
print("=" * 60)

paires = [
    ("roi", "reine"),
    ("homme", "femme"),
    ("√©cole", "universit√©"),
    ("Kinshasa", "Lubumbashi"),
    ("roi", "√©cole"),
]

for mot1, mot2 in paires:
    sim = similarite_mots(mot1, mot2)
    print(f"{mot1:<15} ‚Üî {mot2:<15} : {sim:.3f}")

### üéØ Exercice 2 : Word Embeddings

1. Calculez la similarit√© entre : "m√©decin" et "infirmier"
2. Trouvez quel mot est le plus similaire √† "enseignant" : "professeur" ou "banane"
3. Calculez la similarit√© entre "Kinshasa" et "capitale"

In [None]:
# Exercice 2 : √Ä vous de jouer !

# TODO: Calculez les similarit√©s



---

# Chapitre 4 : Transformers <a id="chapitre-4"></a>

## 4.1 Qu'est-ce qu'un Transformer ?

Les **Transformers** sont des mod√®les de deep learning bas√©s sur le m√©canisme d'**attention** qui r√©volutionnent le NLP.

### Mod√®les populaires

| Mod√®le | Cr√©ateur | Ann√©e | Usage |
|--------|----------|-------|-------|
| **BERT** | Google | 2018 | Compr√©hension |
| **GPT** | OpenAI | 2018 | G√©n√©ration |
| **T5** | Google | 2019 | Universel |
| **RoBERTa** | Facebook | 2019 | Compr√©hension |
| **CamemBERT** | INRIA | 2019 | Fran√ßais |

## 4.2 Utiliser Hugging Face Transformers

In [None]:
# Analyse de sentiments
sentiment_analyzer = pipeline("sentiment-analysis", model="nlptown/bert-base-multilingual-uncased-sentiment")

textes = [
    "J'adore ce cours d'intelligence artificielle !",
    "Ce module est tr√®s difficile et ennuyeux.",
    "L'√©ducation en RDC s'am√©liore chaque ann√©e."
]

print("üòä ANALYSE DE SENTIMENTS")
print("=" * 60)

for texte in textes:
    result = sentiment_analyzer(texte)[0]
    print(f"\nTexte : {texte}")
    print(f"Sentiment : {result['label']} (confiance: {result['score']:.2%})")

In [None]:
# Classification de texte
classifier = pipeline("zero-shot-classification", model="facebook/bart-large-mnli")

texte = "L'universit√© de Kinshasa propose des cours d'intelligence artificielle."
categories = ["√©ducation", "sant√©", "agriculture", "technologie"]

result = classifier(texte, categories)

print("\nüè∑Ô∏è CLASSIFICATION ZERO-SHOT")
print("=" * 60)
print(f"Texte : {texte}\n")
for label, score in zip(result['labels'], result['scores']):
    print(f"{label:<15} : {score:.2%}")

## 4.3 Traduction

In [None]:
# Traduction fran√ßais ‚Üí anglais
translator = pipeline("translation", model="Helsinki-NLP/opus-mt-fr-en")

textes_fr = [
    "Bonjour, comment allez-vous ?",
    "L'intelligence artificielle transforme l'√©ducation en RDC.",
    "Je suis √©tudiant √† Kinshasa."
]

print("üåç TRADUCTION FRAN√áAIS ‚Üí ANGLAIS")
print("=" * 60)

for texte_fr in textes_fr:
    result = translator(texte_fr)[0]
    print(f"\nFR : {texte_fr}")
    print(f"EN : {result['translation_text']}")

### üéØ Exercice 3 : Transformers

1. Analysez le sentiment de : "Ce tutoriel est excellent et tr√®s utile !"
2. Classifiez : "Le paludisme est une maladie grave en Afrique."
3. Traduisez en anglais : "J'√©tudie le machine learning."

In [None]:
# Exercice 3 : √Ä vous de jouer !

# TODO: Utilisez les pipelines Hugging Face



---

# Chapitre 5 : Applications en RDC <a id="chapitre-5"></a>

## 5.1 Chatbot √©ducatif simple

In [None]:
# Chatbot bas√© sur des r√®gles
class ChatbotEducatif:
    def __init__(self):
        self.reponses = {
            "bonjour": "Bonjour ! Comment puis-je vous aider aujourd'hui ?",
            "ia": "L'intelligence artificielle est la simulation de l'intelligence humaine par des machines.",
            "machine learning": "Le machine learning est une branche de l'IA qui permet aux ordinateurs d'apprendre √† partir de donn√©es.",
            "python": "Python est un langage de programmation populaire pour l'IA et le data science.",
            "cours": "Nous proposons des cours en Data Science, Deep Learning, IA G√©n√©rative, MLOps et NLP.",
            "merci": "De rien ! N'h√©sitez pas si vous avez d'autres questions.",
            "au revoir": "Au revoir ! Bon apprentissage !"
        }
    
    def repondre(self, message):
        """G√©n√®re une r√©ponse"""
        message = message.lower()
        
        for mot_cle, reponse in self.reponses.items():
            if mot_cle in message:
                return reponse
        
        return "Je ne comprends pas votre question. Pouvez-vous reformuler ?"

# Test du chatbot
chatbot = ChatbotEducatif()

print("ü§ñ CHATBOT √âDUCATIF")
print("=" * 60)

questions = [
    "Bonjour",
    "Qu'est-ce que l'IA ?",
    "Parlez-moi du machine learning",
    "Quels cours proposez-vous ?",
    "Merci beaucoup"
]

for question in questions:
    reponse = chatbot.repondre(question)
    print(f"\nüë§ Utilisateur : {question}")
    print(f"ü§ñ Chatbot : {reponse}")

## 5.2 Analyse de textes administratifs

In [None]:
# Extraction d'entit√©s nomm√©es
texte_admin = """Le Minist√®re de l'√âducation de la R√©publique D√©mocratique du Congo 
annonce l'ouverture de 50 nouvelles √©coles √† Kinshasa en 2025. 
Le ministre Jean Mukendi a d√©clar√© que le budget allou√© est de 10 millions de dollars."""

doc = nlp(texte_admin)

print("üèõÔ∏è EXTRACTION D'ENTIT√âS NOMM√âES")
print("=" * 60)
print(f"Texte : {texte_admin}\n")
print(f"{'Entit√©':<30} {'Type'}")
print("-" * 60)

for ent in doc.ents:
    print(f"{ent.text:<30} {ent.label_}")

### üéØ Exercice 4 : Applications RDC

1. Am√©liorez le chatbot avec 5 nouvelles questions/r√©ponses
2. Extrayez les entit√©s de ce texte :
   "L'Universit√© de Lubumbashi organise une conf√©rence sur l'IA le 15 mars 2025."

In [None]:
# Exercice 4 : √Ä vous de jouer !

# TODO: Am√©liorez le chatbot et extrayez les entit√©s



---

# Chapitre 6 : Projet final <a id="chapitre-6"></a>

## üéØ Objectif

Cr√©er un **chatbot √©ducatif intelligent** pour r√©pondre aux questions d'√©tudiants.

## Sp√©cifications

1. **Base de connaissances** : 20+ questions/r√©ponses
2. **Pr√©traitement** : Nettoyage et normalisation
3. **Similarit√©** : TF-IDF + cosine similarity
4. **R√©ponse** : Trouver la meilleure r√©ponse
5. **Interface** : Simple et fonctionnelle

## Impl√©mentation

In [None]:
# Base de connaissances
faq = [
    {"question": "Qu'est-ce que l'intelligence artificielle ?",
     "reponse": "L'IA est la simulation de l'intelligence humaine par des machines."},
    {"question": "Comment apprendre le machine learning ?",
     "reponse": "Commencez par Python, les math√©matiques, puis pratiquez avec des projets."},
    {"question": "Quels sont les pr√©requis pour ce cours ?",
     "reponse": "Python, bases de math√©matiques et motivation pour apprendre."},
    {"question": "Combien de temps dure la formation ?",
     "reponse": "La formation compl√®te dure environ 6 mois avec 20h de cours par semaine."},
    {"question": "Y a-t-il des certificats ?",
     "reponse": "Oui, vous recevez un certificat apr√®s avoir termin√© tous les modules."}
]

# Pr√©parer les questions
questions = [item["question"] for item in faq]
reponses = [item["reponse"] for item in faq]

# Vectoriser
vectorizer = TfidfVectorizer()
questions_vectorized = vectorizer.fit_transform(questions)

def chatbot_intelligent(question_utilisateur):
    """Trouve la meilleure r√©ponse"""
    # Vectoriser la question
    question_vec = vectorizer.transform([question_utilisateur])
    
    # Calculer similarit√©
    similarities = cosine_similarity(question_vec, questions_vectorized)[0]
    
    # Trouver la meilleure correspondance
    best_idx = similarities.argmax()
    best_score = similarities[best_idx]
    
    # Seuil de confiance
    if best_score > 0.3:
        return reponses[best_idx], best_score
    else:
        return "Je ne suis pas s√ªr de comprendre. Pouvez-vous reformuler ?", 0.0

# Test
print("ü§ñ CHATBOT INTELLIGENT")
print("=" * 60)

questions_test = [
    "C'est quoi l'IA ?",
    "Je veux apprendre le ML, comment faire ?",
    "Quelle est la dur√©e de la formation ?",
    "Est-ce que je peux avoir un dipl√¥me ?"
]

for q in questions_test:
    reponse, score = chatbot_intelligent(q)
    print(f"\nüë§ : {q}")
    print(f"ü§ñ : {reponse}")
    print(f"   (confiance: {score:.2%})")

### üéØ Exercice 5 : Projet final

Am√©liorez le chatbot :
1. Ajoutez 15 nouvelles questions/r√©ponses
2. Am√©liorez le pr√©traitement
3. Ajustez le seuil de confiance
4. Testez avec vos propres questions
5. Cr√©ez une interface simple

In [None]:
# Exercice 5 : Projet final - √Ä vous de jouer !

# TODO: Cr√©ez votre chatbot am√©lior√©



---

## üéì R√©sum√© du module

### Ce que vous avez appris

1. **NLP** : D√©finition et applications
2. **Pr√©traitement** : Nettoyage, tokenisation, vectorisation
3. **Word Embeddings** : Repr√©sentations s√©mantiques
4. **Transformers** : BERT, GPT, Hugging Face
5. **Applications RDC** : Chatbots, traduction, analyse
6. **Projet** : Chatbot √©ducatif intelligent

### Comp√©tences acquises

- ‚úÖ Pr√©traiter des textes
- ‚úÖ Vectoriser avec TF-IDF
- ‚úÖ Utiliser word embeddings
- ‚úÖ Appliquer des Transformers
- ‚úÖ Cr√©er des chatbots
- ‚úÖ Analyser des textes

### Prochaines √©tapes

1. **Approfondir** : Fine-tuning, RAG, LangChain
2. **Pratiquer** : Plus de projets
3. **D√©ployer** : APIs de chatbots

---

**F√©licitations ! Module NLP termin√© ! üéâ**