# Module NLP - Formation Complète

## Plateforme IA-Solution RDC

---

### 🎯 Objectifs du module

À la fin de ce module, vous serez capable de :
- Comprendre les bases du traitement du langage naturel
- Prétraiter et nettoyer des textes
- Utiliser des modèles classiques (TF-IDF) et modernes (Transformers)
- Créer des applications NLP pour la RDC
- Construire un chatbot simple

**Niveau :** Intermédiaire  
**Prérequis :** Python, Machine Learning, Deep Learning  
**Durée :** 6 semaines

---

## 📚 Table des matières

1. [Introduction au NLP](#chapitre-1)
2. [Prétraitement du texte](#chapitre-2)
3. [Word Embeddings](#chapitre-3)
4. [Transformers](#chapitre-4)
5. [Applications en RDC](#chapitre-5)
6. [Projet final : Chatbot](#chapitre-6)

In [None]:
# Installation des bibliothèques
!pip install nltk spacy transformers torch scikit-learn -q
!python -m spacy download fr_core_news_sm -q

print("✅ Bibliothèques installées !")

In [None]:
# Imports
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import re
import string

# NLTK
import nltk
nltk.download('punkt', quiet=True)
nltk.download('stopwords', quiet=True)
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords

# SpaCy
import spacy
nlp = spacy.load('fr_core_news_sm')

# Scikit-learn
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# Transformers
from transformers import pipeline, AutoTokenizer, AutoModel

print("✅ Imports terminés !")

---

# Chapitre 1 : Introduction au NLP <a id="chapitre-1"></a>

## 1.1 Qu'est-ce que le NLP ?

Le **NLP** (Natural Language Processing) ou **TALN** (Traitement Automatique du Langage Naturel) est le domaine de l'IA qui permet aux ordinateurs de comprendre, interpréter et générer du langage humain.

### Applications courantes

1. **Traduction automatique** : Google Translate
2. **Assistants vocaux** : Siri, Alexa
3. **Analyse de sentiments** : Avis clients
4. **Chatbots** : Service client
5. **Résumé automatique** : Articles de presse
6. **Correction orthographique** : Word, Gmail

## 1.2 Applications en RDC

### 📚 **Éducation**
- Chatbots pour répondre aux questions d'étudiants
- Correction automatique de devoirs
- Traduction de cours en langues locales

### 🏛️ **Administration**
- Analyse de documents administratifs
- Classification automatique de courriers
- Extraction d'informations

### 💬 **Communication**
- Traduction français ↔ lingala/swahili
- Analyse de réseaux sociaux
- Modération de contenus

### 🏥 **Santé**
- Analyse de dossiers médicaux
- Chatbot de premiers secours
- Extraction de symptômes

---

# Chapitre 2 : Prétraitement du texte <a id="chapitre-2"></a>

## 2.1 Étapes du prétraitement

```
Texte brut
    ↓
1. Nettoyage (ponctuation, chiffres)
    ↓
2. Tokenisation (découpage en mots)
    ↓
3. Normalisation (minuscules)
    ↓
4. Suppression des stopwords
    ↓
5. Lemmatisation/Stemming
    ↓
Texte prétraité
```

## 2.2 Nettoyage

In [None]:
# Exemple de texte
texte = """Bonjour ! Je m'appelle Jean et j'habite à Kinshasa, RDC. 
J'étudie l'intelligence artificielle depuis 2023. C'est passionnant !!!"""

print("📝 TEXTE ORIGINAL")
print("=" * 60)
print(texte)

# Fonction de nettoyage
def nettoyer_texte(texte):
    """Nettoie un texte"""
    # Minuscules
    texte = texte.lower()
    
    # Supprimer la ponctuation
    texte = texte.translate(str.maketrans('', '', string.punctuation))
    
    # Supprimer les chiffres
    texte = re.sub(r'\d+', '', texte)
    
    # Supprimer les espaces multiples
    texte = re.sub(r'\s+', ' ', texte).strip()
    
    return texte

texte_nettoye = nettoyer_texte(texte)

print("\n🧹 TEXTE NETTOYÉ")
print("=" * 60)
print(texte_nettoye)

## 2.3 Tokenisation

In [None]:
# Tokenisation en phrases
phrases = sent_tokenize(texte, language='french')

print("📄 TOKENISATION EN PHRASES")
print("=" * 60)
for i, phrase in enumerate(phrases, 1):
    print(f"{i}. {phrase}")

# Tokenisation en mots
mots = word_tokenize(texte_nettoye, language='french')

print("\n🔤 TOKENISATION EN MOTS")
print("=" * 60)
print(f"Nombre de mots : {len(mots)}")
print(f"Mots : {mots}")

## 2.4 Suppression des stopwords

In [None]:
# Charger les stopwords français
stop_words = set(stopwords.words('french'))

print("🚫 STOPWORDS FRANÇAIS (exemples)")
print("=" * 60)
print(list(stop_words)[:20])

# Filtrer les stopwords
mots_filtres = [mot for mot in mots if mot not in stop_words]

print("\n✅ MOTS APRÈS FILTRAGE")
print("=" * 60)
print(f"Avant : {len(mots)} mots")
print(f"Après : {len(mots_filtres)} mots")
print(f"Mots conservés : {mots_filtres}")

## 2.5 Lemmatisation avec SpaCy

In [None]:
# Exemple de lemmatisation
texte_exemple = "Les étudiants étudient l'intelligence artificielle dans les universités."

doc = nlp(texte_exemple)

print("🔍 LEMMATISATION")
print("=" * 60)
print(f"{'Mot':<20} {'Lemme':<20} {'POS'}")
print("-" * 60)
for token in doc:
    print(f"{token.text:<20} {token.lemma_:<20} {token.pos_}")

## 2.6 Vectorisation

### Bag-of-Words (BoW)

In [None]:
# Corpus d'exemple
corpus = [
    "L'éducation est importante en RDC",
    "L'intelligence artificielle transforme l'éducation",
    "La RDC investit dans l'éducation"
]

# Bag-of-Words
vectorizer_bow = CountVectorizer()
X_bow = vectorizer_bow.fit_transform(corpus)

print("📊 BAG-OF-WORDS")
print("=" * 60)
print(f"Vocabulaire : {vectorizer_bow.get_feature_names_out()}")
print(f"\nMatrice BoW :")
print(X_bow.toarray())

# Afficher sous forme de DataFrame
df_bow = pd.DataFrame(
    X_bow.toarray(),
    columns=vectorizer_bow.get_feature_names_out()
)
print("\nDataFrame :")
print(df_bow)

### TF-IDF

In [None]:
# TF-IDF
vectorizer_tfidf = TfidfVectorizer()
X_tfidf = vectorizer_tfidf.fit_transform(corpus)

print("📈 TF-IDF")
print("=" * 60)

df_tfidf = pd.DataFrame(
    X_tfidf.toarray(),
    columns=vectorizer_tfidf.get_feature_names_out()
)
print(df_tfidf)

# Similarité cosinus
similarity = cosine_similarity(X_tfidf)

print("\n🔗 SIMILARITÉ ENTRE DOCUMENTS")
print("=" * 60)
print(pd.DataFrame(similarity, 
                   columns=[f"Doc {i+1}" for i in range(len(corpus))],
                   index=[f"Doc {i+1}" for i in range(len(corpus))]))

### 🎯 Exercice 1 : Prétraitement

Prétraitez le texte suivant :
```
"Le Congo-Kinshasa compte plus de 90 millions d'habitants en 2023. 
C'est un pays riche en ressources naturelles !!!"
```

1. Nettoyez le texte
2. Tokenisez en mots
3. Supprimez les stopwords
4. Lemmatisez avec SpaCy

In [None]:
# Exercice 1 : À vous de jouer !

texte_exercice = """Le Congo-Kinshasa compte plus de 90 millions d'habitants en 2023. 
C'est un pays riche en ressources naturelles !!!"""

# TODO: Prétraitez le texte



---

# Chapitre 3 : Word Embeddings <a id="chapitre-3"></a>

## 3.1 Qu'est-ce qu'un Word Embedding ?

Un **word embedding** est une représentation vectorielle dense d'un mot qui capture son sens sémantique.

### Différence avec BoW/TF-IDF

| Méthode | Représentation | Taille | Sémantique |
|---------|----------------|--------|------------|
| **BoW/TF-IDF** | Sparse (creuse) | Grande | Non |
| **Word Embeddings** | Dense | Petite (50-300) | Oui |

### Modèles populaires

- **Word2Vec** (Google, 2013)
- **GloVe** (Stanford, 2014)
- **FastText** (Facebook, 2016)

## 3.2 Utiliser des embeddings pré-entraînés

In [None]:
# Utiliser SpaCy pour les embeddings
mots_test = ["roi", "reine", "homme", "femme", "école", "université"]

print("🔢 WORD EMBEDDINGS")
print("=" * 60)

for mot in mots_test:
    token = nlp(mot)
    vector = token[0].vector
    print(f"{mot:<15} → Vecteur de dimension {len(vector)}")
    print(f"  Premiers éléments : {vector[:5]}")

## 3.3 Similarité sémantique

In [None]:
# Calculer la similarité entre mots
def similarite_mots(mot1, mot2):
    """Calcule la similarité entre deux mots"""
    token1 = nlp(mot1)
    token2 = nlp(mot2)
    return token1.similarity(token2)

print("🔗 SIMILARITÉ SÉMANTIQUE")
print("=" * 60)

paires = [
    ("roi", "reine"),
    ("homme", "femme"),
    ("école", "université"),
    ("Kinshasa", "Lubumbashi"),
    ("roi", "école"),
]

for mot1, mot2 in paires:
    sim = similarite_mots(mot1, mot2)
    print(f"{mot1:<15} ↔ {mot2:<15} : {sim:.3f}")

### 🎯 Exercice 2 : Word Embeddings

1. Calculez la similarité entre : "médecin" et "infirmier"
2. Trouvez quel mot est le plus similaire à "enseignant" : "professeur" ou "banane"
3. Calculez la similarité entre "Kinshasa" et "capitale"

In [None]:
# Exercice 2 : À vous de jouer !

# TODO: Calculez les similarités



---

# Chapitre 4 : Transformers <a id="chapitre-4"></a>

## 4.1 Qu'est-ce qu'un Transformer ?

Les **Transformers** sont des modèles de deep learning basés sur le mécanisme d'**attention** qui révolutionnent le NLP.

### Modèles populaires

| Modèle | Créateur | Année | Usage |
|--------|----------|-------|-------|
| **BERT** | Google | 2018 | Compréhension |
| **GPT** | OpenAI | 2018 | Génération |
| **T5** | Google | 2019 | Universel |
| **RoBERTa** | Facebook | 2019 | Compréhension |
| **CamemBERT** | INRIA | 2019 | Français |

## 4.2 Utiliser Hugging Face Transformers

In [None]:
# Analyse de sentiments
sentiment_analyzer = pipeline("sentiment-analysis", model="nlptown/bert-base-multilingual-uncased-sentiment")

textes = [
    "J'adore ce cours d'intelligence artificielle !",
    "Ce module est très difficile et ennuyeux.",
    "L'éducation en RDC s'améliore chaque année."
]

print("😊 ANALYSE DE SENTIMENTS")
print("=" * 60)

for texte in textes:
    result = sentiment_analyzer(texte)[0]
    print(f"\nTexte : {texte}")
    print(f"Sentiment : {result['label']} (confiance: {result['score']:.2%})")

In [None]:
# Classification de texte
classifier = pipeline("zero-shot-classification", model="facebook/bart-large-mnli")

texte = "L'université de Kinshasa propose des cours d'intelligence artificielle."
categories = ["éducation", "santé", "agriculture", "technologie"]

result = classifier(texte, categories)

print("\n🏷️ CLASSIFICATION ZERO-SHOT")
print("=" * 60)
print(f"Texte : {texte}\n")
for label, score in zip(result['labels'], result['scores']):
    print(f"{label:<15} : {score:.2%}")

## 4.3 Traduction

In [None]:
# Traduction français → anglais
translator = pipeline("translation", model="Helsinki-NLP/opus-mt-fr-en")

textes_fr = [
    "Bonjour, comment allez-vous ?",
    "L'intelligence artificielle transforme l'éducation en RDC.",
    "Je suis étudiant à Kinshasa."
]

print("🌍 TRADUCTION FRANÇAIS → ANGLAIS")
print("=" * 60)

for texte_fr in textes_fr:
    result = translator(texte_fr)[0]
    print(f"\nFR : {texte_fr}")
    print(f"EN : {result['translation_text']}")

### 🎯 Exercice 3 : Transformers

1. Analysez le sentiment de : "Ce tutoriel est excellent et très utile !"
2. Classifiez : "Le paludisme est une maladie grave en Afrique."
3. Traduisez en anglais : "J'étudie le machine learning."

In [None]:
# Exercice 3 : À vous de jouer !

# TODO: Utilisez les pipelines Hugging Face



---

# Chapitre 5 : Applications en RDC <a id="chapitre-5"></a>

## 5.1 Chatbot éducatif simple

In [None]:
# Chatbot basé sur des règles
class ChatbotEducatif:
    def __init__(self):
        self.reponses = {
            "bonjour": "Bonjour ! Comment puis-je vous aider aujourd'hui ?",
            "ia": "L'intelligence artificielle est la simulation de l'intelligence humaine par des machines.",
            "machine learning": "Le machine learning est une branche de l'IA qui permet aux ordinateurs d'apprendre à partir de données.",
            "python": "Python est un langage de programmation populaire pour l'IA et le data science.",
            "cours": "Nous proposons des cours en Data Science, Deep Learning, IA Générative, MLOps et NLP.",
            "merci": "De rien ! N'hésitez pas si vous avez d'autres questions.",
            "au revoir": "Au revoir ! Bon apprentissage !"
        }
    
    def repondre(self, message):
        """Génère une réponse"""
        message = message.lower()
        
        for mot_cle, reponse in self.reponses.items():
            if mot_cle in message:
                return reponse
        
        return "Je ne comprends pas votre question. Pouvez-vous reformuler ?"

# Test du chatbot
chatbot = ChatbotEducatif()

print("🤖 CHATBOT ÉDUCATIF")
print("=" * 60)

questions = [
    "Bonjour",
    "Qu'est-ce que l'IA ?",
    "Parlez-moi du machine learning",
    "Quels cours proposez-vous ?",
    "Merci beaucoup"
]

for question in questions:
    reponse = chatbot.repondre(question)
    print(f"\n👤 Utilisateur : {question}")
    print(f"🤖 Chatbot : {reponse}")

## 5.2 Analyse de textes administratifs

In [None]:
# Extraction d'entités nommées
texte_admin = """Le Ministère de l'Éducation de la République Démocratique du Congo 
annonce l'ouverture de 50 nouvelles écoles à Kinshasa en 2025. 
Le ministre Jean Mukendi a déclaré que le budget alloué est de 10 millions de dollars."""

doc = nlp(texte_admin)

print("🏛️ EXTRACTION D'ENTITÉS NOMMÉES")
print("=" * 60)
print(f"Texte : {texte_admin}\n")
print(f"{'Entité':<30} {'Type'}")
print("-" * 60)

for ent in doc.ents:
    print(f"{ent.text:<30} {ent.label_}")

### 🎯 Exercice 4 : Applications RDC

1. Améliorez le chatbot avec 5 nouvelles questions/réponses
2. Extrayez les entités de ce texte :
   "L'Université de Lubumbashi organise une conférence sur l'IA le 15 mars 2025."

In [None]:
# Exercice 4 : À vous de jouer !

# TODO: Améliorez le chatbot et extrayez les entités



---

# Chapitre 6 : Projet final <a id="chapitre-6"></a>

## 🎯 Objectif

Créer un **chatbot éducatif intelligent** pour répondre aux questions d'étudiants.

## Spécifications

1. **Base de connaissances** : 20+ questions/réponses
2. **Prétraitement** : Nettoyage et normalisation
3. **Similarité** : TF-IDF + cosine similarity
4. **Réponse** : Trouver la meilleure réponse
5. **Interface** : Simple et fonctionnelle

## Implémentation

In [None]:
# Base de connaissances
faq = [
    {"question": "Qu'est-ce que l'intelligence artificielle ?",
     "reponse": "L'IA est la simulation de l'intelligence humaine par des machines."},
    {"question": "Comment apprendre le machine learning ?",
     "reponse": "Commencez par Python, les mathématiques, puis pratiquez avec des projets."},
    {"question": "Quels sont les prérequis pour ce cours ?",
     "reponse": "Python, bases de mathématiques et motivation pour apprendre."},
    {"question": "Combien de temps dure la formation ?",
     "reponse": "La formation complète dure environ 6 mois avec 20h de cours par semaine."},
    {"question": "Y a-t-il des certificats ?",
     "reponse": "Oui, vous recevez un certificat après avoir terminé tous les modules."}
]

# Préparer les questions
questions = [item["question"] for item in faq]
reponses = [item["reponse"] for item in faq]

# Vectoriser
vectorizer = TfidfVectorizer()
questions_vectorized = vectorizer.fit_transform(questions)

def chatbot_intelligent(question_utilisateur):
    """Trouve la meilleure réponse"""
    # Vectoriser la question
    question_vec = vectorizer.transform([question_utilisateur])
    
    # Calculer similarité
    similarities = cosine_similarity(question_vec, questions_vectorized)[0]
    
    # Trouver la meilleure correspondance
    best_idx = similarities.argmax()
    best_score = similarities[best_idx]
    
    # Seuil de confiance
    if best_score > 0.3:
        return reponses[best_idx], best_score
    else:
        return "Je ne suis pas sûr de comprendre. Pouvez-vous reformuler ?", 0.0

# Test
print("🤖 CHATBOT INTELLIGENT")
print("=" * 60)

questions_test = [
    "C'est quoi l'IA ?",
    "Je veux apprendre le ML, comment faire ?",
    "Quelle est la durée de la formation ?",
    "Est-ce que je peux avoir un diplôme ?"
]

for q in questions_test:
    reponse, score = chatbot_intelligent(q)
    print(f"\n👤 : {q}")
    print(f"🤖 : {reponse}")
    print(f"   (confiance: {score:.2%})")

### 🎯 Exercice 5 : Projet final

Améliorez le chatbot :
1. Ajoutez 15 nouvelles questions/réponses
2. Améliorez le prétraitement
3. Ajustez le seuil de confiance
4. Testez avec vos propres questions
5. Créez une interface simple

In [None]:
# Exercice 5 : Projet final - À vous de jouer !

# TODO: Créez votre chatbot amélioré



---

## 🎓 Résumé du module

### Ce que vous avez appris

1. **NLP** : Définition et applications
2. **Prétraitement** : Nettoyage, tokenisation, vectorisation
3. **Word Embeddings** : Représentations sémantiques
4. **Transformers** : BERT, GPT, Hugging Face
5. **Applications RDC** : Chatbots, traduction, analyse
6. **Projet** : Chatbot éducatif intelligent

### Compétences acquises

- ✅ Prétraiter des textes
- ✅ Vectoriser avec TF-IDF
- ✅ Utiliser word embeddings
- ✅ Appliquer des Transformers
- ✅ Créer des chatbots
- ✅ Analyser des textes

### Prochaines étapes

1. **Approfondir** : Fine-tuning, RAG, LangChain
2. **Pratiquer** : Plus de projets
3. **Déployer** : APIs de chatbots

---

**Félicitations ! Module NLP terminé ! 🎉**