# ü§ñ Chatbot d'Orientation Scolaire avec NLTK et Transformers
Ce notebook montre comment cr√©er un chatbot qui r√©pond aux questions d'orientation scolaire en utilisant **NLTK, TF-IDF et un mod√®le Transformers**.

Ce code importe et configure plusieurs biblioth√®ques essentielles pour le traitement du langage naturel (NLP). Voici une explication d√©taill√©e de chaque partie :

## üìå 1. Importation des biblioth√®ques

Nous aurons besoin des biblioth√®ques suivantes :

*   pandas : utilis√© pour manipuler des donn√©es sous forme de tableaux(DataFrame).
*  nltk (Natural Language Toolkit) : une biblioth√®que puissante pour le NLP.
*   word_tokenize : permet de diviser un texte en mots individuels (tokenisation).
*   stopwords : contient une liste de mots courants √† exclure (comme "le","et", "de", etc.).
*   TfidfVectorizer (de sklearn.feature_extraction.text) : convertit un texte en repr√©sentation num√©rique en utilisant la pond√©ration TF-IDF.
*   cosine_similarity (de sklearn.metrics.pairwise) : mesure la similarit√© entre deux textes sur la base de leurs repr√©sentations num√©riques.
*   pipeline (de transformers) : permet d'utiliser facilement des mod√®les de deep learning pour le NLP, comme ceux de Hugging Face.


In [37]:

import pandas as pd
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from transformers import pipeline

# T√©l√©charger les ressources NLTK n√©cessaires
nltk.download('punkt')
nltk.download('stopwords')


[nltk_data] Downloading package punkt to
[nltk_data]     /Users/rayenhaddad/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/rayenhaddad/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

## üìå 2. Chargement du dataset
Nous allons utiliser pandas pour charger un dataset contenant du texte. Ce dataset peut √™tre sous forme de CSV, JSON ou TXT, selon le type de t√¢che que nous souhaitons effectuer.

Pour une premi√®re visualisation, pensez √† telecharger
[dataset](https://https://drive.google.com/file/d/1DZPS5Vtq0Cs0qZCUXJXv8FE80GDaSN2-/view?usp=drive_link) proposer.

Vous pourrez le modifier suite √† votre enrichissement de donn√©es.

Pensez √† visualiser le dataset avant de lancer votre mod√®le dessus.

In [38]:

# Charger le dataset
import requests


df = pd.read_csv("../../data/dataset_orientation_scolaire.csv")


# df = pd.read_csv("/content/questions_orientation_scolaire.csv") # √† modifier avec votre dataset suite √† l'enrichissement des donn√©es.

# Afficher les premi√®res lignes
df.head()


Unnamed: 0,Question,R√©ponse
0,Quels sont les m√©tiers du num√©rique ?,Les m√©tiers du num√©rique incluent d√©veloppeur ...
1,Quelles comp√©tences sont requises pour devenir...,"Ma√Ætrise des langages HTML, CSS, JavaScript, a..."
2,Quels m√©tiers peut-on exercer avec un dipl√¥me ...,"Charg√© de communication, chef de produit, resp..."
3,Quels sont les m√©tiers de la finance ?,"Analyste financier, contr√¥leur de gestion, com..."
4,Comment devenir architecte ?,"Faire un Bac S ou STI2D, puis int√©grer une √©co..."


## üìå 3. Nettoyage et Pr√©-traitement des questions



## üìù Nettoyage de Texte avec NLTK

On va utiliser la biblioth√®que **NLTK** pour nettoyer du texte en fran√ßais. Il effectue les op√©rations suivantes :
- T√©l√©charge et charge la liste des **stopwords** (mots vides) en fran√ßais.
- Tokenise (*d√©coupe*) le texte en mots individuels.
- Supprime les **stopwords** et les caract√®res non alphanum√©riques.
- Impl√©mente une **gestion des erreurs** pour √©viter les probl√®mes li√©s aux ressources NLTK.

Ce pr√©traitement est essentiel pour de nombreuses t√¢ches de Large Language Model ou m√™me NLP

In [39]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

# T√©l√©charger les ressources NLTK n√©cessaires
# TO DO
# ....

# Charger les stopwords fran√ßais
stop_words = set(stopwords.words('french'))  # TO DO: Charger les stopwords de la langue fran√ßaise

# Fonction de nettoyage avec gestion d'erreur
def nettoyer_texte(texte):
    try:
        tokens = word_tokenize(texte.lower())  # Tokenisation avec NLTK
    except LookupError:
        tokens = texte.lower().split()  # Mode de secours en cas d'erreur

    tokens = [mot for mot in tokens if mot.isalnum() and mot not in stop_words]  # Suppression des stopwords et caract√®res sp√©ciaux
    return " ".join(tokens)

# Test du nettoyage
texte_test = "Quels sont les d√©bouch√©s apr√®s le Bac ?"
print(nettoyer_texte(texte_test))

quels d√©bouch√©s apr√®s bac


Que constatez vous ?

In [None]:
# On remarque que les stopwords ne sont plus pr√©sents (tel que sont, le et ?). On comprend encore le sens du texte mais on l'a simplifi√©

Appliquons le √† l'ensemble de notre dataset.

In [40]:
df["Question_clean"] = df["Question"].apply(nettoyer_texte)

## 4. üéØ Objectif : Trouver une R√©ponse √† une Question avec TF-IDF

Dans cette activit√©, nous allons utiliser une **approche classique de NLP (Traitement Automatique du Langage Naturel)** pour associer une question pos√©e par un utilisateur √† la r√©ponse la plus pertinente dans une base de donn√©es.

### üõ† Ce que nous allons faire :
1. **Vectoriser les questions** avec la m√©thode **TF-IDF (Term Frequency - Inverse Document Frequency)** pour les transformer en repr√©sentation num√©rique.
2. **Comparer une nouvelle question** avec celles existantes en calculant la **similarit√© cosinus**.
3. **Identifier la r√©ponse la plus pertinente** en s√©lectionnant la question la plus proche de celle pos√©e.

üí° **Pourquoi cette m√©thode ?**  
Lorsqu'un mod√®le n'est pas encore entra√Æn√© pour comprendre directement les questions et fournir des r√©ponses, **TF-IDF** permet de trouver une correspondance bas√©e sur la proximit√© des mots et leur importance dans le texte.

‚úÖ **√Ä vous de jouer !** Testez le code en posant diff√©rentes questions et observez la r√©ponse retourn√©e. Vous pouvez √©galement modifier la base de donn√©es pour voir comment le mod√®le s‚Äôadapte.


In [41]:
# Vectorisation TF-IDF
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(df["Question_clean"])

def trouver_reponse(question):
    question_clean = nettoyer_texte(question)
    question_tfidf = vectorizer.transform([question_clean])
    similarites = cosine_similarity(question_tfidf, tfidf_matrix)
    index_meilleure = similarites.argmax()
    return df.iloc[index_meilleure]["R√©ponse"]


## 5. üìù Test du Chatbot avec une Question Utilisateur

Ce code permet de tester notre **chatbot bas√© sur TF-IDF** en lui posant une question.  

### üîπ Fonctionnement :
1. **Une question utilisateur est d√©finie**, par exemple :  
   *"Comment int√©grer une √©cole de m√©decine ?"*
2. **La fonction `trouver_reponse()` est appel√©e** pour analyser la question et rechercher la r√©ponse la plus pertinente dans notre base de donn√©es.
3. **Le chatbot affiche la r√©ponse trouv√©e**, bas√©e sur la similarit√© avec les questions existantes.

üí° **Essayez avec diff√©rentes questions et observez les r√©sultats !**  
Vous pouvez √©galement modifier la base de donn√©es pour voir comment cela influence les r√©ponses du chatbot.


In [42]:
# Test du chatbot
question_utilisateur = "Comment devenir architect?"
print("Edu Pilot:", trouver_reponse(question_utilisateur))

Edu Pilot: Faire un Bac S ou STI2D, puis int√©grer une √©cole d'architecture reconnue par l'√âtat. Comp√©tences : cr√©ativit√©, ma√Ætrise des logiciels de CAO, connaissance des mat√©riaux de construction. Exemples d'√©tablissements : ENSAP (Bordeaux, Paris, Lille), √âcole Sp√©ciale d'Architecture (Paris).


In [43]:
# Test du chatbot
question_utilisateur = "Qu'est ce que le m√©tier d'orthophoniste?"
print("Edu Pilot:", trouver_reponse(question_utilisateur))

Edu Pilot: L'orthophoniste √©value et r√©√©duque les troubles de la parole, du langage, de la voix et de la d√©glutition. Il intervient aupr√®s des enfants (retard de langage, dyslexie), des adultes (troubles neurologiques) et des personnes √¢g√©es (troubles de la d√©glutition). Comp√©tences : patience, p√©dagogie, connaissances en linguistique, psychologie et anatomie. Exemples d'√©tablissements : Universit√©s avec un d√©partement d'orthophonie (Paris, Lille, Lyon, Marseille). L'admission se fait par concours tr√®s s√©lectif apr√®s le bac ou via une ann√©e de pr√©paration.


## 6. üíæ Sauvegarde du Mod√®le Chatbot

Ce code permet de **sauvegarder notre mod√®le chatbot** afin de pouvoir le r√©utiliser sans avoir √† recalculer la vectorisation TF-IDF √† chaque ex√©cution.

### üîπ Fonctionnement :
1. **Utilisation de `pickle`**, une biblioth√®que permettant de s√©rialiser (sauvegarder) des objets Python.
2. **Ouverture d'un fichier `chatbot_model.pkl` en mode √©criture binaire (`wb`)**.
3. **Sauvegarde des √©l√©ments cl√©s du mod√®le** :
   - `vectorizer` : le transformateur TF-IDF entra√Æn√©.
   - `tfidf_matrix` : la matrice des questions vectoris√©es.
   - `df` : le dataset utilis√©.

‚úÖ Une fois ce fichier cr√©√©, nous pourrons **charger directement ces objets** dans un autre script sans avoir √† refaire la vectorisation des questions.

üí° **Essayez de modifier la base de donn√©es et de sauvegarder un nouveau mod√®le, puis rechargez-le pour voir les effets des changements !**


In [69]:
import pickle
with open("chatbot_model.pkl", "wb") as f:
    pickle.dump((vectorizer, tfidf_matrix, df), f)

print("‚úÖ Mod√®le chatbot enregistr√© dans 'chatbot_model.pkl'")

‚úÖ Mod√®le chatbot enregistr√© dans 'chatbot_model.pkl'


### 7. Initialtion au Fine_tuning :

Afin d'optimiser le mod√®le, utilisez des mod√®les pr√©-entrain√© du type Mistral de hugging face, sp√©cialiser √† la langue fran√ßaise, ou encore GPT.

Lorsque nous lancerons nos donn√©es enrichies sur ce type de mod√®le LLM, nous appelons cela du Fine_tuning.

In [1]:
# Install PyTorch
%pip install torch

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_name = "microsoft/DialoGPT-small"  # Mets le nom du mod√®le que tu veux utiliser nous utilison DialoGPT-small, vous pouvez tester Mistral ou un autre LLM

# T√©l√©chargement et sauvegarde locale
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Sauvegarde en local
model.save_pretrained("chatbot_model")
tokenizer.save_pretrained("chatbot_model")

print("‚úÖ Mod√®le et tokenizer sauvegard√©s en local dans chatbot_model/")

Collecting torch
  Using cached torch-2.2.2-cp310-none-macosx_10_9_x86_64.whl.metadata (25 kB)
Collecting filelock (from torch)
  Using cached filelock-3.17.0-py3-none-any.whl.metadata (2.9 kB)
Collecting sympy (from torch)
  Using cached sympy-1.13.3-py3-none-any.whl.metadata (12 kB)
Collecting networkx (from torch)
  Using cached networkx-3.4.2-py3-none-any.whl.metadata (6.3 kB)
Collecting jinja2 (from torch)
  Using cached jinja2-3.1.6-py3-none-any.whl.metadata (2.9 kB)
Collecting fsspec (from torch)
  Using cached fsspec-2025.3.0-py3-none-any.whl.metadata (11 kB)
Collecting MarkupSafe>=2.0 (from jinja2->torch)
  Using cached MarkupSafe-3.0.2-cp310-cp310-macosx_10_9_universal2.whl.metadata (4.0 kB)
Collecting mpmath<1.4,>=1.1.0 (from sympy->torch)
  Using cached mpmath-1.3.0-py3-none-any.whl.metadata (8.6 kB)
Using cached torch-2.2.2-cp310-none-macosx_10_9_x86_64.whl (150.8 MB)
Using cached filelock-3.17.0-py3-none-any.whl (16 kB)
Using cached fsspec-2025.3.0-py3-none-any.whl (193 k

ModuleNotFoundError: No module named 'transformers'

Maintenant que vous avez vu comment nous utilisons des mod√®les LLM sur des bases de donn√©es.

A vous d'enrichir votre base de donn√©es avant de lancer le Fine_tuning sur votre dataset lors du prochain sprint.

Votre objectif :
*   Mettre en place une strat√©gie d'enrichissement de la base de donn√©es
*   Ex√©cuter la stat√©gie pour avoir un dataset enrichi au prochain samedi.



