# **Tutoriel sur la Préparation des données textuelles**
**Enseignante:** Asmaa BENGUEDDACH

**Niveau:** Master

**Durée:** (3 heures)

## **Partie 1 :Préparation des données textuelles**

## **Pourquoi préparer les données ?**
- Les textes bruts contiennent du bruit (ponctuation, majuscules, etc.).
- Objectif : Préparer un texte utilisable pour :
  - Analyse.
  - Machine Learning.

## **Concepts clés**
1. **Nettoyage :** Retirer ponctuation, espaces inutiles, etc.
2. **Tokenisation :** Découper un texte en mots (tokens).
3. **Lemmatisation :** Réduire les mots à leur forme de base.
4. **Stopwords :** Retirer les mots fréquents mais inutiles ("et", "le").

### 1. Nettoyage
- Conversion en minuscules.
- Suppression de la ponctuation et des caractères inutiles.

In [9]:
# Exemple de texte
text = "Bonjour! Le ciel est bleu, mais il peut pleuvoir aujourd'hui."

# 1. Nettoyage
# Supprimer la ponctuation et mettre en minuscules
text_cleaned = re.sub(r'[^a-zA-Z\s]', '', text.lower())  # Retirer tout sauf lettres et espaces
print("Nettoyage :", text_cleaned)


Nettoyage : bonjour le ciel est bleu mais il peut pleuvoir aujourdhui


**Explication:**
- On supprime la ponctuation et on convertit le texte en minuscules pour uniformiser les données.
- Exemple de transformation : "Bonjour! Le ciel est bleu..." devient "bonjour le ciel est bleu ...".

### 2. Tokenisation
Découper le texte en mots.

In [10]:
# 2. Tokenisation
# Diviser le texte nettoyé en tokens
doc = nlp(text_cleaned)
tokens = [token.text for token in doc]
print("Tokenisation :", tokens)

Tokenisation : ['bonjour', 'le', 'ciel', 'est', 'bleu', 'mais', 'il', 'peut', 'pleuvoir', 'aujourdhui']


**Explication :**
- Le texte nettoyé est divisé en mots (tokens). Cela transforme "bonjour le ciel est bleu" en une liste de mots : ["bonjour", "le", "ciel", "est", "bleu"].

### 3. Lemmatisation
- But : Réduire un mot à sa forme de base ou à son lemme.
- Pourquoi ? Pour normaliser les mots afin qu'ils aient la même forme de base et soient mieux analysés.

In [5]:
#!pip install spacy
#!python -m spacy download fr_core_news_sm

Collecting fr-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/fr_core_news_sm-3.7.0/fr_core_news_sm-3.7.0-py3-none-any.whl (16.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m16.3/16.3 MB[0m [31m69.7 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: fr-core-news-sm
Successfully installed fr-core-news-sm-3.7.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('fr_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [11]:
# 3. Lemmatisation
# Appliquer la lemmatisation : réduire chaque mot à sa forme de base
lemmas = [token.lemma_ for token in doc]
print("Lemmatisation :", lemmas)

Lemmatisation : ['bonjour', 'le', 'ciel', 'être', 'bleu', 'mais', 'il', 'pouvoir', 'pleuvoir', 'aujourdhui']


**Explication :**
  - `est` devient `être` (forme de base).
  - `peut` devient `pouvoir` (forme de base).
  - `bleu` reste `bleu` car il n'a pas de variation.


### 4. Stopwords
- **But :** Supprimer les mots très fréquents qui n'ajoutent pas de sens pertinent à l'analyse.
- **Exemple :**
  - "le", "la", "et", "de", "en" (mots de fonction).
- **Pourquoi ?** Ces mots sont très courants, mais n'apportent aucune information utile pour les tâches de traitement de texte (analyse de sentiment, recherche d'information, etc.).

In [12]:
# 4. Suppression des stopwords
# Enlever les mots de type stopwords
stopwords_removed = [token.lemma_ for token in doc if not token.is_stop]
print("Stopwords supprimés :", stopwords_removed)

Stopwords supprimés : ['bonjour', 'ciel', 'bleu', 'pleuvoir', 'aujourdhui']


**Explication**
- Les mots fréquents et peu informatifs comme "le", "est", "il" sont supprimés.
- Exemple : "le" et "est" sont enlevés car ce sont des stopwords.

In [13]:
# Le code Complet

import spacy
import re

# Charger le modèle spaCy pour la langue française
nlp = spacy.load("fr_core_news_sm")

# Exemple de texte
text = "Bonjour! Le ciel est bleu, mais il peut pleuvoir aujourd'hui."

# 1. Nettoyage
# Supprimer la ponctuation et mettre en minuscules
text_cleaned = re.sub(r'[^a-zA-Z\s]', '', text.lower())  # Retirer tout sauf lettres et espaces
print("Nettoyage :", text_cleaned)

# 2. Tokenisation
# Diviser le texte nettoyé en tokens
doc = nlp(text_cleaned)
tokens = [token.text for token in doc]
print("Tokenisation :", tokens)

# 3. Lemmatisation
# Appliquer la lemmatisation : réduire chaque mot à sa forme de base
lemmas = [token.lemma_ for token in doc]
print("Lemmatisation :", lemmas)

# 4. Suppression des stopwords
# Enlever les mots de type stopwords
stopwords_removed = [token.lemma_ for token in doc if not token.is_stop]
print("Stopwords supprimés :", stopwords_removed)

Nettoyage : bonjour le ciel est bleu mais il peut pleuvoir aujourdhui
Tokenisation : ['bonjour', 'le', 'ciel', 'est', 'bleu', 'mais', 'il', 'peut', 'pleuvoir', 'aujourdhui']
Lemmatisation : ['bonjour', 'le', 'ciel', 'être', 'bleu', 'mais', 'il', 'pouvoir', 'pleuvoir', 'aujourdhui']
Stopwords supprimés : ['bonjour', 'ciel', 'bleu', 'pleuvoir', 'aujourdhui']


## **Projet Pratique : Préparation des Données Textuelles (MedQuAD)**

**Téléchargement du Dataset MedQuAD**
- Le dataset MedQuAD contient des questions-réponses médicales. Vous pouvez télécharger le dataset [ici](https://www.kaggle.com/datasets/pythonafroz/medquad-medical-question-answer-for-ai-research).
- Vous pouvez l'utiliser dans votre projet en remplaçant le chemin 'data/med_data.csv' par le chemin réel où vous avez stocké ce fichier.