# TD : Nettoyage des Données Textuelles en Python pour le NLP

## Objectifs du TD :

— Comprendre l’importance du nettoyage des données textuelles pour le NLP.

— Manipuler des bibliothèques Python pour normaliser et nettoyer des textes.

— Préparer les données collectées pour des applications de traitement automatique du langage.



## Prérequis :

— Données textuelles collectées via une API ou du web scraping (par exemple, à
partir du premier TD).

— Python 3.7+

— Bibliothèques nécessaires : NLTK, Pandas.

### Plan du TD :

1. Introduction au nettoyage des données

2. Nettoyage des textes : suppression des caractères inutiles

3. Tokenisation et normalisation

4. Sauvegarde des données nettoyées




1 Introduction au nettoyage des données

Les données brutes collectées contiennent souvent du bruit (caractères spéciaux, liens, mentions inutiles) qui doit être nettoyé avant leur utilisation dans des modèles NLP.



Réponses aux questions: 

### 1. Pourquoi est-il important de nettoyer les données textuelles pour le NLP ?

   Le nettoyage de texte est utile, car il permet d'uniformiser les tokens similaires, réduisant ainsi la taille du vocabulaire

### 2. Quels sont les principaux types de bruit dans les textes collectés ?

  Les principaux types de bruit dans les textes collectés sont :

 -Données inutiles ou hors sujet : Textes publicitaires, menus de navigation, ou informations redondantes (ex. : copyright, liens).

-Caractères spéciaux et ponctuation excessive : Symboles non pertinents (#, *, &, etc.) ou ponctuation répétée.

- Balises HTML ou contenu non nettoyé : Balises ou scripts restants après l'extraction (ex. : <div>, <script>).

- Erreurs typographiques et grammaticales : Fautes de frappe ou mauvaise syntaxe, surtout dans les contributions générées par des utilisateurs.

- Langue mixte ou ambiguïté linguistique : Mélange de langues ou utilisation de mots ayant plusieurs significations
    
-  Contenu dupliqué : Répétitions fréquentes d'informations similaires ou identiques.

- Données manquantes ou incohérentes : Lignes vides, phrases incomplètes, ou incohérence dans le formatage.
   
-  Ces bruits nécessitent un nettoyage et une prétraitement pour garantir la qualité des données avant toute analyse NLP.


### 2 - Nettoyage des textes : suppression des caractères inutiles

Étapes à suivre :

— Identifier et supprimer les caractères spéciaux et hyperliens.

— Convertir les textes en minuscules.

— Supprimer les espaces inutiles et normaliser le format.

In [9]:

import pandas as pd
import re

# Charger le fichier CSV
input_file = 'contenu_textuel_extrait.csv'  
output_file = 'contenu_textuel_nettoye.csv' 

# Chargement des données
df = pd.read_csv(input_file)

# Fonction de nettoyage des textes
def clean_text(text):
    if isinstance(text, str):
        # Suppression des hyperliens
        text = re.sub(r'http\S+|www\S+|https\S+', '', text)  # Supprimer les URLs
        # Suppression des caractères spéciaux
        text = re.sub(r'[^\w\s]', '', text)  # Garder uniquement les lettres, chiffres, et espaces
        # Convertion  en minuscules
        text = text.lower()
        # Suppression des espaces inutiles
        text = text.strip() # Supprimer les espaces au début et à la fin
        text = re.sub(r'\s+', ' ', text)  # Remplacement des espaces multiples par un seul
    return text

# Appliquer le nettoyage
df['contenu_textuel_nettoye'] = df['contenu_textuel_extrait'].apply(clean_text)

# Comparer quelques exemples avant et après nettoyage
print("Exemple de comparaison avant/après nettoyage :")
for _, row in df.head(5).iterrows():
    print(f"Texte brut : {row['contenu_textuel_extrait']}")
    print(f"Texte nettoyé : {row['contenu_textuel_nettoye']}\n")

# Sauvegarder les résultats dans un fichier CSV dans le répertoire courant
df.to_csv(output_file, index=False, encoding='utf-8')
print(f"Les textes nettoyés ont été sauvegardés dans '{output_file}'.")


Exemple de comparaison avant/après nettoyage :
Texte brut : The Role of Telomerase in Breast Cancer's Response to Therapy - PubMed
Texte nettoyé : the role of telomerase in breast cancers response to therapy pubmed

Texte brut : This site needs JavaScript to work properly. Please enable it to take advantage of the complete set of features!
Texte nettoyé : this site needs javascript to work properly please enable it to take advantage of the complete set of features

Texte brut : Clipboard, Search History, and several other advanced features are temporarily unavailable.
Texte nettoyé : clipboard search history and several other advanced features are temporarily unavailable

Texte brut : Skip to main page content
Texte nettoyé : skip to main page content

Texte brut : An official website of the United States government
Texte nettoyé : an official website of the united states government

Les textes nettoyés ont été sauvegardés dans 'contenu_textuel_nettoye.csv'.


## Analyse des résultats :

### -  Comparez les textes bruts aux textes nettoyés.
Les textes bruts contiennent des éléments non pertinents comme des caractères spéciaux, des références à des plateformes (PubMed, JavaScript) et des hyperliens inutilisables. Après nettoyage, les majuscules sont converties en minuscules, les caractères spéciaux et hyperliens supprimés, et les espaces superflus éliminés, offrant un format normalisé.


### - Identifiez les limites potentielles du nettoyage effectué.
Le nettoyage peut entraîner une perte d'informations utiles, comme les apostrophes ou des noms significatifs tels que "PubMed". Les mots communs inutiles (stopwords) restent présents, et aucune correction grammaticale n'est effectuée. Les textes génériques ou hors sujet ne sont pas filtrés, et une suppression excessive d'éléments peut rendre les phrases incohérentes ou incomplètes.

## Tokénisatiion et normalisation des textes

## Étapes à suivre :

— Divisez les textes en unités lexicales (tokens) à l’aide d’une bibliothèque comme NLTK.


In [29]:
pip install nltk

Defaulting to user installation because normal site-packages is not writeable
You should consider upgrading via the '/Library/Developer/CommandLineTools/usr/bin/python3 -m pip install --upgrade pip' command.[0m
Note: you may need to restart the kernel to use updated packages.


In [32]:
import nltk
nltk.download('punkt')


[nltk_data] Downloading package punkt to
[nltk_data]     /Users/verdianeouattara/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [33]:
import pandas as pd
import nltk
from nltk.tokenize import word_tokenize

# Télécharger les ressources nécessaires
nltk.download('punkt')

# Charger le fichier CSV
file_path = 'contenu_textuel_nettoye.csv'  # Nom de votre fichier
df = pd.read_csv(file_path)

# Vérifier que la colonne est bien du texte et gérer les valeurs manquantes
df['contenu_textuel_nettoye'] = df['contenu_textuel_nettoye'].fillna('').astype(str)

# Appliquer word_tokenize pour tokeniser chaque ligne
df['tokens'] = df['contenu_textuel_nettoye'].apply(word_tokenize)

# Afficher un exemple
print("Exemple de tokenisation :")
print(df[['contenu_textuel_nettoye', 'tokens']].head())

# Sauvegarder les résultats dans un nouveau fichier CSV
output_file = 'contenu_tokenise.csv'
df.to_csv(output_file, index=False, encoding='utf-8')
print(f"Les textes tokenisés ont été sauvegardés dans '{output_file}'.")


Exemple de tokenisation :
                             contenu_textuel_nettoye  \
0  the role of telomerase in breast cancers respo...   
1  this site needs javascript to work properly pl...   
2  clipboard search history and several other adv...   
3                          skip to main page content   
4  an official website of the united states gover...   

                                              tokens  
0  [the, role, of, telomerase, in, breast, cancer...  
1  [this, site, needs, javascript, to, work, prop...  
2  [clipboard, search, history, and, several, oth...  
3                    [skip, to, main, page, content]  
4  [an, official, website, of, the, united, state...  
Les textes tokenisés ont été sauvegardés dans 'contenu_tokenise.csv'.


[nltk_data] Downloading package punkt to
[nltk_data]     /Users/verdianeouattara/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


— Effectuez une normalisation des mots (racine ou radical).

Code pour le stemming

In [34]:
import pandas as pd
import nltk
from nltk.tokenize import word_tokenize
from nltk.stem import PorterStemmer

# Télécharger les ressources nécessaires
nltk.download('punkt')

# Initialiser le stemmer
stemmer = PorterStemmer()

# Charger le fichier tokenisé
file_path = 'contenu_tokenise.csv'  # Nom du fichier CSV tokenisé
df = pd.read_csv(file_path)

# Assurez-vous que les tokens sont chargés comme des listes
df['tokens'] = df['tokens'].apply(eval)  # Convertir les chaînes en listes si nécessaire

# Appliquer le stemming sur chaque token
df['stemmed_tokens'] = df['tokens'].apply(lambda tokens: [stemmer.stem(token) for token in tokens])

# Afficher un exemple
print("Exemple de stemming :")
print(df[['tokens', 'stemmed_tokens']].head())

# Sauvegarder dans un fichier CSV
output_file = 'contenu_stemmed.csv'
df.to_csv(output_file, index=False, encoding='utf-8')
print(f"Les mots réduits à leur racine ont été sauvegardés dans '{output_file}'.")


Exemple de stemming :
                                              tokens  \
0  [the, role, of, telomerase, in, breast, cancer...   
1  [this, site, needs, javascript, to, work, prop...   
2  [clipboard, search, history, and, several, oth...   
3                    [skip, to, main, page, content]   
4  [an, official, website, of, the, united, state...   

                                      stemmed_tokens  
0  [the, role, of, telomeras, in, breast, cancer,...  
1  [thi, site, need, javascript, to, work, proper...  
2  [clipboard, search, histori, and, sever, other...  
3                    [skip, to, main, page, content]  
4  [an, offici, websit, of, the, unit, state, gov...  
Les mots réduits à leur racine ont été sauvegardés dans 'contenu_stemmed.csv'.


[nltk_data] Downloading package punkt to
[nltk_data]     /Users/verdianeouattara/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [35]:
from nltk.stem import WordNetLemmatizer

# Télécharger les ressources nécessaires pour la lemmatisation
nltk.download('wordnet')
nltk.download('omw-1.4')

# Initialiser le lemmatiseur
lemmatizer = WordNetLemmatizer()

# Appliquer la lemmatisation sur chaque token
df['lemmatized_tokens'] = df['tokens'].apply(lambda tokens: [lemmatizer.lemmatize(token) for token in tokens])

# Afficher un exemple
print("Exemple de lemmatisation :")
print(df[['tokens', 'lemmatized_tokens']].head())

# Sauvegarder dans un fichier CSV
output_file = 'contenu_lemmatized.csv'
df.to_csv(output_file, index=False, encoding='utf-8')
print(f"Les mots lemmatisés ont été sauvegardés dans '{output_file}'.")


[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/verdianeouattara/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     /Users/verdianeouattara/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


Exemple de lemmatisation :
                                              tokens  \
0  [the, role, of, telomerase, in, breast, cancer...   
1  [this, site, needs, javascript, to, work, prop...   
2  [clipboard, search, history, and, several, oth...   
3                    [skip, to, main, page, content]   
4  [an, official, website, of, the, united, state...   

                                   lemmatized_tokens  
0  [the, role, of, telomerase, in, breast, cancer...  
1  [this, site, need, javascript, to, work, prope...  
2  [clipboard, search, history, and, several, oth...  
3                    [skip, to, main, page, content]  
4  [an, official, website, of, the, united, state...  
Les mots lemmatisés ont été sauvegardés dans 'contenu_lemmatized.csv'.


— Comparez les résultats obtenus entre le stemming et la lemmatisation (La lemmatisation ramène les mots à leur forme canonique en tenant compte du contexte grammatical.)

In [36]:
print("Comparaison entre tokens, stemming et lemmatisation :")
for _, row in df.head(5).iterrows():
    print(f"Tokens d'origine : {row['tokens']}")
    print(f"Stemming : {row['stemmed_tokens']}")
    print(f"Lemmatisation : {row['lemmatized_tokens']}\n")


Comparaison entre tokens, stemming et lemmatisation :
Tokens d'origine : ['the', 'role', 'of', 'telomerase', 'in', 'breast', 'cancers', 'response', 'to', 'therapy', 'pubmed']
Stemming : ['the', 'role', 'of', 'telomeras', 'in', 'breast', 'cancer', 'respons', 'to', 'therapi', 'pubm']
Lemmatisation : ['the', 'role', 'of', 'telomerase', 'in', 'breast', 'cancer', 'response', 'to', 'therapy', 'pubmed']

Tokens d'origine : ['this', 'site', 'needs', 'javascript', 'to', 'work', 'properly', 'please', 'enable', 'it', 'to', 'take', 'advantage', 'of', 'the', 'complete', 'set', 'of', 'features']
Stemming : ['thi', 'site', 'need', 'javascript', 'to', 'work', 'properli', 'pleas', 'enabl', 'it', 'to', 'take', 'advantag', 'of', 'the', 'complet', 'set', 'of', 'featur']
Lemmatisation : ['this', 'site', 'need', 'javascript', 'to', 'work', 'properly', 'please', 'enable', 'it', 'to', 'take', 'advantage', 'of', 'the', 'complete', 'set', 'of', 'feature']

Tokens d'origine : ['clipboard', 'search', 'history', '

In [None]:
Questions :


— Quelle est la différence entre le stemming et la lemmatisation ?


— Quels sont les avantages et les inconvénients de chaque méthode ?


## Sauvegarde des données 

In [38]:
import pandas as pd

file_path = 'contenu_textuel_nettoye.csv'  # Fichier avec les textes nettoyés
df = pd.read_csv(file_path)


from nltk.tokenize import word_tokenize
df['contenu_textuel_nettoye'] = df['contenu_textuel_nettoye'].fillna('').astype(str)  # Gérer les valeurs nulles
df['tokens'] = df['contenu_textuel_nettoye'].apply(word_tokenize)

# Ajouter une colonne supplémentaire pour les données nettoyées et tokenisées
from nltk.stem import PorterStemmer
from nltk.stem import WordNetLemmatizer
import nltk

nltk.download('wordnet')
nltk.download('omw-1.4')
nltk.download('punkt')

# Initialiser stemmer et lemmatizer
stemmer = PorterStemmer()
lemmatizer = WordNetLemmatizer()

# Ajouter stemming
df['stemmed_tokens'] = df['tokens'].apply(lambda tokens: [stemmer.stem(token) for token in tokens])

# Ajouter lemmatisation
df['lemmatized_tokens'] = df['tokens'].apply(lambda tokens: [lemmatizer.lemmatize(token) for token in tokens])

# Sauvegarder dans un fichier CSV structuré
output_file = 'data_resultats_nettoyage.csv'
df.to_csv(output_file, index=False, encoding='utf-8')

print(f"Les données brutes, nettoyées, tokenisées, stemmées et lemmatisées ont été sauvegardées dans '{output_file}'.")



Les données brutes, nettoyées, tokenisées, stemmées et lemmatisées ont été sauvegardées dans 'data_resultats_nettoyage.csv'.


[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/verdianeouattara/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     /Users/verdianeouattara/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     /Users/verdianeouattara/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
