# TD : Nettoyage des Données Textuelles en Python pour le NLP

## Objectifs du TD :

— Comprendre l’importance du nettoyage des données textuelles pour le NLP.

— Manipuler des bibliothèques Python pour normaliser et nettoyer des textes.

— Préparer les données collectées pour des applications de traitement automatique du langage.



## Prérequis :

— Données textuelles collectées via une API ou du web scraping (par exemple, à
partir du premier TD).

— Python 3.7+

— Bibliothèques nécessaires : NLTK, Pandas.

### Plan du TD :

1. Introduction au nettoyage des données

2. Nettoyage des textes : suppression des caractères inutiles

3. Tokenisation et normalisation

4. Sauvegarde des données nettoyées




1 Introduction au nettoyage des données

Les données brutes collectées contiennent souvent du bruit (caractères spéciaux, liens, mentions inutiles) qui doit être nettoyé avant leur utilisation dans des modèles NLP.



Réponses aux questions: 

### 1. Pourquoi est-il important de nettoyer les données textuelles pour le NLP ?

   Le nettoyage de texte est utile, car il permet d'uniformiser les tokens similaires, réduisant ainsi la taille du vocabulaire

### 2. Quels sont les principaux types de bruit dans les textes collectés ?

  Les principaux types de bruit dans les textes collectés sont :

 -Données inutiles ou hors sujet : Textes publicitaires, menus de navigation, ou informations redondantes (ex. : copyright, liens).

-Caractères spéciaux et ponctuation excessive : Symboles non pertinents (#, *, &, etc.) ou ponctuation répétée.

- Balises HTML ou contenu non nettoyé : Balises ou scripts restants après l'extraction (ex. : <div>, <script>).

- Erreurs typographiques et grammaticales : Fautes de frappe ou mauvaise syntaxe, surtout dans les contributions générées par des utilisateurs.

- Langue mixte ou ambiguïté linguistique : Mélange de langues ou utilisation de mots ayant plusieurs significations
    
-  Contenu dupliqué : Répétitions fréquentes d'informations similaires ou identiques.

- Données manquantes ou incohérentes : Lignes vides, phrases incomplètes, ou incohérence dans le formatage.
   
-  Ces bruits nécessitent un nettoyage et une prétraitement pour garantir la qualité des données avant toute analyse NLP.


### 2 - Nettoyage des textes : suppression des caractères inutiles

Étapes à suivre :

— Identifier et supprimer les caractères spéciaux et hyperliens.

— Convertir les textes en minuscules.

— Supprimer les espaces inutiles et normaliser le format.

In [9]:

import pandas as pd
import re

# Charger le fichier CSV
input_file = 'contenu_textuel_extrait.csv'  
output_file = 'contenu_textuel_nettoye.csv' 

# Chargement des données
df = pd.read_csv(input_file)

# Fonction de nettoyage des textes
def clean_text(text):
    if isinstance(text, str):
        # Suppression des hyperliens
        text = re.sub(r'http\S+|www\S+|https\S+', '', text)  # Supprimer les URLs
        # Suppression des caractères spéciaux
        text = re.sub(r'[^\w\s]', '', text)  # Garder uniquement les lettres, chiffres, et espaces
        # Convertion  en minuscules
        text = text.lower()
        # Suppression des espaces inutiles
        text = text.strip() # Supprimer les espaces au début et à la fin
        text = re.sub(r'\s+', ' ', text)  # Remplacement des espaces multiples par un seul
    return text

# Appliquer le nettoyage
df['contenu_textuel_nettoye'] = df['contenu_textuel_extrait'].apply(clean_text)

# Comparer quelques exemples avant et après nettoyage
print("Exemple de comparaison avant/après nettoyage :")
for _, row in df.head(5).iterrows():
    print(f"Texte brut : {row['contenu_textuel_extrait']}")
    print(f"Texte nettoyé : {row['contenu_textuel_nettoye']}\n")

# Sauvegarder les résultats dans un fichier CSV dans le répertoire courant
df.to_csv(output_file, index=False, encoding='utf-8')
print(f"Les textes nettoyés ont été sauvegardés dans '{output_file}'.")


Exemple de comparaison avant/après nettoyage :
Texte brut : The Role of Telomerase in Breast Cancer's Response to Therapy - PubMed
Texte nettoyé : the role of telomerase in breast cancers response to therapy pubmed

Texte brut : This site needs JavaScript to work properly. Please enable it to take advantage of the complete set of features!
Texte nettoyé : this site needs javascript to work properly please enable it to take advantage of the complete set of features

Texte brut : Clipboard, Search History, and several other advanced features are temporarily unavailable.
Texte nettoyé : clipboard search history and several other advanced features are temporarily unavailable

Texte brut : Skip to main page content
Texte nettoyé : skip to main page content

Texte brut : An official website of the United States government
Texte nettoyé : an official website of the united states government

Les textes nettoyés ont été sauvegardés dans 'contenu_textuel_nettoye.csv'.


## Analyse des résultats :

### -  Comparez les textes bruts aux textes nettoyés.
Les textes bruts contiennent des éléments non pertinents comme des caractères spéciaux, des références à des plateformes (PubMed, JavaScript) et des hyperliens inutilisables. Après nettoyage, les majuscules sont converties en minuscules, les caractères spéciaux et hyperliens supprimés, et les espaces superflus éliminés, offrant un format normalisé.


### - Identifiez les limites potentielles du nettoyage effectué.
Le nettoyage peut entraîner une perte d'informations utiles, comme les apostrophes ou des noms significatifs tels que "PubMed". Les mots communs inutiles (stopwords) restent présents, et aucune correction grammaticale n'est effectuée. Les textes génériques ou hors sujet ne sont pas filtrés, et une suppression excessive d'éléments peut rendre les phrases incohérentes ou incomplètes.

## Tokénisatiion et normalisation des textes

## Étapes à suivre :

— Divisez les textes en unités lexicales (tokens) à l’aide d’une bibliothèque comme NLTK.


In [14]:
%pip install nltk

Defaulting to user installation because normal site-packages is not writeable
Collecting nltk
  Downloading nltk-3.9.1-py3-none-any.whl (1.5 MB)
[K     |████████████████████████████████| 1.5 MB 1.7 MB/s eta 0:00:01
[?25hCollecting click
  Downloading click-8.1.7-py3-none-any.whl (97 kB)
[K     |████████████████████████████████| 97 kB 23.1 MB/s eta 0:00:01
[?25hCollecting joblib
  Downloading joblib-1.4.2-py3-none-any.whl (301 kB)
[K     |████████████████████████████████| 301 kB 43.8 MB/s eta 0:00:01
[?25hCollecting regex>=2021.8.3
  Downloading regex-2024.11.6-cp39-cp39-macosx_11_0_arm64.whl (284 kB)
[K     |████████████████████████████████| 284 kB 38.7 MB/s eta 0:00:01
[?25hCollecting tqdm
  Downloading tqdm-4.67.1-py3-none-any.whl (78 kB)
[K     |████████████████████████████████| 78 kB 18.2 MB/s eta 0:00:01
[?25hInstalling collected packages: tqdm, regex, joblib, click, nltk
Successfully installed click-8.1.7 joblib-1.4.2 nltk-3.9.1 regex-2024.11.6 tqdm-4.67.1
You should co

In [17]:
import nltk
from nltk.tokenize import word_tokenize

In [None]:
— Effectuez une normalisation des mots (racine ou radical).

In [None]:
— Comparez les résultats obtenus entre le stemming et la lemmatisation (La lemmatisation ramène les mots à leur forme canonique en tenant compte du contexte grammatical.)

In [None]:
Code de comparaison entre le stemming et la lemmatisation :