# **TD2 : Nettoyage des Données Textuelles en Python pour le NLP**
Objectifs du TD :
- Comprendre l’importance du nettoyage des données textuelles pour le NLP.
- Manipuler des bibliothèques Python pour normaliser et nettoyer des textes.
- Préparer les données collectées pour des applications de traitement automatique
du langage.
Durée : 1h30

Prérequis :
- Données textuelles collectées via une API ou du web scraping (par exemple, à
partir du premier TD).
- Python 3.7+
- Bibliothèques nécessaires : NLTK, Pandas.


Source code : 

* https://geekflare.com/fr/beautiful-soup-for-web-scraping-projects/

* https://www.data-transitionnumerique.com/beautifulsoup-scraping/

* https://blog.octo.com/nettoyage-du-texte-en-nlp-moins-de-vocabulaire-moins-de-bruit

* https://stacklima.com/comment-supprimer-les-accents-de-chaine-en-utilisant-python-3/

* https://www.ascii-code.com/fr

* https://www.commentcoder.com/python-majuscule-minuscule/

* https://ichi.pro/fr/5-facons-simples-de-tokeniser-du-texte-en-python-161381253832644

**1. Introduction au nettoyage des données**

Les données brutes collectées contiennent souvent du bruit (caractères spéciaux, liens,
mentions inutiles) qui doit être nettoyé avant leur utilisation dans des modèles NLP.

Questions
* **Pourquoi est-il important de nettoyer les données textuelles pour le NLP ?**

C'est pour transformer le texte brut en un format plus facile à comprendre par les algorithmes. C'est pour faciliter les analyses et modélisations qui vont suivre. La complexité du modèle croît donc avec la taille du vocabulaire. Alors ça peut nécessiter un volume important de données à traiter. C'est pour ces raisons que le netoyage consistue une étape cruciale pour le traitement des données textuelles pour le NLP. 

* **A quoi correpond les tokens**

Les tokens est un ensemble de caractéres : 

    - peuvent être des caractères individuels (des “lettres”)
    - voire des morceaux de mots (des subwords).


* **Quels sont les principaux types de bruit dans les textes collectés ?**

Les types de bruit peuvent être la ponctuation, les espaces, 

**2. Nettoyage des textes : suppression des caractères inutiles**

**Étapes à suivre :**

- Identifier et supprimer les caractères spéciaux et hyperliens.
- Convertir les textes en minuscules.
- Supprimer les espaces inutiles et normaliser le format.

In [None]:
import requests 

# attribution d'un URL
url="https://pubmed.ncbi.nlm.nih.gov/35316609/"

# Faire une demande
response = requests.get(url)

In [11]:
from bs4 import BeautifulSoup

html = response.content # contenu HTML de la page web demandée

soup = BeautifulSoup(html, 'html.parser')

In [12]:
soup

<!DOCTYPE html>

<html lang="en">
<head itemscope="" itemtype="http://schema.org/WebPage" prefix="og: http://ogp.me/ns#">
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<!-- Mobile properties -->
<meta content="True" name="HandheldFriendly"/>
<meta content="320" name="MobileOptimized"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<link href="https://cdn.ncbi.nlm.nih.gov" rel="preconnect"/>
<link href="https://www.ncbi.nlm.nih.gov" rel="preconnect"/>
<link href="https://www.google-analytics.com" rel="preconnect"/>
<link href="https://cdn.ncbi.nlm.nih.gov/pubmed/b4540a7b-d925-4747-955d-e13551e0ee58/CACHE/css/output.5ecf62baa0fa.css" rel="stylesheet" type="text/css"/>
<link href="https://cdn.ncbi.nlm.nih.gov/pubmed/b4540a7b-d925-4747-955d-e13551e0ee58/CACHE/css/output.452c70ce66f7.css" rel="stylesheet" type="text/css"/>
<link href="https://cdn.ncbi.nlm.nih.gov/pubmed/b4540a7b-d925-4747-955d-e13551e0ee58/CACHE/css/output.7bf600913

In [13]:
# Extraire tout le texte de la page
text = soup.get_text()
print(text)

















Deep Learning and Medical Image Analysis for COVID-19 Diagnosis and Prediction - PubMed





























































        This site needs JavaScript to work properly. Please enable it to take advantage of the complete set of features!
      






      Clipboard, Search History, and several other advanced features are temporarily unavailable.
    





    Skip to main page content
  






An official website of the United States government

Here's how you know








The .gov means it’s official.

            Federal government websites often end in .gov or .mil. Before
            sharing sensitive information, make sure you’re on a federal
            government site.
          






The site is secure.

            The https:// ensures that you are connecting to the
            official website and that any information you provide is encrypted
            and transmitted securely.
          















Log in



Show accoun

On peut voir le texte avec pas mal d'espace. Donc il est nécessaire de les nettoyés.

In [21]:
# Supprimer les lignes vides ou espaces
text_ = "\n".join(line.strip() for line in text.splitlines() if line.strip())

# Afficher le texte nettoyé
print("Texte nettoyé :")
print(text_)

Texte nettoyé :
Deep Learning and Medical Image Analysis for COVID-19 Diagnosis and Prediction - PubMed
This site needs JavaScript to work properly. Please enable it to take advantage of the complete set of features!
Clipboard, Search History, and several other advanced features are temporarily unavailable.
Skip to main page content
An official website of the United States government
Here's how you know
The .gov means it’s official.
Federal government websites often end in .gov or .mil. Before
sharing sensitive information, make sure you’re on a federal
government site.
The site is secure.
The https:// ensures that you are connecting to the
official website and that any information you provide is encrypted
and transmitted securely.
Log in
Show account info
Close
Account
Logged in as:
username
Dashboard
Publications
Account settings
Log out
Access keys
NCBI Homepage
MyNCBI Homepage
Main Content
Main Navigation
Search:
Search
Advanced
Clipboard
User Guide
Save
Email
Send to
Clipboard
My 

On peut voir qu'on a moins de bruit dans le texte avec plus d'espace entre les lignes 

Ensuite on s'assure d'enlever les accents de string

In [24]:
# importation de unidecode
import unidecode # conversion de texte Unicode avec des accents ou des symboles spéciaux en leurs équivalents ASCII 
 
# afficher la chaîne de caractères originale
print('\nOriginal String:', text_)
 
# enlever les accents 
text_string = unidecode.unidecode(text_)
 
# afficher la nouvelle chaîne de caractéres
print('\nNew String:', text_string)


Original String: Deep Learning and Medical Image Analysis for COVID-19 Diagnosis and Prediction - PubMed
This site needs JavaScript to work properly. Please enable it to take advantage of the complete set of features!
Clipboard, Search History, and several other advanced features are temporarily unavailable.
Skip to main page content
An official website of the United States government
Here's how you know
The .gov means it’s official.
Federal government websites often end in .gov or .mil. Before
sharing sensitive information, make sure you’re on a federal
government site.
The site is secure.
The https:// ensures that you are connecting to the
official website and that any information you provide is encrypted
and transmitted securely.
Log in
Show account info
Close
Account
Logged in as:
username
Dashboard
Publications
Account settings
Log out
Access keys
NCBI Homepage
MyNCBI Homepage
Main Content
Main Navigation
Search:
Search
Advanced
Clipboard
User Guide
Save
Email
Send to
Clipboard
M

In [28]:
# chaîne de caractères en minuscules 
text_string_=text_string.lower()
print(text_string_)

deep learning and medical image analysis for covid-19 diagnosis and prediction - pubmed
this site needs javascript to work properly. please enable it to take advantage of the complete set of features!
clipboard, search history, and several other advanced features are temporarily unavailable.
skip to main page content
an official website of the united states government
here's how you know
the .gov means it's official.
federal government websites often end in .gov or .mil. before
sharing sensitive information, make sure you're on a federal
government site.
the site is secure.
the https:// ensures that you are connecting to the
official website and that any information you provide is encrypted
and transmitted securely.
log in
show account info
close
account
logged in as:
username
dashboard
publications
account settings
log out
access keys
ncbi homepage
myncbi homepage
main content
main navigation
search:
search
advanced
clipboard
user guide
save
email
send to
clipboard
my bibliographycoll

On a plus que des miniscules dans le texte

**Autres techniques : cellule qui regroupe les étapes de traitement pour la normalisation**

In [31]:
# https://stacklima.com/normalisation-des-donnees-textuelles-avec-python/

# import regex pour travailler des expressions régulières :
import re

# téléchargement de stopwords 
import nltk # biblio "Natural Language Toolkit" sert à tokeniser, analyser, et effectuer des tâches NLP
nltk.download('stopwords')  # télécharge les stopwords dans la bibliothéque ntlk
 
# importation de ntlk.corpus
from nltk.corpus import stopwords # ntlk.corpus est un linguistiques prêts à l'emploi
stop_words = set(stopwords.words('english')) # en anglais 

# conversion en minuscule 
lower_string = text.lower()
 
# supprimer toutes ponctuations et espaces 
no_punc_string = re.sub(r'[^\w\s]','', lower_string)
 
# supprimer les espaces
no_wspace_string = no_punc_string.strip()
no_wspace_string
 
# conversion de la chaîne de caractére en liste 
lst_string = [no_wspace_string][0].split()
print(lst_string)
 
# supprimer les mots vides comme « le », « un » = pas de signification importante et généralement éloignés des textes
no_stpwords_string=""
for i in lst_string:
    if not i in stop_words:
        no_stpwords_string += i+' '
         
# enlever les derniers espaces 
no_stpwords_string = no_stpwords_string[:-1]
 
# sortie de la chaîne de caractére nettoyé 
print(no_stpwords_string)

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\singa\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


{'against', 'ain', 'about', 'her', 'him', 'of', 'for', 'itself', 'shouldn', 'by', 'their', 've', 'nor', 'has', 'needn', 'll', 'wouldn', "don't", 'to', "mightn't", 'than', "it's", 'its', 'were', 'no', "you'll", 'am', 'because', 'o', "mustn't", "you've", 're', "aren't", 'into', 'mightn', 'once', 'some', 'shan', 'being', 'which', "needn't", "didn't", 'doing', 'the', 'ours', 'was', 'theirs', 'very', 'my', "shan't", 'is', 'here', 'how', "won't", 'himself', 'but', 'while', "doesn't", 'don', 'will', 'does', 'it', "you'd", 'hers', 'yours', "you're", 'm', 'those', 'me', 'this', 'we', 'at', 'all', 'off', 'd', 'such', "she's", 'a', 'out', 'these', 'are', 'an', 'aren', 'can', 'only', 'wasn', 'couldn', 'until', 'you', "wasn't", 'if', 'down', 'having', 'our', "haven't", 'isn', "should've", 'themselves', 'been', 'did', 'each', "isn't", "wouldn't", 'weren', 'on', 'and', 'both', 't', 'herself', 'over', 'mustn', 'ourselves', 'too', "shouldn't", "that'll", 'them', 'before', 's', 'they', 'have', 'same', '

**2. Nettoyage des textes : suppression des caractères inutiles**

**Analyse des résultats :**
- Comparez les textes bruts aux textes nettoyés.
- Identifiez les limites potentielles du nettoyage effectué.

In [39]:
print("Texte original :", text)
print("Texte traité :" , text_string_) # afficher la chaîne de caractère sans ponctuation, espaces en minuscules 
print("Texte sans stopwords :", no_stpwords_string) # afficher la chaîne de caractére normalisé

Texte original : 















Deep Learning and Medical Image Analysis for COVID-19 Diagnosis and Prediction - PubMed





























































        This site needs JavaScript to work properly. Please enable it to take advantage of the complete set of features!
      






      Clipboard, Search History, and several other advanced features are temporarily unavailable.
    





    Skip to main page content
  






An official website of the United States government

Here's how you know








The .gov means it’s official.

            Federal government websites often end in .gov or .mil. Before
            sharing sensitive information, make sure you’re on a federal
            government site.
          






The site is secure.

            The https:// ensures that you are connecting to the
            official website and that any information you provide is encrypted
            and transmitted securely.
          















Log 

Etant donné qu'il n'y a pas de norme universelle pour juger de la qualité du nettoyage des données textuelles celà peut représenter une limite. 
Donc on peut supprimer des données importante, on peut supprimer trop d'informations ou peu. 

Ex : certains mots vides  peuvent être porteurs de sens dans certains contextes, comme "not" qui est un mot vide en anglais, mais il est essentiel pour le sens d'une phrase comme "This is not good."
Il y a aussi les erreurs de compréhension lié aux stopwords, (anglais, français?)


**3 Tokenisation et normalisation**

**Étapes à suivre :**
- Divisez les textes en unités lexicales (tokens) à l’aide d’une bibliothèque comme
NLTK.
- Effectuez une normalisation des mots (racine ou radical).
- Comparez les résultats obtenus entre le stemming et la lemmatisation.

In [44]:
"""NLTK signifie Natural Language Toolkit. 
Il s'agit d'une suite de bibliothèques et de programmes de traitement statistique 
du langage naturel pour l'anglais écrit en Python"""

# téléchargement de stopwords 
import nltk # biblio "Natural Language Toolkit" sert à tokeniser, analyser, et effectuer des tâches NLP
nltk.download('punkt')  # télécharge le modèle 'punkt' pour la tokenisation

from nltk.tokenize import word_tokenize
text_token = word_tokenize(text) # méthode qui permet de diviser un texte en token 
print(text_token)

['Deep', 'Learning', 'and', 'Medical', 'Image', 'Analysis', 'for', 'COVID-19', 'Diagnosis', 'and', 'Prediction', '-', 'PubMed', 'This', 'site', 'needs', 'JavaScript', 'to', 'work', 'properly', '.', 'Please', 'enable', 'it', 'to', 'take', 'advantage', 'of', 'the', 'complete', 'set', 'of', 'features', '!', 'Clipboard', ',', 'Search', 'History', ',', 'and', 'several', 'other', 'advanced', 'features', 'are', 'temporarily', 'unavailable', '.', 'Skip', 'to', 'main', 'page', 'content', 'An', 'official', 'website', 'of', 'the', 'United', 'States', 'government', 'Here', "'s", 'how', 'you', 'know', 'The', '.gov', 'means', 'it', '’', 's', 'official', '.', 'Federal', 'government', 'websites', 'often', 'end', 'in', '.gov', 'or', '.mil', '.', 'Before', 'sharing', 'sensitive', 'information', ',', 'make', 'sure', 'you', '’', 're', 'on', 'a', 'federal', 'government', 'site', '.', 'The', 'site', 'is', 'secure', '.', 'The', 'https', ':', '//', 'ensures', 'that', 'you', 'are', 'connecting', 'to', 'the', '

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\singa\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!



Questions :

- **Le stemming**

Le stemming est une méthode de normalisation des mots dans NLP. Il s'agit d'une technique dans laquelle un ensemble de mots dans une phrase est converti en une séquence pour raccourcir sa recherche. Dans cette méthode, les mots ayant la même signification mais présentant quelques variations selon le contexte ou la phrase sont normalisés.

In [45]:
# Normalisation à la racine 
# Code pour comprendre la méthode avec "wait" qui constitue la racine 

from nltk.stem import PorterStemmer # algo pour réduire les mots à leurs racines
e_words= ["wait", "waiting", "waited", "waits"] # exemple 
ps =PorterStemmer()
for w in e_words: # boucle pour normalisation
    rootWord=ps.stem(w)
    print(rootWord)

wait
wait
wait
wait


On peut voir que les mots ont été normalisé à la racine 

In [48]:
# Normalisation à la racine 
# Code avec ma chaîne de caractére text_token : 

from nltk.stem import PorterStemmer
e_words= text_token
ps =PorterStemmer()
for w in e_words:
    rootWord=ps.stem(w)
    print(rootWord)

deep
learn
and
medic
imag
analysi
for
covid-19
diagnosi
and
predict
-
pubm
thi
site
need
javascript
to
work
properli
.
pleas
enabl
it
to
take
advantag
of
the
complet
set
of
featur
!
clipboard
,
search
histori
,
and
sever
other
advanc
featur
are
temporarili
unavail
.
skip
to
main
page
content
an
offici
websit
of
the
unit
state
govern
here
's
how
you
know
the
.gov
mean
it
’
s
offici
.
feder
govern
websit
often
end
in
.gov
or
.mil
.
befor
share
sensit
inform
,
make
sure
you
’
re
on
a
feder
govern
site
.
the
site
is
secur
.
the
http
:
//
ensur
that
you
are
connect
to
the
offici
websit
and
that
ani
inform
you
provid
is
encrypt
and
transmit
secur
.
log
in
show
account
info
close
account
log
in
as
:
usernam
dashboard
public
account
set
log
out
access
key
ncbi
homepag
myncbi
homepag
main
content
main
navig
search
:
search
advanc
clipboard
user
guid
save
email
send
to
clipboard
my
bibliographycollectionscit
manag
display
option
display
option
format
abstract
pubm
pmid
save
citat
to
file
format



Questions :

- **La lemmatisation**

Processus algorithmique (comme PorterStemmer) consistant à trouver le lemme d'un mot en fonction de sa signification et de son contexte. La technique applique des règles pour enlever les suffixes ou préfixes, souvent sans se soucier de la validité linguistique.

Elle fait référence à l'analyse morphologique des mots, utilisée pour réduire un mot à une forme "radicale". 


In [50]:
# Normalisation à la racine 
# Code pour comprendre la méthode avec "studies studying cries cry" 

import nltk
from nltk.stem.porter import PorterStemmer
porter_stemmer  = PorterStemmer()
text = "studies studying cries cry"
tokenization = nltk.word_tokenize(text)
for w in tokenization:
    print("Stemming for {} is {}".format(w,porter_stemmer.stem(w)))  

Stemming for studies is studi
Stemming for studying is studi
Stemming for cries is cri
Stemming for cry is cri


In [52]:
# Normalisation à la racine 
# Code pour comprendre la méthode avec "studies studying cries cry" 

import nltk
from nltk.stem.porter import PorterStemmer
porter_stemmer  = PorterStemmer()
for w in text_token:
    print("Stemming for {} is {}".format(w,porter_stemmer.stem(w)))  

Stemming for Deep is deep
Stemming for Learning is learn
Stemming for and is and
Stemming for Medical is medic
Stemming for Image is imag
Stemming for Analysis is analysi
Stemming for for is for
Stemming for COVID-19 is covid-19
Stemming for Diagnosis is diagnosi
Stemming for and is and
Stemming for Prediction is predict
Stemming for - is -
Stemming for PubMed is pubm
Stemming for This is thi
Stemming for site is site
Stemming for needs is need
Stemming for JavaScript is javascript
Stemming for to is to
Stemming for work is work
Stemming for properly is properli
Stemming for . is .
Stemming for Please is pleas
Stemming for enable is enabl
Stemming for it is it
Stemming for to is to
Stemming for take is take
Stemming for advantage is advantag
Stemming for of is of
Stemming for the is the
Stemming for complete is complet
Stemming for set is set
Stemming for of is of
Stemming for features is featur
Stemming for ! is !
Stemming for Clipboard is clipboard
Stemming for , is ,
Stemming for Se


Questions :

- **Quels sont les avantages et les inconvénients de chaque méthode ?**

Le lemmatisation est plus précise et plus puissante et elle prend en compte l’analyse morphologique et contextuelle des mots. 

Le stemming est moins précis mais plus rapide et génère une version simplifiée de la racine. 

**4 Sauvegarde des données nettoyées**

**Étapes à suivre :**
- Organisez les textes bruts, nettoyés et tokenisés dans une structure de données
(ex. pd.DataFrame).
- Sauvegardez les résultats dans un fichier CSV.