# **TD2 : Nettoyage des Données Textuelles en Python pour le NLP**
Objectifs du TD :
- Comprendre l’importance du nettoyage des données textuelles pour le NLP.
- Manipuler des bibliothèques Python pour normaliser et nettoyer des textes.
- Préparer les données collectées pour des applications de traitement automatique
du langage.
Durée : 1h30

Prérequis :
- Données textuelles collectées via une API ou du web scraping (par exemple, à
partir du premier TD).
- Python 3.7+
- Bibliothèques nécessaires : NLTK, Pandas.


**1. Introduction au nettoyage des données**

Les données brutes collectées contiennent souvent du bruit (caractères spéciaux, liens,
mentions inutiles) qui doit être nettoyé avant leur utilisation dans des modèles NLP.

Questions
* **Pourquoi est-il important de nettoyer les données textuelles pour le NLP ?**

C'est pour transformer le texte brut en un format plus facile à comprendre par les algorithmes. C'est pour faciliter les analyses et modélisations qui vont suivre. La complexité du modèle croît donc avec la taille du vocabulaire. Alors ça peut nécessiter un volume important de données à traiter. C'est pour ces raisons que le netoyage consistue une étape cruciale pour le traitement des données textuelles pour le NLP. 

* **Quels sont les principaux types de bruit dans les textes collectés ?**

Les types de bruit peuvent être la ponctuation, les espaces, au niveau de la tokenisation

**2. Nettoyage des textes : suppression des caractères inutiles**

**Étapes à suivre :**

- Identifier et supprimer les caractères spéciaux et hyperliens.
- Convertir les textes en minuscules.
- Supprimer les espaces inutiles et normaliser le format.

**Analyse des résultats :**
- Comparez les textes bruts aux textes nettoyés.
- Identifiez les limites potentielles du nettoyage effectué.

In [6]:
import pandas as pd

data= pd.read_csv("deep_learning_covid.csv")

In [7]:
data

Unnamed: 0,title,author,publishedAt,url,description
0,The Chinese version of the Nintendo Switch won...,Jeremy Gan,2024-11-26T16:32:46Z,https://consent.yahoo.com/v2/collectConsent?se...,"If you didn’t know, Tencent (which is, among o..."
1,Give a Pokemon Fan Something They Don’t Have W...,Jason Coles,2024-11-20T12:55:00Z,https://www.cnet.com/deals/give-a-pokemon-fan-...,Grab this ceramic bowl while it's 58% off than...
2,Pokemon Go Players Have Unwittingly Trained AI...,msmash,2024-11-19T18:43:00Z,https://slashdot.org/story/24/11/19/175239/pok...,Augmented reality gaming company Niantic plans...
3,"What we know about Luigi Mangione, the former ...","Jacob Shamsian,Jack Newsham,Katherine Long,Ana...",2024-12-09T22:37:09Z,https://www.businessinsider.com/luigi-mangione...,"Luigi Mangione, identified as a person of inte..."
4,Dino Ying stayed the course on esports and Bla...,Dean Takahashi,2024-12-03T18:00:00Z,https://venturebeat.com/games/dino-ying-stayed...,Dino Ying has been a patient leader. As chairm...
...,...,...,...,...,...
95,New Pokémon Funko Pop! Up for Preorder at Amaz...,Robert Anderson,2024-12-10T14:52:20Z,https://www.ign.com/articles/funko-pop-pokemon...,
96,"I Love Ultrawide Gaming Monitors, But These UK...",Christian Wait,2024-12-07T11:03:38Z,https://www.ign.com/articles/i-love-ultrawide-...,"As of Dec. 7, ultrawide gaming monitors like t..."
97,Target Has the Coolest Black Friday Toy Deal f...,Eric Song,2024-11-24T22:40:00Z,https://www.ign.com/articles/mega-xbox-360-toy...,This would make an incredible gift idea for an...
98,UK Deals: TCL Limited Time Offers On TVs Is Live,Christian Wait,2024-12-03T13:27:36Z,https://www.ign.com/articles/uk-deals-tcl-limi...,TCL’s limited-time UK sale offers TVs from bud...


In [9]:
import requests 

# Assign URL
url="https://pubmed.ncbi.nlm.nih.gov/35316609/"

# Make a GET request 
response = requests.get(url)

In [11]:
from bs4 import BeautifulSoup

html = response.content # contenu HTML de la page web demandée

soup = BeautifulSoup(html, 'html.parser')

In [12]:
soup

<!DOCTYPE html>

<html lang="en">
<head itemscope="" itemtype="http://schema.org/WebPage" prefix="og: http://ogp.me/ns#">
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<!-- Mobile properties -->
<meta content="True" name="HandheldFriendly"/>
<meta content="320" name="MobileOptimized"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<link href="https://cdn.ncbi.nlm.nih.gov" rel="preconnect"/>
<link href="https://www.ncbi.nlm.nih.gov" rel="preconnect"/>
<link href="https://www.google-analytics.com" rel="preconnect"/>
<link href="https://cdn.ncbi.nlm.nih.gov/pubmed/b4540a7b-d925-4747-955d-e13551e0ee58/CACHE/css/output.5ecf62baa0fa.css" rel="stylesheet" type="text/css"/>
<link href="https://cdn.ncbi.nlm.nih.gov/pubmed/b4540a7b-d925-4747-955d-e13551e0ee58/CACHE/css/output.452c70ce66f7.css" rel="stylesheet" type="text/css"/>
<link href="https://cdn.ncbi.nlm.nih.gov/pubmed/b4540a7b-d925-4747-955d-e13551e0ee58/CACHE/css/output.7bf600913

In [13]:
# Extraire tout le texte de la page
text = soup.get_text()
print(text)

















Deep Learning and Medical Image Analysis for COVID-19 Diagnosis and Prediction - PubMed





























































        This site needs JavaScript to work properly. Please enable it to take advantage of the complete set of features!
      






      Clipboard, Search History, and several other advanced features are temporarily unavailable.
    





    Skip to main page content
  






An official website of the United States government

Here's how you know








The .gov means it’s official.

            Federal government websites often end in .gov or .mil. Before
            sharing sensitive information, make sure you’re on a federal
            government site.
          






The site is secure.

            The https:// ensures that you are connecting to the
            official website and that any information you provide is encrypted
            and transmitted securely.
          















Log in



Show accoun

On peut voir le texte avec pas mal d'espace. Donc il est nécessaire de les nettoyés 

In [14]:
# Nettoyer : Supprimer les lignes vides ou contenant uniquement des espaces
clean_text = "\n".join(line.strip() for line in text.splitlines() if line.strip())

print("Texte nettoyé :")
print(clean_text)

Texte nettoyé :
Deep Learning and Medical Image Analysis for COVID-19 Diagnosis and Prediction - PubMed
This site needs JavaScript to work properly. Please enable it to take advantage of the complete set of features!
Clipboard, Search History, and several other advanced features are temporarily unavailable.
Skip to main page content
An official website of the United States government
Here's how you know
The .gov means it’s official.
Federal government websites often end in .gov or .mil. Before
sharing sensitive information, make sure you’re on a federal
government site.
The site is secure.
The https:// ensures that you are connecting to the
official website and that any information you provide is encrypted
and transmitted securely.
Log in
Show account info
Close
Account
Logged in as:
username
Dashboard
Publications
Account settings
Log out
Access keys
NCBI Homepage
MyNCBI Homepage
Main Content
Main Navigation
Search:
Search
Advanced
Clipboard
User Guide
Save
Email
Send to
Clipboard
My 