TD : Collecte des Données en Python pour le
Traitement du Langage Naturel (NLP)



Objectifs du TD

— Comprendre les méthodes de collecte de données pour le NLP.

— Manipuler des outils pour extraire des textes à partir de sources variées.


— Explorer les sources de données en ligne et apprendre à extraire des informations.


Importation des bibliothèques nécessaires

In [6]:
pip install requests beautifulsoup4 pandas


Defaulting to user installation because normal site-packages is not writeable
You should consider upgrading via the '/Library/Developer/CommandLineTools/usr/bin/python3 -m pip install --upgrade pip' command.[0m
Note: you may need to restart the kernel to use updated packages.


In [7]:
# Import des bibliothèques nécessaires
import requests
from bs4 import BeautifulSoup
import pandas as pd




Plan du TD
1. Introduction et mise en place
2. Extraction de données à partir d’une API
3. Web scraping de textes

L’objectif de ce TD est de collecter des données textuelles à partir de différentes
sources et de les préparer pour des applications NLP.

1- Réponses aux questions


—-->  Quelles sont les principales sources de données textuelles pour le NLP?

Corpus existants : Bases linguistiques (ex. : Penn Treebank).

Sites web : Articles, blogs, forums via web scraping.

API : Services comme Twitter, Reddit, Wikipédia.
Médias sociaux : Données textuelles de plateformes sociales.

Documents publics : Livres, articles, documents officiels.

Données propriétaires : Transcriptions, emails internes.

—-->  Pourquoi la collecte de données est-elle essentielle pour le NLP?

Permet de créer et d’entraîner des modèles NLP.

Améliore la qualité et la précision des algorithmes.

Reflète la diversité linguistique et contextuelle.

Favorise l’adaptation à des domaines spécifiques.

Fournit des données récentes pour des modèles à jour.







2- Extraction de données à partir d’une API

Pour ce TD, nous utiliserons une API comme NewsAPI, une API gratuite pour
récupérer des articles d’actualité. Pour cela, il faut s’inscrire sur le site. 

Apres inscription sur le site, on peut accéder à la page . 
clé de connection : 77cc6eed4f9d4fbdb96588b0b5da8548 

Effectuer une requête pour collecter des articles sur un thème donné.J'ai choisi la recherche sur la technologie 


In [8]:
pip install python-decouple


Defaulting to user installation because normal site-packages is not writeable
You should consider upgrading via the '/Library/Developer/CommandLineTools/usr/bin/python3 -m pip install --upgrade pip' command.[0m
Note: you may need to restart the kernel to use updated packages.


In [10]:
NEWS_API_KEY = "77cc6eed4f9d4fbdb96588b0b5da8548"


In [13]:
import requests
import pandas as pd

BASE_URL = "https://newsapi.org/v2/everything"
params = {
    'q': 'technologie',
    'language': 'fr',   
    'sortBy': 'relevance',  
    'apiKey': NEWS_API_KEY
}

response = requests.get(BASE_URL, params=params)


if response.status_code == 200:
    data = response.json()  
    articles = data.get('articles', [])  
    print(f"{len(articles)} articles trouvés.")
else:
    print(f"Erreur {response.status_code}: {response.text}")
    articles = []

if articles:
    for i, article in enumerate(articles[:25]):  
        print(f"Article {i+1}: {article['title']} - {article['description']}")


100 articles trouvés.
Article 1: Un coup de maître : ce génie candidate automatiquement à 1300 emplois grâce à l’IA - Une utilisation bluffante de cette technologie.
Article 2: Le nombre de vidéos en français sur YouTube va exploser grâce à cette technologie - Google déploie une technologie de doublage automatique qui peut rendre les vidéos YouTube anglaises disponibles en français, et vice-versa. Cela peut aider les créateurs à étendre leur communauté, tout en permettant aux utilisateurs de la plateforme de profit…
Article 3: L’IA va changer la façon dont vous lisez des livres d’après cet expert majeur - Le spécialiste a expliqué en quoi la technologie peut bousculer nos habitudes.
Article 4: « Une batterie éternelle » : des scientifiques découvrent une technologie qui pourrait tout changer - Afin de construire des batteries toujours plus endurantes, des chercheurs ont eu l'idée d'utiliser des diamants. Les résultats sont impressionnants.
Article 5: Galaxy S25 : Samsung réinvente son 

Exploration des résultats obtenus, en identifiant les titres et les descriptions des articles.


In [14]:
# Extraire les titres et descriptions
for i, article in enumerate(articles[:30]):  
    print(f"Article {i+1}:")
    print(f"  Titre       : {article['title']}")
    print(f"  Description : {article['description']}\n")


Article 1:
  Titre       : Un coup de maître : ce génie candidate automatiquement à 1300 emplois grâce à l’IA
  Description : Une utilisation bluffante de cette technologie.

Article 2:
  Titre       : Le nombre de vidéos en français sur YouTube va exploser grâce à cette technologie
  Description : Google déploie une technologie de doublage automatique qui peut rendre les vidéos YouTube anglaises disponibles en français, et vice-versa. Cela peut aider les créateurs à étendre leur communauté, tout en permettant aux utilisateurs de la plateforme de profit…

Article 3:
  Titre       : L’IA va changer la façon dont vous lisez des livres d’après cet expert majeur
  Description : Le spécialiste a expliqué en quoi la technologie peut bousculer nos habitudes.

Article 4:
  Titre       : « Une batterie éternelle » : des scientifiques découvrent une technologie qui pourrait tout changer
  Description : Afin de construire des batteries toujours plus endurantes, des chercheurs ont eu l'idée d'util

Sauvegarde des résultats dans un fichier CSV pour une utilisation ultérieure.

In [15]:

articles_data = [
    {'Titre': article['title'], 'Description': article['description'], 'URL': article['url']}
    for article in articles
]

df = pd.DataFrame(articles_data)


df.to_csv('articles_technologie.csv', index=False, encoding='utf-8')
print("Les résultats ont été sauvegardés dans 'articles_technologie.csv'.")


Les résultats ont été sauvegardés dans 'articles_technologie.csv'.


3- Web scraping de textes

Dans cette partie, nous utiliserons un outil comme BeautifulSoup pour extraire des
données textuelles à partir d’un site web.

— Choisir une source web adaptée (par exemple, un blog ou un site d’actualités). 
J'ai choisi le site de Pubmed qui est une base de données bibliographiques de référence en médecine et en biologie.

In [16]:
import requests



BASE_URL = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi"


params = {
    'db': 'pubmed',           # Base de données : PubMed
    'term': 'cancer',         # Terme de recherche
    'retmax': 25,             # Nombre maximum de résultats
    'retmode': 'json'         # Format des résultats
}

response = requests.get(BASE_URL, params=params)


if response.status_code == 200:
    data = response.json()
    article_ids = data['esearchresult']['idlist']  # Liste des IDs des articles
    print(f"{len(article_ids)} articles trouvés : {article_ids}")
else:
    print(f"Erreur : {response.status_code}")


25 articles trouvés : ['39690439', '39690423', '39690417', '39690404', '39690402', '39690396', '39690394', '39690389', '39690385', '39690384', '39690383', '39690380', '39690363', '39690348', '39690337', '39690336', '39690332', '39690330', '39690329', '39690287', '39690286', '39690282', '39690281', '39690278', '39690276']


In [17]:

DETAILS_URL = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esummary.fcgi"


details_params = {
    'db': 'pubmed',
    'id': ','.join(article_ids),  
    'retmode': 'json'           
}

details_response = requests.get(DETAILS_URL, params=details_params)

if details_response.status_code == 200:
    articles = details_response.json()['result']
    print("Détails des articles récupérés.")
else:
    print(f"Erreur : {details_response.status_code}")
    articles = {}


Détails des articles récupérés.


In [28]:
import pandas as pd


data = []
for article_id, article in articles.items():
    if article_id == "uids":  # Ignorer le champ "uids"
        continue
    data.append({
        'Titre': article.get('title', 'N/A'),
        'Date de publication': article.get('pubdate', 'N/A'),
        'Journal': article.get('source', 'N/A')
    })

# Créer un DataFrame
df = pd.DataFrame(data)

# Afficher un aperçu
print(df)

# Sauvegarder dans un fichier CSV
df.to_csv('pubmed_articles.csv', index=False, encoding='utf-8')
print("Les résultats ont été sauvegardés dans 'pubmed_articles.csv'.")


                                                Titre Date de publication  \
0   Analysis of how antigen mutations disrupt anti...            2025 Dec   
1   Role of PD-1/PD-L1 signaling axis in oncogenes...         2024 Dec 18   
2   Smoking cessation and harm reduction: a system...         2024 Dec 17   
3   Stereotactic body radiotherapy as metastasis-d...         2024 Dec 17   
4   Barriers to establishing teledermatoscopy in p...         2024 Dec 17   
5   PI3K/mTOR Inhibitor VS-5584 Alters Expression ...         2024 Dec 17   
6   Frailty transitions and associated factors in ...         2024 Dec 18   
7   Profiling immune cell-related gene features an...         2024 Dec 18   
8   Magnetic Sentinel Lymph Node Biopsy in Early B...         2024 Dec 17   
9   Comparison of Intratumoral and Peritumoral Dee...         2024 Dec 17   
10  ASO Visual Abstract: Management of the Uninvol...         2024 Dec 17   
11  FGFR-Altered Urothelial Carcinoma: Resistance ...         2024 Dec 17   

In [18]:
pip install beautifulsoup4


Defaulting to user installation because normal site-packages is not writeable
You should consider upgrading via the '/Library/Developer/CommandLineTools/usr/bin/python3 -m pip install --upgrade pip' command.[0m
Note: you may need to restart the kernel to use updated packages.


In [19]:
from bs4 import BeautifulSoup

In [20]:
from urllib.request import urlopen
import requests


In [26]:
response = requests.get(url)
print(response.text)


<!DOCTYPE html>




<html lang="en" >
<head  itemscope itemtype="http://schema.org/WebPage"  prefix="og: http://ogp.me/ns#" >
    <meta charset="UTF-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">

    <!-- Mobile properties -->
    <meta name="HandheldFriendly" content="True">
    <meta name="MobileOptimized" content="320">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">

  
  
  <link rel="preconnect" href="https://cdn.ncbi.nlm.nih.gov">
  <link rel="preconnect" href="https://www.ncbi.nlm.nih.gov">
  <link rel="preconnect" href="https://www.google-analytics.com">

  
  
    <link rel="stylesheet" href="https://cdn.ncbi.nlm.nih.gov/pubmed/b4540a7b-d925-4747-955d-e13551e0ee58/CACHE/css/output.5ecf62baa0fa.css" type="text/css">
  

  <link rel="stylesheet" href="https://cdn.ncbi.nlm.nih.gov/pubmed/b4540a7b-d925-4747-955d-e13551e0ee58/CACHE/css/output.452c70ce66f7.css" type="text/css">

  
    
  

  
    <link rel="stylesheet" href="https://cdn.n

In [29]:
html = response.content 
print(html)




In [26]:
url = 'https://pubmed.ncbi.nlm.nih.gov/36361634/'

In [27]:
page = urlopen(url)

In [31]:
soup_objet = BeautifulSoup(html, 'html.parser')

In [32]:
soup_objet.title

<title>The Role of Telomerase in Breast Cancer's Response to Therapy - PubMed</title>

In [33]:
print(soup_objet.title)


<title>The Role of Telomerase in Breast Cancer's Response to Therapy - PubMed</title>


In [37]:
# Extraire les données textuelles
text = soup_objet.get_text()

# Afficher les données textuelles
print(text)


















The Role of Telomerase in Breast Cancer's Response to Therapy - PubMed






























































        This site needs JavaScript to work properly. Please enable it to take advantage of the complete set of features!
      






      Clipboard, Search History, and several other advanced features are temporarily unavailable.
    





    Skip to main page content
  






An official website of the United States government

Here's how you know








The .gov means it’s official.

            Federal government websites often end in .gov or .mil. Before
            sharing sensitive information, make sure you’re on a federal
            government site.
          






The site is secure.

            The https:// ensures that you are connecting to the
            official website and that any information you provide is encrypted
            and transmitted securely.
          















Log in



Show account info





Clo

In [28]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

url = "https://pubmed.ncbi.nlm.nih.gov/36361634/"


response = requests.get(url)
if response.status_code == 200:
    soup = BeautifulSoup(response.content, 'html.parser')
else:
    print(f"Erreur : {response.status_code}")
    exit()

text = soup.get_text()

lines = text.splitlines() 
cleaned_lines = [line.strip() for line in lines if line.strip()] 


df = pd.DataFrame({'contenu_textuel_extrait': cleaned_lines})


output_file = 'contenu_textuel_extrait.csv'
df.to_csv(output_file, index=False, encoding='utf-8')
print(f"Les données textuelles ont été sauvegardées dans '{output_file}'.")






Les données textuelles ont été sauvegardées dans 'contenu_textuel_extrait.csv'.
