# **TD1 : Collecte des Données en Python pour le Traitement du Langage Naturel (NLP)**
Objectifs du TD  
-	Comprendre les méthodes de collecte de données pour le NLP.
-	Manipuler des outils pour extraire des textes à partir de sources variées. 
-	Explorer les sources de données en ligne et apprendre à extraire des informations. 
-	Durée : 1h30 Prérequis 
-	Python 3.7+ 
-	Bibliothèques nécessaires : Requests, BeautifulSoup, Pandas. 
Plan du TD 
1. Introduction et mise en place 
2. Extraction de données à partir d’une API 
3. Web scraping de textes


Source code : 

* https://geekflare.com/fr/beautiful-soup-for-web-scraping-projects/

* https://www.data-transitionnumerique.com/beautifulsoup-scraping/


**1.	Pour commencer** 

L’objectif de ce TD est de collecter des données textuelles à partir de différentes sources et de les préparer pour des applications NLP. 


-	**Quelles sont les principales sources de données textuelles pour le NLP?**

Le Natural Language Processing ou traitement du langage naturel désigne la capacité d’un programme informatique à comprendre et traiter le langage humain. Ce traitement porte sur l’interaction entre un humain et un ordinateur. Cela permet de traiter le langage naturel tel qu’il est parlé et écrit. Elle permet aux machines de comprendre, d'interpréter et de générer du langage humain de manière significative.

-	**Pourquoi la collecte de données est-elle essentielle pour le NLP?**




**2. Extraction de données à partir d’une API**

Pour ce TD, nous utiliserons une API comme NewsAPI, une API gratuite pour
récupérer des articles d’actualité.

**Étapes à suivre :**

- Créer un compte API et récupérer une clé API.

- Effectuer une requête pour collecter des articles sur un thème donné.

***Requêtes : HTTP pour les humains***

*Requests permet d’envoyer des requêtes HTTP*


In [None]:
pip install newsapi-python 

Collecting newsapi-python
  Downloading newsapi_python-0.2.7-py2.py3-none-any.whl.metadata (1.2 kB)
Downloading newsapi_python-0.2.7-py2.py3-none-any.whl (7.9 kB)
Installing collected packages: newsapi-python
Successfully installed newsapi-python-0.2.7
Note: you may need to restart the kernel to use updated packages.


In [12]:
import requests # Requests est une bibliothèque HTTP élégante
import json #  lightweight data interchange format that is easy for humans to read and write, and easy for machines to parse and generate. 

url = ('https://newsapi.org/v2/everything?'
       'q=Pokemon&'  # sujet d'article 
       'from=2019!!&' # année 
       'sortBy=popularity&'
       'apiKey=b684c34a769047de951b0009188bc981') # clé API

r = requests.get(url)

print(r.json())
print(r.status_code)
print(r.headers['content-type'])
print(r.encoding)

{'status': 'ok', 'totalResults': 972, 'articles': [{'source': {'id': None, 'name': 'Yahoo Entertainment'}, 'author': 'Jeremy Gan', 'title': 'The Chinese version of the Nintendo Switch won’t be able to access the eShop in 2026', 'description': 'If you didn’t know, Tencent (which is, among other things, the world’s biggest video game vendor) is the one that brought the Nintendo Switch to China\r\n in 2019. These Chinese versions of the console have access to fewer games, and they also can’t connect wit…', 'url': 'https://consent.yahoo.com/v2/collectConsent?sessionId=1_cc-session_abfc57ed-3dbc-4ccd-abe7-47f379542767', 'urlToImage': None, 'publishedAt': '2024-11-26T16:32:46Z', 'content': "If you click 'Accept all', we and our partners, including 237 who are part of the IAB Transparency &amp; Consent Framework, will also store and/or access information on a device (in other words, use … [+678 chars]"}, {'source': {'id': None, 'name': 'CNET'}, 'author': 'Jason Coles', 'title': 'Give a Pokemo

Le code d’état de la réponse HTTP est 200, ce qui signifie que la demande de l’URL a réussi.

In [13]:
r.json() # données JSON renvoyées par une requête HTTP

{'status': 'ok',
 'totalResults': 972,
 'articles': [{'source': {'id': None, 'name': 'Yahoo Entertainment'},
   'author': 'Jeremy Gan',
   'title': 'The Chinese version of the Nintendo Switch won’t be able to access the eShop in 2026',
   'description': 'If you didn’t know, Tencent (which is, among other things, the world’s biggest video game vendor) is the one that brought the Nintendo Switch to China\r\n in 2019. These Chinese versions of the console have access to fewer games, and they also can’t connect wit…',
   'url': 'https://consent.yahoo.com/v2/collectConsent?sessionId=1_cc-session_abfc57ed-3dbc-4ccd-abe7-47f379542767',
   'urlToImage': None,
   'publishedAt': '2024-11-26T16:32:46Z',
   'content': "If you click 'Accept all', we and our partners, including 237 who are part of the IAB Transparency &amp; Consent Framework, will also store and/or access information on a device (in other words, use … [+678 chars]"},
  {'source': {'id': None, 'name': 'CNET'},
   'author': 'Jason Col

**Étapes à suivre :**

- Explorer les résultats obtenus, en identifiant les titres et les descriptions des articles.

In [14]:
data= r.json()

""" Etant donné qu'on a une liste contenant tous dictionnaire avec les clés status, 
articles... La clé articles contient une liste de dictionnaires, chacun représentant un article. 
Chaque dictionnaire d'article contient plusieurs champs, dont la clé title."""
# Parcourir la liste des articles et afficher leurs titres
for article in data['articles']:
    print("Titre:", article['title'])

Titre: The Chinese version of the Nintendo Switch won’t be able to access the eShop in 2026
Titre: Give a Pokemon Fan Something They Don’t Have With This Pikachu Ramen Bowl for Just $10
Titre: Pokemon Go Players Have Unwittingly Trained AI To Navigate the World
Titre: What we know about Luigi Mangione, the former Ivy League grad arrested and linked to UnitedHealthcare CEO's killing
Titre: Dino Ying stayed the course on esports and Black Myth: Wukong | interview
Titre: The Target Black Friday Sale Starts Now: The Best Deals on Pokemon TCG, Apple, Board Games, and More
Titre: 21 Nintendo Switch Games You Can Get for $30 or Less Right Now (Including Tears of the Kingdom)
Titre: These Are The Best Pokémon TCG Deals in Best Buy's Black Friday Sale
Titre: This Microsoft Xbox 360 Building Kit From Target Is One of the Coolest Toys for Black Friday
Titre: The Galaxy S25 could add a new feature perfect for mobile gaming
Titre: The Fantasy of Cozy Tech
Titre: In July I called this phone too expe

In [15]:
data= r.json()

# Parcourir la liste des articles et afficher leurs descriptions
for article in data['articles']:
    print("Description:", article['description'])

Description: If you didn’t know, Tencent (which is, among other things, the world’s biggest video game vendor) is the one that brought the Nintendo Switch to China
 in 2019. These Chinese versions of the console have access to fewer games, and they also can’t connect wit…
Description: Grab this ceramic bowl while it's 58% off thanks to this Black Friday deal at Amazon.
Description: Augmented reality gaming company Niantic plans to develop an AI system for navigating physical spaces using data from millions of unsuspecting players of its games "Pokemon Go" and "Ingress," the company announced in a blog post. The "Large Geospatial Model" …
Description: Luigi Mangione, identified as a person of interest in Brian Thompson killing, founded an app and reviewed The Unabomber Manifesto.
Description: Dino Ying has been a patient leader. As chairman of Hero Esports (formerly VSPO) and Hero Games, he has had to endure a long period of investment.
Description: One of the biggest and most anticipat

**Étapes à suivre :**

- Sauvegarder les résultats dans un fichier CSV pour une utilisation ultérieure.

In [9]:
import csv

# Ouvrir un fichier CSV en mode écriture (en écrasant les données existantes si le fichier existe déjà)
with open('articles.csv', mode='w', newline='', encoding='utf-8') as file:
    writer = csv.DictWriter(file, fieldnames=["title", "author", "publishedAt", "url", "description"])

    # Écrire l'en-tête du fichier CSV
    writer.writeheader()

    # Parcourir la liste des articles et écrire les données dans le CSV
    for article in data['articles']:
        writer.writerow({
            "title": article.get('title', 'Titre non disponible'),
            "author": article.get('author', 'Auteur non disponible'),
            "publishedAt": article.get('publishedAt', 'Date non disponible'),
            "url": article.get('url', 'URL non disponible'),
            "description": article.get('description', 'Description non disponible')
        })

print("Les données ont été enregistrées dans 'articles.csv'.")

Les données ont été enregistrées dans 'articles.csv'.


**3. Web scraping de textes**

Dans cette partie, nous utiliserons un outil comme BeautifulSoup pour extraire des
données textuelles à partir d’un site web.

**Étapes à suivre :**

- Choisir une source web adaptée (par exemple, un blog ou un site d’actualités).

***Beautiful Soup***
 
 Beautiful Soup analyse le contenu HTML de la page Web et le collecte pour fournir des fonctionnalités d’itération, de recherche et de modification. Pour fournir ces fonctionnalités, il fonctionne avec un analyseur qui convertit le contenu en un arbre d’analyse. 

In [26]:
pip install beautifulsoup4 # téléchargement

Note: you may need to restart the kernel to use updated packages.


ERROR: Invalid requirement: '#'


Enregistrement de l’URL que nous voulons scrapper dans la variable url, puis nous demandons l’URL (requests.get(url)). Ensuite, nous enregistrons la réponse dans la variable response :

In [16]:
# Assign URL
url="https://www.20minutes.fr/sante/4128240-20241209-covid-19-sait-desormais-pays-pris-meilleures-decisions-limiter-morts"
url="https://www.kaggle.com/datasets/abdoomoh/daily-covid-19-data-2020-2024"
url="https://www.kaggle.com/code/delllectron/deep-learning-on-covid-19"

# Make a GET request 
response = requests.get(url)

In [17]:
print(response)

<Response [200]>


In [18]:
html = response.content # contenu HTML de la page web demandée
print(html)

b'\r\n\r\n<!DOCTYPE html>\r\n<html lang="en">\r\n\r\n<head>\r\n  <title>Deep Learning on COVID-19 | Kaggle</title>\r\n  <meta charset="utf-8" />\r\n    <meta name="robots" content="index, follow" />\r\n  <meta name="description" content="Explore and run machine learning code with Kaggle Notebooks | Using data from CoronaHack -Chest X-Ray-Dataset" />\r\n    <meta name="viewport" content="width=device-width, initial-scale=1.0, maximum-scale=5.0, minimum-scale=1.0">\r\n  <meta name="theme-color" content="#008ABC" />\r\n  <script nonce="3hfDCRtDd&#x2B;p//ltqlt9/SQ==" type="text/javascript">\r\n    window["pageRequestStartTime"] = 1734534671072;\r\n    window["pageRequestEndTime"] = 1734534671423;\r\n    window["initialPageLoadStartTime"] = new Date().getTime();\r\n  </script>\r\n  <script nonce="3hfDCRtDd&#x2B;p//ltqlt9/SQ==" id="gsi-client" src="https://accounts.google.com/gsi/client" async defer></script>\r\n  <script nonce="3hfDCRtDd&#x2B;p//ltqlt9/SQ==">window.KAGGLE_JUPYTERLAB_PATH = 

Le résultat est le contenu HTML de la page de la liste des meilleures ventes High Tech d’Amazon, mais il est vraiment difficile à lire à l’œil humain.

In [19]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')

In [20]:
soup # plus agréable à l’œil


<!DOCTYPE html>

<html lang="en">
<head>
<title>Deep Learning on COVID-19 | Kaggle</title>
<meta charset="utf-8"/>
<meta content="index, follow" name="robots"/>
<meta content="Explore and run machine learning code with Kaggle Notebooks | Using data from CoronaHack -Chest X-Ray-Dataset" name="description"/>
<meta content="width=device-width, initial-scale=1.0, maximum-scale=5.0, minimum-scale=1.0" name="viewport"/>
<meta content="#008ABC" name="theme-color">
<script nonce="3hfDCRtDd+p//ltqlt9/SQ==" type="text/javascript">
    window["pageRequestStartTime"] = 1734534671072;
    window["pageRequestEndTime"] = 1734534671423;
    window["initialPageLoadStartTime"] = new Date().getTime();
  </script>
<script async="" defer="" id="gsi-client" nonce="3hfDCRtDd+p//ltqlt9/SQ==" src="https://accounts.google.com/gsi/client"></script>
<script nonce="3hfDCRtDd+p//ltqlt9/SQ==">window.KAGGLE_JUPYTERLAB_PATH = "/static/assets/jupyterlab-v4/jupyterlab-index-e8c3899ac45febf114e0.html";</script>
<link cr

Cela donne une structure de données imbriquée du contenu HTML original dans laquelle nous pouvons facilement naviguer et collecter des données.

**Étapes à suivre :**

- Identifier les balises HTML contenant les informations à extraire (par exemple, les
titres des articles).

In [21]:
soup.title # <p> et </p> sont les balises ouvrantes et fermantes 

<title>Deep Learning on COVID-19 | Kaggle</title>

In [22]:
soup.title.get_text() # avec le texte uniquement

'Deep Learning on COVID-19 | Kaggle'

In [85]:
# Extraire la description
meta_description = soup.find('meta', attrs={'name': 'description'})['content']  # qui correpond à <meta content="Explore and run machine learning code with Kaggle Notebooks | Using data from CoronaHack -Chest X-Ray-Dataset" name="description"/>
print("Description:", meta_description)


Description: Explore and run machine learning code with Kaggle Notebooks | Using data from CoronaHack -Chest X-Ray-Dataset


In [87]:
# Extraire tous les liens <link>
links = [link['href'] for link in soup.find_all('link', href=True)] 
print("Liens <link>:", links)

Liens <link>: ['https://www.google-analytics.com', 'https://stats.g.doubleclick.net', 'https://storage.googleapis.com', 'https://apis.google.com', '/static/images/favicon.ico', '/static/json/manifest.json', 'https://fonts.gstatic.com', 'https://fonts.googleapis.com/css?family=Inter:400,400i,500,500i,600,600i,700,700i&display=swap', 'https://fonts.googleapis.com/css2?family=Google+Symbols:FILL@0..1&display=block', 'https://fonts.googleapis.com/css?family=Inter:400,400i,500,500i,600,600i,700,700i&display=swap', 'https://fonts.googleapis.com/css2?family=Google+Symbols:FILL@0..1&display=block', '/code/delllectron/deep-learning-on-covid-19', '/static/assets/vendor.css?v=dne', '/static/assets/app.css?v=5bf3c9f45d06b890b0a5', 'https://www.kaggle.com/oembed/kernel?url=https%3A%2F%2Fwww.kaggle.com%2Fcode%2Fdelllectron%2Fdeep-learning-on-covid-19%3FscriptVersionId%3D40544928']


In [91]:
meta_encodage = soup.find('meta')['charset']  # qui correspond à <meta charset="utf-8"/>
print("Description:", meta_encodage)

Description: utf-8


In [88]:
all_meta = {meta['name']: meta['content'] for meta in soup.find_all('meta', attrs={'name': True})} # sort toutes les balises meta présent dans le site
print("Toutes les balises meta:", all_meta)

Toutes les balises meta: {'robots': 'index, follow', 'description': 'Explore and run machine learning code with Kaggle Notebooks | Using data from CoronaHack -Chest X-Ray-Dataset', 'viewport': 'width=device-width, initial-scale=1.0, maximum-scale=5.0, minimum-scale=1.0', 'theme-color': '#008ABC', 'og:url': 'https://kaggle.com/code/delllectron/deep-learning-on-covid-19', 'og:image': 'https://storage.googleapis.com/kaggle-avatars/thumbnails/3924973-kg.jpg?t=2024-08-26-15-31-48', 'twitter:card': 'summary', 'twitter:site': '@Kaggle'}


**Étapes à suivre :**

- Extraire les données textuelles et les afficher.

In [95]:
# Extraire tout le texte de la page
text = soup.get_text()
print(text)





Deep Learning on COVID-19 | Kaggle





















































On peut voir le titre mais il y a beaucoup d'espace ou de lignes vides. Donc il est nécessaire de les nettoyés 

In [96]:
# Nettoyer : Supprimer les lignes vides ou contenant uniquement des espaces
clean_text = "\n".join(line.strip() for line in text.splitlines() if line.strip())

print("Texte nettoyé :")
print(clean_text)

Texte nettoyé :
Deep Learning on COVID-19 | Kaggle


Je n'ai eu que ça, cela peut être expliqué par le fait que la page kaggle est principalement constitué de code. J'aurais pu extraire ce code python, cependant il ne semble pas être contenu dans des bonnes balises code et pre

**Etape à suivre:**

* Créer un fichier csv contenant les données extraites

In [10]:
import csv 

# Ouvrir un fichier CSV en mode écriture (en écrasant les données existantes si le fichier existe déjà)
with open('deep_learning_covid.csv', mode='w', newline='', encoding='utf-8') as file:
    writer = csv.DictWriter(file, fieldnames=["title", "author", "publishedAt", "url", "description"])

    # Écrire l'en-tête du fichier CSV
    writer.writeheader()

    # Parcourir la liste des articles et écrire les données dans le CSV
    for article in data['articles']:
        writer.writerow({
            "title": article.get('title', 'Titre non disponible'),
            "author": article.get('author', 'Auteur non disponible'),
            "publishedAt": article.get('publishedAt', 'Date non disponible'),
            "url": article.get('url', 'URL non disponible'),
            "description": article.get('description', 'Description non disponible')
        })

print("Les données ont été enregistrées dans 'deep_learning_covid.csv'.")

Les données ont été enregistrées dans 'deep_learning_covid.csv'.
