# **TD : Collecte des Données en Python pour le Traitement du Langage Naturel (NLP)**
Objectifs du TD  
-	Comprendre les méthodes de collecte de données pour le NLP.
-	Manipuler des outils pour extraire des textes à partir de sources variées. 
-	Explorer les sources de données en ligne et apprendre à extraire des informations. 
-	Durée : 1h30 Prérequis 
-	Python 3.7+ 
-	Bibliothèques nécessaires : Requests, BeautifulSoup, Pandas. 
Plan du TD 
1. Introduction et mise en place 
2. Extraction de données à partir d’une API 
3. Web scraping de textes


**1.	Pour commencer** 

L’objectif de ce TD est de collecter des données textuelles à partir de différentes sources et de les préparer pour des applications NLP. 


-	**Quelles sont les principales sources de données textuelles pour le NLP?**

Le Natural Language Processing ou traitement du langage naturel désigne la capacité d’un programme informatique à comprendre et traiter le langage humain. Ce traitement porte sur l’interaction entre un humain et un ordinateur. Cela permet de traiter le langage naturel tel qu’il est parlé et écrit. Elle permet aux machines de comprendre, d'interpréter et de générer du langage humain de manière significative.

-	**Pourquoi la collecte de données est-elle essentielle pour le NLP?**



**2. Extraction de données à partir d’une API**

Pour ce TD, nous utiliserons une API comme NewsAPI, une API gratuite pour
récupérer des articles d’actualité.

**Étapes à suivre :**

- Créer un compte API et récupérer une clé API.

- Effectuer une requête pour collecter des articles sur un thème donné.

***Requêtes : HTTP pour les humains***

*Requests vous permet d’envoyer des requêtes HTTP*


In [None]:
pip install newsapi-python

Collecting newsapi-python
  Downloading newsapi_python-0.2.7-py2.py3-none-any.whl.metadata (1.2 kB)
Downloading newsapi_python-0.2.7-py2.py3-none-any.whl (7.9 kB)
Installing collected packages: newsapi-python
Successfully installed newsapi-python-0.2.7
Note: you may need to restart the kernel to use updated packages.


In [24]:
import requests # Requests est une bibliothèque HTTP élégante
import json #  lightweight data interchange format that is easy for humans to read and write, and easy for machines to parse and generate. 

url = ('https://newsapi.org/v2/everything?'
       'q=Pokemon&'  # sujet d'article 
       'from=2019!!&' # année 
       'sortBy=popularity&'
       'apiKey=b684c34a769047de951b0009188bc981') # clé API

r = requests.get(url)

print(r.json())
print(r.status_code)
print(r.headers['content-type'])
print(r.encoding)

{'status': 'ok', 'totalResults': 967, 'articles': [{'source': {'id': None, 'name': 'Yahoo Entertainment'}, 'author': 'Jeremy Gan', 'title': 'The Chinese version of the Nintendo Switch won’t be able to access the eShop in 2026', 'description': 'If you didn’t know, Tencent (which is, among other things, the world’s biggest video game vendor) is the one that brought the Nintendo Switch to China\r\n in 2019. These Chinese versions of the console have access to fewer games, and they also can’t connect wit…', 'url': 'https://consent.yahoo.com/v2/collectConsent?sessionId=1_cc-session_abfc57ed-3dbc-4ccd-abe7-47f379542767', 'urlToImage': None, 'publishedAt': '2024-11-26T16:32:46Z', 'content': "If you click 'Accept all', we and our partners, including 237 who are part of the IAB Transparency &amp; Consent Framework, will also store and/or access information on a device (in other words, use … [+678 chars]"}, {'source': {'id': None, 'name': 'CNET'}, 'author': 'Jason Coles', 'title': 'Give a Pokemo

Le code d’état de la réponse HTTP est 200, ce qui signifie que la demande de l’URL a réussi.

In [25]:
r.json()

{'status': 'ok',
 'totalResults': 967,
 'articles': [{'source': {'id': None, 'name': 'Yahoo Entertainment'},
   'author': 'Jeremy Gan',
   'title': 'The Chinese version of the Nintendo Switch won’t be able to access the eShop in 2026',
   'description': 'If you didn’t know, Tencent (which is, among other things, the world’s biggest video game vendor) is the one that brought the Nintendo Switch to China\r\n in 2019. These Chinese versions of the console have access to fewer games, and they also can’t connect wit…',
   'url': 'https://consent.yahoo.com/v2/collectConsent?sessionId=1_cc-session_abfc57ed-3dbc-4ccd-abe7-47f379542767',
   'urlToImage': None,
   'publishedAt': '2024-11-26T16:32:46Z',
   'content': "If you click 'Accept all', we and our partners, including 237 who are part of the IAB Transparency &amp; Consent Framework, will also store and/or access information on a device (in other words, use … [+678 chars]"},
  {'source': {'id': None, 'name': 'CNET'},
   'author': 'Jason Col

**Étapes à suivre :**

- Explorer les résultats obtenus, en identifiant les titres et les descriptions des ar-
ticles.

- Sauvegarder les résultats dans un fichier CSV pour une utilisation ultérieure.

**3. Web scraping de textes**

Dans cette partie, nous utiliserons un outil comme BeautifulSoup pour extraire des
données textuelles à partir d’un site web.

Étapes à suivre :

- Choisir une source web adaptée (par exemple, un blog ou un site d’actualités).
- Identifier les balises HTML contenant les informations à extraire (par exemple, les
titres des articles).
- Extraire les données textuelles et les afficher.
- Enregistrer les données extraites dans un fichier CSV.

***Beautiful Soup***
 
 Beautiful Soup analyse le contenu HTML de la page Web et le collecte pour fournir des fonctionnalités d’itération, de recherche et de modification. Pour fournir ces fonctionnalités, il fonctionne avec un analyseur qui convertit le contenu en un arbre d’analyse. 

In [26]:
pip install beautifulsoup4 # téléchargement

Note: you may need to restart the kernel to use updated packages.


ERROR: Invalid requirement: '#'


Maintenant, nous sommes prêts à demander notre première page Web. Ce n’est rien de compliqué. Nous enregistrons l’URL que nous voulons scrapper dans la variable url, puis nous demandons l’URL (requests.get(url)). Ensuite, nous enregistrons la réponse dans la variable response :

In [33]:
# Assign URL
#url = "https://www.geeksforgeeks.org/"
url="https://www.amazon.fr/gp/bestsellers/electronics/?ie=UTF8&ref_=sv_cag_1"


# Make a GET request 
response = requests.get(url)

In [34]:
print(response)

<Response [503]>


In [36]:
html = response.content # contenu HTML de la page web demandée
print(html)

b'<!DOCTYPE html>\n<!--[if lt IE 7]> <html lang="fr" class="a-no-js a-lt-ie9 a-lt-ie8 a-lt-ie7"> <![endif]-->\n<!--[if IE 7]>    <html lang="fr" class="a-no-js a-lt-ie9 a-lt-ie8"> <![endif]-->\n<!--[if IE 8]>    <html lang="fr" class="a-no-js a-lt-ie9"> <![endif]-->\n<!--[if gt IE 8]><!-->\n<html class="a-no-js" lang="fr"><!--<![endif]--><head>\n<meta http-equiv="content-type" content="text/html; charset=UTF-8">\n<meta charset="utf-8">\n<meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">\n<title dir="ltr">Amazon.fr</title>\n<meta name="viewport" content="width=device-width">\n<link rel="stylesheet" href="https://images-na.ssl-images-amazon.com/images/G/01/AUIClients/AmazonUI-3c913031596ca78a3768f4e934b1cc02ce238101.secure.min._V1_.css">\n<script>\n\nif (true === true) {\n    var ue_t0 = (+ new Date()),\n        ue_csm = window,\n        ue = { t0: ue_t0, d: function() { return (+new Date() - ue_t0); } },\n        ue_furl = "fls-eu.amazon.fr",\n        ue_mid = "A13V1IB3VIYZZ

Le résultat est le contenu HTML de la page de la liste des meilleures ventes High Tech d’Amazon, mais il est vraiment difficile à lire à l’œil humain.

In [None]:
from bs4 import BeautifulSoup as bs
soup = bs(html, "lxml") # objet Beautiful Soup nommé soup 
# html (qui est la variable où nous avons enregistré le contenu HTML 
# difficile à lire à partir de l’URL de la page blog), le second paramètre
#  (« lxml« ) est l’analyseur syntaxique qui est utilisé sur la variable html.

In [39]:
soup # plus agréable à l’œil

<!DOCTYPE html>
<!--[if lt IE 7]> <html lang="fr" class="a-no-js a-lt-ie9 a-lt-ie8 a-lt-ie7"> <![endif]--><!--[if IE 7]>    <html lang="fr" class="a-no-js a-lt-ie9 a-lt-ie8"> <![endif]--><!--[if IE 8]>    <html lang="fr" class="a-no-js a-lt-ie9"> <![endif]--><!--[if gt IE 8]><!--><html class="a-no-js" lang="fr"><!--<![endif]--><head>
<meta content="text/html; charset=utf-8" http-equiv="content-type"/>
<meta charset="utf-8"/>
<meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>
<title dir="ltr">Amazon.fr</title>
<meta content="width=device-width" name="viewport"/>
<link href="https://images-na.ssl-images-amazon.com/images/G/01/AUIClients/AmazonUI-3c913031596ca78a3768f4e934b1cc02ce238101.secure.min._V1_.css" rel="stylesheet"/>
<script>

if (true === true) {
    var ue_t0 = (+ new Date()),
        ue_csm = window,
        ue = { t0: ue_t0, d: function() { return (+new Date() - ue_t0); } },
        ue_furl = "fls-eu.amazon.fr",
        ue_mid = "A13V1IB3VIYZZH",
        ue_sid =

Cela donne une structure de données imbriquée du contenu HTML original dans laquelle nous pouvons facilement naviguer et collecter des données.