# MU4MA077, Base d'analyse de donnée, 2024-2025

# Introduction à l'extraction de données depuis des sites internet

<div style="text-align: right"> 
Sorbonne Université, Master 1
</div>

# Table of contents
1. [Introduction à la Structure HTML d'une Page Web](#part1)
    - [Structure de Base d'une Page HTML](#part1sec1)
    - [Balises HTML Courantes](#part1sec2)
    - [Identifier des Éléments HTML](#part1sec3)
1. [Introduction au Web Scraping et aux Bibliothèques](#part2)
    - [Faire une requête HTTP](#part2sec1)
    - [Extraire les titres de la page avec BeautifulSoup](#part2sec2)
    - [Extraire les paragraphes de texte principal d'une page web](#part2sec3)
    - [Extraire un tableau de donnnées](#part2sec4)
1. [Quelques exercices](#part3)
    - [Exercice 1](#part3sec1)
    - [Exercice 2](#part3sec2)
    - [Exercice 3](#part3sec3)
    - [Exercice Bonus](#part3sec4)

In [1]:
!pip install requests
!pip install bs4




[notice] A new release of pip is available: 24.3.1 -> 25.0
[notice] To update, run: C:\Users\tapri\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.9_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip





[notice] A new release of pip is available: 24.3.1 -> 25.0
[notice] To update, run: C:\Users\tapri\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.9_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


In [2]:
# Importation des bibliothèques nécessaires
import requests #Pour faire des requêtes HTTP
from bs4 import BeautifulSoup #Pour extraire et manipuler des données HTML
import pandas as pd #Manipulation de données

# Partie 1: Introduction à la Structure HTML d'une Page Web <a id="part1"></a>

HTML (*HyperText Markup Language*) est le langage standard utilisé pour structurer le contenu d'une page web. Il est essentiel de comprendre sa structure de base pour faire du web scraping. 

## Structure de Base d'une Page HTML <a id="part1sec1"></a>

Une page HTML est organisée en balises (*tags*) qui définissent le type et l'emplacement du contenu. Voici un exemple de la structure minimale d'une page HTML :

```html
<!DOCTYPE html>
<html>
  <head>
    <title>Ma Page Web</title>
  </head>
  <body>
    <h1>Bienvenue sur ma page !</h1>
    <p>Ceci est un paragraphe de texte.</p>
  </body>
</html>

**Explication des éléments du code exemple**

- `<!DOCTYPE html>` : Indique le type de document. Ici, il s'agit d'un document HTML5.
- `<html>` : La balise racine qui englobe tout le contenu HTML.
- `<head>` : Contient les métadonnées (informations sur la page, comme le titre, le CSS, etc.).
- `<title>` : Définit le titre de la page qui apparaît dans l'onglet du navigateur.
- `<body>` : Contient le contenu visible de la page, comme les titres, les paragraphes, les images, les liens, etc.

## Balises HTML Courantes <a id="part1sec2"></a>

Les balises HTML les plus courantes (et qui structure une grande majorité des pages web) sont les titres, les paragraphes, les images, les listes et les tables. Voyons à quoi ressemblent ces différents éléments. Pour voir ce que donne le code proposé, il suffit de le copier/coller dans une cellule markdown et de lancer la cellule. Pour vous simplifier la tache, le code est déjà prêt dans une cellule raw, il suffit de changer le type de la cellule pour visualiser le résultat.

**Les Titres**

Les balises `<h1>` à `<h6>` sont utilisées pour les titres, où `<h1>` est le plus important (titre principal) et `<h6>` le moins important.

```html
<h1>Titre Principal</h1>
<h2>Sous-titre</h2>
<h3>Sous-sous-titre</h3>

<h1>Titre Principal</h1>
<h2>Sous-titre</h2>
<h3>Sous-sous-titre</h3>

**Les Paragraphes**

La balise `<p>` est utilisée pour créer des paragraphes de texte.

```html
<p>Ceci est un paragraphe de texte.</p>


<p>Ceci est un paragraphe de texte.</p>

**Les Liens**

Les liens sont créés avec la balise `<a>`. L'attribut href contient l'URL vers laquelle le lien pointe.

```html
<a href="https://www.lemonde.fr/">Cliquez ici pour visiter le site</a>

<a href="https://www.lemonde.fr/">Cliquez ici pour visiter le site</a>

**Les Images**

La balise `<img>` est utilisée pour afficher des images. L'attribut src indique l'URL de l'image, et alt fournit une description alternative.

```html
<img src="https://img.lemde.fr/2024/11/12/0/0/10012/13354/556/0/75/0/380e9cc_1731419198895-1317525f-9eef-452c-b231-f71b161ffa02.jpg" alt="Description de l'image">

<img src="https://img.lemde.fr/2024/11/12/0/0/10012/13354/556/0/75/0/380e9cc_1731419198895-1317525f-9eef-452c-b231-f71b161ffa02.jpg" alt="Description de l'image">


**Les Listes**

Il existe deux types de listes : ordonnées (`<ol>`) et non ordonnées (`<ul>`). Les éléments de liste sont définis par `<li>`.

```html 
<ul>
  <li>Élément de liste 1</li>
  <li>Élément de liste 2</li>
</ul>

<ol>
  <li>Premier élément</li>
  <li>Deuxième élément</li>
</ol>



<ul>
  <li>Élément de liste 1</li>
  <li>Élément de liste 2</li>
</ul>

<ol>
  <li>Premier élément</li>
  <li>Deuxième élément</li>
</ol>

**Les Tables**

Les tables sont définies avec `<table>`. Chaque ligne de la table est un `<tr>`, chaque en-tête est un `<th>`, et chaque cellule est un `<td>`.

```html
<table>
  <tr>
    <th>Nom</th>
    <th>Âge</th>
  </tr>
  <tr>
    <td>Alice</td>
    <td>24</td>
  </tr>
  <tr>
    <td>Bob</td>
    <td>30</td>
  </tr>
</table>

<table>
  <tr>
    <th>Nom</th>
    <th>Âge</th>
  </tr>
  <tr>
    <td>Alice</td>
    <td>24</td>
  </tr>
  <tr>
    <td>Bob</td>
    <td>30</td>
  </tr>
</table>


## Identifier des Éléments HTML <a id="part1sec3"></a>

Lors du web scraping, vous chercherez souvent des balises HTML spécifiques. Par exemple :

- Pour obtenir tous les paragraphes, cherchez les balises `<p>`.
- Pour les liens, recherchez les balises `<a>` avec l'attribut href.
- Pour les titres, identifiez les balises `<h1>`, `<h2>`, etc.
- Enfin, less attributs class et id sont souvent utilisés pour styliser ou structurer des éléments et peuvent aider à cibler des éléments spécifiques lors du scraping. Voir ci-dessous pour un exemple d'utilisation. 

```html
<p class="description">Texte avec une classe.</p>
<p id="intro">Texte avec un ID unique.</p>


Pour pouvoir analyser directement le code html d'une page web, on pourra essayer de regarder le code source de la page web. Pour se faire il suffit de faire un clique droit n'importe où sur la page puis de selectionner *Code source de la page*. On peut ensuite utiliser ce que l'on vient d'apprendre pour sélectionner précisément les éléments voulus.

# Partie 2 : Introduction au Web Scraping et aux Bibliothèques <a id="part2"></a>

Pour faire du scraping en Python, nous utiliserons les bibliothèques `Requests` pour faire des requêtes HTTP et `BeautifulSoup` pour manipuler des données HTML. Commençons par un exemple. Nous allons extraire les gros titres de page d'accueil du site d'actualités [Le Monde](https://www.lemonde.fr/).

1. Nous ferons une requête HTTP pour récupérer le contenu HTML.
2. Nous utiliserons BeautifulSoup pour extraire les gros titres du jour.

Exécutez le code pour voir un exemple simple de web scraping. N'hésitez pas à utiliser la documentation pour mieux comprendre comment fonctionne chaque fonction, ou à vous référer à la documentation en ligne de [requests](https://pypi.org/project/requests/) et [BeautifulSoup](https://pypi.org/project/beautifulsoup4/). 

### Faire une requête HTTP <a id="part2sec1"></a>

In [3]:
requests.get

<function requests.api.get(url, params=None, **kwargs)>

In [4]:
url = "https://www.lemonde.fr/" 
response = requests.get(url) #Permet d'appeler la page web

# Vérification du statut de la requête
if response.status_code == 200: 
    print("Requête réussie; Code:",response.status_code)
else:
    print("Erreur :", response.status_code)

Requête réussie; Code: 200


Le code de statut indique une erreur sauf s’il est égal à 200. C’est une manière de vérifier que votre extraction de données a réussi. Maintenant, utilisons **BeautifulSoup** pour analyser la page web. Pour ce faire, souvenons-nous de quelques principes de base.  


### Extraire les titres de la page avec BeautifulSoup <a id="part2sec2"></a>

In [6]:
soup = BeautifulSoup(response.text, 'html.parser') # on va creer un objet soup dans lequel on va pouvoir faire des recherches simplifiées

titres = soup.find_all('h1')  # Supposons que les gros titres ont dans des balises <h1>

for titre in titres:
    print(titre.text)


Ce que contient finalement le budget : des hausses d’impôts et des baisses de dépenses dans la plupart des ministères 


On peut vérifier en cliquant sur le [lien](https://www.lemonde.fr/) de la page que cette information correspond. 


<b style="color:red">À vous de jouer :</b> Comment pensez-vous que l'on pourrait récupérer les titres des autres articles? Réfléchissez et n'hésitez pas à essayer plusieurs solutions.  

<b style="color:red"> Réponse:</b>  : En sélectionnant un des titres et en observant le code source associé, on remarque que le titre se trouve dans une balise paragraphe avec une classe spéciale *'article__title'*. Nous allons donc utiliser `soup.find_all()` pour cibler ce type de balise. 

In [7]:
titres_alt = soup.find_all('p', class_ ='article__title')

for titre in titres_alt:
        print(titre.text)

Le scénario noir redouté par les dirigeants de Ligue 1 : une rupture de contrat par le diffuseur DAZN, faute d’abonnés suffisants
« Spotify prouve qu’il y a une vie numérique en dehors des Gafam »
Automobile : « Nissan est désormais plus seul que jamais »
« A terme, l’Europe peut faire des directives sur la durabilité un atout face aux Etats-Unis ou à la Chine »
Qui est Serge Atlaoui, de retour en France après dix-neuf ans de prison en Indonésie ?
Comment des soldats payés par TotalEnergies ont séquestré des civils au Mozambique
Dépressions, suicides... Dans le rugby, « il y a un mal qui est profond »
80 ans de l’ouverture d’Auschwitz : pourquoi les Alliés, informés de la Shoah, n’ont pas tenté de la stopper plus tôt
Un budget pour éviter le pire
Sophia Rosenfeld, historienne : « Notre conception moderne de la liberté est calquée sur le modèle consumériste »
Du trafic de drogue au « narcotrafic », une bascule sémantique et politique
Maxime Saada, président de Canal+ : « Le modèle du ci

### Extraire les paragraphes de texte principal d'une page web <a id="part2sec3"></a>

Nous allons maintenant cliquer sur un article au hasard et essayer d’extraire l’abstract de cet article. Prenons par exemple l'article suivant : [L'augmentation de la dette publique n'est plus taboue pour la droite allemande](https://www.lemonde.fr/international/article/2024/11/15/l-augmentation-de-la-dette-publique-n-est-plus-taboue-pour-la-droite-allemande_6394719_3210.html). Comment procéder ? Nous pouvons commencer par récupérer toutes les balises de texte (`<p>`). Voici ce que cela nous donne.  

In [8]:
url="https://www.lemonde.fr/international/article/2024/11/15/l-augmentation-de-la-dette-publique-n-est-plus-taboue-pour-la-droite-allemande_6394719_3210.html"
response = requests.get(url)

# Vérification du statut de la requête
if response.status_code == 200: 
    print("Requête réussie; Code:",response.status_code)
else:
    print("Erreur :", response.status_code)


Requête réussie; Code: 200


In [9]:
soup = BeautifulSoup(response.text, 'html.parser')

paragraphes = soup.find_all('p')
for paragraphe in paragraphes:
    print(paragraphe.text)
    print('\n')


Consulterle journal


Le scénario noir redouté par les dirigeants de Ligue 1 : une rupture de contrat par le diffuseur DAZN, faute d’abonnés suffisants


« Spotify prouve qu’il y a une vie numérique en dehors des Gafam »


Automobile : « Nissan est désormais plus seul que jamais »


« A terme, l’Europe peut faire des directives sur la durabilité un atout face aux Etats-Unis ou à la Chine »


Qui est Serge Atlaoui, de retour en France après dix-neuf ans de prison en Indonésie ?


Comment des soldats payés par TotalEnergies ont séquestré des civils au Mozambique


Dépressions, suicides... Dans le rugby, « il y a un mal qui est profond »


80 ans de l’ouverture d’Auschwitz : pourquoi les Alliés, informés de la Shoah, n’ont pas tenté de la stopper plus tôt


Un budget pour éviter le pire


Sophia Rosenfeld, historienne : « Notre conception moderne de la liberté est calquée sur le modèle consumériste »


Du trafic de drogue au « narcotrafic », une bascule sémantique et politique


Maxime Sa

Malheureusement, il reste encore beaucoup de contenu qui ne nous satisfait pas vraiment. Nous obtenons par exemple des morceaux de texte tels que *'Applications Mobiles'*, *'Abonnement'* ou *'Suivez Le Monde'*, qui sont clairement des bannières. Comment les supprimer ? Pour ce faire, nous allons observer les balises qui nous intéressent et les sélectionner spécifiquement. Dans le cas où nous souhaitons obtenir uniquement l’abstract de l’article (sa description), nous allons cibler les balises contenant la classe *'article__desc'*. Voyons ce que cela donne.  



In [10]:
paragraphes = soup.find_all('p', class_='article__desc') 

for paragraphe in paragraphes:
    print(paragraphe.text)
    print('\n')

    Friedrich Merz, chef de file des conservateurs de la CDU et probable prochain chancelier, n’exclut pas de modifier la Constitution pour autoriser l’Allemagne à accroître ses dépenses. Le frein à l’endettement est accusé de limiter les investissements dont le pays a besoin. 




Pour aller plus loin, nous pouvons examiner l’ensemble des classes existantes dans la page et sélectionner celles qui nous intéressent.  

In [11]:
classes = []
# on parcours les classses avec soup.find_all(class_=True)
for element in soup.find_all(class_=True):
    classes.extend(element["class"])

#on regarde ensuite le nom des class qui commence par 'article'

lst = [c for c in classes if c.startswith('article') ]
print(lst)

['article', 'article--nav', 'article__media-container', 'article__media', 'article__kicker', 'article__title', 'article', 'article--nav', 'article__media-container', 'article__media', 'article__kicker', 'article__title', 'article__author', 'article__author-name', 'article__author-desc', 'article', 'article--nav', 'article__media-container', 'article__media', 'article__kicker', 'article__title', 'article__author', 'article__author-name', 'article__author-desc', 'article', 'article--nav', 'article__media-container', 'article__media', 'article__kicker', 'article__title', 'article__author', 'article__author-name', 'article__author-desc', 'article', 'article--nav', 'article__media-container', 'article__media', 'article__kicker', 'article__title', 'article', 'article--nav', 'article__media-container', 'article__media', 'article__kicker', 'article__title', 'article', 'article--nav', 'article__media-container', 'article__media', 'article__kicker', 'article__title', 'article', 'article--nav', '

Il reste encore de très nombreuses classes. On pourrait les essayer une à une pour comprendre leurs roles, mais ici on va se contenter d'en selectionner deux:  *'article__paragraph'*, et *'article__desc'*. Voici ce que cela nous donne pour la page que nous sommes en train d'étudier. 

In [12]:
for p in soup.find_all('p', class_=['article__paragraph', 'article__desc']):
    print(p.text)
    print('\n')

    Friedrich Merz, chef de file des conservateurs de la CDU et probable prochain chancelier, n’exclut pas de modifier la Constitution pour autoriser l’Allemagne à accroître ses dépenses. Le frein à l’endettement est accusé de limiter les investissements dont le pays a besoin. 


Le prochain gouvernement allemand pourrait-il se réconcilier avec la dette, un mot si lourd de sens en allemand qu’il signifie à la fois endettement et culpabilité ? Friedrich Merz, le candidat conservateur de la CDU-CSU pour les élections législatives du 23 février 2025, et probable prochain chancelier, s’est montré ces derniers jours ouvert à l’idée d’une réforme du « frein à la dette », cette disposition constitutionnelle à laquelle les conservateurs allemands sont traditionnellement attachés, et qui corsète le déficit budgétaire à 0,35 % du produit intérieur brut (PIB) hors effets de la conjoncture.


Ce mécanisme, qui symbolise à lui seul toute la rigueur allemande en matière de finances publiques, fait l

### Extraire des images & des tableaux de données <a id="part2sec4"></a>

Nous allons maintenant changer de site internet et nous rendre chez un concurrent direct : le magazine [Le Parisien](https://www.leparisien.fr). Plus spécifiquement, concentrons-nous sur une page dédiée aux [JO 2024](https://www.leparisien.fr/jo-paris-2024/). Vous pouvez visiter cette page. Elle comporte un tableau des médailles, ainsi que de nombreuses images et articles.  

In [27]:
url = "https://www.leparisien.fr/jo-paris-2024/"
response = requests.get(url)
# Vérification du statut de la requête
if response.status_code == 200: 
    print("Requête réussie; Code:",response.status_code)
else:
    print("Erreur :", response.status_code)

Requête réussie; Code: 200


**Extraire les images et les visualiser**

Dans un premier temps, nous allons récupérer et visualiser les images présentes sur la page.  

In [28]:
images = soup.find_all('img')
urls_images = [img.get('src') for img in images if img.get('src')]

for url in urls_images:
    print(url)

https://img.lemde.fr/2025/02/04/0/276/2947/1965/180/0/95/0/05703b2_sirius-fs-upload-1-ixqfgccyw10o-1738659854607-pns-773008770-1.jpg
https://img.lemde.fr/2025/01/22/0/341/5818/3879/180/0/95/0/a902153_ftp-import-images-1-wyobqycp9jzk-2025-01-22t223059z-1763220998-rc27fcauy8s3-rtrmadp-3-amazon-com-quebec.JPG
https://img.lemde.fr/2025/02/03/210/0/5069/3379/180/0/95/0/c6bb5a4_sirius-fs-upload-1-ahorflxpgz3z-1738591103022-pns-2539943.jpg
https://img.lemde.fr/2019/10/22/64/0/5144/3429/180/0/95/0/339cb3b_I2AxVc1WjeFCFi24r9f0GfXu.jpg
https://img.lemde.fr/2025/01/30/0/300/3240/2160/180/0/95/0/6103195_sirius-fs-upload-1-yulsk23xeny4-1738251958020-c0010-mp4-03-41-08-21-still001.jpg
https://img.lemde.fr/2025/02/01/0/0/5620/3747/180/0/95/0/55d7799_ftp-import-images-1-w0saimcrmkn1-43c74d584d124fa19389b76e210071d5-0-0aacdd6316aa4efcadba7ed9943b029f.jpg
https://img.lemde.fr/2025/01/24/20/0/1920/1280/180/0/95/0/fe9ef39_sirius-fs-upload-1-61dpbniy8vpo-1737712514809-mozambique-appel.jpg
https://img.lemde

Pour visualiser une de ces images facilement en markdown on peut simplement utiliser un code html pour obetnir la visalisation suivante: 

```html
<img src="https://cloudfront-eu-central-1.images.arcpublishing.com/leparisien/6Y5RTFUE3NFYLC3LKQRLHKEAR4.jpg" alt="Description de l'image">


<img src="https://cloudfront-eu-central-1.images.arcpublishing.com/leparisien/6Y5RTFUE3NFYLC3LKQRLHKEAR4.jpg" alt="Description de l'image">


**Extraire un tableau et le transformer en dataframe**

Pour finir, voici un morceau de code simple qui permet de récupérer une table sur la page que nous venons de sélectionner. 

<b style="color:red">Attention:</b> ce code ne sera probablement pas reproductible. Comme tous les codes que nous avons vus dans ce TP, il est très dépendant de la structure de la page. Mais c'est d'autant plus vrai pour les tableaux. Avec l’évolution des pratiques de développement des sites internet, les tables simples en HTML sont de moins en moins courantes et sont souvent remplacées par des structures de code bien plus complexes. Gardons donc en tête que cette récupération ne fonctionnera que si le code de la page web que l’on scrappe est suffisamment simple.

In [13]:
soup = BeautifulSoup(response.text, 'html.parser')

tableau = soup.find('table')
lignes = tableau.find_all('tr')
data = []

for ligne in lignes:
    #print(colonnes)
    colonnes = ligne.find_all('span')
    data.append([col.text for col in colonnes])
print(data)



AttributeError: 'NoneType' object has no attribute 'find_all'

<b style="color:red">À vous de jouer :</b> 

Ces données sont un peu brutes. Proposez une manière de les reformater afin qu’elles soient exploitables pour une analyse de données. Par exemple, nous pourrions construire une ``DataFrame``. Vous pouvez ensuite essayer de faire une representation graphique comme pour le TP précédent sur l'analyse descriptive. 

<b style="color:red"> Réponse Possible:</b>

``` 


# Quelques Exercices <a id="part4"></a>
On va à présent mettre en pratique ces connaissances avec quelques exercices simples. 

## Exercice 1 <a id="part3sec1"></a>

- Prenez [la page d’accueil du Parisien](https://www.leparisien.fr/) ou celle de votre magazine préféré (attention certaines pages web peuvent être plus difficile à scrapper que d'autres). Essayez de ressortir les gros titres du jour. Que pouvez-vous dire de la page que vous étudiez par rapport à celle du Monde ?  
- Récupérez les liens de la page (balise ``<a>``). Que peut-on dire des différents liens ? Sélectionner un lien qui semble être un article (on pourra vérifier à la main en cliquant sur le lien).  *Hint : on pourra utiliser la commande `get('href')` pour récupérer le lien vers lequel pointe la balise.* 
- Sélectionner cet article et essayer de scraper le titre, le résumé et/ou l’image associée.
  *Hint : pour selectionner une sous parti de la page, on peut également utiliser la fonction ``find``(pas seulement ``find_all``).* 
- Automatiser l’étape précédente et essayer de l’exécuter pour une suite d’articles issus de votre scraping de liens.  

<b style="color:red"> Réponse Possible:</b>

In [14]:
url = 'https://www.leparisien.fr/'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

titres = soup.find_all('h3' , class_ = 'lp-card-article__title')
for titre in titres :
    print(titre.text.strip())

#Les gros titres sur le site LP n'ont pas la même balise que sur LM

Disparition de Cécile Vallin : bras de fer entre Monique Olivier et les juges d’instruction ce matin
SNCF : trafic toujours perturbé sur les TGV entre Paris et le Sud-Est, la panne réparée
« La stabilité régnerait dans la région ! » : Trump persiste pour le contrôle de Gaza, malgré les reculades de la Maison-Blanche
L’écrivain Paul-Loup Sulitzer est mort à l’âge de 78 ans
Faux Kendji Girac, Florent Pagny ou David Hallyday : comment on a piégé des brouteurs, ces « arnacœurs » en ligne
À Paris, une grève à prévoir dans les écoles mardi 11 février
DIRECT. Tuerie de Chevaline : « Les fillettes survivantes n'ont pu donner de description physique précise du tireur »
Chutes de neige : quelques flocons attendus en Île-de-France et en Normandie vendredi et ce week-end
« On a un traceur, on va la retrouver »… Au cœur de la traque d’une voiture volée en Île-de-France
Les fauteuils roulants intégralement remboursés à partir de décembre 2025
Après la fracture sur la censure, le Nouveau Front popula

In [15]:
liens = soup.find_all('a')

for lien in liens:
    href = lien.get('href')
    print(href)
    print(lien.text.strip())

#Il y a des liens vers des catégories d'articles, vers des images, vers des articles, des liens absolus...

/
Le Parisien : Actualités en direct et info en continu
/
À la une
/actualites-en-continu/
En continu
/faits-divers/
Faits divers
/politique/
Politique
/international/
International
/economie/
Économie
/societe/
Société
/sports/
Sports
/culture-loisirs/
Culture
/etudiant/
Étudiant
/video/
Vidéos
/guide-shopping/
Guide d'achat
/jardin/
Jardin
/paris-75/
75 · Paris
/essonne-91/
91 · Essonne
/hauts-de-seine-92/
92 · Hauts-de-Seine
/seine-saint-denis-93/
93 · Seine-Saint-Denis
/val-de-marne-94/
94 · Val-de-Marne
/val-d-oise-95/
95 · Val-d'Oise
/seine-et-marne-77/
77 · Seine-et-Marne
/yvelines-78/
78 · Yvelines
/oise-60/
60 · Oise
/info-paris-ile-de-france-oise/transports/
Transports
/info-paris-ile-de-france-oise/
Toutes les actualités locales
/
À la une
/actualites-en-continu/
En continu
/info-paris-ile-de-france-oise/
Paris & Île-de-France
/paris-75/
Paris
/essonne-91/
Essonne
/hauts-de-seine-92/
Hauts-de-Seine
/seine-saint-denis-93/
Seine-Saint-Denis
/val-d-oise-95/
Val-d'Oise
/val-de-m

In [16]:
articles = soup.find_all('h3' , class_ ='lp-card-article__title')

for article in articles:
        lien = article.find('a')  # Chercher le lien dans l'article
        if lien and lien.get('href'):  # Vérifier que le lien existe
            url_article = "https:" + lien.get('href')
            print(url_article)

https://www.leparisien.fr/faits-divers/disparition-de-cecile-vallin-monique-olivier-a-t-elle-parle-06-02-2025-Y6TVE5I645HU3GN7JJDXUMQ73E.php
https://www.leparisien.fr/economie/jusqua-3-heures-de-retard-trains-supprimes-le-trafic-des-tgv-fortement-perturbe-entre-paris-et-le-sud-est-06-02-2025-DNS6M6A5ZBGU3AZ4OZTCNUAZZY.php
https://www.leparisien.fr/international/la-stabilite-regnerait-dans-la-region-trump-persiste-pour-le-controle-de-gaza-malgre-les-reculades-de-la-maison-blanche-06-02-2025-BXQ3AB77AVDOHBATRJC6C2YE5Y.php
https://www.leparisien.fr/culture-loisirs/livres/lecrivain-paul-loup-sulitzer-est-decede-a-lage-de-78-ans-06-02-2025-PXEEZALAT5E4FINISBQBBD5HTI.php
https://www.leparisien.fr/societe/5-kendji-girac-4-florent-pagny-4-david-hallyday-comment-on-a-piege-des-brouteurs-ces-arnacoeurs-en-ligne-06-02-2025-LTKL75V6YJENBCMSQJ5SLGFE4Q.php
https://www.leparisien.fr/paris-75/a-paris-une-greve-a-prevoir-dans-les-ecoles-mardi-prochain-06-02-2025-IEQCRALWLRHWPARIFII4OWGT34.php
https://w

In [17]:
url = "https://www.leparisien.fr/faits-divers/serge-atlaoui-condamne-a-mort-en-indonesie-est-arrive-en-france-05-02-2025-RW5CVJJDFBG75GLZHJZD6RE2DU.php"

response = requests.get(url)

soup = BeautifulSoup(response.text, 'html.parser')
titre = soup.find('h1')
titre_text = titre.text.strip()
print(f"Titre : {titre_text}")

resumes = soup.find_all('p')
for resume in resumes :
    resume_text = resume.text.strip()
    print(resume_text, '\n')





Titre : Serge Atlaoui, condamné à mort en Indonésie, a été incarcéré en France
Le Français de 61 ans avait été condamné à mort en Indonésie pour trafic de drogue en 2007 avant qu’un accord soit trouvé avec Paris. Comme le veut la procédure, il a été présenté à un juge puis incarcéré. 

Serge Atlaoui, Français condamné à mort en Indonésie pour trafic de drogue en 2007, est arrivé ce mercredi matin en France. À son arrivée à l’aéroport de Roissy-Charles de Gaulle, peu après 10 heures du matin, il a été pris en charge par des agents de l’administration pénitentiaire puis amené au tribunal judiciaire de Bobigny (Seine-Saint-Denis). 

Il y a été présenté à un magistrat du parquet qui lui a notifié son incarcération pour exécution de sa peine, puis transféré à la maison d’arrêt du Val-d’Oise à Osny, a indiqué le parquet. 

« Je suis particulièrement ému et soulagé de le savoir en France », a déclaré à l’AFP son avocat Richard Sédillot. « Je vais tout faire pour obtenir un permis de visite tr

### Exercice 2  <a id="part3sec2"></a>

Allez sur la page wikipedia de [Marie Curie](https://fr.wikipedia.org/wiki/Marie_Curie). À l'aide des connaissances acquise durant le TP faites les opération suivantes. 

- Récupérez et affichez les informations importantes qui se trouve dans l'encadré en eau à droite de la page.
- Récupérez et affichez les deux premiers paragraphes qui décrivent la vie de Marie Curie en quelques lignes. 

<b style="color:red"> Réponse Possible:</b>

In [42]:
url = 'https://fr.wikipedia.org/wiki/Marie_Curie'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

#1 L'infobox
infobox = soup.find('div', class_=   'infobox_v3 infobox infobox--frwiki noarchive')

#Image
image = infobox.find('img')
image_url = "https:" + image['src'] if image else "Aucune image trouvée"
print(f"🖼 **Image principale** : {image_url}\n")

#Le contenu
lignes = infobox.find_all('tr')
print('\n~~~~~~~TABLEAU~~~~~~ \n')
for ligne in lignes :
    titre = ligne.find('th').text.strip()
    valeur = ligne.find('td').text.strip()
    print( f"Titre : {titre} || Valeur = {valeur} ") 

🖼 **Image principale** : https://upload.wikimedia.org/wikipedia/commons/thumb/7/7e/Marie_Curie_c1920.jpg/220px-Marie_Curie_c1920.jpg


~~~~~~~TABLEAU~~~~~~ 

Titre : Nom de naissance || Valeur = Maria Salomea Skłodowska 
Titre : Naissance || Valeur = 7 novembre 1867Varsovie (Royaume du Congrès, actuelle Pologne) 
Titre : Décès || Valeur = 4 juillet 1934 (à 66 ans)Passy, Haute-Savoie (République française) 
Titre : Nationalité || Valeur = Polonaise par naissance, Française par mariage 
Titre : Conjoint || Valeur = Pierre Curie 
Titre : Famille || Valeur = Enfants :Irène Joliot-CurieÈve Curie 
Titre : Résidence || Valeur = Paris 
Titre : Domaines || Valeur = Physique nucléaire  Radiochimie  Radiologie 
Titre : Institutions || Valeur = École municipale de physique et de chimie industrielles de la ville de Paris, Faculté des sciences de l'université de Paris, Institut du radium de l'Institut Pasteur et de l'université de Paris. 
Titre : Diplôme || Valeur = Faculté des sciences de Paris 
Ti

In [52]:
#2 Les deux premiers para
content = soup.find('div', class_ ='mw-content-ltr mw-parser-output')
paragraphes = content.find_all('p')
nb_para = 0

for paragraphe in paragraphes:
    text = paragraphe.text.strip()
    if text :
        print(text, '\n')
        nb_para += 1
    
    if nb_para == 4 :
        break


nb_para = 0
nb_para = 0
Pour les articles homonymes, voir Marie Curie (homonymie), Curie et Famille Curie. 

nb_para = 1
modifier 

nb_para = 2
Marie Curie (ou Marie Skłodowska-Curie),  née le 7 novembre 1867 à Varsovie (royaume de Pologne, sous domination russe) et morte le 4 juillet 1934 à Passy (Haute-Savoie), dans le sanatorium de Sancellemoz, est une physicienne et chimiste polonaise, naturalisée française par son mariage avec le physicien Pierre Curie en 1895. Scientifique d'exception, elle est la première femme à avoir reçu le prix Nobel et, à ce jour, la seule femme à en avoir reçu deux. Elle reste la seule personne à avoir été récompensée dans deux domaines scientifiques distincts[1]. Elle est également la première femme lauréate, avec son mari, de la médaille Davy de 1903 pour ses travaux sur le radium[2]. 

nb_para = 3
En 1903, les époux Curie partagent avec Henri Becquerel le prix Nobel de physique pour leurs recherches sur les radiations (radioactivité, rayonnement corpusc

## Exercice 3 

Allez sur la page [QuotetoScrape](http://quotes.toscrape.com/). Récupérez les l'ensemble des citations de la page, ainsi que leurs auteurs et les sauvegarder dans un fichier **citations.csv**

In [18]:
from bs4 import BeautifulSoup
import requests
import pandas as pd
import csv

base_url = 'https://quotes.toscrape.com/'
data=[]

url = base_url

while url :
    response = requests.get(url)

    soup = BeautifulSoup(response.text, 'html.parser')
    quotes = soup.find_all ('div', class_ = 'quote')

    for quote in quotes :
        citation = quote.find('span', class_= 'text').text.strip()
        print(citation)
        author = quote.find('small', class_= 'author').text.strip()
        data.append([citation , author])

    # Vérifier s'il y a une page suivante
    next_button = soup.find('li', class_='next')
    if next_button:
        next_page = next_button.find('a')['href']  # Récupérer l'URL de la page suivante
        url = base_url + next_page  # Construire l'URL complète
    else:
        url = None  # Arrêter la boucle si aucune page suivante

with open("citations.csv", "w", newline="", encoding="utf-8") as file:
    writer = csv.writer(file)
    writer.writerow(["Citation", "Auteur"])  # Écrire l'en-tête
    writer.writerows(data)  # Écrire les données


“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”
“It is our choices, Harry, that show what we truly are, far more than our abilities.”
“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”
“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”
“Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”
“Try not to become a man of success. Rather become a man of value.”
“It is better to be hated for what you are than to be loved for what you are not.”
“I have not failed. I've just found 10,000 ways that won't work.”
“A woman is like a tea bag; you never know how strong it is until it's in hot water.”
“A day without sunshine is like, you know, night.”
“This life is what you make it. No matter what, you're going to mess up sometimes, it's a unive

## Exercice Bonus

En utilisant wikipedia (``url = https://fr.wikipedia.org/wiki/NOMDUPAYS``), construisez un jeu de données contenant la population totale du groupe de 20 pays au choix. 

- Sauvegardez ce jeu de données dans un fichier csv.
- Faites une étude statistique du jeu de donnée en utilisant les compétences acquises pendant le TP précédent sur l'analyse descriptive.