# Web Scraping BeautifulSoup

* Le ```Web Scraping``` est un ensemble de techniques permettant d’extraire des données d’un site web dynamique.

* ```BeautifulSoup``` est, avec ```Selenium```, la bibliothèque Python la plus utilisée lorsqu’il s’agit de ```Web Scraping```.

* Elle permet d’interagir avec des sites web statiques sous forme de requête ```HTML```.

* Documentation ```BeautifulSoup``` : [ici](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) !

* Documentation ```Requests``` : [ici](https://requests.readthedocs.io/en/latest/) !

## Importation des librairies

In [20]:
from bs4 import BeautifulSoup
import pandas as pd
import requests

## Préparation de la requête

In [21]:
# stocker l'url d'une page wikipedia
url = 'https://fr.wikipedia.org/wiki/Liste_des_pays_par_population'
# recupèrer la requête HTML
response = requests.get(url)

## Extration du code HTML

In [22]:
# extraire le code HTML de la requête
soup = BeautifulSoup(response.text)

In [23]:
# afficher du code HTML
print(soup)

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="fr">
<head>
<meta charset="utf-8"/>
<title>Liste des pays par population — Wikipédia</title>
<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\t."," \t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","janvier","février","mars","avril","mai","juin","juillet","août","septembre","octobre","novembre","décembre"],"wgRequestId":"1c75050d-63bc-420a-893b-4ecc51559725","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Liste_des_pays_par_population","wgTitle":"Liste des pays par population","wgCurRevisionId":195966849,"wgRevisionId":195966849,"wgArticleId":14110,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Page en semi-protection longue","Portail:Démographie/Articles liés","Portail:Sciences humaines et soci

## Extraction des données

In [24]:
# extraire des données sous forme de tableau
data = soup.find_all('table')[0]
data

<table class="wikitable sortable alternance">
<tbody><tr>
<th class="unsortable" scope="col" width="10%">Rang
</th>
<th data-sort-type="text" scope="col" width="55%">Pays ou territoire
</th>
<th data-sort-type="number" scope="col" width="35%">Population en 2022 <br/>(projections de l'ONU de 2019)<sup class="reference" id="cite_ref-2"><a href="#cite_note-2"><span class="cite_crochet">[</span>2<span class="cite_crochet">]</span></a></sup>
</th></tr>
<tr>
<td><b>-</b>
</td>
<td><a class="image" href="/wiki/Fichier:Circle-icons-globe.svg" title="Monde"><img alt="Monde" data-file-height="512" data-file-width="512" decoding="async" height="21" src="//upload.wikimedia.org/wikipedia/commons/thumb/e/e0/Circle-icons-globe.svg/21px-Circle-icons-globe.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/e/e0/Circle-icons-globe.svg/32px-Circle-icons-globe.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/e/e0/Circle-icons-globe.svg/42px-Circle-icons-globe.svg.png 2x" width="21

In [25]:
# récupérer le code HTML sous forme de Data Frame
df = pd.read_html(str(data))[0]

## Stockage des données

In [26]:
# afficher les 5 premières lignes
df.head()

Unnamed: 0,Rang,Pays ou territoire,Population en 2022 (projections de l'ONU de 2019)[2]
0,-,Monde,7 953 953 000
1,1,Chine[a],1 448 471 000
2,2,Inde,1 406 632 000
3,3,États-Unis[b],334 805 000
4,4,Indonésie,279 135 000


In [27]:
# afficher les 5 dernières lignes
df.tail()

Unnamed: 0,Rang,Pays ou territoire,Population en 2022 (projections de l'ONU de 2019)[2]
231,-,Montserrat,5 000
232,-,Malouines,4 000
233,-,Niue,2 000
234,-,Tokelau,1 000
235,196,Vatican,1 000


## Exportation des données

In [28]:
# convertir les données en fichier CSV
df.to_csv(r"world_population_by_country.csv", index = None, header = True)