# Exemple de scraping

### Installation des librairies

In [52]:
# Décommenter les lignes pour installer les librairies
# !pip install --user --upgrade beautifulsoup4
# !pip istall --user --upgrade requests

### Importation des librairies

- La librairie ```requests``` permet d'exécuter des méthodes HTPP comme GET ou POST par exemple. 
- La librairie ```bs4``` (Beautiful Soup) permet d'extraire des données spécifiques d'un document HTML.

In [9]:
import requests
from bs4 import BeautifulSoup

### Exemple d'utilisation

Le principe est de récupérer le code source d'une page web (HTML) grâce à la librairie ```requests``` puis d'en extraire certaines informations grâce à la fonction ```Beautiful Soup``` de la librairie ```bs4```.

In [6]:
# url de la page web à scraper
url = 'https://fr.wikipedia.org/wiki/Jul_(chanteur)'

La méthode HTTP la plus utilisée est la méthode GET, elle indique que vous essayez de récupérer des données à partir d'un URL.

In [7]:
response = requests.get(url)

L'objet response contient plusieurs informations:
- status_code : code qui renseigne sur le résultat de la requête (200 = succès, 204 = succès mais pas de contenu, 404 = page non trouvée, ...)
- text : le code source de la page en string
- content : le code source de la page en bytes
- ...

La fonction ```Beautiful Soup``` parcourt tout le code source de la page et représente le document comme une structure de données imbriquée.

In [11]:
soup = BeautifulSoup(response.text, 'html.parser')
# Permet de mieux voir le code source obtenu indenté
print(soup.prettify())

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="fr">
 <head>
  <meta charset="utf-8"/>
  <title>
   Jul (chanteur) — Wikipédia
  </title>
  <script>
   document.documentElement.className="client-js";RLCONF={"wgBreakFrames":!1,"wgSeparatorTransformTable":[",\t."," \t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","janvier","février","mars","avril","mai","juin","juillet","août","septembre","octobre","novembre","décembre"],"wgRequestId":"d7fa55ba-e647-4769-9e20-20517f47847d","wgCSPNonce":!1,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":!1,"wgNamespaceNumber":0,"wgPageName":"Jul_(chanteur)","wgTitle":"Jul (chanteur)","wgCurRevisionId":176630183,"wgRevisionId":176630183,"wgArticleId":8175422,"wgIsArticle":!0,"wgIsRedirect":!1,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Page en semi-protection longue","Article utilisant une Infobox","Article de Wikipédia avec notice d'autorité","Page utilisant P1953","Page ut

On peut ensuite naviguer dans cette structure de données.<br>
Voici quelques exemples :

In [26]:
print(soup.title) # Affichage de la balise title et de son contenu
print(soup.title.name) # Affichage du nom de la balise
print(soup.title.string) # Affichage du contenu de la balise en string
print(soup.title.parent.name) # Affichage du nom de la balise parent de title

<title>Jul (chanteur) — Wikipédia</title>
title
Jul (chanteur) — Wikipédia
head


Deux fonctions très utiles de cette librairie pour chercher une balise ou le contenu de toutes les mêmes balises :
- ```find``` : elle renvoie la première balise correspondante à la recherche
- ```find_all``` : elle renvoie une liste contenant toutes les balises correspondantes à la recherche

Si vous ne voulez qu'un seul résultat, ```find``` est la fonction a utiliser car elle s'arrête dès qu'elle trouve le résultat alors que ```find_all``` s'arrête une fois tout le document parcouru.

In [37]:
print(soup.find('meta')) # Recherche de la première balise meta

print(soup.find(id="mw-sidebar-checkbox")) # Recherche de la balise qui a comme attribut id = "mw-sidebar-checkbox"

<meta charset="utf-8"/>
<input checked="" class="mw-checkbox-hack-checkbox" id="mw-sidebar-checkbox" type="checkbox"/>


In [45]:
print(soup.find_all('a')) # Recherche toutes les balises a

[<a class="mw-jump-link" href="#content">Aller au contenu</a>, <a class="mw-logo" href="/wiki/Wikip%C3%A9dia:Accueil_principal">
<img alt="" aria-hidden="true" class="mw-logo-icon" height="50" src="/static/images/mobile/copyright/wikipedia.png" width="50"/>
<span class="mw-logo-container">
<img alt="Wikipédia" class="mw-logo-wordmark" height="18" src="/static/images/mobile/copyright/wikipedia-wordmark-fr.svg" width="119"/>
<img alt="l'encyclopédie libre" class="mw-logo-tagline" height="13" src="/static/images/mobile/copyright/wikipedia-tagline-fr.svg" width="113"/>
</span>
</a>, <a accesskey="n" href="/wiki/Sp%C3%A9cial:Mes_discussions" title="La page de discussion pour les contributions depuis cette adresse IP [n]">Discussion</a>, <a accesskey="y" href="/wiki/Sp%C3%A9cial:Mes_contributions" title="Une liste des modifications effectuées depuis cette adresse IP [y]">Contributions</a>, <a href="/w/index.php?title=Sp%C3%A9cial:Cr%C3%A9er_un_compte&amp;returnto=Jul+%28chanteur%29" title="N

In [46]:
print(soup.find_all('a', class_ = 'mw-logo')) # Recherche toutes les balises a avec un attribut class = "mw-logo"

[<a class="mw-logo" href="/wiki/Wikip%C3%A9dia:Accueil_principal">
<img alt="" aria-hidden="true" class="mw-logo-icon" height="50" src="/static/images/mobile/copyright/wikipedia.png" width="50"/>
<span class="mw-logo-container">
<img alt="Wikipédia" class="mw-logo-wordmark" height="18" src="/static/images/mobile/copyright/wikipedia-wordmark-fr.svg" width="119"/>
<img alt="l'encyclopédie libre" class="mw-logo-tagline" height="13" src="/static/images/mobile/copyright/wikipedia-tagline-fr.svg" width="113"/>
</span>
</a>]


Enfin, la fonction ```get_text()``` permet d'extraire le texte de toutes les balises comprises entre une certaine balise.

In [50]:
print(soup.head.get_text()) # Affichage du texte de toutes les balises comprises entre la balise head



Jul (chanteur) — Wikipédia
document.documentElement.className="client-js";RLCONF={"wgBreakFrames":!1,"wgSeparatorTransformTable":[",\t."," \t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","janvier","février","mars","avril","mai","juin","juillet","août","septembre","octobre","novembre","décembre"],"wgRequestId":"d7fa55ba-e647-4769-9e20-20517f47847d","wgCSPNonce":!1,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":!1,"wgNamespaceNumber":0,"wgPageName":"Jul_(chanteur)","wgTitle":"Jul (chanteur)","wgCurRevisionId":176630183,"wgRevisionId":176630183,"wgArticleId":8175422,"wgIsArticle":!0,"wgIsRedirect":!1,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Page en semi-protection longue","Article utilisant une Infobox","Article de Wikipédia avec notice d'autorité","Page utilisant P1953","Page utilisant P4208","Page utilisant P434","Page utilisant P3478","Page pointant vers des bases externes",
"Page pointant vers des bases re

Il est aussi possible d'afficher tout le texte du document.

In [51]:
print(soup.get_text())





Jul (chanteur) — Wikipédia
document.documentElement.className="client-js";RLCONF={"wgBreakFrames":!1,"wgSeparatorTransformTable":[",\t."," \t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","janvier","février","mars","avril","mai","juin","juillet","août","septembre","octobre","novembre","décembre"],"wgRequestId":"d7fa55ba-e647-4769-9e20-20517f47847d","wgCSPNonce":!1,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":!1,"wgNamespaceNumber":0,"wgPageName":"Jul_(chanteur)","wgTitle":"Jul (chanteur)","wgCurRevisionId":176630183,"wgRevisionId":176630183,"wgArticleId":8175422,"wgIsArticle":!0,"wgIsRedirect":!1,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Page en semi-protection longue","Article utilisant une Infobox","Article de Wikipédia avec notice d'autorité","Page utilisant P1953","Page utilisant P4208","Page utilisant P434","Page utilisant P3478","Page pointant vers des bases externes",
"Page pointant vers des bases 

Il existe plein d'autres fonctions qui pourront vous être utile dans les deux librairies, voici les documentations :
- [requests](https://requests.readthedocs.io/en/master/)
- [Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#)