# Scraping

Le scraping consiste à extraire des données de pages Web de manière automatique.

La méthode la plus simple consiste à demander le code HTML de la page désirée et à utiliser sa structure pour accéder aux données intéressantes. Ces données peuvent contenir des liens vers d’autres pages à scraper.

In [1]:
# Ce module permet de faire des «requêtes»: donne-moi telle page Web
import requests

# Ce module sert à parcourir la structure d ela page
from bs4 import BeautifulSoup
import pandas as pd


In [2]:
# Ici, on envoie une requête pour la page
response = requests.get('https://www.fhs.swiss/fre/watch_brands.html')

In [3]:
# Quel est le statut de la réponse? Si c’est un 404, la page n’a pas été trouvée
response

<Response [200]>

In [8]:
# On charge la page dans BeautifulSoup
doc = BeautifulSoup(response.text, 'html.parser')
print(doc.prettify())

<!DOCTYPE HTML>
<html>
 <head>
  <meta charset="utf-8"/>
  <title>
   FH - Marques horlogÃ¨res
  </title>
  <link href="/favicon.ico" rel="icon" type="image/gif"/>
  <link href="/css/styles.css" rel="stylesheet" type="text/css"/>
  <link href="/css/styles-template.css?v=1.3" rel="stylesheet" type="text/css"/>
  <!--<link href='http://fonts.googleapis.com/css?family=Oswald:400,300,700' rel='stylesheet' type='text/css'>-->
  <link href="/css/Oswald.css" rel="stylesheet" type="text/css"/>
  <script src="/js/jquery.min.321.js">
  </script>
  <script src="https://www.openindex.io/js/openindex.mxnunpyuoj3cvpf9.js" type="application/javascript">
  </script>
  <script type="text/javascript">
   //<!--
//document.oncontextmenu = new Function("return false");
//-->
  </script>
 </head>
 <body>
  <div class="wrapper">
   <div id="header">
    <form action="search.html" method="get" name="form1">
     <div id="top_header">
      <input class="search-bt" id="oi-submit" title="send" type="submit" 

## Parcourir la structure de la page
A partir de cette étape, la structure de la page est contenue dans notre variable `doc`.

HTML est structuré par des balises, des mots-clés entourés des signes < et >:

* un paragraphe est signalé par les balises `<p>` (au début) et `</p>` (à la fin)
* le titre principal est entre les balises `<h1>` et `</h1>` (header 1)
* un tableau est entre les balises `<table>` … `</table>`
* une ligne de tableau est entre les balises `<tr>` … `</tr>` (table row)
* une cellule de tableau est entre les balises `<td>` … `</td>` (table data)

Nous pouvons demander à BeautifulSoup de nous chercher des balises HTML avec les fonctions:

`find`: trouver la première balise correspondante

`find_all`: trouver toutes les balises correspondantes

In [None]:
# Voici la liste des images

In [21]:
img = doc.find_all("img")
img

[<img class="logo_fh" src="/images/logo_fh_swiss.png"/>,
 <img height="250" src="/images/banner_links.jpg" width="940"/>,
 <img src="/images/fleche_gris.png"> Liens et coordonnÃ©es <img src="/images/fleche_gris.png"> Marques horlogÃ¨res</img></img>,
 <img src="/images/fleche_gris.png"> Marques horlogÃ¨res</img>,
 <img class="align-center no-border" src="/logos/503.gif"/>,
 <img class="align-center no-border" src="/logos/377.gif"/>,
 <img class="align-center no-border" src="/logos/550.gif"/>,
 <img class="align-center no-border" src="/logos/300.gif"/>,
 <img class="align-center no-border" src="/logos/400.gif"/>,
 <img class="align-center no-border" src="/logos/4.gif"/>,
 <img class="align-center no-border" src="/logos/272.gif"/>,
 <img class="align-center no-border" src="/logos/438.gif"/>,
 <img class="align-center no-border" src="/logos/430.gif"/>,
 <img class="align-center no-border" src="/logos/10.gif"/>,
 <img class="align-center no-border" src="/logos/539.gif"/>]

In [None]:
# Voici la liste des liens (75)

In [34]:
links = doc.find_all("a")
links

[<a href="contact.html">Contact</a>,
 <a href="/eng/watch_brands.html" title="English">English</a>,
 <a href="/jpn/watch_brands.html" title="Japanese">æ¥æ¬èª</a>,
 <a href="/zht/watch_brands.html" title="Traditional Chinese">ç¹é«ä¸­æ</a>,
 <a href="/zhs/watch_brands.html" title="Simplified Chinese">ç®ä½ä¸­æ</a>,
 <a href="homepage.html"><img class="logo_fh" src="/images/logo_fh_swiss.png"/></a>,
 <a href="homepage.html">Accueil</a>,
 <a href="swissmade.html">Swiss made</a>,
 <a href="stopthefakes.html">Halte au faux!</a>,
 <a href="statistics.html">Statistiques</a>,
 <a href="knowledge.html">Connaissances</a>,
 <a href="watch_brands.html">Liens horlogers</a>,
 <a href="?letter=B">B</a>,
 <a href="?letter=C">C</a>,
 <a href="?letter=D">D</a>,
 <a href="?letter=E">E</a>,
 <a href="?letter=F">F</a>,
 <a href="?letter=G">G</a>,
 <a href="?letter=H">H</a>,
 <a href="?letter=I">I</a>,
 <a href="?letter=J">J</a>,
 <a href="?letter=K">K</a>,
 <a href="?letter=L">L</a>,
 <a href="?le

75

## Trouver les attributs
Trouver des liens, c’est bien. Mais comment extraire l’URL vers lequel ils conduisent?

La méthode `.get()` est faite pour ça: elle récupère les attributs d’une balise HTML, comme l’attribut «href» qui contient ces URL.

## … et avec une boucle
Mettons que nous voulons récupérer toutes les URL de notre menu:
* avec une boucle `for`, on peut passer les liens en revue
* la méthode `.get()` nous permettra de récupérer l’URL de chaque lien

In [None]:
for a in doc.select():
    print(a.get('href'))

## Selecteurs
Les balises html contiennent parfois les attributs **id** et/ou **class**. Concrètement, ça se présente par exemple comme ça:

`<table id="resultats" class="bordered striped">`

L’attribut **id** (identifiant) est unique: un seul élément le porte.

L’attribut **class** (classes) peut être ajouté à plusieurs éléments.

Les classes et identifiants servent à styliser la page: tels éléments ont une bordure rouge, un fond gris clair, etc. Ces instructions sont regroupées dans du [code CSS](https://www.w3.org/Style/Examples/011/firstcss.fr.html), un langage informatique qui définit la présentation du HTML.

Dans le code CSS, on les éléments du HTML par des **sélecteurs**. En voici des exemples:

`table
#resultats
table.striped
.bordered`

Tous ces sélecteurs renvoient à la `<table id="resultats" class="bordered striped">` donnée comme exemple plus haut. On peut donc cibler une balise HTML par son nom, par son id (en le précédent d’un "#") ou par une de ses classes.

Pour trouver le sélecteur d’un élément qui vous intéresse, vous pouvez inspecter la page (cmd-alt-i dans Firefox ou Chrome), le repérer dans «Elements» grâce à la flèche tout à gauche, puis faire clic droit -> Copy -> CSS selector.

Avec BeautifulSoup, on peut retrouver les éléments correspondants à un sélecteur grâce à la méthode:

`.select('selecteur')`

Cette méthode renvoie une liste, voici un exemple:

In [None]:
doc.select('.nav-menu a')

# Attributs et méthodes

Mettez doc.find('p') dans la variable `test`, puis écrivez `test.` et appuyez sur tab en laissant votre curseur après le point. Quels attributs et méthodes apparaissent? Essayez-en quelques-uns.

Vous avez trouvez? Allez, je vous en donne trois:
* `.string` donne le texte de la balise uniquement
* `.text` donne le texte de la balise et de toutes les balises qu’elle contient
* `.get()` permet d’obtenir un attribut précis, comme id, class, href

Pour avoir des exemples clairs, on va charger une page spécialement préparée pour votre scraping.

In [None]:
response = requests.get('https://exemple.tcch.ch/scraping/')
doc = BeautifulSoup(response.content, 'html.parser')

In [None]:
# premier paragraphe
p = doc.find('p')
print('La balise et son contenu:', p)
print('Le contenu grâce à .string:', p.string)
print('Le contenu grâce à .text:', p.text)

Quelle différence entre `.string` et `.text`? On le comprend quand notre balise contient d’autres balises. C’est le cas du dernier paragraphe: il contient une balise `<em>`.

In [None]:
# dernier paragraphe
p = doc.select('p')[-1]
p

In [None]:
print('.string:', p.string)
print('.text:', p.text)

Quand une balise contient d’autres balises, `.string` renvoie donc **None**, tandis que `.text` renvoie tout le texte contenu dans la balise principale et les balises qu’elle contient.

## A vous
Qu’est-ce que `.string` et `.text` donnent comme résultat avec la table? Essayez!

In [None]:
Import pandas as pd


Le système que nous avons vu ne fonctionne pas pour certaines pages Web construites dynamiquement avec du JavaScript. Dans ce cas, on peut automatiser un navigateur tel que Chrome ou Firefox avec des outils comme [Selenium](https://pypi.org/project/selenium/). C’est nettement plus complexe que d’utiliser requests et BeautifulSoup.