1. scraping: Qu'est-ce que cela signifie?

2. Notions de base sur le scraping
  - Comment utiliser `requests` et `BeautifulSoup` pour extraire des éléments HTML ?
  - Exercices
3. Les obstacles du scraping
  - Les aspects juridiques
  - Obstacles à surmonter (techniques) et comment les contourner: (Selenium)

4. Project: extract prices from Amazon or Airbnb

5. Production and Automation:
  - extract the price of a given product and get an alert if the price is lower that a given threshold.

# 1. scraping: Qu'est-ce que cela signifie?:

c'est un process utilisé pour extraire les données à partir des sites web.

- cette technique implique l'envoi d'une requete à un site web, le téléchargement et l'extraction de données à partir de la page.

```Imaginez le temps gagné, au lieu d’extraire les données manuellement.```


Le web scraping peut être utilisé à des fins diverses. En dehors de l’indexation par les moteurs de recherche, il est notamment utilisé pour :

- Créer des bases de données de contact,
- Surveiller et comparer les prix des offres en ligne,
- Rassembler des données de différentes sources en ligne,
- Assurer un suivi de la présence et de la réputation en ligne,
- Collecter des données financières, météorologiques et autres,
- Surveiller les modifications apportées aux contenus web,
- Collecter des données pour la recherche,


# 2. C'est quoi Beautifulsoup et requests :

  * requests : effectuer des requette HTTP , pour recuperer le html
  * BeautifulSoup : un parseur , un analyseur pour Analyser le html , naviguer dans le DOM ( on peut utiliser Beautifulsoup sans request , dans le cas ou j'ai des fichier html en local)

2.2 recuperer le contenu d'une page avec requests


In [1]:
#! pip install requests
import requests

In [10]:
response = requests.get("https://pi.tn/")
#response = requests.get("https://www.oddschecker.com/")

In [14]:
print(response)
print(response.status_code)
#print(response.text)

<Response [200]>
200


In [66]:
# make some exceptions to handle websites errors

try:
  response = requests.get("https://pi.tn/")
  response.raise_for_status()
except requests.exceptions.HTTPError as errh: # des http errors
  print(errh)
except requests.exceptions.ConnectionError as errc: # n'arrive pas à établir une connexion avec le serveur
  print(errc)
except requests.exceptions.Timeout as errt: # trop de temps à repondre
  print(errt)
except requests.exceptions.RequestException as err: # autres
  print(err)

In [19]:
## example save google html content

response = requests.get("https://www.google.com/")
with open("google.html", "w") as f:
  f.write(response.text)

In [20]:
response.text

'<!doctype html><html dir="rtl" itemscope="" itemtype="http://schema.org/WebPage" lang="ar-TN"><head><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="tiZiGneuFTPup-PdnfsYGQ">(function(){var _g={kEI:\'eJETZ5z4PL78ptQP-NOJ0QM\',kEXPI:\'0,3700312,127,945,538661,2872,2891,8348,64702,219727,6700,106646,19673,8155,23351,22435,9779,45601,17056,76209,15816,1804,27093,19989,1635,29276,12990,5226768,1021,116,8832396,1224,56,155,3,7439775,20539820,16672,43887,3,1603,3,2124363,23029351,12799,51196,5,49280,19294,3328,15165,8182,49429,21669,6755,155,2484,13504,7735,7042,2097,4600,328,3217,4,1238,1766,2949,17652,4863,2526,5634,687,29090,764,1341,5406,8247,54,357,1856,2,9,13411,2376,2464,2234,8829,1905,7285,6,905,4372,797,3026,5659,8185,7112,3561,4140,2836,4016,1542,251,572,25,1771,31,1313,2096,960,1495,3276,2829,848,219,4,3,273,2,209,967,41,1932,3,815,324

2.3 Analyser le contenu d'une page avec BeautifulSoup ( de preference , on utilise python files)

In [22]:
## on doit installer beautifulSoup
#! pip install beautifulsoup4 # la version 4

In [25]:
from bs4 import BeautifulSoup
import shutil
import pandas as pd
from pprint import pprint

## Premiers pas avec BS

In [26]:
## nous avons un contenu html

html_doc = """<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

In [27]:
# init la classe de BS4
soup = BeautifulSoup(html_doc, 'html.parser')

In [28]:
# afficher le contenu html de facon claire
print(soup.prettify())

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>



In [29]:
## afficher le tag 'title' du page html
soup.title

<title>The Dormouse's story</title>

In [30]:
## afficher le nom du tag
soup.title.name

'title'

In [32]:
## afficher le contenu du tag
soup.title.text

"The Dormouse's story"

In [33]:
## afficher le tag parent
soup.title.parent.name

'head'

In [34]:
## afficher un premier tag 'p'
soup.p

<p class="title"><b>The Dormouse's story</b></p>

In [35]:
## afficher la classe du premier tag 'p'
soup.p['class']

['title']

In [80]:
## parfois on peut trouver des classes multiples
css_soup = BeautifulSoup('<p class="body strikeout"></p>', 'html.parser')
css_soup.p["class"]

['body', 'strikeout']

In [41]:
## afficher un premier tag 'a'
soup.a

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [42]:
## on veut extraire toutes les balises « a »
soup.find_all('a')

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [36]:
## on veut extraire la balise 'a' qui a un id link2
soup.find(id="link2")

<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>

In [42]:
## on veut extraire seulement les url de ces balises 'a'
## si l'attribut href n'existe pas, on affiche None

for link in soup.find_all('a'):
    print(link.get('href', None))

http://example.com/elsie
http://example.com/lacie
http://example.com/tillie


In [85]:
## on veut extraire les texts dans notre page
print(soup.get_text())

The Dormouse's story

The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...



In [43]:
## trouver un element par son nom
head_tag = soup.find("head")
head_tag

<head><title>The Dormouse's story</title></head>

In [44]:
## afficher les childrens de notre head_tag
head_tag.contents

[<title>The Dormouse's story</title>]

In [47]:
head_tag.contents[0].contents

["The Dormouse's story"]

In [49]:
## afficher le contenu
print(head_tag.contents[0].text)

## ou bien
print(head_tag.contents[0].get_text())

## ou bien
print(head_tag.contents[0].contents[0])

The Dormouse's story
The Dormouse's story
The Dormouse's story


In [54]:
## au lieu de recuperer les children dans une liste
## on peut:

for child in head_tag.children:
  print("le child est : ", child)
  print("le nom du tag est : ",child.name)
  print("le contenu du tag est :", child.text)

le child est :  <title>The Dormouse's story</title>
le nom du tag est :  title
le contenu du tag est : The Dormouse's story


In [90]:
## avoir les siblings tag
sibling_soup = BeautifulSoup("<a><b>text1</b><c>text2</c></a>", 'html.parser')
print(sibling_soup.prettify())

<a>
 <b>
  text1
 </b>
 <c>
  text2
 </c>
</a>



In [91]:
## recuperer le next sibling de b
sibling_soup.b.next_sibling

<c>text2</c>

In [92]:
## recuperer le previous sibling de c
sibling_soup.c.previous_sibling

<b>text1</b>

In [93]:
## on peut passer des fonctions dans `find_all` et `find`
## par exemple, une fonction qui qui renvoie True
# si une balise définit l’attribut « class » mais ne définit pas l’attribut « id »

In [94]:
def has_class_but_no_id(tag):
    return tag.has_attr('class') and not tag.has_attr('id')

In [95]:
soup.find_all(has_class_but_no_id)

[<p class="title"><b>The Dormouse's story</b></p>,
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>,
 <p class="story">...</p>]

In [96]:
## on peut passer des lists
## ce code trouve toutes les balises <a> et toutes les balises <b> :
soup.find_all(["a", "b"])

[<b>The Dormouse's story</b>,
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [53]:
## recuperer par nom de class
soup.find_all("a", class_="sister")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [98]:
## on peut limiter notre find_all
soup.find_all("a", class_="sister", limit=2)

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

In [99]:
## rechercher des tags directement dans d'autres tags
soup.css.select("p > a")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

## Scrapper un site web




In [56]:
## on va utiliser ce site web : https://books.toscrape.com/

In [59]:
# recuperer le contenu du site
url = "https://books.toscrape.com/"
response = requests.get(url)

# creer une variable soup pour analyse le contenu html
soup = BeautifulSoup(response.text, "html.parser") # on peut trouver 3 parseurs : lxml-xml, html.parser, html5lib (lent et tolerant aux erreurs de formattage)

In [61]:
print(soup.prettify()) # afficher le html

<!DOCTYPE html>
<!--[if lt IE 7]>      <html lang="en-us" class="no-js lt-ie9 lt-ie8 lt-ie7"> <![endif]-->
<!--[if IE 7]>         <html lang="en-us" class="no-js lt-ie9 lt-ie8"> <![endif]-->
<!--[if IE 8]>         <html lang="en-us" class="no-js lt-ie9"> <![endif]-->
<!--[if gt IE 8]><!-->
<html class="no-js" lang="en-us">
 <!--<![endif]-->
 <head>
  <title>
   All products | Books to Scrape - Sandbox
  </title>
  <meta content="text/html; charset=utf-8" http-equiv="content-type"/>
  <meta content="24th Jun 2016 09:29" name="created"/>
  <meta content="" name="description"/>
  <meta content="width=device-width" name="viewport"/>
  <meta content="NOARCHIVE,NOCACHE" name="robots"/>
  <!-- Le HTML5 shim, for IE6-8 support of HTML elements -->
  <!--[if lt IE 9]>
        <script src="//html5shim.googlecode.com/svn/trunk/html5.js"></script>
        <![endif]-->
  <link href="static/oscar/favicon.ico" rel="shortcut icon"/>
  <link href="static/oscar/css/styles.css" rel="stylesheet" type="tex

In [62]:
## recuperer des infos avec bs4

In [63]:
first_p = soup.find("p") # retourner le premier paragraph

In [64]:
all_p = soup.find_all("p") # retourner tous les paragraphs - (list)
pprint(all_p)

[<p class="star-rating Three">
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
</p>,
 <p class="price_color">Â£51.77</p>,
 <p class="instock availability">
<i class="icon-ok"></i>
    
        In stock
    
</p>,
 <p class="star-rating One">
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
</p>,
 <p class="price_color">Â£53.74</p>,
 <p class="instock availability">
<i class="icon-ok"></i>
    
        In stock
    
</p>,
 <p class="star-rating One">
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
</p>,
 <p class="price_color">Â£50.10</p>,
 <p class="instock availability">
<i class="icon-ok"></i>
    
        In stock
    
</p>,
 <p class="star-rating Four">
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="i

In [65]:
## on veut recuperer all books
## analyser le contenu avec inspecter l'element
## chaque book se trouve dans une balise article et de classe class="product_pod"

In [71]:
all_books = soup.find_all("article", class_="product_pod")

In [109]:
# recuperer le aside du page
aside = soup.find("aside")
# je veux afficher les children (les balises sous le aside)

for child in aside.children:
  #print(child.name) # nom du balise ( les None sont des retour a la ligne par exemple ( pas de balise))
  if child.name:
    print(child.name)

div
div


In [111]:
## on suppose on veut recuperer les sous categories dans le aside
side_categos = aside.find("div", class_="side_categories")

In [112]:
## extract links
links = side_categos.find_all("a")

In [113]:
## let's start scraping our website:
##1. on veut recupérer les noms des categories des books ( à gauche du page)
##2. recuperer les images qui sont sur cette page d'accueil


In [114]:
# recuperer le contenu du site
url = "https://books.toscrape.com/"
response = requests.get(url)

# creer une variable soup pour analyse le contenu html
soup = BeautifulSoup(response.text, "html.parser")

In [115]:
## 1. les noms des categories
# recuperer le aside
aside = soup.find("div", class_="side_categories")

# recuperer la liste
categos_div = aside.find("ul").find("li").find("ul")

# extraire les noms
categories = [child.text.strip() for child in categos_div.children if child.name]


In [115]:
## 2. les images
images = soup.find("section").find_all("img")
# recuperer le src de l'image , si n'existe pas , retourne Nan
urls = [img.get("src") for img in images]

# par exemple si on veut telecharger la premiere image
full_url_img = url + urls[0] ## website url + image url concatenation
r = requests.get(full_url_img, stream=True)  # la réponse n'est pas téléchargée immédiatement.

if r.status_code == 200:
   with open("images/book1.jpg", 'wb') as f:
      r.raw.decode_content = True
      shutil.copyfileobj(r.raw, f)

### Exercice

À vous de jouer

* Exercice 1:

  - récuperer les titres des books
  - les prix des books
  - la disponibilité
  - les ratings ( on veut avoir la note : 1, 2, 3, 4, 5)
  - exporter la data en csv


* Exercice 2:

  - Réalisez la meme tache sur les differentes pages ( il existe plusieurs pages dans notre site web)


* Exercice 3:

  - listez (afficher un message) les categories qui ont un nombre de livres inferieur à un `threshold`(un nombre en param) choisi par l'utilisateur

* Exercice 4:

  - Calculez le prix total de la valeur de notre biblio. Autrement dit, vous devez multiplier le prix de chaque livre * la quantité en stock et faire la somme. ```( Pour trouvez la quantité de chaque livre , vous devez cliquer sur le nom du livre et vous allez trouver une fiche qui contient toutes les informations)```


`Il est préférable d'implémenter notre code dans un fichier Python`