1. scraping: Qu'est-ce que cela signifie?

2. Notions de base sur le scraping
  - Comment utiliser `requests` et `BeautifulSoup` pour extraire des éléments HTML ?
  - Exercices
3. Les obstacles du scraping
  - Les aspects juridiques
  - Obstacles à surmonter (techniques) et comment les contourner: (Selenium)

4. Project: extract prices from Amazon or Airbnb

5. Production and Automation:
  - extract the price of a given product and get an alert if the price is lower that a given threshold.

# 1. scraping: Qu'est-ce que cela signifie?:

c'est un process utilisé pour extraire les données à partir des sites web.

- cette technique implique l'envoi d'une requete à un site web, le téléchargement et l'extraction de données à partir de la page.

```Imaginez le temps gagné, au lieu d’extraire les données manuellement.```


Le web scraping peut être utilisé à des fins diverses. En dehors de l’indexation par les moteurs de recherche, il est notamment utilisé pour :

- Créer des bases de données de contact,
- Surveiller et comparer les prix des offres en ligne,
- Rassembler des données de différentes sources en ligne,
- Assurer un suivi de la présence et de la réputation en ligne,
- Collecter des données financières, météorologiques et autres,
- Surveiller les modifications apportées aux contenus web,
- Collecter des données pour la recherche,


# 2. C'est quoi Beautifulsoup et requests :

  * requests : effectuer des requette HTTP , pour recuperer le html
  * BeautifulSoup : un parseur , un analyseur pour Analyser le html , naviguer dans le DOM ( on peut utiliser Beautifulsoup sans request , dans le cas ou j'ai des fichier html en local)

2.2 recuperer le contenu d'une page avec requests


In [1]:
# ! pip install requests
import requests

In [2]:
response = requests.get("https://pi.tn/")
#response = requests.get("https://www.oddschecker.com/")

In [3]:
print(response)
#print(response.status_code)
#print(response.text)

<Response [200]>


In [4]:
# make some exceptions to handle websites errors

try:
  response = requests.get("https://pi.tn/")
  response.raise_for_status()
except requests.exceptions.HTTPError as errh: # des http errors
  print(errh)
except requests.exceptions.ConnectionError as errc: # n'arrive pas à établir une connexion avec le serveur
  print(errc)
except requests.exceptions.Timeout as errt: # trop de temps à repondre
  print(errt)
except requests.exceptions.RequestException as err: # autres
  print(err)

In [5]:
## example save google html content

response = requests.get("https://www.google.com/")
with open("google.html", "w") as f:
  f.write(response.text)

In [6]:
response.text

'<!doctype html><html dir="rtl" itemscope="" itemtype="http://schema.org/WebPage" lang="ar-TN"><head><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="nMVrxE-AWlmxScC9a_34rg">(function(){var _g={kEI:\'2uglZ6DuC96tptQPucjv6Qw\',kEXPI:\'0,3700319,1065,538661,2872,2891,43028,30022,6398,9707,78219,125403,6700,110644,15675,8155,23351,22435,9779,38678,23979,76209,15816,1804,26408,8860,11814,1635,9707,19569,5230281,10500,490,38,8831982,1520,5,42,1,23,19,1,35,2,8,1,6,1,6,1,7,6,5,2,6,1,24,13,4,2,7439471,16496112,4043709,16673,2169858,23029351,12799,100481,11737,10885,15163,8184,49429,21673,6751,2639,13503,7737,9138,740,2,2,3856,328,4459,1766,23393,1,6,4590,5634,687,16264,3069,6973,3548,1341,3131,10576,9074,6561,4841,3987,3304,3769,1907,12568,797,5576,11294,772,9901,1830,2308,5390,239,4,3014,594,1804,933,382,11503,219,4,3,1451,41,1932,3,1995,4332,3620

2.3 Analyser le contenu d'une page avec BeautifulSoup ( de preference , on utilise python files)

In [7]:
## on doit installer beautifulSoup
#! pip install beautifulsoup4 # la version 4

In [8]:
from bs4 import BeautifulSoup
import shutil
import pandas as pd
from pprint import pprint

## Premiers pas avec BS

In [9]:
## nous avons un contenu html

html_doc = """<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

In [10]:
# init la classe de BS4
soup = BeautifulSoup(html_doc, 'html.parser')

In [11]:
# afficher le contenu html de facon claire
print(soup.prettify())

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>



In [12]:
## afficher le tag 'title' du page html
soup.title

<title>The Dormouse's story</title>

In [13]:
## afficher le nom du tag
soup.title.name

'title'

In [14]:
## afficher le contenu du tag
soup.title.text

"The Dormouse's story"

In [15]:
## afficher le tag parent
soup.title.parent.name

'head'

In [16]:
## afficher un premier tag 'p'
soup.p

<p class="title"><b>The Dormouse's story</b></p>

In [17]:
## afficher la classe du premier tag 'p'
soup.p['class']

['title']

In [18]:
## parfois on peut trouver des classes multiples
css_soup = BeautifulSoup('<p class="body strikeout"></p>', 'html.parser')
css_soup.p["class"]

['body', 'strikeout']

In [19]:
## afficher un premier tag 'a'
soup.a

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [20]:
## on veut extraire toutes les balises « a »
soup.find_all('a')

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [21]:
## on veut extraire la balise 'a' qui a un id link2
soup.find(id="link2")

<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>

In [22]:
## on veut extraire seulement les url de ces balises 'a'
## si l'attribut href n'existe pas, on affiche None
for link in soup.find_all('a'):
    print(link.get('href', None))

http://example.com/elsie
http://example.com/lacie
http://example.com/tillie


In [23]:
## on veut extraire les texts dans notre page
print(soup.get_text())

The Dormouse's story

The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...



In [24]:
## trouver un element par son nom
head_tag = soup.find("head")
head_tag

<head><title>The Dormouse's story</title></head>

In [25]:
## afficher les childrens de notre head_tag
head_tag.contents

[<title>The Dormouse's story</title>]

In [26]:
## afficher le contenu
print(head_tag.contents[0].text)

## ou bien
print(head_tag.contents[0].get_text())

## ou bien
print(head_tag.contents[0].contents[0])

The Dormouse's story
The Dormouse's story
The Dormouse's story


In [27]:
## au lieu de recuperer les children dans une liste
## on peut:

for child in head_tag.children:
  print("le child est : ", child)
  print("le nom du tag est : ",child.name)
  print("le contenu du tag est :", child.text)

le child est :  <title>The Dormouse's story</title>
le nom du tag est :  title
le contenu du tag est : The Dormouse's story


In [28]:
## avoir les siblings tag
sibling_soup = BeautifulSoup("<a><b>text1</b><c>text2</c></a>", 'html.parser')
print(sibling_soup.prettify())

<a>
 <b>
  text1
 </b>
 <c>
  text2
 </c>
</a>



In [29]:
## recuperer le next sibling de b
sibling_soup.b.next_sibling

<c>text2</c>

In [30]:
## recuperer le previous sibling de c
sibling_soup.c.previous_sibling

<b>text1</b>

In [31]:
## on peut passer des fonctions dans `find_all` et `find`
## par exemple, une fonction qui qui renvoie True
# si une balise définit l’attribut « class » mais ne définit pas l’attribut « id »

In [32]:
def has_class_but_no_id(tag):
    return tag.has_attr('class') and not tag.has_attr('id')

In [33]:
soup.find_all(has_class_but_no_id)

[<p class="title"><b>The Dormouse's story</b></p>,
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>,
 <p class="story">...</p>]

In [34]:
## on peut passer des lists
## ce code trouve toutes les balises <a> et toutes les balises <b> :
soup.find_all(["a", "b"])

[<b>The Dormouse's story</b>,
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [35]:
## recuperer par nom de class
soup.find_all("a", class_="sister")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [36]:
## on peut limiter notre find_all
soup.find_all("a", class_="sister", limit=2)

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

In [37]:
## rechercher des tags directement dans d'autres tags
soup.css.select("p > a")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

## Scrapper un site web




In [38]:
## on va utiliser ce site web : https://books.toscrape.com/

In [39]:
# recuperer le contenu du site
url = "https://books.toscrape.com/"
response = requests.get(url)

# creer une variable soup pour analyse le contenu html
soup = BeautifulSoup(response.text, "html.parser") # on peut trouver 3 parseurs : lxml-xml, html.parser, html5lib (lent et tolerant aux erreurs de formattage)

In [40]:
print(soup.prettify()) # afficher le html

<!DOCTYPE html>
<!--[if lt IE 7]>      <html lang="en-us" class="no-js lt-ie9 lt-ie8 lt-ie7"> <![endif]-->
<!--[if IE 7]>         <html lang="en-us" class="no-js lt-ie9 lt-ie8"> <![endif]-->
<!--[if IE 8]>         <html lang="en-us" class="no-js lt-ie9"> <![endif]-->
<!--[if gt IE 8]><!-->
<html class="no-js" lang="en-us">
 <!--<![endif]-->
 <head>
  <title>
   All products | Books to Scrape - Sandbox
  </title>
  <meta content="text/html; charset=utf-8" http-equiv="content-type"/>
  <meta content="24th Jun 2016 09:29" name="created"/>
  <meta content="" name="description"/>
  <meta content="width=device-width" name="viewport"/>
  <meta content="NOARCHIVE,NOCACHE" name="robots"/>
  <!-- Le HTML5 shim, for IE6-8 support of HTML elements -->
  <!--[if lt IE 9]>
        <script src="//html5shim.googlecode.com/svn/trunk/html5.js"></script>
        <![endif]-->
  <link href="static/oscar/favicon.ico" rel="shortcut icon"/>
  <link href="static/oscar/css/styles.css" rel="stylesheet" type="tex

In [41]:
## recuperer des infos avec bs4

In [42]:
first_p = soup.find("p") # retourner le premier paragraph

In [43]:
all_p = soup.find_all("p") # retourner tous les paragraphs - (list)
pprint(all_p)

[<p class="star-rating Three">
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
</p>,
 <p class="price_color">Â£51.77</p>,
 <p class="instock availability">
<i class="icon-ok"></i>
    
        In stock
    
</p>,
 <p class="star-rating One">
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
</p>,
 <p class="price_color">Â£53.74</p>,
 <p class="instock availability">
<i class="icon-ok"></i>
    
        In stock
    
</p>,
 <p class="star-rating One">
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
</p>,
 <p class="price_color">Â£50.10</p>,
 <p class="instock availability">
<i class="icon-ok"></i>
    
        In stock
    
</p>,
 <p class="star-rating Four">
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="i

In [44]:
## on veut recuperer all books
## analyser le contenu avec inspecter l'element
## chaque book se trouve dans une balise article et de classe class="product_pod"

In [45]:
all_books = soup.find_all("article", class_="product_pod")

In [46]:
# recuperer le aside du page
aside = soup.find("aside")
# je veux afficher les children (les balises sous le aside)

for child in aside.children:
  #print(child.name) # nom du balise ( les None sont des retour a la ligne par exemple ( pas de balise))
  if child.name:
    print(child.name)

div
div


In [47]:
## on suppose on veut recuperer les sous categories dans le aside
side_categos = aside.find("div", class_="side_categories")

In [48]:
## extract links
links = side_categos.find_all("a")

In [49]:
## let's start scraping our website:
##1. on veut recupérer les noms des categories des books ( à gauche du page)
##2. recuperer les images qui sont sur cette page d'accueil


In [50]:
# recuperer le contenu du site
url = "https://books.toscrape.com/"
response = requests.get(url)

# creer une variable soup pour analyse le contenu html
soup = BeautifulSoup(response.text, "html.parser")

In [51]:
## 1. les noms des categories
# recuperer le aside
aside = soup.find("div", class_="side_categories")

# recuperer la liste
categos_div = aside.find("ul").find("li").find("ul")

# extraire les noms
categories = [child.text.strip() for child in categos_div.children if child.name]


In [52]:
## 2. les images
images = soup.find("section").find_all("img")
# recuperer le src de l'image , si n'existe pas , retourne Nan
urls = [img.get("src") for img in images]

# par exemple si on veut telecharger la premiere image
full_url_img = url + urls[0] ## website url + image url concatenation
r = requests.get(full_url_img, stream=True)  # la réponse n'est pas téléchargée immédiatement.

if r.status_code == 200:
   with open("images/book1.jpg", 'wb') as f:
      r.raw.decode_content = True
      shutil.copyfileobj(r.raw, f)

### Exercice

À vous de jouer

* Exercice 1:

  - recuperer les titres des books
  - les prix des books
  - la disponibilité
  - les ratings ( on veut avoir la note : 1, 2, 3, 4, 5)
  - exporter la data en csv


* Exercice 2:

  - Realisez la meme tache sur les differentes pages


* Exercice 3:

  - listez (afficher un message) les categories qui ont un nombre de livres inferieur à un threshold choisi par l'utilisateur

* Exercice 4:

  - Calculez le prix total de la valeur de notre biblio. Autrement dit, vous devez multiplier le prix de chaque livre * la quantité en stock et faire la somme. ```( Pour trouvez la quantité de chaque livre , vous devez cliquer sur le nom du livre et vous allez trouver une fiche qui contient toutes les informations)```


`Il est préférable d'implémenter notre code dans un fichier Python`

#### Correction: Exercice 1

In [53]:
rating_map = {
        'One': 1,
        'Two': 2,
        'Three': 3,
        'Four': 4,
        'Five': 5
}

In [54]:
def main(
    soup, # le soup de la page
    exporter_csv: bool = True, # si on veut exporter notre data en csv
)-> pd.DataFrame:
  "scrapper le site web des books en naviguant la premiere page"


  # recuperer les books
  articles = soup.find_all("article", class_="product_pod")

  # init data
  data = []

  # boucler les artices
  for article in articles:
    ## les titres
    links = article.find_all("a")
    link = links[1] if len(links) > 1 else links[0]
    title = link.get("title")

    ## les prix
    prix_div = article.find("div", class_="product_price")
    prix = prix_div.find("p", class_="price_color").text.replace("Â","")

    ## disponib
    dispo = prix_div.find("p", class_="instock availability").text.strip()

    ## ratings
    ratings_section = article.find('p', class_='star-rating')
    rating = ratings_section.get("class")[1] # the second class is the rating

    # map rating class à un nombre
    rating_value = rating_map.get(rating, 0)

    # add to data list
    data.append(
          {
              'Title': title,
              'Price': prix,
              'Availability': dispo,
              'Rating': rating_value
          }
      )

  # convertir la list en pandas DataFrame
  df = pd.DataFrame(data)

  # exporter df en csv
  if exporter_csv:
    df.to_csv('articles.csv', index=False)

  return df

In [55]:
books_page_1 = main(soup, True)

In [56]:
books_page_1

Unnamed: 0,Title,Price,Availability,Rating
0,A Light in the Attic,£51.77,In stock,3
1,Tipping the Velvet,£53.74,In stock,1
2,Soumission,£50.10,In stock,1
3,Sharp Objects,£47.82,In stock,4
4,Sapiens: A Brief History of Humankind,£54.23,In stock,5
5,The Requiem Red,£22.65,In stock,1
6,The Dirty Little Secrets of Getting Your Dream...,£33.34,In stock,4
7,The Coming Woman: A Novel Based on the Life of...,£17.93,In stock,3
8,The Boys in the Boat: Nine Americans and Their...,£22.60,In stock,4
9,The Black Maria,£52.15,In stock,1


#### Correction: Exercice 2

In [57]:
def main_2(
    exporter_csv: bool = True, # si on veut exporter notre data en csv
)-> pd.DataFrame:
  "scrapper le site web des books en naviguant toutes les pages"
  # init num page
  page_num = 1

  # init data
  data = []

  while True:

    # changer l'url de la page à chaque iteration
    url = f"https://books.toscrape.com/catalogue/page-{page_num}.html"

    with requests.Session() as session:
      # envoyer un GET request
      response = requests.get(url)

      # si la page n'existe pas (404 status), break le loop
      if response.status_code == 404:
        print(f"la page {page_num} n'existe pas. Arrêt du Scraper...")
        break

      # parser le contenu html avec BeautifulSoup
      soup = BeautifulSoup(response.content, "html.parser")

      # recuperer les books
      articles = soup.find_all("article", class_="product_pod")
      # si les articles n'existent pas, arreter le script
      if not articles:
        print(f"Aucun autre livre trouvé sur la page {page_num}. Arrêt du Scraper...")
        break

      # boucler les artices
      for article in articles:
        ## les titres
        links = article.find_all("a")
        link = links[1] if len(links) > 1 else links[0]
        title = link.get("title")

        ## les prix
        prix_div = article.find("div", class_="product_price")
        prix = prix_div.find("p", class_="price_color").text.replace("Â","")

        ## disponib
        dispo = prix_div.find("p", class_="instock availability").text.strip()

        ## ratings
        ratings_section = article.find('p', class_='star-rating')
        rating = ratings_section.get("class")[1] # the second class is the rating

        # map rating class à un nombre
        rating_value = rating_map.get(rating, 0)

        # add to data list
        data.append(
            {
                'Title': title,
                'Price': prix,
                'Availability': dispo,
                'Rating': rating_value,
                'Page': page_num
            }
          )

      # incrementer page_num
      print(f"Page {page_num} récupérée avec succès ...")
      page_num +=1


  # convertir la list en pandas DataFrame
  df = pd.DataFrame(data)

  # exporter df en csv
  if exporter_csv:
    df.to_csv('articles.csv', index=False)

  return df

In [58]:
books = main_2(exporter_csv=True)

Page 1 récupérée avec succès ...
Page 2 récupérée avec succès ...
Page 3 récupérée avec succès ...
Page 4 récupérée avec succès ...
Page 5 récupérée avec succès ...
Page 6 récupérée avec succès ...
Page 7 récupérée avec succès ...
Page 8 récupérée avec succès ...
Page 9 récupérée avec succès ...
Page 10 récupérée avec succès ...
Page 11 récupérée avec succès ...
Page 12 récupérée avec succès ...
Page 13 récupérée avec succès ...
Page 14 récupérée avec succès ...
Page 15 récupérée avec succès ...
Page 16 récupérée avec succès ...
Page 17 récupérée avec succès ...
Page 18 récupérée avec succès ...
Page 19 récupérée avec succès ...
Page 20 récupérée avec succès ...
Page 21 récupérée avec succès ...
Page 22 récupérée avec succès ...
Page 23 récupérée avec succès ...
Page 24 récupérée avec succès ...
Page 25 récupérée avec succès ...
Page 26 récupérée avec succès ...
Page 27 récupérée avec succès ...
Page 28 récupérée avec succès ...
Page 29 récupérée avec succès ...
Page 30 récupérée avec 

#### Correction: Exercice 3

In [59]:
from urllib.parse import urljoin

def main(
    base_url, # url de base du site
    threshold: int = 5 # le threshold des livres
)-> None:
    "listez les categories qui ont un nombre de livres inferieur à un threshold"
    with requests.Session() as session:
        response = session.get(base_url)

        soup = BeautifulSoup(response.text, 'html.parser')
        categories = soup.find('ul', class_="nav nav-list").find_all('a')
        categories_urls = [category['href'] for category in categories]

        # Navigez all categories page
        for category_url in categories_urls:
            full_url = urljoin(base_url, category_url)
            response = session.get(full_url)
            soup = BeautifulSoup(response.text, 'html.parser')

            books = soup.find_all('article', class_="product_pod")
            books = soup.select('article.product_pod')
            category_title = soup.find("h1").text
            number_of_books = len(books)
            if number_of_books < threshold:
                print(f"La catégorie '{category_title}' ne contient pas assez de livres ({number_of_books})")


In [60]:
base_url = "https://books.toscrape.com/index.html"
main(
    base_url= base_url,
    threshold=5
)

La catégorie 'Paranormal' ne contient pas assez de livres (1)
La catégorie 'Parenting' ne contient pas assez de livres (1)
La catégorie 'Adult Fiction' ne contient pas assez de livres (1)
La catégorie 'Contemporary' ne contient pas assez de livres (3)
La catégorie 'Academic' ne contient pas assez de livres (1)
La catégorie 'Historical' ne contient pas assez de livres (2)
La catégorie 'Christian' ne contient pas assez de livres (3)
La catégorie 'Suspense' ne contient pas assez de livres (1)
La catégorie 'Short Stories' ne contient pas assez de livres (1)
La catégorie 'Novels' ne contient pas assez de livres (1)
La catégorie 'Health' ne contient pas assez de livres (4)
La catégorie 'Politics' ne contient pas assez de livres (3)
La catégorie 'Cultural' ne contient pas assez de livres (1)
La catégorie 'Erotica' ne contient pas assez de livres (1)
La catégorie 'Crime' ne contient pas assez de livres (1)


#### Correction: Exercice 4

In [61]:
import re
import sys
from typing import List
from urllib.parse import urljoin
import time
import random

import requests
import logging
import logging.config

#! pip install selectolax
#from selectolax.parser import HTMLParser


logger = logging.getLogger(__name__)

In [62]:
def get_next_page_url(
    url: str, # URL de la page actuelle
    tree: HTMLParser, # HTMLParser object de la page actuelle
) -> str | None: # URL de la page suivante
    "Récupère l'URL de la page suivante à partir d'une page donnée."

    # chercher button next et recuperer l'url
    next_page_node = tree.css_first("li.next > a")
    if next_page_node and "href" in next_page_node.attributes:
        next_page_link = next_page_node.attributes.get("href")
        return urljoin(url, next_page_link)

    logger.debug(f"Couldn't find next page URL")
    return None



NameError: name 'HTMLParser' is not defined

In [None]:
def get_all_books_urls_one_page(
    url: str, # URL de la page actuelle
    tree: HTMLParser, # HTMLParser object de la page actuelle
)-> List[str]: # Liste des URLs des livres

    "Récupère toutes les URLs des livres présents sur une page."
    try:
      book_links = tree.css('h3 > a')
      urls = [urljoin(url, link.attributes.get('href')) for link in book_links if 'href' in link.attributes]
      return urls
    except Exception as e:
      logger.error(f"Erreur lors de l'extraction des URLs des livres sur la page {url} : {e}")
      return []


In [None]:
def extract_stock_quantity_from_page(
    tree: HTMLParser # HTMLParser object de la page du livre
) -> int: # Quantité de livres en stock
    "Extrait la quantité de livres en stock sur la page du livre"

    try:
        price_node = tree.css_first("p.instock.availability")
        return int(re.findall(r"\d+", price_node.text())[0])
    except AttributeError:
        logger.error("Aucun noeud 'p.instock.availability' n'a été trouvé")
        return 0
    except IndexError:
        logger.error("Aucun nombre trouvé dans le texte de 'p.instock.availability'")
        return 0

In [None]:
def extract_price_from_page(
    tree: HTMLParser # HTMLParser object de la page du livre
) -> float: # Prix du livre
    "Extrait le prix d'un livre depuis la page du livre."

    price_node = tree.css_first("p.price_color")

    if price_node:
        price_string = price_node.text()
    else:
        logger.error("Aucun noeud n'a été trouvé")
        return 0.0

    try:
        price = re.findall(r"[0-9.]+", price_string)[0]
    except IndexError as e:
        logger.error(f"Aucun nombre n'a été trouvé : {e}")
        return 0.0
    else:
        return float(price)

In [None]:
def get_book_price_from_url(
    url: str, # URL de la page du livre
    session: requests.Session = None # Session HTTP pour effectuer les requêtes
) -> float: # Prix du livre
    "Récupère le prix d'un livre à partir de son URL"

    try:
        if session:
            response = session.get(url)
        else:
            response = requests.get(url)

        response.raise_for_status()  # Vérifie que la requête a réussi

        tree = HTMLParser(response.text)
        price = extract_price_from_page(tree)
        stock = extract_stock_quantity_from_page(tree)
        return price * stock
    except requests.exceptions.RequestException as e:
        logger.error(f"Erreur lors de la requête HTTP : {e}")
        return 0.0
    except Exception as e:
        logger.error(f"Erreur lors de l'extraction du prix depuis l'URL : {e}")
        return 0.0


In [None]:
def get_total_price_of_all_books(
    urls: list # URLs à scrapper
) -> float: # Prix total de tous les livres
    "Calcule le prix total de tous les livres (prix * quantité en stock) sur toutes les pages à partir d'une URL de départ."

    total_price = 0.0
    with requests.Session() as session:
        for url in urls:
            logger.info(f"Scraping book {url}")
            total_price += get_book_price_from_url(url, session=session)
        return total_price

In [None]:
def get_all_books_urls(
    url: str # URL de départ
) -> List[str]: # Liste de toutes les URLs des livres
    "Récupère toutes les URLs des livres sur toutes les pages à partir d'une URL de départ."

    urls = []
    with requests.Session() as session:
        while True:
            try:
                logger.info(f"Scraping page {url}")
                r = session.get(url)
                r.raise_for_status()
            except requests.RequestException as e:
                logger.error(f"Erreur lors de la requête HTTP sur la page {url} : {e}")
                continue

            tree = HTMLParser(r.text)
            books_urls = get_all_books_urls_one_page(url, tree)
            urls.extend(books_urls)

            url = get_next_page_url(url, tree)

            ## je peux ajouter des sleep ici
            ## pour minimiser le nombre de requete
            time.sleep(random.uniform(0.5,1)) ## attendre un `random` seconds

            if not url:
                break

    return urls


In [93]:
def main_4(base_url):
    "calculer le prix total des books dans notre site"
    # extraire les urls des books
    urls = get_all_books_urls(base_url)
    
    # calculer le prix des books ( prix * quantité)
    total_price = get_total_price_of_all_books(urls)
    print(f"Prix Total est: {total_price}")

In [None]:
base_url = "https://books.toscrape.com/"
main_4(base_url = base_url)

Prix Total est: 300188.2700000007


# 3. Les obstacles:

  1. Juridiques:

    Malgré son aspect pratique, le web scraping s’accompagne de risques juridiques. En principe, l’exploitant d’un site Internet met sa page à disposition pour une utilisation par des êtres humains. Une consultation automatisée à l’aide d’un web scraper peut donc constituer une violation des conditions d’utilisation. C’est notamment le cas lorsque la consultation est effectuée massivement sur plusieurs pages, que ce soit simultanément ou fréquemment. Aucun être humain ne pourrait interagir avec le site de cette façon.

    Par ailleurs, la consultation, l’enregistrement et l’analyse automatisés des données publiées sur un site Internet peuvent, le cas échéant, représenter une violation des droits d’auteur. Si les informations scrapées sont des données permettant une identification personnelle, l’enregistrement et l’analyse sans autorisation de la personne concernée représentent une violation des dispositions applicables en matière de protection des données. Le fait de scraper des profils Facebook pour collecter des données à caractère personnel est par exemple interdit.

  2. Techniques:

    Plusieurs sites résistent aux scraping, car ces scripts peuvent affecter la performance d'un site web et ca necessite des couts excessifs en infra pour maintenir la qualité de ses services. Dans ce sens, ces sites deploient des anti bots pour eviter ces attaques.

    Sur la majorité des websites, il existe un fichier text "robots.txt" disponible à la racine des sites qui indique les pages à ne pas scraper.
    Vous pouvez le consulter en mettant : https://nom_du_site.com/robots.txt




In [63]:
## essayer

url = "https://facebook.com/"
response = requests.get(url)


In [64]:
response.text

'<!DOCTYPE html>\n<html lang="fr" id="facebook" class="no_js">\n<head><meta charset="utf-8" /><meta name="referrer" content="default" id="meta_referrer" /><script nonce="7dHcsT19">function envFlush(a){function b(b){for(var c in a)b[c]=a[c]}window.requireLazy?window.requireLazy(["Env"],b):(window.Env=window.Env||{},b(window.Env))}envFlush({"useTrustedTypes":false,"isTrustedTypesReportOnly":false,"ajaxpipe_token":"AXi_KzP1_uxVZUdPcxE","stack_trace_limit":30,"timesliceBufferSize":5000,"show_invariant_decoder":false,"compat_iframe_token":"AUXdzAzAjLm9cR5cFH49OTC0CYY","isCQuick":false,"brsid":"7432629438359571465"});</script><script nonce="7dHcsT19">window.openDatabase&&(window.openDatabase=function(){throw new Error()});</script><style nonce="7dHcsT19"></style><script nonce="7dHcsT19">__DEV__=0;</script><noscript><meta http-equiv="refresh" content="0; URL=/?_fb_noscript=1" /></noscript><link rel="manifest" id="MANIFEST_LINK" href="/data/manifest/" crossorigin="use-credentials" /><title id=

Beaucoup de sites web aujourdhui fonctionnet avec des frameworks javascript( react , vuejs) qui permettent le rechargement dynamique du contenu sur une page.
-> on ne peut pas avec une simple requete (requests) récuperer toutes les ressources d'un site web avec un script comme on le fait avec un navigateur.



** Un autre probléme c'est le nombre de requests envoyé par secondes. si le serveur detect que le nombre est enorme et n'est pas humain , on a un risque d'etre bloqué. parmis les solutions on peut :

  - Ajouter des times sleeps de quelques secondes.
  - Utiliser des proxies ( les proxies publiques ne sont pas trop efficace) [https://free-proxy-list.net/] `requests.get(url,proxies=proxy)`
  - Utiliser des navigateurs comme Tor




In [None]:
import random

# fixer une liste d'adresse proxies
proxies = [
    "117.250.3.58:8080",
    "119.350.4.88:8080",
]
# je vais choisir aléatoirement
my_proxy = random.choice(proxies)

# definir le lien du proxy avec le protocle http et https
proxy = {"http": f"http://{my_proxy}", "https": f"https://{my_proxy}"}

# faire une req http avec des adresses proxies
response = requests.get(base_url, proxies=proxy)

** Autre blocage avec le user-agent



In [65]:
response.request.headers ## voir tab network navigateur

{'User-Agent': 'python-requests/2.32.3', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

on peut modifier le User-Agent

In [None]:
user_agent = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:109.0) Gecko/20100101 Firefox/109.0"
headers = {"User-Agent": user_agent}
r = requests.get(base_url, headers=headers, proxies=proxy)

## Selenium :

Selenium est une suite open source d'outils et de bibliothèques utilisée pour l'automatisation du navigateur.

Selenium est utilisé pour :
- Il permet aux utilisateurs de tester le fonctionnement de leurs sites Web sur différents navigateurs.

- Effectuez des tests multi-navigateurs pour vérifier si le site Web fonctionne de manière cohérente sur différents navigateurs


On parle d'un navigatuer `Headless` c'est-à-dire , l'utilisateur va utiliser des navigateurs comme (Chrome, Firefox, Opera, ..) mais sans être obligé d'avoir une interface graphique pour les faire fonctionner, autrement dit, on peut ouvrir ces navigateurs en arriére-plan en utilisant des scripts.

Avec ces navigateur `Headless`, on peut réaliser plusieurs actions:

- Ecrire des informations dans des champs de texte.
- Cliquer sur des boutons, liens, des cases à chocher, des boutons radio.
- Soumettre des formulaires automatiquement.
- Effectuer des actions de glisser-déposer
- Cliquer avec le bouton droit ou double-cliquer sur des éléments
- Fermer des fenêtres pop-up, gérer des alertes, et interagir avec des boites de dialogue
- Configurer des temps d'attente pour les éléments qui prennent du temps à se charger ou apparaître.
- Récupération d'informations.
- Gérer le défilement d'une page, ce qui est particulièrement utile pour les pages avec chargement dynamique


Pour commencer avec Selenium, on doit choisir un navigateur et installer sond WebDriver.

Chrome : https://www.chromedriverdownload.com/en/downloads/chromedriver-130-download
https://googlechromelabs.github.io/chrome-for-testing/#stable