# Scraping de données
L'objectif de ce notebook est de découvrir la bibliothèque python _BeautifulSoup_ en scrapant les données du site http://books.toscrape.com/.

- _BeautifulSoup_ est une bibliothèque Python permettant d’extraire facilement des données de documents HTML ou XML. 
- Elle est généralement utilisée avec la biliothèque _requests_ pour récupérer le contenu d'une page web, puis pour parcourir ou extraire des éléments HTML (balises, attributs, texte...).

Les commentaires de code sont proposés pour l'instant en français mais les noms de variables sont en anglais (vous serez amener dans la suite de la formation à travailler en anglais comme c'est souvent le cas dans le milieu professionnel).

In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

## 1. Parsing du HTML avec BeautifulSoup

In [2]:
# On récupère le contenu HTML d’une page
url = "http://books.toscrape.com/"
response = requests.get(url)

# On stocke le contenu HTML dans une variable
html_content = response.content

# On crée un objet BeautifulSoup pour parser le HTML
soup = BeautifulSoup(html_content, "html.parser")

# Affichage des mille premier caractères du HTML formaté
print(soup.prettify()[:1000])

<!DOCTYPE html>
<!--[if lt IE 7]>      <html lang="en-us" class="no-js lt-ie9 lt-ie8 lt-ie7"> <![endif]-->
<!--[if IE 7]>         <html lang="en-us" class="no-js lt-ie9 lt-ie8"> <![endif]-->
<!--[if IE 8]>         <html lang="en-us" class="no-js lt-ie9"> <![endif]-->
<!--[if gt IE 8]><!-->
<html class="no-js" lang="en-us">
 <!--<![endif]-->
 <head>
  <title>
   All products | Books to Scrape - Sandbox
  </title>
  <meta content="text/html; charset=utf-8" http-equiv="content-type"/>
  <meta content="24th Jun 2016 09:29" name="created"/>
  <meta content="" name="description"/>
  <meta content="width=device-width" name="viewport"/>
  <meta content="NOARCHIVE,NOCACHE" name="robots"/>
  <!-- Le HTML5 shim, for IE6-8 support of HTML elements -->
  <!--[if lt IE 9]>
        <script src="//html5shim.googlecode.com/svn/trunk/html5.js"></script>
        <![endif]-->
  <link href="static/oscar/favicon.ico" rel="shortcut icon"/>
  <link href="static/oscar/css/styles.css" rel="stylesheet" type="tex

`soup` est un objet BeautifulSoup qui permet de naviguer dans la structure HTML comme si c’était un arbre.
On peut ensuite faire des recherches sur les balises, les classes, les attributs, etc.

Sur le site web, ouvrir l'inspecteur pour comprendre ce que retournent les requêtes ci-dessous :

In [3]:
# Affiche la balise <title>...</title>
print(soup.title)

<title>
    All products | Books to Scrape - Sandbox
</title>


In [4]:
# On accède à la balise <title> et on l'affiche
print(soup.title.text)


    All products | Books to Scrape - Sandbox



In [5]:
# On accède à la balise <h1> et on l'affiche
print(soup.find("h1")) 

<h1>All products</h1>


In [6]:
# Récupérer tous les titres de livres de la page d’accueil

# Chaque livre est dans une balise <article class="product_pod">
# On utilise find_all pour trouver toutes les balises correspondantes
# On peut ensuite accéder aux informations de chaque livre
books = soup.find_all("article", class_="product_pod")

# On affiche les informations récoltées sur le premier livre de la liste
first_book = books[0]
print(first_book)

<article class="product_pod">
<div class="image_container">
<a href="catalogue/a-light-in-the-attic_1000/index.html"><img alt="A Light in the Attic" class="thumbnail" src="media/cache/2c/da/2cdad67c44b002e7ead0cc35693c0e8b.jpg"/></a>
</div>
<p class="star-rating Three">
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
</p>
<h3><a href="catalogue/a-light-in-the-attic_1000/index.html" title="A Light in the Attic">A Light in the ...</a></h3>
<div class="product_price">
<p class="price_color">£51.77</p>
<p class="instock availability">
<i class="icon-ok"></i>
    
        In stock
    
</p>
<form>
<button class="btn btn-primary btn-block" data-loading-text="Adding..." type="submit">Add to basket</button>
</form>
</div>
</article>


Ouvrir l'inspecteur dans votre navigateur pour chercher **quelle balise HTML** contient le titre des livres.

Compléter les cellules de la suite du notebook en suivant les indications en commentaires.

In [7]:
# On affiche le titre du premier livre
title_first_book = books[0].find("img")['alt']
print(title_first_book)

A Light in the Attic


In [8]:
# On parcourt la liste des livres et on affiche le titre de chacun
for book in books:
    title =  book.find("img")['alt']
    print(title)

A Light in the Attic
Tipping the Velvet
Soumission
Sharp Objects
Sapiens: A Brief History of Humankind
The Requiem Red
The Dirty Little Secrets of Getting Your Dream Job
The Coming Woman: A Novel Based on the Life of the Infamous Feminist, Victoria Woodhull
The Boys in the Boat: Nine Americans and Their Epic Quest for Gold at the 1936 Berlin Olympics
The Black Maria
Starving Hearts (Triangular Trade Trilogy, #1)
Shakespeare's Sonnets
Set Me Free
Scott Pilgrim's Precious Little Life (Scott Pilgrim #1)
Rip it Up and Start Again
Our Band Could Be Your Life: Scenes from the American Indie Underground, 1981-1991
Olio
Mesaerion: The Best Science Fiction Stories 1800-1849
Libertarianism for Beginners
It's Only the Himalayas


Si l'on souhaite travailler sur cette liste de titres, on pourrait les ajouter à une liste vide à chaque itération de la boucle for ci-dessus.

On peut également utiliser la compréhension de liste. C'est une pratique courante en python car plus concise et explicite, en particulier lorsqu'il y a plusieurs boucles _for_ imbriquées qui deviennent difficile à lire.

En utilisant la [compréhension de liste](https://www.pythoniste.fr/python/comprendre-les-comprehensions-en-python/), créer une liste contenant les titres des livres récupérés dans la variable books.


In [9]:
# Liste des titres de livres en utilisant la compréhension de liste
titles_list = [title.find("img")['alt'] for title in books]
print(titles_list)

['A Light in the Attic', 'Tipping the Velvet', 'Soumission', 'Sharp Objects', 'Sapiens: A Brief History of Humankind', 'The Requiem Red', 'The Dirty Little Secrets of Getting Your Dream Job', 'The Coming Woman: A Novel Based on the Life of the Infamous Feminist, Victoria Woodhull', 'The Boys in the Boat: Nine Americans and Their Epic Quest for Gold at the 1936 Berlin Olympics', 'The Black Maria', 'Starving Hearts (Triangular Trade Trilogy, #1)', "Shakespeare's Sonnets", 'Set Me Free', "Scott Pilgrim's Precious Little Life (Scott Pilgrim #1)", 'Rip it Up and Start Again', 'Our Band Could Be Your Life: Scenes from the American Indie Underground, 1981-1991', 'Olio', 'Mesaerion: The Best Science Fiction Stories 1800-1849', 'Libertarianism for Beginners', "It's Only the Himalayas"]


Afficher le nombre de livres trouvés sur la page d'accueil.

In [10]:
# Nombre de livres trouvés
books_nb = len(books)
print(f"Nombre de livres trouvés : {books_nb}")

Nombre de livres trouvés : 20


Chercher les balises HTML permettant d'afficher les informations suivantes : 

In [11]:
# Prix du premier livre
price_first_book = books[0].find("p", class_="price_color").text
print(f"Prix du premier livre : {price_first_book}")

Prix du premier livre : £51.77


Afficher la note (_rating_) du premier livre.

In [12]:
# Afficher la note (rating) du premier livre
rating_first_book = books[0].find("p")['class'][1]
print(f"Note du premier livre : {rating_first_book}")

Note du premier livre : Three


Compléter la cellule suivante en s'inspirant du modèle ci-dessus.

In [13]:
# Pour chaque livre, on souhaite afficher : le prix, le titre et la disponibilité
for book in books:
    title = book.find("img")['alt']
    price = book.find("p", class_="price_color").text
    availability = book.find('p', class_="instock availability").text.strip()
    print(f"Titre : {title}, Prix : {price}, Disponibilité : {availability}")

Titre : A Light in the Attic, Prix : £51.77, Disponibilité : In stock
Titre : Tipping the Velvet, Prix : £53.74, Disponibilité : In stock
Titre : Soumission, Prix : £50.10, Disponibilité : In stock
Titre : Sharp Objects, Prix : £47.82, Disponibilité : In stock
Titre : Sapiens: A Brief History of Humankind, Prix : £54.23, Disponibilité : In stock
Titre : The Requiem Red, Prix : £22.65, Disponibilité : In stock
Titre : The Dirty Little Secrets of Getting Your Dream Job, Prix : £33.34, Disponibilité : In stock
Titre : The Coming Woman: A Novel Based on the Life of the Infamous Feminist, Victoria Woodhull, Prix : £17.93, Disponibilité : In stock
Titre : The Boys in the Boat: Nine Americans and Their Epic Quest for Gold at the 1936 Berlin Olympics, Prix : £22.60, Disponibilité : In stock
Titre : The Black Maria, Prix : £52.15, Disponibilité : In stock
Titre : Starving Hearts (Triangular Trade Trilogy, #1), Prix : £13.99, Disponibilité : In stock
Titre : Shakespeare's Sonnets, Prix : £20.66,

---
## 2. Fonctions python d'extraction des données

**Généralités**

Une fonction est une portion de code effectuant une suite d'instructions. 

Chaque fonction effectue en général une tâche unique et précise. Si cela se complique, il est plus judicieux d'écrire plusieurs fonctions (qui peuvent éventuellement s'appeler les unes les autres).

`def` permet de definir la fonction.
Si on souhaite que la fonction renvoie quelque chose, il faut utiliser le mot-clé `return`.
On utilise des docstrings (=documentation) sous le format """ Explications de la fonction """ qui fournit des informations sur ce que fait la fonction, quelles sont les paramètres d'entrée (Args) et que renvoie la fonction (Returns).

--> [Ressources fonctions python](https://python.sdv.u-paris.fr/10_fonctions/)

---

En suivant les documentations de fonction et en utilisant le travail de la partie précédente, implémenter les fonctions permettant d'extraire les informations des livres.



**Note**

Un Ctrl+clic sur le nom de n'importe quelle fonction vous emmène à la définition de cette fonction.


In [14]:
# Fonction pour extraire le titre d'un livre
def extract_title(book: BeautifulSoup) -> str:
    return book.find("img")['alt']
    """Extract the title of a book from a BeautifulSoup object.

    Args:
        book (BeautifulSoup): The HTML element of the book.

    Returns:
        str: The title of the book.
    """
extract_title(books[0])

'A Light in the Attic'

In [15]:
# Fonction pour extraire le prix d'un livre
def extract_price(book: BeautifulSoup) -> str:
    return book.find("p", class_="price_color").text
    """Extract the price of a book from a BeautifulSoup object.

    Args:
        book (BeautifulSoup): The HTML element of the book.

    Returns:
        str: The price of the book.
    """
extract_price(books[1])

'£53.74'

In [16]:
# Fonction pour extraire la note d'un livre
def extract_rating(book: BeautifulSoup) -> str:
    return book.find("p")['class'][1]
    """Extract the rating of a book from a BeautifulSoup object.

    Args:
        book (BeautifulSoup): The HTML element of the book.

    Returns:
        str: The rating of the book.
    """
extract_rating(books[2])

'One'

In [17]:
# Fonction pour extraire la disponibilité d'un livre
def extract_availability(book: BeautifulSoup) -> str:
    return book.find('p', class_="instock availability").text.strip()
    """Extract the availability of a book from a BeautifulSoup object.

    Args:
        book (BeautifulSoup): The HTML element of the book.

    Returns:
        str: The availability of the book.
    """
extract_availability(books[3])

'In stock'

Créer une fonction qui combine les informations d'un livre dans un dictionnaire sous la forme :
 
 {
    "title": "Titre du livre",
     "price": "Prix du livre",
     "rating": "Note du livre",
     "availability": "Disponibilité du livre"
 }

In [18]:
# Fonction qui combine les informations d'un livre dans un dictionnaire
def extract_book_info(book: BeautifulSoup) -> dict:
    book_dict = {"title": extract_title(book),
                "price": extract_price(book),
                "rating": extract_rating(book),
                "availability": extract_availability(book)}
    return book_dict
    
    """Extract all information of a book from a BeautifulSoup object.

    Args:
        book (BeautifulSoup): The HTML element of the book.

    Returns:
        dict: A dictionary containing the title, price, rating, and availability of the book.
    """
extract_book_info(books[0])

{'title': 'A Light in the Attic',
 'price': '£51.77',
 'rating': 'Three',
 'availability': 'In stock'}


En utilisant :
- la fonction `extract_book_info` implémentée ci-dessus,
- la [compréhension de liste](https://www.pythoniste.fr/python/comprendre-les-comprehensions-en-python/)

créer une liste `data_books` qui contient des dictionnaires décrivant les informations disponibles pour chaque livres, sous la forme :

```
[
    {"title": "A Light in the ...", "price": "£51.77", "availability": "In stock"},
    {"title": "Tipping the Velvet", "price": "£53.74", "availability": "In stock"},
    ...
]
```

In [19]:
# Création d'une liste de dictionnaires contenant les informations de chaque livre
data_books = [extract_book_info(i) for i in books]

# Affichage des 5 premiers livres
print(data_books[:5]) 

[{'title': 'A Light in the Attic', 'price': '£51.77', 'rating': 'Three', 'availability': 'In stock'}, {'title': 'Tipping the Velvet', 'price': '£53.74', 'rating': 'One', 'availability': 'In stock'}, {'title': 'Soumission', 'price': '£50.10', 'rating': 'One', 'availability': 'In stock'}, {'title': 'Sharp Objects', 'price': '£47.82', 'rating': 'Four', 'availability': 'In stock'}, {'title': 'Sapiens: A Brief History of Humankind', 'price': '£54.23', 'rating': 'Five', 'availability': 'In stock'}]


On aurait pu créer la liste de dictionnaires en utilisant une boucle for et en ne passant pas par l'utilisation de fonctions.

--> **Il y a toujours de nombreuses manières de coder une solution pour arriver à un même résultat.** 


Pourquoi on propose ici de segmenter le code dans de très courtes fonctions python ?

- Ici le cas d'application est simple donc les fonctions sont très courtes, la méthode utilisée ici s'adapte bien à des structure de données sont plus complexes.

- Le code est plus évolutif et maintenable : 

Chaque structure de données peut évoluer séparément dans le HTML. Si une structure évolue il est simple de mettre à jour une fonction qui extrait cette donnnées plutôt que de devoir chercher dans le code chaque endroit où cette donnée est extraite.


- Chaque fonction peut être testée individuellement.
- Le code est plus compréhensible pour le lecteur.

Utiliser pandas pour afficher _data_books_ dans un dataframe.

In [20]:
# Création d'un DataFrame à partir de la liste
df_books = pd.DataFrame(data_books)

# Afficher le début du DataFrame
print(df_books.head())

                                   title   price rating availability
0                   A Light in the Attic  £51.77  Three     In stock
1                     Tipping the Velvet  £53.74    One     In stock
2                             Soumission  £50.10    One     In stock
3                          Sharp Objects  £47.82   Four     In stock
4  Sapiens: A Brief History of Humankind  £54.23   Five     In stock


---
## 3. Itération sur plusieurs pages HTML

Dans la partie précédente, on a scrapé uniquement la page d'accueil.

A présent, on souhaite récupérer les données de 50 pages du catalogue.

- Implémenter une fonction qui récupère le contenu HTML d'une page à partir de son url (cf partie 1.)
- Implémenter une fonction qui crée une liste dictionnaire avec les informations de chaque livres de la page (utiliser la fonction `extract_book_info`).

In [21]:
def get_books_html(url: str) -> BeautifulSoup:
    response = requests.get(url)
    html_content = response.content
    soup = BeautifulSoup(html_content, "html.parser")
    return soup
    """Fetch the HTML content of a book page.

    Args:
        url (str): The URL of the book page.

    Returns:
        BeautifulSoup: A BeautifulSoup object containing the HTML content.
    """


In [22]:
# Test de la fonction get_book_html avec la page 2
get_books_html("http://books.toscrape.com/catalogue/page-2.html")


<!DOCTYPE html>

<!--[if lt IE 7]>      <html lang="en-us" class="no-js lt-ie9 lt-ie8 lt-ie7"> <![endif]-->
<!--[if IE 7]>         <html lang="en-us" class="no-js lt-ie9 lt-ie8"> <![endif]-->
<!--[if IE 8]>         <html lang="en-us" class="no-js lt-ie9"> <![endif]-->
<!--[if gt IE 8]><!--> <html class="no-js" lang="en-us"> <!--<![endif]-->
<head>
<title>
    All products | Books to Scrape - Sandbox
</title>
<meta content="text/html; charset=utf-8" http-equiv="content-type"/>
<meta content="24th Jun 2016 09:29" name="created"/>
<meta content="" name="description"/>
<meta content="width=device-width" name="viewport"/>
<meta content="NOARCHIVE,NOCACHE" name="robots"/>
<!-- Le HTML5 shim, for IE6-8 support of HTML elements -->
<!--[if lt IE 9]>
        <script src="//html5shim.googlecode.com/svn/trunk/html5.js"></script>
        <![endif]-->
<link href="../static/oscar/favicon.ico" rel="shortcut icon"/>
<link href="../static/oscar/css/styles.css" rel="stylesheet" type="text/css"/>
<link 

Naviguer sur le site pour comprendre quel est le format des URL des différentes pages du catalogue.


- Créer une variable _base_url_ dans laquelle vous viendrez par la suite mettre à jour la partie qui varie.
- Pour chaque page :
    - Construire l’URL adapté, 
    - Utiliser la fonction `get_books_html` pour récupérer les livres de la page,
    - Utiliser la compréhension de liste (cf ci-dessus pour créer `data_books`) et la fonction `extract_book_info` pour obtenir une liste de dictionnaire des titres, prix, note et disponibilité des livres contenus dans la page,
- Créer une liste qui contiendra tous les dictionnaires scrapés.

In [23]:
# Parcourir les pages et récupérer les livres
def scrape_books(pages: int) -> list[dict]:
    list_books=[]
    if pages <= 1:
        base_url = f"http://books.toscrape.com/catalogue/page-1.html"
        soup = get_books_html(base_url)
        books = soup.find_all("article", class_="product_pod")
        list_books_page = [extract_book_info(i) for i in books]
    elif pages > 1:
        for i in range(1,pages+1):
            base_url = f"http://books.toscrape.com/catalogue/page-{i}.html"
            soup = get_books_html(base_url)
            books = soup.find_all("article", class_="product_pod")
            list_books.extend([extract_book_info(n) for n in books])
    return list_books
    """Scrape books from the specified number of pages.

    Args:
        pages (int): The number of pages to scrape.

    Returns:
        list: A list of dictionaries containing books information.
    """

In [24]:
# Test de la fonction scrape_books avec 50 pages
data_books = scrape_books(50)
print(scrape_books(50)[:5]) 

[{'title': 'A Light in the Attic', 'price': '£51.77', 'rating': 'Three', 'availability': 'In stock'}, {'title': 'Tipping the Velvet', 'price': '£53.74', 'rating': 'One', 'availability': 'In stock'}, {'title': 'Soumission', 'price': '£50.10', 'rating': 'One', 'availability': 'In stock'}, {'title': 'Sharp Objects', 'price': '£47.82', 'rating': 'Four', 'availability': 'In stock'}, {'title': 'Sapiens: A Brief History of Humankind', 'price': '£54.23', 'rating': 'Five', 'availability': 'In stock'}]


Créer un DataFrame avec les données scrapées,

In [25]:
# Création d'un DataFrame à partir de la liste
df_books = pd.DataFrame(data_books)
df_books

Unnamed: 0,title,price,rating,availability
0,A Light in the Attic,£51.77,Three,In stock
1,Tipping the Velvet,£53.74,One,In stock
2,Soumission,£50.10,One,In stock
3,Sharp Objects,£47.82,Four,In stock
4,Sapiens: A Brief History of Humankind,£54.23,Five,In stock
...,...,...,...,...
995,Alice in Wonderland (Alice's Adventures in Won...,£55.53,One,In stock
996,"Ajin: Demi-Human, Volume 1 (Ajin: Demi-Human #1)",£57.06,Four,In stock
997,A Spy's Devotion (The Regency Spies of London #1),£16.97,Five,In stock
998,1st to Die (Women's Murder Club #1),£53.98,One,In stock


In [26]:
# Nombre de livres scrapés
books_nb = len(df_books)
print(f"Nombre de livres scrapés : {books_nb}")

Nombre de livres scrapés : 1000


Chercher dans la doc [pandas](https://pandas.pydata.org/docs/) la fonction permettant de sauvegarder les données dans un fichier CSV.

Sauvegarder les données dans un fichier _books_infos.csv_


In [27]:
# Sauvegarder les données dans un fichier csv
df_books.to_csv('../books_infos.csv')