# Prise en main de `beautifulsoup`

<div class="alert alert-block alert-info">
<bObjectif p:</b>Ce notebook permet de découvrir les commandes de base de <code>beautifulsoup</code>, en s'appuyant sur le site <a href="https://quotes.toscrape.com/"> https://quotes.toscrape.com/</a>. </div>

🛟 Pour la suite, éditez https://quotes.toscrape.com/ dans _Chrome_ et affichez-y les _outils de développement_. Affichez à l'écran en parallèle l'instance de Chrome ouverte et ce notebook.

## Chargement des modules python

Pour ce TP, 2 modules sont nécessaires :

In [1]:
import requests
import bs4      # <= beautifulsoup

## Chargement d'un code source

Dans la lignée du TP précédent, on peut récupérer le code source (HTML) de la page http://quotes.toscrape.com/ avec : 

In [2]:
url = "http://quotes.toscrape.com/"
response = requests.get(url)
source = response.text 
print(source)

<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<title>Quotes to Scrape</title>
    <link rel="stylesheet" href="/static/bootstrap.min.css">
    <link rel="stylesheet" href="/static/main.css">
    
    
</head>
<body>
    <div class="container">
        <div class="row header-box">
            <div class="col-md-8">
                <h1>
                    <a href="/" style="text-decoration: none">Quotes to Scrape</a>
                </h1>
            </div>
            <div class="col-md-4">
                <p>
                
                    <a href="/login">Login</a>
                
                </p>
            </div>
        </div>
    

<div class="row">
    <div class="col-md-8">

    <div class="quote" itemscope itemtype="http://schema.org/CreativeWork">
        <span class="text" itemprop="text">“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”</span>
        <span>by <small class="auth

## _Parsing_ du code source

Pour découper/**parser** le code source au sens du langage HTML et obtenir l'ensemble de ses données structurées par ses **balises**, on utilise : 

In [3]:
html = bs4.BeautifulSoup(source, 'html.parser')

Un affichage du code source avec mise en valeur (par _tabulation_) de l'arborescence de balises s'obtient avec : 

In [4]:
visu = html.prettify()
print(visu)

<!DOCTYPE html>
<html lang="en">
 <head>
  <meta charset="utf-8"/>
  <title>
   Quotes to Scrape
  </title>
  <link href="/static/bootstrap.min.css" rel="stylesheet"/>
  <link href="/static/main.css" rel="stylesheet"/>
 </head>
 <body>
  <div class="container">
   <div class="row header-box">
    <div class="col-md-8">
     <h1>
      <a href="/" style="text-decoration: none">
       Quotes to Scrape
      </a>
     </h1>
    </div>
    <div class="col-md-4">
     <p>
      <a href="/login">
       Login
      </a>
     </p>
    </div>
   </div>
   <div class="row">
    <div class="col-md-8">
     <div class="quote" itemscope="" itemtype="http://schema.org/CreativeWork">
      <span class="text" itemprop="text">
       “The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”
      </span>
      <span>
       by
       <small class="author" itemprop="author">
        Albert Einstein
       </small>
       <a href="/author/Albert

## Recherche d'un élément par sa balise

### Recherche par balise

Pour rechercher un élément par sa balise (par exemple ici le _titre de l'onglet_ déclaré avec la balise `<title>`), on utilise :

In [11]:
titre = html.find("h2")
print("Type :", type(titre))
print("Valeur :", titre)

Type : <class 'bs4.element.Tag'>
Valeur : <h2>Top Ten tags</h2>


### Contenu d'un élément

👓 Un élément contient à la fois la balise, ses attributs et le code (texte ou HTML) qu'il encapsule. On peut récupérer différentes informations : 

In [12]:
print("Balise :", titre.name)

Balise : h2


In [7]:
print("Code source associé (outerHTML):")
print(titre.prettify())

Code source associé (outerHTML):
<title>
 Quotes to Scrape
</title>



In [8]:
print("Contenu textuel (avec suppression des balises):")
titre.text

Contenu textuel (avec suppression des balises):


'Quotes to Scrape'

### Contenu d'un élément encapsulant d'autres éléments HTML

L'élément peut encapsuler lui-même plusieurs éléments HTML. Par exemple : 

In [9]:
pied = html.find("footer")
print(pied.prettify())

<footer class="footer">
 <div class="container">
  <p class="text-muted">
   Quotes by:
   <a href="https://www.goodreads.com/quotes">
    GoodReads.com
   </a>
  </p>
  <p class="copyright">
   Made with
   <span class="zyte">
    ❤
   </span>
   by
   <a class="zyte" href="https://www.zyte.com">
    Zyte
   </a>
  </p>
 </div>
</footer>



In [None]:
print("Contenu textuel sans balises:")
pied.text

### Attributs d'un élément

On peut aussi d'un élément la valeur de ses attributs avec la méthode `get(<nom_attribut>)`, `<nom_attribut>` pouvant être `"href"`, `"src"`, `"class"`. Par exemple :

In [None]:
pied = html.find("footer")
classe = pied.get("class")
print(classe)

⚠️ Si plusieurs éléments de la page sont associées à la recherche, la méthode `find` renvoie le premier trouvé (_première occurrence_) :

In [None]:
lien = html.find("a")
print(lien.prettify())

## Recherche d'élément par ses attributs

Les éléments peuvent être recherchés par leurs attributs avec :

```python
elmt = html.find(<balise>, attrs={"<nom_attribut1>": "<valeur_attribut1>",
                                  "<nom_attribut2>": "<valeur_attribut2>", 
                                  ...})
```
avec : 
* la mention de la balise optionnelle
* des `<nom_attribut>` pouvant être `"href"`, `"src"`, `"class"`, ...

❓Identifiez la balise et la classe de l'élément encapsulant le _copyright_ "Made with ❤ by Zyte". Ecrivez le code permettant de récupérer cet élément et d'afficher son contenu (textuel) sur la console.

In [None]:
# ici le code

## Recherche de plusieurs éléments

Pour obtenir tous les éléments associés à la recherche (que ce soit par balise ou par attributs), on utilise la méthode `findAll`. Elle renvoie une **liste** d'éléments, par exemple : 

In [None]:
liens = html.findAll("a")
print("Nombres de liens trouvés:", len(liens)) 
# Quelques informations sur les 5 premiers
for i in range(5):
    print(f"Lien {i+1}:", liens[i].text, "->", liens[i].get("href"))

❓Inspectez (avec le navigateur Web) le code source des **citations** : identifiez les balises et les attributs qui leur sont affectées. Ecrivez le code python pour afficher pour toutes les citations de la page automatiquement numérotées sous la forme : 

```text
Citation 1: “The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”
Citation 2: “It is our choices, Harry, that show what we truly are, far more than our abilities.”
Citation 3: “There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”

```

(On ne cherchera pas à récupérer les citations des autres pages du site)....

In [None]:
# ici le code

## Gestion de l'arborescence de balises

Lorsque l'élément récupéré encapsule du code HTML, par exemple : 

In [10]:
pied = html.find("footer")
print(pied) # affichage du texte sans mention des balises

<footer class="footer">
<div class="container">
<p class="text-muted">
                Quotes by: <a href="https://www.goodreads.com/quotes">GoodReads.com</a>
</p>
<p class="copyright">
                Made with <span class="zyte">❤</span> by <a class="zyte" href="https://www.zyte.com">Zyte</a>
</p>
</div>
</footer>


On peut accèder à différentes informations sur ses _enfants_ dans le code encapsulé avec :

* la méthode `elmt.findChild(<balise>, attrs=<dico_attributs>)`  pour trouver (la première occurrence) d'une balise et de ses attributs
* la méthode `elmt.findChildren(<balise_enfant>, attrs=<dico_attributs>)` pour récupérer tous les enfants trouvés dans une **liste**

Par exemple :  

In [None]:
coeur = pied.findChild("span", attrs={"class", "zyte"}) 
print(coeur.text)

In [None]:
liens = pied.findChildren("a")
for lien in liens:
    print(lien.text)

❓ Reprenez le code précédent _scrapant_ les citations pour afficher à la fois la citation et son auteur sous la forme : 

```text
Citation 1 (Albert Einstein) : “The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”
Citation 2 (J.K. Rowling) : “It is our choices, Harry, that show what we truly are, far more than our abilities.”
Citation 3 (Albert Einstein) : “There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”
...
```

In [None]:
# ici le code

## Recherche d'élements par règles CSS

La méthode `elmt.select(<selecteur_CSS>)` permet de récupérer tous les élements HTML au sens d'un `<selecteur_CSS>`. On rappele qu'on peut s'appuyer sur l'outil _Inspecter_ pour cibler les sélecteurs CSS intéressants. 

Par exemple, pour récupérer les tags de la zone _Top Ten tags_ :

In [None]:
tags = html.select("div.tags-box a") # les liens dans la div qui a pour classe tags-box 
for tag in tags:
    print(tag.text)