#                                  Le module BeautifulSoup



# Introduction :

BeautifulSoup est une bibliothèque Python d'analyse syntaxique de documents HTML et XML créée par Leonard Richardson.
La dernière version est le 4.9.1 (17 mai 2020)

Elle produit un arbre syntaxique qui peut être utilisé pour chercher des éléments ou les modifier en transformant
un document HTML complexe en un arbre d'objets Python.

Pour être plus précis, l’arbre est constitué de quatre types d’objets, Tag,
NavigableString, BeautifulSoup et Comment. Cet arbre peut ensuite être "interrogé" en utilisant les
méthodes / propriétés de l'objet BeautifulSoup créé à partir de la bibliothèque de l'analyseur.

Cette bibliothèque python permet d’extraire des informations d’un site web, ou encore d’un document XML, avec
quelques lignes de code.

# Besoins :

Vous avez souvent l'un des besoins suivants:
1. Vous souhaiterez peut-être analyser une page Web pour déterminer le nombre de balises
trouvées, le nombre d'éléments de chaque balise détectés et leurs valeurs. Vous voudrez
peut-être les changer.
2. Vous souhaiterez peut-être déterminer les noms et les valeurs des éléments afin de pouvoir
les utiliser conjointement avec d'autres bibliothèques pour l'automatisation de pages Web,
telles que Selenium .
3. Vous pouvez souhaiter transférer / extraire des données affichées dans une page Web vers
d'autres formats, tels qu'un fichier CSV ou une base de données relationnelle telle que
SQLite ou mysql. Dans ce cas, la bibliothèque vous aide dans la première étape, à
comprendre la structure de la page Web, bien que vous utilisiez d'autres bibliothèques pour
effectuer l'acte de transfert.
4. Vous voudrez peut-être savoir combien d’éléments sont stylés avec un certain style CSS et
lesquels.

# Installation :

La commande suivante permet d'installer la bibliothèque BeautifulSoup de Python qui devrait fonctionner sur Python 2 et Python 3:

$ pip install beautifulsoup4

Si vous n'avez pas de pip installé sur votre système, vous pouvez télécharger directement la tablette source Beautiful Soup 4 et l'installer à l'aide de setup.py.

$ python setup.py install

# Erreurs possibles :

- Le "Aucun module nommé HTMLParser" ImportError se produit lorsque vous exécutez la version Python 2 du code sous Python 3.
- Le "Aucun module nommé html.parser" ImportError se produit lorsque vous exécutez la version Python 3 du code sous Python 2.

Les deux erreurs ci-dessus peuvent être corrigées en désinstallant et en réinstallant Beautiful Soup.

# Installation d'un analyseur :

L'objet BeautifulSoup peut accepter deux arguments. Le premier argument est le marquage actuel, et le second argument est l'analyseur que vous souhaitez utiliser. Les différents analyseurs sont: html.parser, lxml et html5lib. L'analyseur lxml comporte deux versions, un analyseur HTML et un analyseur XML.

Le html.parser est un analyseur intégré, et cela ne fonctionne pas si bien dans les anciennes versions de Python. Vous pouvez installer les autres analyseurs à l'aide des commandes suivantes:


$ pip install lxml


$ pip install html5lib

L'analyseur lxml est très rapide et peut être utilisé pour analyser rapidement le HTML. D'autre part, l'analyseur html5lib est très lent, mais il est également extrêmement indulgent. Voici un exemple d'utilisation de chacun de ces analyseurs:

In [14]:
from bs4 import BeautifulSoup
 
soup = BeautifulSoup("<html><p>This is <b>invalid HTML</p></html>", "html.parser")
print(soup)
# <html><p>This is <b>invalid HTML</b></p></html>
 

soup = BeautifulSoup("<html><p>This is <b>invalid HTML</p></html>", "html5lib")
print(soup)
# <html><head></head><body><p>This is <b>invalid HTML</b></p></body></html>

<html><p>This is <b>invalid HTML</b></p></html>
<html><head></head><body><p>This is <b>invalid HTML</b></p></body></html>


# Exemple de grattage BeautifulSoup :

In [4]:
from bs4 import BeautifulSoup

import requests

main_url = "https://fr.wikipedia.org/wiki/Hello_world"
req = requests.get(main_url)
soup = BeautifulSoup(req.text, "html.parser")

# Finding the main title tag.

title = soup.find("h1", class_ = "firstHeading")
print (title.get_text())

# Finding the mid-titles tags and storing them in a list.

mid_titles = [tag.get_text() for tag in soup.find_all("span", class_ = "mw-headline")]

# Now using css selectors to retrieve the article shortcut links

links_tags = soup.select("li.toclevel-1")
for tag in links_tags:
    print (tag.a.get("href"))

Hello world
#Histoire
#Utilité
#Programmes_Hello_world!
#Notes_et_références


# Les méthodes :

Différentes méthodes peuvent être utilisées pour trouver un élément dans l'arborescence de la
page Web.

# Éléments de localisation :

.next_sibling


Localiser un texte après un élément dans BeautifulSoup :

Imaginez que vous avez le code HTML suivant et vous voulez localiser le texte "John Smith" après l'élément label.
Dans ce cas, vous pouvez localiser l'élément label par texte, puis utiliser la propriété .next_sibling
:

In [5]:
from bs4 import BeautifulSoup

data = """
<div>
<label>Name:</label>
John Smith
</div>
"""

soup = BeautifulSoup(data, "html.parser")
label = soup.find("label", text="Name:")
print(label.next_sibling.strip())

John Smith


Utilisation de sélecteurs CSS pour localiser des éléments dans BeautifulSoup

In [7]:
from bs4 import BeautifulSoup

data = """
<ul>
<li class="item">item1</li>
<li class="item">item2</li>
<li class="item">item3</li>
</ul>
"""

soup = BeautifulSoup(data, "html.parser")

for item in soup.select("li.item"):
    print(item.get_text())

item1
item2
item3


Localisation des commentaires

Pour localiser les commentaires dans BeautifulSoup , utilisez l'argument text (ou string dans les
versions récentes) vérifiant le type à Comment :

In [8]:
from bs4 import BeautifulSoup

from bs4 import Comment

data = """
<html>
<body>
<div>
<!-- desired text -->
</div>
</body>
</html>
"""

soup = BeautifulSoup(data, "html.parser")

comment = soup.find(text=lambda text: isinstance(text, Comment))
print(comment)

 desired text 


# Fonctions de filtrage

BeautifulSoup vous permet de filtrer les résultats en fournissant une fonction à find_all et à des
fonctions similaires. Cela peut être utile pour les filtres complexes ainsi que pour un outil de
réutilisation du code.

Utilisation de base :
    
Définir une fonction qui prend un élément comme seul argument. La fonction doit retourner True si
l'argument correspond.

In [10]:
#Returns True for tags with a href attribute
def has_href(tag):
  
    return bool(tag.get("href"))

soup.find_all(has_href) #find all elements with a href attribute

#equivilent using lambda:

soup.find_all(lambda tag: bool(tag.get("href")))

[]

Récupérer le contenu d'une balise spécifiée

BeautifulSoup vous propose par exemple de récupérer toutes les balises p d'une page HTML

In [16]:
# coding: utf-8

from bs4 import BeautifulSoup

html_doc = """
<html>
    <head>
    <title>Titre de votre site</title>
    </head>
    <body>
        <p>Texte à lire 1</p>
        <p>Texte à lire 2</p>
    </body>
</html>
"""
soup = BeautifulSoup(html_doc)
    
for p in soup.find_all('p'):
    print (p)

soup.find_all(has_href)

<p>Texte à lire 1</p>
<p>Texte à lire 2</p>


[]

 Changer le contenu de balises

Trouver les éléments qui nous intéresse c'est une chose, mais pouvoir les modifier c'est encore mieux! 

In [17]:
# coding: utf-8

from bs4 import BeautifulSoup

html_doc = """
<html>
    <head>
    <title>Titre de votre site</title>
    </head>
    <body>
        <p>Texte à lire 1</p>
        <p>Texte à lire 2</p>
    </body>
</html>
"""
soup = BeautifulSoup(html_doc)
    
for p in soup.find_all('p'):
    p.string = "Nouveau texte"
    
print (soup)


<html>
<head>
<title>Titre de votre site</title>
</head>
<body>
<p>Nouveau texte</p>
<p>Nouveau texte</p>
</body>
</html>



 Remplacer des balises

Vous pouvez remplacer les balises avec la méthode replace_with :

In [18]:
# coding: utf-8

from bs4 import BeautifulSoup

html_doc = """
<html>
    <head>
    <title>Titre de votre site</title>
    </head>
    <body>
        <p>Texte à lire 1</p>
        <p>Texte à lire 2</p>
    </body>
</html>
"""
soup = BeautifulSoup(html_doc)
    
for p in soup.find_all('p'):
    n = BeautifulSoup('<pre>%s</pre>' % p.string)
    p.replace_with(n.body.contents[0])
    
print (soup)


<html>
<head>
<title>Titre de votre site</title>
</head>
<body>
<pre>Texte à lire 1</pre>
<pre>Texte à lire 2</pre>
</body>
</html>



Lire les attributs

Il est possible de lire les attributs des éléments avec la méthode get :

In [19]:
# coding: utf-8

from bs4 import BeautifulSoup

html_doc = """
<html>
    <head>
    <title>Titre de votre site</title>
    </head>
    <body>
        <p class="c1 c2">Texte à lire 1</p>
        <p class="c3">Texte à lire 2</p>
    </body>
</html>
"""
soup = BeautifulSoup(html_doc)
    
for p in soup.find_all('p'):
    print (p.get("class"))


['c1', 'c2']
['c3']


# Les méthodes de la classe BeautifulSoup

- clear( decompose=False )

Extrait tous les enfants

- decode_contents ( indent_level=None, eventual_encoding='utf-8', formatter='minimal' )

Créer un rendu en chaine unicode

- decompose()

Detruit récursivement les contenus de l'arbre

- encode ( encoding='utf-8', indent_level=None, formatter='minimal', errors='xmlcharrefreplace' )

encode

- encode_contents ( indent_level=None, encoding='utf-8', formatter='minimal' )

Créer des rendus du tag en bytestring

- find ( name=None, attrs={}, recursive=True, text=None, **kwargs )

Retourne seulement le premier enfant de la balise correspondant pour le critère donné

- find_all ( name=None, attrs={}, recursive=True, text=None, limit=None, **kwargs )

Retourne une liste d'objet balise correspondant à la demande.

- find ( name=None, attrs={}, recursive=True, text=None, **kwargs )

Retourne seulement le premier enfant de la balise cherchée

- findChildren ( name=None, attrs={}, recursive=True, text=None, limit=None, **kwargs )

Retourne une liste d'objet balise correspondant à la demande

- get ( key, default=None )

Retourne la valeur de l'attribut "key" de la balise ou retourne la valeur default

- get_text ( self, separator=u'', strip=False, types=( <class 'bs4.element.NavigableString'>, <class 'bs4.element.CData'> ) )

Retourne toutes les chaines de caractères des enfants concaténé utilisant le séparateur indiqué

- has_attr ( key )

True si l'attribut demandé est présent

- has_key ( key )

Vérifie la présence de la clé

- index ( element )

Retourne l'index de l'élément

- prettify ( self, encoding=None, formatter='minimal' )

Améliore la lecture du code

- recursiveChildGenerator ( )

- append ( self, tag )

Ajoute la balise donnée à l'objet en cours

- extract ( )

Extrait l'élément de l'arbre

- find_next_siblings ( self, name=None, attrs={}, text=None, limit=None, **kwargs )

Renvoi les objects frères de l'objet en cours

- find_parents ( self, name=None, attrs={}, limit=None, **kwargs )

Renvoi les parents

- find_all_previous ( self, name=None, attrs={}, text=None, limit=None, **kwargs )

Retourne tous les items qui match avec le critère donné avant l'objet en cours

- find_previous_siblings ( self, name=None, attrs={}, text=None, limit=None, **kwargs )

Retourne les objets frères de l'objet en cours qui sont avant celui-ci

- find_all_next ( self, name=None, attrs={}, text=None, limit=None, **kwargs )

Retourne les objets qui correpondent à la recherche mais qui se situent après l'objet en cours

- find_all_previous ( self, name=None, attrs={}, text=None, limit=None, **kwargs )

Retourne les objets qui correspondent à la recherche mais qui se situent avant l'objet en cours

- find_next ( self, name=None, attrs={}, text=None, **kwargs )

Retourne le premier objet frère après l'objet en cours

- find_next_sibling ( self, name=None, attrs={}, text=None, **kwargs )

Retourne l'objet frère le plus proche après lui

- find_next_siblings ( self, name=None, attrs={}, text=None, limit=None, **kwargs )

Retourne les objets frères suivants

- find_parent ( self, name=None, attrs={}, **kwargs )

Retourne le parent le plus proche

- find_parents ( self, name=None, attrs={}, limit=None, **kwargs )

Retourne les parents

- find_previous ( self, name=None, attrs={}, text=None, **kwargs )

Retourne le premier item avant l'objet en cours

- find_previous_sibling ( self, name=None, attrs={}, text=None, **kwargs )

Retourne l'item frère le plus proche précédent l'objet en cours

- find_previous_siblings ( self, name=None, attrs={}, text=None, limit=None, **kwargs )

Retourne les items frères les plus proches précédents l'objet en cours

- find_all_next ( self, name=None, attrs={}, text=None, limit=None, **kwargs )

Retourne tous les items qui suivent l'objet en cours

- find_all_previous ( self, name=None, attrs={}, text=None, limit=None, **kwargs )

Retourne tous les items qui précédent l'objet en cours


# Exemple d'utilisation

J'avais besoin d'un parseur HTML pour mettre en forme et colorer le code que je présente sur ce site; je partage ce petit script: 

In [39]:
from bs4 import BeautifulSoup
import requests
#import pandas as pd

url = "https://feeds.bbci.co.uk/news/rss.xml"

#Importer le code de la page

reponse = requests.get(url)

soup = BeautifulSoup(reponse.text, "html.parser")

items = soup.findAll('item')
#print(items[0])
it = items[0]

#print(it.description.text)

new_it = []

new_i = {}

for i in items:
    new_i['title'] = it.title.text
    new_i['description'] = it.description.text
    new_i['pubdate'] = it.pubdate.text
    new_it.append(new_i)
    
#for i in new_it:
    #print(i)