# Introduction



Beautiful Soup est une bibliothèque Python permettant d'extraire des données de fichiers HTML et XML. Il fonctionne avec votre analyseur préféré pour fournir des moyens idiomatiques de navigation, de recherche et de modification de l'arbre d'analyse. Cela permet généralement aux programmeurs d'économiser des heures ou des jours de travail.

Ces instructions illustrent toutes les principales fonctionnalités de Beautiful Soup 4, avec des exemples. Je vous montre à quoi sert la bibliothèque, comment elle fonctionne, comment l'utiliser, comment lui faire faire ce que vous voulez et quoi faire quand elle viole vos attentes.

Ce document couvre la version 4.8.1 de Beautiful Soup. Les exemples de cette documentation devraient fonctionner de la même manière dans Python 2.7 et Python 3.2.

Vous recherchez peut-être la documentation de Beautiful Soup 3 . Si tel est le cas, sachez que Beautiful Soup 3 n'est plus développé et que son support sera abandonné le 31 décembre 2020 ou après. Si vous souhaitez en savoir plus sur les différences entre Beautiful Soup 3 et Beautiful Soup 4, consultez Portage coder à BS4.


# Démarrage rapide


Voici un document HTML que j'utiliserai comme exemple tout au long de ce document. C'est une partie d'une histoire d' Alice au pays des merveilles :

In [4]:
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title1"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

L'exécution du document "trois sœurs" via Beautiful Soup nous donne un BeautifulSoupobjet, qui représente le document comme une structure de données imbriquée :

In [5]:
import requests
from bs4 import BeautifulSoup
import pandas as pd 
URL = "https://realpython.github.io/fake-jobs/"

page = requests.get(URL)
soup = BeautifulSoup(page.content, "html.parser")
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1" name="viewport"/>
  <title>
   Fake Python
  </title>
  <link href="https://cdn.jsdelivr.net/npm/bulma@0.9.2/css/bulma.min.css" rel="stylesheet"/>
 </head>
 <body>
  <section class="section">
   <div class="container mb-5">
    <h1 class="title is-1">
     Fake Python
    </h1>
    <p class="subtitle is-3">
     Fake Jobs for Your Web Scraping Journey
    </p>
   </div>
   <div class="container">
    <div class="columns is-multiline" id="ResultsContainer">
     <div class="column is-half">
      <div class="card">
       <div class="card-content">
        <div class="media">
         <div class="media-left">
          <figure class="image is-48x48">
           <img alt="Real Python Logo" src="https://files.realpython.com/media/real-python-logo-thumbnail.7f0db70c2ed2.jpg?__no_cf_polish=1"/>
          </figure>
         </div>
         <div class="media-content">
          <h2 c

Voici quelques façons simples de naviguer dans cette structure de données :

In [None]:
soup.title

<title>Fake Python</title>

In [None]:
soup.title.name

'title'

In [None]:
soup.title.string

'Fake Python'

In [2]:
a='**** bonjour*****'

In [3]:
a.strip('*')

' bonjour'

In [None]:
soup.title.parent.name

'head'

In [None]:
soup.p

<p class="subtitle is-3">
        Fake Jobs for Your Web Scraping Journey
      </p>

In [None]:
soup.p['class']

['subtitle', 'is-3']

In [None]:
soup.a

<a class="card-footer-item" href="https://www.realpython.com" target="_blank">Learn</a>

In [None]:
soup.find_all('a')

[<a class="card-footer-item" href="https://www.realpython.com" target="_blank">Learn</a>,
 <a class="card-footer-item" href="https://realpython.github.io/fake-jobs/jobs/senior-python-developer-0.html" target="_blank">Apply</a>,
 <a class="card-footer-item" href="https://www.realpython.com" target="_blank">Learn</a>,
 <a class="card-footer-item" href="https://realpython.github.io/fake-jobs/jobs/energy-engineer-1.html" target="_blank">Apply</a>,
 <a class="card-footer-item" href="https://www.realpython.com" target="_blank">Learn</a>,
 <a class="card-footer-item" href="https://realpython.github.io/fake-jobs/jobs/legal-executive-2.html" target="_blank">Apply</a>,
 <a class="card-footer-item" href="https://www.realpython.com" target="_blank">Learn</a>,
 <a class="card-footer-item" href="https://realpython.github.io/fake-jobs/jobs/fitness-centre-manager-3.html" target="_blank">Apply</a>,
 <a class="card-footer-item" href="https://www.realpython.com" target="_blank">Learn</a>,
 <a class="card

In [None]:
soup.find(id="ResultsContainer")

<div class="columns is-multiline" id="ResultsContainer">
<div class="column is-half">
<div class="card">
<div class="card-content">
<div class="media">
<div class="media-left">
<figure class="image is-48x48">
<img alt="Real Python Logo" src="https://files.realpython.com/media/real-python-logo-thumbnail.7f0db70c2ed2.jpg?__no_cf_polish=1"/>
</figure>
</div>
<div class="media-content">
<h2 class="title is-5">Senior Python Developer</h2>
<h3 class="subtitle is-6 company">Payne, Roberts and Davis</h3>
</div>
</div>
<div class="content">
<p class="location">
        Stewartbury, AA
      </p>
<p class="is-small has-text-grey">
<time datetime="2021-04-08">2021-04-08</time>
</p>
</div>
<footer class="card-footer">
<a class="card-footer-item" href="https://www.realpython.com" target="_blank">Learn</a>
<a class="card-footer-item" href="https://realpython.github.io/fake-jobs/jobs/senior-python-developer-0.html" target="_blank">Apply</a>
</footer>
</div>
</div>
</div>
<div class="column is-half">


In [8]:
for link in soup.find_all('a'):
    print(link.get('href'))

https://www.realpython.com
https://realpython.github.io/fake-jobs/jobs/senior-python-developer-0.html
https://www.realpython.com
https://realpython.github.io/fake-jobs/jobs/energy-engineer-1.html
https://www.realpython.com
https://realpython.github.io/fake-jobs/jobs/legal-executive-2.html
https://www.realpython.com
https://realpython.github.io/fake-jobs/jobs/fitness-centre-manager-3.html
https://www.realpython.com
https://realpython.github.io/fake-jobs/jobs/product-manager-4.html
https://www.realpython.com
https://realpython.github.io/fake-jobs/jobs/medical-technical-officer-5.html
https://www.realpython.com
https://realpython.github.io/fake-jobs/jobs/physiological-scientist-6.html
https://www.realpython.com
https://realpython.github.io/fake-jobs/jobs/textile-designer-7.html
https://www.realpython.com
https://realpython.github.io/fake-jobs/jobs/television-floor-manager-8.html
https://www.realpython.com
https://realpython.github.io/fake-jobs/jobs/waste-management-officer-9.html
https://

Une autre tâche courante consiste à extraire tout le texte d'une page :

In [21]:
print([text for text in soup.stripped_strings])

['Fake Python', 'Fake Python', 'Fake Jobs for Your Web Scraping Journey', 'Senior Python Developer', 'Payne, Roberts and Davis', 'Stewartbury, AA', '2021-04-08', 'Learn', 'Apply', 'Energy engineer', 'Vasquez-Davidson', 'Christopherville, AA', '2021-04-08', 'Learn', 'Apply', 'Legal executive', 'Jackson, Chambers and Levy', 'Port Ericaburgh, AA', '2021-04-08', 'Learn', 'Apply', 'Fitness centre manager', 'Savage-Bradley', 'East Seanview, AP', '2021-04-08', 'Learn', 'Apply', 'Product manager', 'Ramirez Inc', 'North Jamieview, AP', '2021-04-08', 'Learn', 'Apply', 'Medical technical officer', 'Rogers-Yates', 'Davidville, AP', '2021-04-08', 'Learn', 'Apply', 'Physiological scientist', 'Kramer-Klein', 'South Christopher, AE', '2021-04-08', 'Learn', 'Apply', 'Textile designer', 'Meyers-Johnson', 'Port Jonathan, AE', '2021-04-08', 'Learn', 'Apply', 'Television floor manager', 'Hughes-Williams', 'Osbornetown, AE', '2021-04-08', 'Learn', 'Apply', 'Waste management officer', 'Jones, Williams and Vi

In [24]:
import re
for link in soup.find_all(href= re.compile("jobs")):
    print(link.get("href"))

https://realpython.github.io/fake-jobs/jobs/senior-python-developer-0.html
https://realpython.github.io/fake-jobs/jobs/energy-engineer-1.html
https://realpython.github.io/fake-jobs/jobs/legal-executive-2.html
https://realpython.github.io/fake-jobs/jobs/fitness-centre-manager-3.html
https://realpython.github.io/fake-jobs/jobs/product-manager-4.html
https://realpython.github.io/fake-jobs/jobs/medical-technical-officer-5.html
https://realpython.github.io/fake-jobs/jobs/physiological-scientist-6.html
https://realpython.github.io/fake-jobs/jobs/textile-designer-7.html
https://realpython.github.io/fake-jobs/jobs/television-floor-manager-8.html
https://realpython.github.io/fake-jobs/jobs/waste-management-officer-9.html
https://realpython.github.io/fake-jobs/jobs/software-engineer-python-10.html
https://realpython.github.io/fake-jobs/jobs/interpreter-11.html
https://realpython.github.io/fake-jobs/jobs/architect-12.html
https://realpython.github.io/fake-jobs/jobs/meteorologist-13.html
https://r

# Installation de BeautifulSoup

In [None]:
#pip install python-bs4

Beautiful Soup est conditionné sous forme de code Python 2. Lorsque vous l'installez pour l'utiliser avec Python 3, il est automatiquement converti en code Python 3. Si vous n'installez pas le package, le code ne sera pas converti. Il y a également eu des rapports sur des machines Windows indiquant que la mauvaise version était installée.

Si vous obtenez le ImportError"Aucun module nommé HTMLParser", votre problème est que vous exécutez la version Python 2 du code sous Python 3.

Si vous obtenez le ImportError"Aucun module nommé html.parser", votre problème est que vous exécutez la version Python 3 du code sous Python 2.

Dans les deux cas, votre meilleur pari est de supprimer complètement l'installation de Beautiful Soup de votre système (y compris tout répertoire créé lorsque vous avez décompressé l'archive) et de réessayer l'installation.

Si vous obtenez la SyntaxError"Syntaxe invalide" sur la ligne , vous devez convertir le code Python 2 en Python 3. Vous pouvez le faire soit en installant le package :ROOT_TAG_NAME = u'[document]'

$ python3 setup.py install



# Installing a parser
Beautiful Soup supporte l'analyseur HTML inclus dans la bibliothèque standard de Python, mais aussi un certain nombre d'analyseurs Python tiers. L'un d'entre eux est l'analyseur lxml( parser). Selon votre configuration, vous pouvez installer lxml avec l'une de ces commandes :

In [None]:
!py -m pip install lxml




[notice] A new release of pip is available: 23.0.1 -> 23.1
[notice] To update, run: C:\Users\gcher\AppData\Local\Programs\Python\Python310\python.exe -m pip install --upgrade pip


Une autre alternative est le pur-Python html5lib parser , qui analyse le HTML comme le fait un navigateur Web. Selon votre configuration, vous pouvez installer html5lib avec l'une de ces commandes :

In [None]:
pip install html5lib

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 23.0.1 -> 23.1
[notice] To update, run: C:\Users\gcher\AppData\Local\Programs\Python\Python310\python.exe -m pip install --upgrade pip


Si vous le pouvez, je vous recommande d'installer et d'utiliser lxml pour plus de rapidité. Si vous utilisez une version de Python 2 antérieure à 2.7.3 ou une version de Python 3 antérieure à 3.2.2, il est essentiel d'installer lxml ou html5lib - l'analyseur HTML intégré de Python n'est tout simplement pas très bon dans les versions plus anciennes. versions.

Notez que si un document n'est pas valide, différents analyseurs généreront différents arbres Beautiful Soup pour celui-ci. Voir Différences entre les analyseurs pour plus de détails.

# Faire la soupe

our analyser un document, passez-le au BeautifulSoup constructeur. Vous pouvez passer une chaîne ou un handle de fichier ouvert :

In [7]:
from bs4 import BeautifulSoup

with open("index.html") as fp:
    soup = BeautifulSoup(fp)

#soup = BeautifulSoup("<html>data</html>")

FileNotFoundError: [Errno 2] No such file or directory: 'index.html'

In [None]:
print(soup.prettify())

<html>
 <body>
  <b class="boldest">
   Extremely bold
  </b>
  <b id="boldest">
   Extremely bold
  </b>
 </body>
</html>


In [None]:
BeautifulSoup("Sacr&eacute; bleu!")

<html><body><p>Sacré bleu!</p></body></html>

# Types d'objets

Beautiful Soup transforme un document HTML complexe en un arbre complexe d'objets Python. Mais vous n'aurez à gérer qu'environ quatre types d'objets : Tag, NavigableString, BeautifulSoup et Comment.

## TAG
Un Tag objet correspond à une balise XML ou HTML dans le document d'origine :

In [None]:
soup = BeautifulSoup('<b class="boldest">Extremely bold</b>  ')
tag = soup.b
type(tag)

bs4.element.Tag

Les balises ont beaucoup d'attributs et de méthodes, et j'aborderai la plupart d'entre elles dans Naviguer dans l'arborescence et Rechercher dans l'arborescence . Pour l'instant, les caractéristiques les plus importantes d'une balise sont son nom et ses attributs.

## Nom

Chaque tag a un nom, accessible comme .name:

In [None]:
tag.name

'b'

Si vous modifiez le nom d'une balise, la modification sera répercutée dans tout balisage HTML généré par Beautiful Soup :

In [None]:
tag.name = "blockquote"
tag

<blockquote class="boldest">Extremely bold</blockquote>

## Les attributs
Une balise peut avoir n'importe quel nombre d'attributs. La balise a un attribut "id" dont la valeur est "boldest". Vous pouvez accéder aux attributs d'une balise en traitant la balise comme un dictionnaire :<b id="boldest">

In [None]:
soup = BeautifulSoup('<b id="boldest">Extremely bold</b> ')
tag = soup.b
type(tag)


bs4.element.Tag

In [None]:
tag['id']


'boldest'

Vous pouvez accéder à ce dictionnaire directement en tant que.attrs :

In [None]:
tag.attrs

{'id': 'boldest'}

Vous pouvez ajouter, supprimer et modifier les attributs d'une balise. Encore une fois, cela se fait en traitant la balise comme un dictionnaire :

In [None]:
tag['id'] = 'verybold'
tag['another-attribute'] = 1
tag

<b another-attribute="1" id="verybold">Extremely bold</b>

In [None]:
del tag['id']
del tag['another-attribute']
tag

<b>Extremely bold</b>

In [None]:
tag['id']

KeyError: 'id'

In [None]:
print(tag.get('id'))

# Attributs à valeurs multiples

HTML 4 définit quelques attributs qui peuvent avoir plusieurs valeurs. HTML 5 en supprime quelques-uns, mais en définit quelques autres. L'attribut à valeurs multiples le plus courant est class(c'est-à-dire qu'une balise peut avoir plusieurs classes CSS). D'autres incluent rel, rev, accept-charset, headerset accesskey. Beautiful Soup présente la ou les valeurs d'un attribut à valeurs multiples sous forme de liste :

In [None]:
css_soup = BeautifulSoup('<p class="body"></p>')
css_soup.p['class']

In [None]:
css_soup = BeautifulSoup('<p class="body strikeout"></p>')
css_soup.p['class']

Si un attribut semble avoir plus d'une valeur, mais qu'il ne s'agit pas d'un attribut à valeurs multiples tel que défini par n'importe quelle version de la norme HTML, Beautiful Soup laissera l'attribut tel quel :

In [None]:
id_soup = BeautifulSoup('<p id="my id"></p>')
id_soup.p['id']

Lorsque vous retransformez une balise en chaîne, plusieurs valeurs d'attribut sont consolidées :

In [None]:
rel_soup = BeautifulSoup('<p>Back to the <a rel="index">homepage</a></p>')
rel_soup.a['rel']

In [None]:
rel_soup.a['rel'] = ['index', 'contents']
print(rel_soup.p)

Vous pouvez désactiver cela en passant multi_valued_attributes=Nonecomme argument mot-clé dans le BeautifulSoupconstructeur :

In [None]:
no_list_soup = BeautifulSoup('<p class="body strikeout"></p>', 'html', multi_valued_attributes=None)
no_list_soup.p['class']

Vous pouvez utiliser `get_attribute_list pour obtenir une valeur qui est toujours une liste, qu'il s'agisse ou non d'un attribut à plusieurs valeurs :

In [None]:
id_soup.p.get_attribute_list('id')

Si vous analysez un document au format XML, il n'y a pas d'attributs à plusieurs valeurs :

In [None]:
xml_soup = BeautifulSoup('<p class="body strikeout"></p>', 'xml')
xml_soup.p['class']

Encore une fois, vous pouvez configurer cela en utilisant l' multi_valued_attributes argument :

In [None]:
class_is_multi= { '*' : 'class'}
xml_soup = BeautifulSoup('<p class="body strikeout"></p>', 'xml', multi_valued_attributes=class_is_multi)
xml_soup.p['class']

Vous n'aurez probablement pas besoin de le faire, mais si vous le faites, utilisez les valeurs par défaut comme guide. Ils implémentent les règles décrites dans la spécification HTML :

In [None]:
from bs4.builder import builder_registry
builder_registry.lookup('html').DEFAULT_CDATA_LIST_ATTRIBUTES

# NavigableString


Une chaîne correspond à un morceau de texte dans une balise. Beautiful Soup utilise la NavigableStringclasse pour contenir ces morceaux de texte :

In [None]:
tag.string

In [None]:
tag

In [None]:
type(tag.string)

 NavigableStringest comme une chaîne Python Unicode, sauf qu'il prend également en charge certaines des fonctionnalités décrites dans Naviguer dans l'arborescence et Rechercher dans l'arborescence . Vous pouvez convertir un NavigableStringen une chaîne Unicode avec unicode():

In [None]:
import sys
if sys.version_info[0] >= 3:
    unicode = str
unicode_string = unicode(tag.string)
unicode_string

In [None]:
type(unicode_string)

Vous ne pouvez pas modifier une chaîne sur place, mais vous pouvez remplacer une chaîne par une autre, en utilisant replace_with() :

In [None]:
tag.string.replace_with("No longer bold")
tag

NavigableString prend en charge la plupart des fonctionnalités décrites dans Navigation dans l'arborescence et Recherche dans l'arborescence , mais pas toutes. En particulier, puisqu'une chaîne ne peut rien contenir (comme une balise peut contenir une chaîne ou une autre balise), les chaînes ne prennent pas en charge les attributs .contents ou .string ou la find() méthode.

Si vous souhaitez utiliser un NavigableString extérieur de Beautiful Soup, vous devez unicode() l'appeler pour le transformer en une chaîne Python Unicode normale. Si vous ne le faites pas, votre chaîne comportera une référence à l'arbre d'analyse complet de Beautiful Soup, même lorsque vous avez terminé d'utiliser Beautiful Soup. C'est une grosse perte de mémoire.

# BeautifulSoup
  
  
L' BeautifulSoupobjet représente le document analysé dans son ensemble. Dans la plupart des cas, vous pouvez le traiter comme un objet Tag . Cela signifie qu'il prend en charge la plupart des méthodes décrites dans Navigation dans l'arborescence et Recherche dans l'arborescence .

Vous pouvez également passer un BeautifulSoupobjet dans l'une des méthodes définies dans Modifier l'arborescence , comme vous le feriez pour un Tag . Cela vous permet de faire des choses comme combiner deux documents analysés

In [None]:
doc = BeautifulSoup("<document><content/>INSERT FOOTER HERE</document", "xml")
footer = BeautifulSoup("<footer>Here's the footer</footer>", "xml")
doc.find(text="INSERT FOOTER HERE").replace_with(footer)

  doc.find(text="INSERT FOOTER HERE").replace_with(footer)


'INSERT FOOTER HERE'

In [None]:
print(doc)

<?xml version="1.0" encoding="utf-8"?>
<document><content/><footer>Here's the footer</footer></document>


Étant donné que l' BeautifulSoupobjet ne correspond pas à une balise HTML ou XML réelle, il n'a ni nom ni attribut. Mais parfois, il est utile de regarder son .name, c'est pourquoi on lui a donné le .name"[document]" spécial :

In [None]:
footer.name

'[document]'

In [None]:
type(doc)

bs4.BeautifulSoup

# Commentaires et autres chaînes spéciales

Tag, NavigableStringet BeautifulSoupcouvrent presque tout ce que vous verrez dans un fichier HTML ou XML, mais il reste quelques bits. Le seul dont vous aurez probablement à vous soucier est le commentaire :

In [None]:
markup = "<b><!--Hey, buddy. Want to buy a used parser?--></b>"
soup = BeautifulSoup(markup)
comment = soup.b.string
type(comment)

bs4.element.Comment

L' Comment objet est juste un type spécial de NavigableString:

In [None]:
comment

'Hey, buddy. Want to buy a used parser?'

Mais lorsqu'il apparaît dans le cadre d'un document HTML, un Comments'affiche avec une mise en forme spéciale :

In [None]:
print(soup.b.prettify())

<b>
 <!--Hey, buddy. Want to buy a used parser?-->
</b>


Beautiful Soup définit des classes pour tout ce qui pourrait apparaître dans un document XML : CData, Processing Instruction, Declarationet Doctype. Tout comme Comment, ces classes sont des sous-classes de NavigableString qui ajoutent quelque chose de plus à la chaîne. Voici un exemple qui remplace le commentaire par un bloc CDATA :

In [None]:
from bs4 import CData
cdata = CData("A CDATA block")
comment.replace_with(cdata)

print(soup.b.prettify())

<b>
 <![CDATA[A CDATA block]]>
</b>


# Naviguer dans l'arborescence

Voici à nouveau le document HTML "Three sisters":

In [None]:
html_doc = """<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

In [None]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')

Je vais l'utiliser comme exemple pour vous montrer comment passer d'une partie d'un document à une autre.


# Descente GOING DOWN

Les balises peuvent contenir des chaînes et d'autres balises. Ces éléments sont les enfants de la balise . Beautiful Soup fournit de nombreux attributs différents pour naviguer et itérer sur les enfants d'une balise.

Notez que les chaînes Beautiful Soup ne prennent en charge aucun de ces attributs, car une chaîne ne peut pas avoir d'enfants.

## Navigation à l'aide de noms de balises
La façon la plus simple de naviguer dans l'arborescence d'analyse est de dire le nom de la balise que vous voulez. Si vous voulez la balise <head>, dites simplement soup.head:

In [None]:
soup.head

<head><title>The Dormouse's story</title></head>

In [None]:
soup.title

<title>The Dormouse's story</title>

Vous pouvez utiliser cette astuce encore et encore pour zoomer sur une certaine partie de l'arbre d'analyse. Ce code obtient la première balise  <! b>  sous la balise <!body>" :

In [None]:
soup.body.b

<b>The Dormouse's story</b>

L'utilisation d'un nom de balise comme attribut ne vous donnera que la première balise portant ce nom :

In [None]:
soup.a

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [None]:
soup.find('a')

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

Si vous avez besoin d'obtenir toutes les balises <!a>, ou quelque chose de plus compliqué que la première balise avec un certain nom, vous devrez utiliser l'une des méthodes décrites dans Searching the tree , comme find_all() :

In [None]:
y=soup.find_all('a')
y

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

# .contents et .children


Les enfants d'un tag sont disponibles dans une liste appelée .contents:

In [None]:
head_tag = soup.head
head_tag

<head><title>The Dormouse's story</title></head>

In [None]:
len(head_tag.contents)

1

In [None]:
title_tag = head_tag.contents[0]
title_tag

<title>The Dormouse's story</title>

In [None]:
title_tag.contents

["The Dormouse's story"]

L' BeautifulSoupobjet lui-même a des enfants. Dans ce cas, la balise <html> est l'enfant de l' BeautifulSoupobjet :

In [None]:
len(soup.contents)

1

In [None]:
soup.contents[0]

<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body></html>

Une chaîne n'a pas .contents, car elle ne peut rien contenir :

In [None]:
text = title_tag.contents[0]
text.contents

AttributeError: 'NavigableString' object has no attribute 'contents'

Au lieu de les obtenir sous forme de liste, vous pouvez parcourir les enfants d'une balise à l'aide du .children générateur :

In [None]:
for child in title_tag.children:
    print(child)

The Dormouse's story


# .descendants
Les attributs .contents  ne prennent en compte que les enfants directs.children d'une balise . Par exemple, la balise <!head> a un seul enfant direct, la balise <!title> :

In [None]:
head_tag.contents

[<title>The Dormouse's story</title>]

Mais la balise <!title> elle-même a un enfant : la chaîne « The Dormouse's story ». Il y a un sens dans lequel cette chaîne est également un enfant de la balise <!head>. L' .descendants attribut vous permet d'itérer sur tous les enfants d'une balise, de manière récursive : ses enfants directs, les enfants de ses enfants directs, etc. :

In [None]:
for child in head_tag.descendants:
    print(child)

<title>The Dormouse's story</title>
The Dormouse's story


La balise <head> n'a qu'un seul enfant, mais elle a deux descendants : la balise <!title> et l'enfant de la balise <!title>. L' BeautifulSoupobjet n'a qu'un seul enfant direct (la balise <!html>), mais il a beaucoup de descendants :

In [None]:
yy=list(soup.children)
yy

[<html><head><title>The Dormouse's story</title></head>
 <body>
 <p class="title"><b>The Dormouse's story</b></p>
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>
 <p class="story">...</p>
 </body></html>]

In [None]:
print(list(soup.descendants))

[<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body></html>, <head><title>The Dormouse's story</title></head>, <title>The Dormouse's story</title>, "The Dormouse's story", '\n', <body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they liv

# .string

Si une balise n'a qu'un seul enfant et que cet enfant est un NavigableString, l'enfant est rendu disponible en tant que.string :

In [None]:
title_tag.string

"The Dormouse's story"

Si le seul enfant d'une balise est une autre balise et que cette balise a un .string, alors la balise parent est considérée comme ayant la même chose .stringque son enfant :

In [None]:
head_tag.contents

[<title>The Dormouse's story</title>]

In [None]:
head_tag.string

"The Dormouse's story"

Si une balise contient plus d'une chose, alors ce à quoi elle  doit faire référence n'est pas clair , .string elle est donc définie comme suit None :

In [None]:
print(soup.html.string)

None


## .strings and stripped_strings
If there’s more than one thing inside a tag, you can still look at just the strings. Use the .strings generator:

In [None]:
for string in soup.strings:
    print(repr(string))

"The Dormouse's story"
'\n'
'\n'
"The Dormouse's story"
'\n'
'Once upon a time there were three little sisters; and their names were\n'
'Elsie'
',\n'
'Lacie'
' and\n'
'Tillie'
';\nand they lived at the bottom of a well.'
'\n'
'...'
'\n'


Ces chaînes ont tendance à avoir beaucoup d'espaces blancs supplémentaires, que vous pouvez supprimer en utilisant le .stripped_stringsgénérateur à la place :

In [None]:
for string in soup.stripped_strings:
    print(repr(string))

"The Dormouse's story"
"The Dormouse's story"
'Once upon a time there were three little sisters; and their names were'
'Elsie'
','
'Lacie'
'and'
'Tillie'
';\nand they lived at the bottom of a well.'
'...'


Ici, les chaînes composées entièrement d'espaces sont ignorées et les espaces au début et à la fin des chaînes sont supprimés.

# Monter
Poursuivant l'analogie de « l'arbre généalogique », chaque balise et chaque chaîne a un parent : la balise qui la contient.

### .parent
Vous pouvez accéder au parent d'un élément avec l' ***.parent attribut***. Dans l'exemple de document "three sisters", la balise <!head> est le parent de la balise <!title> :

In [None]:
title_tag = soup.title
title_tag

<title>The Dormouse's story</title>

In [None]:
title_tag.parent

<head><title>The Dormouse's story</title></head>

La chaîne de titre elle-même a un parent : la balise <title> qui la contient :

In [None]:
title_tag.string.parent

<title>The Dormouse's story</title>

Le parent d'une balise de niveau supérieur comme <html> est l' BeautifulSoupobjet lui-même :

In [None]:
html_tag = soup.html
type(html_tag.parent)

bs4.BeautifulSoup

Et le .parentd'un BeautifulSoupobjet est défini comme Aucun :

In [None]:
print(soup.parent)

None


### .parents
Vous pouvez itérer sur tous les parents d'un élément avec .parents. Cet exemple utilise .parentspour voyager d'une balise <a> enfouie profondément dans le document, jusqu'au sommet du document :



In [None]:
link = soup.a
link

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [None]:
for parent in link.parents:
    if parent is None:
        print(parent)
    else:
        print(parent.name)

p
body
html
[document]


## Aller de côté
Prenons un simple document comme celui-ci :

In [None]:
sibling_soup = BeautifulSoup("<a><b>text1</b><c>text2</c></b></a>")
print(sibling_soup.prettify())

<html>
 <body>
  <a>
   <b>
    text1
   </b>
   <c>
    text2
   </c>
  </a>
 </body>
</html>


La balise <!b> et la balise <!c> sont au même niveau : elles sont toutes deux des enfants directs de la même balise. Nous les appelons frères et sœurs . Lorsqu'un document est joliment imprimé, les frères et sœurs s'affichent au même niveau d'indentation. Vous pouvez également utiliser cette relation dans le code que vous écrivez.



## .next_sibling et .previous_sibling
Vous pouvez utiliser .next_sibling et  .previous_sibling pour naviguer entre les éléments de page qui se trouvent au même niveau de l'arborescence d'analyse :

In [None]:
sibling_soup.b.next_sibling

<c>text2</c>

In [None]:
sibling_soup.c.previous_sibling

<b>text1</b>

La balise <!b> a un .next_sibling, mais non .previous_sibling, car il n'y a rien avant la balise <!b> au même niveau de l'arborescence . Pour la même raison, la balise <!c> a un .previous_sibling mais non .next_sibling:

In [None]:
print(sibling_soup.b.previous_sibling)

None


In [None]:
print(sibling_soup.c.next_sibling)

None


Les chaînes "text1" et "text2" ne sont pas frères, car elles n'ont pas le même parent :

In [None]:
sibling_soup.b.string

'text1'

In [None]:
print(sibling_soup.b.string.next_sibling)

None


Dans les vrais documents, le .next_sibling ou .previous_sibling d'une balise sera généralement une chaîne contenant des espaces. Revenons au document des « trois sœurs » :

In [None]:
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a>
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>

SyntaxError: invalid syntax (3909477007.py, line 1)

Vous pourriez penser que le .next_siblingde la première balise <!a> serait la deuxième balise <!a>. Mais en fait, c'est une chaîne : la virgule et le retour à la ligne qui séparent la première balise <!a> de la seconde :

In [None]:
link = soup.a
link

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [None]:
link.next_sibling

',\n'

La deuxième balise <!a> est en fait le .next_sibling de la virgule :

In [None]:
link.next_sibling.next_sibling

<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>

## .next_siblings et .previous_siblings
Vous pouvez itérer sur les frères d'une balise avec .next_siblings ou .previous_siblings :

In [None]:
for sibling in soup.a.next_siblings:
    print(repr(sibling))

',\n'
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>
' and\n'
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>
';\nand they lived at the bottom of a well.'


In [None]:
for sibling in soup.find(id="link3").previous_siblings:
    print(repr(sibling))

' and\n'
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>
',\n'
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
'Once upon a time there were three little sisters; and their names were\n'


# Aller et retour
Jetez un œil au début du document des « trois sœurs » :

In [None]:
""""<html><head><title>The Dormouse's story</title></head>
<p class="title"><b>The Dormouse's story</b></p>"""

'"<html><head><title>The Dormouse\'s story</title></head>\n<p class="title"><b>The Dormouse\'s story</b></p>'

## .next_element et .previous_element***
L' .next_elementattribut d'une chaîne ou d'une balise pointe vers ce qui a été analysé immédiatement après. C'est peut-être la même chose que .next_sibling, mais c'est généralement radicalement différent.

Voici la dernière balise <!a> dans le document "trois sœurs". C'est .next_sibling une chaîne : la conclusion de la phrase qui a été interrompue par le début de la balise <!a> :

In [None]:
last_a_tag = soup.find("a", id="link3")
last_a_tag

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

In [None]:
last_a_tag.next_sibling

';\nand they lived at the bottom of a well.'

Mais le .next_elementde cette balise <!a>, la chose qui a été analysée immédiatement après la balise <!a>, n'est pas le reste de cette phrase : c'est le mot « Tillie » :

In [None]:
last_a_tag.next_element

'Tillie'

C'est parce que dans le balisage d'origine, le mot "Tillie" apparaissait avant ce point-virgule. L'analyseur a rencontré une balise <!a>, puis le mot "Tillie", puis la balise de fermeture <!/a>, puis le point-virgule et le reste de la phrase. Le point-virgule est au même niveau que la balise <!a>, mais le mot « Tillie » a été rencontré en premier.

L' .previous_element attribut est l'exact opposé de .next_element. Il pointe vers l'élément qui a été analysé immédiatement avant celui-ci :

In [None]:
last_a_tag.previous_element

' and\n'

In [None]:
last_a_tag.previous_element.next_element

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

## .next_elements et .previous_elements
Vous devriez avoir l'idée maintenant. Vous pouvez utiliser ces itérateurs pour avancer ou reculer dans le document tel qu'il a été analysé :

In [None]:
for element in last_a_tag.next_elements:
    print(repr(element))

'Tillie'
';\nand they lived at the bottom of a well.'
'\n'
<p class="story">...</p>
'...'
'\n'


## Recherche de l'arbre
Beautiful Soup définit de nombreuses méthodes de recherche dans l'arbre d'analyse, mais elles sont toutes très similaires. Je vais passer beaucoup de temps à expliquer les deux méthodes les plus populaires : find()et find_all(). Les autres méthodes prennent presque exactement les mêmes arguments, je vais donc les couvrir brièvement.

Encore une fois, j'utiliserai le document "trois sœurs" comme exemple :

In [None]:
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""


In [None]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')

En passant un filtre à un argument comme find_all(), vous pouvez zoomer sur les parties du document qui vous intéressent.

## Types de filtres
Avant de parler en détail de find_all()méthodes similaires, je souhaite montrer des exemples de différents filtres que vous pouvez appliquer à ces méthodes. Ces filtres s'affichent encore et encore, tout au long de l'API de recherche. Vous pouvez les utiliser pour filtrer en fonction du nom d'une balise, de ses attributs, du texte d'une chaîne ou d'une combinaison de ceux-ci.

## Un string
Le filtre le plus simple est une chaîne. Passez une chaîne à une méthode de recherche et Beautiful Soup effectuera une correspondance avec cette chaîne exacte. Ce code trouve toutes les balises <!b> dans le document :

In [None]:
soup.find_all('b')

[<b>The Dormouse's story</b>]

Si vous transmettez une chaîne d'octets, Beautiful Soup supposera que la chaîne est encodée en UTF-8. Vous pouvez éviter cela en transmettant une chaîne Unicode à la place.

## Une expression régulière
Si vous transmettez un objet d'expression régulière, Beautiful Soup filtrera cette expression régulière à l'aide de sa search() méthode. Ce code trouve toutes les balises dont le nom commence par la lettre « b » ; dans ce cas, la balise <!body> et la balise <!b> :

In [None]:
import re
for tag in soup.find_all(re.compile("^b")):
    print(tag.name)

body
b


Ce code trouve toutes les balises dont le nom contient la lettre 't' :

In [None]:
for tag in soup.find_all(re.compile("t")):
    print(tag.name)

html
title


### Une liste
Si vous passez dans une liste, Beautiful Soup autorisera une correspondance de chaîne avec n'importe quel élément de cette liste. Ce code trouve toutes les balises <!a> et toutes les balises <!b> :

In [None]:
soup.find_all(["a", "b"])

[<b>The Dormouse's story</b>,
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

### True
La valeur Truecorrespond à tout ce qu'elle peut. Ce code trouve toutes les balises du document, mais aucune des chaînes de texte :

In [None]:
for tag in soup.find_all(True):
    print(tag.name)

html
head
title
body
p
b
p
a
a
a
p


### Une fonction
Si aucune des autres correspondances ne fonctionne pour vous, définissez une fonction qui prend un élément comme seul argument. La fonction doit retourner Truesi l'argument correspond, et False sinon.

Voici une fonction qui renvoie True si une balise définit l'attribut "class" mais ne définit pas l'attribut "id":

In [None]:
def has_class_but_no_id(tag):
    return tag.has_attr('class') and not tag.has_attr('id')

Passez cette fonction dans find_all() et vous récupérerez toutes les balises <!p> :

In [None]:
soup.find_all(has_class_but_no_id)

[<p class="title"><b>The Dormouse's story</b></p>,
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>,
 <p class="story">...</p>]

Cette fonction ne récupère que les balises <!p>. Il ne récupère pas les balises <!a>, car ces balises définissent à la fois "class" et "id". Il ne récupère pas les balises comme <!html> et <!title>, car ces balises ne définissent pas la "classe".

Si vous transmettez une fonction pour filtrer sur un attribut spécifique tel que href, l'argument transmis à la fonction sera la valeur de l'attribut, et non la balise entière. Voici une fonction qui trouve toutes ales balises dont hrefl'attribut ne correspond pas à une expression régulière :

In [None]:
def not_lacie(href):
    return href and not re.compile("lacie").search(href)
soup.find_all(href=not_lacie)

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

La fonction peut être aussi compliquée que nécessaire. Voici une fonction qui renvoie Truesi une balise est entourée d'objets chaîne :

In [None]:
from bs4 import NavigableString
def surrounded_by_strings(tag):
    return (isinstance(tag.next_element, NavigableString)
            and isinstance(tag.previous_element, NavigableString))

for tag in soup.find_all(surrounded_by_strings):
    print(tag.name)

body
p
a
a
a
p


Nous sommes maintenant prêts à examiner les méthodes de recherche en détail.

## find_all()
Signature : find_all( name , attrs , recursive , string , limit , **kwargs )

La find_all() méthode parcourt les descendants d'une balise et récupère tous les descendants qui correspondent à vos filtres. J'ai donné plusieurs exemples dans Types de filtres , mais en voici quelques autres :

In [None]:
soup.find_all("title")

[<title>The Dormouse's story</title>]

In [None]:
soup.find_all("p", "title")

[<p class="title"><b>The Dormouse's story</b></p>]

In [None]:
soup.find_all("a")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [None]:
soup.find_all(id="link2")

[<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

In [None]:
import re
soup.find(string=re.compile("sisters"))

'Once upon a time there were three little sisters; and their names were\n'

Certains d'entre eux devraient vous sembler familiers, mais d'autres sont nouveaux. Que signifie passer une valeur pour string, ou id? Pourquoi trouve-t-on une balise <!p> avec la classe CSS « ​​title » ? Regardons les arguments de .find_all("p", "title") find_all()

# L' nameargumentation

Passez une valeur pour name et vous direz à Beautiful Soup de ne considérer que les balises avec certains noms. Les chaînes de texte seront ignorées, tout comme les balises dont les noms ne correspondent pas.

C'est l'utilisation la plus simple :

In [None]:
soup.find_all("title")

[<title>The Dormouse's story</title>]

Rappelez-vous de Types de filtres que la valeur de namepeut être une chaîne , une expression régulière , une liste , une fonction ou la valeur True .

# Les arguments des mots clés

Tout argument non reconnu sera transformé en filtre sur l'un des attributs d'une balise. Si vous transmettez une valeur pour un argument appelé id, Beautiful Soup filtrera sur l'attribut 'id' de chaque balise :

In [None]:
soup.find_all(id='link2')

[<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

Si vous transmettez une valeur pour href, Beautiful Soup filtrera en fonction de l'attribut 'href' de chaque balise :

In [None]:
soup.find_all(href=re.compile("elsie"))

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]

Vous pouvez filtrer un attribut en fonction d' une chaîne , d'une expression régulière , d'une liste , d'une fonction ou de la valeur True .

Ce code trouve toutes les balises dont idl'attribut a une valeur, quelle que soit la valeur :

In [None]:
soup.find_all(id=True)

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

Vous pouvez filtrer plusieurs attributs à la fois en transmettant plusieurs arguments de mot-clé :

In [None]:
soup.find_all(href=re.compile("elsie"), id='link1')

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]

Certains attributs, comme les attributs data-* dans HTML 5, ont des noms qui ne peuvent pas être utilisés comme noms d'arguments de mots-clés :

In [None]:
data_soup = BeautifulSoup('<div data-foo="value">foo!</div>')
data_soup.find_all(data-foo="value")

SyntaxError: expression cannot contain assignment, perhaps you meant "=="? (53685298.py, line 2)

Vous pouvez utiliser ces attributs dans les recherches en les mettant dans un dictionnaire et en passant le dictionnaire dans find_all()comme attrsargument :

In [None]:
data_soup.find_all(attrs={"data-foo": "value"})

[<div data-foo="value">foo!</div>]

Vous ne pouvez pas utiliser un argument de mot-clé pour rechercher l'élément 'name' de HTML, car Beautiful Soup utilise l' name argument pour contenir le nom de la balise elle-même. Au lieu de cela, vous pouvez donner une valeur à 'name' dans l' attrsargument :

In [None]:
name_soup = BeautifulSoup('<input name="email"/>')
name_soup.find_all(name="email")

[]

In [None]:
name_soup.find_all(attrs={"name": "email"})

[<input name="email"/>]

# Recherche par classe CSS

Il est très utile de rechercher une balise qui a une certaine classe CSS, mais le nom de l'attribut CSS, « classe », est un mot réservé en Python. L'utiliser classcomme argument de mot-clé vous donnera une erreur de syntaxe. Depuis Beautiful Soup 4.1.2, vous pouvez rechercher par classe CSS en utilisant l'argument mot-clé class_:

In [None]:
import re
soup.find_all(class_=re.compile("itl"))

[<h1 class="title is-1">
         Fake Python
       </h1>,
 <p class="subtitle is-3">
         Fake Jobs for Your Web Scraping Journey
       </p>,
 <h2 class="title is-5">Senior Python Developer</h2>,
 <h3 class="subtitle is-6 company">Payne, Roberts and Davis</h3>,
 <h2 class="title is-5">Energy engineer</h2>,
 <h3 class="subtitle is-6 company">Vasquez-Davidson</h3>,
 <h2 class="title is-5">Legal executive</h2>,
 <h3 class="subtitle is-6 company">Jackson, Chambers and Levy</h3>,
 <h2 class="title is-5">Fitness centre manager</h2>,
 <h3 class="subtitle is-6 company">Savage-Bradley</h3>,
 <h2 class="title is-5">Product manager</h2>,
 <h3 class="subtitle is-6 company">Ramirez Inc</h3>,
 <h2 class="title is-5">Medical technical officer</h2>,
 <h3 class="subtitle is-6 company">Rogers-Yates</h3>,
 <h2 class="title is-5">Physiological scientist</h2>,
 <h3 class="subtitle is-6 company">Kramer-Klein</h3>,
 <h2 class="title is-5">Textile designer</h2>,
 <h3 class="subtitle is-6 company">Meyer