# *BeautifulSoup*: PARCOURIR UNE PAGE WEB STATIQUE

L'objectif de ce travail dirigé est d'avoir une vue sur les commandes usuelles du package bs4, notemment, celles de la classe *BeautifulSoup*.
<br>Les commandes parcourrues vous servirons largement à scrapper toutes les pages web de votre choix.


Pour suivre ce TD, il faudrait installer le package **bs4** avec la commande `pip install beautifulsoup4` sous Anaconda

In [1]:
#pip install beautifulsoup4
from bs4 import BeautifulSoup

Supposons disposer du code ci-dessous. Il s'agit du code html simplifié d'une page web statique.
<br>Dans le TP suivant, nous verrons comment obtenir le code de la page **statique** de notre choix.

In [2]:
html_doc = """<html><head><titre>Seminaire de Web Scraping</titre></head>
<body>
<p class="titre classe2"><b>Seminaire de Web Scraping</b></p>

<p class="date">En mai 2021, a eu lieu le seminaire sur le web scraping. Etaient présents:
<a href="http://example.com/TAPE" class="animateur" id="lien1">TAPE</a>,
<a href="http://example.com/KOUSSAN" class="animateur" id="lien2">KOUSSAN</a> and
<a class="chef" id="lien3">Le Chef de classe</a>.</p>

<p class="autre_chose">...</p>
</body>
</html>
"""

print(html_doc)

<html><head><titre>Seminaire de Web Scraping</titre></head>
<body>
<p class="titre classe2"><b>Seminaire de Web Scraping</b></p>

<p class="date">En mai 2021, a eu lieu le seminaire sur le web scraping. Etaient présents:
<a href="http://example.com/TAPE" class="animateur" id="lien1">TAPE</a>,
<a href="http://example.com/KOUSSAN" class="animateur" id="lien2">KOUSSAN</a> and
<a class="chef" id="lien3">Le Chef de classe</a>.</p>

<p class="autre_chose">...</p>
</body>
</html>



Le code précédent étant pas très lisible *pour un bon codeur*, il est possible d'en reformater l'affichage.
<br>Pour cela, nous allons utiliser une méthode `prettify` de la classe *BeautifulSoup*.
<br>Cette fonction ne s'applique pas sur les chaines de charactère. Il faudrait donc transformer `html_doc` en objet BeautifulSoup.

In [3]:
soup = BeautifulSoup(html_doc, 'html.parser')
print(soup.prettify())

<html>
 <head>
  <titre>
   Seminaire de Web Scraping
  </titre>
 </head>
 <body>
  <p class="titre classe2">
   <b>
    Seminaire de Web Scraping
   </b>
  </p>
  <p class="date">
   En mai 2021, a eu lieu le seminaire sur le web scraping. Etaient présents:
   <a class="animateur" href="http://example.com/TAPE" id="lien1">
    TAPE
   </a>
   ,
   <a class="animateur" href="http://example.com/KOUSSAN" id="lien2">
    KOUSSAN
   </a>
   and
   <a class="chef" id="lien3">
    Le Chef de classe
   </a>
   .
  </p>
  <p class="autre_chose">
   ...
  </p>
 </body>
</html>



Si dans la présentation précédente, la présence des balises vous dérrange, vous pouvez juste afficher le texte contenu dans le code sans afficher les balises. La méthode `get_text` de la classe BeautifulSoup adresse ce problème.

Ne pas hésiter à consulter la documentation des in

In [4]:
print(soup.get_text())

Seminaire de Web Scraping

Seminaire de Web Scraping
En mai 2021, a eu lieu le seminaire sur le web scraping. Etaient présents:
TAPE,
KOUSSAN and
Le Chef de classe.
...





## Parcours séquentiel

### L'opérateur point **`.`**

Le point `.` permet de parcourir un document HTML. Il est possible de succéder plusieurs pour aller plus loins dans l'arborescence du fichier.

`BeautifulSoup_objet.balise` retourne la première occurence de la balise spécifiée;
<br>`BeautifulSoup_objet.balise.name` retourne le nom de la balise;
<br>`BeautifulSoup_objet.balise.string` retourne le texte contenu dans la balise;
<br>`BeautifulSoup_objet.balise.parent` retourne la balise parente de la balise spécifiée.

In [5]:
soup.titre, soup.titre.name, soup.titre.string, soup.titre.parent

(<titre>Seminaire de Web Scraping</titre>,
 'titre',
 'Seminaire de Web Scraping',
 <head><titre>Seminaire de Web Scraping</titre></head>)

In [6]:
soup.titre.parent.name

'head'

`BeautifulSoup_objet.balise['class']` retourne la liste des classes de la première occurrence de la balise spécifiée.

In [7]:
soup.p, soup.p['class']

(<p class="titre classe2"><b>Seminaire de Web Scraping</b></p>,
 ['titre', 'classe2'])

### Aller vers le bas

Les attributs `.contents` et `.children` permettent d'obtenir la liste de toutes les **balises filles directes** de la balise courante.

In [8]:
#soup.head
# retourne: <head><titre>Seminaire de Web Scraping</titre></head>

soup.head.contents

[<titre>Seminaire de Web Scraping</titre>]

In [9]:
soup.head.contents[0].contents
#Remarquer la différence de la sortie avec: soup.head.contents[0].get_text()

['Seminaire de Web Scraping']

Contrairement aux deux attributs vu précédement, l'attribut `.descendants` retourne l'ensemble des filles **et des petites filles** de la balise courante

In [10]:
len(list(soup.children)), len(list(soup.descendants))

(2, 28)

In [11]:
list(soup.head.descendants)

[<titre>Seminaire de Web Scraping</titre>, 'Seminaire de Web Scraping']

In [12]:
list(soup.head.children)

[<titre>Seminaire de Web Scraping</titre>]

In [13]:
soup.head.descendants

<generator object Tag.descendants at 0x000001A24122BD30>

<br>Un autre example pour mieux comprendre...

In [14]:
code_html = """<balise><fille1><petiteFille1>nom petite fille 1</petiteFille1></fille1><fille2><petiteFille2>nom petite fille 2</petiteFille2><petiteFille3>nom petite fille 3</petiteFille3></fille2></balise>"""

soup_test = BeautifulSoup(code_html, 'html.parser')
print(soup_test.prettify())

<balise>
 <fille1>
  <petitefille1>
   nom petite fille 1
  </petitefille1>
 </fille1>
 <fille2>
  <petitefille2>
   nom petite fille 2
  </petitefille2>
  <petitefille3>
   nom petite fille 3
  </petitefille3>
 </fille2>
</balise>



In [15]:
list(soup_test.fille1.descendants)

[<petitefille1>nom petite fille 1</petitefille1>, 'nom petite fille 1']

In [16]:
list(soup_test.descendants)

[<balise><fille1><petitefille1>nom petite fille 1</petitefille1></fille1><fille2><petitefille2>nom petite fille 2</petitefille2><petitefille3>nom petite fille 3</petitefille3></fille2></balise>,
 <fille1><petitefille1>nom petite fille 1</petitefille1></fille1>,
 <petitefille1>nom petite fille 1</petitefille1>,
 'nom petite fille 1',
 <fille2><petitefille2>nom petite fille 2</petitefille2><petitefille3>nom petite fille 3</petitefille3></fille2>,
 <petitefille2>nom petite fille 2</petitefille2>,
 'nom petite fille 2',
 <petitefille3>nom petite fille 3</petitefille3>,
 'nom petite fille 3']

In [17]:
list(soup_test.fille1.children)

[<petitefille1>nom petite fille 1</petitefille1>]

### Aller vers le haut

Continuant dans l'analogie d'un arbre généalogique, chaque balise a un parent qui est la balise qui la contient.
<br>Pour obtenir la balise parente de la balise courante, on a l'attribut `.parent`.

In [18]:
print(soup.prettify())

<html>
 <head>
  <titre>
   Seminaire de Web Scraping
  </titre>
 </head>
 <body>
  <p class="titre classe2">
   <b>
    Seminaire de Web Scraping
   </b>
  </p>
  <p class="date">
   En mai 2021, a eu lieu le seminaire sur le web scraping. Etaient présents:
   <a class="animateur" href="http://example.com/TAPE" id="lien1">
    TAPE
   </a>
   ,
   <a class="animateur" href="http://example.com/KOUSSAN" id="lien2">
    KOUSSAN
   </a>
   and
   <a class="chef" id="lien3">
    Le Chef de classe
   </a>
   .
  </p>
  <p class="autre_chose">
   ...
  </p>
 </body>
</html>



In [19]:
soup.titre, soup.titre.parent

(<titre>Seminaire de Web Scraping</titre>,
 <head><titre>Seminaire de Web Scraping</titre></head>)

La balise parente de la balise `html` est l'object `BeautifulSoup` lui même

In [20]:
soup.html, type(soup.html)

(<html><head><titre>Seminaire de Web Scraping</titre></head>
 <body>
 <p class="titre classe2"><b>Seminaire de Web Scraping</b></p>
 <p class="date">En mai 2021, a eu lieu le seminaire sur le web scraping. Etaient présents:
 <a class="animateur" href="http://example.com/TAPE" id="lien1">TAPE</a>,
 <a class="animateur" href="http://example.com/KOUSSAN" id="lien2">KOUSSAN</a> and
 <a class="chef" id="lien3">Le Chef de classe</a>.</p>
 <p class="autre_chose">...</p>
 </body>
 </html>,
 bs4.element.Tag)

In [21]:
soup.html.parent, type(soup.html.parent), soup.html.parent.name

(<html><head><titre>Seminaire de Web Scraping</titre></head>
 <body>
 <p class="titre classe2"><b>Seminaire de Web Scraping</b></p>
 <p class="date">En mai 2021, a eu lieu le seminaire sur le web scraping. Etaient présents:
 <a class="animateur" href="http://example.com/TAPE" id="lien1">TAPE</a>,
 <a class="animateur" href="http://example.com/KOUSSAN" id="lien2">KOUSSAN</a> and
 <a class="chef" id="lien3">Le Chef de classe</a>.</p>
 <p class="autre_chose">...</p>
 </body>
 </html>,
 bs4.BeautifulSoup,
 '[document]')

Il est aussi possible d'accéder à la liste de touts les ascendants (parents) d'une balise avec l'attribut `.parents`.

In [22]:
soup.a

<a class="animateur" href="http://example.com/TAPE" id="lien1">TAPE</a>

In [23]:
res = list(soup.a.parents)
for re in res:
    print(re)
    print("\n")

<p class="date">En mai 2021, a eu lieu le seminaire sur le web scraping. Etaient présents:
<a class="animateur" href="http://example.com/TAPE" id="lien1">TAPE</a>,
<a class="animateur" href="http://example.com/KOUSSAN" id="lien2">KOUSSAN</a> and
<a class="chef" id="lien3">Le Chef de classe</a>.</p>


<body>
<p class="titre classe2"><b>Seminaire de Web Scraping</b></p>
<p class="date">En mai 2021, a eu lieu le seminaire sur le web scraping. Etaient présents:
<a class="animateur" href="http://example.com/TAPE" id="lien1">TAPE</a>,
<a class="animateur" href="http://example.com/KOUSSAN" id="lien2">KOUSSAN</a> and
<a class="chef" id="lien3">Le Chef de classe</a>.</p>
<p class="autre_chose">...</p>
</body>


<html><head><titre>Seminaire de Web Scraping</titre></head>
<body>
<p class="titre classe2"><b>Seminaire de Web Scraping</b></p>
<p class="date">En mai 2021, a eu lieu le seminaire sur le web scraping. Etaient présents:
<a class="animateur" href="http://example.com/TAPE" id="lien1">TAPE<

In [24]:
[parent.name for parent in soup.a.parents]

['p', 'body', 'html', '[document]']

### Aller sur les côtés

Considérons le mini code html ci-dessous.
<br>Les balises `b`, `c` et `d` sont au même niveau. On peut parler de balise soeurs (`siblings`).
<br>Dans ces conditions, il est possible de naviguer d'une balise vers sa soeur suivante avec `.next_sibling` et vers sa soeur précédente avec `.previous_sibling`.

In [25]:
soup_test = BeautifulSoup("<a><b>text1</b><c>text2</c><d>text3</d></b></a>", 'html.parser')
print(soup_test.prettify())

<a>
 <b>
  text1
 </b>
 <c>
  text2
 </c>
 <d>
  text3
 </d>
</a>



In [26]:
soup_test.b.next_sibling

<c>text2</c>

In [27]:
soup_test.c.previous_sibling

<b>text1</b>

<br>A l'image de *.parent* et *.parents* vu plutôt, il existe aussi `.previous_siblings` et `.next_siblings` pour obtenir respectivement la liste des soeurs précédentes et la liste des soeurs suivantes.

In [28]:
list(soup_test.d.previous_siblings)

[<c>text2</c>, <b>text1</b>]

In [29]:
list(soup_test.b.next_siblings)

[<c>text2</c>, <d>text3</d>]

### TD: Extraire les informations ci dessous suivant le lien: https://www.jumia.ci/frigo-refrigerateurs/
- Nom de l'article
- Prix de l'article
- Nombre d'étoiles
- Lien vers la page dédiée à l'article

<br>NB: s'inspirer du script suivant pour avoir accès au code HTML du site

In [10]:
import requests
from bs4 import BeautifulSoup

lien = "https://www.jumia.ci/frigo-refrigerateurs/" # votre lien ici
result = requests.get(lien)
src = result.content
soup = BeautifulSoup(src, 'html.parser')
print(soup.prettify())

<!DOCTYPE html>
<html dir="ltr" lang="fr">
 <head>
  <meta charset="utf-8"/>
  <title>
   Réfrigérateur Côte d'Ivoire - Achetez au meilleurs prix | Jumia CI
  </title>
  <meta content="product" property="og:type"/>
  <meta content="Jumia Côte d’Ivoire" property="og:site_name"/>
  <meta content="Réfrigérateur Côte d'Ivoire - Achetez au meilleurs prix | Jumia CI" property="og:title"/>
  <meta content="Large gamme de réfrigérateurs à découvrir sur Jumia.ci - Profitez de nombreuses promotions sur les offres de réfrigérateurs des marques Nasco, Smart Technology, ATL et Beko ... - Avis en ligne et prix en Fcfa - Livraison express - Retours gratuits - Paiement à la livraison en ligne " property="og:description"/>
  <meta content="/frigo-refrigerateurs/" property="og:url"/>
  <meta content="https://ci.jumia.is/cms/Homepage/jumialogonew.png" property="og:image"/>
  <meta content="fr_CI" property="og:locale"/>
  <meta content="Réfrigérateur Côte d'Ivoire - Achetez au meilleurs prix | Jumia CI" n

## Parcours non séquentiel

### Les filtres

Les filtres vous permettent de sélectionner une partie du document avec comme clé une balise, un attributs de balise, le texte d'une balise ou une combinaisons des clés précédentes.
<br>Ces filtres sont realisés avec la méthode `find_all`.

- Trouver toutes les balise `a` de la page.

In [5]:
soup.find_all('a')

[<a class="animateur" href="http://example.com/TAPE" id="lien1">TAPE</a>,
 <a class="animateur" href="http://example.com/KOUSSAN" id="lien2">KOUSSAN</a>,
 <a class="chef" id="lien3">Le Chef de classe</a>]

- Trouver toutes les balises `a` et `b` de la page

In [31]:
soup.find_all(['a','b'])

[<b>Seminaire de Web Scraping</b>,
 <a class="animateur" href="http://example.com/TAPE" id="lien1">TAPE</a>,
 <a class="animateur" href="http://example.com/KOUSSAN" id="lien2">KOUSSAN</a>,
 <a class="chef" id="lien3">Le Chef de classe</a>]

- Trouver toutes les balises qui commencent par un *b*. Cela fait appelle à la notion d'expressions régulières.

In [32]:
import re

In [33]:
soup.find_all(re.compile("^b"))

[<body>
 <p class="titre classe2"><b>Seminaire de Web Scraping</b></p>
 <p class="date">En mai 2021, a eu lieu le seminaire sur le web scraping. Etaient présents:
 <a class="animateur" href="http://example.com/TAPE" id="lien1">TAPE</a>,
 <a class="animateur" href="http://example.com/KOUSSAN" id="lien2">KOUSSAN</a> and
 <a class="chef" id="lien3">Le Chef de classe</a>.</p>
 <p class="autre_chose">...</p>
 </body>,
 <b>Seminaire de Web Scraping</b>]

In [34]:
[balise.name for balise in soup.find_all(re.compile("^b"))]

['body', 'b']

<br>Il est aussi possible de passer une fonction personnelle à find_all pour customiser les filtre.
<br>Soit la fonction ci-dessous qui retourne 'True' si une balise contient l'attribut `class` et pas l'attribut `id`; dans le cas contraire, elle retourne 'False'.
<br>En passant cette fonction à 'find_all', toutes les balises du document seront parcourrues évaluées selon les règles citées.

In [35]:
def class_mais_pas_id(balise):
    return(balise.has_attr('class') and not balise.has_attr('id'))

In [36]:
soup.find_all(class_mais_pas_id), len(soup.find_all(class_mais_pas_id))

([<p class="titre classe2"><b>Seminaire de Web Scraping</b></p>,
  <p class="date">En mai 2021, a eu lieu le seminaire sur le web scraping. Etaient présents:
  <a class="animateur" href="http://example.com/TAPE" id="lien1">TAPE</a>,
  <a class="animateur" href="http://example.com/KOUSSAN" id="lien2">KOUSSAN</a> and
  <a class="chef" id="lien3">Le Chef de classe</a>.</p>,
  <p class="autre_chose">...</p>],
 3)

### Les fonction find_*

La fonction **`find_all`** retourne touts les éléments dans le document respectants la condition en paramètre.
<br>`find_all(balise)` retourne toutes les balises balise du document.

In [37]:
soup.find_all()

[<html><head><titre>Seminaire de Web Scraping</titre></head>
 <body>
 <p class="titre classe2"><b>Seminaire de Web Scraping</b></p>
 <p class="date">En mai 2021, a eu lieu le seminaire sur le web scraping. Etaient présents:
 <a class="animateur" href="http://example.com/TAPE" id="lien1">TAPE</a>,
 <a class="animateur" href="http://example.com/KOUSSAN" id="lien2">KOUSSAN</a> and
 <a class="chef" id="lien3">Le Chef de classe</a>.</p>
 <p class="autre_chose">...</p>
 </body>
 </html>,
 <head><titre>Seminaire de Web Scraping</titre></head>,
 <titre>Seminaire de Web Scraping</titre>,
 <body>
 <p class="titre classe2"><b>Seminaire de Web Scraping</b></p>
 <p class="date">En mai 2021, a eu lieu le seminaire sur le web scraping. Etaient présents:
 <a class="animateur" href="http://example.com/TAPE" id="lien1">TAPE</a>,
 <a class="animateur" href="http://example.com/KOUSSAN" id="lien2">KOUSSAN</a> and
 <a class="chef" id="lien3">Le Chef de classe</a>.</p>
 <p class="autre_chose">...</p>
 </body

In [38]:
soup.find_all("p")

[<p class="titre classe2"><b>Seminaire de Web Scraping</b></p>,
 <p class="date">En mai 2021, a eu lieu le seminaire sur le web scraping. Etaient présents:
 <a class="animateur" href="http://example.com/TAPE" id="lien1">TAPE</a>,
 <a class="animateur" href="http://example.com/KOUSSAN" id="lien2">KOUSSAN</a> and
 <a class="chef" id="lien3">Le Chef de classe</a>.</p>,
 <p class="autre_chose">...</p>]

Ne pas hésiter à regarder la documentation de la fonction `find_all`.

In [39]:
soup.find_all("a", class_="chef")

[<a class="chef" id="lien3">Le Chef de classe</a>]

In [40]:
soup.find_all("a", string="KOUSSAN")

[<a class="animateur" href="http://example.com/KOUSSAN" id="lien2">KOUSSAN</a>]

In [41]:
def filter(balise):
    return balise.name=='a' and balise['class'][0]=='chef'

In [42]:
soup.find_all(filter)

[<a class="chef" id="lien3">Le Chef de classe</a>]

### Les sélecteurs css

Les sélecteurs css vous permettent, à travers la méthode `select`, de filtrer votre document en appliquant du code css.

- Trouver une balise

In [43]:
print(soup.prettify())

<html>
 <head>
  <titre>
   Seminaire de Web Scraping
  </titre>
 </head>
 <body>
  <p class="titre classe2">
   <b>
    Seminaire de Web Scraping
   </b>
  </p>
  <p class="date">
   En mai 2021, a eu lieu le seminaire sur le web scraping. Etaient présents:
   <a class="animateur" href="http://example.com/TAPE" id="lien1">
    TAPE
   </a>
   ,
   <a class="animateur" href="http://example.com/KOUSSAN" id="lien2">
    KOUSSAN
   </a>
   and
   <a class="chef" id="lien3">
    Le Chef de classe
   </a>
   .
  </p>
  <p class="autre_chose">
   ...
  </p>
 </body>
</html>



In [44]:
soup.select("a"), soup.select("p:nth-of-type(3)")

([<a class="animateur" href="http://example.com/TAPE" id="lien1">TAPE</a>,
  <a class="animateur" href="http://example.com/KOUSSAN" id="lien2">KOUSSAN</a>,
  <a class="chef" id="lien3">Le Chef de classe</a>],
 [<p class="autre_chose">...</p>])

- Trouver les filles d'une balise

In [45]:
soup.select("html head titre"), soup.select("body a")

([<titre>Seminaire de Web Scraping</titre>],
 [<a class="animateur" href="http://example.com/TAPE" id="lien1">TAPE</a>,
  <a class="animateur" href="http://example.com/KOUSSAN" id="lien2">KOUSSAN</a>,
  <a class="chef" id="lien3">Le Chef de classe</a>])

- Trouver les filles directes d'une balise

In [46]:
soup.select("head > titre"), soup.select("p > a")

([<titre>Seminaire de Web Scraping</titre>],
 [<a class="animateur" href="http://example.com/TAPE" id="lien1">TAPE</a>,
  <a class="animateur" href="http://example.com/KOUSSAN" id="lien2">KOUSSAN</a>,
  <a class="chef" id="lien3">Le Chef de classe</a>])

In [47]:
soup.select("do"), soup.select("p > #lien1"), soup.select("body > a"), soup.select("body + a")

([<a class="animateur" href="http://example.com/KOUSSAN" id="lien2">KOUSSAN</a>],
 [<a class="animateur" href="http://example.com/TAPE" id="lien1">TAPE</a>],
 [],
 [])

- Trouver les balises soeurs d'une balise

In [48]:
soup.select("#lien1 ~ .animateur") #après

[<a class="animateur" href="http://example.com/KOUSSAN" id="lien2">KOUSSAN</a>]

In [49]:
soup.select("#lien2 + a") #directement après

[<a class="chef" id="lien3">Le Chef de classe</a>]

- Trouver des balises à partir d'une class

In [50]:
soup.select(".animateur")

[<a class="animateur" href="http://example.com/TAPE" id="lien1">TAPE</a>,
 <a class="animateur" href="http://example.com/KOUSSAN" id="lien2">KOUSSAN</a>]

- Trouver des balises à partir d'un identifiant

In [51]:
soup.select("#lien1")

[<a class="animateur" href="http://example.com/TAPE" id="lien1">TAPE</a>]

- Trouver des balises qui match à au moins un selecteur parmi plusieurs

In [52]:
soup.select("#lien1,p")

[<p class="titre classe2"><b>Seminaire de Web Scraping</b></p>,
 <p class="date">En mai 2021, a eu lieu le seminaire sur le web scraping. Etaient présents:
 <a class="animateur" href="http://example.com/TAPE" id="lien1">TAPE</a>,
 <a class="animateur" href="http://example.com/KOUSSAN" id="lien2">KOUSSAN</a> and
 <a class="chef" id="lien3">Le Chef de classe</a>.</p>,
 <a class="animateur" href="http://example.com/TAPE" id="lien1">TAPE</a>,
 <p class="autre_chose">...</p>]

- Tester l'existence d'un attribut

In [53]:
soup.select('a[href]')

[<a class="animateur" href="http://example.com/TAPE" id="lien1">TAPE</a>,
 <a class="animateur" href="http://example.com/KOUSSAN" id="lien2">KOUSSAN</a>]

- Trouver des balises avec une valeur précise d'un attribut

In [54]:
soup.select('a[href="http://example.com/KOUSSAN"]')

[<a class="animateur" href="http://example.com/KOUSSAN" id="lien2">KOUSSAN</a>]

In [55]:
soup.select('a[href^="http://example.com/"]')

[<a class="animateur" href="http://example.com/TAPE" id="lien1">TAPE</a>,
 <a class="animateur" href="http://example.com/KOUSSAN" id="lien2">KOUSSAN</a>]

In [56]:
soup.select('a[href$="TAPE"]')

[<a class="animateur" href="http://example.com/TAPE" id="lien1">TAPE</a>]

In [57]:
soup.select('a[href*="KO"]')

[<a class="animateur" href="http://example.com/KOUSSAN" id="lien2">KOUSSAN</a>]

<br>Il existe la fonction `select_one` qui retourne le premier élément qui correspond à la sélection

In [58]:
soup.select_one('a[href^="http://example.com/"]')

<a class="animateur" href="http://example.com/TAPE" id="lien1">TAPE</a>

In [6]:
####################### TP VILLE D'ABIDJAN #########################################

In [8]:
URL="https://www.afdb.org/fr/propos/emplois/postes-vacants"


In [11]:
res = requests.get(URL)
src = res.content
soup = BeautifulSoup(src, 'html.parser')
print(soup.prettify())

<!DOCTYPE html>
<html lang="en-US">
 <head>
  <title>
   Just a moment...
  </title>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta content="IE=Edge" http-equiv="X-UA-Compatible"/>
  <meta content="noindex,nofollow" name="robots"/>
  <meta content="width=device-width,initial-scale=1" name="viewport"/>
  <style>
   *{box-sizing:border-box;margin:0;padding:0}html{line-height:1.15;-webkit-text-size-adjust:100%;color:#313131;font-family:system-ui,-apple-system,BlinkMacSystemFont,Segoe UI,Roboto,Helvetica Neue,Arial,Noto Sans,sans-serif,Apple Color Emoji,Segoe UI Emoji,Segoe UI Symbol,Noto Color Emoji}body{display:flex;flex-direction:column;height:100vh;min-height:100vh}.main-content{margin:8rem auto;max-width:60rem;padding-left:1.5rem}@media (width <= 720px){.main-content{margin-top:4rem}}.h2{font-size:1.5rem;font-weight:500;line-height:2.25rem}@media (width <= 720px){.h2{font-size:1.25rem;line-height:1.5rem}}#challenge-error-text{background-image:url(data:i

In [13]:
soup.find_all('div')

[<div class="main-wrapper" role="main"><div class="main-content"><noscript><div class="h2"><span id="challenge-error-text">Enable JavaScript and cookies to continue</span></div></noscript></div></div>,
 <div class="main-content"><noscript><div class="h2"><span id="challenge-error-text">Enable JavaScript and cookies to continue</span></div></noscript></div>,
 <div class="h2"><span id="challenge-error-text">Enable JavaScript and cookies to continue</span></div>]

In [27]:
lien = 'http://www.pythonscraping.com/pages/page1.html'
result = requests.get(lien)
src = result.content
bs = BeautifulSoup(src, 'html.parser')
print(soup.prettify())

<html>
 <head>
  <title>
   A Useful Page
  </title>
 </head>
 <body>
  <h1>
   An Interesting Title
  </h1>
  <div>
   Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.
  </div>
 </body>
</html>



In [28]:
bs.h1

<h1>An Interesting Title</h1>

In [29]:
bs.html.body.h1

<h1>An Interesting Title</h1>

In [22]:
print(bs.h1)

None


In [26]:
!pip install lxml

Collecting lxml
  Downloading lxml-5.3.0-cp310-cp310-win_amd64.whl.metadata (3.9 kB)
Downloading lxml-5.3.0-cp310-cp310-win_amd64.whl (3.8 MB)
   ---------------------------------------- 0.0/3.8 MB ? eta -:--:--
   ---------------------------------------- 0.0/3.8 MB ? eta -:--:--
   -- ------------------------------------- 0.3/3.8 MB ? eta -:--:--
   ----------- ---------------------------- 1.0/3.8 MB 3.1 MB/s eta 0:00:01
   ------------------------ --------------- 2.4/3.8 MB 4.1 MB/s eta 0:00:01
   -------------------------------------- - 3.7/3.8 MB 4.8 MB/s eta 0:00:01
   ---------------------------------------- 3.8/3.8 MB 4.3 MB/s eta 0:00:00
Installing collected packages: lxml
Successfully installed lxml-5.3.0



[notice] A new release of pip is available: 24.2 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [30]:
lien1= "http://www.pythonscraping.com/pages/warandpeace.html"

In [32]:
res= requests.get(lien1)
source= res.content
bs= BeautifulSoup(source,'html.parser')
print(bs.prettify())

<html>
 <head>
  <style>
   .green{
	color:#55ff55;
}
.red{
	color:#ff5555;
}
#text{
	width:50%;
}
  </style>
 </head>
 <body>
  <h1>
   War and Peace
  </h1>
  <h2>
   Chapter 1
  </h2>
  <div id="text">
   "
   <span class="red">
    Well, Prince, so Genoa and Lucca are now just family estates of the
Buonapartes. But I warn you, if you don't tell me that this means war,
if you still try to defend the infamies and horrors perpetrated by
that Antichrist- I really believe he is Antichrist- I will have
nothing more to do with you and you are no longer my friend, no longer
my 'faithful slave,' as you call yourself! But how do you do? I see
I have frightened you- sit down and tell me all the news.
   </span>
   "
   <p>
   </p>
   It was in July, 1805, and the speaker was the well-known
   <span class="green">
    Anna
Pavlovna Scherer
   </span>
   , maid of honor and favorite of the
   <span class="green">
    Empress Marya
Fedorovna
   </span>
   . With these words she greeted
   <span 

In [33]:
nameList= bs.findAll("span", {"class":"green"})
for name in nameList:
    print(name.get_text())

Anna
Pavlovna Scherer
Empress Marya
Fedorovna
Prince Vasili Kuragin
Anna Pavlovna
St. Petersburg
the prince
Anna Pavlovna
Anna Pavlovna
the prince
the prince
the prince
Prince Vasili
Anna Pavlovna
Anna Pavlovna
the prince
Wintzingerode
King of Prussia
le Vicomte de Mortemart
Montmorencys
Rohans
Abbe Morio
the Emperor
the prince
Prince Vasili
Dowager Empress Marya Fedorovna
the baron
Anna Pavlovna
the Empress
the Empress
Anna Pavlovna's
Her Majesty
Baron
Funke
The prince
Anna
Pavlovna
the Empress
The prince
Anatole
the prince
The prince
Anna
Pavlovna
Anna Pavlovna


In [37]:
RedList= bs.findAll("span",{"class":{"red","green"}})
for elt in RedList:
    print(bs.get_text())






War and Peace
Chapter 1

"Well, Prince, so Genoa and Lucca are now just family estates of the
Buonapartes. But I warn you, if you don't tell me that this means war,
if you still try to defend the infamies and horrors perpetrated by
that Antichrist- I really believe he is Antichrist- I will have
nothing more to do with you and you are no longer my friend, no longer
my 'faithful slave,' as you call yourself! But how do you do? I see
I have frightened you- sit down and tell me all the news."

It was in July, 1805, and the speaker was the well-known Anna
Pavlovna Scherer, maid of honor and favorite of the Empress Marya
Fedorovna. With these words she greeted Prince Vasili Kuragin, a man
of high rank and importance, who was the first to arrive at her
reception. Anna Pavlovna had had a cough for some days. She was, as
she said, suffering from la grippe; grippe being then a new word in
St. Petersburg, used only by the elite.

All her invitations without exception, written in French, and


In [38]:
nameList= bs.find_all(text="the prince")
print(len(nameList))

7


  nameList= bs.find_all(text="the prince")


In [39]:
bs.find_all(id='text')

[<div id="text">
 "<span class="red">Well, Prince, so Genoa and Lucca are now just family estates of the
 Buonapartes. But I warn you, if you don't tell me that this means war,
 if you still try to defend the infamies and horrors perpetrated by
 that Antichrist- I really believe he is Antichrist- I will have
 nothing more to do with you and you are no longer my friend, no longer
 my 'faithful slave,' as you call yourself! But how do you do? I see
 I have frightened you- sit down and tell me all the news.</span>"
 <p></p>
 It was in July, 1805, and the speaker was the well-known <span class="green">Anna
 Pavlovna Scherer</span>, maid of honor and favorite of the <span class="green">Empress Marya
 Fedorovna</span>. With these words she greeted <span class="green">Prince Vasili Kuragin</span>, a man
 of high rank and importance, who was the first to arrive at her
 reception. <span class="green">Anna Pavlovna</span> had had a cough for some days. She was, as
 she said, suffering from la gr

In [40]:
bs.find_all('',{'id':'text'})

[]

In [42]:
bs.find_all(class_='green')

[<span class="green">Anna
 Pavlovna Scherer</span>,
 <span class="green">Empress Marya
 Fedorovna</span>,
 <span class="green">Prince Vasili Kuragin</span>,
 <span class="green">Anna Pavlovna</span>,
 <span class="green">St. Petersburg</span>,
 <span class="green">the prince</span>,
 <span class="green">Anna Pavlovna</span>,
 <span class="green">Anna Pavlovna</span>,
 <span class="green">the prince</span>,
 <span class="green">the prince</span>,
 <span class="green">the prince</span>,
 <span class="green">Prince Vasili</span>,
 <span class="green">Anna Pavlovna</span>,
 <span class="green">Anna Pavlovna</span>,
 <span class="green">the prince</span>,
 <span class="green">Wintzingerode</span>,
 <span class="green">King of Prussia</span>,
 <span class="green">le Vicomte de Mortemart</span>,
 <span class="green">Montmorencys</span>,
 <span class="green">Rohans</span>,
 <span class="green">Abbe Morio</span>,
 <span class="green">the Emperor</span>,
 <span class="green">the prince</span>,
 

In [43]:
bs.find_all('',{'clas':'green'})

[]

In [44]:
bs.div.h1

In [45]:
##################### Navigatind Trees #####################

In [49]:
url= "http://www.pythonscraping.com/pages/page3.html"

In [50]:
resultat= requests.get(url)
sour= resultat.content
bs= BeautifulSoup(sour,'html.parser')
print(bs.prettify())

<html>
 <head>
  <style>
   img{
	width:75px;
}
table{
	width:50%;
}
td{
	margin:10px;
	padding:10px;
}
.wrapper{
	width:800px;
}
.excitingNote{
	font-style:italic;
	font-weight:bold;
}
  </style>
 </head>
 <body>
  <div id="wrapper">
   <img src="../img/gifts/logo.jpg" style="float:left;"/>
   <h1>
    Totally Normal Gifts
   </h1>
   <div id="content">
    Here is a collection of totally normal, totally reasonable gifts that your friends are sure to love! Our collection is
hand-curated by well-paid, free-range Tibetan monks.
    <p>
     We haven't figured out how to make online shopping carts yet, but you can send us a check to:
     <br/>
     123 Main St.
     <br/>
     Abuja, Nigeria
We will then send your totally amazing gift, pronto! Please include an extra $5.00 for gift wrapping.
    </p>
   </div>
   <table id="giftList">
    <tr>
     <th>
      Item Title
     </th>
     <th>
      Description
     </th>
     <th>
      Cost
     </th>
     <th>
      Image
     </th>
   

In [51]:
bs.div.find_all('img')

[<img src="../img/gifts/logo.jpg" style="float:left;"/>,
 <img src="../img/gifts/img1.jpg"/>,
 <img src="../img/gifts/img2.jpg"/>,
 <img src="../img/gifts/img3.jpg"/>,
 <img src="../img/gifts/img4.jpg"/>,
 <img src="../img/gifts/img6.jpg"/>]

In [52]:
bs.body.h1

<h1>Totally Normal Gifts</h1>

In [54]:
for child in bs.find('table',{'id':'giftList'}).tr.next_siblings:
    print(child)



<tr class="gift" id="gift1"><td>
Vegetable Basket
</td><td>
This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
<span class="excitingNote">Now with super-colorful bell peppers!</span>
</td><td>
$15.00
</td><td>
<img src="../img/gifts/img1.jpg"/>
</td></tr>


<tr class="gift" id="gift2"><td>
Russian Nesting Dolls
</td><td>
Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
</td><td>
$10,000.52
</td><td>
<img src="../img/gifts/img2.jpg"/>
</td></tr>


<tr class="gift" id="gift3"><td>
Fish Painting
</td><td>
If something seems fishy about this painting, it's because it's a fish! <span class="excitingNote">Also hand-painted by trained monkeys!</span>
</td><td>
$10,005.00
</td><td>
<img src="../img/gifts/img3.jpg"/>
</td></tr>


<tr class="gift" id="gift4"><td>
Dead Parrot
</td><td>
This is an ex-parr

In [55]:
print(bs.find('img',
{'src':'../img/gifts/img1.jpg'})
.parent.previous_sibling.get_text())


$15.00



In [56]:
######################### TP WebScraping avec Monsieur Tp ################################

In [57]:
url=  "https://fr.wikipedia.org/wiki/Liste_des_matchs_de_l%27%C3%A9quipe_de_C%C3%B4te_d%27Ivoire_de_football_par_adversaire"

In [59]:
reslt= requests.get(url)
source= reslt.content
bs= BeautifulSoup(source,'html.parser')
print(bs.prettify())

<!DOCTYPE html>
<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-custom-font-size-clientpref-1 vector-feature-appearance-pinned-clientpref-1 vector-feature-night-mode-enabled skin-theme-clientpref-day vector-toc-available" dir="ltr" lang="fr">
 <head>
  <meta charset="utf-8"/>
  <title>
   Liste des matchs de l'équipe de Côte d'Ivoire de football par adversaire — Wikipédia
  </title>
  <script>
   (function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-

In [79]:
url= "http://en.wikipedia.org/wiki/Kevin_Bacon'"

In [80]:
from bs4 import BeautifulSoup

In [81]:
result= requests.get(url)
source= reslt.content
bs= BeautifulSoup(source,'html.parser')



In [84]:
for link in bs.find_all('a'):
    if 'href' in link.attrs:
        print(link.attrs['href'])


#bodyContent
/wiki/Wikip%C3%A9dia:Accueil_principal
/wiki/Portail:Accueil
/wiki/Sp%C3%A9cial:Page_au_hasard
/wiki/Wikip%C3%A9dia:Contact
/wiki/Aide:D%C3%A9buter
/wiki/Aide:Accueil
/wiki/Wikip%C3%A9dia:Accueil_de_la_communaut%C3%A9
/wiki/Sp%C3%A9cial:Modifications_r%C3%A9centes
/wiki/Wikip%C3%A9dia:Accueil_principal
/wiki/Sp%C3%A9cial:Recherche
//donate.wikimedia.org/wiki/Special:FundraiserRedirector?utm_source=donate&utm_medium=sidebar&utm_campaign=C13_fr.wikipedia.org&uselang=fr
/w/index.php?title=Sp%C3%A9cial:Cr%C3%A9er_un_compte&returnto=Liste+des+matchs+de+l%27%C3%A9quipe+de+C%C3%B4te+d%27Ivoire+de+football+par+adversaire
/w/index.php?title=Sp%C3%A9cial:Connexion&returnto=Liste+des+matchs+de+l%27%C3%A9quipe+de+C%C3%B4te+d%27Ivoire+de+football+par+adversaire
//donate.wikimedia.org/wiki/Special:FundraiserRedirector?utm_source=donate&utm_medium=sidebar&utm_campaign=C13_fr.wikipedia.org&uselang=fr
/w/index.php?title=Sp%C3%A9cial:Cr%C3%A9er_un_compte&returnto=Liste+des+matchs+de+l%27%C3

In [86]:
import re
for link in bs.find('div',{'id':'bodyContent'}).find_all('a',href=re.compile(

                                        '^(/wiki/)((?!:).)*$')):
    if 'href' in link.attrs:
        print(link.attrs['href'])

/wiki/%C3%89quipe_de_C%C3%B4te_d%27Ivoire_de_football
/wiki/C%C3%B4te_d%27Ivoire
/wiki/%C3%89quipe_d%27Afrique_du_Sud_de_football
/wiki/%C3%89quipe_de_C%C3%B4te_d%27Ivoire_de_football
/wiki/Port_Elizabeth
/wiki/Bobo-Dioulasso
/wiki/Coupe_d%27Afrique_des_nations_de_football_1998
/wiki/Abidjan
/wiki/Qualifications_%C3%A0_la_Coupe_d%27Afrique_des_nations_de_football_2004
/wiki/Polokwane
/wiki/Qualifications_%C3%A0_la_Coupe_d%27Afrique_des_nations_de_football_2004
/wiki/Port_Elizabeth
/wiki/Nelspruit
/wiki/Le_Caire
/wiki/Coupe_d%27Afrique_des_nations_de_football_2019
/wiki/Stade_F%C3%A9lix_Houphou%C3%ABt-Boigny
/wiki/C%C3%B4te_d%27Ivoire
/wiki/Afrique_du_Sud
/wiki/%C3%89quipe_d%27Afrique_du_Sud_de_football
/wiki/%C3%89quipe_de_C%C3%B4te_d%27Ivoire_de_football
/wiki/%C3%89quipe_d%27Afrique_du_Sud_de_football
/wiki/%C3%89quipe_de_C%C3%B4te_d%27Ivoire_de_football
/wiki/%C3%89quipe_d%27Alg%C3%A9rie_de_football
/wiki/%C3%89quipe_de_C%C3%B4te_d%27Ivoire_de_football
/wiki/Brazzaville
/wiki/Footba

In [87]:
import requests

In [89]:
url= "http://www.webscrapingfordatascience.com/paramhttp/?query=test"

In [91]:
r= requests.get(url)

ConnectTimeout: HTTPConnectionPool(host='www.webscrapingfordatascience.com', port=80): Max retries exceeded with url: /paramhttp/?query=test (Caused by ConnectTimeoutError(<urllib3.connection.HTTPConnection object at 0x000001432B5D0130>, 'Connection to www.webscrapingfordatascience.com timed out. (connect timeout=None)'))