# *BeautifulSoup*: PARCOURIR UNE PAGE WEB STATIQUE

L'objectif de ce travail dirigé est d'avoir une vue sur les commandes usuelles du package bs4, notemment, celles de la classe *BeautifulSoup*.
<br>Les commandes parcourrues vous servirons largement à scrapper toutes les pages web de votre choix.


Pour suivre ce TD, il faudrait installer le package **bs4** avec la commande `pip install beautifulsoup4` sous Anaconda

In [1]:
#pip install beautifulsoup4
from bs4 import BeautifulSoup

Supposons disposer du code ci-dessous. Il s'agit du code html simplifié d'une page web statique.
<br>Dans le TP suivant, nous verrons comment obtenir le code de la page **statique** de notre choix.

In [2]:
html_doc = """<html><head><titre>Seminaire de Web Scraping</titre></head>
<body>
<p class="titre classe2"><b>Seminaire de Web Scraping</b></p>

<p class="date">En mai 2021, a eu lieu le seminaire sur le web scraping. Etaient présents:
<a href="http://example.com/TAPE" class="animateur" id="lien1">TAPE</a>,
<a href="http://example.com/KOUSSAN" class="animateur" id="lien2">KOUSSAN</a> and
<a class="chef" id="lien3">Le Chef de classe</a>.</p>

<p class="autre_chose">...</p>
</body>
</html>
"""

print(html_doc)

<html><head><titre>Seminaire de Web Scraping</titre></head>
<body>
<p class="titre classe2"><b>Seminaire de Web Scraping</b></p>

<p class="date">En mai 2021, a eu lieu le seminaire sur le web scraping. Etaient présents:
<a href="http://example.com/TAPE" class="animateur" id="lien1">TAPE</a>,
<a href="http://example.com/KOUSSAN" class="animateur" id="lien2">KOUSSAN</a> and
<a class="chef" id="lien3">Le Chef de classe</a>.</p>

<p class="autre_chose">...</p>
</body>
</html>



Le code précédent étant pas très lisible *pour un bon codeur*, il est possible d'en reformater l'affichage.
<br>Pour cela, nous allons utiliser une méthode `prettify` de la classe *BeautifulSoup*.
<br>Cette fonction ne s'applique pas sur les chaines de charactère. Il faudrait donc transformer `html_doc` en objet BeautifulSoup.

In [3]:
soup = BeautifulSoup(html_doc, 'html.parser')
print(soup.prettify())

<html>
 <head>
  <titre>
   Seminaire de Web Scraping
  </titre>
 </head>
 <body>
  <p class="titre classe2">
   <b>
    Seminaire de Web Scraping
   </b>
  </p>
  <p class="date">
   En mai 2021, a eu lieu le seminaire sur le web scraping. Etaient présents:
   <a class="animateur" href="http://example.com/TAPE" id="lien1">
    TAPE
   </a>
   ,
   <a class="animateur" href="http://example.com/KOUSSAN" id="lien2">
    KOUSSAN
   </a>
   and
   <a class="chef" id="lien3">
    Le Chef de classe
   </a>
   .
  </p>
  <p class="autre_chose">
   ...
  </p>
 </body>
</html>



Si dans la présentation précédente, la présence des balises vous dérrange, vous pouvez juste afficher le texte contenu dans le code sans afficher les balises. La méthode `get_text` de la classe BeautifulSoup adresse ce problème.

Ne pas hésiter à consulter la documentation des in

In [5]:
print(soup.get_text())

Seminaire de Web Scraping

Seminaire de Web Scraping
En mai 2021, a eu lieu le seminaire sur le web scraping. Etaient présents:
TAPE,
KOUSSAN and
Le Chef de classe.
...





## Parcours séquentiel

### L'opérateur point **`.`**

Le point `.` permet de parcourir un document HTML. Il est possible de succéder plusieurs pour aller plus loins dans l'arborescence du fichier.

`BeautifulSoup_objet.balise` retourne la première occurence de la balise spécifiée;
<br>`BeautifulSoup_objet.balise.name` retourne le nom de la balise;
<br>`BeautifulSoup_objet.balise.string` retourne le texte contenu dans la balise;
<br>`BeautifulSoup_objet.balise.parent` retourne la balise parente de la balise spécifiée.

In [6]:
soup.titre, soup.titre.name, soup.titre.string, soup.titre.parent

(<titre>Seminaire de Web Scraping</titre>,
 'titre',
 'Seminaire de Web Scraping',
 <head><titre>Seminaire de Web Scraping</titre></head>)

In [7]:
soup.titre.parent.name

'head'

`BeautifulSoup_objet.balise['class']` retourne la liste des classes de la première occurrence de la balise spécifiée.

In [8]:
soup.p, soup.p['class']

(<p class="titre classe2"><b>Seminaire de Web Scraping</b></p>,
 ['titre', 'classe2'])

### Aller vers le bas

Les attributs `.contents` et `.children` permettent d'obtenir la liste de toutes les **balises filles directes** de la balise courante.

In [9]:
#soup.head
# retourne: <head><titre>Seminaire de Web Scraping</titre></head>

soup.head.contents

[<titre>Seminaire de Web Scraping</titre>]

In [20]:
soup.head.contents[0].contents
#Remarquer la différence de la sortie avec: soup.head.contents[0].get_text()

['Seminaire de Web Scraping']

Contrairement aux deux attributs vu précédement, l'attribut `.descendants` retourne l'ensemble des filles **et des petites filles** de la balise courante

In [10]:
len(list(soup.children)), len(list(soup.descendants))

(2, 28)

In [11]:
list(soup.head.descendants)

[<titre>Seminaire de Web Scraping</titre>, 'Seminaire de Web Scraping']

In [12]:
list(soup.head.children)

[<titre>Seminaire de Web Scraping</titre>]

In [13]:
soup.head.descendants

<generator object Tag.descendants at 0x000001F8973225E0>

<br>Un autre example pour mieux comprendre...

In [14]:
code_html = """<balise><fille1><petiteFille1>nom petite fille 1</petiteFille1></fille1><fille2><petiteFille2>nom petite fille 2</petiteFille2><petiteFille3>nom petite fille 3</petiteFille3></fille2></balise>"""

soup_test = BeautifulSoup(code_html, 'html.parser')
print(soup_test.prettify())

<balise>
 <fille1>
  <petitefille1>
   nom petite fille 1
  </petitefille1>
 </fille1>
 <fille2>
  <petitefille2>
   nom petite fille 2
  </petitefille2>
  <petitefille3>
   nom petite fille 3
  </petitefille3>
 </fille2>
</balise>



In [15]:
list(soup_test.fille1.descendants)

[<petitefille1>nom petite fille 1</petitefille1>, 'nom petite fille 1']

In [16]:
list(soup_test.descendants)

[<balise><fille1><petitefille1>nom petite fille 1</petitefille1></fille1><fille2><petitefille2>nom petite fille 2</petitefille2><petitefille3>nom petite fille 3</petitefille3></fille2></balise>,
 <fille1><petitefille1>nom petite fille 1</petitefille1></fille1>,
 <petitefille1>nom petite fille 1</petitefille1>,
 'nom petite fille 1',
 <fille2><petitefille2>nom petite fille 2</petitefille2><petitefille3>nom petite fille 3</petitefille3></fille2>,
 <petitefille2>nom petite fille 2</petitefille2>,
 'nom petite fille 2',
 <petitefille3>nom petite fille 3</petitefille3>,
 'nom petite fille 3']

In [17]:
list(soup_test.fille1.children)

[<petitefille1>nom petite fille 1</petitefille1>]

### Aller vers le haut

Continuant dans l'analogie d'un arbre généalogique, chaque balise a un parent qui est la balise qui la contient.
<br>Pour obtenir la balise parente de la balise courante, on a l'attribut `.parent`.

In [18]:
print(soup.prettify())

<html>
 <head>
  <titre>
   Seminaire de Web Scraping
  </titre>
 </head>
 <body>
  <p class="titre classe2">
   <b>
    Seminaire de Web Scraping
   </b>
  </p>
  <p class="date">
   En mai 2021, a eu lieu le seminaire sur le web scraping. Etaient présents:
   <a class="animateur" href="http://example.com/TAPE" id="lien1">
    TAPE
   </a>
   ,
   <a class="animateur" href="http://example.com/KOUSSAN" id="lien2">
    KOUSSAN
   </a>
   and
   <a class="chef" id="lien3">
    Le Chef de classe
   </a>
   .
  </p>
  <p class="autre_chose">
   ...
  </p>
 </body>
</html>



In [19]:
soup.titre, soup.titre.parent

(<titre>Seminaire de Web Scraping</titre>,
 <head><titre>Seminaire de Web Scraping</titre></head>)

La balise parente de la balise `html` est l'object `BeautifulSoup` lui même

In [19]:
soup.html, type(soup.html)

(<html><head><titre>Seminaire de Web Scraping</titre></head>
 <body>
 <p class="titre classe2"><b>Seminaire de Web Scraping</b></p>
 <p class="date">En mai 2021, a eu lieu le seminaire sur le web scraping. Etaient présents:
 <a class="animateur" href="http://example.com/TAPE" id="lien1">TAPE</a>,
 <a class="animateur" href="http://example.com/KOUSSAN" id="lien2">KOUSSAN</a> and
 <a class="chef" id="lien3">Le Chef de classe</a>.</p>
 <p class="autre_chose">...</p>
 </body>
 </html>,
 bs4.element.Tag)

In [31]:
soup.html.parent, type(soup.html.parent), soup.html.parent.name

(<html><head><titre>Seminaire de Web Scraping</titre></head>
 <body>
 <p class="titre classe2"><b>Seminaire de Web Scraping</b></p>
 <p class="date">En mai 2021, a eu lieu le seminaire sur le web scraping. Etaient présents:
 <a class="animateur" href="http://example.com/TAPE" id="lien1">TAPE</a>,
 <a class="animateur" href="http://example.com/KOUSSAN" id="lien2">KOUSSAN</a> and
 <a class="chef" id="lien3">Le Chef de classe</a>.</p>
 <p class="autre_chose">...</p>
 </body>
 </html>,
 bs4.BeautifulSoup,
 '[document]')

Il est aussi possible d'accéder à la liste de touts les ascendants (parents) d'une balise avec l'attribut `.parents`.

In [32]:
soup.a

<a class="animateur" href="http://example.com/TAPE" id="lien1">TAPE</a>

In [20]:
res = list(soup.a.parents)
for re in res:
    print(re)
    print("\n")

<p class="date">En mai 2021, a eu lieu le seminaire sur le web scraping. Etaient présents:
<a class="animateur" href="http://example.com/TAPE" id="lien1">TAPE</a>,
<a class="animateur" href="http://example.com/KOUSSAN" id="lien2">KOUSSAN</a> and
<a class="chef" id="lien3">Le Chef de classe</a>.</p>


<body>
<p class="titre classe2"><b>Seminaire de Web Scraping</b></p>
<p class="date">En mai 2021, a eu lieu le seminaire sur le web scraping. Etaient présents:
<a class="animateur" href="http://example.com/TAPE" id="lien1">TAPE</a>,
<a class="animateur" href="http://example.com/KOUSSAN" id="lien2">KOUSSAN</a> and
<a class="chef" id="lien3">Le Chef de classe</a>.</p>
<p class="autre_chose">...</p>
</body>


<html><head><titre>Seminaire de Web Scraping</titre></head>
<body>
<p class="titre classe2"><b>Seminaire de Web Scraping</b></p>
<p class="date">En mai 2021, a eu lieu le seminaire sur le web scraping. Etaient présents:
<a class="animateur" href="http://example.com/TAPE" id="lien1">TAPE<

In [34]:
[parent.name for parent in soup.a.parents]

['p', 'body', 'html', '[document]']

### Aller sur les côtés

Considérons le mini code html ci-dessous.
<br>Les balises `b`, `c` et `d` sont au même niveau. On peut parler de balise soeurs (`siblings`).
<br>Dans ces conditions, il est possible de naviguer d'une balise vers sa soeur suivante avec `.next_sibling` et vers sa soeur précédente avec `.previous_sibling`.

In [21]:
soup_test = BeautifulSoup("<a><b>text1</b><c>text2</c><d>text3</d></b></a>", 'html.parser')
print(soup_test.prettify())

<a>
 <b>
  text1
 </b>
 <c>
  text2
 </c>
 <d>
  text3
 </d>
</a>



In [22]:
soup_test.b.next_sibling

<c>text2</c>

In [23]:
soup_test.c.previous_sibling

<b>text1</b>

<br>A l'image de *.parent* et *.parents* vu plutôt, il existe aussi `.previous_siblings` et `.next_siblings` pour obtenir respectivement la liste des soeurs précédentes et la liste des soeurs suivantes.

In [24]:
list(soup_test.d.previous_siblings)

[<c>text2</c>, <b>text1</b>]

In [25]:
list(soup_test.b.next_siblings)

[<c>text2</c>, <d>text3</d>]

### TD: Extraire les informations ci dessous suivant le lien: https://www.jumia.ci/frigo-refrigerateurs/
- Nom de l'article
- Prix de l'article
- Nombre d'étoiles

- Lien vers la page dédiée à l'article

<br>NB: s'inspirer du script suivant pour avoir accès au code HTML du site

In [42]:
import requests
from bs4 import BeautifulSoup

lien = "https://www.jumia.ci/frigo-refrigerateurs/" 
result = requests.get(lien)
src = result.content
soup = BeautifulSoup(src, 'html.parser')
print(soup.prettify())

<!DOCTYPE html>
<html dir="ltr" lang="fr">
 <head>
  <meta charset="utf-8"/>
  <title>
   Réfrigérateur Côte d'Ivoire - Achetez au meilleurs prix | Jumia CI
  </title>
  <meta content="product" property="og:type"/>
  <meta content="Jumia Côte d’Ivoire" property="og:site_name"/>
  <meta content="Réfrigérateur Côte d'Ivoire - Achetez au meilleurs prix | Jumia CI" property="og:title"/>
  <meta content="Large gamme de réfrigérateurs à découvrir sur Jumia.ci - Profitez de nombreuses promotions sur les offres de réfrigérateurs des marques Nasco, Smart Technology, ATL et Beko ... - Avis en ligne et prix en Fcfa - Livraison express - Retours gratuits - Paiement à la livraison en ligne " property="og:description"/>
  <meta content="/frigo-refrigerateurs/" property="og:url"/>
  <meta content="https://ci.jumia.is/cms/Homepage/jumialogonew.png" property="og:image"/>
  <meta content="fr_CI" property="og:locale"/>
  <meta content="Réfrigérateur Côte d'Ivoire - Achetez au meilleurs prix | Jumia CI" n

In [52]:
len(soup.main.contents[2].contents[2].section.contents[2].contents)
articles= soup.main.contents[2].contents[2].section.contents[2].contents

In [55]:
article = articles[-1].contents[0]
article

<a class="btn _i _rnd -mas -fsh0 -me-start _wslt _sec" data-ga4-discount="107.32" data-ga4-item_brand="Hisense" data-ga4-item_category="Electronics" data-ga4-item_category2="Home Appliances" data-ga4-item_category3="Kitchen Appliances" data-ga4-item_category4="Refrigerators &amp; Freezers" data-ga4-item_category5="Refrigerators" data-ga4-item_id="HI653OT1B330NNAFAMZ" data-ga4-item_name="Réfrigérateur Combiné + distributeur d'eau 240L - RD-34DC4SB - Gris - Garantie 12 Mois" data-ga4-item_variant="" data-ga4-price="325.17" data-ga4-tags="B2S_6|BLF|CP_3|CP_MT134|CP_MT90|CP_UN14|Camp_1|Camp_37|Camp_41|Camp_45|JMALL" data-gtm-brand="Hisense" data-gtm-category="Electronics/Home Appliances/Kitchen Appliances/Refrigerators &amp; Freezers/Refrigerators" data-gtm-dimension23="" data-gtm-dimension26="105" data-gtm-dimension27="4.2" data-gtm-dimension28="1" data-gtm-dimension37="0" data-gtm-dimension43="B2S_6|BLF|CP_3|CP_MT134|CP_MT90|CP_UN14|Camp_1|Camp_37|Camp_41|Camp_45|JMALL" data-gtm-dimensio

In [49]:
# Initialiser une liste pour stocker les données de chaque article
articles_data = []

In [None]:
url = "https://www.jumia.ci/frigo-refrigerateurs/"

In [62]:
# Dictionnaire de Liste pour stocker les données
data = {
    "Nom": [],
    "Prix": [],
    "etoiles": [],
    "Lien_article": []
}


In [63]:
import pandas as pd

In [65]:
# on va stocker les articles dans la varibles arcticles
articles = soup.main.contents[2].contents[2].section.contents[2].contents

# on va faire une boucle pour recuperer les elements souhaités 
for article in articles:
    if article.a and article.a.next_sibling:
        lien_article = url + article.a.next_sibling.get("href", "")
        article_info = article.a.next_sibling.contents[1]
        
        nom_article = article_info.h3.string if article_info.h3 else "Nom non disponible"
        prix_article = article_info.contents[2].text if len(article_info.contents) > 2 else "Prix non disponible"
        note = article_info.contents[-1].div.text.split()[0] if article_info.contents[-1].div else "Note non disponible"
        
        # Ajouter les données au dictionnaire 
        data["Nom"].append(nom_article)
        data["Prix"].append(prix_article)
        data["etoiles"].append(note)
        data["Lien_article"].append(lien_article)

# Création d'un DataFrame
df = pd.DataFrame(data)


In [66]:
# Affichage du DataFrame
df


Unnamed: 0,Nom,Prix,etoiles,Lien_article
0,SMART TECHNOLOGY Réfrigérateur 2 Battants - ST...,"50,250 FCFA",3.7,https://www.jumia.ci/frigo-refrigerateurs//sma...
1,SMART TECHNOLOGY Réfrigérateur Combiné - STCB-...,"114,900 FCFA",3.7,https://www.jumia.ci/frigo-refrigerateurs//ref...
2,Nasco Réfrigerateur combiné - 158L - Nasd2-243...,"96,500 FCFA",Note non disponible,https://www.jumia.ci/frigo-refrigerateurs//nas...
3,Nasco Réfrigérateur Combine 196 L - Nasd2-293f...,"117,500 FCFA",Note non disponible,https://www.jumia.ci/frigo-refrigerateurs//nas...
4,SMART TECHNOLOGY Réfrigérateur Smart 2 Battant...,"45,300 FCFA",Note non disponible,https://www.jumia.ci/frigo-refrigerateurs//sma...
...,...,...,...,...
75,Nasco Petit Frigo Nasco Snasf1-110 - 1 Porte- ...,"67,000 FCFA",3.7,https://www.jumia.ci/frigo-refrigerateurs//nas...
76,Nasco Réfrigerateur combiné - 255L - Nas295-5d...,"201,100 FCFA",3.8,https://www.jumia.ci/frigo-refrigerateurs//nas...
77,Nasco Réfrigérateur 258 Litres - NASD2-33 / S...,"209,900 FCFA",3.9,https://www.jumia.ci/frigo-refrigerateurs//ref...
78,Nasco Réfrigérateur Combiné Avec Clé - KNASD2-...,"182,850 FCFA",4.5,https://www.jumia.ci/frigo-refrigerateurs//nas...
