## Web Scraping


#### Web Scraping, Qu’est-ce que c’est ?
nous pouvons le définir comme l’utilisation d’un programme pour obtenir des données du Web en extrayant du contenu sans API (Application Program Interface).

De nombreux sites disposent d’API auxquelles vous pouvez vous connecter et que vous pouvez utiliser pour extraire des données. Comme l’API Twitter. C’est génial! Mais parfois, vous avez besoin de données provenant d’un site qui n’a pas d’API. 

#### Où est-il utilisé ?

Le web scraping est utilisé dans divers domaines et industries pour collecter des données à partir de sites web. 

1. **Veille concurrentielle :** Les entreprises utilisent le web scraping pour surveiller les activités de leurs concurrents, analyser les prix, suivre les commentaires des clients et obtenir des informations stratégiques.

2. **Marketing en ligne :** Les spécialistes du marketing utilisent le web scraping pour collecter des données sur les tendances du marché, les comportements des consommateurs, et pour générer des leads en extrayant des informations de contacts.

3. **Recherche et analyse :** Les chercheurs et les analystes utilisent le web scraping pour collecter des données nécessaires à leurs études, que ce soit dans les domaines académiques, scientifiques, ou d'analyse de marché.

4. **Suivi des prix :** Les détaillants en ligne utilisent le web scraping pour surveiller les prix de leurs produits ainsi que ceux de leurs concurrents afin d'ajuster leurs stratégies de tarification.

5. **Recrutement :** Les professionnels des ressources humaines utilisent le web scraping pour collecter des informations sur les candidats potentiels à partir de différents sites, comme les réseaux sociaux professionnels.

6. **Analyse de sentiments :** Les entreprises analysent les opinions et les commentaires des clients sur les réseaux sociaux et les sites d'avis en utilisant le web scraping pour évaluer la perception de leurs produits ou services.

7. **Gestion de contenu :** Certains agrégateurs de contenu utilisent le web scraping pour collecter des articles, des actualités et d'autres informations à partir de différents sites afin de les regrouper sur une plateforme unique.

8. **Finance :** Dans le secteur financier, le web scraping est utilisé pour surveiller les marchés, collecter des données financières, et analyser les tendances économiques.

Il est important de noter que l'utilisation du web scraping doit respecter les lois et les règlements en vigueur, ainsi que les politiques d'utilisation des sites web ciblés. Des pratiques éthiques sont essentielles pour éviter tout problème légal ou éthique.

https://towardsdatascience.com/ethics-in-web-scraping-b96b18136f01

1. **Respect des Conditions d'Utilisation** : Chaque site web a ses propres conditions d'utilisation qui définissent les règles pour accéder à son contenu. Il est impératif de respecter ces conditions. Certains sites web interdisent explicitement le web scraping dans leurs conditions d'utilisation.

2. **Robots.txt** : Les webmasters peuvent spécifier les parties de leur site qu'ils ne souhaitent pas voir crawlées par des robots d'indexation, y compris les web scrapers. Respecter le fichier robots.txt est une bonne pratique éthique.

3. **Fréquence des Requêtes** : Évitez de surcharger un site web avec un grand nombre de requêtes en un court laps de temps, car cela peut entraîner une surcharge du serveur et perturber le fonctionnement normal du site.

4. **Attribution et Respect des Droits d'Auteur** : Si vous utilisez les données extraites à des fins publiques ou commerciales, assurez-vous de respecter les droits d'auteur des sites web sources. Citez les sources lorsque cela est nécessaire.

5. **Protection des Données Personnelles** : Soyez conscient des lois et réglementations sur la protection des données. Évitez de collecter des informations personnelles sensibles sans consentement explicite.

6. **Objectifs Légitimes** : Utilisez le web scraping à des fins légitimes. Évitez d'utiliser ces techniques pour des activités illégales, trompeuses ou nuisibles.

7. **Transparence** : Si vous collectez des données à partir d'un site web, soyez transparent sur votre intention et la manière dont vous utiliserez ces données.

9. **Éviter la Détérioration** : Évitez de causer des dommages au site web source. Assurez-vous que votre activité de scraping n'affecte pas négativement la performance du site.

10. **Respect de la Politique de Respects des Bots** : Certains sites web fournissent des directives spécifiques aux bots et aux scrapers dans leur fichier robots.txt ou dans leurs en-têtes HTTP. Respectez ces directives.

**=> Considération Éthique** : En général, faites preuve de bon sens et de considération éthique dans votre utilisation du web scraping. Si vous vous posez des questions sur la légitimité d'une pratique, il est préférable de demander la permission au site web concerné!

Voici trois approches de web scraping qui sont parmi les plus populaires :

**1-** Envoi d’une requête HTTP, généralement via Requests, à une page Web, puis analyse le code HTML (généralement à l’aide de BeautifulSoup) qui est renvoyé pour accéder aux informations souhaitées.

ex : Problème de web scraping standard, référez-vous à l’étude de cas.

**2-** Utilisation d’outils habituellement utilisés pour les tests automatisés de logiciels, principalement Selenium, pour accéder au contenu d’un site Web par programmation. 

Cas d’utilisation typique : sites Web qui utilisent Javascript ou qui ne sont pas directement accessibles via HTML.

**3-** Scrapy, qui peut être considéré comme un framework de web scraping général, qui peut être utilisé pour construire des araignées et gratter des données à partir de divers sites Web en minimisant les répétitions. 

Cas d’utilisation : Scraping d’avis Amazon.

Bien que vous puissiez également récupérer des données à l’aide de n’importe quel autre langage de programmation, Python est couramment utilisé en raison de sa syntaxe simple ainsi que de la grande variété de bibliothèques disponibles à des fins de grattage en Python.

Note : Étant donné que la combinaison standard de Requests + BeautifulSoup est généralement la plus flexible et la plus facile à prendre en main, nous noterons que les outils ci-dessus ne s’excluent pas mutuellement ; vous pouvez, par exemple, obtenir du texte HTML avec Scrapy ou Selenium, puis l’analyser avec BeautifulSoup.

## HTML


### Inspecter un élément d’une page web

- Accéder à une page Web
- clic droit
- Sélectionner Inspecter l’élément

NB: vous ne devriez pas voir de fenêtre contextuelle ou de cadre affichant le code HTML d’une page Web.

Chaque travail de webscraping est unique, car presque tous les sites Web sont uniques. 

#### Composants de base d’un site Web

#### HTML
HTML est l’abréviation de 'Hypertext Markup Language' et tous les sites Web sur Internet l’utilisent pour afficher des informations. Même le système de bloc-notes Jupyter l’utilise pour afficher ces informations dans votre navigateur. 

Si vous faites un clic droit sur un site Web et sélectionnez « Afficher la source de la page », vous pouvez voir le code HTML brut d’une page Web. Il s’agit des informations que Python examinera pour récupérer des informations. 

Jetons un coup d’œil au code HTML d’une simple page web :

    <!DOCTYPE html>  
    <html>  
        <head>
            <title>Title on Browser Tab</title>
        </head>
        <body>
            <h1> Website Header </h1>
            <p> Some Paragraph </p>
        <body>
    </html>
    


Chaque <tag> indique un type de bloc spécifique sur la page Web :

    1.<DOCTYPE html> Les documents HTML commenceront toujours par cette déclaration de type, indiquant au navigateur qu’il s’agit d’un fichier HTML.
    2. Les blocs de composants du document HTML sont placés entre <html> et </html>.
    3. Les métadonnées et les connexions de script (comme un lien vers un fichier CSS ou un fichier JS) sont souvent placées dans le <head> bloc.
    4. Le <title> bloc de balise définit le titre de la page Web (c’est ce qui apparaît dans l’onglet d’un site Web que vous avez
    5. Est entre <body> et les </body> balises sont les blocs qui seront visibles par le visiteur du site.
    6. Les titres sont définis par les <h1> <h6> balises through, où le nombre représente la taille de l’en-tête.
    7. Les paragraphes sont définis par la <p> balise, il s’agit essentiellement d’un texte normal sur le site Web.
    8. <header>, <main>, <footer> indique la partie des éléments de la page à laquelle appartiennent
    9. <a href=""></a> pour les hyperliens, active un lien dans la page
    10. <ul>, <ol> crée des listes
    11. <li> Contient des éléments dans des listes
    12. <br> Insère un saut de ligne unique
    13. pour les <table> tableaux <tr> , pour les lignes de tableau et <td> pour les colonnes de tableau.


**Certaines Balises sont à fermeture automatique :**
la plupart des balises HTML nécessitent une balise d’ouverture et une balise de fermeture. Il y en a cependant quelques-uns qui ne le font pas :

    1. <img src=""> crée une image dans la page

    2. <br> Crée une rupture dans le contenu

    3. <input type=""> crée un champ de saisie

    4. <hr> Crée une ligne dans la page
    
**IDs, Classes**
    
Les ID et les classes sont très similaires. Ceux-ci sont utilisés pour cibler des éléments spécifiques.

    1. `<h1 id="en-tête-profil"></h1>`

    2. `<h1 class="en-tête-sujet"></h1>`

Les identifiants ne doivent être utilisés qu’une seule fois sur une page. Les identifiants peuvent également être utilisés pour amener l’utilisateur à une partie spécifique de la page. votre-site/#profile-photo chargera la page à côté de la photo de profil.

Les classes peuvent être utilisées plusieurs fois sur une page.

Voir (https://www.w3schools.com/tags/ref_byfunc.asp)
      

#### CSS

CSS est l’abréviation de Cascading Style Sheets, c’est ce qui donne du « style » à un site web, y compris les couleurs et les polices, et même quelques animations ! CSS utilise des balises telles que **id** ou **class** pour connecter un élément HTML à une fonctionnalité CSS, telle qu’une couleur particulière. **id** est un identifiant unique pour une balise HTML et doit être unique dans le document HTML, essentiellement une connexion à usage unique. **class** définit un style général qui peut ensuite être lié à plusieurs balises HTML. 

En gros, si vous voulez qu’une seule balise html soit rouge, vous utiliserez une balise id, si vous voulez que plusieurs balises/blocs HTML soient rouges, vous créerez une classe dans votre document CSS, puis vous la lierez au reste de ces blocs.


#### Suite prise en main de HTML & CSS :

[W3School](http://www.w3schools.com/html/)

[Codecademy](http://www.codecademy.com/tracks/web)

  

## Le WebScraping en étapes:

Pour les bibliothèques nécessaires pour les exemples ci-dessous, vous pouvez accéder à votre ligne de commande et les installer avec Conda install (si vous utilisez la distribution Anaconda) ou pip install pour les autres distributions Python.

1.) **Requests** : Ce module est utilisé pour visiter une URL et obtenir le contenu d'une page web.La bibliothèque "Requests" en Python est un outil populaire utilisé pour simplifier les opérations liées aux requêtes HTTP. Elle offre une interface simple et élégante pour envoyer des requêtes HTTP, gérer les cookies, les en-têtes, les sessions, et gérer d'autres aspects liés aux communications web. "Requests" permet aux développeurs d'interagir facilement avec des API, de récupérer des données à partir de sites web, et d'effectuer diverses opérations liées aux protocoles HTTP. Grâce à sa simplicité d'utilisation et à ses fonctionnalités puissantes, "Requests" est largement utilisée dans le domaine du web scraping, de l'automatisation web, et de l'accès aux services web.

Vous pouvez le télécharger avec pip install requests ou conda install requests (pour la distribution Anaconda de Python) dans votre invite de commande.

2.) **BeautifulSoup** :une bibliothèque Python qui facilite l'extraction d'informations à partir de documents HTML et XML. Elle offre des méthodes souples pour parcourir et rechercher des éléments dans le code source HTML/XML, facilitant ainsi l'analyse et la manipulation de données web.. 

Vous pouvez le télécharger avec pip install beautifulsoup4 ou conda install beautifulsoup4 (pour la distribution Anaconda de Python) dans votre invite de commande.

3.) **parser HTML** :Beautiful Soup prend en charge différents parseurs (analysateurs) pour analyser le code source HTML ou XML. Deux des parseurs populaires utilisés avec Beautiful Soup sont "lxml" et "html.parser"...

* lxml : "lxml" est un parseur externe qui est construit sur les bibliothèques C libxml2 et libxslt. Il est rapide, efficace et capable de gérer des documents HTML et XML complexes. "lxml" est souvent recommandé pour sa rapidité, en particulier lors du traitement de grandes quantités de données. 


* html.parser : "html.parser" est un parseur natif inclus dans la bibliothèque standard de Python. Il est plus lent que "lxml" mais peut être suffisant pour des tâches moins gourmandes en ressources. Aucune installation supplémentaire n'est nécessaire, car il fait partie de la bibliothèque standard. 


* html5lib : Il s'agit d'un parseur externe qui implémente l'algorithme de l'HTML Living Standard. Il est précis et capable de gérer des documents HTML mal formés, mais il est généralement plus lent que les autres parseurs.

In [None]:
#pip install requests,BeautifulSoup4
#conda install requests,beautifulsoup4

In [1]:
import requests
import bs4


### 1- Requests


* HTTP est un protocol qui va permettre au client (vous, par le biais de votre navigateur) de communiquer avec un serveur connecté au réseau (le serveur HTTP installé sur le serveur d'un site).


* Les requêtes vont toujours par paires : la demande (du client) et la réponse (du serveur). Si ce n'est pas le cas, c'est qu'un problème est survenu à un endroit du réseau.


On considère l'URL **www.example.com** qui représente un site Web spécialement conçu pour servir d’exemple. 

*  Récupérer une page

Les requêtes nous permettront de charger une page web en python afin de pouvoir l’analyser et la manipuler. 


In [2]:
# Use the requests library to grab the page
# Note, this may fail if you have a firewall blocking Python/Jupyter 
# Note sometimes you need to run this twice if it fails the first time
res = requests.get("http://www.example.com")
type(res)

requests.models.Response

Cet objet est un objet requests.models.Response et il contient en fait les informations du site web, par exemple :

In [4]:
print(res.text)

<!doctype html>
<html>
<head>
    <title>Example Domain</title>

    <meta charset="utf-8" />
    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
    <style type="text/css">
    body {
        background-color: #f0f0f2;
        margin: 0;
        padding: 0;
        font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
        
    }
    div {
        width: 600px;
        margin: 5em auto;
        padding: 2em;
        background-color: #fdfdff;
        border-radius: 0.5em;
        box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);
    }
    a:link, a:visited {
        color: #38488f;
        text-decoration: none;
    }
    @media (max-width: 700px) {
        div {
            margin: 0 auto;
            width: auto;
        }
    }
    </style>    
</head>

<body>
<div>
    <h1>Example Domain</h1>
    <p>This domai

### Beautifulsoup

Pour analyser la page extraite, nous utiliserons **BeautifulSoup** . 

Techniquement, nous pourrions utiliser notre propre script personnalisé pour rechercher des éléments dans la chaîne de **res.text**, mais la bibliothèque BeautifulSoup a déjà beaucoup d’outils et de méthodes intégrés pour récupérer des informations à partir du HTML.

* Préparer l'objet Soup:

Tout d’abord, nous devons transformer le code du site Web en un objet Python. Nous avons déjà importé la bibliothèque Beautiful Soup, nous pouvons donc commencer à appeler certaines des méthodes de la bibliothèque. 

on récupère le contenu de res avec **res.text** ou **res.content**, cela transforme le texte en un objet Python nommé **soup**.

Remarque importante : vous devez spécifier le parser spécifique que Beautiful Soup utilise pour analyser votre texte. C’est ce qui est fait dans le deuxième argument de la fonction BeautifulSoup. La valeur par défaut est l’analyseur Python intégré, que nous pouvons appeler à l’aide de **html.parser**

Vous pouvez également utiliser **lxml** ou **html5lib**. Ceci est bien décrit dans la [documentation](http://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser).

En utilisant la fonction Beautiful Soup **prettify()**, nous pouvons imprimer la page pour voir le code imprimé de manière lisible et lisible.


In [3]:
#Using BeautifulSoup you can create a "soup" object that contains all the "ingredients" of the webpage.
soup = bs4.BeautifulSoup(res.content,"lxml")


In [8]:
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   Example Domain
  </title>
  <meta charset="utf-8"/>
  <meta content="text/html; charset=utf-8" http-equiv="Content-type"/>
  <meta content="width=device-width, initial-scale=1" name="viewport"/>
  <style type="text/css">
   body {
        background-color: #f0f0f2;
        margin: 0;
        padding: 0;
        font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
        
    }
    div {
        width: 600px;
        margin: 5em auto;
        padding: 2em;
        background-color: #fdfdff;
        border-radius: 0.5em;
        box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);
    }
    a:link, a:visited {
        color: #38488f;
        text-decoration: none;
    }
    @media (max-width: 700px) {
        div {
            margin: 0 auto;
            width: auto;
        }
    }
  </style>
 </head>
 <body>
  <div>
   <h1>
    Example Domain
   </h1>
   <p>
    This dom

* Navigation dans la structure de données

Beautiful Soup nous permet de naviguer dans la structure des données. 

In [9]:
# Access the title element
print(soup.title)


<title>Example Domain</title>


In [165]:
# Access the content of the title element
print(soup.title.string)


Example Domain


In [15]:
# Access data in the first 'p' tag
print(soup.p)


<p>This domain is for use in illustrative examples in documents. You may use this
    domain in literature without prior coordination or asking for permission.</p>


In [44]:
# Extraire le titre de la page
title = soup.title.text
print('Titre de la page:', title)

# Extraire tout le texte de la page
text = soup.get_text()
print('Texte de la page:', text)


Titre de la page: Example Domain
Texte de la page: 

Example Domain







Example Domain
This domain is for use in illustrative examples in documents. You may use this
    domain in literature without prior coordination or asking for permission.
More information...






### Rechercher des élements 

Beautiful Soup propose plusieurs méthodes pour effectuer des recherches dans un objet soup. Ces méthodes permettent d'extraire des informations spécifiques à partir du document HTML ou XML. 

Voici les méthodes de recherche les plus utilisées :


[List of Tags](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#css-selectors)

[BeautifulSoup 4 Documentation](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)



#### select() 

* select() Utilise des sélecteurs CSS pour trouver les éléments correspondants, elle retourne une liste d'elts.

* select_one() : Cette méthode est similaire à select(), mais elle retourne uniquement le premier élément correspondant.




<table>

<thead >
<tr>
<th>
<p>Syntax to pass to the .select() method</p>
</th>
<th>
<p>Match Results</p>
</th>
</tr>
</thead>
<tbody>
<tr>
<td>
<p><code>soup.select('div')</code></p>
</td>
<td>
<p>All elements with the <code>&lt;div&gt;</code> tag</p>
</td>
</tr>
<tr>
<td>
<p><code>soup.select('#some_id')</code></p>
</td>
<td>
<p>The HTML element containing the <code>id</code> attribute of <code>some_id</code></p>
</td>
</tr>
<tr>
<td>
<p><code>soup.select('.notice')</code></p>
</td>
<td>
<p>All the HTML elements with the CSS <code>class</code> named <code>notice</code></p>
</td>
</tr>
<tr>
<td>
<p><code>soup.select('div span')</code></p>
</td>
<td>
<p>Any elements named <code>&lt;span&gt;</code> that are within an element named <code>&lt;div&gt;</code></p>
</td>
</tr>
<tr>
<td>
<p><code>soup.select('div &gt; span')</code></p>
</td>
<td>
<p>Any elements named <code class="literal2">&lt;span&gt;</code> that are <span><em >directly</em></span> within an element named <code class="literal2">&lt;div&gt;</code>, with no other element in between</p>
</td>
</tr>
<tr>

</tr>
</tbody>
</table>

In [31]:
# Utilisation de la méthode .select() pour trouver tous les éléments avec le tag 'example'
elements_with_class = soup.select('title')
elements_with_class

[<title>Example Domain</title>]

In [33]:
soup.select("head > title")

[<title>Example Domain</title>]

In [4]:
# Utilisation de la méthode .select_one() pour trouver le premier élément avec l'ID 'example'
element_with_id = soup.select('p')
element_with_id

[<p>This domain is for use in illustrative examples in documents. You may use this
     domain in literature without prior coordination or asking for permission.</p>,
 <p><a href="https://www.iana.org/domains/example">More information...</a></p>]

In [38]:
elements_with_class = soup.select('p')
print(type(elements_with_class))
print(len(elements_with_class))
print(type(elements_with_class[0]))
print(elements_with_class[0])
print(elements_with_class[0].get_text())

<class 'bs4.element.ResultSet'>
2
<class 'bs4.element.Tag'>
<p>This domain is for use in illustrative examples in documents. You may use this
    domain in literature without prior coordination or asking for permission.</p>
This domain is for use in illustrative examples in documents. You may use this
    domain in literature without prior coordination or asking for permission.


=> select retourne une liste contenant tous les éléments (ainsi que leurs balises). Vous pouvez utiliser l’indexation ou même les boucle pour récupérer les éléments de la liste. 

Comme cet objet est toujours une balise spécialisée, nous pouvons utiliser des appels de méthode pour récupérer uniquement le texte.

#### find()  

Cette méthode retourne le premier élément qui correspond au critère spécifié.



**find(tags, keyword_args, attrs={'attr', 'value'})** --> [REf](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find)

In [47]:
# Recherche du premier paragraphe dans le document
paragraph = soup.find('p')
paragraph

<p>This domain is for use in illustrative examples in documents. You may use this
    domain in literature without prior coordination or asking for permission.</p>

In [43]:
soup.find("body").find("p")

<p>This domain is for use in illustrative examples in documents. You may use this
    domain in literature without prior coordination or asking for permission.</p>

In [42]:
soup.find("head").find("title")

<title>Example Domain</title>

#### find_all() 

Cette méthode retourne une liste de tous les éléments correspondant au critère spécifié.

**find_all(tags, keyword_args, attrs={'attr', 'value'})** --> [Liste des balises](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all)

La méthode find_all() analyse l’ensemble du document à la recherche de résultats, mais parfois vous ne voulez trouver qu’un seul résultat. Si vous savez qu’un document n’a qu’une seule <body> balise, c’est une perte de temps de numériser l’ensemble du document à la recherche d’autres balises. Plutôt que de passer limit=1 à chaque fois que vous appelez find_all, vous pouvez utiliser la méthode find().


In [12]:
# Recherche de tous les paragraphes dans le document
paragraphs = soup.find_all('p')
paragraphs

[<p>This domain is for use in illustrative examples in documents. You may use this
     domain in literature without prior coordination or asking for permission.</p>,
 <p><a href="https://www.iana.org/domains/example">More information...</a></p>]

In [49]:

# le contenu de la balise "p" en indiquant son attribut de class (on affine la recherche)
# noter que cet un attribut "class"
# on peut récupérer des éléments avec tout attributs définis dans une balise
for p in soup.find_all('p'):
    print (p.text)

This domain is for use in illustrative examples in documents. You may use this
    domain in literature without prior coordination or asking for permission.
More information...


In [41]:
soup.find_all('p', limit=1)

[<p>This domain is for use in illustrative examples in documents. You may use this
     domain in literature without prior coordination or asking for permission.</p>]

#### Autres fonctions utiles:

* find_parent(), find_parents() : Ces méthodes permettent de trouver le parent ou les parents d'un élément spécifié.
    
* find_next_sibling(), find_previous_sibling() : Trouve le frère suivant ou précédent d'un élément.
    
* find_next(), find_previous() : Trouve le prochain ou le précédent élément qui correspond à un critère spécifié.


In [18]:
# Trouver le parent du premier paragraphe
parent_of_paragraph = paragraph.find_parent()
parent_of_paragraph

<div>
<h1>Example Domain</h1>
<p>This domain is for use in illustrative examples in documents. You may use this
    domain in literature without prior coordination or asking for permission.</p>
<p><a href="https://www.iana.org/domains/example">More information...</a></p>
</div>

In [20]:
# Trouver le frère suivant du premier paragraphe
next_sibling = paragraph.find_next_sibling()
next_sibling

<p><a href="https://www.iana.org/domains/example">More information...</a></p>

In [22]:
# Trouver le prochain élément div,p ..
next_div = paragraph.find_next('p')
next_div

<p><a href="https://www.iana.org/domains/example">More information...</a></p>

# Ressources utiles : 

- Prise en main de HTML et CSS , Valider les ressources suivantes:

    * http://www.codecademy.com/tracks/web

    * http://www.w3schools.com/html/

  


- Veille technique:Respect de l'Éthique et de la Légalité : 

Examiner les questions éthiques liées au web scraping, y compris le respect des droits d'auteur, la politique des sites web et la collecte responsable des données, comment fonctionne le fichier robots.txt..



https://www.ionos.fr/digitalguide/sites-internet/developpement-web/quest-ce-que-le-web-scraping/

https://datascientest.com/decouvrir-le-web-scraping-avec-beautiful-soup
