# Qu'est ce que BeautifulSoup

Beautiful Soup est la meilleure bibliothèque pour supprimer les données d'un site Web particulier ou d'Internet. Et il est très confortable de travailler aussi. Il analyse et extrait des données structurées à partir de HTML. Beautiful Soup transforme automatiquement les textes entrants en Unicode et les versions sortantes en UTF-8. Vous ne devez pas vous rappeler d’encodages sauf que le document ne définit pas d’encodage et que Beautiful Soup ne peut pas en attraper un. Ensuite, vous devez mentionner le codage d'origine.

# Basic-Getting Familiar with HTML

HTML code plays an essential role in extracting data from the website. So, before we processed, let us jump to the basic of the HTML tags. If you have got a tiny bit of knowledge of HTML tags, you can move ahead to the next level.

                                        <!DOCTYPE html>  
                                        <html>  
                                            <head>
                                            </head>
                                            <body>
                                                <h1> Learning about Data</h1>
                                                <p> Beautiful Soup</p>
                                            <body>
                                        </html>

    This is the basic syntax of an HTML webpage. Every <tag> serves a block inside the webpage:
    1. <!DOCTYPE html>: HTML documents must start with a type declaration.
    2. The HTML document is contained between <html> and </html>.
    3. The meta and script declaration of the HTML document is between <head> and </head>.
    4. The visible portion of the HTML document is between <body> and </body> tags.
    5. Title headings are defined with the <h1> through <h6> tags.
    6. Paragraphs are defined with the <p> tag.
    Other useful tags include <a> for hyperlinks, <table> for tables, <tr> for table rows, and <td> for table columns.

# Commençons votre projet de bricolage


Nous connaissons maintenant nos données et leur emplacement. Nous allons donc commencer à mettre nos données à la ferraille.
Avant de procéder, vous devez installer ou importer certaines bibliothèques.

In [2]:
#Import Libraries
from bs4 import BeautifulSoup
import requests

# Requests

Il est destiné à être utilisé par les humains pour communiquer avec le langage. Cela signifie que vous n'avez pas besoin de joindre manuellement les chaînes de requête aux URL, ni d'encoder de manière formelle vos données POST. Les demandes vous permettront d’envoyer des demandes HTTP / 1.1 à l’aide de Python. Vous pouvez y combiner du contenu tel que des en-têtes, des données de formulaire, des fichiers en plusieurs parties et des paramètres via de simples bibliothèques Python. Il vous permet également d’obtenir les données de réponse de Python de la même manière.

# BS4 — BeautifulSoup

Beautiful Soup est une bibliothèque Python pour extraire des données de fichiers HTML et XML. Il travaille avec votre analyseur préféré pour produire des méthodes naturelles d’exploitation, d’examen et de transformation de l’arbre d’analyse syntaxique. Cela épargne généralement des heures ou des jours de travail aux programmeurs.

In [5]:
# Specify with which URL/web page we are going to be scraping
html = requests.get('https://en.wikipedia.org/wiki/List_of_European_countries_by_area').text
html

'\n<!DOCTYPE html>\n<html class="client-nojs" lang="en" dir="ltr">\n<head>\n<meta charset="UTF-8"/>\n<title>List of European countries by area - Wikipedia</title>\n<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":!1,"wgSeparatorTransformTable":["",""],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","January","February","March","April","May","June","July","August","September","October","November","December"],"wgRequestId":"XqKc7ApAMOIAAZxl2z4AAAAI","wgCSPNonce":!1,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":!1,"wgNamespaceNumber":0,"wgPageName":"List_of_European_countries_by_area","wgTitle":"List of European countries by area","wgCurRevisionId":952827108,"wgRevisionId":952827108,"wgArticleId":7147041,"wgIsArticle":!0,"wgIsRedirect":!1,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["CS1 German-language sources (de)","Articles with short description","All articles with unsourced statements","

Nous commençons par étudier le code source d’une page Web donnée et par construire un objet BeautifulSoup (soup) avec la fonction BeautifulSoup.Maintenant, nous devons utiliser la fonction Beautiful Soap, qui nous aidera à analyser et à appliquer le code HTML extrait de notre page Wikipedia. :

Ensuite, nous allons utiliser Beautiful Soup pour analyser les données HTML que nous avons collectées dans notre variable "URL", puis nous affectons une variable différente pour stocker les données au format Beautiful Soup, appelé "Soupe".

In [6]:
#Parse the HTML from our URL into the BeautifulSoup parse tree format
html_parsé = BeautifulSoup(html, 'html.parser')

Pour connaître la structure du code HTML sous-jacent dans notre page Web, utilisez la fonction prettify de Beautiful Soup et vérifiez-la.

In [7]:
#To look at the HTML underlying to the web 
print(html_parsé.prettify())

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="en">
 <head>
  <meta charset="utf-8"/>
  <title>
   List of European countries by area - Wikipedia
  </title>
  <script>
   document.documentElement.className="client-js";RLCONF={"wgBreakFrames":!1,"wgSeparatorTransformTable":["",""],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","January","February","March","April","May","June","July","August","September","October","November","December"],"wgRequestId":"XqKc7ApAMOIAAZxl2z4AAAAI","wgCSPNonce":!1,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":!1,"wgNamespaceNumber":0,"wgPageName":"List_of_European_countries_by_area","wgTitle":"List of European countries by area","wgCurRevisionId":952827108,"wgRevisionId":952827108,"wgArticleId":7147041,"wgIsArticle":!0,"wgIsRedirect":!1,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["CS1 German-language sources (de)","Articles with short description","All articles with unsourced sta

Voici ce que nous obtenons de la fonction prettify ():

                                <!DOCTYPE html>
                                <html class="client-nojs" dir="ltr" lang="en">
                                 <head>
                                  <meta charset="utf-8"/>
                                  <title>
                                   List of European countries by area - Wikipedia
                                  </title>
                                  <script>

Si vous visitez le lien et consultez notre page Wikipedia pour les pays asiatiques, vous constaterez qu’il existe un peu plus d’informations sur les régions. La table wikipedia déjà configurée rend notre travail plus facile.Jetons un coup d’œil à cela dans notre joli HTML:

Et voilà, en commençant par une balise HTML $<table>$ avec un identifiant de classe «wikitable sortable». Nous nous souviendrons de cette classe pour une utilisation future. Si vous descendez dans votre programme, vous verrez comment la table est composée, et vous verrez les lignes commençant et se terminant par les balises $<tr>$ et $</ tr>$.
    
La première rangée d'en-têtes a des balises $<th>$ tandis que les rangées de données en dessous de chaque club ont des balises $<td>$. Utilisation des balises $<td>$ que nous allons demander à Python de sécuriser nos données.
   

Nous pouvons utiliser ces informations pour préparer notre attaque contre le HTML.Nous savons que les données restent dans une table HTML. Nous demandons donc à Beautiful Soup de récupérer toutes les occurrences de la balise $<table>$ dans la page et de les ajouter à un tableau appelé all_tables.

In [5]:
# use the 'find_all' function to bring back all instances of the 'table' tag in the HTML and store in 'all_tables' variable
all_tables=soup.find_all("table")
all_tables

[<table class="wikitable sortable">
 <tbody><tr>
 <th>Rank
 </th>
 <th>State
 </th>
 <th>Total area (km<sup>2</sup>)
 </th>
 <th class="unsortable">Notes
 </th></tr>
 <tr>
 <td>1
 </td>
 <td><span class="flagicon" style="display:inline-block;width:25px;"><img alt="" class="thumbborder" data-file-height="600" data-file-width="900" decoding="async" height="15" src="//upload.wikimedia.org/wikipedia/en/thumb/f/f3/Flag_of_Russia.svg/23px-Flag_of_Russia.svg.png" srcset="//upload.wikimedia.org/wikipedia/en/thumb/f/f3/Flag_of_Russia.svg/35px-Flag_of_Russia.svg.png 1.5x, //upload.wikimedia.org/wikipedia/en/thumb/f/f3/Flag_of_Russia.svg/45px-Flag_of_Russia.svg.png 2x" width="23"/></span> <a href="/wiki/Russia" title="Russia">Russia</a>*
 </td>
 <td>3,972,400
 </td>
 <td>17,098,242 km<sup>2</sup> including <a class="mw-redirect" href="/wiki/Northern_Asia" title="Northern Asia">Northern Asia</a><sup class="reference" id="cite_ref-russiaTotalAreaByCIA_2-0"><a href="#cite_note-russiaTotalAreaByCIA-2

Sous la classe de table ‘wikitable triable’, nous avons des liens avec le nom du pays comme titre.

In [9]:
# use the 'find_all' function to bring back all instances of the 'table' tag in the HTML and store in 'all_tables' variable
html_table = html_parsé.find('table',{'class':'wikitable sortable'})
html_table

<table class="wikitable sortable">
<tbody><tr>
<th>Rank
</th>
<th>State
</th>
<th>Total area (km<sup>2</sup>)
</th>
<th class="unsortable">Notes
</th></tr>
<tr>
<td>1
</td>
<td><span class="flagicon" style="display:inline-block;width:25px;"><img alt="" class="thumbborder" data-file-height="600" data-file-width="900" decoding="async" height="15" src="//upload.wikimedia.org/wikipedia/en/thumb/f/f3/Flag_of_Russia.svg/23px-Flag_of_Russia.svg.png" srcset="//upload.wikimedia.org/wikipedia/en/thumb/f/f3/Flag_of_Russia.svg/35px-Flag_of_Russia.svg.png 1.5x, //upload.wikimedia.org/wikipedia/en/thumb/f/f3/Flag_of_Russia.svg/45px-Flag_of_Russia.svg.png 2x" width="23"/></span> <a href="/wiki/Russia" title="Russia">Russia</a>*
</td>
<td>3,972,400
</td>
<td>17,098,242 km<sup>2</sup> including <a class="mw-redirect" href="/wiki/Northern_Asia" title="Northern Asia">Northern Asia</a><sup class="reference" id="cite_ref-russiaTotalAreaByCIA_2-0"><a href="#cite_note-russiaTotalAreaByCIA-2">[2]</a></sup>
</

Sous la classe de table ‘wikitable triable’, nous avons des liens avec le nom du pays comme titre. Nous allons maintenant extraire tous les liens contenus dans $<a>$, nous avons utilisé find_all ().

In [10]:
links = html_table.findAll('a')
links

[<a href="/wiki/Russia" title="Russia">Russia</a>,
 <a class="mw-redirect" href="/wiki/Northern_Asia" title="Northern Asia">Northern Asia</a>,
 <a href="#cite_note-russiaTotalAreaByCIA-2">[2]</a>,
 <a href="/wiki/Ukraine" title="Ukraine">Ukraine</a>,
 <a href="#cite_note-3">[3]</a>,
 <a href="/wiki/France" title="France">France</a>,
 <a class="mw-redirect" href="/wiki/Overseas_departments" title="Overseas departments">overseas departments</a>,
 <a href="/wiki/Spain" title="Spain">Spain</a>,
 <a href="/wiki/Canary_Islands" title="Canary Islands">Canary Islands</a>,
 <a href="/wiki/Ceuta" title="Ceuta">Ceuta</a>,
 <a href="/wiki/Melilla" title="Melilla">Melilla</a>,
 <a href="#cite_note-4">[4]</a>,
 <a href="/wiki/Sweden" title="Sweden">Sweden</a>,
 <a href="/wiki/Norway" title="Norway">Norway</a>,
 <a href="/wiki/Svalbard" title="Svalbard">Svalbard</a>,
 <a href="/wiki/Jan_Mayen" title="Jan Mayen">Jan Mayen</a>,
 <a href="#cite_note-5">[5]</a>,
 <a href="/wiki/Germany" title="Germany">G

De l'URL, nous devons extraire le titre qui est le nom des pays. Pour ce faire, nous devons créer une liste Pays afin de pouvoir extraire le nom des pays du lien et l'ajouter à la liste des pays.

In [13]:
#Countries = []
for link in links:
    #Countries.append(link.get('title'))
    producer.send('wiki_countries', {'href': link.get('href'), 'name': link.get('title')})
    
[print(Countries)

['Russia', 'Northern Asia', None, 'Ukraine', None, 'France', 'Overseas departments', 'Spain', 'Canary Islands', 'Ceuta', 'Melilla', None, 'Sweden', 'Norway', 'Svalbard', 'Jan Mayen', None, 'Germany', None, 'Finland', 'Poland', 'Italy', 'United Kingdom', 'British Overseas Territories', 'Romania', 'Belarus', 'Kazakhstan', 'Wikipedia:Citation needed', 'Greece', 'Bulgaria', 'Iceland', 'Hungary', 'Portugal', 'Austria', 'Czech Republic', 'Serbia', 'Kosovo', 'Republic of Ireland', 'Lithuania', 'Latvia', None, 'Croatia', 'Bosnia and Herzegovina', 'Slovakia', 'Estonia', 'Denmark', 'Faroe Islands', 'Greenland', 'Switzerland', 'Netherlands', 'Caribbean Netherlands', 'Aruba', 'Curacao', 'Sint Maarten', 'Moldova', 'Belgium', 'Armenia', 'Albania', 'North Macedonia', 'Turkey', 'Slovenia', 'Montenegro', 'Kosovo', 'International recognition of Kosovo', 'Cyprus', 'Azerbaijan', 'Luxembourg', 'Georgia (country)', 'Andorra', 'Malta', 'Liechtenstein', 'San Marino', 'Monaco', 'Vatican City']


Maintenant, nous devons convertir les pays de la liste en Pandas DataFrame pour qu’ils fonctionnent en python.

# Conclusion

Et cela nous mène à la fin de notre tutoriel Beautiful Soup. En toute confiance, cela vous fournit assez de travail pour examiner certains problèmes pour votre prochain projet. Nous avons introduit une requête pour extraire l’URL et les données HTML, Beautiful Soup pour analyser le code HTML et des pandas pour convertir les données en un bloc de données pour une présentation correcte.