### Bibliothèque standard pour ouvrir des URL(avec la fonction urlopen) et lire le contenu.


In [1]:

from urllib.request import urlopen 
html = urlopen('http://pythonscraping.com/pages/page1.html')

print(html.read())



b'<html>\n<head>\n<title>A Useful Page</title>\n</head>\n<body>\n<h1>An Interesting Title</h1>\n<div>\nLorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.\n</div>\n</body>\n</html>\n'


## BeautifulSoup

Beautiful Soup est une bibliothèque Python qui permet d'extraire des données de fichiers HTML et XML. Elle propose des idiomes Python pour itérer, rechercher et modifier l'arbre de syntaxe. 

## Objectif et Cas d'utilisation

Il y'a deux cas d'utilisation que l'on peut noter :

Web Scraping : BeautifulSoup est couramment utilisé pour le scraping web, qui consiste à extraire des données de sites Internet.
Data Mining : Elle permet aux analystes et développeurs d'extraire des informations et de les comprendre en les convertissant en un format facilement manipulable.

## Caractéristiques Principales
Il possède plusieurs caractéristiques à savoir la :

- Robustesse : Elle est conçue pour gérer le désordre du web réel, qui comprend souvent du HTML incorrect.
Flexibilité : BeautifulSoup vous permet de spécifier un analyseur, ce qui signifie que vous pouvez changer votre approche en fonction des exigences spécifiques du HTML avec lequel vous travaillez.
- Facilité d'Utilisation : La bibliothèque est connue pour son API simple et les méthodes Pythoniques de navigation, de recherche et de modification de l'arborescence.

## Méthodes et Propriétés Communes
Les propriétés et les méthodes qu'il faut connaitre sur ce module sont :

- Navigation dans l'Arbre : Des méthodes telles que .parent, .contents, .next_sibling, .prev_sibling permettent la navigation dans l'arborescence.
- Recherche dans l'Arbre : .find(), .find_all(), .select(), et d'autres vous permettent de sélectionner des parties du document en utilisant des noms de balises ou des sélecteurs CSS.
Modification de l'Arbre : Vous pouvez facilement éditer et modifier l'arbre en ajoutant, modifiant ou supprimant des balises.

## Installation

L'installation est facile, il suffit de faire un :
- $ pip install beautifulsoup4 or
- $ pip install beautifulsoup4

Avant de continuer, il est conseiller de créer avant de continuer un environnement python.

## Création d'un environnement python.

La gestion des bibliothèques Python avec les environnements virtuels est essentielle si vous travaillez sur plusieurs projets Python, si vous avez besoin de regrouper facilement des projets avec toutes les bibliothèques associées, ou si vous vous inquiétez des conflits potentiels entre les bibliothèques installées. Un environnement virtuel permet de garder chaque projet séparé et facile à gérer.

Sans environnement virtuel, l'installation d'une bibliothèque Python est globale, nécessitant souvent des privilèges d'administrateur et rendant la bibliothèque disponible pour tous les utilisateurs et projets sur la machine. Heureusement, créer un environnement virtuel env( qui est le dossier du nouvel environnement) est simple sur linux :

- $ python -m venv env
- cd env
- $ source env/bin/activate

Pour plus d'information, aller sur le site [openClassrom](https://openclassrooms.com/fr/courses/6951236-mettez-en-place-votre-environnement-python/7014018-creez-votre-premier-environnement-virtuel).

Après avoir créer votre environnement, vous pouvez télécharger tous vos modules à l'intérieur.



## Application du module BeautifulSoup

Pour une première application, modifions légèrement le premier code.

In [3]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen('http://www.pythonscraping.com/pages/page1.html')
bs = BeautifulSoup(html, 'html.parser')
print(bs.h1)

<h1>An Interesting Title</h1>


L'objet bs précédemment crée à cette structure :

- html → `<html><head>...</head><body>...</body></html>`
  - head → `<head><title>A Useful Page<title></head>`
    - title → `<title>A Useful Page</title>`
  - body → `<body><h1>An Int...</h1><div>Lorem ip...</div></body>`
    - h1 → `<h1>An Interesting Title</h1>`
    - div → `<div>Lorem Ipsum dolor...</div>`

Un objet bs a deux paramètres :
- un premier paramètre qui est le contenu html
- un deuxième paramètre qui est le type de parseur à utiliser.

En Python, html.parser est le parser intégré par défaut qui peut analyser les documents HTML sans nécessiter de modules externes supplémentaires. Cependant, un inconvénient notable de html.parser est sa vitesse relative plus lente par rapport à d'autres parsers disponibles. Des alternatives comme lxml et html5lib offrent une vitesse de traitement supérieure et sont également plus tolérantes face à du code HTML mal formé, c'est-à-dire qu'ils peuvent mieux gérer et interpréter les erreurs dans le balisage HTML, offrant ainsi une meilleure résilience lors de l'analyse de pages web qui ne suivent pas les standards du HTML

Pour continuer, nous allons d'abord voir comment gérer les exceptions.

## Gestion des Exceptions

- $ html = urlopen('http://www.pythonscraping.com/pages/page1.html') Ce code peut conduire à deux sortes d'erreurs :
  - La page n'est pas trouvé sur le serveur.
  - Le serveur n'est pas trouvé sur le réseau.

Dans ce cas, nous aurons automatiquement des erreurs. Pour éviter cela, nous allons utiliser la gestion des exceptions.
Voici un exemple de code qui permet de gérer les exceptions :


In [4]:
from urllib.request import urlopen
from urllib.error import HTTPError
from urllib.error import URLError
try:
 html = urlopen('https://pythonscrapingthisurldoesnotexist.com')
except HTTPError as e:
 print(e)
except URLError as e:
 print('The server could not be found!')
else:
 print('It Worked!')

The server could not be found!
