# BeautifulSoup

BeautifulSoup est un bibliothèque de Python permettant de parser les documents HTML et XML, ainsi, il est possible d'extraire le contenu de page web selon des sélecteurs. La syntaxe des sélecteurs est la même que celle utilisée en javascript/jQuery/CSS.

- Sélectionner tous les éléments ayant une classe : ".nom-de-classe"
  - `soup.select(".nom-de-classe")` 
  - `soup.find_all(attrs={"class": ".nom-de-classe"})` 
- Sélectionner un élément ayant une classe contenue dans une autre : ".classe-1 .classe-2"
  - `soup.select_one(".classe-1 .classe-2")`
  - `soup.find(".classe-1").find(".classe-2")`
- Sélectionner un élement par son attribut : "[src]"
  - `soup.select_one("[src]")`
  - `soup.find(attrs={"src": True})`
- Sélectionner tous les élements ayant deux classes par son attribut : ".classe-1.classe-2"
  - `soup.select(".classe-1.classe-2")` 
  - `soup.find_all(attrs={"class": [".classe-1", "classe-2"]})` 

Notez un point très important : BeautifulSoup n'est pas très apté pour les scraper les données asynchrones, autrement dit, si votre site cible ajoute du contenu **après** le chargement initial de la page, il est fort probable que vous n'arrivez pas à le récupérer.

BeautifulSoup est une librairie externe, première étape : l'installation et l'importation (inutile dans le cas de Google Colab).

- [Voir documentation en anglais de BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

In [2]:
# Pensez à commenter cette ligne après avoir importé beautifulsoup4 
# pour éviter que conda vérifie s'il doit importer l'outil à chaque fois

import sys
# !conda install --yes --prefix {sys.prefix} beautifulsoup4
# Plus d'infos ici sur la ligne précédente
# https://jakevdp.github.io/blog/2017/12/05/installing-python-packages-from-jupyter/#How-to-use-Conda-from-the-Jupyter-Notebook


from bs4 import BeautifulSoup

Pour ne pas trop complexifier nos premiers pas avec BeautifulSoup, nous allons utiliser l'outil sans faire appel à des pages externes. Notre sujet d'expérimentation va être le fichier "index.html" présent dans le dossier de la ressource.

Première étape, charger notre fichier "index.html" (déjà présent dans la ressource).

# Pour les utilisateurs de Google colab

Petit apparté pour les utilisateurs de google colab. Pour charger un fichier local, il faudra rajouter les lignes de codes suivantes :

```python
from google.colab import files
uploaded = files.upload()

import io

# Très important : le nom du fichier passé en paramètre de la fonction "uploaded" doit avoir le même nom que le fichier que vous avez uploadé sinon, vous aurez forcément une erreur
page_web = io.BytesIO(uploaded['nom-du-fichier-uploader.ext'])
```
- **Ces lignes doivent être avant la manipulation d'un DataFrame et de préférence dans une cellule dédiée pour éviter d'uploader votre fichier à chaque fois**
- **Vous ne pouvez pas importer de fichiers en navigation privée**

- [Voir plus d'informations sur le chargement de fichiers externes avec Google colab - anglais](https://towardsdatascience.com/3-ways-to-load-csv-files-into-colab-7c14fcbdcb92)

In [4]:
# Pour les non-utilisateurs de google Colab 
chemin_du_fichier = "index.html"

with open(chemin_du_fichier) as page_web:
    soup = BeautifulSoup(page_web, 'html.parser')

In [None]:
# Pour les utilisateurs de Google Colab
soup = BeautifulSoup(page_web, 'html.parser')

Voilà, notre fichier html est chargé et le contenu est chargé, sous forme d'objet, dans une variable nommée **soup**. Assurons-nous que tout fonctionne, pour ce faire, récupérons le titre de notre page (le contenu de la balise &lt;title>) et affichons-le grâce à la fonction "print" ou "display". Notre variable **"soup"** étant un objet, notre balise &lt;title> est une propriété de **"soup"** nommée **title**.

Affichons donc la balise &lt;title> dans la cellule ci-dessous.

In [5]:
soup.title

<title>Ressource web-scraping</title>

Génial, ça fonctionne, en revanche, nous avons le contenu de votre balise title, mais entouré des balises. Pour n'obtenir que le texte d'une balise, il suffit de rajouter d'accéder à la propriété ".text" de `soup.title` et là, nous n'obtiendrons que le texte. 

Prenez tout de fois en compte le fait que la propriété "text" affiche tout le texte de façon transverse, ainsi si vous accèdez à ".text" au niveau de la balise "body" vous allez afficher tout le contenu textuel de la page web.

In [17]:
# Affichez ici le contenu textuel de la balise <title>

Désormais, on sait comment afficher le contenu textuel d'une balise. Allons un peu plus loin, essayons de récupérer une balise, disons la balise &lt;p> contenu dans la page. Même principe que précédemment, nous allons utiliser la variable **soup** mais cette fois-ci la propriété ".p" car nous cherchons à récupérer la balise &lt;p>. Essayons !

In [8]:
# Affichez ici la balise <p>

Que remarquez-vous comparé à la structure de page index.html au niveau de la balise &lt;p> ?

La propriété ".p", c'est très bien. Toutefois, s'il y a plusieurs éléments, ça montre ses limites, la propriété ".p" (ou tout autre balise), **ça ne retourne que la première occurence**, si on veut tout retourner, il faut utiliser la méthode ".select()" ou ".find_all()". Ces méthodes prennent en paramètre un sélecteur CSS. Les mêmes qu'on utilise pour écrire du CSS, ou sélectionner des éléments HTML en javascript.

Pour commencer, on va faire simple : on va récupérer **toutes** nos balises &lt;p> avec la méthode ".select()" ou ".find_all()", ces deux méthodes sont à appliquer sur la variable `soup` et prennent tout deux, en premier paramètre, une balise HTML. Dans notre cas ça sera `soup.find_all('p')`.

In [12]:
# Affichez ici les balises <p> de la page

On remarque que le résultat est dans une liste, on ne pourra pas accéder directement la propriété ".text" par exemple, vu que ce n'est pas une propriété de la liste, il faudra passer par une boucle pour ce faire. Essayez, complétez le code suivant :

In [None]:
 for paragraphe in {votre liste contenant les paragraphes}:
     # le texte de chaque paragraphe
     display()

### ".select()" ou ".find_all()" ?
Les deux font la même chose, prenez juste en compte le fait que ".select()" est plus souple et puissant que ".find_all()". ".select()" permet notamment l'utilisation de sélecteurs CSS plus complexes comme les combinateurs. Par exemple `soup.select(".paragraphe .txt-gras")` écrire la même chose avec ".find_all()" nécessiterait une variable pour stocker tous les ".paragraphe" et un ensuite faire un ".find_all()" sur ".txt-gras". Le tout avec une syntaxe plus lourde comme suivi `soup.find_all("p", {"class": "paragraphe"})`

La méthode ".find_all()" existe également en version ".find()" qui retourne le premier résultat trouvé. De même pour la méthode `.select_one()`.

Enfin, il est possible s'appliquer ces méthodes sur le résultat de ces mêmes méthodes.

```python
# Ici, je cherche, dans la première balise "p" ayant la classe "paragraphe" trouvée, tous les éléments ayant la classe "txt-gras"
soup.find("p", {"class": "paragraphe"}).select('.txt-gras')
```

In [43]:
# La méthode .select() nous donne plus de possibilités en terme de sélecteurs. 
# Ces électeurs sont identiques à ceux utilisés en javascript/CSS/jQuery.
soup.select(".paragraphe .txt-gras")

[<span class="txt-gras">
             dans le but de le transformer pour permettre son utilisation dans un autre contexte, cette
             technique peut Ãªtre trÃ¨s utile pour les data-journalistes.
         </span>,
 <span class="txt-gras">trÃ¨s</span>]

Maintenant à vous de jouer. Scrapez le site pour récupérer les données suivantes :
- La valeur de l'attribut "src" des balises img contenue dans les articles
  - select : .select("[attr='attr_name']")
  - find : .select(attrs={"attr_name"})
- Le texte des entrées de la navigation
- Le texte contenu dans le classe "txt-gras"

Ces données doivent être placée dans des variables. Pour le premier cas, il faudra utiliser un tableau pour ajouter progressivement les données.

- [Voir documentation sur les tableaux en Python - anglais](https://www.w3schools.com/python/python_arrays.asp)

Dernier point : pour récuperer la valeur d'un attribut, il faut récupérer l'objet HTML et mettre entre crochets le nom de l'attribut dont on souhaite récupérer la valeur. Exemple : 
```soup.find("img")["src"]
```
**BeautifulSoup lèvera une erreur si vous écrivez entre les crochets un attribut qui n'existe pas.**

In [None]:
## Faites la pratique ici.

Super, on sait maintenant récupérer des données et les stocker, mais il nous manque quelque chose. Rappelons-nous un des objectifs du web-scraping "Transformer des données de sites web en données structurées". Jusqu'à présent, nous avons extrait des données mais nous ne les avons pas structurées. Autrement dit, nous ne pouvons pas faire grand-chose de nos extractions jusqu'à présent. Changeons ça.

Pour structurer nos données, il faut que nos données soient sous la forme d'un structure ordonnées, il y a un modèle de données tout trouvé : le tableau de dictionnaires. Une fois transformé, ça ressemble à un fichier fait sous un tableur avec des colonnes prédéfinies.

Pour rappel, un dictionnaire (appelé aussi "tableau associatif" ou "objet") est une structure où les index ne sont plus des nombres mais une chaîne de caractères. C'est à dire qu'un dictionnaire est un ensemble de clé:valeur, ça ressemble à ceci :
```
un_dictionnaire = {
  "marque": "Dell",
  "modele": "XPS",
  "annee": 2014
}
```

- [Voir documentation sur les dictionnaires en Python - anglais](https://www.w3schools.com/python/python_dictionaries.asp)

Et ces dictionnaires, nous pouvons les mettre dans un tableau et donc réaliser un tableau de dictionnaires soit notre donnée structurée. Essayons de créer un tableau de dictionnaires avec la liste d'articles (".article") présente sur notre fichier index.html. Nos dictionnaires doivent contenir les clés suivantes 
- auteur : auteur de l'article
- image : source de l'image
- title : titre de l'article
- date : date de l'article

Encore une fois, il faudra stocker le tout dans une variable. N'oubliez pas qu'on veut un tableau, il faudra impérativement faire une boucle.

In [None]:
## Faites la pratique ici.

On a notre donnée structurée, il nous manque une chose : un fichier exploitable et utilisable ailleurs sans faire toute ces commandes. Et on va réutiliser pandas pour ça. Première étape : l'importation.

In [None]:
import pandas as pd

On a importé pandas, avant de créer un fichier csv, il nous faut un DataFrame sinon, ça ne fonctionnera pas pour créer un fichier. Pour créer un DataFrame, il nous suffit juste de placer notre dictionnaire dans la méthode ".DataFrame()" de pandas et ensuite sauvegarder le tout grâce à la méthode ".to_csv()".

Complétez le code suivant.

In [None]:
df = pd.DataFrame({votre tableau de dictionnaire})

df.to_csv("chemin-de-votre-fichier.csv")
# df.to_excel() pour créer un fichier excel
# df.to_json() pour créer un fichier json

Voilà, nous savons maintenant faire du scraper un site web et stocker les résultats dans un fichier, fichier qui pourra être utilisé plus tard pour faire de l'analyse, des modèles de données ou encore de la data-visualisation.

Prochaine étape : la même chose mais sur le web, des sites distants. La suite se trouve dans le fichier request.ipynb.

Avant de clôre cet exercice, sachez juste que si BeautifulSoup ne fonctionne pas, ne retourne pas ce que vous souhaitez, ceci signifie que les données sont asynchrones ou encore que le site nécessite du javascript pour fonctionner. Pour pallier à ce problème, il faudra utiliser en complément l'outil Selenium, il nous permettra de simuler un navigateur.

# Pour les utilisateurs de Google colab

Petit apparté pour les utilisateurs de google colab. Pour utiliser la méthode `to_csv()` (ou autre), il faudra rajouter quelques lignes de codes supplémentaires pour pouvoir **télécharger** un fichier, les voici.

```python
from google.colab import files
nom_fichier = "chemin-de-votre-fichier.csv" # Le même que définit plus haut
files.download(nom_fichier) 
```

- [Voir plus d'informations sur l'enregistrement de fichiers depuis google colab](https://colab.research.google.com/notebooks/io.ipynb#scrollTo=hauvGV4hV-Mh&line=4&uniqifier=1)