# 03. Mon premier scraper

Dans ce cours: 
- L'architecture client/serveur
- Récupérer le contenu d'une page avec request
- Parser une page HTML avec BeautifulSoup
- Exporter le résultat au format CSV

In [None]:
# Python permet d'importer des modules.
# Les modules sont souvent des librairies contenant en tas de fonctions utiles 
# pour diverses tâches (analyse de données, visualisations... et scraping)

# Requests est l'une des librairies utilisées pour faire des requêtes HTTP
# Documentation: http://docs.python-requests.org/en/master/user/quickstart/
import requests


In [None]:
# L'URL à extraire
url = "https://www.leboncoin.fr/materiel_agricole/"

# la variable r est un objet de type "requests". 
# Un objet est un type de variable nouveau, qui a des méthodes et des propriétés
r = requests.get(url)

# "text" est par exemple une propriété des objets "requests"
# "status_code" en est une autre.
print(r.status_code)

In [None]:
print(r.text)

# Découverte du HTML

In [None]:
# BeautifulSoup est une librairie qui permet de "parser" le HTML
# Parser = "faire l'analyse gramaticale de" en anglais, même racine que "part"

from bs4 import BeautifulSoup

In [None]:
# Comme on a créé un objet de type "requests" tout à l'heure,
# on créer un objet de type "BeautifulSoup".
# Pour créer cet objet, on l'initialise avec deux paramètres: une chaîne de caractère et le type de HTML à parser.

soup = BeautifulSoup(r.text, 'html.parser')

In [None]:
# Les Soup ont des méthodes très pratique. Par exemple: find_all
# find_all prend un paramètre: le type de balise HTML que l'on cherche
# et il nous retourne une liste contenant tous ces éléments

soup.find_all("li")

In [None]:
# Il faut maintenant trouver un moyen d'extraire uniquement les éléments qui nous intéressent.

# Pour les matériels agricoles, on remarque que chaque annonce est un élément <a> avec la classe "list_item"

# Pour sélectionner uniquement les élements ayant une certaine classe, on fait:

soup.find_all("a", {"class": "list_item"})

In [None]:
# Au sein de chaque élément, essayons maintenant d'extraire le titre de l'annonce

annonces = soup.find_all("a", {"class": "list_item"})

# Une boucle qui passe en revue toutes les annonces
for annonce in annonces:
    # La variable "annonce" est aussi une Soup! On peut utiliser les mêmes méthodes que sur la Soup parente.
    # Lorsque l'on sait que l'on cherche un seul élément, on utilise find au lieu de find_all
    print (annonce.find("h2"))

In [None]:
for annonce in annonces:
    # La propriété text retourne uniquement le texte contenu à l'intérieur d'un élément HTML
    print (annonce.find("h2").text)

In [None]:
for annonce in annonces:
    # La méthode strip() permet de supprimer les espaces en début et fin d'une chaîne de caractères
    print (annonce.find("h2").text.strip())

In [None]:
# Petit débug: Pourquoi avons-nous ces messages d'erreur?



# ???

In [None]:
# Une solution possible:

annonces = soup.find("section", {"class": "tabsContent"}).find_all("a", {"class": "list_item"})
for annonce in annonces:
    print (annonce.find("h2").text.strip())

In [None]:
# On utilise depuis quelques temps le _chaînage_ des méthodes
# On pourrait écrire la même chose avec des variables intermédiaires

section_principale = soup.find("section", {"class": "tabsContent"})
annonces = section_principale.find_all("a", {"class": "list_item"})


for annonce in annonces:
    titre_de_lannonce_HTML = annonce.find("h2")
    titre_de_lannonce_texte = titre_de_lannonce_HTML.text
    titre_de_lannonce_texte_propre = titre_de_lannonce_texte.strip()
    print (titre_de_lannonce_texte_propre)

In [None]:
# Exercice: Parser du HTML
# Extrayez maintenant le prix de chaque annonce

for annonce in annonces:
    titre = annonce.find("h2").text.strip()
    prix = ???
    print (titre, prix)

In [None]:
# On peut aussi sélectionner les élément HTML via leurs autres propriétés

for annonce in annonces:
    titre = annonce.find("h2").text.strip()
    lieu = annonce.find("p", {"itemtype": "http://schema.org/Place"}).text.strip()
    print (titre, lieu)

In [None]:
# C'est le moment de voir une nouvelle méthode des chaînes de caractères: split()
# Split retourne une liste des chaînes de caractères présentes de chaque côté du séparateur

for annonce in annonces:
    titre = annonce.find("h2").text.strip()
    lieu = annonce.find("p", {"itemtype": "http://schema.org/Place"}).text.strip()
    print (lieu.split("/"))

In [None]:
for annonce in annonces:
    titre = annonce.find("h2").text.strip()
    lieu = annonce.find("p", {"itemtype": "http://schema.org/Place"}).text.strip()
    commune = lieu.split("/")[0].strip()
    département = lieu.split("/")[1].strip()
    print (titre, commune, département)

In [None]:
# Sauvegardons maintenant le tout dans un fichier CSV

# On créé une liste vide contenant les données à enregistrer

data = []

for annonce in annonces:
    titre = annonce.find("h2").text.strip()
    lieu = annonce.find("p", {"itemtype": "http://schema.org/Place"}).text.strip()
    commune = lieu.split("/")[0].strip()
    département = lieu.split("/")[1].strip()
    
    # On créé un dictionnaire contenant les données de chaque annonce
    item = {"titre": titre, "commune": commune, "département": département}
    
    # On utilise la méthode "append" pour rajouter notre dict à la liste
    data.append(item)
    
# On importe maintenant le module CSV

import csv

keys = data[0].keys()
with open('data_agricole.csv', 'w') as output_file:
    dict_writer = csv.DictWriter(output_file, keys)
    dict_writer.writeheader()
    dict_writer.writerows(data)

In [None]:
# Exercice: 
# Dans un nouveau notebook, scraper, parser et enregistrer les offres de la catégorie "Informatique"