# WEB SCRAPING - DEMONSTRATION (en cours de rédaction)

**Source** : C0DING n°10

**Ressources** : <a href="https://webge.synology.me/dokuwiki/doku.php?id=python:accueilpython" target="_blank"><input type="button" value="Wiki Python sur WebGE"></a> <a href="http://fabpedigree.com/james/mathmen.htm" target="_blank"><input type="button" value="Hundred Greatest Mathematicians of the Past"></a>

### Présentation
Le **Web scraping**, également appelé exploration de données Web ou récolte Web, est le processus de construction d'un agent qui peut extraire, analyser, télécharger et organiser automatiquement des informations utiles à partir du Web.

#### Exploration Web et Web scraping
L'exploration Web est essentiellement utilisée pour indexer les informations sur la page à l'aide de robots logiciels appelés **crawlers**. Le Web scraping est un moyen automatisé d'extraire les informations à l'aide de bots (aussi appelés **scrapers**).

![](webscraping.jpg)

#### Utilisation du Web scraping
  * Sites Web de commerce en ligne
  * Agrégateur de contenu
  * Optimisation des moteurs de recherche
  * Données pour les projets d'apprentissage automatique
  * Données pour la recherche
 
#### Composants d'un Web scraper
![](webscraper.png)

#### Fonctionnement d'un Web scraper
  * **Etape 1** : téléchargement de contenu à partir de pages Web
  * **Etape 2** : extraction, transformation et nettoyage des données
  * **Etape 3** : stockage des données
  * **Etape 4** : analyse des données

---

### Problème
Obtenir automatiquement la liste des **cent plus grands mathématiciens** de tous les temps à partir du site <a href="http://fabpedigree.com/james/mathmen.htm" target="_blank"><input type="button" value="Hundred Greatest Mathematicians of the Past"></a>.

---

### La source des données

Le site <a href="http://fabpedigree.com/james/mathmen.htm" target="_blank"><input type="button" value="Hundred Greatest Mathematicians of the Past"></a> contient les données que l'on souhaite récupérer.
![](mathematiciens.png)

On répond au problème posé avec le code ci-dessous :
  * en téléchargeant la page contenant les données,
  * en extrayant les données liées aux mathématiciens des balises HTML qui les contiennent,
  * en sélectionnant le nom des mathématiciens

### Modules

Le module ***requests*** permet d'envoyer des requêtes HTTP / 1.1 extrêmement facilement. ***BeautifulSoup*** est utilisé pour extraire des données de fichiers HTML et XML. Le module ***contextlib*** fournit des utilitaires pour les tâches impliquant le mot-clé **with**.

In [1]:
from requests import get
from requests.exceptions import RequestException
from contextlib import closing
from bs4 import BeautifulSoup

### Fonctions

In [2]:
# Module 'Web crawler' - Requête GET
def simple_get(url):
    ''' Tente d'obtenir le contenu situé à 'url'
    en faisant une requête HTTP GET.
    Si le type de réponse est du code HTML / XML,
    renvoie le contenu textuel, sinon renvoi None'''
    try:
        # le mot-clé with garantit que toutes les ressources du réseau seront libérées
        with closing(get(url, stream=True)) as resp:
            if is_good_response(resp):
                return resp.content
            else:
                return None
    except RequestException as e:
        log_error(f'Erreur durant la requête {url}: {str(e)}')
        return None


def is_good_response(resp):
    ''' Renvoie True si la réponse
    semble être du HTML, False sinon'''
    content_type = resp.headers['Content-Type'].lower()
    return (resp.status_code == 200 and content_type is not None and content_type.find('html') > -1)


def log_error(e):
    print(e)

In [3]:
# Module 'Extracteur' - Extraction, transformation et nettoyage de la  liste des mathématiciens
def get_names(raw_html): 
    '''Télécharge la page où se trouve la liste des mathématiciens et
    renvoie une liste de chaines, une par mathématicien'''
    html = BeautifulSoup(raw_html, 'html.parser')
    names = set()  # ensemble pour éliminer les éventuels doublons
    for li in html.select('li'):
        for name in li.text.split('\n'):
            if len(name) > 0:
                names.add(name.strip())
    return list(names)

### 1. Test du module Web crawler

Le module **Web Crawler** effectue des **requêtes HTTP** pour télécharger le contenu demandé à partir d'une ou plusieurs pages Web.

In [4]:
# Web crawler
# Requête GET vers un site qui n'existe pas => doit renvoyer None
# raw_html = simple_get('https://realpython.com/blog/url_exemple') # renvoie None
# Requête GET vers une page de test sur le site WEBGE => doit renvoyer le code de la page template.html
raw_html = simple_get('http://p.mariano.free.fr/demos/serre1/template.html')
# Affiche la réponse à la requête ou None
print(raw_html)

b'<!DOCTYPE html>\n<html>\n\n<head>\n    <meta charset="UTF-8">\n    <link rel="stylesheet" href="styles/style.css">\n\t<link rel="stylesheet" href="scripts/jQuery/jqwidgets-ver7.1.0/styles/jqx.base.css" type="text/css" />\n\t<script type="text/javascript" src="scripts/jQuery/jquery-1.11.1.min.js"></script>\n\t<script type="text/javascript" src="scripts/jQuery/jqwidgets-ver7.1.0/jqxcore.js"></script>\n\t<script type="text/javascript" src="scripts/jQuery/jqwidgets-ver7.1.0/jqxchart.js"></script>\n\t<script type="text/javascript" src="scripts/jQuery/jqwidgets-ver7.1.0/jqxgauge.js"></script>\n\t<script type="text/javascript" src="scripts/jQuery/jqwidgets-ver7.1.0/jqxbuttons.js"></script>\n    <title>template Serre1</title>\n</head>\n\n<body>\n    <div id="page">\n        <div id="logo">\n            <a href="index.html"><img src="images/serre1.png" width="135" height="135"></a>\n        </div>\n        <div id="banner">\n            <div class="dropdown">\n                <button class="b

### 2. Test de l'action des modules Web crawler et Extracteur sur le site fabpedigree.com

L'**extracteur** traite le contenu HTML récupéré et extrait les données dans un format semi-structuré. Il est également appelé module d'analyse et utilise différentes techniques comme les expressions régulières, l'analyse HTML, l'analyse DOM ou l'intelligence artificielle.

In [5]:
# Extraction de la liste "non structurée" des mathématiciens
# Web crawler
raw_html = simple_get('http://fabpedigree.com/james/mathmen.htm')
# Extracteur
html = BeautifulSoup(raw_html, 'html.parser')
for i, li in enumerate(html.select('li')):
    print(i, li.text)

0  Isaac Newton
 Archimedes
 Carl F. Gauss
 Leonhard Euler
 Bernhard Riemann

1  Archimedes
 Carl F. Gauss
 Leonhard Euler
 Bernhard Riemann

2  Carl F. Gauss
 Leonhard Euler
 Bernhard Riemann

3  Leonhard Euler
 Bernhard Riemann

4  Bernhard Riemann

5  Henri Poincaré
 Joseph-Louis Lagrange
 Euclid  of Alexandria
 David Hilbert
 Gottfried W. Leibniz

6  Joseph-Louis Lagrange
 Euclid  of Alexandria
 David Hilbert
 Gottfried W. Leibniz

7  Euclid  of Alexandria
 David Hilbert
 Gottfried W. Leibniz

8  David Hilbert
 Gottfried W. Leibniz

9  Gottfried W. Leibniz

10  Alexandre Grothendieck
 Pierre de Fermat
 Évariste Galois
 John von Neumann
 René Descartes

11  Pierre de Fermat
 Évariste Galois
 John von Neumann
 René Descartes

12  Évariste Galois
 John von Neumann
 René Descartes

13  John von Neumann
 René Descartes

14  René Descartes

15  Karl W. T. Weierstrass
 Srinivasa Ramanujan
 Hermann K. H. Weyl
 Peter G. L. Dirichlet
 Niels Abel

16  Srinivasa Ramanujan
 Hermann K. H. Weyl
 

 ### 3. Test de l'action des modules Web crawler, Extracteur et Transformation, Nettoyage

In [None]:
# Affiche la liste "structurée" des mathématiciens
mathematiciens= [] # Liste des mathématiciens
print('Obtention de la liste des mathématiciens')
# Appel du Web crawler simple_get()
raw_html = simple_get('http://fabpedigree.com/james/mathmen.htm')
# Si le texte renvoyé est différent de None
if raw_html != None:  # alors on récupère la liste des mathématiciens
    mathematiciens = get_names(raw_html)  # Appel de l'extracteur get_names
for nom in mathematiciens:
    print(nom)