# WEB SCRAPING 

**Source** : C0DING n°10

**Ressources** : <a href="https://webge.synology.me/dokuwiki/doku.php?id=python:accueilpython" target="_blank"><input type="button" value="Wiki Python sur WebGE"></a> <a href="http://fabpedigree.com/james/mathmen.htm" target="_blank"><input type="button" value="Hundred Greatest Mathematicians of the Past"></a>

### Présentation
Le **Web scraping**, également appelé exploration de données Web ou récolte Web, est le processus de construction d'un agent qui peut extraire, analyser, télécharger et organiser automatiquement des informations utiles à partir du Web.

#### Exploration Web et Web scraping
L'exploration Web est essentiellement utilisée pour indexer les informations sur la page à l'aide de robots logiciels appelés **crawlers**. Le Web scraping est un moyen automatisé d'extraire les informations à l'aide de bots (aussi appelés **scrapers**).

![](webscraping.jpg)

#### Utilisation du Web scraping
  * Sites Web de commerce en ligne
  * Agrégateur de contenu
  * Optimisation des moteurs de recherche
  * Données pour les projets d'apprentissage automatique
  * Données pour la recherche
 
#### Composants d'un Web scraper
![](webscraper.png)

#### Fonctionnement d'un Web scraper
  * **Etape 1** : téléchargement de contenu à partir de pages Web
  * **Etape 2** : extraction, transformation et nettoyage des données
  * **Etape 3** : stockage des données
  * **Etape 4** : analyse des données

---

### Problème
Obtenir automatiquement la liste des **cent plus grands mathématiciens** de tous les temps à partir du site <a href="http://fabpedigree.com/james/mathmen.htm" target="_blank"><input type="button" value="Hundred Greatest Mathematicians of the Past"></a>.

---

### La source d'information

Le site <a href="http://fabpedigree.com/james/mathmen.htm" target="_blank"><input type="button" value="Hundred Greatest Mathematicians of the Past"></a> contient les informations que l'on souhaite récupérer.
![](mathematiciens.png)

Pour répondre au problème posé, le code ci-dessous :
  * en téléchargeant la page contenant les information,
  * en extrayant le nom des mathématiciens des balises html qui les contiennent,
  * en supprimant le texte inutile

### Modules

Le module ***requests*** permet d'envoyer des requêtes HTTP / 1.1 extrêmement facilement. ***BeautifulSoup*** est utilisé pour extraire des données de fichiers HTML et XML. ***contextlib*** fournit des utilitaires pour les tâches impliquant le mot-clé **with**.

In [None]:
from requests import get
from requests.exceptions import RequestException
from contextlib import closing
from bs4 import BeautifulSoup

### Fonctions

In [None]:
# Module 'Web crawler' - Requête GET
def simple_get(url):
    ''' Tente d'obtenir le contenu situé à 'url'
    en faisant une reqûete HTTP GET.
    Si le type de réponse est du code HTML / XML,
    renvoie le contenu textuel, sinon renvoi None'''
    try:
        # le mot clé with garantit que toutes les ressources réseau seront libérées
        with closing(get(url, stream=True)) as resp:
            if is_good_response(resp):
                return resp.content
            else:
                return None
    except RequestException as e:
        log_error(f'Erreur durant la requete {url}: {str(e)}')
        return None


def is_good_response(resp):
    ''' Renvoie True si la réponse
    semble être du HTML, False sinon'''
    content_type = resp.headers['Content-Type'].lower()
    return (resp.status_code == 200 and content_type is not None and content_type.find('html') > -1)


def log_error(e):
    print(e)

In [None]:
# Module 'Extracteur' - Extraction, transformation et nettoyage de la  liste des mathématiciens
def get_names(raw_html): 
    '''Télécharge la page où se trouve la liste des matématiciens et
    renvoie une liste de chaines, une par matématicien'''
    html = BeautifulSoup(raw_html, 'html.parser')
    names = set()  # ensemble pour éliminer les éventuels doublons
    for li in html.select('li'):
        for name in li.text.split('\n'):
            if len(name) > 0:
                names.add(name.strip())
    return list(names)

### 1. Test du module Web crawler

Le module **Web Crawler** effectue des **requêtes HTTP** pour télécharger le contenu demandé à partir d'une ou plusieurs pages Web.

In [None]:
# Web crawler
# Requête GET vers un site qui n'existe pas => doit renvoyer None
# raw_html = simple_get('https://realpython.com/blog/url_exemple') # renvoi None
# Requête GET vers une page de test sur le site WEBGE => doit renvoyer le code de la page template.html
raw_html = simple_get('http://p.mariano.free.fr/demos/serre1/template.html')
# Affiche la réponse à la requête ou None
print(raw_html)

### 2. Test de l'action des modules Web crawler et Extracteur sur le site fabpedigree.com

L'**extracteur** traite le contenu HTML récupéré et extrait les données dans un format semi structuré. Il est également appelé module d'analyse et utilise différentes techniques d'analyse comme l'expression régulière, l'analyse HTML, l'analyse DOM ou l'intelligence artificielle.

In [None]:
# Extraction de la liste "non structurée" des mathématiciens
# Web crawler
raw_html = simple_get('http://fabpedigree.com/james/mathmen.htm')
# Extracteur
html = BeautifulSoup(raw_html, 'html.parser')
for i, li in enumerate(html.select('li')):
    print(i, li.text)

 ### 3. Test de l'action des modules Web crawler, Extracteur et Transformation, Nettoyage

In [None]:
# Affiche la liste "structurée" des mathématiciens
mathematiciens= [] # Liste des mathématiciens
print('Obtention de la liste des mathématiciens')
# Appel du Web crawler simple_get()
raw_html = simple_get('http://fabpedigree.com/james/mathmen.htm')
# Si le texte renvoyé est différent de None
if raw_html != None:  # alors on récupère la liste des mathématiciens
    mathematiciens = get_names(raw_html)  # appel de l'extracteur get_names
for nom in mathematiciens:
    print(nom)