# La collecte automatique de données sur le Web

Avant de commencer à nous attaquer à de belles pages web (html), nous allons decouvrir le langage xml qui est une bonne introduction au data web scraping

### Le XML

Le XML a été créé pour faciliter les échanges de données entre les machines et les logiciels.

Le XML est un langage qui s'écrit à l'aide de balises.

Le XML est une recommandation du W3C, il s'agit donc d'une technologie avec des règles strictes à respecter.

Le XML se veut compréhensible par tous : les hommes comme les machines.

Le XML nous permet de créer notre propre vocabulaire grâce à un ensemble de règles et de balises personnalisables.

Le XML se veut également compatible avec le web afin que les échanges de données puissent se faire facilement à travers le réseau Internet.

Le XML se veut donc standardisé, simple, mais surtout extensible et configurable afin que n'importe quel type de données puisse être décrit.

Voici un exemple de document XML, que nous avons enregistré sous le nom de data.xml dans le repertoire data

Affichez son contenu

In [1]:
fichier = open("data/data.xml", "r")
print (fichier.read())
fichier.close()

<?xml version="1.0" encoding="UTF-8"?>
<users>
    <user data-id="101">
        <nom>Zorro</nom>
        <metier>Danseur</metier>
    </user>
    <user data-id="102">
        <nom>Hulk</nom>
        <metier>Footballeur</metier>
    </user>
    <user data-id="103">
        <nom>Zidane</nom>
        <metier>Star</metier>
    </user>
    <user data-id="104">
        <nom>Beans</nom>
        <metier>Epicier</metier>
    </user>
    <user data-id="105">
        <nom>Batman</nom>
        <metier>Veterinaire</metier>
    </user>
    <user data-id="106">
        <nom>Spiderman</nom>
        <metier>Veterinaire</metier>
    </user>
</users>



La première ligne indique l' encodage , on reste toujours dans l' encodage UTF-8 . Ensuite on remarque que la balise "users" possède d'autres balises "user" qui elles même possèdent leurs propres balises. Les données sont hiérarchisées dans un arbre et chaque noeud apporte une information.

Voici un petit script qui affiche tous les noms des user .

In [2]:
from lxml import etree
# Je definis mon document source
tree = etree.parse("data/data.xml")
# je regarde mon document et j'identifie le chemin de balise pour arriver à l'information "user"
# En effet, l'information se trouve dans une balise nom elle meme presente dans une balise user
# elle meme presente dans une balise users. Cette derniere balise se trouvant à la racine du repertoire
# donc dans tree.xpath("/users/user/nom") il y a les balises associées à notre recherche
for user in tree.xpath("/users/user/metier"):
    # Je souhaite afficher uniquement le contenu (.text) de ces balises /users/user/nom
    print(user.text)

Danseur
Footballeur
Star
Epicier
Veterinaire
Veterinaire


In [14]:
tree.xpath("/users/user/nom")[4].text

'Batman'

In [16]:
#Vous pouvez afficher les attributs des balises qui stocke ces informations
tree = etree.parse("data/data.xml")
for user in tree.xpath("/users/user"):
    print(user.get("data-id"))

101
102
103
104
105
106


Vous pouvez affiner l'affichage en proposant de n'afficher que les user dont le métier est Veterinaire 

In [None]:
tree = etree.parse("data/data.xml")
# Quel joli petit dictionnaire
for user in tree.xpath("/users/user[metier='Veterinaire']/nom"):
    print(user.text)

# Data web scrapping

Nous avons vu précédemment comment parser du XML , il est également possible de parser du HTML et l'outil qui fait le mieux le job selon moi c'est le librairy BeautifulSoup

Enregistrer une page web (par exemple lequipe.fr) que vous aimez bien dans le repertoire data, et afficher son contenu (le fichier xxx.html)

Mettez le contenu de cette page dans une variable, par exemple html_doc

In [1]:
fichier = open("data/L'ÉQUIPE - L'actualité du sport en continu..html", "r")
#print(fichier.read())
html_doc=fichier.read()
fichier.close()
html_doc

'<!DOCTYPE html>\n<!-- saved from url=(0023)https://www.lequipe.fr/ -->\n<html tpl="v7/home" class=""><head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8"><script type="text/javascript" src="./L&#39;ÉQUIPE - L&#39;actualité du sport en continu._files/get" charset="UTF-8" async=""></script><script id="wonderpush-jssdk" src="./L&#39;ÉQUIPE - L&#39;actualité du sport en continu._files/wonderpush.min.js"></script><script type="text/javascript" src="./L&#39;ÉQUIPE - L&#39;actualité du sport en continu._files/get(1)" charset="UTF-8" async=""></script><iframe src="javascript:false" style="width: 0px; height: 0px; border: 0px; display: none;" src="./L&#39;ÉQUIPE - L&#39;actualité du sport en continu._files/saved_resource.html"></iframe><script id="wonderpush-jssdk-loader" src="./L&#39;ÉQUIPE - L&#39;actualité du sport en continu._files/wonderpush-loader.min.js"></script><script src="./L&#39;ÉQUIPE - L&#39;actualité du sport en continu._files/f(7).txt"></script><script type=

In [2]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(html_doc)
# Dans mon fichier (lequipe.fr) en regardant ce script html Nous pouvons voir que le titre principal est rangé 
# dans la balise h1
for p in soup.find_all('link'):
    # Nous récupérons uniquement le contenu ==> .text
    print (p.get('href'))

https://www.lequipe.fr/
https://m.lequipe.fr/
https://www.lequipe.fr/elements/img/favicons/apple-touch-icon-57x57.png?140917
https://www.lequipe.fr/elements/img/favicons/apple-touch-icon-60x60.png?140917
https://www.lequipe.fr/elements/img/favicons/apple-touch-icon-72x72.png?140917
https://www.lequipe.fr/elements/img/favicons/apple-touch-icon-76x76.png?140917
https://www.lequipe.fr/elements/img/favicons/apple-touch-icon-114x114.png?140917
https://www.lequipe.fr/elements/img/favicons/apple-touch-icon-120x120.png?140917
https://www.lequipe.fr/elements/img/favicons/apple-touch-icon-144x144.png?140917
https://www.lequipe.fr/elements/img/favicons/apple-touch-icon-152x152.png?140917
https://www.lequipe.fr/elements/img/favicons/apple-touch-icon-180x180.png?140917
https://www.lequipe.fr/elements/img/favicons/favicon-32x32.png?140917
https://www.lequipe.fr/elements/img/favicons/android-chrome-192x192.png?140917
https://www.lequipe.fr/elements/img/favicons/favicon-96x96.png?140917
https://www.le

In [35]:
soup = BeautifulSoup(html_doc)
# Dans mon fichier (lequipe.fr) en regardant ce script html Nous pouvons voir que les sous titres sont rangés 
# dans la balise h2
for p in soup.find_all('h1'):
    print (p.text)


Avec la finale de Coupe Davis en tête



Toujours sur l'equipe.fr, pourrez vous afficher les descriptions d'articles situés sous les sousitre, s'ily en a

In [42]:
soup = BeautifulSoup(html_doc)

for p in soup.find_all('p'):
    print('####################################""')
    print (p.text.strip())

####################################""
Une grosse dizaine de joueurs français peut prétendre à la finale de la Coupe Davis (23-25 novembre). Si pour certains la sélection semble une évidence, pour les autres, le Rolex Paris Masters sera le dernier moment pour se montrer.
####################################""
Anthony Martial a encore régalé ce week-end. Pour Raphaël Varane et Benjamin Pavard, notamment, il a viré au cauchemar.
####################################""
Le carton du Barça lors du Clasico face au Real, la performance de Cristiano Ronaldo avec la Juventus, le choc Naples-Roma, la terrible série de Newcastle, etc. Avez-vous bien suivi le week-end européen ?
####################################""
Auteur de son quatrième but en trois matches de Premier League, l'attaquant français a confirmé son retour en forme.
####################################""
1€
####################################""
puis 9,99€/mois sans engagement
####################################""
offre valable du 

### Scrapping en live via une requete HTTP

HTTP est un espèce de langage qui va permettre au client (vous, par le biais de votre navigateur par exemple) de communiquer avec un serveur connecté au réseau (le serveur HTTP installé sur le serveur d'un site, par exemple Apache).

Les requêtes vont toujours par paires : la demande (du client) et la réponse (du serveur).
Si ce n'est pas le cas, c'est qu'un problème est survenu à un endroit du réseau.

La syntaxe de la demande (= requête client) est toujours la même :
- Ligne de commande (Commande, URL, Version de protocole)

Commande est la méthode à utiliser, il spécifie le type de requête, il peut avoir les valeurs :


GET
C'est la méthode la plus courante pour demander une ressource. Une requête GET est sans effet sur la ressource, il doit être possible de répéter la requête sans effet.

HEAD
Cette méthode ne demande que des informations sur la ressource, sans demander la ressource elle-même.

POST
Cette méthode doit être utilisée lorsqu'une requête modifie la ressource.

OPTIONS
Cette méthode permet d'obtenir les options de communication d'une ressource ou du serveur en général.

CONNECT
Cette méthode permet d'utiliser un proxy comme un tunnel de communication.

TRACE
Cette méthode demande au serveur de retourner ce qu'il a reçu, dans le but de tester et d'effectuer un diagnostic sur la connexion.

PUT
Cette méthode permet d'ajouter une ressource sur le serveur.

DELETE
Cette méthode permet de supprimer une ressource du serveur.

Je n'aborderai ici que les plus courantes : HEAD, GET et POST.

### Concretement

In [43]:
import requests
# L'url du site à scrapper
url='https://www.lequipe.fr/'
# J'emet ma requet HTTP avec un"GET" au serveur du site identifier dans l'url
r = requests.get(url)
# J'affiche l'url requété ainsi que le retour du serveur
print(url, r.status_code)
# Je demande à beautifulSoup de conserver dans une variable soup la page web à scrapper (url) un script html
soup = BeautifulSoup(r.content,'html')
soup

https://www.lequipe.fr/ 200


<!DOCTYPE html>
<html class="" tpl="v7/home">
<head>
<script type="text/javascript">
    var kameleoonLoadingTimeout = 1000;
    var kameleoonStartLoadTime = new Date().getTime();
    if (! document.getElementById("kameleoonLoadingStyleSheet") && ! window.kameleoonDisplayPageTimeOut){
        var kameleoonS = document.getElementsByTagName("script")[0];var kameleoonCc = "* { visibility: hidden !important; background-image: none !important; }";
        var kameleoonStn = document.createElement("style");kameleoonStn.type = "text/css";kameleoonStn.id = "kameleoonLoadingStyleSheet";
        if (kameleoonStn.styleSheet){kameleoonStn.styleSheet.cssText = kameleoonCc;}else{kameleoonStn.appendChild(document.createTextNode(kameleoonCc));}kameleoonS.parentNode.insertBefore(kameleoonStn, kameleoonS);
        window.kameleoonDisplayPage = function(){if (kameleoonStn.parentNode){kameleoonStn.parentNode.removeChild(kameleoonStn);}};
        window.kameleoonDisplayPageTimeOut = window.setTimeout(windo

Nous avons ainsi récupérer les informations du site sans les enregistrer physiquement dans un fichier, uniquement dans une variable !

Réafficher le titre principal, les sous titres des articles ainsi que leurs descriptions pour vous en persuader

In [44]:
soup = BeautifulSoup(html_doc)
# Dans mon fichier (lequipe.fr) en regardant ce script html Nous pouvons voir que les sous titres sont rangés 
# dans la balise h2
for p in soup.find_all('h1'):
    print (p.text)


Avec la finale de Coupe Davis en tête



In [46]:
soup = BeautifulSoup(html_doc)
# Dans mon fichier (lequipe.fr) en regardant ce script html Nous pouvons voir que les sous titres sont rangés 
# dans la balise h2
for p in soup.find_all('h2'):
    print (p.text.strip())

Les tops et flops des Français de l'étranger
Avez-vous bien suivi le week-end européen ?
Martial régale

Mannarino - Humbert en direct
Hadzibegic remplace Brouard
Brunel pas convaincu par les remplacements sur blessure
Une belle semaine en Bleu
Comment ils situent Hamilton
Le roi Mbappé a un nouveau dauphin
Depay, un drôle de cas
Un record pour Paris, Lille et Montpellier enchaînent
Ronaldo justifie son départ du Real
Dans les bagages de Nicolas Troussel
la chaine L’Équipe
2018, la saison noire de Tsonga
«Humbert n'arrive pas en novice»
Sock, une saison en enfer
Toulon coule, Clermont déroule
L'OL en hausse
L'équipe type du week-end
Une vie en dehors des paddocks
Le carnet de notes de Mexico
Hamilton : «C'est surréaliste»
Le cinquième titre de Hamilton en images
Le débrief du match
Mbappé : «Une grande équipe se repose sur des leaders»
Garcia : «Si un jour le VAR est mis en route...»
OM-PSG en vidéos
Gobert et Okobo se montrent encore
Golden State enchaîne, Oklahoma City gagne enfin
Le

In [47]:
soup = BeautifulSoup(html_doc)
# Dans mon fichier (lequipe.fr) en regardant ce script html Nous pouvons voir que les sous titres sont rangés 
# dans la balise h2
for p in soup.find_all('p'):
    print (p.text.strip())

Une grosse dizaine de joueurs français peut prétendre à la finale de la Coupe Davis (23-25 novembre). Si pour certains la sélection semble une évidence, pour les autres, le Rolex Paris Masters sera le dernier moment pour se montrer.
Anthony Martial a encore régalé ce week-end. Pour Raphaël Varane et Benjamin Pavard, notamment, il a viré au cauchemar.
Le carton du Barça lors du Clasico face au Real, la performance de Cristiano Ronaldo avec la Juventus, le choc Naples-Roma, la terrible série de Newcastle, etc. Avez-vous bien suivi le week-end européen ?
Auteur de son quatrième but en trois matches de Premier League, l'attaquant français a confirmé son retour en forme.
1€
puis 9,99€/mois sans engagement
offre valable du 23 au 31 octobre 2018
                    * voir conditions
Adrian mannarino, 46e mondial, entre en lice contre Ugo Humbert, bénéficiaire d'une invitation. A suivre ensuite Richard Gasquet et Nicolas Mahut. Les matches en scoring.
Après avoir annoncé la suspension de Régis