# La collecte automatique de données sur le Web

Avant de commencer à nous attaquer à de belles pages web (html), nous allons decouvrir le langage xml qui est une bonne introduction au data web scraping

### Le XML

Le XML a été créé pour faciliter les échanges de données entre les machines et les logiciels.

Le XML est un langage qui s'écrit à l'aide de balises.

Le XML est une recommandation du W3C, il s'agit donc d'une technologie avec des règles strictes à respecter.

Le XML se veut compréhensible par tous : les hommes comme les machines.

Le XML nous permet de créer notre propre vocabulaire grâce à un ensemble de règles et de balises personnalisables.

Le XML se veut également compatible avec le web afin que les échanges de données puissent se faire facilement à travers le réseau Internet.

Le XML se veut donc standardisé, simple, mais surtout extensible et configurable afin que n'importe quel type de données puisse être décrit.

Voici un exemple de document XML, que nous avons enregistré sous le nom de data.xml dans le repertoire data

Affichez son contenu

In [7]:
fichier = open("data.xml", "r")
print (fichier.read())
fichier.close()

<?xml version="1.0" encoding="UTF-8"?>
<users>
    <user data-id="101">
        <nom>Zorro</nom>
        <metier>Danseur</metier>
    </user>
    <user data-id="102">
        <nom>Hulk</nom>
        <metier>Footballeur</metier>
    </user>
    <user data-id="103">
        <nom>Zidane</nom>
        <metier>Star</metier>
    </user>
    <user data-id="104">
        <nom>Beans</nom>
        <metier>Epicier</metier>
    </user>
    <user data-id="105">
        <nom>Batman</nom>
        <metier>Veterinaire</metier>
    </user>
    <user data-id="106">
        <nom>Spiderman</nom>
        <metier>Veterinaire</metier>
    </user>
</users>



La première ligne indique l' encodage , on reste toujours dans l' encodage UTF-8 . Ensuite on remarque que la balise "users" possède d'autres balises "user" qui elles même possèdent leurs propres balises. Les données sont hiérarchisées dans un arbre et chaque noeud apporte une information.

Voici un petit script qui affiche tous les noms des user .

In [8]:
from lxml import etree
# Je definis mon document source
tree = etree.parse("data.xml")
# je regarde mon document et j'identifie le chemin de balise pour arriver à l'information "user"
# En effet, l'information se trouve dans une balise nom elle meme presente dans une balise user
# elle meme presente dans une balise users. Cette derniere balise se trouvant à la racine du repertoire
# donc dans tree.xpath("/users/user/nom") il y a les balises associées à notre recherche
for user in tree.xpath("/users/user/metier"):
    # Je souhaite afficher uniquement le contenu (.text) de ces balises /users/user/metier
    print(user.text)

Danseur
Footballeur
Star
Epicier
Veterinaire
Veterinaire


In [14]:
tree.xpath("/users/user/nom")[4].text

'Batman'

In [15]:
#Vous pouvez afficher les attributs des balises qui stocke ces informations
tree = etree.parse("data.xml")
for user in tree.xpath("/users/user"):
    print(user.get("data-id"))

101
102
103
104
105
106


Vous pouvez affiner l'affichage en proposant de n'afficher que les user dont le métier est Veterinaire 

In [17]:
tree = etree.parse("data.xml")
# Quel joli petit dictionnaire
for user in tree.xpath("/users/user[metier='Veterinaire']/nom"):
    print(user.text)

Batman
Spiderman


# Data web scrapping

Nous avons vu précédemment comment parser du XML , il est également possible de parser du HTML et l'outil qui fait le mieux le job selon moi c'est le librairy BeautifulSoup

Enregistrer une page web (par exemple lequipe.fr) que vous aimez bien dans le repertoire data, et afficher son contenu (le fichier xxx.html)

Mettez le contenu de cette page dans une variable, par exemple html_doc

In [2]:
html_doc = open("l_equipe_l_actualite_du_sport_en_continu.html", "r")

### Recuperer les titres des news

In [3]:
from bs4 import BeautifulSoup

#html_doc = open("l_equipe_l_actualite_du_sport_en_continu.html", "r")
soup = BeautifulSoup(html_doc)
# Dans mon fichier (lequipe.fr) en regardant ce script html Nous pouvons voir que le titre principal est rangé 
# dans la balise h1
for p in soup.find_all('link'):
    # Nous récupérons uniquement le contenu ==> .text
    print (p.get("href"))

https://www.lequipe.fr/
https://xe2jlmuyam.kameleoon.eu/kameleoon.js
https://www.lequipe.fr/
https://m.lequipe.fr/
http://www.lequipe.fr/elements/img/favicons/apple-touch-icon-57x57.png?140917
http://www.lequipe.fr/elements/img/favicons/apple-touch-icon-60x60.png?140917
http://www.lequipe.fr/elements/img/favicons/apple-touch-icon-72x72.png?140917
http://www.lequipe.fr/elements/img/favicons/apple-touch-icon-76x76.png?140917
http://www.lequipe.fr/elements/img/favicons/apple-touch-icon-114x114.png?140917
http://www.lequipe.fr/elements/img/favicons/apple-touch-icon-120x120.png?140917
http://www.lequipe.fr/elements/img/favicons/apple-touch-icon-144x144.png?140917
http://www.lequipe.fr/elements/img/favicons/apple-touch-icon-152x152.png?140917
http://www.lequipe.fr/elements/img/favicons/apple-touch-icon-180x180.png?140917
http://www.lequipe.fr/elements/img/favicons/favicon-32x32.png?140917
http://www.lequipe.fr/elements/img/favicons/android-chrome-192x192.png?140917
http://www.lequipe.fr/elem

Toujours sur l'equipe.fr, pourrez vous afficher les descriptions d'articles situés sous les sousitre, s'ily en a

In [52]:
#html_doc = open("l_equipe_l_actualite_du_sport_en_continu.html", "r")

for p in soup.find_all('p', attrs={"class" : "home__colead__details"}):
    print (p.text)


    Avec deux cols et une arrivée à 2247 m d'altitude, l'étape reliant Pignerol à Ceresole Reale (196 km) devrait permettre aux grimpeurs de se montrer. A suivre en direct.


    Le premier col du Giro a montré que Primoz Roglic devra se débrouiller seul jusqu'à Vérone : collectivement, ses rivaux sont mieux armés.


    Les clubs ont changé d'entraîneur à huit reprises cette saison en Ligue 1. Certains, comme Monaco et Bordeaux, ont même limogé deux techniciens. Pas un record mais une hausse significative.


    Sans club depuis sa dernière expérience au Shanghai SIPG (Chine), l'entraîneur portugais André Villas-Boas, n'a pas caché son intérêt pour le projet marseillais.


    Les arrivées en cours de saison d'Antoine Kombouaré à Dijon et de Rolland Courbis à Caen devaient permettre aux deux clubs d'éviter la relégation. Mais ils ne sont pas sauvés avant la dernière journée.


    Le classement de la saison tient pour 25 % dans le calcul de la répartition des droits audiovisuels dome

### Scrapping en live via une requete HTTP

HTTP est un espèce de langage qui va permettre au client (vous, par le biais de votre navigateur par exemple) de communiquer avec un serveur connecté au réseau (le serveur HTTP installé sur le serveur d'un site, par exemple Apache).

Les requêtes vont toujours par paires : la demande (du client) et la réponse (du serveur).
Si ce n'est pas le cas, c'est qu'un problème est survenu à un endroit du réseau.

La syntaxe de la demande (= requête client) est toujours la même :
- Ligne de commande (Commande, URL, Version de protocole)

Commande est la méthode à utiliser, il spécifie le type de requête, il peut avoir les valeurs :


GET
C'est la méthode la plus courante pour demander une ressource. Une requête GET est sans effet sur la ressource, il doit être possible de répéter la requête sans effet.

HEAD
Cette méthode ne demande que des informations sur la ressource, sans demander la ressource elle-même.

POST
Cette méthode doit être utilisée lorsqu'une requête modifie la ressource.

OPTIONS
Cette méthode permet d'obtenir les options de communication d'une ressource ou du serveur en général.

CONNECT
Cette méthode permet d'utiliser un proxy comme un tunnel de communication.

TRACE
Cette méthode demande au serveur de retourner ce qu'il a reçu, dans le but de tester et d'effectuer un diagnostic sur la connexion.

PUT
Cette méthode permet d'ajouter une ressource sur le serveur.

DELETE
Cette méthode permet de supprimer une ressource du serveur.

Je n'aborderai ici que les plus courantes : HEAD, GET et POST.

### Concretement

In [4]:
import requests
# L'url du site à scrapper
url='https://www.lequipe.fr/'
# J'emet ma requet HTTP avec un"GET" au serveur du site identifier dans l'url
r = requests.get(url)
# J'affiche l'url requété ainsi que le retour du serveur
print(url, r.status_code)
# Je demande à beautifulSoup de conserver dans une variable soup la page web à scrapper (url) un script html
soup = BeautifulSoup(r.content,'html')
soup

https://www.lequipe.fr/ 200


<!DOCTYPE html>
<html class="" tpl="v7/home">
<head>
<!-- IDS : 3 -->
<!-- TYPEPAGE : home_rub -->
<!-- TAG_EDITO_LIB : general -->
<!-- www.lequipe.fr -->
<script type="text/javascript">

				codeweb = 'WTF';
				idtag = '1';
				sas_pageid='2368/17155';
																																																																																

				xtn2 = "23"; /* (General) */
				xtpage = "General::home";

				</script>
<script>
                var xtpage = 'General::home';
            </script>
<meta content="300" http-equiv="refresh"/>
<script>
                    sas_formatids = "2077,2078,2163,630,12340,632,1075,1446,651,646,17532";
                </script>
<script>
                    var at_typePage = "home";
                </script>
<script>
    var urlBetaLequipe = 'beta.lequipe.fr';
    var currentUrl = document.location.href;
    if (document.cookie.indexOf('betatester') > -1 && (currentUrl.indexOf("www.lequipe") > -1 || currentUrl.indexOf("abonnes.lequipe") > -1)) {
        docume

Nous avons ainsi récupérer les informations du site sans les enregistrer physiquement dans un fichier, uniquement dans une variable !

Réafficher le titre principal, les sous titres des articles ainsi que leurs descriptions pour vous en persuader

In [5]:
for p in soup.find_all('h1'):
    print (p.text)


Federer, le grand retour



In [6]:
for p in soup.find_all('h2', attrs={"class" : "home__colead__title"}):
    print (p.text)


    
            Qui peut contrarier Mercedes ?
    


    
            Brest choisit finalement Dall'Oglio
    


    
            Mahut, ça se complique
    


    
            Tous les matches en direct
    


    
            C'est déjà fini pour Kerber
    


    
            Auger-Aliassime déclare forfait
    


    
            Tsitsipas sans souci
    


    
            Humbert n'a pas tenu
    



    
            Le Top 14 pour Brive ou Bayonne ?
    


    
            Cattaneo et Cataldo ont pris le large
    


    
            Des feuilles mortes au printemps
    

l'actu Giro en vidéos

    
            Coup double pour Pinot
    


    
            Les 500 Miles, une course à étapes
    


    
            Tuchel et Mbappé : l'amour vache...
    


    
            ...Neymar, la première fêlure
    


    
            Villas-Boas, le choix de «Zubi»
    


    
            Juninho présenté mardi
    


    
            Face au ballon - le rugby
    


    
          

In [7]:
for p in soup.find_all('p', attrs={"class" : "home__colead__details"}):
    print (p.text)




    Le Stade Brestois, de retour en L1, sera entraîné par Olivier Dall'Oglio la saison prochaine même si, ces derniers jours, Christophe Pelissier semblait tenir la corde.






    Retrouvez ici toutes les informations du jour.


    Touché aux adducteurs, le Canadien Félix Auger-Aliassime a déclaré forfait pour Roland-Garros.


    Pas de problème pour Stefanos Tsitsipas. Le Grec, tête de série n° 6, est facilement venu à bout de Maximilian Marterer (6-2, 6-2, 7-6 [4]). Il est au deuxième tour de Roland-Garros.


    Pour sa première apparition dans le tableau principal à Roland-Garros, le Français Ugo Humbert s'est incliné en quatre sets face à Alexei Popyrin.


    Des Brivistes costauds, plus lourds, face à des Bayonnais plus vifs et insouciants ? Opposition de style dans une finale de Pro D2 à suivre en direct commenté.


    C'est parti pour la plus longue étape de l'édition 2019 du Giro dont l'arrivée, au terme des 232 km de course, sera jugée sur les rives du lac de Côme. A