# Web-Scraping

Sous ce nom se cache une pratique très utile pour toute personne souhaitant travailler sur des informations disponibles en ligne, mais n'existant pas forcément sous la forme d'un tableau Excel... Bref, il s'agit de récupérer des informations depuis Internet.

Le webscraping est une technique d'extraction du contenu des sites internet, via un programme informatique : nous allons aujourd'hui vous présenter comme créer et exécuter ces robots afin de recupérer rapidement des informations utiles à vos projets actuels ou futurs.

## Un détour par le Web : comment fonctionne un site ?

Même si nous n'allons pas aujourd'hui faire un cours de web, il vous faut néanmoins certaines bases pour comprendre comment un site internet fonctionne et comment sont structurées les informations sur une page.




Un site Web est un ensemble de pages codées en HTML qui permet de décrire à la fois le contenu et la forme d'une page Web.

###  HTML 


### Les balises


Sur une page web, vous trouverez toujours à coup sûr des éléments comme < head>, < title>, etc. Il  s'agit des codes qui vous permettent de structurer le contenu d'une page HTML et qui s'appellent des balises. 

Citons, par exemple, les balises < p>, < h1>, < h2>, < h3>, < strong> ou < em>.

Le symbole < > est une balise : il sert à indiquer le début d'une partie. Le symbole <\ > indique la fin de cette partie.

La plupart des balises vont par paires, avec une «balise ouvrante» et une «balise fermante». (par exemple < p> et < /p>).

#### Exemple : les balise des tableaux

$$
\begin{array}{rr} \hline
Balise  & \text{Description} \\ \hline
< table> & \text{Tableau} \\
< caption>& \text{Titre du tableau} \\
< tr> & \text{Ligne de tableau} \\
< th> & \text{Cellule d'en-tête}\\
< td> & \text{Cellule} \\
< thead> & \text{Section de l'en-tête du tableau} \\
< tbody> & \text{Section du corps du tableau} \\
< tfoot> & \text{Section du pied du tableau} \\
\end{array}
$$

##### Application : un tableau en HTML

Le code HTML du tableau suivant

Donnera dans le navigateur

|     Prénom |      Mike |   Mister |
|------------|-----------|----------|
|        Nom | Stuntman  |     Pink |
| Profession | Cascadeur | Gangster |


#### Parent et enfant

Dans le cadre du langage HTML, les termes de parents (parent) et enfants (child) servent à désigner des élements emboîtés les uns dans les autres.

Dans la construction suivante, par exemple :

On dira que l'élément < div> est le parent de l'élément < p> tandis que l'élément < p> est l'enfant de l'élément < div>.

----------

Mais pourquoi apprendre ça pour scraper me direz-vous ?

Pour bien récupérer les informations d'un site internet, il faut pouvoir comprendre sa structure et donc son code HTML. Les fonctions python qui servent au scrapping sont principalement construites pour vous permettre de naviguer entre les balises

### Optionnel - CSS - le style de la page WEB

Quand le bout de code html est écrit, il apaprait sous la forme d'un texte noir sur un fond blanc. Une manière simple de rendre la page plus belle, c'est d'y ajouter de la couleur. 

La feuille de style qui permet de rendre la page plus belle correspond au(x) fichier(s) CSS. 

Toutes les pages HTML qui font référence à cette feuille de style externe hériteront de toutes ses définitions.

Nous y reviendrons plus en détail dans le TD sur Flask (module Python de création de site internet).

## Scrapper avec python

Nous allons essentiellement utiliser le package BeautifulSoup4 pour ce cours, mais d'autres packages existent (Selenium, Scrapy...).

BeautifulSoup sera suffisant quand vous voudrez travailler sur des pages HTML statiques, dès que les informations que vous recherchez sont générées via l'exécution de scripts Javascipt, il vous faudra passer par des outils comme Selenium.

De même, si vous ne connaissez pas l'URL, il faudra passer par un framework comme Scrapy, qui passe facilement d'une page à une autre ("crawl"). Scrapy est plus complexe à manipuler que BeautifulSoup : si vous voulez plus de détails, rendez-vous sur la page du tutorial https://doc.scrapy.org/en/latest/intro/tutorial.html.

### Utiliser BeautifulSoup

Les packages pour scrapper des pages HTML : 
- BeautifulSoup (pip3 install bs4)
- urllib 

In [3]:
import urllib
!pip install bs4
import bs4
#help(bs4)



##### 1ere page HTML

On va commencer facilement, prenons une page wikipedia, par exemple celle de la Ligue 1 de football :

https://fr.wikipedia.org/wiki/Championnat_de_France_de_football_2019-2020

On va souhaiter récupérer la liste des équipes, ainsi que les url des pages Wikipedia de ces équipes.

In [4]:
# Etape 1 : se connecter à la page wikipedia et obtenir le code source

url_ligue_1 = "https://www.tradergames.fr/fr/913-tous-les-jeux-"
    
from urllib import request

request_text = request.urlopen(url_ligue_1).read()
print(request_text[:1000])    

b'<!doctype html>\n<html lang="fr"  class="default" >\n\n  <head>\n    \n      \n  <meta charset="utf-8">\n\n\n  <meta http-equiv="x-ua-compatible" content="ie=edge">\n\n\n\n  <title>Trader Games - Tous les jeux sur Nintendo Switch</title>\n  <meta name="description" content="Retrouvez les Tous les jeux sur Nintendo Switch directement en vente sur notre site internet Trader Games ou en magasin \xc3\xa0 Paris. Retrouver nous a cette adresse : 4 boulevard Voltaire 75011 Paris France. Jeux vid\xc3\xa9o. Acheter. Pas cher. Promo. Solde. Prix.">\n  <meta name="keywords" content="nintendo,switch,jeu">\n        <link rel="canonical" href="https://www.tradergames.fr/fr/913-tous-les-jeux-">\n    \n                  <link rel="alternate" href="https://www.tradergames.fr/fr/913-tous-les-jeux-" hreflang="fr">\n                  <link rel="alternate" href="https://www.tradergames.fr/en/913-all-games" hreflang="en-us">\n        \n\n\n\n  <meta name="viewport" content="width=device-width, initial-sca

In [5]:
page = bs4.BeautifulSoup(request_text, "lxml")

print(page)

<!DOCTYPE html>
<html class="default" lang="fr">
<head>
<meta charset="utf-8"/>
<meta content="ie=edge" http-equiv="x-ua-compatible"/>
<title>Trader Games - Tous les jeux sur Nintendo Switch</title>
<meta content="Retrouvez les Tous les jeux sur Nintendo Switch directement en vente sur notre site internet Trader Games ou en magasin à Paris. Retrouver nous a cette adresse : 4 boulevard Voltaire 75011 Paris France. Jeux vidéo. Acheter. Pas cher. Promo. Solde. Prix." name="description"/>
<meta content="nintendo,switch,jeu" name="keywords"/>
<link href="https://www.tradergames.fr/fr/913-tous-les-jeux-" rel="canonical"/>
<link href="https://www.tradergames.fr/fr/913-tous-les-jeux-" hreflang="fr" rel="alternate"/>
<link href="https://www.tradergames.fr/en/913-all-games" hreflang="en-us" rel="alternate"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<link href="https://www.tradergames.fr/img/favicon.ico?1622646583" rel="icon" type="image/vnd.microsoft.icon"/>
<link hr

Si on print l'objet, page créée avec BeautifulSoup, on voit que ce n'est plus une chaine de caractères mais bien une page HTML avec des balises. On peut à présenter chercher des élements à l'intérieur de ces balises.


par exemple, si on veut connaire le titre de la page, on utilise la méthode .find et on lui demande "title"

In [6]:
print(page.find("title"))

<title>Trader Games - Tous les jeux sur Nintendo Switch</title>


la methode .find ne renvoie que la première occurence de l'élément

In [67]:
#print(page.find('div', {'class' : 'product-image'}))
page.findAll("img", {'class' : 'img-fluid'})

[<img alt="Trader Games" class="logo img-fluid" src="https://www.tradergames.fr/img/prestashop-logo-1620838179.jpg"/>,
 <img alt="" class="img-fluid" data-full-size-image-url="https://www.tradergames.fr/275853-large_default/bayonetta-3-switch-uk-occasion-enfrdeesit.jpg" src="https://www.tradergames.fr/275853-home_default/bayonetta-3-switch-uk-occasion-enfrdeesit.jpg"/>,
 <img alt="" class="img-fluid" data-full-size-image-url="https://www.tradergames.fr/275542-large_default/psikyo-collection-volume-1-switch-asian-occasion-en.jpg" src="https://www.tradergames.fr/275542-home_default/psikyo-collection-volume-1-switch-asian-occasion-en.jpg"/>,
 <img alt="" class="img-fluid" data-full-size-image-url="https://www.tradergames.fr/275441-large_default/bayonetta-3-switch-fr-occasion-enfrdeesit.jpg" src="https://www.tradergames.fr/275441-home_default/bayonetta-3-switch-fr-occasion-enfrdeesit.jpg"/>,
 <img alt="" class="img-fluid" data-full-size-image-url="https://www.tradergames.fr/275432-large_de

---------------
Pour trouver toutes les occurences, on utilise .findAll()

In [38]:
print("Il y a", len(page.findAll("img")), "éléments dans la page qui sont des <table>")

Il y a 115 éléments dans la page qui sont des <table>


In [39]:
print(" Image drapeau français \n", page.findAll("img")[0])
print("--------------------------------------------------------")
print("Image drapeau anglais \n",page.findAll("img")[1])

 Image drapeau français 
 <img alt="fr" height="11" src="https://www.tradergames.fr/img/l/1.jpg" width="16"/>
--------------------------------------------------------
Image drapeau anglais 
 <img alt="en" height="11" src="https://www.tradergames.fr/img/l/2.jpg" width="16"/>


### Exercice guidé : obtenir la liste des équipes de Ligue 1

La liste des équipes est dans le tableau "Participants" : dans le code source, on voit que ce tableau est celui qui a class = "DebutCarte" 

On voit également que les balises qui encerclent les noms et les urls des clubs sont de la forme suivante

```
<a href="url_club" title="nom_club"> Nom du club </a>
```

In [70]:
#for item in page.find('div', {'class' : 'product-image'}).findAll({'img'})[0:5] : 
#    print(item, "\n-------")
for item in page.findAll("img", {'class' : 'img-fluid'})[0:5] :
    print(item, "\n--------")

<img alt="Trader Games" class="logo img-fluid" src="https://www.tradergames.fr/img/prestashop-logo-1620838179.jpg"/> 
--------
<img alt="" class="img-fluid" data-full-size-image-url="https://www.tradergames.fr/275853-large_default/bayonetta-3-switch-uk-occasion-enfrdeesit.jpg" src="https://www.tradergames.fr/275853-home_default/bayonetta-3-switch-uk-occasion-enfrdeesit.jpg"/> 
--------
<img alt="" class="img-fluid" data-full-size-image-url="https://www.tradergames.fr/275542-large_default/psikyo-collection-volume-1-switch-asian-occasion-en.jpg" src="https://www.tradergames.fr/275542-home_default/psikyo-collection-volume-1-switch-asian-occasion-en.jpg"/> 
--------
<img alt="" class="img-fluid" data-full-size-image-url="https://www.tradergames.fr/275441-large_default/bayonetta-3-switch-fr-occasion-enfrdeesit.jpg" src="https://www.tradergames.fr/275441-home_default/bayonetta-3-switch-fr-occasion-enfrdeesit.jpg"/> 
--------
<img alt="" class="img-fluid" data-full-size-image-url="https://www

On n'a pas envie de prendre le premier élément qui ne correspond pas à un club mais à une image.

Or cet élément est le seul qui n'ait pas de title = "". 

Il est conseillé d'exclure les élements qui ne nous intéressent pas en indiquant les éléments que la ligne doit avoir au lieu de les exclure en fonction de leur place dans la liste

In [73]:
### condition sur la place dans la liste >>>> MAUVAIS
for e, item in enumerate(page.findAll("img", {'class' : 'img-fluid'})[0:5]) : 
    if  e == 0: 
        pass
    else : 
        print(item)

<img alt="" class="img-fluid" data-full-size-image-url="https://www.tradergames.fr/275853-large_default/bayonetta-3-switch-uk-occasion-enfrdeesit.jpg" src="https://www.tradergames.fr/275853-home_default/bayonetta-3-switch-uk-occasion-enfrdeesit.jpg"/>
<img alt="" class="img-fluid" data-full-size-image-url="https://www.tradergames.fr/275542-large_default/psikyo-collection-volume-1-switch-asian-occasion-en.jpg" src="https://www.tradergames.fr/275542-home_default/psikyo-collection-volume-1-switch-asian-occasion-en.jpg"/>
<img alt="" class="img-fluid" data-full-size-image-url="https://www.tradergames.fr/275441-large_default/bayonetta-3-switch-fr-occasion-enfrdeesit.jpg" src="https://www.tradergames.fr/275441-home_default/bayonetta-3-switch-fr-occasion-enfrdeesit.jpg"/>
<img alt="" class="img-fluid" data-full-size-image-url="https://www.tradergames.fr/275432-large_default/bayonetta-3-trinity-masquerade-edition-collector-switch-euro-new-enfrdeesit.jpg" src="https://www.tradergames.fr/275432-

In [74]:
for item in page.findAll("img", {'class' : 'img-fluid'})[0:5] : 
    if item.get("data-full-size-image-url") :
        print(item)

<img alt="" class="img-fluid" data-full-size-image-url="https://www.tradergames.fr/275853-large_default/bayonetta-3-switch-uk-occasion-enfrdeesit.jpg" src="https://www.tradergames.fr/275853-home_default/bayonetta-3-switch-uk-occasion-enfrdeesit.jpg"/>
<img alt="" class="img-fluid" data-full-size-image-url="https://www.tradergames.fr/275542-large_default/psikyo-collection-volume-1-switch-asian-occasion-en.jpg" src="https://www.tradergames.fr/275542-home_default/psikyo-collection-volume-1-switch-asian-occasion-en.jpg"/>
<img alt="" class="img-fluid" data-full-size-image-url="https://www.tradergames.fr/275441-large_default/bayonetta-3-switch-fr-occasion-enfrdeesit.jpg" src="https://www.tradergames.fr/275441-home_default/bayonetta-3-switch-fr-occasion-enfrdeesit.jpg"/>
<img alt="" class="img-fluid" data-full-size-image-url="https://www.tradergames.fr/275432-large_default/bayonetta-3-trinity-masquerade-edition-collector-switch-euro-new-enfrdeesit.jpg" src="https://www.tradergames.fr/275432-

Enfin la dernière étape, consiste à obtenir les informations souhaitées, c'est à dire dans notre cas, le nom et l'url des 20 clubs. 

Pour cela, nous allons utiliser deux méthodes de l'élement item : 
- getText() qui permet d'obtenir le texte qui est sur la page web et dans la balise  < a>
- get('xxxx') qui permet d'obtenir l'élément qui est égal à xxxx

Dans notre cas, nous allons vouloir le nom du club ainsi que l'url : on va donc utiliser __getText__ et __get("href")__

In [76]:
for item in page.findAll("img", {'class' : 'img-fluid'})[0:10] : 
    if item.get("data-full-size-image-url") :
        print(item.get("data-full-size-image-url"))
        print(item.getText())

https://www.tradergames.fr/275853-large_default/bayonetta-3-switch-uk-occasion-enfrdeesit.jpg

https://www.tradergames.fr/275542-large_default/psikyo-collection-volume-1-switch-asian-occasion-en.jpg

https://www.tradergames.fr/275441-large_default/bayonetta-3-switch-fr-occasion-enfrdeesit.jpg

https://www.tradergames.fr/275432-large_default/bayonetta-3-trinity-masquerade-edition-collector-switch-euro-new-enfrdeesit.jpg

https://www.tradergames.fr/275319-large_default/the-outbound-ghost-switch-euro-precommande.jpg

https://www.tradergames.fr/275270-large_default/adventure-academia-the-fractured-continent-switch-euro-precommande.jpg

https://www.tradergames.fr/275050-large_default/jitsu-squad-switch-euro-precommande.jpg

https://www.tradergames.fr/274934-large_default/bratz-flaunt-your-fashion-switch-fr-new-enfrdeesitpt.jpg

https://www.tradergames.fr/274930-large_default/death-s-door-switch-fr-new-enfrdeespt.jpg



In [86]:
# pour avoir le nom officiel, on aurait utiliser l'élément <title>
for item in page.findAll('h3', {'class' : 'h3 product-title'})[0:5] : 
        print(item.getText())

BAYONETTA 3 SWITCH UK...
PSIKYO COLLECTION VOLUME 1...
BAYONETTA 3 SWITCH FR...
BAYONETTA 3 TRINITY...
The Outbound Ghost SWITCH...


Toutes ces informations, on souhaite les conserver dans un tableau Excel pour pouvoir les réuitiliser à l'envie : pour cela, rien de plus simple, on va passer par pandas, parce qu'on le maitrise parfaitement à ce stade de la formation.

In [87]:
import pandas

liste_noms = []
liste_urls = []

#for item in page.find('table', {'class' : 'DebutCarte'}).findAll({'a'}) : 
#    if item.get("title") :
#        liste_urls.append(item.get("href"))
#        liste_noms.append(item.getText())
        
for item in page.findAll('h3', {'class' : 'h3 product-title'})[0:5] : 
        liste_noms.append(item.getText())
        
for item in page.findAll("img", {'class' : 'img-fluid'})[0:10] : 
    if item.get("data-full-size-image-url") :
        liste_urls.append(item.getText())
        
df = pandas.DataFrame.from_dict( {"jeux" : liste_noms, 'url' : liste_urls})

ValueError: All arrays must be of the same length

In [16]:
df.head()

Unnamed: 0,clubs,url
0,Paris SG,/wiki/Paris_Saint-Germain_Football_Club
1,LOSC Lille,/wiki/LOSC_Lille
2,Olympique lyonnais,/wiki/Olympique_lyonnais
3,AS Saint-Étienne,/wiki/Association_sportive_de_Saint-%C3%89tienne
4,Olympique deMarseille,/wiki/Olympique_de_Marseille
