# Web-Scraping

Sous ce nom se cache une pratique très utile pour toute personne souhaitant travailler sur des informations disponibles en ligne, mais n'existant pas forcément sous la forme d'un tableau Excel... Bref, il s'agit de récupérer des informations depuis Internet.

Le webscraping est une technique d'extraction du contenu des sites internet, via un programme informatique : nous allons aujourd'hui vous présenter comme créer et exécuter ces robots afin de recupérer rapidement des informations utiles à vos projets actuels ou futurs.

## Scrapper avec python

Nous allons essentiellement utiliser le package BeautifulSoup4 pour ce cours, mais d'autres packages existent (Selenium, Scrapy...).

BeautifulSoup sera suffisant quand vous voudrez travailler sur des pages HTML statiques, dès que les informations que vous recherchez sont générées via l'exécution de scripts Javascipt, il vous faudra passer par des outils comme Selenium.

De même, si vous ne connaissez pas l'URL, il faudra passer par un framework comme Scrapy, qui passe facilement d'une page à une autre ("crawl"). Scrapy est plus complexe à manipuler que BeautifulSoup : si vous voulez plus de détails, rendez-vous sur la page du tutorial https://doc.scrapy.org/en/latest/intro/tutorial.html.

### Utiliser BeautifulSoup

Les packages pour scrapper des pages HTML : 
- BeautifulSoup (pip3 install bs4)
- urllib 

In [4]:
import urllib
!pip install bs4
import bs4
#help(bs4)



### Site

https://www.tradergames.fr/fr/

In [5]:
# Etape 1 : se connecter à la page et obtenir le code source

url_trader_games = "https://www.tradergames.fr/fr/1091-derniers-arrivages"
    
from urllib import request

request_text = request.urlopen(url_trader_games).read()
print(request_text[:1000])    

b'<!doctype html>\n<html lang="fr"  class="default" >\n\n  <head>\n    \n      \n  <meta charset="utf-8">\n\n\n  <meta http-equiv="x-ua-compatible" content="ie=edge">\n\n\n\n  <title>Derniers arrivages</title>\n  <meta name="description" content="">\n  <meta name="keywords" content="">\n        <link rel="canonical" href="https://www.tradergames.fr/fr/1091-derniers-arrivages">\n    \n                  <link rel="alternate" href="https://www.tradergames.fr/fr/1091-derniers-arrivages" hreflang="fr">\n                  <link rel="alternate" href="https://www.tradergames.fr/en/1091-last-arrivals" hreflang="en-us">\n        \n\n\n\n  <meta name="viewport" content="width=device-width, initial-scale=1">\n\n\n\n  <link rel="icon" type="image/vnd.microsoft.icon" href="https://www.tradergames.fr/img/favicon.ico?1622646583">\n  <link rel="shortcut icon" type="image/x-icon" href="https://www.tradergames.fr/img/favicon.ico?1622646583">\n\n\n  \n\n    <link rel="stylesheet" href="https://www.traderg

In [6]:
page = bs4.BeautifulSoup(request_text, "lxml")

print(page)

<!DOCTYPE html>
<html class="default" lang="fr">
<head>
<meta charset="utf-8"/>
<meta content="ie=edge" http-equiv="x-ua-compatible"/>
<title>Derniers arrivages</title>
<meta content="" name="description"/>
<meta content="" name="keywords"/>
<link href="https://www.tradergames.fr/fr/1091-derniers-arrivages" rel="canonical"/>
<link href="https://www.tradergames.fr/fr/1091-derniers-arrivages" hreflang="fr" rel="alternate"/>
<link href="https://www.tradergames.fr/en/1091-last-arrivals" hreflang="en-us" rel="alternate"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<link href="https://www.tradergames.fr/img/favicon.ico?1622646583" rel="icon" type="image/vnd.microsoft.icon"/>
<link href="https://www.tradergames.fr/img/favicon.ico?1622646583" rel="shortcut icon" type="image/x-icon"/>
<link href="https://www.tradergames.fr/themes/at_kinzy/assets/css/theme.css" media="all" rel="stylesheet" type="text/css"/>
<link href="https://www.tradergames.fr/modules/blockreassuranc

### Titre de la page

In [31]:
print(page.find("title"))

<title>Derniers arrivages</title>


### Toutes les images présentes sur la page

In [28]:
"""
page.findAll("img")[0:5]
"""

[<img alt="fr" height="11" src="https://www.tradergames.fr/img/l/1.jpg" width="16"/>,
 <img alt="en" height="11" src="https://www.tradergames.fr/img/l/2.jpg" width="16"/>,
 <img alt="Trader Games" class="logo img-fluid" src="https://www.tradergames.fr/img/prestashop-logo-1620838179.jpg"/>,
 <img src="/img/stickers/11/Royaume-Uni Rectangle.png" style="opacity: ;position: static;box-shadow:unset;width:40%"/>,
 <img src="/img/stickers/24/Neuf.png" style="opacity: ;position: static;box-shadow:unset;width:50%"/>]

### Construction du dataset

#### Pour construire notre dataset on va récupérer les données présentes pour chaque produit.  
##### Parcours dans une boucle for : Liste des images des jeux du site 

In [36]:
"""
for item in page.findAll("img", {'class' : 'img-fluid'})[0:5] :
    print(item, "\n--------")
"""

<img alt="Trader Games" class="logo img-fluid" src="https://www.tradergames.fr/img/prestashop-logo-1620838179.jpg"/> 
--------
<img alt="" class="img-fluid" data-full-size-image-url="https://www.tradergames.fr/276035-large_default/yooka-laylee-ps4-uk-occasion-enfrdeesit.jpg" src="https://www.tradergames.fr/276035-home_default/yooka-laylee-ps4-uk-occasion-enfrdeesit.jpg"/> 
--------
<img alt="" class="img-fluid" data-full-size-image-url="https://www.tradergames.fr/276021-large_default/les-sisters-show-devant-ps4-fr-occasion.jpg" src="https://www.tradergames.fr/276021-home_default/les-sisters-show-devant-ps4-fr-occasion.jpg"/> 
--------
<img alt="" class="img-fluid" data-full-size-image-url="https://www.tradergames.fr/276015-large_default/assassin-s-creed-valhalla-ps5-de-occasion-enfrdeesitpt.jpg" src="https://www.tradergames.fr/276015-home_default/assassin-s-creed-valhalla-ps5-de-occasion-enfrdeesitpt.jpg"/> 
--------
<img alt="" class="img-fluid" data-full-size-image-url="https://www.t

#### On n'a pas envie de prendre le premier élément qui ne correspond pas à un jeu mais au logo du site. On remarque aussi que l'image de jeu a comme classe 'data-full-size-image-url'

In [12]:
"""
for e, item in enumerate(page.findAll("img", {'class' : 'img-fluid'})[0:5]) : 
    if  e == 0: 
        pass
    else : 
        print(item)
        
"""

<img alt="" class="img-fluid" data-full-size-image-url="https://www.tradergames.fr/276097-large_default/tactics-ogre-reborn-ps4-uk-new-enfrdees.jpg" src="https://www.tradergames.fr/276097-home_default/tactics-ogre-reborn-ps4-uk-new-enfrdees.jpg"/>
<img alt="" class="img-fluid" data-full-size-image-url="https://www.tradergames.fr/276091-large_default/tactics-ogre-reborn-ps5-uk-new-enfrdees.jpg" src="https://www.tradergames.fr/276091-home_default/tactics-ogre-reborn-ps5-uk-new-enfrdees.jpg"/>
<img alt="" class="img-fluid" data-full-size-image-url="https://www.tradergames.fr/276083-large_default/tactics-ogre-reborn-switch-uk-new-enfrdees.jpg" src="https://www.tradergames.fr/276083-home_default/tactics-ogre-reborn-switch-uk-new-enfrdees.jpg"/>
<img alt="" class="img-fluid" data-full-size-image-url="https://www.tradergames.fr/276077-large_default/police-simulator-patrol-officers-ps5-uk-new-enfrdeesitpt.jpg" src="https://www.tradergames.fr/276077-home_default/police-simulator-patrol-officers

In [13]:
for item in page.findAll("img", {'class' : 'img-fluid'})[0:5] : 
    if item.get("data-full-size-image-url") :
        print(item)

<img alt="" class="img-fluid" data-full-size-image-url="https://www.tradergames.fr/276097-large_default/tactics-ogre-reborn-ps4-uk-new-enfrdees.jpg" src="https://www.tradergames.fr/276097-home_default/tactics-ogre-reborn-ps4-uk-new-enfrdees.jpg"/>
<img alt="" class="img-fluid" data-full-size-image-url="https://www.tradergames.fr/276091-large_default/tactics-ogre-reborn-ps5-uk-new-enfrdees.jpg" src="https://www.tradergames.fr/276091-home_default/tactics-ogre-reborn-ps5-uk-new-enfrdees.jpg"/>
<img alt="" class="img-fluid" data-full-size-image-url="https://www.tradergames.fr/276083-large_default/tactics-ogre-reborn-switch-uk-new-enfrdees.jpg" src="https://www.tradergames.fr/276083-home_default/tactics-ogre-reborn-switch-uk-new-enfrdees.jpg"/>
<img alt="" class="img-fluid" data-full-size-image-url="https://www.tradergames.fr/276077-large_default/police-simulator-patrol-officers-ps5-uk-new-enfrdeesitpt.jpg" src="https://www.tradergames.fr/276077-home_default/police-simulator-patrol-officers

#### Enfin, on récupère les URLs des images.

In [14]:
for item in page.findAll("img", {'class' : 'img-fluid'})[0:5] : 
    if item.get("data-full-size-image-url") :
        print(item.get("data-full-size-image-url"))

https://www.tradergames.fr/276097-large_default/tactics-ogre-reborn-ps4-uk-new-enfrdees.jpg
https://www.tradergames.fr/276091-large_default/tactics-ogre-reborn-ps5-uk-new-enfrdees.jpg
https://www.tradergames.fr/276083-large_default/tactics-ogre-reborn-switch-uk-new-enfrdees.jpg
https://www.tradergames.fr/276077-large_default/police-simulator-patrol-officers-ps5-uk-new-enfrdeesitpt.jpg


#### On récupère les noms des jeux. 

In [40]:
for item in page.findAll('h3', {'class' : 'h3 product-title'})[0:5] : 
        print(item.getText())

YOOKA LAYLEE PS4 UK...
LES SISTERS SHOW DEVANT PS4...
ASSASSIN S CREED VALHALLA...
TOKYO GHOUL RE CALL TO...
TSUIHOU SENKYO PS4 JAPAN...


#### On récupère les prix.

In [41]:
for item in page.findAll('span', {'itemprop' : 'price'})[0:5] : 
        print(item.getText())

14,99 €
24,99 €
24,99 €
19,99 €
29,99 €


#### On récupère leur provenance.

In [52]:
for item in page.findAll('img', {'src' : '/img/stickers/'})[0:5] : 
        print(item.get())

In [20]:
import pandas

liste_noms = []
liste_urls = []
liste_prices = []
        
for item in page.findAll('h3', {'class' : 'h3 product-title'})[0:29] : 
        liste_noms.append(item.getText())
        
for item in page.findAll("img", {'class' : 'img-fluid'})[0:30] : 
    if item.get("data-full-size-image-url") :
        liste_urls.append(item.get("data-full-size-image-url"))

for item in page.findAll('span', {'itemprop' : 'price'})[0:29] : 
        liste_prices.append(item.getText())
        
df = pandas.DataFrame.from_dict( {"nom_jeux" : liste_noms, 'urls' : liste_urls, 'prix' : liste_prices})

In [21]:
df.head()

Unnamed: 0,nom_jeux,urls,prix
0,TACTICS OGRE REBORN PS4 UK...,https://www.tradergames.fr/276097-large_defaul...,"49,99 €"
1,TACTICS OGRE REBORN PS5 UK...,https://www.tradergames.fr/276091-large_defaul...,"49,99 €"
2,TACTICS OGRE REBORN SWITCH...,https://www.tradergames.fr/276083-large_defaul...,"49,99 €"
3,POLICE SIMULATOR PATROL...,https://www.tradergames.fr/276077-large_defaul...,"39,99 €"
4,SYBERIA 3 PS4 UK OCCASION...,https://www.tradergames.fr/276063-large_defaul...,"14,99 €"


In [22]:
df

Unnamed: 0,nom_jeux,urls,prix
0,TACTICS OGRE REBORN PS4 UK...,https://www.tradergames.fr/276097-large_defaul...,"49,99 €"
1,TACTICS OGRE REBORN PS5 UK...,https://www.tradergames.fr/276091-large_defaul...,"49,99 €"
2,TACTICS OGRE REBORN SWITCH...,https://www.tradergames.fr/276083-large_defaul...,"49,99 €"
3,POLICE SIMULATOR PATROL...,https://www.tradergames.fr/276077-large_defaul...,"39,99 €"
4,SYBERIA 3 PS4 UK OCCASION...,https://www.tradergames.fr/276063-large_defaul...,"14,99 €"
5,CHORUS - DAY ONE EDITION -...,https://www.tradergames.fr/276056-large_defaul...,"24,99 €"
6,DARK SOULS REMASTERED PS4...,https://www.tradergames.fr/276049-large_defaul...,"19,99 €"
7,LEGO DC SUPER VILAINS PS4...,https://www.tradergames.fr/276045-large_defaul...,"14,99 €"
8,YOOKA LAYLEE PS4 UK...,https://www.tradergames.fr/276035-large_defaul...,"14,99 €"
9,METAL GEAR SOLID V THE...,https://www.tradergames.fr/276069-large_defaul...,"8,99 €"
