# Web-Scraping

Sous ce nom se cache une pratique très utile pour toute personne souhaitant travailler sur des informations disponibles en ligne, mais n'existant pas forcément sous la forme d'un tableau Excel... Bref, il s'agit de récupérer des informations depuis Internet.

Le webscraping est une technique d'extraction du contenu des sites internet, via un programme informatique : nous allons aujourd'hui vous présenter comme créer et exécuter ces robots afin de recupérer rapidement des informations utiles à vos projets actuels ou futurs.

## Scrapper avec python

Nous allons essentiellement utiliser le package BeautifulSoup4 pour ce cours, mais d'autres packages existent (Selenium, Scrapy...).

BeautifulSoup sera suffisant quand vous voudrez travailler sur des pages HTML statiques, dès que les informations que vous recherchez sont générées via l'exécution de scripts Javascipt, il vous faudra passer par des outils comme Selenium.

De même, si vous ne connaissez pas l'URL, il faudra passer par un framework comme Scrapy, qui passe facilement d'une page à une autre ("crawl"). Scrapy est plus complexe à manipuler que BeautifulSoup : si vous voulez plus de détails, rendez-vous sur la page du tutorial https://doc.scrapy.org/en/latest/intro/tutorial.html.

### Utiliser BeautifulSoup

Les packages pour scrapper des pages HTML : 
- BeautifulSoup (pip3 install bs4)
- urllib 

In [1]:
import urllib
!pip install bs4
import bs4
#help(bs4)



### Site

https://www.tradergames.fr/fr/

In [2]:
# Etape 1 : se connecter à la page et obtenir le code source

url_trader_games = "https://www.tradergames.fr/fr/1091-derniers-arrivages"
    
from urllib import request

request_text = request.urlopen(url_trader_games).read()
print(request_text[:1000])  

b'<!doctype html>\n<html lang="fr"  class="default" >\n\n  <head>\n    \n      \n  <meta charset="utf-8">\n\n\n  <meta http-equiv="x-ua-compatible" content="ie=edge">\n\n\n\n  <title>Derniers arrivages</title>\n  <meta name="description" content="">\n  <meta name="keywords" content="">\n        <link rel="canonical" href="https://www.tradergames.fr/fr/1091-derniers-arrivages">\n    \n                  <link rel="alternate" href="https://www.tradergames.fr/fr/1091-derniers-arrivages" hreflang="fr">\n                  <link rel="alternate" href="https://www.tradergames.fr/en/1091-last-arrivals" hreflang="en-us">\n        \n\n\n\n  <meta name="viewport" content="width=device-width, initial-scale=1">\n\n\n\n  <link rel="icon" type="image/vnd.microsoft.icon" href="https://www.tradergames.fr/img/favicon.ico?1622646583">\n  <link rel="shortcut icon" type="image/x-icon" href="https://www.tradergames.fr/img/favicon.ico?1622646583">\n\n\n  \n\n    <link rel="stylesheet" href="https://www.traderg

In [3]:
page = bs4.BeautifulSoup(request_text, "lxml")

print(page)

<!DOCTYPE html>
<html class="default" lang="fr">
<head>
<meta charset="utf-8"/>
<meta content="ie=edge" http-equiv="x-ua-compatible"/>
<title>Derniers arrivages</title>
<meta content="" name="description"/>
<meta content="" name="keywords"/>
<link href="https://www.tradergames.fr/fr/1091-derniers-arrivages" rel="canonical"/>
<link href="https://www.tradergames.fr/fr/1091-derniers-arrivages" hreflang="fr" rel="alternate"/>
<link href="https://www.tradergames.fr/en/1091-last-arrivals" hreflang="en-us" rel="alternate"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<link href="https://www.tradergames.fr/img/favicon.ico?1622646583" rel="icon" type="image/vnd.microsoft.icon"/>
<link href="https://www.tradergames.fr/img/favicon.ico?1622646583" rel="shortcut icon" type="image/x-icon"/>
<link href="https://www.tradergames.fr/themes/at_kinzy/assets/css/theme.css" media="all" rel="stylesheet" type="text/css"/>
<link href="https://www.tradergames.fr/modules/blockreassuranc

### Titre de la page

In [127]:
print(page.find("title"))

<title>Derniers arrivages</title>


### Toutes les images présentes sur la page

### Construction du dataset

#### On récupère les Ids des produits

In [128]:
list_ids = []

articles = page.findAll('article')

for div in articles :
    list_ids.append(div.get('data-id-product'))

print(list_ids)
print(len(list_ids))

['168717', '168716', '168714', '168713', '168712', '168710', '168709', '168704', '168702', '168701', '168700', '168699', '168698', '168697', '168696', '168694', '168693', '168692', '168691', '168690', '168689', '168688', '168687', '168685', '168683', '168682', '168681', '168680', '168679', '168678', '168677', '168676', '168675', '168674', '168673']
35


#### Enfin, on récupère les URLs des images.

In [122]:
list_images = {}

articles = page.findAll('article')
count = 0
        
for div in articles :
    for d in div.findAll('div', {'class' : 'thumbnail-container'}) :
        for img in d.findAll('div', {'class' : 'product-image'}) :
            for i in img('img', {'class' : 'img-fluid'}) :
                list_images[count] = div.get('data-id-product'), i.get("src")
                count = count + 1

print(len(list_images))

list_images_final = []

#On met nos données sous forme de tableau  
for clé, valeur in list_images.items() :
    list_images_final.append(valeur[1])

list_images_final

35


['https://www.tradergames.fr/276464-home_default/console-neo-geo-aes-neo-aec-euro-sans-boite-ni-notice-without-box-and-manual.jpg',
 'https://www.tradergames.fr/276456-home_default/sonic-the-hedgehog-pocket-adventure-neo-geo-pocket-ngp-euro-complete-very-good-condition.jpg',
 'https://www.tradergames.fr/276435-home_default/console-nintendo-wiiu-premium-pack-32-go-mario-kart-8-pal-euro-game-not-include-good-condition-overall.jpg',
 'https://www.tradergames.fr/276430-home_default/console-nintendo-wii-blanche-ntsc-japan-sans-boite-ni-notice-without-box-and-manual.jpg',
 'https://www.tradergames.fr/276427-home_default/yo-kai-watch-blasters-peloton-du-chat-rouge-nintendo-3ds-pal-fra-neuf-brand-new-endefresit.jpg',
 'https://www.tradergames.fr/276418-home_default/mario-luigi-voyage-au-centre-de-bowser-l-epopee-de-bowser-nintendo-3ds-pal-fra-neuf-brand-new-endefresit.jpg',
 'https://www.tradergames.fr/276412-home_default/the-ninja-warriors-nec-pcengine-pce-hucard-ntsc-japan-complete-side-sunf

#### On récupère les noms des jeux. 

In [120]:
list_noms = {}

articles = page.findAll('article')
count = 0
        
for div in articles :
    for h3 in div.findAll('div', {'class' : 'thumbnail-container'}) :
        for title in h3.findAll('h3', {'class' : 'h3 product-title'}) :
            list_noms[count] = div.get('data-id-product'), title.getText()
            count = count + 1

print(len(list_noms))

list_noms_final = []

#On met nos données sous forme de tableau  
for clé, valeur in list_noms.items() :
    list_noms_final.append(valeur[1])

list_noms_final

35


['CONSOLE NEO-GEO AES...',
 'SONIC THE HEDGEHOG POCKET...',
 'CONSOLE NINTENDO WIIU...',
 'CONSOLE NINTENDO WII...',
 'YO-KAI WATCH BLASTERS...',
 'MARIO & LUIGI VOYAGE AU...',
 'THE NINJA WARRIORS NEC...',
 'DEEP BLUE KAITEI SHINWA NEC...',
 'FANTASY ZONE NEC PCENGINE...',
 'BOMBERMAN NEC PCENGINE...',
 'SPACE HARRIER NEC PCENGINE...',
 'THE KUNG FU NEC PCENGINE...',
 'JINMU DENSHOU NEC PCENGINE...',
 'BIOHAZARD 2 VALUE PLUS SEGA...',
 'SONIC ADVENTURE SEGA...',
 'PHANTASY STAR ONLINE VER.2...',
 'BLUE STINGER SEGA DREAMCAST...',
 'WACHENRODER SEGA SATURN...',
 'VIRTUA FIGHTER SEGA SATURN...',
 'DIGITAL DANCE MIX VOL.1...',
 'GUILTY GEAR XX ACCENT CORE...',
 'DRAGON BALL Z SPARKING SONY...',
 'MEMORY CARD 8MB FOR...',
 'SPY VS SPY XBOX PAL-FR...',
 'MARIO KART + VOLANT...',
 'WINNING ELEVEN 6 FINAL...',
 'LEGO CITY UNDERCOVER...',
 'BOB L EPONGE SILENCE ON...',
 'ROCKBAND 2 XBOX 360 PAL-FR...',
 'VIVA PINATA EDITION LIMITEE...',
 'NIKE + KINECT TRAINING XBOX...',
 'JUST DANCE 4 KINECT

#### On récupère les prix.

In [118]:
list_prix = {}

articles = page.findAll('article')
count = 0
        
for div in articles :
    for span in div.findAll('div', {'class' : 'thumbnail-container'}) :
        for sp in span.findAll('span', {'itemprop' : 'price'}) :
            list_prix[count] = div.get('data-id-product'), sp.getText()
            count = count + 1

print(len(list_prix))

list_prix_final = []

#On met nos données sous forme de tableau  
for clé, valeur in list_prix.items() :
    list_prix_final.append(valeur[1])

list_prix_final

35


['549,99\xa0€',
 '299,99\xa0€',
 '129,99\xa0€',
 '59,99\xa0€',
 '59,99\xa0€',
 '49,99\xa0€',
 '69,99\xa0€',
 '49,99\xa0€',
 '44,99\xa0€',
 '39,99\xa0€',
 '29,99\xa0€',
 '24,99\xa0€',
 '19,99\xa0€',
 '29,99\xa0€',
 '24,99\xa0€',
 '9,99\xa0€',
 '9,99\xa0€',
 '24,99\xa0€',
 '9,99\xa0€',
 '9,99\xa0€',
 '9,99\xa0€',
 '9,99\xa0€',
 '59,99\xa0€',
 '29,99\xa0€',
 '29,99\xa0€',
 '29,99\xa0€',
 '19,99\xa0€',
 '9,99\xa0€',
 '14,99\xa0€',
 '9,99\xa0€',
 '7,99\xa0€',
 '4,99\xa0€',
 '4,99\xa0€',
 '9,99\xa0€',
 '9,99\xa0€']

#### On récupère leur provenance.

In [154]:

list_regions = {}

articles = page.findAll('article')
count = 0

#On récupère les images stickers sur les produits
for div in articles :
    for span in div.findAll('div', {'class' : 'thumbnail-container'}) :
        for sp in span.findAll('span', {'class' : 'fmm_sticker_base_span'}) :
            for i in sp.select('img[src*="/img/stickers/"]') :
                list_regions[count] = div.get('data-id-product'), i.get("src")
                count = count + 1


count1 = 0
list_regions1 = {}

# On récupére l'url avec rectangle dedans, il correspond au drapeau. 
for clé, valeur in list_regions.items() : 
    if "Rectangle" in valeur[1] or "Réctangle" in valeur[1] :
        list_regions1[count1] =  valeur[0], valeur[1]
        count1 = count1 + 1
        
count2 = 0

list_regions2 = {}

#On enlève les doublons
for clé, valeur in list_regions1.items() :
        if valeur not in list_regions2.values() :
            list_regions2[clé] = valeur
            
print(len(list_regions2))

list_regions_final = []

#On met nos données sous forme de tableau  
for clé, valeur in list_regions2.items() :
    list_regions_final.append(valeur[1])

for i,j in enumerate(list_regions_final) :
    list_regions_final[i] = list_regions_final[i].replace(" ", "%20")
    list_regions_final[i] = 'https://www.tradergames.fr' + list_regions_final[i]
    
list_regions_final

35


['https://www.tradergames.fr/img/stickers/1/EU%20Rectangle.png',
 'https://www.tradergames.fr/img/stickers/1/EU%20Rectangle.png',
 'https://www.tradergames.fr/img/stickers/1/EU%20Rectangle.png',
 'https://www.tradergames.fr/img/stickers/9/Japon%20Réctangle.png',
 'https://www.tradergames.fr/img/stickers/8/France%20PAL%20Réctangle.png',
 'https://www.tradergames.fr/img/stickers/8/France%20PAL%20Réctangle.png',
 'https://www.tradergames.fr/img/stickers/10/Japon%20NTSC%20Réctangle.png',
 'https://www.tradergames.fr/img/stickers/10/Japon%20NTSC%20Réctangle.png',
 'https://www.tradergames.fr/img/stickers/10/Japon%20NTSC%20Réctangle.png',
 'https://www.tradergames.fr/img/stickers/10/Japon%20NTSC%20Réctangle.png',
 'https://www.tradergames.fr/img/stickers/10/Japon%20NTSC%20Réctangle.png',
 'https://www.tradergames.fr/img/stickers/10/Japon%20NTSC%20Réctangle.png',
 'https://www.tradergames.fr/img/stickers/10/Japon%20NTSC%20Réctangle.png',
 'https://www.tradergames.fr/img/stickers/10/Japon%20NT

#### On récupère les états des produits

In [139]:
list_etats = {}

articles = page.findAll('article')
count = 0

#On récupère les états en stickers sur les produits
for div in articles :
    for span in div.findAll('div', {'class' : 'thumbnail-container'}) :
        for sp in span.findAll('span', {'class' : 'fmm_sticker_base_span'}) :
            for i in sp.select('img[src*="/img/stickers/"]') :
                list_etats[count] = div.get('data-id-product'), i.get("src")
                count = count + 1


count1 = 0
list_etats1 = {}

# On récupére l'url avec Neuf ou Occaz dedans, il correspond au drapeau. 
for clé, valeur in list_etats.items() : 
    if "Neuf" in valeur[1] or "Occaz" in valeur[1] :
        list_etats1[count1] =  valeur[0], valeur[1]
        count1 = count1 + 1
        
count2 = 0

list_etats2 = {}

#On enlève les doublons
for clé, valeur in list_etats1.items() :
        if valeur not in list_etats2.values() :
            list_etats2[clé] = valeur
            
print(len(list_etats2))

list_etats_final = []

#On met nos données sous forme de tableau  
for clé, valeur in list_etats2.items() :
    list_etats_final.append(valeur[1])

list_etats_final

for i, j in enumerate(list_etats_final) :
    if "Occaz" in j :
        list_etats_final[i] = "Occasion"
    if "Neuf" in j :
        list_etats_final[i] = "Neuf"
    
print(list_etats_final)


35
['Occasion', 'Occasion', 'Occasion', 'Occasion', 'Neuf', 'Neuf', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Neuf', 'Neuf', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion']


In [155]:
import pandas
        
df = pandas.DataFrame.from_dict( {'ID' : list_ids, 'nom_jeux' : list_noms_final, 'urls' : list_images_final, 'prix' : list_prix_final, 'zone_import' : list_regions_final, 'etat' : list_etats_final})


In [158]:
df.head()

Unnamed: 0,ID,nom_jeux,urls,prix,zone_import,etat
0,168717,CONSOLE NEO-GEO AES...,https://www.tradergames.fr/276464-home_default...,"549,99 €",https://www.tradergames.fr/img/stickers/1/EU%2...,Occasion
1,168716,SONIC THE HEDGEHOG POCKET...,https://www.tradergames.fr/276456-home_default...,"299,99 €",https://www.tradergames.fr/img/stickers/1/EU%2...,Occasion
2,168714,CONSOLE NINTENDO WIIU...,https://www.tradergames.fr/276435-home_default...,"129,99 €",https://www.tradergames.fr/img/stickers/1/EU%2...,Occasion
3,168713,CONSOLE NINTENDO WII...,https://www.tradergames.fr/276430-home_default...,"59,99 €",https://www.tradergames.fr/img/stickers/9/Japo...,Occasion
4,168712,YO-KAI WATCH BLASTERS...,https://www.tradergames.fr/276427-home_default...,"59,99 €",https://www.tradergames.fr/img/stickers/8/Fran...,Neuf


In [157]:
df

Unnamed: 0,ID,nom_jeux,urls,prix,zone_import,etat
0,168717,CONSOLE NEO-GEO AES...,https://www.tradergames.fr/276464-home_default...,"549,99 €",https://www.tradergames.fr/img/stickers/1/EU%2...,Occasion
1,168716,SONIC THE HEDGEHOG POCKET...,https://www.tradergames.fr/276456-home_default...,"299,99 €",https://www.tradergames.fr/img/stickers/1/EU%2...,Occasion
2,168714,CONSOLE NINTENDO WIIU...,https://www.tradergames.fr/276435-home_default...,"129,99 €",https://www.tradergames.fr/img/stickers/1/EU%2...,Occasion
3,168713,CONSOLE NINTENDO WII...,https://www.tradergames.fr/276430-home_default...,"59,99 €",https://www.tradergames.fr/img/stickers/9/Japo...,Occasion
4,168712,YO-KAI WATCH BLASTERS...,https://www.tradergames.fr/276427-home_default...,"59,99 €",https://www.tradergames.fr/img/stickers/8/Fran...,Neuf
5,168710,MARIO & LUIGI VOYAGE AU...,https://www.tradergames.fr/276418-home_default...,"49,99 €",https://www.tradergames.fr/img/stickers/8/Fran...,Neuf
6,168709,THE NINJA WARRIORS NEC...,https://www.tradergames.fr/276412-home_default...,"69,99 €",https://www.tradergames.fr/img/stickers/10/Jap...,Occasion
7,168704,DEEP BLUE KAITEI SHINWA NEC...,https://www.tradergames.fr/276404-home_default...,"49,99 €",https://www.tradergames.fr/img/stickers/10/Jap...,Occasion
8,168702,FANTASY ZONE NEC PCENGINE...,https://www.tradergames.fr/276394-home_default...,"44,99 €",https://www.tradergames.fr/img/stickers/10/Jap...,Occasion
9,168701,BOMBERMAN NEC PCENGINE...,https://www.tradergames.fr/276387-home_default...,"39,99 €",https://www.tradergames.fr/img/stickers/10/Jap...,Occasion
