# Web-Scraping

Sous ce nom se cache une pratique très utile pour toute personne souhaitant travailler sur des informations disponibles en ligne, mais n'existant pas forcément sous la forme d'un tableau Excel... Bref, il s'agit de récupérer des informations depuis Internet.

Le webscraping est une technique d'extraction du contenu des sites internet, via un programme informatique : nous allons aujourd'hui vous présenter comme créer et exécuter ces robots afin de recupérer rapidement des informations utiles à vos projets actuels ou futurs.

## Scrapper avec python

Nous allons essentiellement utiliser le package BeautifulSoup4 pour ce cours, mais d'autres packages existent (Selenium, Scrapy...).

BeautifulSoup sera suffisant quand vous voudrez travailler sur des pages HTML statiques, dès que les informations que vous recherchez sont générées via l'exécution de scripts Javascipt, il vous faudra passer par des outils comme Selenium.

De même, si vous ne connaissez pas l'URL, il faudra passer par un framework comme Scrapy, qui passe facilement d'une page à une autre ("crawl"). Scrapy est plus complexe à manipuler que BeautifulSoup : si vous voulez plus de détails, rendez-vous sur la page du tutorial https://doc.scrapy.org/en/latest/intro/tutorial.html.

### Utiliser BeautifulSoup

Les packages pour scrapper des pages HTML : 
- BeautifulSoup (pip3 install bs4)
- urllib 

In [1]:
import urllib
!pip install bs4
import bs4
#help(bs4)



### Site

https://www.tradergames.fr/fr/

In [18]:
# Etape 1 : se connecter à la page et obtenir le code source

url_trader_games = "https://www.tradergames.fr/fr/1091-derniers-arrivages"
    
from urllib import request

request_text = request.urlopen(url_trader_games).read()
print(request_text[:1000])  

b'<!doctype html>\n<html lang="fr"  class="default" >\n\n  <head>\n    \n      \n  <meta charset="utf-8">\n\n\n  <meta http-equiv="x-ua-compatible" content="ie=edge">\n\n\n\n  <title>Derniers arrivages</title>\n  <meta name="description" content="">\n  <meta name="keywords" content="">\n        <link rel="canonical" href="https://www.tradergames.fr/fr/1091-derniers-arrivages">\n    \n                  <link rel="alternate" href="https://www.tradergames.fr/fr/1091-derniers-arrivages" hreflang="fr">\n                  <link rel="alternate" href="https://www.tradergames.fr/en/1091-last-arrivals" hreflang="en-us">\n        \n\n\n\n  <meta name="viewport" content="width=device-width, initial-scale=1">\n\n\n\n  <link rel="icon" type="image/vnd.microsoft.icon" href="https://www.tradergames.fr/img/favicon.ico?1622646583">\n  <link rel="shortcut icon" type="image/x-icon" href="https://www.tradergames.fr/img/favicon.ico?1622646583">\n\n\n  \n\n    <link rel="stylesheet" href="https://www.traderg

In [3]:
page = bs4.BeautifulSoup(request_text, "lxml")

print(page)

<!DOCTYPE html>
<html class="default" lang="fr">
<head>
<meta charset="utf-8"/>
<meta content="ie=edge" http-equiv="x-ua-compatible"/>
<title>Derniers arrivages</title>
<meta content="" name="description"/>
<meta content="" name="keywords"/>
<link href="https://www.tradergames.fr/fr/1091-derniers-arrivages" rel="canonical"/>
<link href="https://www.tradergames.fr/fr/1091-derniers-arrivages" hreflang="fr" rel="alternate"/>
<link href="https://www.tradergames.fr/en/1091-last-arrivals" hreflang="en-us" rel="alternate"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<link href="https://www.tradergames.fr/img/favicon.ico?1622646583" rel="icon" type="image/vnd.microsoft.icon"/>
<link href="https://www.tradergames.fr/img/favicon.ico?1622646583" rel="shortcut icon" type="image/x-icon"/>
<link href="https://www.tradergames.fr/themes/at_kinzy/assets/css/theme.css" media="all" rel="stylesheet" type="text/css"/>
<link href="https://www.tradergames.fr/modules/blockreassuranc

### Titre de la page

In [4]:
print(page.find("title"))

<title>Derniers arrivages</title>


### Toutes les images présentes sur la page

### Construction du dataset

#### On récupère les Ids des produits

In [5]:
list_ids = []

articles = page.findAll('article')

for div in articles :
    list_ids.append(div.get('data-id-product'))

print(list_ids)
print(len(list_ids))

['168848', '168847', '168846', '168845', '168843', '168842', '168841', '168840', '168839', '168838', '168837', '168836', '168834', '168833', '168832', '168831', '168830', '168829', '168828', '168827', '168825', '168824', '168823', '168822', '168821', '168820', '168819', '168818', '168817', '168816', '168815', '168814', '168813', '168811', '168810']
35


#### On récupère les URLs des images.

In [6]:
list_images = {}

articles = page.findAll('article')
count = 0
        
for div in articles :
    for d in div.findAll('div', {'class' : 'thumbnail-container'}) :
        for img in d.findAll('div', {'class' : 'product-image'}) :
            for i in img('img', {'class' : 'img-fluid'}) :
                list_images[count] = div.get('data-id-product'), i.get("src")
                count = count + 1

print(len(list_images))

list_images_final = []

#On met nos données sous forme de tableau  
for clé, valeur in list_images.items() :
    list_images_final.append(valeur[1])

list_images_final

35


['https://www.tradergames.fr/276889-home_default/console-famicom-modifiee-av-en-boite-ntsc-jpn-complete-notice-matching-good-condition-overall.jpg',
 'https://www.tradergames.fr/276878-home_default/console-nintendo-gamecube-silver-pal-euro-sans-cale-without-hold.jpg',
 'https://www.tradergames.fr/276873-home_default/the-legend-of-zelda-the-windwaker-edition-limitee-nintendo-gamecube-gc-pal-fra-occasion.jpg',
 'https://www.tradergames.fr/276866-home_default/the-legend-of-zelda-link-s-awakening-dx-gameboy-color-gbc-eur-complete-good-condition-overall.jpg',
 'https://www.tradergames.fr/276853-home_default/dragon-quest-iv-l-epopee-des-elus-nintendo-ds-nds-fra-occasion.jpg',
 'https://www.tradergames.fr/276908-home_default/livre-une-histoire-du-jeu-video-en-france-1960-1991-des-labos-aux-chambres-d-ados-fr-new-pix-n-love-edition.jpg',
 'https://www.tradergames.fr/276847-home_default/snk-vs-capcom-card-fighters-ds-nintendo-ds-nds-eur-occasion.jpg',
 'https://www.tradergames.fr/276841-home_de

#### On récupère les noms des jeux. 

In [7]:
list_noms = {}

articles = page.findAll('article')
count = 0
        
for div in articles :
    for h3 in div.findAll('div', {'class' : 'thumbnail-container'}) :
        for title in h3.findAll('h3', {'class' : 'h3 product-title'}) :
            list_noms[count] = div.get('data-id-product'), title.getText()
            count = count + 1

print(len(list_noms))

list_noms_final = []

#On met nos données sous forme de tableau  
for clé, valeur in list_noms.items() :
    list_noms_final.append(valeur[1])

list_noms_final

35


['CONSOLE FAMICOM MODIFIEE AV...',
 'CONSOLE NINTENDO GAMECUBE...',
 'THE LEGEND OF ZELDA THE...',
 'THE LEGEND OF ZELDA LINK S...',
 'DRAGON QUEST IV L EPOPEE...',
 'LIVRE UNE HISTOIRE DU JEU...',
 'SNK VS CAPCOM CARD FIGHTERS...',
 'ADVANCE WARS DUAL STRIKE...',
 'THE LEGEND OF ZELDA PHANTOM...',
 'RIDGE RACER DS NINTENDO DS...',
 'HOTEL DUSK: ROOM 215...',
 'ELITE BEAT AGENTS NINTENDO...',
 'LOST MAGIC NINTENDO DS...',
 'GRAND THEFT AUTO (GTA)...',
 'ASPHALT 2 URBAN GT NINTENDO...',
 'ASPHALT URBAN GT NINTENDO...',
 'THE SETTLERS NINTENDO DS...',
 'BATTLE OF PRINCE OF PERSIA...',
 'ANNO CREEZ VOTRE MONDE...',
 'LES URBZ LES SIMS IN THE...',
 'NARUTO NINJA COUNCIL...',
 'ATELIER IRIS 2 : THE AZOTH...',
 'DARK CLOUD SONY PLAYSTATION...',
 'STAR WARS BATTLEFRONT II...',
 'ODIN SPHERE SONY...',
 'SOULCALIBUR III SONY...',
 'TEKKEN 5 SONY PLAYSTATION 2...',
 'ACE COMBAT SQUADRON LEADER...',
 'EYE TOY PLAYS BOX CAMERA...',
 'GENSOSUIKODEN I & II SONY...',
 'HORI FIGHTING STICK SS SEGA...'

#### On récupère les prix.

In [8]:
list_prix = {}

articles = page.findAll('article')
count = 0
        
for div in articles :
    for span in div.findAll('div', {'class' : 'thumbnail-container'}) :
        for sp in span.findAll('span', {'itemprop' : 'price'}) :
            list_prix[count] = div.get('data-id-product'), sp.getText()
            count = count + 1

print(len(list_prix))

list_prix_final = []

#On met nos données sous forme de tableau  
for clé, valeur in list_prix.items() :
    list_prix_final.append(valeur[1])

list_prix_final

35


['209,99\xa0€',
 '129,99\xa0€',
 '109,99\xa0€',
 '169,99\xa0€',
 '69,99\xa0€',
 '30,00\xa0€',
 '54,99\xa0€',
 '34,99\xa0€',
 '34,99\xa0€',
 '34,99\xa0€',
 '24,99\xa0€',
 '24,99\xa0€',
 '19,99\xa0€',
 '19,99\xa0€',
 '19,99\xa0€',
 '14,99\xa0€',
 '14,99\xa0€',
 '14,99\xa0€',
 '14,99\xa0€',
 '14,99\xa0€',
 '9,99\xa0€',
 '69,99\xa0€',
 '49,99\xa0€',
 '29,99\xa0€',
 '24,99\xa0€',
 '14,99\xa0€',
 '14,99\xa0€',
 '14,99\xa0€',
 '9,99\xa0€',
 '49,99\xa0€',
 '69,99\xa0€',
 '29,99\xa0€',
 '29,99\xa0€',
 '39,99\xa0€',
 '29,99\xa0€']

#### On récupère leur provenance.

In [9]:

list_regions = {}

articles = page.findAll('article')
count = 0

#On récupère les images stickers sur les produits
for div in articles :
    for span in div.findAll('div', {'class' : 'thumbnail-container'}) :
        for sp in span.findAll('span', {'class' : 'fmm_sticker_base_span'}) :
            for i in sp.select('img[src*="/img/stickers/"]') :
                list_regions[count] = div.get('data-id-product'), i.get("src")
                count = count + 1


count1 = 0
list_regions1 = {}

# On récupére l'url avec rectangle dedans, il correspond au drapeau. 
for clé, valeur in list_regions.items() : 
    if "Rectangle" in valeur[1] or "Réctangle" in valeur[1] :
        list_regions1[count1] =  valeur[0], valeur[1]
        count1 = count1 + 1
        
count2 = 0

list_regions2 = {}

#On enlève les doublons
for clé, valeur in list_regions1.items() :
        if valeur not in list_regions2.values() :
            list_regions2[clé] = valeur
            
print(len(list_regions2))

list_regions_final = []

#On met nos données sous forme de tableau  
for clé, valeur in list_regions2.items() :
    list_regions_final.append(valeur[1])

for i,j in enumerate(list_regions_final) :
    list_regions_final[i] = list_regions_final[i].replace(" ", "%20")
    list_regions_final[i] = 'https://www.tradergames.fr' + list_regions_final[i]
    
list_regions_final

35


['https://www.tradergames.fr/img/stickers/10/Japon%20NTSC%20Réctangle.png',
 'https://www.tradergames.fr/img/stickers/1/EU%20Rectangle.png',
 'https://www.tradergames.fr/img/stickers/8/France%20PAL%20Réctangle.png',
 'https://www.tradergames.fr/img/stickers/1/EU%20Rectangle.png',
 'https://www.tradergames.fr/img/stickers/7/France%20Réctangle.png',
 'https://www.tradergames.fr/img/stickers/7/France%20Réctangle.png',
 'https://www.tradergames.fr/img/stickers/1/EU%20Rectangle.png',
 'https://www.tradergames.fr/img/stickers/7/France%20Réctangle.png',
 'https://www.tradergames.fr/img/stickers/7/France%20Réctangle.png',
 'https://www.tradergames.fr/img/stickers/1/EU%20Rectangle.png',
 'https://www.tradergames.fr/img/stickers/1/EU%20Rectangle.png',
 'https://www.tradergames.fr/img/stickers/7/France%20Réctangle.png',
 'https://www.tradergames.fr/img/stickers/1/EU%20Rectangle.png',
 'https://www.tradergames.fr/img/stickers/34/Hollande%20Rectangle.png',
 'https://www.tradergames.fr/img/stickers/

#### On récupère l'état des produits

In [10]:
list_etats = {}

articles = page.findAll('article')
count = 0

#On récupère les états en stickers sur les produits
for div in articles :
    for span in div.findAll('div', {'class' : 'thumbnail-container'}) :
        for sp in span.findAll('span', {'class' : 'fmm_sticker_base_span'}) :
            for i in sp.select('img[src*="/img/stickers/"]') :
                list_etats[count] = div.get('data-id-product'), i.get("src")
                count = count + 1


count1 = 0
list_etats1 = {}

# On récupére l'url avec Neuf ou Occaz dedans, il correspond au drapeau. 
for clé, valeur in list_etats.items() : 
    if "Neuf" in valeur[1] or "Occaz" in valeur[1] :
        list_etats1[count1] =  valeur[0], valeur[1]
        count1 = count1 + 1
        
count2 = 0

list_etats2 = {}

#On enlève les doublons
for clé, valeur in list_etats1.items() :
        if valeur not in list_etats2.values() :
            list_etats2[clé] = valeur
            
print(len(list_etats2))

list_etats_final = []

#On met nos données sous forme de tableau  
for clé, valeur in list_etats2.items() :
    list_etats_final.append(valeur[1])

list_etats_final

for i, j in enumerate(list_etats_final) :
    if "Occaz" in j :
        list_etats_final[i] = "Occasion"
    if "Neuf" in j :
        list_etats_final[i] = "Neuf"
    
print(list_etats_final)


35
['Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Neuf', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Neuf', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion', 'Occasion']


In [11]:
import pandas
        
df = pandas.DataFrame.from_dict( {'ID' : list_ids, 'nom_jeux' : list_noms_final, 'urls' : list_images_final, 'prix' : list_prix_final, 'zone_import' : list_regions_final, 'etat' : list_etats_final})


In [12]:
df.head()

Unnamed: 0,ID,nom_jeux,urls,prix,zone_import,etat
0,168848,CONSOLE FAMICOM MODIFIEE AV...,https://www.tradergames.fr/276889-home_default...,"209,99 €",https://www.tradergames.fr/img/stickers/10/Jap...,Occasion
1,168847,CONSOLE NINTENDO GAMECUBE...,https://www.tradergames.fr/276878-home_default...,"129,99 €",https://www.tradergames.fr/img/stickers/1/EU%2...,Occasion
2,168846,THE LEGEND OF ZELDA THE...,https://www.tradergames.fr/276873-home_default...,"109,99 €",https://www.tradergames.fr/img/stickers/8/Fran...,Occasion
3,168845,THE LEGEND OF ZELDA LINK S...,https://www.tradergames.fr/276866-home_default...,"169,99 €",https://www.tradergames.fr/img/stickers/1/EU%2...,Occasion
4,168843,DRAGON QUEST IV L EPOPEE...,https://www.tradergames.fr/276853-home_default...,"69,99 €",https://www.tradergames.fr/img/stickers/7/Fran...,Occasion


In [13]:
df

Unnamed: 0,ID,nom_jeux,urls,prix,zone_import,etat
0,168848,CONSOLE FAMICOM MODIFIEE AV...,https://www.tradergames.fr/276889-home_default...,"209,99 €",https://www.tradergames.fr/img/stickers/10/Jap...,Occasion
1,168847,CONSOLE NINTENDO GAMECUBE...,https://www.tradergames.fr/276878-home_default...,"129,99 €",https://www.tradergames.fr/img/stickers/1/EU%2...,Occasion
2,168846,THE LEGEND OF ZELDA THE...,https://www.tradergames.fr/276873-home_default...,"109,99 €",https://www.tradergames.fr/img/stickers/8/Fran...,Occasion
3,168845,THE LEGEND OF ZELDA LINK S...,https://www.tradergames.fr/276866-home_default...,"169,99 €",https://www.tradergames.fr/img/stickers/1/EU%2...,Occasion
4,168843,DRAGON QUEST IV L EPOPEE...,https://www.tradergames.fr/276853-home_default...,"69,99 €",https://www.tradergames.fr/img/stickers/7/Fran...,Occasion
5,168842,LIVRE UNE HISTOIRE DU JEU...,https://www.tradergames.fr/276908-home_default...,"30,00 €",https://www.tradergames.fr/img/stickers/7/Fran...,Neuf
6,168841,SNK VS CAPCOM CARD FIGHTERS...,https://www.tradergames.fr/276847-home_default...,"54,99 €",https://www.tradergames.fr/img/stickers/1/EU%2...,Occasion
7,168840,ADVANCE WARS DUAL STRIKE...,https://www.tradergames.fr/276841-home_default...,"34,99 €",https://www.tradergames.fr/img/stickers/7/Fran...,Occasion
8,168839,THE LEGEND OF ZELDA PHANTOM...,https://www.tradergames.fr/276837-home_default...,"34,99 €",https://www.tradergames.fr/img/stickers/7/Fran...,Occasion
9,168838,RIDGE RACER DS NINTENDO DS...,https://www.tradergames.fr/276834-home_default...,"34,99 €",https://www.tradergames.fr/img/stickers/1/EU%2...,Occasion


In [14]:
df.describe()

Unnamed: 0,ID,nom_jeux,urls,prix,zone_import,etat
count,35,35,35,35,35,35
unique,35,34,35,15,7,2
top,168848,CONTROLLER - MANETTE SEGA...,https://www.tradergames.fr/276889-home_default...,"14,99 €",https://www.tradergames.fr/img/stickers/1/EU%2...,Occasion
freq,1,2,1,8,10,33


In [15]:
df.groupby('etat').size()

etat
Neuf         2
Occasion    33
dtype: int64

In [16]:
df.groupby('zone_import').size()

zone_import
https://www.tradergames.fr/img/stickers/1/EU%20Rectangle.png               10
https://www.tradergames.fr/img/stickers/10/Japon%20NTSC%20Réctangle.png     1
https://www.tradergames.fr/img/stickers/26/USA%20NTSC%20Réctangle.png       1
https://www.tradergames.fr/img/stickers/34/Hollande%20Rectangle.png         1
https://www.tradergames.fr/img/stickers/7/France%20Réctangle.png            9
https://www.tradergames.fr/img/stickers/8/France%20PAL%20Réctangle.png      9
https://www.tradergames.fr/img/stickers/9/Japon%20Réctangle.png             4
dtype: int64

In [17]:
import mysql.connector
from mysql.connector import Error

config = {
    'user': 'newuser',
    'password': 'newpassword',
    'host': 'db',
    'port': 3306,
    'database': 'gamesdb'
}

# READ ALL DATA
connection = mysql.connector.connect(**config)
cursor = connection.cursor()
cursor.execute('SELECT * FROM games')
results = cursor.fetchall()
print(results)
cursor.close()
connection.close()

InterfaceError: 2003: Can't connect to MySQL server on 'db:3306' (-2 Name or service not known)