## Web Scraping

- Extraction d'informations d'un site web.
- A utiliser en l'absence de données ouvertes ou d'API.
- Technique fragile car le site web peut changer du jour au lendemain.
- Problématique juridique...

**Avec requests**

Doc :
- requests : https://requests.readthedocs.io/en/master/

Installation :
- *pip install requests* ou *conda install -c anaconda requests*

Exemple de site : https://www.beerwulf.com/fr-fr

In [22]:
import requests
import re
import pandas as pd

r = requests.get('https://www.beerwulf.com/fr-fr')
r.status_code

200

In [2]:
# content
r.content

b'\r\n\r\n<!doctype html>\r\n<html class="no-js" lang="fr-FR"\r\n      data-original-lang="fr-FR"\r\n      data-rendered-at="Sat, 03 Oct 2020 13:34:59 GMT"\r\n      data-dynamic-ui-url="/fr-FR/api/dynamicUi"\r\n      data-release="232"\r\n      data-datalayer=\'{"page":{"type":"Home Page","language":"fr-FR","country":"FR","currency":"EUR"},"event":"pageView"}\'\r\n      data-add-to-cart="Ajouter"\r\n      data-out-of-stock="Revient vite !">\r\n<head>\r\n    \r\n    <meta charset="utf-8" />\r\n\r\n<title>Achat de bi&#232;res, f&#251;ts et tireuses en ligne  | Beerwulf</title>\r\n\r\n    <!-- Website Meta information -->\r\n    <meta property="og:url" content="https://www.beerwulf.com/fr-fr" />\r\n    <meta name="twitter:card" content="summary_large_image">\r\n    <meta name="twitter:site" content="@BeerwulfWebshop">\r\n    <meta name="twitter:creator" content="@BeerwulfWebshop">\r\n        <meta name="description" content="D&#233;couvrez toutes nos tireuses &#224; bi&#232;re The SUB et 

In [3]:
# type
type(r.content)

bytes

In [4]:
# str en précisant un encodage
content = r.content.decode('utf-8')
content

'\r\n\r\n<!doctype html>\r\n<html class="no-js" lang="fr-FR"\r\n      data-original-lang="fr-FR"\r\n      data-rendered-at="Sat, 03 Oct 2020 13:34:59 GMT"\r\n      data-dynamic-ui-url="/fr-FR/api/dynamicUi"\r\n      data-release="232"\r\n      data-datalayer=\'{"page":{"type":"Home Page","language":"fr-FR","country":"FR","currency":"EUR"},"event":"pageView"}\'\r\n      data-add-to-cart="Ajouter"\r\n      data-out-of-stock="Revient vite !">\r\n<head>\r\n    \r\n    <meta charset="utf-8" />\r\n\r\n<title>Achat de bi&#232;res, f&#251;ts et tireuses en ligne  | Beerwulf</title>\r\n\r\n    <!-- Website Meta information -->\r\n    <meta property="og:url" content="https://www.beerwulf.com/fr-fr" />\r\n    <meta name="twitter:card" content="summary_large_image">\r\n    <meta name="twitter:site" content="@BeerwulfWebshop">\r\n    <meta name="twitter:creator" content="@BeerwulfWebshop">\r\n        <meta name="description" content="D&#233;couvrez toutes nos tireuses &#224; bi&#232;re The SUB et B

#### Essai avec des regex

In [65]:
# récupération mannuelle d'un prix avec une regex
# extraction de tous les caractères différents de <
# compris entre <span class="price"> et </span>
rx = re.compile('<span class="price">([^<]+)</span>')
match = rx.search(content)  # équivalent à match = re.search('<span class="price">([^<]+)</span>', content)
type(match)

re.Match

In [9]:
# extraction de niveau 0
match.group(0)

'<span class="price">11,99 €</span>'

In [10]:
# extraction de niveau 1
match.group(1)

'11,99 €'

In [11]:
# récupération mannuelle de tous les prix avec une regex
for match in rx.finditer(content):
    print(match.group(1))

11,99 €
19,46 €
16,14 €
19,79 €
11,99 €
13,19 €
13,59 €
14,39 €
1,79 €
2,02 €
2,09 €
3,14 €
38,99 €
62,99 €
38,69 €
37,99 €
139,00 €
89,00 €
129,00 €
119,00 €


La technique est très fragile car elle s'appuie sur la syntaxe HTML exacte et non sur la sémantique...

In [12]:
# récupération mannuelle de tous les prix avec une regex
rx = re.compile('<span class="price from-price">([^<]+)</span>')
for match in rx.finditer(content):
    print(match.group(1))

22,99 €
18,99 €
21,99 €
15,99 €
16,49 €
16,99 €
17,99 €
2,39 €
2,69 €
2,79 €
3,49 €
42,99 €
202,96 €
129,00 €
169,00 €
169,00 €


In [13]:
# récupération mannuelle de tous les prix avec une regex
# ( from-price)? est une expression de capture
# possibilité d'utiliser (?: from-price)? qui n'est pas une expression de capture
rx = re.compile('<span class="price( from-price)?">([^<]+)</span>')
for match in rx.finditer(content):
    print(match.group(1), match.group(2))

None 11,99 €
 from-price 22,99 €
None 19,46 €
 from-price 18,99 €
None 16,14 €
 from-price 21,99 €
None 19,79 €
 from-price 15,99 €
None 11,99 €
 from-price 16,49 €
None 13,19 €
 from-price 16,99 €
None 13,59 €
 from-price 17,99 €
None 14,39 €
 from-price 2,39 €
None 1,79 €
 from-price 2,69 €
None 2,02 €
 from-price 2,79 €
None 2,09 €
 from-price 3,49 €
None 3,14 €
None 38,99 €
None 62,99 €
 from-price 42,99 €
None 38,69 €
None 37,99 €
 from-price 202,96 €
None 139,00 €
 from-price 129,00 €
None 89,00 €
 from-price 169,00 €
None 129,00 €
 from-price 169,00 €
None 119,00 €


**Avec pandas.read_html()** recherche des tableaux dans les pages HTML

**Exemple**

Tableau page wikipédia: https://fr.wikipedia.org/wiki/Liste_des_pays_par_PIB_nominal

In [23]:
# scraping d'une page HTML
var = pd.read_html("https://fr.wikipedia.org/wiki/Liste_des_pays_par_PIB_nominal")
[df.shape for df in var]

[(1, 1), (195, 3), (211, 3), (213, 3), (12, 2), (4, 2)]

In [24]:
# accès au n° 2
df = var[1]
df

Unnamed: 0,Rang,Pays ou territoire,PIB (en milliards de dollars/an)
0,1,États-Unis,"20 494,05"
1,-,"Union européenne[2],[note 1]","18 750,05"
2,2,Chine[note 2],"13 407,40"
3,3,Japon,"4 971,93"
4,4,Allemagne,"4 000,39"
...,...,...,...
190,190,Palaos,0297
191,191,Îles Marshall,0214
192,192,Kiribati,0189
193,193,Nauru,0117


In [25]:
# accès à des valeurs
df.iloc[0]

Rang                                         1
Pays ou territoire                  États-Unis
PIB (en milliards de dollars/an)     20 494,05
Name: 0, dtype: object

In [26]:
# index = columns du DataFrame
df.iloc[0].index

Index(['Rang', 'Pays ou territoire', 'PIB (en milliards de dollars/an)'], dtype='object')

In [27]:
# accès à des valeurs
df.iloc[[0, 1, 2, 76, -1]]

Unnamed: 0,Rang,Pays ou territoire,PIB (en milliards de dollars/an)
0,1,États-Unis,"20 494,05"
1,-,"Union européenne[2],[note 1]","18 750,05"
2,2,Chine[note 2],"13 407,40"
76,76,Bulgarie,6496
194,194,Tuvalu,00450


In [28]:
# accès à une valeur
df.iloc[1, 2]

'18\xa0750,05'

Chercher le code hexa \xa0 : https://www.codetable.net/hex/a0

In [29]:
# aide sur read_html()
# pd.read_html?

In [30]:
# conversion automatique du séparateur des milliers
var = pd.read_html("https://fr.wikipedia.org/wiki/Liste_des_pays_par_PIB_nominal",
                    thousands='\xa0',
                    decimal=',')
df = var[1]
df.iloc[[0, 1, 2, 76, -1]]

Unnamed: 0,Rang,Pays ou territoire,PIB (en milliards de dollars/an)
0,1,États-Unis,20494.05
1,-,"Union européenne[2],[note 1]",18750.05
2,2,Chine[note 2],13407.4
76,76,Bulgarie,64.96
194,194,Tuvalu,0.045


In [31]:
# reste à faire
df.loc[df['Pays ou territoire'].str.contains("[^A-Za-zÀ-ÿ0-9 \-']")]

Unnamed: 0,Rang,Pays ou territoire,PIB (en milliards de dollars/an)
1,-,"Union européenne[2],[note 1]",18750.05
2,2,Chine[note 2],13407.4
11,11,Russie[note 3],1630.66


**Exercice 4**

Extraire les noms des pays sans les annotations.

**Avec beautifulsoup** parsing HTML

Doc :
- beautifulsoup : https://www.crummy.com/software/BeautifulSoup/bs4/doc/

Installation :
- *pip install beautifulsoup4* ou *conda install -c anaconda beautifulsoup4*

In [32]:
# imports
from bs4 import BeautifulSoup

**Exemple basique**

In [33]:
html = """
<html>
    <head>
        <style>
        h1 { font-size: 50px; }
        body { font-family: Verdana; }
        li { color: red; }
        ul ul li { color: green; }
        .highlighted { font-weight: bold; }
        .italic { font-style: italic; }
        .highlighted.italic { }
        </style>
    </head>
    <body>
        <h1>Mon titre</h1>
        <p class="highlighted">
            Some text with a<br>
            <a href="https://google.com">link to google</a>
            <img src="https://picsum.photos/200/300">
        </p>
        <p>Some list:</p>
        <ul>
            <li>some item</li>
            <li class="highlighted italic">some item</li>
            <li class="italic">some item</li>
            <ul>
                <li>some other item 1</li>
                <li>some other item 2</li>
            </ul>
            <li>some item</li>
        </ul>
    </body>
</html>
"""

A tester sur : https://html.house

In [34]:
# bs4
soup = BeautifulSoup(html)
soup

<html>
<head>
<style>
        h1 { font-size: 50px; }
        body { font-family: Verdana; }
        li { color: red; }
        ul ul li { color: green; }
        .highlighted { font-weight: bold; }
        .italic { font-style: italic; }
        .highlighted.italic { }
        </style>
</head>
<body>
<h1>Mon titre</h1>
<p class="highlighted">
            Some text with a<br/>
<a href="https://google.com">link to google</a>
<img src="https://picsum.photos/200/300"/>
</p>
<p>Some list:</p>
<ul>
<li>some item</li>
<li class="highlighted italic">some item</li>
<li class="italic">some item</li>
<ul>
<li>some other item 1</li>
<li>some other item 2</li>
</ul>
<li>some item</li>
</ul>
</body>
</html>

In [35]:
# type
type(soup)

bs4.BeautifulSoup

In [36]:
# find h1
titre = soup.find('h1')
titre

<h1>Mon titre</h1>

In [37]:
# type
type(titre)

bs4.element.Tag

In [38]:
# name
titre.name

'h1'

In [39]:
# text
titre.text

'Mon titre'

In [40]:
# find a
link = soup.find('a')
link

<a href="https://google.com">link to google</a>

In [41]:
# prochain tag
link.find_next()

<img src="https://picsum.photos/200/300"/>

In [42]:
# attrs
link.attrs

{'href': 'https://google.com'}

In [43]:
# text
link.text

'link to google'

In [44]:
# find p
paragraph = soup.find('p')
paragraph

<p class="highlighted">
            Some text with a<br/>
<a href="https://google.com">link to google</a>
<img src="https://picsum.photos/200/300"/>
</p>

In [45]:
# find img in paragraph
paragraph.find('img')

<img src="https://picsum.photos/200/300"/>

In [46]:
# find_all
soup.find_all('li', {'class': "italic"})

[<li class="highlighted italic">some item</li>,
 <li class="italic">some item</li>]

In [47]:
# idem avec un sélecteur css:
soup.select('li.italic')

[<li class="highlighted italic">some item</li>,
 <li class="italic">some item</li>]

In [48]:
# Récupérer les li de 2e niveau qui sont dans un ul lui-même dans un ul
soup.find('ul').find('ul').find_all('li')

[<li>some other item 1</li>, <li>some other item 2</li>]

In [49]:
# idem avec un sélecteur css:
soup.select('ul ul li')

[<li>some other item 1</li>, <li>some other item 2</li>]

In [50]:
# accès au premier li
li = soup.select('ul ul li')[0]
li

<li>some other item 1</li>

In [51]:
# prochain tag identique
li.find_next_sibling()

<li>some other item 2</li>

In [52]:
# parent
li.parent

<ul>
<li>some other item 1</li>
<li>some other item 2</li>
</ul>

In [53]:
# contents
li.parent.contents

['\n', <li>some other item 1</li>, '\n', <li>some other item 2</li>, '\n']

In [54]:
# que les tags
li.parent.find_all()

[<li>some other item 1</li>, <li>some other item 2</li>]

**Exemple 1**

Le Bon Coin

In [55]:
# premier essai avec leboncoin

r = requests.get('https://www.leboncoin.fr/annonces/offres/ile_de_france/')
r

<Response [403]>

Codes erreurs du protocole HTTP : https://developer.mozilla.org/fr/docs/Web/HTTP/Status

In [56]:
# contenu
r.content

b'<html><head><title>leboncoin.fr</title><style>#cmsg{animation: A 1.5s;}@keyframes A{0%{opacity:0;}99%{opacity:0;}100%{opacity:1;}}</style></head><body style="margin:0"><p id="cmsg">Please enable JS and disable any ad blocker</p><script>var dd={\'cid\':\'AHrlqAAAAAMAYaN7yGad8jEAicJ-Xg==\',\'hsh\':\'05B30BD9055986BD2EE8F5A199D973\',\'t\':\'fe\',\'s\':2089,\'host\':\'geo.captcha-delivery.com\'}</script><script src="https://ct.captcha-delivery.com/c.js"></script></body></html>\n'

In [57]:
# en str
print(r.content.decode('utf-8'))

<html><head><title>leboncoin.fr</title><style>#cmsg{animation: A 1.5s;}@keyframes A{0%{opacity:0;}99%{opacity:0;}100%{opacity:1;}}</style></head><body style="margin:0"><p id="cmsg">Please enable JS and disable any ad blocker</p><script>var dd={'cid':'AHrlqAAAAAMAYaN7yGad8jEAicJ-Xg==','hsh':'05B30BD9055986BD2EE8F5A199D973','t':'fe','s':2089,'host':'geo.captcha-delivery.com'}</script><script src="https://ct.captcha-delivery.com/c.js"></script></body></html>



Lancement du script `server.py` lancé dans un terminal avec la commande :
<code>python server.py --bind 127.0.0.1</code> sur Windows ou <code>python server.py --bind 0.0.0.0</code> sur MacOS.

In [58]:
%pycat server.py


Error: no such file, variable, URL, history range or macro


In [59]:
# avec run de server.py
r = requests.get('http://127.0.0.1:8000')  # http://0.0.0.0:8000
r

ConnectionError: HTTPConnectionPool(host='127.0.0.1', port=8000): Max retries exceeded with url: / (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x00000266E387A1C8>: Failed to establish a new connection: [WinError 10061] Aucune connexion n’a pu être établie car l’ordinateur cible l’a expressément refusée'))

In [None]:
# avec run de server.py
r.content

In [None]:
# avec run de server.py
from IPython.display import IFrame
IFrame('http://127.0.0.1:8000', width=800, height=200)  # http://0.0.0.0:8000

In [None]:
# headers
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:81.0) Gecko/20100101 Firefox/81.0',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Accept-Language': 'fr,fr-FR;q=0.8,en-US;q=0.5,en;q=0.3',
'Accept-Encoding': 'gzip, deflate',
}
headers

In [None]:
# 2nd essai avec leboncoin
r = requests.get('https://www.leboncoin.fr/annonces/offres/ile_de_france/',
                 headers=headers)
r

In [None]:
# BeautifulSoup
soup = BeautifulSoup(r.content)
soup

**Exemple 2**

Craig List

In [60]:
# essai avec craigslist
r = requests.get('https://paris.craigslist.org/d/locations-de-vacances/search/vac')
r

<Response [200]>

In [61]:
# BeautifulSoup
soup = BeautifulSoup(r.content)
soup

<!DOCTYPE html>
<html class="no-js"><head>
<title>Paris Locations de vacances   - craigslist</title>
<script id="ld_breadcrumb_data" type="application/ld+json">
    {"@context":"https://schema.org","itemListElement":[{"item":{"name":"paris.craigslist.org","@id":"https://paris.craigslist.org"},"position":1,"@type":"ListItem"},{"item":{"name":"housing","@id":"https://paris.craigslist.org/search/hhh"},"position":2,"@type":"ListItem"},{"item":{"name":"vacation rentals","@id":"https://paris.craigslist.org/search/vac"},"position":3,"@type":"ListItem"}],"@type":"BreadcrumbList"}
</script>
<meta content="Paris Locations de vacances   - craigslist" name="description"/>
<meta content="IE=Edge" http-equiv="X-UA-Compatible"/>
<link href="https://paris.craigslist.org/search/vac" rel="canonical"/>
<meta content="width=device-width,initial-scale=1" name="viewport"/>
<link href="//www.craigslist.org/styles/cl.css?v=d6ed290bc3b4b54de607517150cee045" media="all" rel="stylesheet" type="text/css"/>
<link 

On utilise 2 méthodes :
    
- find(tag, attrs) : trouve le premier tag avec les attributs spécifiés
- findAll(tag, attrs) : trouve tous les tags avec les attributs spécifiés

In [62]:
# exploration du HTML
# tag li avec class="result-row"

li_tag = soup.find('li', attrs={'class': 'result-row'})
print(li_tag)

<li class="result-row" data-pid="7207296541">
<a class="result-image gallery" data-ids="3:00o0o_3QrOcJHTZgj_0aj06S,3:00b0b_eAMygxwa7Vd_0aj06S,3:00606_Hw3lhSiw64_0aj06S,3:00r0r_2mn9Y5b6nLv_0aj06S,3:00G0G_C3KFwbz03_0aj06S,3:00B0B_dbU5benc3Gi_0aj06S,3:00g0g_7aOIV6xqIIX_0aj06S,3:00101_h7HUqyfyaSQ_0aj06S,3:00000_lfkWkx9QXw4_0aj06S,3:00000_dWRo6ggd23c_0aj06S" href="https://paris.craigslist.org/vac/d/charmant-studio-dans-le-marais/7207296541.html">
<span class="result-price">€500</span>
</a>
<div class="result-info">
<span class="icon icon-star" role="button">
<span class="screen-reader-text">marquez cette publication comme favorite</span>
</span>
<time class="result-date" datetime="2020-10-03 10:56" title="sam. 03 oct. 10:56:08">oct.  3</time>
<h2>
<a class="result-title hdrlnk" data-id="7207296541" href="https://paris.craigslist.org/vac/d/charmant-studio-dans-le-marais/7207296541.html" id="postid_7207296541">Charmant Studio Dans Le Marais</a>
</h2>
<span class="result-meta">
<span class="re

In [63]:
# type
type(li_tag)

bs4.element.Tag

La technique consiste par exemple à alimenter une liste de dictionnaires avec les valeurs trouvées pour chaque item et ensuite à le transformer en DataFrame :
- soit en utilisant tag.attrs['attr'] pour collecter la valeur attr du tag <tag attr=value>
- soit en utilisant tag.text pour collecter la valeur <tag>text</tag>
- éventuellement en recherchant dans un nouveau tag à l'intérieur d'un tag donné

In [64]:
# collecte des informations
# "data-pid"
# "time"
# "title"
# "price"
# "housing"
# "hood"
# "data-ids" (images)

rows = []

for li_tag in soup.findAll('li', attrs={'class': 'result-row'}):
    row = {}
    row['data-pid'] = li_tag.attrs['data-pid']
    # row['time'] = 
    # à compléter
    rows.append(row)
    
rows

[{'data-pid': '7207296541'},
 {'data-pid': '7207292442'},
 {'data-pid': '7207292601'},
 {'data-pid': '7195114087'},
 {'data-pid': '7195118436'},
 {'data-pid': '7195116715'},
 {'data-pid': '7195115867'},
 {'data-pid': '7206687344'},
 {'data-pid': '7206688449'},
 {'data-pid': '7206688444'},
 {'data-pid': '7206685139'},
 {'data-pid': '7204917293'},
 {'data-pid': '7195864398'},
 {'data-pid': '7194312726'},
 {'data-pid': '7195349421'},
 {'data-pid': '7201947277'},
 {'data-pid': '7195118277'},
 {'data-pid': '7195118662'},
 {'data-pid': '7195115305'},
 {'data-pid': '7195115737'},
 {'data-pid': '7183844043'},
 {'data-pid': '7183844085'},
 {'data-pid': '7182096722'},
 {'data-pid': '7182103677'},
 {'data-pid': '7182132330'},
 {'data-pid': '7182152516'},
 {'data-pid': '7182239697'},
 {'data-pid': '7182247967'},
 {'data-pid': '7182257551'},
 {'data-pid': '7182344824'},
 {'data-pid': '7182352987'},
 {'data-pid': '7182395256'},
 {'data-pid': '7193444774'},
 {'data-pid': '7195349328'},
 {'data-pid': 

In [None]:
# en DataFrame
df = pd.DataFrame(rows)
df

**Exercice 5**

Compléter le DataFrame (sauf images)

In [None]:
# collecte des photos
# traitement des "data-ids"
# séparation des formats et des noms de fichier
# from javascript
imageConfig = {"1":{"hostname":"https://images.craigslist.org","sizes":["50x50c","300x300","600x450","1200x900"]},
               "4":{"hostname":"https://images.craigslist.org","sizes":["50x50c","300x300","600x450","1200x900"]},
               "0":{"hostname":"https://images.craigslist.org","sizes":["50x50c","300x300","600x450"]},
               "3":{"hostname":"https://images.craigslist.org","sizes":["50x50c","300x300","600x450","1200x900"]},
               "2":{"hostname":"https://images.craigslist.org","sizes":["50x50c","300x300","600x450","1200x900"]}};

In [None]:
# récupération des photos
from urllib import request
from shutil import copyfileobj

# data-ids
img = '00d0d_3QrOcJHTZgj'
size = '300x300'
filename = '{}_{}.jpg'.format(img, size)
url = 'https://images.craigslist.org/{}'.format(filename)

# get the file from the web and save it locally
with request.urlopen(url) as response, open(filename, 'wb') as out_file:
    copyfileobj(response, out_file)

In [None]:
from IPython.display import Image
Image(filename=filename)

#### Inconvénients du web scraping:
- plutôt lent (car on parse potentiellement beaucoup de HTML inutile)
- ne donne pas les résultats attendus si une partie du contenu est intégré dynamiquement à la page via javascript
- un changement dans l'architecture du html ou du css (e.g: refonte du design du site) oblige à réécrire le programme