## Web Scraping

- Extraction d'informations d'un site web.
- A utiliser en l'absence de données ouvertes ou d'API.
- Technique fragile car le site web peut changer du jour au lendemain.
- Problématique juridique...

**Avec requests**

Doc :
- requests : https://requests.readthedocs.io/en/master/

Installation :
- *pip install requests* ou *conda install -c anaconda requests*

Exemple de site : https://www.beerwulf.com/fr-fr

In [None]:
import requests

r = requests.get('https://www.beerwulf.com/fr-fr')
r.status_code

In [None]:
# content
r.content

In [None]:
# type
type(r.content)

In [None]:
# str en précisant un encodage
content = r.content.decode('utf-8')
content

#### Essai avec des regex

In [None]:
# récupération mannuelle d'un prix avec une regex
# extraction de tous les caractères différents de <
# compris entre <span class="price"> et </span>
rx = re.compile('<span class="price">([^<]+)</span>')
match = rx.search(content)  # équivalent à match = re.search('<span class="price">([^<]+)</span>', content)
type(match)

In [None]:
# extraction de niveau 0
match.group(0)

In [None]:
# extraction de niveau 1
match.group(1)

In [None]:
# récupération mannuelle de tous les prix avec une regex
for match in rx.finditer(content):
    print(match.group(1))

La technique est très fragile car elle s'appuie sur la syntaxe HTML exacte et non sur la sémantique...

In [None]:
# récupération mannuelle de tous les prix avec une regex
rx = re.compile('<span class="price from-price">([^<]+)</span>')
for match in rx.finditer(content):
    print(match.group(1))

In [None]:
# récupération mannuelle de tous les prix avec une regex
# ( from-price)? est une expression de capture
# possibilité d'utiliser (?: from-price)? qui n'est pas une expression de capture
rx = re.compile('<span class="price( from-price)?">([^<]+)</span>')
for match in rx.finditer(content):
    print(match.group(1), match.group(2))

**Avec pandas.read_html()** recherche des tableaux dans les pages HTML

**Exemple**

Tableau page wikipédia: https://fr.wikipedia.org/wiki/Liste_des_pays_par_PIB_nominal

In [None]:
# scraping d'une page HTML
var = pd.read_html("https://fr.wikipedia.org/wiki/Liste_des_pays_par_PIB_nominal")
[df.shape for df in var]

In [None]:
# accès au n° 2
df = var[1]
df

In [None]:
# accès à des valeurs
df.iloc[0]

In [None]:
# index = columns du DataFrame
df.iloc[0].index

In [None]:
# accès à des valeurs
df.iloc[[0, 1, 2, 76, -1]]

In [None]:
# accès à une valeur
df.iloc[1, 2]

Chercher le code hexa \xa0 : https://www.codetable.net/hex/a0

In [None]:
# aide sur read_html()
# pd.read_html?

In [None]:
# conversion automatique du séparateur des milliers
var = pd.read_html("https://fr.wikipedia.org/wiki/Liste_des_pays_par_PIB_nominal",
                    thousands='\xa0',
                    decimal=',')
df = var[1]
df.iloc[[0, 1, 2, 76, -1]]

In [None]:
# reste à faire
df.loc[df['Pays ou territoire'].str.contains("[^A-Za-zÀ-ÿ0-9 \-']")]

**Exercice 4**

Extraire les noms des pays sans les annotations.

**Avec beautifulsoup** parsing HTML

Doc :
- beautifulsoup : https://www.crummy.com/software/BeautifulSoup/bs4/doc/

Installation :
- *pip install beautifulsoup4* ou *conda install -c anaconda beautifulsoup4*

In [None]:
# imports
from bs4 import BeautifulSoup

**Exemple basique**

In [None]:
html = """
<html>
    <head>
        <style>
        h1 { font-size: 50px; }
        body { font-family: Verdana; }
        li { color: red; }
        ul ul li { color: green; }
        .highlighted { font-weight: bold; }
        .italic { font-style: italic; }
        .highlighted.italic { }
        </style>
    </head>
    <body>
        <h1>Mon titre</h1>
        <p class="highlighted">
            Some text with a<br>
            <a href="https://google.com">link to google</a>
            <img src="https://picsum.photos/200/300">
        </p>
        <p>Some list:</p>
        <ul>
            <li>some item</li>
            <li class="highlighted italic">some item</li>
            <li class="italic">some item</li>
            <ul>
                <li>some other item 1</li>
                <li>some other item 2</li>
            </ul>
            <li>some item</li>
        </ul>
    </body>
</html>
"""

A tester sur : https://html.house

In [None]:
# bs4
soup = BeautifulSoup(html)
soup

In [None]:
# type
type(soup)

In [None]:
# find h1
titre = soup.find('h1')
titre

In [None]:
# type
type(titre)

In [None]:
# name
titre.name

In [None]:
# text
titre.text

In [None]:
# find a
link = soup.find('a')
link

In [None]:
# prochain tag
link.find_next()

In [None]:
# attrs
link.attrs

In [None]:
# text
link.text

In [None]:
# find p
paragraph = soup.find('p')
paragraph

In [None]:
# find img in paragraph
paragraph.find('img')

In [None]:
# find_all
soup.find_all('li', {'class': "italic"})

In [None]:
# idem avec un sélecteur css:
soup.select('li.italic')

In [None]:
# Récupérer les li de 2e niveau qui sont dans un ul lui-même dans un ul
soup.find('ul').find('ul').find_all('li')

In [None]:
# idem avec un sélecteur css:
soup.select('ul ul li')

In [None]:
# accès au premier li
li = soup.select('ul ul li')[0]
li

In [None]:
# prochain tag identique
li.find_next_sibling()

In [None]:
# parent
li.parent

In [None]:
# contents
li.parent.contents

In [None]:
# que les tags
li.parent.find_all()

**Exemple 1**

Le Bon Coin

In [None]:
# premier essai avec leboncoin

r = requests.get('https://www.leboncoin.fr/annonces/offres/ile_de_france/')
r

Codes erreurs du protocole HTTP : https://developer.mozilla.org/fr/docs/Web/HTTP/Status

In [None]:
# contenu
r.content

In [None]:
# en str
print(r.content.decode('utf-8'))

Lancement du script `server.py` lancé dans un terminal avec la commande :
<code>python server.py --bind 127.0.0.1</code> sur Windows ou <code>python server.py --bind 0.0.0.0</code> sur MacOS.

In [None]:
%pycat server.py


In [None]:
# avec run de server.py
r = requests.get('http://127.0.0.1:8000')  # http://0.0.0.0:8000
r

In [None]:
# avec run de server.py
r.content

In [None]:
# avec run de server.py
from IPython.display import IFrame
IFrame('http://127.0.0.1:8000', width=800, height=200)  # http://0.0.0.0:8000

In [None]:
# headers
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:81.0) Gecko/20100101 Firefox/81.0',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Accept-Language': 'fr,fr-FR;q=0.8,en-US;q=0.5,en;q=0.3',
'Accept-Encoding': 'gzip, deflate',
}
headers

In [None]:
# 2nd essai avec leboncoin
r = requests.get('https://www.leboncoin.fr/annonces/offres/ile_de_france/',
                 headers=headers)
r

In [None]:
# BeautifulSoup
soup = BeautifulSoup(r.content)
soup

**Exemple 2**

Craig List

In [None]:
# essai avec craigslist
r = requests.get('https://paris.craigslist.org/d/locations-de-vacances/search/vac')
r

In [None]:
# BeautifulSoup
soup = BeautifulSoup(r.content)
soup

On utilise 2 méthodes :
    
- find(tag, attrs) : trouve le premier tag avec les attributs spécifiés
- findAll(tag, attrs) : trouve tous les tags avec les attributs spécifiés

In [None]:
# exploration du HTML
# tag li avec class="result-row"

li_tag = soup.find('li', attrs={'class': 'result-row'})
print(li_tag)

In [None]:
# type
type(li_tag)

La technique consiste par exemple à alimenter une liste de dictionnaires avec les valeurs trouvées pour chaque item et ensuite à le transformer en DataFrame :
- soit en utilisant tag.attrs['attr'] pour collecter la valeur attr du tag <tag attr=value>
- soit en utilisant tag.text pour collecter la valeur <tag>text</tag>
- éventuellement en recherchant dans un nouveau tag à l'intérieur d'un tag donné

In [None]:
# collecte des informations
# "data-pid"
# "time"
# "title"
# "price"
# "housing"
# "hood"
# "data-ids" (images)

rows = []

for li_tag in soup.findAll('li', attrs={'class': 'result-row'}):
    row = {}
    row['data-pid'] = li_tag.attrs['data-pid']
    # row['time'] = 
    # à compléter
    rows.append(row)
    
rows

In [None]:
# en DataFrame
df = pd.DataFrame(rows)
df

**Exercice 5**

Compléter le DataFrame (sauf images)

In [None]:
# collecte des photos
# traitement des "data-ids"
# séparation des formats et des noms de fichier
# from javascript
imageConfig = {"1":{"hostname":"https://images.craigslist.org","sizes":["50x50c","300x300","600x450","1200x900"]},
               "4":{"hostname":"https://images.craigslist.org","sizes":["50x50c","300x300","600x450","1200x900"]},
               "0":{"hostname":"https://images.craigslist.org","sizes":["50x50c","300x300","600x450"]},
               "3":{"hostname":"https://images.craigslist.org","sizes":["50x50c","300x300","600x450","1200x900"]},
               "2":{"hostname":"https://images.craigslist.org","sizes":["50x50c","300x300","600x450","1200x900"]}};

In [None]:
# récupération des photos
from urllib import request
from shutil import copyfileobj

# data-ids
img = '00d0d_3QrOcJHTZgj'
size = '300x300'
filename = '{}_{}.jpg'.format(img, size)
url = 'https://images.craigslist.org/{}'.format(filename)

# get the file from the web and save it locally
with request.urlopen(url) as response, open(filename, 'wb') as out_file:
    copyfileobj(response, out_file)

In [None]:
from IPython.display import Image
Image(filename=filename)

#### Inconvénients du web scraping:
- plutôt lent (car on parse potentiellement beaucoup de HTML inutile)
- ne donne pas les résultats attendus si une partie du contenu est intégré dynamiquement à la page via javascript
- un changement dans l'architecture du html ou du css (e.g: refonte du design du site) oblige à réécrire le programme