# Télécom Paris - MDI721 - Session 3

- **Parsing XML**
- **Web scraping et parsing HTML**
- **API**

In [None]:
#test

### Parsing XML (Extensible Markup Language)

Documentation : https://fr.wikipedia.org/wiki/Extensible_Markup_Language

Librairie lxml : https://lxml.de/tutorial.html

In [1]:
# imports
import pandas as pd
from lxml import etree

# options d'affichage
pd.set_option("display.min_rows", 16)

**Exemple**

Les 150 propositions de la Convention Citoyenne pour le Climat

https://www.data.gouv.fr/fr/datasets/les-150-propositions-de-la-convention-citoyenne-pour-le-climat/

In [25]:
# visualisation du fichier
%pycat propositions.xml

In [3]:
# parsing XML
root = etree.parse('propositions.xml')

In [4]:
# type
type(root)

lxml.etree._ElementTree

In [5]:
# trouver un élément
element = root.find('categorie')

In [6]:
# type
type(element)

lxml.etree._Element

In [7]:
# parent
element.getparent()

<Element propositions at 0x7f7f70c6ba00>

In [8]:
# attribut
element.attrib['titre']

'Modifications de la Constitution et des institutions'

In [9]:
# trouver un élément
element = root.find('categorie').find('sousCategorie').find('proposition')

In [10]:
# text
element.text

'Ajout d\'un alinéa dans le préambule de la Constitution : "La conciliation des droits, libertés et principes qui en résultent ne saurait compromettre la préservation de l’environnement, patrimoine commun de l’humanité."'

In [11]:
# nombre de catégories: getiterator
len([node for node in root.getiterator('categorie')])

6

In [12]:
# nombre de sous-catégories: getiterator
len([node for node in root.getiterator('sousCategorie')])

33

In [13]:
# nombre de propositions: getiterator
len([node for node in root.getiterator('proposition')])

149

In [14]:
# print categorie / sousCategorie / proposition
for node_categorie in root.getiterator('categorie'):
    
    print(node_categorie.attrib['titre'])
    
    for node_sousCategorie in node_categorie.getiterator('sousCategorie'):
        
        print('> ', node_sousCategorie.attrib['titre'])
        
        for node_proposition in node_sousCategorie.getiterator('proposition'):
            
            print('>> ', node_proposition.text)

Modifications de la Constitution et des institutions
>  
>>  Ajout d'un alinéa dans le préambule de la Constitution : "La conciliation des droits, libertés et principes qui en résultent ne saurait compromettre la préservation de l’environnement, patrimoine commun de l’humanité."
>>  Ajout d'un alinéa dans l'article premier de la Constitution : "La République garantit la préservation de la biodiversité, de l'environnement et lutte contre le dérèglement climatique."
>>  Création d'un "Défenseur de l'environnement", sur le modèle du Défenseur des droits
>>  Renforcement du rôle du CESE, le Conseil Economique Social et Environnemental
Se loger
>  Sur la rénovation énergétique des bâtiments
>>  Contraindre les propriétaires occupants et bailleurs à rénover leurs biens de manière globale
>>  Obliger le changement des chaudières au fioul et à charbon d'ici à 2030 dans les bâtiments neufs et rénovés
>>  Déployer un réseau harmonisé de guichets uniques
>>  Système progressif d'aides à la rénova

In [15]:
# imports
import pandas as pd

# fabrication d'un DataFrame à partir d'une liste de dict
l = [
    {'a': 1, 'b': 2},
    {'a': 3, 'b': 4},
    {'a': 5, 'b': 6},
]

pd.DataFrame(l)

Unnamed: 0,a,b
0,1,2
1,3,4
2,5,6


In [16]:
# fabrication d'un DataFrame à partir du XML
liste = [
    {'categorie': node_category.attrib['titre'],
    'sousCategorie': node_subcategory.attrib['titre'],
    'proposition': node_proposition.text}
        for node_category in root.getiterator('categorie')
            for node_subcategory in node_category.getiterator('sousCategorie')
                for node_proposition in node_subcategory.getiterator('proposition')]

df = pd.DataFrame(liste)
df

Unnamed: 0,categorie,sousCategorie,proposition
0,Modifications de la Constitution et des instit...,,Ajout d'un alinéa dans le préambule de la Cons...
1,Modifications de la Constitution et des instit...,,Ajout d'un alinéa dans l'article premier de la...
2,Modifications de la Constitution et des instit...,,"Création d'un ""Défenseur de l'environnement"", ..."
3,Modifications de la Constitution et des instit...,,"Renforcement du rôle du CESE, le Conseil Econo..."
4,Se loger,Sur la rénovation énergétique des bâtiments,Contraindre les propriétaires occupants et bai...
5,Se loger,Sur la rénovation énergétique des bâtiments,Obliger le changement des chaudières au fioul ...
6,Se loger,Sur la rénovation énergétique des bâtiments,Déployer un réseau harmonisé de guichets uniques
7,Se loger,Sur la rénovation énergétique des bâtiments,"Système progressif d'aides à la rénovation, av..."
...,...,...,...
141,Produire et travailler,Renforcer les obligations relatives à la prése...,Conditionner les aides publiques à l'évolution...


In [17]:
# catégories
df['categorie'].value_counts()

Se déplacer                                             43
Se nourrir                                              42
Produire et travailler                                  25
Se loger                                                21
Consommer                                               14
Modifications de la Constitution et des institutions     4
Name: categorie, dtype: int64

In [18]:
# requêtes
df['proposition'].str.contains('biodiversité').sum()

2

In [19]:
# requêtes
print(*df.loc[df['proposition'].str.contains('biodiversité'), 'proposition'].values, sep='\n')

Ajout d'un alinéa dans l'article premier de la Constitution : "La République garantit la préservation de la biodiversité, de l'environnement et lutte contre le dérèglement climatique."
Protection des écosystèmes et de la biodiversité


In [20]:
# requêtes
df['proposition'].str.contains('énergie').sum()

3

In [21]:
# requêtes
print(*df.loc[df['proposition'].str.contains('énergie'), 'proposition'].values, sep='\n')

Contraindre par des mesures fortes les espaces publics et les bâtiments tertiaires à réduire leur consommation d’énergie
Changer en profondeur les comportements en incitant les particuliers à réduire leur consommation d'énergie
Participation des citoyens, entreprises locales, associations locales et collectivités locales aux projets énergies renouvelables (EnR)


**Exercice 1**

Produire un DataFrame avec les colonnes : categorie, sousCategorie, oui (float).

In [36]:
# fabrication d'un DataFrame à partir du XML
liste = [
    {'categorie': node_category.attrib['titre'],
    'sousCategorie': node_subcategory.attrib['titre'],
    'oui': node_oui.text}
        for node_category in root.getiterator('categorie')
            for node_subcategory in node_category.getiterator('sousCategorie')
                for node_oui in node_subcategory.getiterator('oui')]

df = pd.DataFrame(liste)
df['oui'] = df['oui'].str.replace(',','.',1).astype(float)
df

Unnamed: 0,categorie,sousCategorie,oui
0,Se loger,Sur la rénovation énergétique des bâtiments,87.3
1,Se loger,Réduire la consommation d'énergie,92.0
2,Se loger,Lutter contre l'artificialisation des sols,99.0
3,Consommer,Affichage,98.8
4,Consommer,Publicité,89.6
5,Consommer,Suremballage,95.9
6,Consommer,Education,97.9
7,Consommer,Suivi et contrôle des politiques publiques env...,95.9
8,Se déplacer,Sortir de l'usage de la voiture en solo,96.4
9,Se déplacer,Aménagements de la voie publique,98.6


In [37]:
a = root.find('categorie').find('sousCategorie').find('proposition').find('vote')

**Exercice 2**

- Produire un DataFrame avec les colonnes : categorie, sousCategorie, oui (float), non (float), blancs (float).
- Calculer les sommes oui + non + blancs et oui + non &#9786;

In [50]:
# fabrication d'un DataFrame à partir du XML
liste = [
    {'categorie': node_category.attrib['titre'],
    'sousCategorie': node_subcategory.attrib['titre'],
    'oui': node_oui.text,
    'non': node_non.text,
    'blancs': node_blancs.text}
        for node_category in root.getiterator('categorie')
            for node_subcategory in node_category.getiterator('sousCategorie')
                for node_oui in node_subcategory.getiterator('oui')
                    for node_non in node_subcategory.getiterator('non')
                        for node_blancs in node_subcategory.getiterator('blancs')]

df = pd.DataFrame(liste)
df['oui'] = df['oui'].str.replace(',','.',1).astype(float)
df['non'] = df['non'].str.replace(',','.',1).astype(float)
df['blancs'] = df['blancs'].str.replace(',','.',1).astype(float)

df

Unnamed: 0,categorie,sousCategorie,oui,non,blancs
0,Se loger,Sur la rénovation énergétique des bâtiments,87.3,12.7,9.5
1,Se loger,Réduire la consommation d'énergie,92.0,8.0,3.0
2,Se loger,Lutter contre l'artificialisation des sols,99.0,1.0,1.0
3,Consommer,Affichage,98.8,2.0,0.7
4,Consommer,Publicité,89.6,10.4,4.0
5,Consommer,Suremballage,95.9,4.1,2.7
6,Consommer,Education,97.9,2.1,2.7
7,Consommer,Suivi et contrôle des politiques publiques env...,95.9,4.1,2.7
8,Se déplacer,Sortir de l'usage de la voiture en solo,96.4,3.6,4.1
9,Se déplacer,Aménagements de la voie publique,98.6,1.4,2.0


In [49]:
# CORRECTION
# fabrication d'un DataFrame à partir du XML
liste = [
    {'categorie': node_category.attrib['titre'],
    'sousCategorie': node_subcategory.attrib['titre'],
    'oui': node_vote.find('oui').text,
    'non': node_vote.find('non').text,
    'blancs': node_vote.find('blancs').text}
        for node_category in root.getiterator('categorie')
            for node_subcategory in node_category.getiterator('sousCategorie')
                for node_vote in node_subcategory.getiterator('vote')]

df = pd.DataFrame(liste)
#df['oui'] = df[['oui', 'non', 'blancs']].applymap(lambda x: x.replace(',','.',1).astype(float))
#df['non'] = df['non'].str.replace(',','.',1).astype(float)
#df['blancs'] = df['blancs'].str.replace(',','.',1).astype(float)

df

Unnamed: 0,categorie,sousCategorie,oui,non,blancs
0,Se loger,Sur la rénovation énergétique des bâtiments,873,127,95
1,Se loger,Réduire la consommation d'énergie,920,80,30
2,Se loger,Lutter contre l'artificialisation des sols,990,10,10
3,Consommer,Affichage,988,20,7
4,Consommer,Publicité,896,104,40
5,Consommer,Suremballage,959,41,27
6,Consommer,Education,979,21,27
7,Consommer,Suivi et contrôle des politiques publiques env...,959,41,27
8,Se déplacer,Sortir de l'usage de la voiture en solo,964,36,41
9,Se déplacer,Aménagements de la voie publique,986,14,20


In [51]:
df[['oui', 'non', 'blancs']].sum(axis = 1)

0     109.5
1     103.0
2     101.0
3     101.5
4     104.0
5     102.7
6     102.7
7     102.7
8     104.1
9     102.0
10    101.3
11    100.0
12    102.7
13    104.7
14    108.0
15    103.4
16    102.7
17    108.2
dtype: float64

**Exercice 3**

- Calculer un dictionnaire fréquentiel des mots  des propositions.
- Le mettre dans un objet de type Series.

In [56]:
# fabrication d'un DataFrame à partir du XML
liste = [
    {'categorie': node_category.attrib['titre'],
    'sousCategorie': node_subcategory.attrib['titre'],
    'proposition': node_proposition.text}
        for node_category in root.getiterator('categorie')
            for node_subcategory in node_category.getiterator('sousCategorie')
                for node_proposition in node_subcategory.getiterator('proposition')]

df = pd.DataFrame(liste)
df.head()

Unnamed: 0,categorie,sousCategorie,proposition
0,Modifications de la Constitution et des instit...,,Ajout d'un alinéa dans le préambule de la Cons...
1,Modifications de la Constitution et des instit...,,Ajout d'un alinéa dans l'article premier de la...
2,Modifications de la Constitution et des instit...,,"Création d'un ""Défenseur de l'environnement"", ..."
3,Modifications de la Constitution et des instit...,,"Renforcement du rôle du CESE, le Conseil Econo..."
4,Se loger,Sur la rénovation énergétique des bâtiments,Contraindre les propriétaires occupants et bai...


In [52]:
# re.findall()
import re
re.findall('[A-Za-zÀ-ÿ0-9]+', 'la fonction findall est très utile.')

['la', 'fonction', 'findall', 'est', 'très', 'utile']

In [53]:
# Counter
from collections import Counter
c = Counter()
c.update(['la', 'fonction', 'findall', 'est', 'très', 'utile',
          'un', 'objet', 'de', 'type', 'counter', 'est', 'aussi', 'utile'])
c

Counter({'la': 1,
         'fonction': 1,
         'findall': 1,
         'est': 2,
         'très': 1,
         'utile': 2,
         'un': 1,
         'objet': 1,
         'de': 1,
         'type': 1,
         'counter': 1,
         'aussi': 1})

In [61]:
c = Counter()
df['proposition'].apply(lambda x: c.update(re.findall('[A-Za-zÀ-ÿ0-9]+', x.lower())))
c

Counter({'ajout': 2,
         'd': 61,
         'un': 27,
         'alinéa': 2,
         'dans': 31,
         'le': 49,
         'préambule': 1,
         'de': 190,
         'la': 110,
         'constitution': 2,
         'conciliation': 1,
         'des': 108,
         'droits': 2,
         'libertés': 1,
         'et': 93,
         'principes': 1,
         'qui': 10,
         'en': 69,
         'résultent': 1,
         'ne': 3,
         'saurait': 1,
         'compromettre': 1,
         'préservation': 2,
         'l': 82,
         'environnement': 8,
         'patrimoine': 1,
         'commun': 2,
         'humanité': 1,
         'article': 1,
         'premier': 1,
         'république': 1,
         'garantit': 1,
         'biodiversité': 3,
         'lutte': 2,
         'contre': 2,
         'dérèglement': 1,
         'climatique': 2,
         'création': 2,
         'défenseur': 2,
         'sur': 28,
         'modèle': 3,
         'du': 25,
         'renforcement': 1,
         '

In [64]:
voc = pd.Series(dict(c))
voc = voc.sort_values(ascending = False)
voc

de               190
les              158
la               110
des              108
et                93
l                 82
à                 74
en                69
                ... 
ordures            1
enlèvement         1
significative      1
part               1
remplacer          1
emballage          1
compostables       1
poursuivant        1
Length: 1051, dtype: int64

#### Validation XML / XSD

Il existe un langage de description de schéma XML appelé XSD (XML Schema Definition). Un fichier XML peut être écrit selon un schéma XSD particulier. Il existe une librairie Python qui peut vérifier qu'un fichier XML est valide selon un schéma XSD donné.

Librairie xmlschema :
https://pypi.org/project/xmlschema/

L'utilisation de la librairie est assez simple :

<pre>
>>> # vérification que le fichier "file.xml" est valide dans le schéma "schema.xsd"
>>> import xmlschema
>>> my_schema = xmlschema.XMLSchema('schema.xsd')
>>> #
>>> # retourne un booléen selon la validité
>>> my_schema.is_valid('file.xml')
</pre>

### Web Scraping

- Extraction d'informations d'un site web.
- A utiliser en l'absence de données ouvertes ou d'API.
- Technique fragile car le site web peut changer du jour au lendemain.
- Problématique juridique...

**Avec requests**

Doc :
- requests : https://requests.readthedocs.io/en/master/

Installation :
- *pip install requests* ou *conda install -c anaconda requests*

Exemple de site : https://www.beerwulf.com/fr-fr

In [65]:
import requests

r = requests.get('https://www.beerwulf.com/fr-fr')
r.status_code

200

In [None]:
# content
r.content

In [None]:
# type
type(r.content)

In [None]:
# str en précisant un encodage
content = r.content.decode('utf-8')
content

#### Essai avec des regex

In [None]:
# récupération mannuelle d'un prix avec une regex
# extraction de tous les caractères différents de <
# compris entre <span class="price"> et </span>
rx = re.compile('<span class="price">([^<]+)</span>')
match = rx.search(content)  # équivalent à match = re.search('<span class="price">([^<]+)</span>', content)
type(match)

In [None]:
# extraction de niveau 0
match.group(0)

In [None]:
# extraction de niveau 1
match.group(1)

In [None]:
# récupération mannuelle de tous les prix avec une regex
for match in rx.finditer(content):
    print(match.group(1))

La technique est très fragile car elle s'appuie sur la syntaxe HTML exacte et non sur la sémantique...

In [None]:
# récupération mannuelle de tous les prix avec une regex
rx = re.compile('<span class="price from-price">([^<]+)</span>')
for match in rx.finditer(content):
    print(match.group(1))

In [None]:
# récupération mannuelle de tous les prix avec une regex
# ( from-price)? est une expression de capture
# possibilité d'utiliser (?: from-price)? qui n'est pas une expression de capture
rx = re.compile('<span class="price( from-price)?">([^<]+)</span>')
for match in rx.finditer(content):
    print(match.group(1), match.group(2))

**Avec pandas.read_html()** recherche des tableaux dans les pages HTML

**Exemple**

Tableau page wikipédia: https://fr.wikipedia.org/wiki/Liste_des_pays_par_PIB_nominal

In [None]:
# scraping d'une page HTML
var = pd.read_html("https://fr.wikipedia.org/wiki/Liste_des_pays_par_PIB_nominal")
[df.shape for df in var]

In [None]:
# accès au n° 2
df = var[1]
df

In [None]:
# accès à des valeurs
df.iloc[0]

In [None]:
# index = columns du DataFrame
df.iloc[0].index

In [None]:
# accès à des valeurs
df.iloc[[0, 1, 2, 76, -1]]

In [None]:
# accès à une valeur
df.iloc[1, 2]

Chercher le code hexa \xa0 : https://www.codetable.net/hex/a0

In [None]:
# aide sur read_html()
# pd.read_html?

In [None]:
# conversion automatique du séparateur des milliers
var = pd.read_html("https://fr.wikipedia.org/wiki/Liste_des_pays_par_PIB_nominal",
                    thousands='\xa0',
                    decimal=',')
df = var[1]
df.iloc[[0, 1, 2, 76, -1]]

In [None]:
# reste à faire
df.loc[df['Pays ou territoire'].str.contains("[^A-Za-zÀ-ÿ0-9 \-']")]

**Exercice 4**

Extraire les noms des pays sans les annotations.

**Avec beautifulsoup** parsing HTML

Doc :
- beautifulsoup : https://www.crummy.com/software/BeautifulSoup/bs4/doc/

Installation :
- *pip install beautifulsoup4* ou *conda install -c anaconda beautifulsoup4*

In [None]:
# imports
from bs4 import BeautifulSoup

**Exemple basique**

In [None]:
html = """
<html>
    <head>
        <style>
        h1 { font-size: 50px; }
        body { font-family: Verdana; }
        li { color: red; }
        ul ul li { color: green; }
        .highlighted { font-weight: bold; }
        .italic { font-style: italic; }
        .highlighted.italic { }
        </style>
    </head>
    <body>
        <h1>Mon titre</h1>
        <p class="highlighted">
            Some text with a<br>
            <a href="https://google.com">link to google</a>
            <img src="https://picsum.photos/200/300">
        </p>
        <p>Some list:</p>
        <ul>
            <li>some item</li>
            <li class="highlighted italic">some item</li>
            <li class="italic">some item</li>
            <ul>
                <li>some other item 1</li>
                <li>some other item 2</li>
            </ul>
            <li>some item</li>
        </ul>
    </body>
</html>
"""

A tester sur : https://html.house

In [None]:
# bs4
soup = BeautifulSoup(html)
soup

In [None]:
# type
type(soup)

In [None]:
# find h1
titre = soup.find('h1')
titre

In [None]:
# type
type(titre)

In [None]:
# name
titre.name

In [None]:
# text
titre.text

In [None]:
# find a
link = soup.find('a')
link

In [None]:
# prochain tag
link.find_next()

In [None]:
# attrs
link.attrs

In [None]:
# text
link.text

In [None]:
# find p
paragraph = soup.find('p')
paragraph

In [None]:
# find img in paragraph
paragraph.find('img')

In [None]:
# find_all
soup.find_all('li', {'class': "italic"})

In [None]:
# idem avec un sélecteur css:
soup.select('li.italic')

In [None]:
# Récupérer les li de 2e niveau qui sont dans un ul lui-même dans un ul
soup.find('ul').find('ul').find_all('li')

In [None]:
# idem avec un sélecteur css:
soup.select('ul ul li')

In [None]:
# accès au premier li
li = soup.select('ul ul li')[0]
li

In [None]:
# prochain tag identique
li.find_next_sibling()

In [None]:
# parent
li.parent

In [None]:
# contents
li.parent.contents

In [None]:
# que les tags
li.parent.find_all()

**Exemple 1**

Le Bon Coin

In [None]:
# premier essai avec leboncoin

r = requests.get('https://www.leboncoin.fr/annonces/offres/ile_de_france/')
r

Codes erreurs du protocole HTTP : https://developer.mozilla.org/fr/docs/Web/HTTP/Status

In [None]:
# contenu
r.content

In [None]:
# en str
print(r.content.decode('utf-8'))

Lancement du script `server.py` lancé dans un terminal avec la commande :
<code>python server.py --bind 127.0.0.1</code> sur Windows ou <code>python server.py --bind 0.0.0.0</code> sur MacOS.

In [None]:
# avec run de server.py
r = requests.get('http://127.0.0.1:8000')  # http://0.0.0.0:8000
r

In [None]:
# avec run de server.py
r.content

In [None]:
# avec run de server.py
from IPython.display import IFrame
IFrame('http://127.0.0.1:8000', width=800, height=200)  # http://0.0.0.0:8000

In [None]:
# headers
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:81.0) Gecko/20100101 Firefox/81.0',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Accept-Language': 'fr,fr-FR;q=0.8,en-US;q=0.5,en;q=0.3',
'Accept-Encoding': 'gzip, deflate',
}
headers

In [None]:
# 2nd essai avec leboncoin
r = requests.get('https://www.leboncoin.fr/annonces/offres/ile_de_france/',
                 headers=headers)
r

In [None]:
# BeautifulSoup
soup = BeautifulSoup(r.content)
soup

**Exemple 2**

Craig List

In [None]:
# essai avec craigslist
r = requests.get('https://paris.craigslist.org/d/locations-de-vacances/search/vac')
r

In [None]:
# BeautifulSoup
soup = BeautifulSoup(r.content)
soup

On utilise 2 méthodes :
    
- find(tag, attrs) : trouve le premier tag avec les attributs spécifiés
- findAll(tag, attrs) : trouve tous les tags avec les attributs spécifiés

In [None]:
# exploration du HTML
# tag li avec class="result-row"

li_tag = soup.find('li', attrs={'class': 'result-row'})
print(li_tag)

In [None]:
# type
type(li_tag)

La technique consiste par exemple à alimenter une liste de dictionnaires avec les valeurs trouvées pour chaque item et ensuite à le transformer en DataFrame :
- soit en utilisant tag.attrs['attr'] pour collecter la valeur attr du tag <tag attr=value>
- soit en utilisant tag.text pour collecter la valeur <tag>text</tag>
- éventuellement en recherchant dans un nouveau tag à l'intérieur d'un tag donné

In [None]:
# collecte des informations
# "data-pid"
# "time"
# "title"
# "price"
# "housing"
# "hood"
# "data-ids" (images)

rows = []

for li_tag in soup.findAll('li', attrs={'class': 'result-row'}):
    row = {}
    row['data-pid'] = li_tag.attrs['data-pid']
    # row['time'] = 
    # à compléter
    rows.append(row)
    
rows

In [None]:
# en DataFrame
df = pd.DataFrame(rows)
df

**Exercice 5**

Compléter le DataFrame (sauf images)

In [None]:
# collecte des photos
# traitement des "data-ids"
# séparation des formats et des noms de fichier
# from javascript
imageConfig = {"1":{"hostname":"https://images.craigslist.org","sizes":["50x50c","300x300","600x450","1200x900"]},
               "4":{"hostname":"https://images.craigslist.org","sizes":["50x50c","300x300","600x450","1200x900"]},
               "0":{"hostname":"https://images.craigslist.org","sizes":["50x50c","300x300","600x450"]},
               "3":{"hostname":"https://images.craigslist.org","sizes":["50x50c","300x300","600x450","1200x900"]},
               "2":{"hostname":"https://images.craigslist.org","sizes":["50x50c","300x300","600x450","1200x900"]}};

In [None]:
# récupération des photos
from urllib import request
from shutil import copyfileobj

# data-ids
img = '00d0d_3QrOcJHTZgj'
size = '300x300'
filename = '{}_{}.jpg'.format(img, size)
url = 'https://images.craigslist.org/{}'.format(filename)

# get the file from the web and save it locally
with request.urlopen(url) as response, open(filename, 'wb') as out_file:
    copyfileobj(response, out_file)

In [None]:
from IPython.display import Image
Image(filename=filename)

#### Inconvénients du web scraping:
- plutôt lent (car on parse potentiellement beaucoup de HTML inutile)
- ne donne pas les résultats attendus si une partie du contenu est intégré dynamiquement à la page via javascript
- un changement dans l'architecture du html ou du css (e.g: refonte du design du site) oblige à réécrire le programme

### API

Exemple: Deezer

Artiste : https://www.deezer.com/fr/artist/3037

Récupérer le nombre de fans d'un artiste avec requests :

In [None]:
# request
artist = 3037
response = requests.get(f'https://www.deezer.com/fr/artist/{artist}')
soup = BeautifulSoup(response.content)
nb_fans = int(soup.find('div', id='naboo_artist_social_small').span.text)
nb_fans

Récupérer le nombre de fans d'un artiste avec l'API :

Doc:
- https://pypi.org/project/deezer-python/

Installation :
- *pip install deezer-python*

Le terme "API" est très générique et peut désigner bien des choses, mais dans le jargon on l'utilise souvent pour désigner un service web qui renvoie non pas:
> des pages web au format HTML (destinées à être lues par un humain dans son navigateur)

mais:
> des données au format JSON (destinées à être traitées par un programme)

![img](https://miro.medium.com/max/4238/1*OcmVkcsM5BWRHrg8GC17iw.png)

Puisque les API sont dédiées à l'usage via des programmes, elles disposent en général d'une bonne documentation, et sont fiables et stables dans le temps. Tandis que sur des pages web HTML classiques, le design peut par exemple changer du jour au lendemain et rendre votre programme BeautifulSoup obsolète.

In [None]:
# API JSON
response = requests.get(f'https://api.deezer.com/artist/{artist}')
data = response.json()
data

In [None]:
# nb_fan
data['nb_fan']

In [None]:
# picture
url = data['picture']
r = requests.get(url)
Image(data=r.content)

#### Avantages d'une API
- renvoie du format JSON, facile et rapide à traiter
- renvoie un format stable et documenté (voire versionné)
- exemple : https://developer.twitter.com/en/docs/twitter-api/api-reference-index
- la documentation indique comment interagir avec l'API:
    - quelle url
    - quelle méthode http (GET, POST, ...)
    - quels paramètres
    - ...
→ idéal pour les développeurs

### Quel intérêt pour le fournisseur d'API ?

En général il met en place des quotas de requêtes ou d'autres limitations afin de proposer un service payant qui dispose de possibilités avancées / d'un meilleur support / etc.

C'est pourquoi de nombreux services nécessitent de se connecter avec son compte client pour utiliser une API (e.g. https://openweathermap.org/api)

#### **Basic Auth**

Exemple: accéder à https://kim.fspot.org/private/

Pour y accéder il est nécessaire d'utiliser les credentials suivant:
- login: admin
- password: secret

Si on ne les passe pas (ou si on ne passe pas les bons), on a une erreur 401 (= unauthorized).

In [None]:
# sans login/password
res = requests.get('https://kim.fspot.org/private')
res

In [None]:
# avec login password
res = requests.get('https://kim.fspot.org/private', auth=('admin', 'secret'))
res

In [None]:
# contenu
res.content.decode('utf-8')

#### Auth par token

Exemple sur openweathermap :
- documentation: https://openweathermap.org/appid
- mes tokens: https://home.openweathermap.org/api_keys

In [None]:
# requête avec un token
token = ''

Avantage des tokens:
- évite que les requêtes HTTP contiennent le mot de passe - à la place elles contiennent un token
- si je me fais "voler" un token, je peux le supprimer de mon compte
- certains services fournissent des token plus ou moins limités : ainsi je peux accepter de prêter un token à quelqu'un d'autre si je sais qu'il ne pourra en faire qu'un usage restreint (e.g app facebook: voir mes infos de profil, pas publier des posts à ma place)

In [None]:
# requête avec un token
url = f'http://api.openweathermap.org/data/2.5/weather?APPID={token}&q=Paris'
res = requests.get(url)

meteo = res.json()
meteo

In [None]:
# type
type(meteo)

In [None]:
# extractions
{'city': meteo['name'],
'country': meteo['sys']['country'],
'date': meteo['dt'],
'temp': meteo['main']['temp'] - 273.15,}

In [None]:
# extractions
import time

{'city': meteo['name'],
'country': meteo['sys']['country'],
'date': time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(meteo['dt'])),
'temp': meteo['main']['temp'] - 273.15,}