# Télécom Paris - INFMDI721 - Session 4

1. **Parsing XML**
2. **Web scraping et parsing HTML**
3. **API**

### 1. Parsing XML (Extensible Markup Language)

Documentation : https://fr.wikipedia.org/wiki/Extensible_Markup_Language

Librairie lxml : https://lxml.de/tutorial.html

In [1]:
# imports
import pandas as pd
from lxml import etree

# options d'affichage
pd.set_option("display.min_rows", 16)

**Exemple**

Les 150 propositions de la Convention Citoyenne pour le Climat

https://www.data.gouv.fr/fr/datasets/les-150-propositions-de-la-convention-citoyenne-pour-le-climat/

In [4]:
# parsing XML
root = etree.parse('propositions.xml')

In [5]:
# type
type(root)

lxml.etree._ElementTree

In [6]:
# trouver un élément
element = root.find('categorie')

In [7]:
# type
type(element)

lxml.etree._Element

In [8]:
# parent
element.getparent()

<Element propositions at 0x7fcf744110c0>

In [9]:
# attribut
element.attrib['titre']

'Modifications de la Constitution et des institutions'

In [10]:
# trouver un élément
element = root.find('categorie').find('sousCategorie').find('proposition')

In [11]:
# text
element.text

'Ajout d\'un alinéa dans le préambule de la Constitution : "La conciliation des droits, libertés et principes qui en résultent ne saurait compromettre la préservation de l’environnement, patrimoine commun de l’humanité."'

In [12]:
# nombre de catégories: getiterator
len([node for node in root.getiterator('categorie')])

6

In [13]:
# nombre de sous-catégories: getiterator
len([node for node in root.getiterator('sousCategorie')])

33

In [14]:
# nombre de propositions: getiterator
len([node for node in root.getiterator('proposition')])

149

In [62]:
# print categorie / sousCategorie / proposition
for node_categorie in root.getiterator('categorie'):
    
    print(node_categorie.attrib['titre'])
    
    for node_sousCategorie in node_categorie.getiterator('sousCategorie'):
        
        print('> ', node_sousCategorie.attrib['titre'])
        
        for node_proposition in node_sousCategorie.getiterator('proposition'):
            
            print('>> ', node_proposition.text)

Modifications de la Constitution et des institutions
>  
>>  Ajout d'un alinéa dans le préambule de la Constitution : "La conciliation des droits, libertés et principes qui en résultent ne saurait compromettre la préservation de l’environnement, patrimoine commun de l’humanité."
>>  Ajout d'un alinéa dans l'article premier de la Constitution : "La République garantit la préservation de la biodiversité, de l'environnement et lutte contre le dérèglement climatique."
>>  Création d'un "Défenseur de l'environnement", sur le modèle du Défenseur des droits
>>  Renforcement du rôle du CESE, le Conseil Economique Social et Environnemental
Se loger
>  Sur la rénovation énergétique des bâtiments
>>  Contraindre les propriétaires occupants et bailleurs à rénover leurs biens de manière globale
>>  Obliger le changement des chaudières au fioul et à charbon d'ici à 2030 dans les bâtiments neufs et rénovés
>>  Déployer un réseau harmonisé de guichets uniques
>>  Système progressif d'aides à la rénova

In [63]:
# fabrication d'un DataFrame à partir d'une liste de dict
liste = [
        {'a': 1, 'b': 2},
        {'a': 3, 'b': 4},
        {'a': 5, 'b': 6},
]

pd.DataFrame(liste)

Unnamed: 0,a,b
0,1,2
1,3,4
2,5,6


In [64]:
# fabrication d'un DataFrame à partir du XML 
# 1ere étape = constitution de dictionnaire dans une grosse liste
liste = [
    {'categorie': node_category.attrib['titre'],
    'sousCategorie': node_subcategory.attrib['titre'],
    'proposition': node_proposition.text}
        for node_category in root.getiterator('categorie')
            for node_subcategory in node_category.getiterator('sousCategorie')
                for node_proposition in node_subcategory.getiterator('proposition')]
liste

[{'categorie': 'Modifications de la Constitution et des institutions',
  'sousCategorie': '',
  'proposition': 'Ajout d\'un alinéa dans le préambule de la Constitution : "La conciliation des droits, libertés et principes qui en résultent ne saurait compromettre la préservation de l’environnement, patrimoine commun de l’humanité."'},
 {'categorie': 'Modifications de la Constitution et des institutions',
  'sousCategorie': '',
  'proposition': 'Ajout d\'un alinéa dans l\'article premier de la Constitution : "La République garantit la préservation de la biodiversité, de l\'environnement et lutte contre le dérèglement climatique."'},
 {'categorie': 'Modifications de la Constitution et des institutions',
  'sousCategorie': '',
  'proposition': 'Création d\'un "Défenseur de l\'environnement", sur le modèle du Défenseur des droits'},
 {'categorie': 'Modifications de la Constitution et des institutions',
  'sousCategorie': '',
  'proposition': 'Renforcement du rôle du CESE, le Conseil Economiq

In [65]:
# fabrication d'un DataFrame à partir du XML
# Transformation de la liste en un data frame
df = pd.DataFrame(liste)
df

Unnamed: 0,categorie,sousCategorie,proposition
0,Modifications de la Constitution et des instit...,,Ajout d'un alinéa dans le préambule de la Cons...
1,Modifications de la Constitution et des instit...,,Ajout d'un alinéa dans l'article premier de la...
2,Modifications de la Constitution et des instit...,,"Création d'un ""Défenseur de l'environnement"", ..."
3,Modifications de la Constitution et des instit...,,"Renforcement du rôle du CESE, le Conseil Econo..."
4,Se loger,Sur la rénovation énergétique des bâtiments,Contraindre les propriétaires occupants et bai...
5,Se loger,Sur la rénovation énergétique des bâtiments,Obliger le changement des chaudières au fioul ...
6,Se loger,Sur la rénovation énergétique des bâtiments,Déployer un réseau harmonisé de guichets uniques
7,Se loger,Sur la rénovation énergétique des bâtiments,"Système progressif d'aides à la rénovation, av..."
...,...,...,...
141,Produire et travailler,Renforcer les obligations relatives à la prése...,Conditionner les aides publiques à l'évolution...


In [66]:
# catégories
df['categorie'].value_counts()

Se déplacer                                             43
Se nourrir                                              42
Produire et travailler                                  25
Se loger                                                21
Consommer                                               14
Modifications de la Constitution et des institutions     4
Name: categorie, dtype: int64

In [67]:
# requêtes
df['proposition'].str.contains('biodiversité').sum()

2

In [68]:
# requêtes
print(*df.loc[df['proposition'].str.contains('biodiversité'), 'proposition'], sep='\n')

Ajout d'un alinéa dans l'article premier de la Constitution : "La République garantit la préservation de la biodiversité, de l'environnement et lutte contre le dérèglement climatique."
Protection des écosystèmes et de la biodiversité


In [69]:
# requêtes
df['proposition'].str.contains('énergie').sum()

3

In [70]:
# requêtes

#caractère étoile explication ci dessous
print(*df.loc[df['proposition'].str.contains('énergie'), 'proposition'], sep='\n')

Contraindre par des mesures fortes les espaces publics et les bâtiments tertiaires à réduire leur consommation d’énergie
Changer en profondeur les comportements en incitant les particuliers à réduire leur consommation d'énergie
Participation des citoyens, entreprises locales, associations locales et collectivités locales aux projets énergies renouvelables (EnR)


In [71]:
print(1, 2, 3)

1 2 3


In [72]:
print([1, 2, 3])

[1, 2, 3]


In [73]:
#le caractère étoile permet d'oublier que c'est une liste et d'afficher le résultat sous un format plus agréable à lire
print(*[1, 2, 3])

1 2 3


In [74]:
# Autre exemple de l'utilisation des étoiles 
print(1, 2, 3, **{'sep': ':', 'end': ''})

1:2:3

In [75]:
# on stocke les propositions pour plus tard
propositions = df['proposition'].copy()

In [76]:
# f(*args, **kwargs)

*args = arguments positionnels
**kwargs = arguments à mot-clefs 

SyntaxError: invalid syntax (<ipython-input-76-dc5c27dd54d3>, line 3)

**Exercice 1**

Produire un DataFrame avec les colonnes : categorie, sousCategorie, oui (float).

In [77]:
# fabrication d'un DataFrame à partir du XML
liste = [
    {'categorie': node_category.attrib['titre'],
    'sousCategorie': node_subcategory.attrib['titre'],
    'oui': node_oui.text}
        for node_category in root.getiterator('categorie')
            for node_subcategory in node_category.getiterator('sousCategorie')
                for node_oui in node_subcategory.getiterator('oui')]
liste

[{'categorie': 'Se loger',
  'sousCategorie': 'Sur la rénovation énergétique des bâtiments',
  'oui': '87,3'},
 {'categorie': 'Se loger',
  'sousCategorie': "Réduire la consommation d'énergie",
  'oui': '92,0'},
 {'categorie': 'Se loger',
  'sousCategorie': "Lutter contre l'artificialisation des sols",
  'oui': '99,0'},
 {'categorie': 'Consommer', 'sousCategorie': 'Affichage', 'oui': '98,8'},
 {'categorie': 'Consommer', 'sousCategorie': 'Publicité', 'oui': '89,6'},
 {'categorie': 'Consommer', 'sousCategorie': 'Suremballage', 'oui': '95,9'},
 {'categorie': 'Consommer', 'sousCategorie': 'Education', 'oui': '97,9'},
 {'categorie': 'Consommer',
  'sousCategorie': 'Suivi et contrôle des politiques publiques environnementales',
  'oui': '95,9'},
 {'categorie': 'Se déplacer',
  'sousCategorie': "Sortir de l'usage de la voiture en solo",
  'oui': '96,4'},
 {'categorie': 'Se déplacer',
  'sousCategorie': 'Aménagements de la voie publique',
  'oui': '98,6'},
 {'categorie': 'Se déplacer',
  'sous

In [78]:
df = pd.DataFrame(liste)
df['oui'] = df['oui'].str.replace(',','.').astype(float)
df

Unnamed: 0,categorie,sousCategorie,oui
0,Se loger,Sur la rénovation énergétique des bâtiments,87.3
1,Se loger,Réduire la consommation d'énergie,92.0
2,Se loger,Lutter contre l'artificialisation des sols,99.0
3,Consommer,Affichage,98.8
4,Consommer,Publicité,89.6
5,Consommer,Suremballage,95.9
6,Consommer,Education,97.9
7,Consommer,Suivi et contrôle des politiques publiques env...,95.9
8,Se déplacer,Sortir de l'usage de la voiture en solo,96.4
9,Se déplacer,Aménagements de la voie publique,98.6


**Exercice 2**

- Produire un DataFrame avec les colonnes : categorie, sousCategorie, oui (float), non (float), blancs (float).
- Calculer les sommes oui + non + blancs et oui + non &#9786;

In [79]:
# fabrication d'un DataFrame à partir du XML
liste = [
    {'categorie': node_category.attrib['titre'],
    'sousCategorie': node_subcategory.attrib['titre'],
    'vote': node_vote.attrib, 
    'oui': node_vote.find('oui').text,
    'non': node_vote.find('non').text,
    'blancs': node_vote.find('blancs').text}
        for node_category in root.getiterator('categorie')
            for node_subcategory in node_category.getiterator('sousCategorie')
                for node_vote in node_subcategory.getiterator('vote')]

liste
df = pd.DataFrame(liste)
df['oui', 'non', 'blancs'] = df[['oui', 'non', 'blancs']].applymap(lambda x: x.replace(',','.')).astype(float)
df

ValueError: Wrong number of items passed 3, placement implies 1

**Exercice 3**

- Calculer un dictionnaire fréquentiel des mots  des propositions.
- Le mettre dans un objet de type Series trié par fréquences décroissantes.

In [80]:
# re.findall()
import re
re.findall('[A-Za-zÀ-ÿ0-9]+', 'la fonction findall est très utile.')

['la', 'fonction', 'findall', 'est', 'très', 'utile']

In [84]:
# Counter
from collections import Counter
c = Counter()
c.update(['la', 'fonction', 'findall', 'est', 'très', 'utile',
          'un', 'objet', 'de', 'type', 'counter', 'est', 'aussi', 'utile'])
c

Counter({'la': 1,
         'fonction': 1,
         'findall': 1,
         'est': 2,
         'très': 1,
         'utile': 2,
         'un': 1,
         'objet': 1,
         'de': 1,
         'type': 1,
         'counter': 1,
         'aussi': 1})

In [85]:
c = Counter()
var = propositions.apply(lambda x: re.findall('[A-Za-zÀ-ÿ0-9]+', x.lower()))
var.apply(c.update)

0      None
1      None
2      None
3      None
4      None
5      None
6      None
7      None
       ... 
141    None
142    None
143    None
144    None
145    None
146    None
147    None
148    None
Name: proposition, Length: 149, dtype: object

In [88]:
from nltk.corpus import stop

ImportError: cannot import name 'stop' from 'nltk.corpus' (/Users/pauldm/opt/anaconda3/lib/python3.8/site-packages/nltk/corpus/__init__.py)

In [87]:
s = pd.Series(c)
s.sort_values(ascending = False)

de                  190
les                 158
la                  110
des                 108
et                   93
l                    82
à                    74
en                   69
                   ... 
surpêche              1
fragiles              1
affermir              1
eau                   1
profonde              1
fermes                1
aquacoles             1
environnementaux      1
Length: 1051, dtype: int64

#### Validation XML / XSD

Il existe un langage de description de schéma XML appelé XSD (XML Schema Definition). Un fichier XML peut être écrit selon un schéma XSD particulier. Il existe une librairie Python qui peut vérifier qu'un fichier XML est valide selon un schéma XSD donné.

Librairie xmlschema :
https://pypi.org/project/xmlschema/

L'utilisation de la librairie est assez simple :

<pre>
>>> # vérification que le fichier "file.xml" est valide dans le schéma "schema.xsd"
>>> import xmlschema
>>> my_schema = xmlschema.XMLSchema('schema.xsd')
>>> #
>>> # retourne un booléen selon la validité
>>> my_schema.is_valid('file.xml')
</pre>

### 2. Web Scraping

- Extraction d'informations d'un site web.
- A utiliser en l'absence de données ouvertes ou d'API.
- Technique fragile car le site web peut changer du jour au lendemain.
- Problématique juridique...

**Avec requests**

Doc :
- requests : https://requests.readthedocs.io/en/master/

Installation :
- *pip install requests* ou *conda install -c anaconda requests*

Exemple de site : https://www.beerwulf.com/fr-fr

In [90]:
import requests

r = requests.get('https://www.beerwulf.com/fr-fr')
r.status_code

200

In [91]:
# content
r.content

b'\r\n\r\n<!doctype html>\r\n<html class="no-js" lang="fr-FR"\r\n      data-original-lang="fr-FR"\r\n      data-rendered-at="Thu, 07 Oct 2021 12:37:24 GMT"\r\n      data-dynamic-ui-url="/fr-FR/api/dynamicUi"\r\n      data-subscription-plans-url="/fr-FR/api/subscription/plans"\r\n      data-subscription-checkout-url="/fr-FR/api/subscription/checkout"\r\n      data-pack-content-api-url="/fr-FR/api/Search/packContent"\r\n      data-is-logged-in-url="/fr-FR/api/account/isLoggedIn"\r\n      data-create-account-url="/fr-FR/api/account/createAccount"\r\n      data-is-subscribed-url="/fr-FR/api/subscription/getCustomerSubscriptions"\r\n      data-login-url="/fr-FR/api/account/login"\r\n      data-login-modal-url="fr-FR/loginmodal/loginmodal"\r\n      data-release="68"\r\n      data-datalayer=\'{"page":{"type":"Home Page","language":"fr-FR","country":"FR","currency":"EUR"},"event":"pageView"}\'\r\n      data-add-to-cart="Ajouter"\r\n      data-out-of-stock="Temporairement \xc3\xa9puis\xc3\xa9"\

In [92]:
# type = bytes --> collection primitive python = série d'octet --> à transformer pour avoir des chaînes de caractères
type(r.content)

bytes

In [93]:
# str en précisant un encodage
content = r.content.decode('utf-8')
content

'\r\n\r\n<!doctype html>\r\n<html class="no-js" lang="fr-FR"\r\n      data-original-lang="fr-FR"\r\n      data-rendered-at="Thu, 07 Oct 2021 12:37:24 GMT"\r\n      data-dynamic-ui-url="/fr-FR/api/dynamicUi"\r\n      data-subscription-plans-url="/fr-FR/api/subscription/plans"\r\n      data-subscription-checkout-url="/fr-FR/api/subscription/checkout"\r\n      data-pack-content-api-url="/fr-FR/api/Search/packContent"\r\n      data-is-logged-in-url="/fr-FR/api/account/isLoggedIn"\r\n      data-create-account-url="/fr-FR/api/account/createAccount"\r\n      data-is-subscribed-url="/fr-FR/api/subscription/getCustomerSubscriptions"\r\n      data-login-url="/fr-FR/api/account/login"\r\n      data-login-modal-url="fr-FR/loginmodal/loginmodal"\r\n      data-release="68"\r\n      data-datalayer=\'{"page":{"type":"Home Page","language":"fr-FR","country":"FR","currency":"EUR"},"event":"pageView"}\'\r\n      data-add-to-cart="Ajouter"\r\n      data-out-of-stock="Temporairement épuisé"\r\n      data-c

In [94]:
type(content)

str

#### Essai avec des regex

On cherche: `<span class="price">...</span>`

In [95]:
# récupération mannuelle d'un prix avec une regex
# extraction de tous les caractères différents de <
# compris entre <span class="price"> et </span>
rx = re.compile('<span class="price">([^<]+)</span>')
match = rx.search(content)  # équivalent à match = re.search('<span class="price">([^<]+)</span>', content)
type(match)

re.Match

In [96]:
# extraction de niveau 0
match.group(0)

'<span class="price">47,99 €</span>'

In [97]:
# extraction de niveau 1
match.group(1)

'47,99 €'

In [99]:
# récupération mannuelle de tous les prix avec une regex

#findall
#finditer = iterateur sur tous les matchs qu'il y a dans le content

for match in rx.finditer(content):
    print(match.group(1))

47,99 €
20,99 €
18,99 €
20,99 €
65,99 €
38,99 €
42,99 €
42,99 €
43,16 €
32,99 €
29,99 €
31,99 €
71,00 €
57,73 €
8,99 €
14,99 €
149,00 €
115,00 €
99,00 €
119,00 €


La technique est très fragile car elle s'appuie sur la syntaxe HTML exacte et non sur la sémantique...

In [100]:
# récupération mannuelle de tous les prix avec une regex
rx = re.compile('<span class="price from-price strike-through">([^<]+)</span>')
for match in rx.finditer(content):
    print(match.group(1))

47,96 €
78,90 €
67,92 €
169,00 €
166,96 €
129,00 €
169,00 €


In [101]:
# récupération mannuelle de tous les prix avec une regex
# ( from-price)? est une expression de capture
# possibilité d'utiliser (?: from-price)? qui n'est pas une expression de capture
rx = re.compile('<span class="price( from-price)?( strike-through)?">([^<]+)</span>')
for match in rx.finditer(content):
    print(match.group(1), match.group(2), match.group(3))

None None 47,99 €
None None 20,99 €
None None 18,99 €
None None 20,99 €
None None 65,99 €
None None 38,99 €
None None 42,99 €
None None 42,99 €
 from-price  strike-through 47,96 €
None None 43,16 €
None None 32,99 €
None None 29,99 €
None None 31,99 €
 from-price  strike-through 78,90 €
None None 71,00 €
 from-price  strike-through 67,92 €
None None 57,73 €
None None 8,99 €
None None 14,99 €
 from-price  strike-through 169,00 €
None None 149,00 €
 from-price  strike-through 166,96 €
None None 115,00 €
 from-price  strike-through 129,00 €
None None 99,00 €
 from-price  strike-through 169,00 €
None None 119,00 €


**Avec pandas.read_html()** recherche des tableaux dans les pages HTML

**Exemple**

Tableau page wikipédia: https://fr.wikipedia.org/wiki/Liste_des_pays_par_PIB_nominal

In [102]:
# scraping d'une page HTML
var = pd.read_html("https://fr.wikipedia.org/wiki/Liste_des_pays_par_PIB_nominal")
[df.shape for df in var]

[(1, 1), (195, 3), (211, 3), (213, 3), (13, 2), (4, 2)]

In [105]:
# accès au n° 2
df = var[1]
df

Unnamed: 0,Rang,Pays ou territoire,PIB (en milliards de dollars/an)
0,1,États-Unis,"20 494,05"
1,-,"Union européenne[2],[note 1]","18 750,05"
2,2,Chine[note 2],"13 407,40"
3,3,Japon,"4 971,93"
4,4,Allemagne,"4 000,39"
5,5,Royaume-Uni,"2 828,64"
6,6,France,"2 775,25"
7,7,Inde,"2 716,75"
...,...,...,...
187,187,Tonga,0470


In [106]:
# accès à des valeurs
df.iloc[0]

Rang                                         1
Pays ou territoire                  États-Unis
PIB (en milliards de dollars/an)     20 494,05
Name: 0, dtype: object

In [114]:
# index = columns du DataFrame
df.iloc[0].index

Index(['Rang', 'Pays ou territoire', 'PIB (en milliards de dollars/an)'], dtype='object')

In [108]:
# accès à des valeurs
df.iloc[[0, 1, 2, 76, -1]]

Unnamed: 0,Rang,Pays ou territoire,PIB (en milliards de dollars/an)
0,1,États-Unis,"20 494,05"
1,-,"Union européenne[2],[note 1]","18 750,05"
2,2,Chine[note 2],"13 407,40"
76,76,Bulgarie,6496
194,194,Tuvalu,00450


In [109]:
# accès à une valeur
df.iloc[1, 2]

'18\xa0750,05'

In [110]:
df.iloc[-1, -1]

'00450'

Chercher le code hexa \xa0 : https://www.codetable.net/hex/a0

In [111]:
# aide sur read_html()
pd.read_html?

In [115]:
# conversion automatique du séparateur des milliers
var = pd.read_html("https://fr.wikipedia.org/wiki/Liste_des_pays_par_PIB_nominal",
                    thousands='\xa0',
                    decimal=',')
df = var[1]
df.iloc[[0, 1, 2, 76, -1]]

Unnamed: 0,Rang,Pays ou territoire,PIB (en milliards de dollars/an)
0,1,États-Unis,20494.05
1,-,"Union européenne[2],[note 1]",18750.05
2,2,Chine[note 2],13407.4
76,76,Bulgarie,64.96
194,194,Tuvalu,0.045


In [116]:
# reste à faire
df.loc[df['Pays ou territoire'].str.contains("[^A-Za-zÀ-ÿ0-9 \-']")]

Unnamed: 0,Rang,Pays ou territoire,PIB (en milliards de dollars/an)
1,-,"Union européenne[2],[note 1]",18750.05
2,2,Chine[note 2],13407.4
11,11,Russie[note 3],1630.66


**Exercice 4**

Extraire les noms des pays sans les annotations.

**Avec beautifulsoup** parsing HTML

Doc :
- beautifulsoup : https://www.crummy.com/software/BeautifulSoup/bs4/doc/

Installation :
- *pip install beautifulsoup4* ou *conda install -c anaconda beautifulsoup4*

In [117]:
# imports
from bs4 import BeautifulSoup

**Exemple basique**

In [118]:
html = """
<html>
    <head>
        <style>
        h1 { font-size: 50px; }
        body { font-family: Verdana; }
        li { color: red; }
        ul ul li { color: green; }
        .highlighted { font-weight: bold; }
        .italic { font-style: italic; }
        .highlighted.italic { }
        </style>
    </head>
    <body>
        <h1>Mon titre</h1>
        <p class="highlighted">
            Some text with a<br>
            <a href="https://google.com">link to google</a>
            <img src="https://picsum.photos/200/300">
        </p>
        <p>Some list:</p>
        <ul>
            <li>some item</li>
            <li class="highlighted italic">some item</li>
            <li class="italic">some item</li>
            <ul>
                <li>some other item 1</li>
                <li>some other item 2</li>
            </ul>
            <li>some item</li>
        </ul>
    </body>
</html>
"""

A tester sur : https://html.house

In [119]:
# bs4
soup = BeautifulSoup(html)
soup

<html>
<head>
<style>
        h1 { font-size: 50px; }
        body { font-family: Verdana; }
        li { color: red; }
        ul ul li { color: green; }
        .highlighted { font-weight: bold; }
        .italic { font-style: italic; }
        .highlighted.italic { }
        </style>
</head>
<body>
<h1>Mon titre</h1>
<p class="highlighted">
            Some text with a<br/>
<a href="https://google.com">link to google</a>
<img src="https://picsum.photos/200/300"/>
</p>
<p>Some list:</p>
<ul>
<li>some item</li>
<li class="highlighted italic">some item</li>
<li class="italic">some item</li>
<ul>
<li>some other item 1</li>
<li>some other item 2</li>
</ul>
<li>some item</li>
</ul>
</body>
</html>

In [140]:
# type
type(soup)

bs4.BeautifulSoup

In [141]:
# find h1
titre = soup.find('h1')
titre

<h1>Mon titre</h1>

In [142]:
# type
type(titre)

bs4.element.Tag

In [143]:
# name
titre.name

'h1'

In [144]:
# text
titre.text

'Mon titre'

In [145]:
# find a
link = soup.find('a')
link

<a href="https://google.com">link to google</a>

In [146]:
# prochain tag
link.find_next()

<img src="https://picsum.photos/200/300"/>

In [147]:
# attrs
link.attrs

{'href': 'https://google.com'}

In [148]:
# text
link.text

'link to google'

In [149]:
# find p
paragraph = soup.find('p')
paragraph

<p class="highlighted">
            Some text with a<br/>
<a href="https://google.com">link to google</a>
<img src="https://picsum.photos/200/300"/>
</p>

In [150]:
# find img in paragraph
paragraph.find('img')

<img src="https://picsum.photos/200/300"/>

In [151]:
# find_all
soup.find_all('li', {'class': "italic"})

[<li class="highlighted italic">some item</li>,
 <li class="italic">some item</li>]

In [154]:
# idem avec un sélecteur css:
soup.select('li.italic')

[<li class="highlighted italic">some item</li>,
 <li class="italic">some item</li>]

In [155]:
# Récupérer les li de 2e niveau qui sont dans un ul lui-même dans un ul
soup.find('ul').find('ul').find_all('li')

[<li>some other item 1</li>, <li>some other item 2</li>]

In [156]:
# idem avec un sélecteur css:
soup.select('ul ul li')

[<li>some other item 1</li>, <li>some other item 2</li>]

In [157]:
# accès au premier li
li = soup.select('ul ul li')[0]
li

<li>some other item 1</li>

In [158]:
# prochain tag identique
li.find_next_sibling()

<li>some other item 2</li>

In [159]:
# parent
li.parent

<ul>
<li>some other item 1</li>
<li>some other item 2</li>
</ul>

In [160]:
# contents
li.parent.contents

['\n', <li>some other item 1</li>, '\n', <li>some other item 2</li>, '\n']

In [161]:
# que les tags
li.parent.find_all()

[<li>some other item 1</li>, <li>some other item 2</li>]

**Exemple 1**

Le Bon Coin

In [163]:
# premier essai avec leboncoin

r = requests.get('https://www.leboncoin.fr/annonces/offres/ile_de_france/')
r

<Response [403]>

Codes erreurs du protocole HTTP : https://developer.mozilla.org/fr/docs/Web/HTTP/Status

In [164]:
# contenu
r.content

b'<html><head><title>leboncoin.fr</title><meta property="og:title" content="Rendez-vous sur leboncoin pour d\xc3\xa9couvrir cette annonce !" />\r\n<meta property="og:image" content="https://img.datadome.co/captcha/page-customization/1872/866d27bc-26b6-476e-b41d-496f3e0a7fb4.jpeg" /><style>#cmsg{animation: A 1.5s;}@keyframes A{0%{opacity:0;}99%{opacity:0;}100%{opacity:1;}}</style></head><body style="margin:0"><p id="cmsg">Please enable JS and disable any ad blocker</p><script>var dd={\'cid\':\'AHrlqAAAAAMArL-lKNTJhBgAicL3eA==\',\'hsh\':\'05B30BD9055986BD2EE8F5A199D973\',\'t\':\'bv\',\'s\':2089,\'host\':\'geo.captcha-delivery.com\'}</script><script src="https://ct.captcha-delivery.com/c.js"></script></body></html>\n'

In [165]:
# en str
print(r.content.decode('utf-8'))

<html><head><title>leboncoin.fr</title><meta property="og:title" content="Rendez-vous sur leboncoin pour découvrir cette annonce !" />
<meta property="og:image" content="https://img.datadome.co/captcha/page-customization/1872/866d27bc-26b6-476e-b41d-496f3e0a7fb4.jpeg" /><style>#cmsg{animation: A 1.5s;}@keyframes A{0%{opacity:0;}99%{opacity:0;}100%{opacity:1;}}</style></head><body style="margin:0"><p id="cmsg">Please enable JS and disable any ad blocker</p><script>var dd={'cid':'AHrlqAAAAAMArL-lKNTJhBgAicL3eA==','hsh':'05B30BD9055986BD2EE8F5A199D973','t':'bv','s':2089,'host':'geo.captcha-delivery.com'}</script><script src="https://ct.captcha-delivery.com/c.js"></script></body></html>



Lancement du script `server.py` lancé dans un terminal avec la commande :
<code>python server.py --bind 127.0.0.1</code> sur Windows ou <code>python server.py --bind 0.0.0.0</code> sur MacOS.

In [167]:
# avec run de server.py
r = requests.get('http://127.0.0.1:8000')  # http://0.0.0.0:8000
r

<Response [200]>

In [168]:
# avec run de server.py
r.content

b"<!doctype html><html>Thu Oct  7 15:25:28 2021<br />'Host': '127.0.0.1:8000',<br />'User-Agent': 'python-requests/2.25.1',<br />'Accept-Encoding': 'gzip, deflate',<br />'Accept': '*/*',<br />'Connection': 'keep-alive',</html>"

In [169]:
# avec run de server.py
from IPython.display import IFrame
IFrame('http://127.0.0.1:8000', width=800, height=200)  # http://0.0.0.0:8000

##### Retour avec Google Chrome qui envoie systématiquement un cookie aux sites visités

<pre>
Thu Oct 1 16:32:14 2020
'Host': '127.0.0.1:8000',
'Connection': 'keep-alive',
'Upgrade-Insecure-Requests': '1',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
'Sec-Fetch-Site': 'none',
'Sec-Fetch-Mode': 'navigate',
'Sec-Fetch-User': '?1',
'Sec-Fetch-Dest': 'document',
'Accept-Encoding': 'gzip, deflate, br',
'Accept-Language': 'fr-FR,fr;q=0.9,en-US;q=0.8,en;q=0.7,de;q=0.6',
'Cookie': '_ga=GA1.1.825032489.1592389992',
</pre>

In [170]:
# headers
headers = requests.utils.default_headers()
headers.update({'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36',
               'Accept-Language': 'fr,fr-FR;',})
headers

{'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive', 'Accept-Language': 'fr,fr-FR;'}

In [171]:
# 2nd essai avec leboncoin
r = requests.get('https://www.leboncoin.fr/annonces/offres/ile_de_france/',
                 headers=headers)
r

<Response [403]>

In [172]:
r.content

b'<html><head><title>leboncoin.fr</title><meta property="og:title" content="Rendez-vous sur leboncoin pour d\xc3\xa9couvrir cette annonce !" />\r\n<meta property="og:image" content="https://img.datadome.co/captcha/page-customization/1872/866d27bc-26b6-476e-b41d-496f3e0a7fb4.jpeg" /><style>#cmsg{animation: A 1.5s;}@keyframes A{0%{opacity:0;}99%{opacity:0;}100%{opacity:1;}}</style></head><body style="margin:0"><p id="cmsg">Please enable JS and disable any ad blocker</p><script>var dd={\'cid\':\'AHrlqAAAAAMALj8A2zoiXesAicL3eA==\',\'hsh\':\'05B30BD9055986BD2EE8F5A199D973\',\'t\':\'fe\',\'s\':2089,\'host\':\'geo.captcha-delivery.com\'}</script><script src="https://ct.captcha-delivery.com/c.js"></script></body></html>\n'

In [173]:
# BeautifulSoup
soup = BeautifulSoup(r.content)
soup

<html><head><title>leboncoin.fr</title><meta content="Rendez-vous sur leboncoin pour dÃ©couvrir cette annonce !" property="og:title"/>
<meta content="https://img.datadome.co/captcha/page-customization/1872/866d27bc-26b6-476e-b41d-496f3e0a7fb4.jpeg" property="og:image"/><style>#cmsg{animation: A 1.5s;}@keyframes A{0%{opacity:0;}99%{opacity:0;}100%{opacity:1;}}</style></head><body style="margin:0"><p id="cmsg">Please enable JS and disable any ad blocker</p><script>var dd={'cid':'AHrlqAAAAAMALj8A2zoiXesAicL3eA==','hsh':'05B30BD9055986BD2EE8F5A199D973','t':'fe','s':2089,'host':'geo.captcha-delivery.com'}</script><script src="https://ct.captcha-delivery.com/c.js"></script></body></html>

**Exemple 2**

Craig List

In [174]:
# essai avec craigslist
r = requests.get('https://paris.craigslist.org/d/locations-de-vacances/search/vac')
r

<Response [200]>

In [175]:
# BeautifulSoup
soup = BeautifulSoup(r.content)
soup

<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8"/>
<meta content="IE=Edge" http-equiv="X-UA-Compatible"/>
<meta content="width=device-width,initial-scale=1" name="viewport"/>
<meta content="craigslist" property="og:site_name"/>
<meta content="preview" name="twitter:card"/>
<meta content="Paris Locations de vacances - craigslist" property="og:title"/>
<meta content="Paris Locations de vacances - craigslist" name="description"/>
<meta content="Paris Locations de vacances - craigslist" property="og:description"/>
<meta content="https://paris.craigslist.org/d/locations-de-vacances/search/vac" property="og:url"/>
<title>Paris Locations de vacances - craigslist</title>
<link href="https://paris.craigslist.org/d/locations-de-vacances/search/vac" rel="canonical"/>
<script id="ld_breadcrumb_data" type="application/ld+json">
    {"@context":"https://schema.org","itemListElement":[{"item":{"name":"paris.craigslist.org","@id":"https://paris.craigslist.org"},"position":1,"@type":"ListItem"},{"it

On utilise 2 méthodes :
    
- find(tag, attrs) : trouve le premier tag avec les attributs spécifiés
- findAll(tag, attrs) : trouve tous les tags avec les attributs spécifiés

In [None]:
# exploration du HTML
# tag li avec class="result-row"

li_tag = soup.find('li', attrs={'class': 'result-row'})
print(li_tag)

In [None]:
# type
type(li_tag)

La technique consiste par exemple à alimenter une liste de dictionnaires avec les valeurs trouvées pour chaque item et ensuite à le transformer en DataFrame :
- soit en utilisant `tag.attrs['attr']` pour collecter la valeur attr du tag <tag attr=value>
- soit en utilisant `tag.text` pour collecter la valeur <tag>text</tag>
- éventuellement en recherchant dans un nouveau tag à l'intérieur d'un tag donné

In [None]:
# collecte des informations
# "data-pid"
# "time"
# "title"
# "price"
# "housing"
# "hood"
# "data-ids" (images)

rows = []

for li_tag in soup.findAll('li', attrs={'class': 'result-row'}):
    row = {}
    row['data-pid'] = li_tag.attrs['data-pid']
    t = li_tag.find('time')
    row['datetime'] = t.attrs['datetime']
    # à compléter
    rows.append(row)
    
rows

In [None]:
# en DataFrame
df = pd.DataFrame(rows)
df

**Exercice 5**

Compléter le DataFrame (sauf images)

In [None]:
# collecte des photos
# traitement des "data-ids"
# séparation des formats et des noms de fichier
# from javascript
imageConfig: {"1":{"hostname":"https://images.craigslist.org","sizes":["50x50c","300x300","600x450","1200x900"]},
              "4":{"hostname":"https://images.craigslist.org","sizes":["50x50c","300x300","600x450","1200x900"]},
              "0":{"hostname":"https://images.craigslist.org","sizes":["50x50c","300x300","600x450"]},
              "3":{"hostname":"https://images.craigslist.org","sizes":["50x50c","300x300","600x450","1200x900"]},
              "2":{"hostname":"https://images.craigslist.org","sizes":["50x50c","300x300","600x450","1200x900"]}}

In [None]:
# récupération des photos
from urllib import request
from shutil import copyfileobj

# data-ids
img = '00z0z_bh4cg0Zjre2z_0da07p'
size = '50x50c'
filename = '{}_{}.jpg'.format(img, size)
url = 'https://images.craigslist.org/{}'.format(filename)

# get the file from the web and save it locally
with request.urlopen(url) as response, open(filename, 'wb') as out_file:
    copyfileobj(response, out_file)

In [None]:
from IPython.display import Image
Image(filename=filename)

#### Inconvénients du web scraping:
- plutôt lent (car on parse potentiellement beaucoup de HTML inutile)
- ne donne pas les résultats attendus si une partie du contenu est intégré dynamiquement à la page via javascript
- un changement dans l'architecture du html ou du css (e.g: refonte du design du site) oblige à réécrire entièrement le programme

### API

Exemple: Deezer

Artiste : https://www.deezer.com/fr/artist/3037

Récupérer le nombre de fans d'un artiste avec requests :

In [None]:
import requests
from bs4 import BeautifulSoup
# request
artist = 3037
response = requests.get(f'https://www.deezer.com/fr/artist/{artist}')
soup = BeautifulSoup(response.content)
nb_fans = int(soup.find('div', id='naboo_artist_social_small').span.text)
nb_fans

Récupérer le nombre de fans d'un artiste avec l'API :

Doc:
- https://pypi.org/project/deezer-python/

Installation :
- *pip install deezer-python*

Le terme "API" est très générique et peut désigner bien des choses, mais dans le jargon on l'utilise souvent pour désigner un service web qui renvoie non pas:
> des pages web au format HTML (destinées à être lues par un humain dans son navigateur)

mais:
> des données au format JSON (destinées à être traitées par un programme)

![img](https://miro.medium.com/max/4238/1*OcmVkcsM5BWRHrg8GC17iw.png)

Puisque les API sont dédiées à l'usage via des programmes, elles disposent en général d'une bonne documentation, et sont fiables et stables dans le temps. Tandis que sur des pages web HTML classiques, le design peut par exemple changer du jour au lendemain et rendre votre programme BeautifulSoup obsolète.

In [None]:
# API JSON
response = requests.get(f'https://api.deezer.com/artist/{artist}')
data = response.json()
data

In [None]:
# nb_fan
data['nb_fan']

In [None]:
# picture
url = data['picture']
r = requests.get(url)
Image(data=r.content)

#### Avantages d'une API
- renvoie du format JSON, facile et rapide à traiter
- renvoie un format stable et documenté (voire versionné)
- exemple : https://developer.twitter.com/en/docs/twitter-api/api-reference-index
- la documentation indique comment interagir avec l'API:
    - quelle url
    - quelle méthode http (GET, POST, ...)
    - quels paramètres
    - ...
→ idéal pour les développeurs

### Quel intérêt pour le fournisseur d'API ?

En général il met en place des quotas de requêtes ou d'autres limitations afin de proposer un service payant qui dispose de possibilités avancées / d'un meilleur support / etc.

C'est pourquoi de nombreux services nécessitent de se connecter avec son compte client pour utiliser une API (e.g. https://openweathermap.org/api)

#### **Basic Auth**

Exemple: accéder à https://kim.fspot.org/private/

Pour y accéder il est nécessaire d'utiliser les credentials suivant:
- login: admin
- password: secret

Si on ne les passe pas (ou si on ne passe pas les bons), on a une erreur 401 (= unauthorized).

In [None]:
# sans login/password
res = requests.get('https://kim.fspot.org/private')
res

In [None]:
# avec login password
res = requests.get('https://kim.fspot.org/private', auth=('admin', 'secret'))
res

In [None]:
# contenu
res.content.decode('utf-8')

#### Auth par token

Exemple sur openweathermap :
- documentation: https://openweathermap.org/appid
- mes tokens: https://home.openweathermap.org/api_keys

In [None]:
# requête avec un token
token = ''

Avantage des tokens:
- évite que les requêtes HTTP contiennent le mot de passe - à la place elles contiennent un token
- si je me fais "voler" un token, je peux le supprimer de mon compte
- certains services fournissent des token plus ou moins limités : ainsi je peux accepter de prêter un token à quelqu'un d'autre si je sais qu'il ne pourra en faire qu'un usage restreint (e.g app facebook: voir mes infos de profil, pas publier des posts à ma place)

In [None]:
# requête avec un token
url = f'http://api.openweathermap.org/data/2.5/weather?APPID={token}&q=Paris'
res = requests.get(url)

meteo = res.json()
meteo

In [None]:
# type
type(meteo)

In [None]:
# extractions
{'city': meteo['name'],
'country': meteo['sys']['country'],
'date': meteo['dt'],
'temp': meteo['main']['temp'] - 273.15,}

In [None]:
# extractions
import time

{'city': meteo['name'],
'country': meteo['sys']['country'],
'date': time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(meteo['dt'])),
'temp': meteo['main']['temp'] - 273.15,}