# Télécom Paris - MDI721 - Session 3

- **Parsing XML**
- **Web scraping et parsing HTML**
- **API**

In [1]:
#test

### Parsing XML (Extensible Markup Language)

Documentation : https://fr.wikipedia.org/wiki/Extensible_Markup_Language

Librairie lxml : https://lxml.de/tutorial.html

In [1]:
# imports
import pandas as pd
from lxml import etree

# options d'affichage
pd.set_option("display.min_rows", 16)

**Exemple**

Les 150 propositions de la Convention Citoyenne pour le Climat

https://www.data.gouv.fr/fr/datasets/les-150-propositions-de-la-convention-citoyenne-pour-le-climat/

In [2]:
# visualisation du fichier
%pycat propositions.xml

In [3]:
# parsing XML
root = etree.parse('propositions.xml')

In [4]:
# type
type(root)

lxml.etree._ElementTree

In [5]:
# trouver un élément
element = root.find('categorie')

In [6]:
# type
type(element)

lxml.etree._Element

In [7]:
# parent
element.getparent()

<Element propositions at 0x7fa02d469b40>

In [8]:
# attribut
element.attrib['titre']

'Modifications de la Constitution et des institutions'

In [9]:
# trouver un élément
element = root.find('categorie').find('sousCategorie').find('proposition')

In [10]:
# text
element.text

'Ajout d\'un alinéa dans le préambule de la Constitution : "La conciliation des droits, libertés et principes qui en résultent ne saurait compromettre la préservation de l’environnement, patrimoine commun de l’humanité."'

In [11]:
# nombre de catégories: getiterator
len([node for node in root.getiterator('categorie')])

6

In [12]:
# nombre de sous-catégories: getiterator
len([node for node in root.getiterator('sousCategorie')])

33

In [13]:
# nombre de propositions: getiterator
len([node for node in root.getiterator('proposition')])

149

In [14]:
# print categorie / sousCategorie / proposition
for node_categorie in root.getiterator('categorie'):
    
    print(node_categorie.attrib['titre'])
    
    for node_sousCategorie in node_categorie.getiterator('sousCategorie'):
        
        print('> ', node_sousCategorie.attrib['titre'])
        
        for node_proposition in node_sousCategorie.getiterator('proposition'):
            
            print('>> ', node_proposition.text)

Modifications de la Constitution et des institutions
>  
>>  Ajout d'un alinéa dans le préambule de la Constitution : "La conciliation des droits, libertés et principes qui en résultent ne saurait compromettre la préservation de l’environnement, patrimoine commun de l’humanité."
>>  Ajout d'un alinéa dans l'article premier de la Constitution : "La République garantit la préservation de la biodiversité, de l'environnement et lutte contre le dérèglement climatique."
>>  Création d'un "Défenseur de l'environnement", sur le modèle du Défenseur des droits
>>  Renforcement du rôle du CESE, le Conseil Economique Social et Environnemental
Se loger
>  Sur la rénovation énergétique des bâtiments
>>  Contraindre les propriétaires occupants et bailleurs à rénover leurs biens de manière globale
>>  Obliger le changement des chaudières au fioul et à charbon d'ici à 2030 dans les bâtiments neufs et rénovés
>>  Déployer un réseau harmonisé de guichets uniques
>>  Système progressif d'aides à la rénova

In [15]:
# imports
import pandas as pd

# fabrication d'un DataFrame à partir d'une liste de dict
l = [
    {'a': 1, 'b': 2},
    {'a': 3, 'b': 4},
    {'a': 5, 'b': 6},
]

pd.DataFrame(l)

Unnamed: 0,a,b
0,1,2
1,3,4
2,5,6


In [16]:
# fabrication d'un DataFrame à partir du XML
liste = [
    {'categorie': node_category.attrib['titre'],
    'sousCategorie': node_subcategory.attrib['titre'],
    'proposition': node_proposition.text}
        for node_category in root.getiterator('categorie')
            for node_subcategory in node_category.getiterator('sousCategorie')
                for node_proposition in node_subcategory.getiterator('proposition')]

df = pd.DataFrame(liste)
df

Unnamed: 0,categorie,sousCategorie,proposition
0,Modifications de la Constitution et des instit...,,Ajout d'un alinéa dans le préambule de la Cons...
1,Modifications de la Constitution et des instit...,,Ajout d'un alinéa dans l'article premier de la...
2,Modifications de la Constitution et des instit...,,"Création d'un ""Défenseur de l'environnement"", ..."
3,Modifications de la Constitution et des instit...,,"Renforcement du rôle du CESE, le Conseil Econo..."
4,Se loger,Sur la rénovation énergétique des bâtiments,Contraindre les propriétaires occupants et bai...
5,Se loger,Sur la rénovation énergétique des bâtiments,Obliger le changement des chaudières au fioul ...
6,Se loger,Sur la rénovation énergétique des bâtiments,Déployer un réseau harmonisé de guichets uniques
7,Se loger,Sur la rénovation énergétique des bâtiments,"Système progressif d'aides à la rénovation, av..."
...,...,...,...
141,Produire et travailler,Renforcer les obligations relatives à la prése...,Conditionner les aides publiques à l'évolution...


In [17]:
root.getiterator('categorie')

<lxml.etree.ElementDepthFirstIterator at 0x7fa02d46fe60>

In [18]:
# catégories
df['categorie'].value_counts()

Se déplacer                                             43
Se nourrir                                              42
Produire et travailler                                  25
Se loger                                                21
Consommer                                               14
Modifications de la Constitution et des institutions     4
Name: categorie, dtype: int64

In [19]:
# requêtes
df.loc[df['proposition'].str.contains('biodiversité')]

Unnamed: 0,categorie,sousCategorie,proposition
1,Modifications de la Constitution et des instit...,,Ajout d'un alinéa dans l'article premier de la...
143,Produire et travailler,Renforcer les obligations relatives à la prése...,Protection des écosystèmes et de la biodiversité


In [20]:
# requêtes
print(*df.loc[df['proposition'].str.contains('biodiversité'), 'proposition'].values, sep='\n\n')

Ajout d'un alinéa dans l'article premier de la Constitution : "La République garantit la préservation de la biodiversité, de l'environnement et lutte contre le dérèglement climatique."

Protection des écosystèmes et de la biodiversité


In [21]:
# requêtes
df['proposition'].str.contains('énergie').sum()

3

In [22]:
# requêtes
print(*df.loc[df['proposition'].str.contains('énergie'), 'proposition'].values, sep='\n\n')

Contraindre par des mesures fortes les espaces publics et les bâtiments tertiaires à réduire leur consommation d’énergie

Changer en profondeur les comportements en incitant les particuliers à réduire leur consommation d'énergie

Participation des citoyens, entreprises locales, associations locales et collectivités locales aux projets énergies renouvelables (EnR)


**Exercice 1**

Produire un DataFrame avec les colonnes : categorie, sousCategorie, oui (float).

In [23]:
# fabrication d'un DataFrame à partir du XML
liste = [
    {'categorie': node_category.attrib['titre'],
    'sousCategorie': node_subcategory.attrib['titre'],
    'oui': node_oui.text}
        for node_category in root.getiterator('categorie')
            for node_subcategory in node_category.getiterator('sousCategorie')
                for node_oui in node_subcategory.getiterator('oui')]

df = pd.DataFrame(liste)
df['oui'] = df['oui'].str.replace(',','.',1).astype(float)
df

Unnamed: 0,categorie,sousCategorie,oui
0,Se loger,Sur la rénovation énergétique des bâtiments,87.3
1,Se loger,Réduire la consommation d'énergie,92.0
2,Se loger,Lutter contre l'artificialisation des sols,99.0
3,Consommer,Affichage,98.8
4,Consommer,Publicité,89.6
5,Consommer,Suremballage,95.9
6,Consommer,Education,97.9
7,Consommer,Suivi et contrôle des politiques publiques env...,95.9
8,Se déplacer,Sortir de l'usage de la voiture en solo,96.4
9,Se déplacer,Aménagements de la voie publique,98.6


In [24]:
a = root.find('categorie').find('sousCategorie').find('proposition').find('vote')

**Exercice 2**

- Produire un DataFrame avec les colonnes : categorie, sousCategorie, oui (float), non (float), blancs (float).
- Calculer les sommes oui + non + blancs et oui + non &#9786;

In [25]:
# fabrication d'un DataFrame à partir du XML
liste = [
    {'categorie': node_category.attrib['titre'],
    'sousCategorie': node_subcategory.attrib['titre'],
    'oui': node_oui.text,
    'non': node_non.text,
    'blancs': node_blancs.text}
        for node_category in root.getiterator('categorie')
            for node_subcategory in node_category.getiterator('sousCategorie')
                for node_oui in node_subcategory.getiterator('oui')
                    for node_non in node_subcategory.getiterator('non')
                        for node_blancs in node_subcategory.getiterator('blancs')]

df = pd.DataFrame(liste)
df['oui'] = df['oui'].str.replace(',','.',1).astype(float)
df['non'] = df['non'].str.replace(',','.',1).astype(float)
df['blancs'] = df['blancs'].str.replace(',','.',1).astype(float)

df

Unnamed: 0,categorie,sousCategorie,oui,non,blancs
0,Se loger,Sur la rénovation énergétique des bâtiments,87.3,12.7,9.5
1,Se loger,Réduire la consommation d'énergie,92.0,8.0,3.0
2,Se loger,Lutter contre l'artificialisation des sols,99.0,1.0,1.0
3,Consommer,Affichage,98.8,2.0,0.7
4,Consommer,Publicité,89.6,10.4,4.0
5,Consommer,Suremballage,95.9,4.1,2.7
6,Consommer,Education,97.9,2.1,2.7
7,Consommer,Suivi et contrôle des politiques publiques env...,95.9,4.1,2.7
8,Se déplacer,Sortir de l'usage de la voiture en solo,96.4,3.6,4.1
9,Se déplacer,Aménagements de la voie publique,98.6,1.4,2.0


In [26]:
# CORRECTION
liste = [
    {'categorie': node_category.attrib['titre'],
    'sousCategorie': node_subcategory.attrib['titre'],
    'oui': node_vote.find('oui').text,
    'non': node_vote.find('non').text,
    'blancs': node_vote.find('blancs').text}
        for node_category in root.getiterator('categorie')
            for node_subcategory in node_category.getiterator('sousCategorie')
                for node_vote in node_subcategory.getiterator('vote')]

df = pd.DataFrame(liste)
df[['oui', 'non', 'blancs']] = df[['oui', 'non', 'blancs']]\
                                    .applymap(lambda x: x.replace(',', '.')).astype(float)
df

Unnamed: 0,categorie,sousCategorie,oui,non,blancs
0,Se loger,Sur la rénovation énergétique des bâtiments,87.3,12.7,9.5
1,Se loger,Réduire la consommation d'énergie,92.0,8.0,3.0
2,Se loger,Lutter contre l'artificialisation des sols,99.0,1.0,1.0
3,Consommer,Affichage,98.8,2.0,0.7
4,Consommer,Publicité,89.6,10.4,4.0
5,Consommer,Suremballage,95.9,4.1,2.7
6,Consommer,Education,97.9,2.1,2.7
7,Consommer,Suivi et contrôle des politiques publiques env...,95.9,4.1,2.7
8,Se déplacer,Sortir de l'usage de la voiture en solo,96.4,3.6,4.1
9,Se déplacer,Aménagements de la voie publique,98.6,1.4,2.0


In [27]:
df[['oui', 'non', 'blancs']].sum(axis = 1)

0     109.5
1     103.0
2     101.0
3     101.5
4     104.0
5     102.7
6     102.7
7     102.7
8     104.1
9     102.0
10    101.3
11    100.0
12    102.7
13    104.7
14    108.0
15    103.4
16    102.7
17    108.2
dtype: float64

**Exercice 3**

- Calculer un dictionnaire fréquentiel des mots  des propositions.
- Le mettre dans un objet de type Series.

In [28]:
# fabrication d'un DataFrame à partir du XML
liste = [
    {'categorie': node_category.attrib['titre'],
    'sousCategorie': node_subcategory.attrib['titre'],
    'proposition': node_proposition.text}
        for node_category in root.getiterator('categorie')
            for node_subcategory in node_category.getiterator('sousCategorie')
                for node_proposition in node_subcategory.getiterator('proposition')]

df = pd.DataFrame(liste)
df.head()

Unnamed: 0,categorie,sousCategorie,proposition
0,Modifications de la Constitution et des instit...,,Ajout d'un alinéa dans le préambule de la Cons...
1,Modifications de la Constitution et des instit...,,Ajout d'un alinéa dans l'article premier de la...
2,Modifications de la Constitution et des instit...,,"Création d'un ""Défenseur de l'environnement"", ..."
3,Modifications de la Constitution et des instit...,,"Renforcement du rôle du CESE, le Conseil Econo..."
4,Se loger,Sur la rénovation énergétique des bâtiments,Contraindre les propriétaires occupants et bai...


In [29]:
# re.findall()
import re
re.findall('[A-Za-zÀ-ÿ0-9]+', 'la fonction findall est très utile.')

['la', 'fonction', 'findall', 'est', 'très', 'utile']

In [30]:
re?

In [31]:
# Counter
from collections import Counter
c = Counter()
c.update(['la', 'fonction', 'findall', 'est', 'très', 'utile',
          'un', 'objet', 'de', 'type', 'counter', 'est', 'aussi', 'utile'])
c

Counter({'la': 1,
         'fonction': 1,
         'findall': 1,
         'est': 2,
         'très': 1,
         'utile': 2,
         'un': 1,
         'objet': 1,
         'de': 1,
         'type': 1,
         'counter': 1,
         'aussi': 1})

In [32]:
c = Counter()
df['proposition'].apply(lambda x: c.update(re.findall('[A-Za-zÀ-ÿ0-9]+', x.lower())))
c

Counter({'ajout': 2,
         'd': 61,
         'un': 27,
         'alinéa': 2,
         'dans': 31,
         'le': 49,
         'préambule': 1,
         'de': 190,
         'la': 110,
         'constitution': 2,
         'conciliation': 1,
         'des': 108,
         'droits': 2,
         'libertés': 1,
         'et': 93,
         'principes': 1,
         'qui': 10,
         'en': 69,
         'résultent': 1,
         'ne': 3,
         'saurait': 1,
         'compromettre': 1,
         'préservation': 2,
         'l': 82,
         'environnement': 8,
         'patrimoine': 1,
         'commun': 2,
         'humanité': 1,
         'article': 1,
         'premier': 1,
         'république': 1,
         'garantit': 1,
         'biodiversité': 3,
         'lutte': 2,
         'contre': 2,
         'dérèglement': 1,
         'climatique': 2,
         'création': 2,
         'défenseur': 2,
         'sur': 28,
         'modèle': 3,
         'du': 25,
         'renforcement': 1,
         '

In [33]:
voc = pd.Series(dict(c))
voc = voc.sort_values(ascending = False)
voc

de               190
les              158
la               110
des              108
et                93
l                 82
à                 74
en                69
                ... 
ordures            1
enlèvement         1
significative      1
part               1
remplacer          1
emballage          1
compostables       1
poursuivant        1
Length: 1051, dtype: int64

#### Validation XML / XSD

Il existe un langage de description de schéma XML appelé XSD (XML Schema Definition). Un fichier XML peut être écrit selon un schéma XSD particulier. Il existe une librairie Python qui peut vérifier qu'un fichier XML est valide selon un schéma XSD donné.

Librairie xmlschema :
https://pypi.org/project/xmlschema/

L'utilisation de la librairie est assez simple :

<pre>
>>> # vérification que le fichier "file.xml" est valide dans le schéma "schema.xsd"
>>> import xmlschema
>>> my_schema = xmlschema.XMLSchema('schema.xsd')
>>> #
>>> # retourne un booléen selon la validité
>>> my_schema.is_valid('file.xml')
</pre>

### Web Scraping

- Extraction d'informations d'un site web.
- A utiliser en l'absence de données ouvertes ou d'API.
- Technique fragile car le site web peut changer du jour au lendemain.
- Problématique juridique...

**Avec requests**

Doc :
- requests : https://requests.readthedocs.io/en/master/

Installation :
- *pip install requests* ou *conda install -c anaconda requests*

Exemple de site : https://www.beerwulf.com/fr-fr

In [34]:
import requests

r = requests.get('https://www.beerwulf.com/fr-fr')
r.status_code

200

In [35]:
# content
r.content

b'\r\n\r\n<!doctype html>\r\n<html class="no-js" lang="fr-FR"\r\n      data-original-lang="fr-FR"\r\n      data-rendered-at="Mon, 19 Oct 2020 06:43:40 GMT"\r\n      data-dynamic-ui-url="/fr-FR/api/dynamicUi"\r\n      data-subscription-plans-url="/fr-FR/api/subscription/plans"\r\n      data-subscription-checkout-url="/fr-FR/api/subscription/checkout"\r\n      data-pack-content-api-url="/fr-FR/api/Search/packContent"\r\n      data-is-logged-in-url="/fr-FR/api/account/isLoggedIn"\r\n      data-create-account-url="/fr-FR/api/account/createAccount"\r\n      data-login-url="/fr-FR/api/account/login"\r\n      data-login-modal-url="/LoginModal/LoginModal"\r\n      data-release="247"\r\n      data-datalayer=\'{"page":{"type":"Home Page","language":"fr-FR","country":"FR","currency":"EUR"},"event":"pageView"}\'\r\n      data-add-to-cart="Ajouter"\r\n      data-out-of-stock="Revient vite !">\r\n<head>\r\n    \r\n    <meta charset="utf-8" />\r\n\r\n<title>Achat de bi&#232;res, f&#251;ts et tireuses

In [36]:
# type
type(r.content)

bytes

In [37]:
# str en précisant un encodage
content = r.content.decode('utf-8')
content

'\r\n\r\n<!doctype html>\r\n<html class="no-js" lang="fr-FR"\r\n      data-original-lang="fr-FR"\r\n      data-rendered-at="Mon, 19 Oct 2020 06:43:40 GMT"\r\n      data-dynamic-ui-url="/fr-FR/api/dynamicUi"\r\n      data-subscription-plans-url="/fr-FR/api/subscription/plans"\r\n      data-subscription-checkout-url="/fr-FR/api/subscription/checkout"\r\n      data-pack-content-api-url="/fr-FR/api/Search/packContent"\r\n      data-is-logged-in-url="/fr-FR/api/account/isLoggedIn"\r\n      data-create-account-url="/fr-FR/api/account/createAccount"\r\n      data-login-url="/fr-FR/api/account/login"\r\n      data-login-modal-url="/LoginModal/LoginModal"\r\n      data-release="247"\r\n      data-datalayer=\'{"page":{"type":"Home Page","language":"fr-FR","country":"FR","currency":"EUR"},"event":"pageView"}\'\r\n      data-add-to-cart="Ajouter"\r\n      data-out-of-stock="Revient vite !">\r\n<head>\r\n    \r\n    <meta charset="utf-8" />\r\n\r\n<title>Achat de bi&#232;res, f&#251;ts et tireuses 

In [38]:
type(content)

str

#### Essai avec des regex

In [39]:
# récupération mannuelle d'un prix avec une regex
# extraction de tous les caractères différents de <
# compris entre <span class="price"> et </span>
rx = re.compile('<span class="price">([^<]+)</span>')
match = rx.search(content)  # équivalent à match = re.search('<span class="price">([^<]+)</span>', content)
type(match)

re.Match

In [40]:
# extraction de niveau 0
match.group(0)

'<span class="price">11,99 €</span>'

In [41]:
# extraction de niveau 1
match.group(1)

'11,99 €'

In [42]:
# récupération mannuelle de tous les prix avec une regex
for match in rx.finditer(content):
    print(match.group(1))

11,99 €
20,69 €
17,09 €
19,79 €
15,99 €
16,99 €
17,99 €
16,99 €
1,79 €
3,14 €
2,69 €
2,87 €
62,99 €
38,99 €
42,99 €
37,99 €
139,00 €
89,00 €
129,00 €
119,00 €


La technique est très fragile car elle s'appuie sur la syntaxe HTML exacte et non sur la sémantique...

In [43]:
# récupération mannuelle de tous les prix avec une regex
rx = re.compile('<span class="price from-price">([^<]+)</span>')
for match in rx.finditer(content):
    print(match.group(1))

In [44]:
# récupération mannuelle de tous les prix avec une regex
# ( from-price)? est une expression de capture
# possibilité d'utiliser (?: from-price)? qui n'est pas une expression de capture
rx = re.compile('<span class="price( from-price)?">([^<]+)</span>')
for match in rx.finditer(content):
    print(match.group(1), match.group(2))

None 11,99 €
None 20,69 €
None 17,09 €
None 19,79 €
None 15,99 €
None 16,99 €
None 17,99 €
None 16,99 €
None 1,79 €
None 3,14 €
None 2,69 €
None 2,87 €
None 62,99 €
None 38,99 €
None 42,99 €
None 37,99 €
None 139,00 €
None 89,00 €
None 129,00 €
None 119,00 €


**Avec pandas.read_html()** recherche des tableaux dans les pages HTML

**Exemple**

Tableau page wikipédia: https://fr.wikipedia.org/wiki/Liste_des_pays_par_PIB_nominal

In [45]:
# scraping d'une page HTML
var = pd.read_html("https://fr.wikipedia.org/wiki/Liste_des_pays_par_PIB_nominal")
[df.shape for df in var]

[(1, 1), (195, 3), (211, 3), (213, 3), (12, 2), (4, 2)]

In [46]:
# accès au n° 2
df = var[1]
df

Unnamed: 0,Rang,Pays ou territoire,PIB (en milliards de dollars/an)
0,1,États-Unis,"20 494,05"
1,-,"Union européenne[2],[note 1]","18 750,05"
2,2,Chine[note 2],"13 407,40"
3,3,Japon,"4 971,93"
4,4,Allemagne,"4 000,39"
5,5,Royaume-Uni,"2 828,64"
6,6,France,"2 775,25"
7,7,Inde,"2 716,75"
...,...,...,...
187,187,Tonga,0470


In [47]:
# accès à des valeurs
df.iloc[0]

Rang                                         1
Pays ou territoire                  États-Unis
PIB (en milliards de dollars/an)     20 494,05
Name: 0, dtype: object

In [48]:
# index = columns du DataFrame
df.iloc[0].index

Index(['Rang', 'Pays ou territoire', 'PIB (en milliards de dollars/an)'], dtype='object')

In [49]:
# accès à des valeurs
df.iloc[[0, 1, 2, 76, -1]]

Unnamed: 0,Rang,Pays ou territoire,PIB (en milliards de dollars/an)
0,1,États-Unis,"20 494,05"
1,-,"Union européenne[2],[note 1]","18 750,05"
2,2,Chine[note 2],"13 407,40"
76,76,Bulgarie,6496
194,194,Tuvalu,00450


In [50]:
# accès à une valeur
df.iloc[1, 2]

'18\xa0750,05'

Chercher le code hexa \xa0 : https://www.codetable.net/hex/a0

In [51]:
# aide sur read_html()
# pd.read_html?

In [52]:
# conversion automatique du séparateur des milliers
var = pd.read_html("https://fr.wikipedia.org/wiki/Liste_des_pays_par_PIB_nominal",
                    thousands='\xa0',
                    decimal=',')
df = var[1]
df.iloc[[0, 1, 2, 76, -1]]

Unnamed: 0,Rang,Pays ou territoire,PIB (en milliards de dollars/an)
0,1,États-Unis,20494.05
1,-,"Union européenne[2],[note 1]",18750.05
2,2,Chine[note 2],13407.4
76,76,Bulgarie,64.96
194,194,Tuvalu,0.045


In [53]:
# reste à faire
test  = df.loc[df['Pays ou territoire'].str.contains("[^A-Za-zÀ-ÿ0-9 \-']")]
test

Unnamed: 0,Rang,Pays ou territoire,PIB (en milliards de dollars/an)
1,-,"Union européenne[2],[note 1]",18750.05
2,2,Chine[note 2],13407.4
11,11,Russie[note 3],1630.66


**Exercice 4**

Extraire les noms des pays sans les annotations.

In [54]:
test['Pays ou territoire'].apply(lambda x : x.replace(x[:-8],""))
test

Unnamed: 0,Rang,Pays ou territoire,PIB (en milliards de dollars/an)
1,-,"Union européenne[2],[note 1]",18750.05
2,2,Chine[note 2],13407.4
11,11,Russie[note 3],1630.66


In [55]:
s = 'salut loli'
s.replace(s[:2],"") 

'lut loli'

In [56]:
df.loc[df['Pays ou territoire'].str.contains("[^A-Za-zÀ-ÿ0-9 \-']")]

Unnamed: 0,Rang,Pays ou territoire,PIB (en milliards de dollars/an)
1,-,"Union européenne[2],[note 1]",18750.05
2,2,Chine[note 2],13407.4
11,11,Russie[note 3],1630.66


**Avec beautifulsoup** parsing HTML

Doc :
- beautifulsoup : https://www.crummy.com/software/BeautifulSoup/bs4/doc/

Installation :
- *pip install beautifulsoup4* ou *conda install -c anaconda beautifulsoup4*

In [57]:
# imports
from bs4 import BeautifulSoup

**Exemple basique**

In [58]:
html = """
<html>
    <head>
        <style>
        h1 { font-size: 50px; }
        body { font-family: Verdana; }
        li { color: red; }
        ul ul li { color: green; }
        .highlighted { font-weight: bold; }
        .italic { font-style: italic; }
        .highlighted.italic { }
        </style>
    </head>
    <body>
        <h1>Mon titre</h1>
        <p class="highlighted">
            Some text with a<br>
            <a href="https://google.com">link to google</a>
            <img src="https://picsum.photos/200/300">
        </p>
        <p>Some list:</p>
        <ul>
            <li>some item</li>
            <li class="highlighted italic">some item</li>
            <li class="italic">some item</li>
            <ul>
                <li>some other item 1</li>
                <li>some other item 2</li>
            </ul>
            <li>some item</li>
        </ul>
    </body>
</html>
"""

A tester sur : https://html.house

In [59]:
# bs4
soup = BeautifulSoup(html)
soup

<html>
<head>
<style>
        h1 { font-size: 50px; }
        body { font-family: Verdana; }
        li { color: red; }
        ul ul li { color: green; }
        .highlighted { font-weight: bold; }
        .italic { font-style: italic; }
        .highlighted.italic { }
        </style>
</head>
<body>
<h1>Mon titre</h1>
<p class="highlighted">
            Some text with a<br/>
<a href="https://google.com">link to google</a>
<img src="https://picsum.photos/200/300"/>
</p>
<p>Some list:</p>
<ul>
<li>some item</li>
<li class="highlighted italic">some item</li>
<li class="italic">some item</li>
<ul>
<li>some other item 1</li>
<li>some other item 2</li>
</ul>
<li>some item</li>
</ul>
</body>
</html>

In [60]:
# type
type(soup)

bs4.BeautifulSoup

In [61]:
# find h1
titre = soup.find('h1')
titre

<h1>Mon titre</h1>

In [62]:
# type
type(titre)

bs4.element.Tag

In [63]:
# name
titre.name

'h1'

In [64]:
# text
titre.text

'Mon titre'

In [65]:
# find a
link = soup.find('a')
link

<a href="https://google.com">link to google</a>

In [66]:
# prochain tag
link.find_next()

<img src="https://picsum.photos/200/300"/>

In [67]:
# attrs
link.attrs

{'href': 'https://google.com'}

In [68]:
# text
link.text

'link to google'

In [69]:
# find p
paragraph = soup.find('p')
paragraph

<p class="highlighted">
            Some text with a<br/>
<a href="https://google.com">link to google</a>
<img src="https://picsum.photos/200/300"/>
</p>

In [70]:
# find img in paragraph
paragraph.find('img')

<img src="https://picsum.photos/200/300"/>

In [71]:
# find_all
soup.find_all('li', {'class': "italic"})

[<li class="highlighted italic">some item</li>,
 <li class="italic">some item</li>]

In [72]:
# idem avec un sélecteur css:
soup.select('li.italic')

[<li class="highlighted italic">some item</li>,
 <li class="italic">some item</li>]

In [73]:
# Récupérer les li de 2e niveau qui sont dans un ul lui-même dans un ul
soup.find('ul').find('ul').find_all('li')

[<li>some other item 1</li>, <li>some other item 2</li>]

In [74]:
# idem avec un sélecteur css:
soup.select('ul ul li')

[<li>some other item 1</li>, <li>some other item 2</li>]

In [75]:
# accès au premier li
li = soup.select('ul ul li')[0]
li

<li>some other item 1</li>

In [76]:
# prochain tag identique
li.find_next_sibling()

<li>some other item 2</li>

In [77]:
# parent
li.parent

<ul>
<li>some other item 1</li>
<li>some other item 2</li>
</ul>

In [78]:
# contents
li.parent.contents

['\n', <li>some other item 1</li>, '\n', <li>some other item 2</li>, '\n']

In [79]:
# que les tags
li.parent.find_all()

[<li>some other item 1</li>, <li>some other item 2</li>]

**Exemple 1**

Le Bon Coin

In [80]:
# premier essai avec leboncoin

r = requests.get('https://www.leboncoin.fr/annonces/offres/ile_de_france/')
r

<Response [403]>

Codes erreurs du protocole HTTP : https://developer.mozilla.org/fr/docs/Web/HTTP/Status

In [81]:
# contenu
r.content

b'<html><head><title>leboncoin.fr</title><style>#cmsg{animation: A 1.5s;}@keyframes A{0%{opacity:0;}99%{opacity:0;}100%{opacity:1;}}</style></head><body style="margin:0"><p id="cmsg">Please enable JS and disable any ad blocker</p><script>var dd={\'cid\':\'AHrlqAAAAAMACf9veMOAq_oAicL72A==\',\'hsh\':\'05B30BD9055986BD2EE8F5A199D973\',\'t\':\'fe\',\'s\':2089,\'host\':\'geo.captcha-delivery.com\'}</script><script src="https://ct.captcha-delivery.com/c.js"></script></body></html>\n'

In [82]:
# en str
print(r.content.decode('utf-8'))

<html><head><title>leboncoin.fr</title><style>#cmsg{animation: A 1.5s;}@keyframes A{0%{opacity:0;}99%{opacity:0;}100%{opacity:1;}}</style></head><body style="margin:0"><p id="cmsg">Please enable JS and disable any ad blocker</p><script>var dd={'cid':'AHrlqAAAAAMACf9veMOAq_oAicL72A==','hsh':'05B30BD9055986BD2EE8F5A199D973','t':'fe','s':2089,'host':'geo.captcha-delivery.com'}</script><script src="https://ct.captcha-delivery.com/c.js"></script></body></html>



Lancement du script `server.py` lancé dans un terminal avec la commande :
<code>python server.py --bind 127.0.0.1</code> sur Windows ou <code>python server.py --bind 0.0.0.0</code> sur MacOS.

In [83]:
# avec run de server.py
r = requests.get('http://127.0.0.1:8000')  # http://0.0.0.0:8000
r

ConnectionError: HTTPConnectionPool(host='127.0.0.1', port=8000): Max retries exceeded with url: / (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x7fa02e91f390>: Failed to establish a new connection: [Errno 61] Connection refused'))

In [None]:
# avec run de server.py
r.content

In [84]:
# avec run de server.py
from IPython.display import IFrame
IFrame('http://127.0.0.1:8000', width=800, height=200)  # http://0.0.0.0:8000

In [85]:
# headers
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:81.0) Gecko/20100101 Firefox/81.0',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Accept-Language': 'fr,fr-FR;q=0.8,en-US;q=0.5,en;q=0.3',
'Accept-Encoding': 'gzip, deflate',
}
headers

{'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:81.0) Gecko/20100101 Firefox/81.0',
 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
 'Accept-Language': 'fr,fr-FR;q=0.8,en-US;q=0.5,en;q=0.3',
 'Accept-Encoding': 'gzip, deflate'}

In [86]:
# 2nd essai avec leboncoin
r = requests.get('https://www.leboncoin.fr/annonces/offres/ile_de_france/',
                 headers=headers)
r

<Response [200]>

In [87]:
# BeautifulSoup
soup = BeautifulSoup(r.content)
soup

<!DOCTYPE html>
<html lang="fr">
<head>
<meta charset="utf-8"/>
<meta content="ie=edge" http-equiv="x-ua-compatible"/>
<title data-react-helmet="true"> Ile-de-France - leboncoin</title>
<meta content="hd1IKIFS52UgrLBhQ7e0y6sP6cVp4QbHvmkfgHP0TnI" data-react-helmet="true" name="google-site-verification"/><meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, user-scalable=0" data-react-helmet="true" name="viewport"/><meta content="#f56b2a" data-react-helmet="true" name="theme-color"/><meta content="fr_FR" data-react-helmet="true" property="og:locale"/><meta content="leboncoin" data-react-helmet="true" property="og:site_name"/><meta content="leboncoin" data-react-helmet="true" name="twitter:site"/><meta content='CP="This is not a P3P policy"' data-react-helmet="true" http-equiv="P3P"/><meta content="Toutes nos annonces gratuites Ile-de-France. Consultez nos 6525714 annonces de particuliers et professionnels sur leboncoin" data-react-helmet="true" name="description"/>
<sc

**Exemple 2**

Craig List

In [88]:
# essai avec craigslist
r = requests.get('https://paris.craigslist.org/d/locations-de-vacances/search/vac')
r

<Response [200]>

In [89]:
# BeautifulSoup
soup = BeautifulSoup(r.content)
soup

<!DOCTYPE html>
<html class="no-js"><head>
<title>Paris Locations de vacances   - craigslist</title>
<script id="ld_breadcrumb_data" type="application/ld+json">
    {"@context":"https://schema.org","itemListElement":[{"item":{"name":"paris.craigslist.org","@id":"https://paris.craigslist.org"},"position":1,"@type":"ListItem"},{"item":{"name":"housing","@id":"https://paris.craigslist.org/search/hhh"},"position":2,"@type":"ListItem"},{"item":{"name":"vacation rentals","@id":"https://paris.craigslist.org/search/vac"},"position":3,"@type":"ListItem"}],"@type":"BreadcrumbList"}
</script>
<meta content="Paris Locations de vacances   - craigslist" name="description"/>
<meta content="IE=Edge" http-equiv="X-UA-Compatible"/>
<link href="https://paris.craigslist.org/search/vac" rel="canonical"/>
<meta content="width=device-width,initial-scale=1" name="viewport"/>
<link href="//www.craigslist.org/styles/cl.css?v=9100bd643974b9e546434e60a287a082" media="all" rel="stylesheet" type="text/css"/>
<link 

On utilise 2 méthodes :
    
- find(tag, attrs) : trouve le premier tag avec les attributs spécifiés
- findAll(tag, attrs) : trouve tous les tags avec les attributs spécifiés

In [90]:
# exploration du HTML
# tag li avec class="result-row"

li_tag = soup.find('li', attrs={'class': 'result-row'})
print(li_tag)

<li class="result-row" data-pid="7214263349">
<a class="result-image gallery" data-ids="3:01414_1RGLXymo9bH_0gw0aY,3:00d0d_iIvrQ4uF04Y_0gw0b2,3:00F0F_9B01D7RgXEI_0gv0b0,3:00808_3z8dsigL7bN_0gw0b2,3:01616_4ytnMcunTln_06s04j,3:00a0a_hkhhUETjeyM_0gw0b2,3:00y0y_7i0piXwYAN4_0gw0b2,3:00W0W_izUZ5tyLlHv_08f0co,3:00b0b_4XVcTevMxpW_06s04j,3:00C0C_3JDfkKXsyFH_0gv0aX,3:00p0p_gA1Sn9gYE1z_08g0co,3:00a0a_5xRMe7ddiCf_08g0co,3:00X0X_h3R4gxjOfel_08g0co,3:00y0y_4qmfgO5g0TH_0gw0b2,3:00U0U_hmL0TtGmXHD_0gv0bx" href="https://paris.craigslist.org/vac/d/louvre-river-view-designer-apt-3mn-walk/7214263349.html">
<span class="result-price">€50</span>
</a>
<div class="result-info">
<span class="icon icon-star" role="button">
<span class="screen-reader-text">marquez cette publication comme favorite</span>
</span>
<time class="result-date" datetime="2020-10-15 12:10" title="jeu. 15 oct. 12:10:09">oct. 15</time>
<h2>
<a class="result-title hdrlnk" data-id="7214263349" href="https://paris.craigslist.org/vac/d/louvre-r

In [91]:
# type
type(li_tag)

bs4.element.Tag

La technique consiste par exemple à alimenter une liste de dictionnaires avec les valeurs trouvées pour chaque item et ensuite à le transformer en DataFrame :
- soit en utilisant tag.attrs['attr'] pour collecter la valeur attr du tag <tag attr=value>
- soit en utilisant tag.text pour collecter la valeur <tag>text</tag>
- éventuellement en recherchant dans un nouveau tag à l'intérieur d'un tag donné

In [92]:
# collecte des informations
# "data-pid"
# "time"
# "title"
# "price"
# "housing"
# "hood"
# "data-ids" (images)

rows = []

for li_tag in soup.findAll('li', attrs={'class': 'result-row'}):
    row = {}
    row['data-pid'] = li_tag.attrs['data-pid']
    
    t = li_tag.find('time')
    row['datetime'] = t.attrs['datetime']
    
    t = li_tag.attrs('price')
    row['price'] = t.attrs['price']
    
    rows.append(row)
    
rows

TypeError: 'dict' object is not callable

In [None]:
# en DataFrame
df = pd.DataFrame(rows)
df

**Exercice 5**

Compléter le DataFrame (sauf images)

In [93]:
# collecte des photos
# traitement des "data-ids"
# séparation des formats et des noms de fichier
# from javascript
imageConfig = {"1":{"hostname":"https://images.craigslist.org","sizes":["50x50c","300x300","600x450","1200x900"]},
               "4":{"hostname":"https://images.craigslist.org","sizes":["50x50c","300x300","600x450","1200x900"]},
               "0":{"hostname":"https://images.craigslist.org","sizes":["50x50c","300x300","600x450"]},
               "3":{"hostname":"https://images.craigslist.org","sizes":["50x50c","300x300","600x450","1200x900"]},
               "2":{"hostname":"https://images.craigslist.org","sizes":["50x50c","300x300","600x450","1200x900"]}};

In [94]:
# récupération des photos
from urllib import request
from shutil import copyfileobj

# data-ids
img = '00d0d_3QrOcJHTZgj'
size = '300x300'
filename = '{}_{}.jpg'.format(img, size)
url = 'https://images.craigslist.org/{}'.format(filename)

# get the file from the web and save it locally
with request.urlopen(url) as response, open(filename, 'wb') as out_file:
    copyfileobj(response, out_file)

In [95]:
from IPython.display import Image
Image(filename=filename)

<IPython.core.display.Image object>

#### Inconvénients du web scraping:
- plutôt lent (car on parse potentiellement beaucoup de HTML inutile)
- ne donne pas les résultats attendus si une partie du contenu est intégré dynamiquement à la page via javascript
- un changement dans l'architecture du html ou du css (e.g: refonte du design du site) oblige à réécrire le programme

### API

Exemple: Deezer

Artiste : https://www.deezer.com/fr/artist/3037

Récupérer le nombre de fans d'un artiste avec requests :

In [96]:
# request
artist = 3037
response = requests.get(f'https://www.deezer.com/fr/artist/{artist}')
soup = BeautifulSoup(response.content)
nb_fans = int(soup.find('div', id='naboo_artist_social_small').span.text)
nb_fans

528088

Récupérer le nombre de fans d'un artiste avec l'API :

Doc:
- https://pypi.org/project/deezer-python/

Installation :
- *pip install deezer-python*

Le terme "API" est très générique et peut désigner bien des choses, mais dans le jargon on l'utilise souvent pour désigner un service web qui renvoie non pas:
> des pages web au format HTML (destinées à être lues par un humain dans son navigateur)

mais:
> des données au format JSON (destinées à être traitées par un programme)

![img](https://miro.medium.com/max/4238/1*OcmVkcsM5BWRHrg8GC17iw.png)

Puisque les API sont dédiées à l'usage via des programmes, elles disposent en général d'une bonne documentation, et sont fiables et stables dans le temps. Tandis que sur des pages web HTML classiques, le design peut par exemple changer du jour au lendemain et rendre votre programme BeautifulSoup obsolète.

In [97]:
# API JSON
response = requests.get(f'https://api.deezer.com/artist/{artist}')
data = response.json()
data

{'id': 3037,
 'name': 'Genesis',
 'link': 'https://www.deezer.com/artist/3037',
 'share': 'https://www.deezer.com/artist/3037?utm_source=deezer&utm_content=artist-3037&utm_term=0_1603089861&utm_medium=web',
 'picture': 'https://api.deezer.com/artist/3037/image',
 'picture_small': 'https://cdns-images.dzcdn.net/images/artist/c0ed2cf09c7bf072111d614fc4557b66/56x56-000000-80-0-0.jpg',
 'picture_medium': 'https://cdns-images.dzcdn.net/images/artist/c0ed2cf09c7bf072111d614fc4557b66/250x250-000000-80-0-0.jpg',
 'picture_big': 'https://cdns-images.dzcdn.net/images/artist/c0ed2cf09c7bf072111d614fc4557b66/500x500-000000-80-0-0.jpg',
 'picture_xl': 'https://cdns-images.dzcdn.net/images/artist/c0ed2cf09c7bf072111d614fc4557b66/1000x1000-000000-80-0-0.jpg',
 'nb_album': 26,
 'nb_fan': 528088,
 'radio': True,
 'tracklist': 'https://api.deezer.com/artist/3037/top?limit=50',
 'type': 'artist'}

In [98]:
# nb_fan
data['nb_fan']

528088

In [99]:
# picture
url = data['picture']
r = requests.get(url)
Image(data=r.content)

<IPython.core.display.Image object>

#### Avantages d'une API
- renvoie du format JSON, facile et rapide à traiter
- renvoie un format stable et documenté (voire versionné)
- exemple : https://developer.twitter.com/en/docs/twitter-api/api-reference-index
- la documentation indique comment interagir avec l'API:
    - quelle url
    - quelle méthode http (GET, POST, ...)
    - quels paramètres
    - ...
→ idéal pour les développeurs

### Quel intérêt pour le fournisseur d'API ?

En général il met en place des quotas de requêtes ou d'autres limitations afin de proposer un service payant qui dispose de possibilités avancées / d'un meilleur support / etc.

C'est pourquoi de nombreux services nécessitent de se connecter avec son compte client pour utiliser une API (e.g. https://openweathermap.org/api)

#### **Basic Auth**

Exemple: accéder à https://kim.fspot.org/private/

Pour y accéder il est nécessaire d'utiliser les credentials suivant:
- login: admin
- password: secret

Si on ne les passe pas (ou si on ne passe pas les bons), on a une erreur 401 (= unauthorized).

In [100]:
# sans login/password
res = requests.get('https://kim.fspot.org/private')
res

<Response [401]>

In [101]:
# avec login password
res = requests.get('https://kim.fspot.org/private', auth=('admin', 'secret'))
res

<Response [200]>

In [102]:
# contenu
res.content.decode('utf-8')

'<!doctype html>\n<html>\n<head>\n<title>Success</title>\n</head>\n<body>\n\t<h1>Well done!</h1>\n</body>\n</html>\n'

#### Auth par token

Exemple sur openweathermap :
- documentation: https://openweathermap.org/appid
- mes tokens: https://home.openweathermap.org/api_keys

In [103]:
# requête avec un token
token = ''

Avantage des tokens:
- évite que les requêtes HTTP contiennent le mot de passe - à la place elles contiennent un token
- si je me fais "voler" un token, je peux le supprimer de mon compte
- certains services fournissent des token plus ou moins limités : ainsi je peux accepter de prêter un token à quelqu'un d'autre si je sais qu'il ne pourra en faire qu'un usage restreint (e.g app facebook: voir mes infos de profil, pas publier des posts à ma place)

In [104]:
# requête avec un token
url = f'http://api.openweathermap.org/data/2.5/weather?APPID={token}&q=Paris'
res = requests.get(url)

meteo = res.json()
meteo

{'cod': 401,
 'message': 'Invalid API key. Please see http://openweathermap.org/faq#error401 for more info.'}

In [105]:
# type
type(meteo)

dict

In [106]:
# extractions
{'city': meteo['name'],
'country': meteo['sys']['country'],
'date': meteo['dt'],
'temp': meteo['main']['temp'] - 273.15,}

KeyError: 'name'

In [36]:
# extractions
import time

{'city': meteo['name'],
'country': meteo['sys']['country'],
'date': time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(meteo['dt'])),
'temp': meteo['main']['temp'] - 273.15,}

KeyError: 'name'