# Séance 7 : Ressources Web, Scraping, emails

## Rappels HTTP, GET, POST, Query String, Header, Body ...

https://developer.mozilla.org/fr/docs/Web/HTTP/Aper%C3%A7u

https://developer.mozilla.org/fr/docs/Web/HTTP/Status

#### Démonstration dans POSTMAN de la structure d'une requête HTTP

## Urllib
Package non vu en cours mais utilisé par les packages que l'on va manipuler

## Requests : pour une gestion simple des appels Web

https://requests.readthedocs.io/en/master/

pip install requests

### Requête GET simple pour étudier l'objet réponse

In [2]:
import requests
r = requests.get('https://www.google.fr')
r

<Response [200]>

In [3]:
r.text

'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="fr"><head><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="iUxEAD+KUpz9ub0DzVU7FQ==">(function(){window.google={kEI:\'U2lCYMa2KI7jUsHPtfAD\',kEXPI:\'0,18167,1284266,7,56969,954,5104,207,4804,2316,383,246,5,1354,5251,1664,1120851,1232,1196473,578,302679,26305,51223,16115,28684,9188,8384,4859,1361,9291,3024,4743,12841,4020,978,13228,2054,920,873,4192,6430,14528,4516,2778,920,2276,8,2796,1593,1279,2212,530,149,1103,840,517,1466,56,157,4101,109,1340,2,2063,606,2024,1776,520,4269,328,1284,8789,3227,419,2426,7,5599,6755,5096,599,6940,337,4929,108,2854,553,908,2,941,2614,2397,7470,3275,3,576,1835,8,4616,149,5990,7985,1,1,2,1528,2304,923,313,1145,4082,576,1791,2892,460,1555,4067,1036,4598,1426,374,3824,1297,1753,2658,4243,518,912,564,1120,30,2283,1571,4108,167,3285,2214,2

In [None]:
r.content

In [None]:
r.status_code

In [None]:
r_404 = requests.get('https://www.google.fr/mapage')
r_404.status_code

Request fournit des objets pour faciliter l'analyse des codes retour HTTP.
Pour éviter de tout tester il y a par exemple requests.codes.ok

In [None]:
r_404.status_code == requests.codes.ok

Mais si le serveur n'est pas trouvé il faut cependant gérer les exceptions !

In [4]:
r_err = requests.get('https://zzz.google.fr/')

ConnectionError: HTTPSConnectionPool(host='zzz.google.fr', port=443): Max retries exceeded with url: / (Caused by NewConnectionError('<urllib3.connection.HTTPSConnection object at 0x0000002E57845040>: Failed to establish a new connection: [Errno 11001] getaddrinfo failed'))

In [None]:
try : 
    r_err = requests.get('https://zzz.google.fr/')
except requests.exceptions.RequestException as e:
    print(e)

## Rappels HTML, CSS

## Scapper une page HTML avec Beautiful Soup

https://www.insee.fr/fr/information/2028273

la page contient une donnée qui est structurée en HTML/CSS de manière assez claire, ce qui permet de facilement venir y récupérer ce que l'on souhaite : la liste des pays

        <div class="corps-publication">
            <h2 class="bloc intertitre-impression " id="titre-bloc-1">Europe</h2>
            <ul class="bloc liste">
               
               <li class="item">99125 <a href="/fr/metadonnees/cog/pays/PAYS99125-albanie" class="renvoi"> ALBANIE</a>
                  
               </li>
               
               <li class="item">99109 <a href="/fr/metadonnees/cog/pays/PAYS99109-allemagne" class="renvoi"> ALLEMAGNE</a>
                  
               </li>

Au sein de la Div ayant pour classe "corps-publication", il y a 
- une balise h2 que l'on peut ignorer, elle en contient que le titre du tableau
- une balise ul avec les classes bloc et liste, c'est une liste qui contient des éléments de liste : les balises li

Chaque balise li contenue dans la div : 
- a la même class item
- a un contenu qui est composé de choses : 
    du texte : le code du pays
    un liens vers page du pays, lien qui contient un text : le nom du pays
    
On vient de poser les bases de l'analyse du code HTML de la page !

Il nous faut de quoi faire l'appel à la page : requests

Et de quoi facilement extraite des éléments de la page sur la base des balises HTML et éléments de CSS qu'elles contiennent.

Pour cela on va utiliser BeautifullSoup4 : 
https://www.crummy.com/software/BeautifulSoup/


In [None]:
import requests
from bs4 import BeautifulSoup

Commencons pas récupérer le contenu de la page et vérifions que la page retourne bien un code 200

In [None]:
page = requests.get("https://www.insee.fr/fr/information/2028273")
page.status_code

le contenu de la page va être maintenant utilisé dans un objet de type BeautifulSoup

In [None]:
soup = BeautifulSoup(page.text, 'html.parser')

In [None]:
soup = BeautifulSoup(base_page.text, 'html.parser')

L'analyse de la page était assez simple : au final si on liste tous les balises HTML li ayant comme class css 'item' on a la liste des pays

Pour cela il faut utiliser la méthide find_all, qui d'après la documentation retourne une liste

https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all

In [None]:
liste_pays = soup.find_all('li',  class_='item')
len(liste_pays)

In [None]:
liste_pays[:3]

In [None]:
type(liste_pays[0])

In [None]:
liste_pays = [pays.get_text() for pays in liste_pays]
liste_pays[:3]

In [None]:
type(liste_pays[0])

il ne reste plus qu'à netoyer les chaines de texte et à les formater le résultat, par exemple pour avoir le code et le nom du pays dans 2 objets différents

In [None]:
liste_pays = [pays.rstrip() for pays in liste_pays]
liste_pays[:3]

In [None]:
liste_finale = [pays.split('  ') for pays in liste_pays]
liste_finale[:3]

Et si vous vous souvenez du cours sur les dictionnaires vous vous doutez qu'on aurait pu faire bien mieux :

In [None]:
dict_final = { pays.split('  ')[1]: pays.split('  ')[0] for pays in liste_pays}
dict_final.get('MEXIQUE')

### Pour aller plus loin ...

Le tableau récupéré initialement contenait un lien vers la page de détail de chaque pays ... 
Il est donc possible d'enchainer les appels pour visiter toutes les pages des pays et récupérer plus de données

pour l'albanie le cde HTML dans la page d'index est :

    <li class="item">99125 <a class="renvoi" href="/fr/metadonnees/cog/pays/PAYS99125-albanie"> ALBANIE</a>
 </li>


on voit que le lient n'est pas complet, il manque une partie de l'URL que l'on peut récupérer en utilisant, dans le navigateur,  le lien dans la page d'index qui ouvre : 
https://www.insee.fr/fr/metadonnees/cog/pays/PAYS99125-albanie

on voit alors qu'il faut ajouter https://www.insee.fr devant la cible des liens de la page d'index


In [None]:
import requests
from bs4 import BeautifulSoup

base_pays_url = "https://www.insee.fr"
base_url = "https://www.insee.fr/fr/information/2028273"
base_page = requests.get(base_url)
soup = BeautifulSoup(base_page.text, 'html.parser')

liste_pays = []

# Boucle sur la liste brute (avec code HTML pour récupérer tout, yc le lien)
for pays in soup.find_all('li',  class_='item'):
    pays_data = (pays.get_text().rstrip().split('  '))
    # ici on récupère le lien (balise a) puis la valeur de son attribut href
    href = pays.a.get('href')
    url_pays = base_pays_url + href
    pays_page = requests.get(url_pays)
    nom_insee = pays_data[1]
    code_insee = pays_data[0]
    # récupération de la page de détail et de ses données :
    soup2 = BeautifulSoup(pays_page.text, 'html.parser')
    actif = soup2.find_all('div',  class_='sous-titre')[0].get_text().strip()
    items = soup2.find_all('li',  class_='description-item')
    # compréhension de liste pour récuypérer les valeuyrs texte et non des objets beautifulsoup
    items = [item.get_text() for item in items]
    # analyse des lignes
    iso_3166_nombre = items[len(items) - 1].split(":")[1].rstrip()
    iso_3166_3lettres = items[len(items) - 2].split(":")[1].rstrip()
    code_insee3 = code_insee[2:]
    liste_pays.append({'iso_3166_nombre': iso_3166_nombre, 'iso_3166_3lettres': iso_3166_3lettres,
               'nom_insee': nom_insee, 'code_insee': code_insee, 'code_insee3': code_insee3, 'actif': actif})

In [None]:
print(liste_pays[:5])

In [None]:
On peut toujours faire mieux ...

In [None]:
dict_final = { pays['nom_insee'] : pays for pays in liste_pays}
dict_final['AUTRICHE']

### Encore plus loins ?

Attention à ne pas aller trop loin et lire les CGU des sites !

Exemple : 

https://www.airbnb.fr/terms
    
utiliser des robots, spiders, crawlers, scrapers ou autres moyens ou processus automatiques pour accéder à la Plate-forme Airbnb, récupérer des données ou autre contenu sur la Plate-forme Airbnb ou interagir avec la Plate-forme Airbnb à toute autre fin ;

Pourtant : 

http://insideairbnb.com/index.html


## Utiliser une API Web : API Adresse

### Exemple d'une méthode GET (Geocodage inversé)

Le propre d'une API est de délivrer des données ou des traitements sur des données de manière structurée.
l'appelle est structuré via des paramètres : 
- dans l'url par exemple pour les requêtes POST
- dans le corps (body) de la requête si c'est du POST
- voir même dans l'entête HTTP de l'appel (pour préciser des comportements : format attendu, éléments d'authentification)

Les API ont des documentations : 
    https://geo.api.gouv.fr/adresse


Voir dans le navigateur ce que donne : 
    https://api-adresse.data.gouv.fr/search/?q=8+bd+du+port&limit=15
        

Avec Requests faire une requête sur la base d'une URL préconstruite avec les paramètres (query string) lon et lat

In [5]:
import requests
url = "https://api-adresse.data.gouv.fr/reverse/?lon=2.29025241063&lat=48.8736809161"
r = requests.get(url)
r.text

'{"type": "FeatureCollection", "version": "draft", "features": [{"type": "Feature", "geometry": {"type": "Point", "coordinates": [2.290336, 48.873874]}, "properties": {"label": "20 Avenue Foch 75016 Paris", "score": 0.9999998009176669, "housenumber": "20", "id": "75116_3696_00020", "name": "20 Avenue Foch", "postcode": "75016", "citycode": "75116", "x": 647947.26, "y": 6863995, "city": "Paris", "district": "Paris 16e Arrondissement", "context": "75, Paris, \\u00cele-de-France", "type": "housenumber", "importance": 0.77358, "street": "Avenue Foch", "distance": 22}}], "attribution": "BAN", "licence": "ETALAB-2.0", "limit": 1}'

La donnée (structurée en json) étant une chaîne str il faut la transformer en un objet plus facilement manipulable via le package json

In [6]:
import json
j = json.loads(r.text)
j

{'type': 'FeatureCollection',
 'version': 'draft',
 'features': [{'type': 'Feature',
   'geometry': {'type': 'Point', 'coordinates': [2.290336, 48.873874]},
   'properties': {'label': '20 Avenue Foch 75016 Paris',
    'score': 0.9999998009176669,
    'housenumber': '20',
    'id': '75116_3696_00020',
    'name': '20 Avenue Foch',
    'postcode': '75016',
    'citycode': '75116',
    'x': 647947.26,
    'y': 6863995,
    'city': 'Paris',
    'district': 'Paris 16e Arrondissement',
    'context': '75, Paris, Île-de-France',
    'type': 'housenumber',
    'importance': 0.77358,
    'street': 'Avenue Foch',
    'distance': 22}}],
 'attribution': 'BAN',
 'licence': 'ETALAB-2.0',
 'limit': 1}

Requests nous facilite la vie ici aussi avec une méthde json() sur l'objet réponse : 

In [7]:
j = r.json()
j

{'type': 'FeatureCollection',
 'version': 'draft',
 'features': [{'type': 'Feature',
   'geometry': {'type': 'Point', 'coordinates': [2.290336, 48.873874]},
   'properties': {'label': '20 Avenue Foch 75016 Paris',
    'score': 0.9999998009176669,
    'housenumber': '20',
    'id': '75116_3696_00020',
    'name': '20 Avenue Foch',
    'postcode': '75016',
    'citycode': '75116',
    'x': 647947.26,
    'y': 6863995,
    'city': 'Paris',
    'district': 'Paris 16e Arrondissement',
    'context': '75, Paris, Île-de-France',
    'type': 'housenumber',
    'importance': 0.77358,
    'street': 'Avenue Foch',
    'distance': 22}}],
 'attribution': 'BAN',
 'licence': 'ETALAB-2.0',
 'limit': 1}

On peut vérifier que c'est bien un dictionnaire : 

In [8]:
type(j)

dict

On peut donc utiliser la notation avec [] pour naviguer dans les objets contenus dans le dictionnaire : 

In [9]:
j["features"][0]['properties']['label']

'20 Avenue Foch 75016 Paris'

#### Préparer les paramètres d'URL dans un dictionnaire python

la première requête contient les paramètre dans l'URL : 
https://api-adresse.data.gouv.fr/reverse/?lon=2.29025241063&lat=48.8736809161

construire une telle requête avec code en gérant l'URL complète comme une chaîne de texte ne serait pas une bonne idée.

On peut gérer les paramètres d'URL d'un appel de type GET avec une donnée structurée que l'on passe à requets lors de l'appel.

Pour cela on utilise ... un dictionnaire.


In [10]:
import requests
import json

mes_params = {
    'lat':48.8736809161, 
    'lon': 2.29025241063
    }

mon_url = "https://api-adresse.data.gouv.fr/reverse/"

r = requests.get(url = mon_url, params = mes_params) 

j = r.json()

j["features"][0]['properties']['label']

'20 Avenue Foch 75016 Paris'

### Autre exemple : géocoder une adresse

In [11]:
url = 'https://api-adresse.data.gouv.fr/search/'
mes_params = {'q':'2 rue de la liberté, 93066'}
r = requests.get(url = url, params = mes_params) 
j = r.json()
j["features"][0]['geometry']['coordinates']

[2.365053, 48.944116]

### Requête Web avec la méthode POST

### Pour aller plus loin : Exemple (avancé) d'une méthode POST pour traiter un fichier CSV avec l'API Adresses

In [None]:
fichier = r'C:\\Users\\moccandg\\Documents\\DEVS\\notebooks\\COURS_P8\\data\\api\\reverse.csv'
data = open(fichier, 'r', encoding='utf8').read()
print(data)

In [None]:
import requests
from requests_toolbelt import MultipartEncoder

url = 'https://api-adresse.data.gouv.fr/reverse/csv/'

m = MultipartEncoder(
    fields={
            'data': ('reverse.csv', open(fichier, 'rb'), 'text/plain')}
    )
r = requests.post(url, data=m,
                  headers={'Content-Type': m.content_type})

print(r.text)

La donnée est retournée en texte selon une structure CSV.

Il est donc possible d'utiliser DictReader, mais contrairement aux exemples vus dans la Séance 06 le CSV n'est pas un fichier mais un objet str (ici le contenu de la réponse r.text).
On peut utiliser StringIO pour considérer la chaîne de caractère comme étant un flux équivament à la lecture d'un fichier CSV dans sa totalité.



In [None]:
from csv import DictReader

f = StringIO(r.text)
reader = DictReader(f,  delimiter=',')

for row in reader:
    print(row['result_label'])

## Utiliser une API Web avec authentification : API Sirene

https://www.sirene.fr/sirene/public/static/api

https://api.insee.fr/entreprises/sirene/V3/informations


In [12]:
import requests
url_info= "https://api.insee.fr/entreprises/sirene/V3/informations"

try : 
    r = requests.get(url_info)
    print(r.text)
    print(r.status_code)

except requests.exceptions.RequestException as e:
    print(e)


<ams:fault xmlns:ams="http://wso2.org/apimanager/security"><ams:code>900902</ams:code><ams:message>Missing Credentials</ams:message><ams:description>Required OAuth credentials not provided. Make sure your API invocation call has a header: "Authorization: Bearer ACCESS_TOKEN"</ams:description></ams:fault>
401


C'est du XML on preférerait du JSON.

Pour cela on peut préciser à l'API le format que l'on souhaite via un paramètre d'entête HTTP :

In [13]:
headers = {'Accept': 'application/json'}

In [14]:
import json
try : 
    r = requests.get(url_info, headers=headers)
    j = r.json()
    print(j)

except requests.exceptions.RequestException as e:
    print(e)
    

{'fault': {'code': 900902, 'message': 'Missing Credentials', 'description': 'Required OAuth credentials not provided. Make sure your API invocation call has a header: "Authorization: Bearer ACCESS_TOKEN"'}}


In [22]:
headers = {'Accept': 'application/json', 
           'Authorization' : 'Bearer sV4nqK7s8Y343KT7IBDKKcF8lqUa'}

In [24]:
try : 
    r = requests.get(url_info, headers=headers)
    print(r.text)
    print(r.status_code)
except requests.exceptions.RequestException as e:
    print(e)

{"fault":{"code":900901,"message":"Invalid Credentials","description":"Access failure for API: /entreprises/sirene/V3, version: V3 status: (900901) - Invalid Credentials. Make sure you have given the correct access token"}}
401


SIREN de l'Université Paris 8 : 199 318 270 00014

In [29]:
siren = 199318270
siret = 19931827000014

url_siren = f"https://api.insee.fr/entreprises/sirene/V3/siret/{siret}"

headers = {'Accept': 'application/json', 'Authorization' : 'Bearer sV4nqK7s8Y343KT7IBDKKcF8lqUa'}

try : 
    r = requests.get(url_siren, headers=headers)
    # on a précisé dans l'entête de la requête que l'on souhaite du JSON car l'API le permet
    # on peut donc lire la réponse sous forme de json (dict)
    data = r.json()
except requests.exceptions.RequestException as e:
    print(e)

data

{'fault': {'code': 900901,
  'message': 'Invalid Credentials',
  'description': 'Access failure for API: /entreprises/sirene/V3, version: V3 status: (900901) - Invalid Credentials. Make sure you have given the correct access token'}}

In [34]:
url_siren_recherche = "https://api.insee.fr/entreprises/sirene/V3/siret/"
headers = {'Accept': 'application/json', 'Authorization' : 'Bearer e8727f2b-b5a9-30cb-bb3b-af3e05472be4'}
nom_univ = 'UNIVERSITE PARIS VIII'

params = {'q': f'denominationUniteLegale:"{nom_univ}"'}

try : 
    r = requests.get(url_siren_recherche, headers=headers, params = params)
    # on a précisé dans l'entête de la requête que l'on souhaite du JSON car l'API le permet
    # on peut donc lire la réponse sous forme de json (dict)
    data = r.json()
except requests.exceptions.RequestException as e:
    print(e)
    
data

{'header': {'statut': 200,
  'message': 'OK',
  'total': 2,
  'debut': 0,
  'nombre': 2},
 'etablissements': [{'siren': '319524377',
   'nic': '00029',
   'siret': '31952437700029',
   'statutDiffusionEtablissement': 'O',
   'dateCreationEtablissement': None,
   'trancheEffectifsEtablissement': 'NN',
   'anneeEffectifsEtablissement': None,
   'activitePrincipaleRegistreMetiersEtablissement': None,
   'dateDernierTraitementEtablissement': '2019-11-14T14:01:05',
   'etablissementSiege': True,
   'nombrePeriodesEtablissement': 1,
   'uniteLegale': {'etatAdministratifUniteLegale': 'C',
    'statutDiffusionUniteLegale': 'O',
    'unitePurgeeUniteLegale': True,
    'dateCreationUniteLegale': '1980-09-01',
    'categorieJuridiqueUniteLegale': '9220',
    'denominationUniteLegale': 'UNIVERSITE PARIS VIII',
    'sigleUniteLegale': None,
    'denominationUsuelle1UniteLegale': None,
    'denominationUsuelle2UniteLegale': None,
    'denominationUsuelle3UniteLegale': None,
    'sexeUniteLegale': No