# API Scraping

## Requête pour obtenir la dernière position de l'ISS depuis open-notify : 

In [11]:
import requests
response = requests.get("http://api.open-notify.org/iss-now.json")

## Les paramètres de requête :

In [1]:
#On détermine une variable contenant un dictionnaire avec la latitude et la longitude de la ville de Paris :
parameters = {'lat':48.87, 'lon':2.33}
#On peut également passer les paramètres directement dans la requête : 
#response = requests.get("http://api.open-notify.org/iss-pass.json?lat=48.87&lon=2.33")

In [8]:
# On écrit la requête avec la variable "params" :
response = requests.get("http://api.open-notify.org/iss-pass.json", params=parameters)

In [9]:
# on récupère le contenu de la reponse : 
content = response.content

In [2]:
print(content)

NameError: name 'content' is not defined

## Le format JSON

### On utilise la librairie Json :

- la méthode dumps : prend en entrée un objet Python et retourne une chaîne de caractères
- la méthode loads : prend en entrée une chaîne de caractères et retourne un objet Python

In [1]:
sports = ["tennis", "foot", "triathlon"]

In [3]:
# on vérifie que c'est bien une liste
print(type(sports))

<class 'list'>


In [6]:
import json
# on transforme la liste en chaîne de caractères
sports2=json.dumps(sports)
# on vérifie que c'est bien une chaîne de caractères
print(type(sports))

<class 'list'>


In [1]:
# on convertit maintenant en liste : 
sports3 = json.loads(sports2)
# on vérifie que c'est bien une liste : 
print(type(sports3))

NameError: name 'json' is not defined

## Obtenir un JSON depuis une requête :

In [14]:
# on reprend la requête avec les coordonnées de la ville de Paris : 
response = requests.get("http://api.open-notify.org/iss-pass.json", params=parameters)

In [16]:
# on utilise la méthode json() pour obtenir un objet Python : 
json_data = response.json()
print(json_data)

{'message': 'success', 'request': {'altitude': 100, 'datetime': 1625594308, 'latitude': 48.87, 'longitude': 2.33, 'passes': 5}, 'response': [{'duration': 540, 'risetime': 1625612980}, {'duration': 651, 'risetime': 1625618699}, {'duration': 654, 'risetime': 1625624511}, {'duration': 655, 'risetime': 1625630336}, {'duration': 642, 'risetime': 1625636149}]}


In [19]:
# On souhaite obtenir la valeur qui correspond à la clé "duration" (première valeur de la clé duration):
first_pass_duration = json_data['response'][0]['duration']
print(first_pass_duration)

540


### Exemple d'application : 

In [23]:
# on cherche à déterminer combien de personnes se trouvent actuellement dans l'espace : 
response = requests.get("http://api.open-notify.org/astros.json")
json_data = response.json()
print(json_data)

{'people': [{'name': 'Mark Vande Hei', 'craft': 'ISS'}, {'name': 'Oleg Novitskiy', 'craft': 'ISS'}, {'name': 'Pyotr Dubrov', 'craft': 'ISS'}, {'name': 'Thomas Pesquet', 'craft': 'ISS'}, {'name': 'Megan McArthur', 'craft': 'ISS'}, {'name': 'Shane Kimbrough', 'craft': 'ISS'}, {'name': 'Akihiko Hoshide', 'craft': 'ISS'}, {'name': 'Nie Haisheng', 'craft': 'Tiangong'}, {'name': 'Liu Boming', 'craft': 'Tiangong'}, {'name': 'Tang Hongbo', 'craft': 'Tiangong'}], 'number': 10, 'message': 'success'}


In [None]:
# on cherche à extraire la valeur qui correspond à la clé "number" :
in_space_count = json_data["number"]
print(in_space_count)

## Authentification à une API

On peut avoir besoin d'un "token" = un clé permettant l'authentification. 

In [None]:
import requests
# Création d'un dictionnaire contenant la clé token :
headers = {"Authorization":"token  __________"}
#requete GET : 
response = requests.get("http://api.github.com/users/nomDuCompte",headers=headers)
print(response.json())

### Points d'accès ou endpoints : 

In [None]:
# On cherche à récupérer des informations du l'utilisateur dont le nom est "huandu" : 
response = requests.get("http://api.github.com/users/huandu", headers=headers)
huandu = response.json()
print(huandu)

In [None]:
# On peut choisir de récupérer des information du compte "facebook" : 
response = requests.get("http://api.github.com/orgs/huandu", headers=headers)
orgs = response.json()
print(orgs)

### Pagination 

La pagination permet de récupérer les informations et d'en afficher un nombre déterminer sur plusieurs pages. 
On peut alors choisir de n'afficher qu'une seule page par exemple

In [None]:
# on choisit d'afficher 50 éléments par page et de récupérer la page n°1
params = {"per_page":50, "page":1}
response = requests.get("https://api.github/users/NomUtilisateur/starred", headers=headers, params=params)
page1 = response.json()
print(page1)


### Requête POST :

Le but de la requêtes POST est d'envoyer un objet, une information 
Chaque API est libre d'accéder ou non la requête POST

In [None]:
payload = {"name":"test", "description": "ceci est une description"}
requests.post("https://api.github.com/user/repos", json=payload, headers=headers)
status = response.status_code
print(status)

### Requête PATCH : 

On utilise la requête PATCH quand on souhaite changer simplement quelques attributs d'un objet.

In [None]:
# On modifie la requête "test" créée précédemment : 
payload = {"name":"NouveauTest", "description": "ceci est une nouvelle description"}
requests.patch("https://api.github.com/user/repos/test", json=payload, headers=headers)
status = response.status_code
print(status)

### Requête DELETE : 

Permet de supprimer des informations. 

In [None]:
# On souhaite supprimer l'élément créé précédemment : 
response = requests.delete("https://api.github.com/user/repos/NouveauTest", headers=headers)
# Si la requête est un succès, on doit avoir un code 204 
status=response.status_code
print(status)

# Web Scraping

### Introduction

In [3]:
import requests
response = requests.get("URLDeLaPage.html")
content = response.content
#status = response.status_code
print(content)
#print(status)

MissingSchema: Invalid URL 'URLDeLaPage.html': No schema supplied. Perhaps you meant http://URLDeLaPage.html?

# On utilise la librairie "beautifulSoup" du package bs4

In [33]:
from bs4 import BeautifulSoup
#On applique beautifulSoup sur le contenu déjà obtenu :
parser = beautifulSoup(content, 'html.parser')
# On récupère le contenu de "body"
body = parser.body
# on récupère la contenu de la balise "p"
p = body.p
# On souhaite afficher le texte contenu dans la balise p sélectionnée  : 
print(p.text)

NameError: name 'beautifulSoup' is not defined

In [36]:
import requests
from bs4 import BeautifulSoup

response = requests.get("https://spa-de-loire-atlantique.fr/tous-nos-chiens/")
content = response.content
#print(content)
#On applique beautifulSoup sur le contenu déjà obtenu :
parser = BeautifulSoup(content, 'html.parser')
# On récupère le contenu de "body"
body = parser.body
# on récupère la contenu de la balise "ul"
ul = body.ul
# On souhaite afficher le texte contenu dans la balise p sélectionnée : 
print(ul.text)

AccueilQui sommes-nous ? 

Notre refuge Bénévolat Dons, legs Adhérer au refuge Familles d’accueil pour nos chatons
Adoptions 

Formalités d’adoption Les chiens

Tous les chiens Chiots Petits-Moyens Moyens-Grands Chiens en sauvetage Doyens du refuge 
 Les chats

Tous les chats Les chats en sauvetage 
 Les NAC Les adoptés
Animal perdu-trouvé ? 

J’ai perdu mon animal J’ai trouvé un animal
ContactForum des adoptés


### Méthode find all

In [39]:
parser = BeautifulSoup(content, 'html.parser')
# On souhaite obtenir tous les éléments de la balise body : 
body = parser.find_all("body") # On récupère une liste avec tous les éléments de la balise body 
# On souhaite récupérer tous les éléments p : 
p=body[0].find_all("p") # retourne une liste avec tous les éléments p
#print(p)


i=0 
for element in p:# on peut boucler sur la liste pour extraire le texte de tous les éléments p
    print(p[i].text)
    i+=1

Découvrez tous nos chiens sur cette page. N’oubliez pas de consulter la page dédiée aux sauvetages ainsi que notre partenariat avec 30 millions d’amis pour les chiens de 10 ans et plus.
La liste des chiens est mise jour chaque semaine par notre équipe de bénévoles avec le plus grand soin. Malgré tout, il est nécessaire de prendre contact avec le refuge afin de vérifier que le chien qui vous intéresse est toujours disponible.
Notre mission : recueillir, soigner, sécuriser et trouver une famille
Plus de 1000 animaux adoptés chaque année.
Un refuge ouvert du lundi au samedi, de 14h à 18h(14h – 17h pour une adoption)
“Jack est adorable, propre, discret, joueur, un vrai bonheur. N’hésitez pas à faire un tour au refuge, l’équipe des salariés et bénévoles est formidable.”
“Tout va bien pour moi. Ma Maîtresse dit que je suis le plus beau et le plus gentil des chats et qu’elle ne regrette pas le jour où elle a franchi la barrière de la SPA. Je souhaite à tous ceux qui attendent un maître la mêm

### Récupérer les éléments correspondant aux id : 

In [40]:
import requests
from bs4 import BeautifulSoup
# On télécharge la page :
response = requests.get("https://spa-de-loire-atlantique.fr")
content = response.content
parser = BeautifulSoup(content, "html.parser")
# récupérer l'id souhaité : "wp-socials" d'une balise div : 
balise_id = parser.find_all("div", id="wp-socials")
print(balise_id) # liste avec tous les éléments qui correspndent au critère
#On souhaite récupérer le premier élément : 
balise_id = balise_id[0]
print(balise_id) # On récupère le premier élément


#On aurait pu écrire : 
# on récupère le premier élément de la liste sans utiliser une seconde ligne de code 
balise_id = parser.find_all("div", id="wp-socials")[0] 
print(balise_id)

[<div id="wp-socials" style="margin-top:20px;margin-bottom:0px;"><div id="wp-socials-general-btn"></div><div style="clear:both"></div></div>, <div id="wp-socials" style="margin-top:20px;margin-bottom:0px;"><div id="wp-socials-general-btn"></div><div style="clear:both"></div></div>]
<div id="wp-socials" style="margin-top:20px;margin-bottom:0px;"><div id="wp-socials-general-btn"></div><div style="clear:both"></div></div>
<div id="wp-socials" style="margin-top:20px;margin-bottom:0px;"><div id="wp-socials-general-btn"></div><div style="clear:both"></div></div>


### Récupérer les éléments correspondant aux classes : 

In [1]:
import requests
from bs4 import BeautifulSoup
# On télécharge la page :
response = requests.get("https://spa-de-loire-atlantique.fr")
content = response.content
parser = BeautifulSoup(content, "html.parser")
# récupérer l'id souhaité : "wp-socials" d'une balise div : 
classe = parser.find_all("a", class_="scroll-top-right")[0]
print(classe)

# on peut écrire : 
print(classe.prettify()) # permet une organisation de l'affichage avec indentations, pour une meilleure lecture


#Si on souhaite récupérer le texte : 
print(classe.text) # dans ce cas le texte est vide

 


<a class="scroll-top-right" href="#" id="scroll-top"><span aria-label="Scroll to the top of the page" class="fa fa-arrow-up"></span></a>
<a class="scroll-top-right" href="#" id="scroll-top">
 <span aria-label="Scroll to the top of the page" class="fa fa-arrow-up">
 </span>
</a>




### Récupérer les éléments correspondant aux sélecteurs CSS : 

#### On utilise la méthode "select"

In [28]:
import requests
from bs4 import BeautifulSoup
# On télécharge la page :
response = requests.get("https://spa-de-loire-atlantique.fr")
content = response.content
parser = BeautifulSoup(content, "html.parser")
# récupérer tous les éléments qui possèdent le sélecteur "wp-socials-general-btn" 
donnee = parser.select("#wp-socials-general-btn")
#On affiche le deuxième élément
print(donnee[1])

#On peut afficher le texte (dans ce cas le texte est vide) :
print(donnee[1].text)

 




 



<div id="wp-socials-general-btn"></div>



### Associer des sélecteurs CSS : 

In [32]:
#On peut écrire une ligne de code qui aura cette structure : 
# on affiche le deuxième élément de la balise "td" elle même contenue dans le premier élément du sélecteur CCS "
#sélecteur1"
donnee = parser.select("#selecteur1")[0].select("td")[1].text 

IndexError: list index out of range