<br>
<div align="right">Enseignant : Aric Wizenberg</div>
<div align="right">E-mail : icarwiz@yahoo.fr</div>
<div align="right">Année : 2018/2019</div><br><br><br>
<div align="center"><span style="font-family:Lucida Caligraphy;font-size:32px;color:darkgreen">Master 2 MASERATI - Cours de Python</span></div><br><br>
<div align="center"><span style="font-family:Lucida Caligraphy;font-size:24px;color:#e60000">Scraping avec Requests</span></div><br><br>
<hr>

# Communiquer avec un site web

## Bases

Il existe normalement un module de la bibliothèque standard de Python permettant de communiquer avec un site web, **urllib**. Mais elle est, dans la pratique, difficile à utiliser.

C'est pour cette raison qu'a été crée la bibliothèque externe **requests** (installée avec **Anaconda**), et qui utilise en interne **urllib**. Comme son slogan l'annonce "HTTP for humans" elle simplifie grandement la vie du programmeur.

Au départ, on commencera toujours par importer le module **requests** et par créer une nouvelle session. 

Importons aussi **Beautiful Soup**, qui sera vite utile

In [3]:
import requests
import time
#  Time : module qui permet gerer les delai, pour faire de requetes toutes les X minutes par exemple. Cela est une des
# limitations suivantes des sites web: n'est pas faire requetes sans delai pour ne pas ralentir son serveur
TEMPS_ATTENTE = 5
# Con sess (una variable creada), es un objet request.session()
sess = requests.Session()

## Envoi d'une requête simple

In [10]:
res = sess.get('http://www.wikipedia.fr/index.php')
# Guardamos en res lo que responde el sitio wikipedia.fr

In [11]:
type(res)
# El objeto res es del tipo request.models.reponse

requests.models.Response

La méthode **Session.get()** permet d'envoyer une requête à un site web et d'obtenir en retour un objet réponse de type **requests.models.Response**. Lorsque l'on fait afficher directement cet objet, on obtient le code de statut de la réponse (200 dans le meilleur des cas)

In [12]:
res
# Cuando enviamos una request, obtenemos un codigo resultado (404, pagina no existe, 200 todo ok)

<Response [200]>

### Le type requests.models.Response

On peut obtenir les différentes parties de la réponse en utilisant les méthodes de cet objet.

##### Contenu

On peut par exemple demander le **contenu** de la réponse en binaire (et donc en **bytes**) :

In [13]:
res.content
# Queremos ver el contenido de res, para ver el contenido bruto (en bytes):

b'<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">\n<html xmlns="http://www.w3.org/1999/xhtml">\n<!-- INTERFACE DEVELOPP\xc3\x89E PAR BAPTI -->\n<!-- pour l\'association Wikim\xc3\xa9dia France -->\n<!-- http://meta.wikimedia.org/wiki/User:Bapti -->\n<head>\n<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />\n<meta name="verify-v1" content="wOr5wtKmZ0N22eMkjrTeTHV91dwVLau0e7uTFmo4zLM=" />\n<meta name="description" content="Portail de recherche sur les projets Wikimedia : Wikip\xc3\xa9dia, Wikim\xc3\xa9dia Commons, Wikisource, Wiktionary, Wikiquote, Wikiversity, Wikinews, Wikibooks et Wikispecies." />\n<meta name="robots" content="index, follow" />\n<link rel="shortcut icon" href="Fichiers/favicon/faviconWikipedia.ico" />\n<title>Wikipedia.fr - Portail de recherche sur les projets Wikim\xc3\xa9dia</title>\n\n\n<link rel="stylesheet" type="text/css" href="css/main.css" />\n</head>\n\n<body onload=

Ou directement sous forme de chaine de caractères (**str**) décodée (requests fera de son mieux pour détecter lui-même le bon encodage) :

In [14]:
res.text
# En cadena de caracteres. Si no obtenemos mucha cosa analizar navegando con el navegador, cual es la puerta de entrada
# a la pagina. Por ejemplo en wikipedia si vamos a index, encontramos index.htp y tiene mucha mas info (http://www.wikipedia.fr/index.php)
# Cambio a esta pagina, pero antes habiamos empezado con res = sess.get('http://www.wikipedia.fr')

'<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">\n<html xmlns="http://www.w3.org/1999/xhtml">\n<!-- INTERFACE DEVELOPPÃ\x89E PAR BAPTI -->\n<!-- pour l\'association WikimÃ©dia France -->\n<!-- http://meta.wikimedia.org/wiki/User:Bapti -->\n<head>\n<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />\n<meta name="verify-v1" content="wOr5wtKmZ0N22eMkjrTeTHV91dwVLau0e7uTFmo4zLM=" />\n<meta name="description" content="Portail de recherche sur les projets Wikimedia : WikipÃ©dia, WikimÃ©dia Commons, Wikisource, Wiktionary, Wikiquote, Wikiversity, Wikinews, Wikibooks et Wikispecies." />\n<meta name="robots" content="index, follow" />\n<link rel="shortcut icon" href="Fichiers/favicon/faviconWikipedia.ico" />\n<title>Wikipedia.fr - Portail de recherche sur les projets WikimÃ©dia</title>\n\n\n<link rel="stylesheet" type="text/css" href="css/main.css" />\n</head>\n\n<body onload="self.focus();document.getEl

##### En-têtes (headers)

On peut aussi obtenir les **en-têtes (headers)** de la réponse :

In [15]:
res.headers

{'Date': 'Fri, 08 Feb 2019 09:38:22 GMT', 'Server': 'Apache', 'Vary': 'Accept-Encoding', 'Content-Encoding': 'gzip', 'Content-Length': '3236', 'Connection': 'close', 'Content-Type': 'text/html'}

On peut particulièrement noter les clés :
- **Content-type** qui indique si la réponse est en html, en binaire (fichiers exécutables par exemple) ou autres (images par exemple)
- **Content-length** la taille en octets de la réponse

NB : Les clés ne sont pas sensibles à la casse

Ou uniquement les **cookies** (une partie des en-têtes qui peut aussi elle-même être représentée sous forme de dictionnaire.

In [16]:
res.cookies.get_dict()

{}

##### Code de statuts

On peut encore demander directement le code de status de la réponse au format entier (utile pour tester que la réponse a fonctionné)

In [17]:
res.status_code == 200

True

### Le type requests.models.PreparedRequest

In [18]:
res.request

<PreparedRequest [GET]>

Cette requête a elle-même les attributs d'une requête :

In [19]:
res.request.url

'http://www.wikipedia.fr/index.php'

In [20]:
res.request.headers

{'User-Agent': 'python-requests/2.21.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

Voici les en-têtes que requests inclut par défaut (lorsque l'on ne spécifie rien) dans sa requête, il s'agit de :
- 'Accept': '\*/\*' (il dit au site qu'il accepte tout type de données dans la réponse)
- 'Accept-Encoding': 'gzip, deflate' (il dit au site qu'il accepte en retour des pages, mêmes si elles sont compressées en gzip ou deflate, deux formats classiques de compression de pages sur internet)
- 'Connection': 'keep-alive' (il demande au site de garder la connection ouverte pour accélerer de futures nouvelles requêtes)
- 'User-Agent': 'python-requests/2.14.2' (il dit au site que l'agent utilisé pour le contacter est python-requests)

In [21]:
type(res.request)

requests.models.PreparedRequest

## Requête complexes

### En-têtes et paramètres

##### En-têtes

Comme expliqué plus haut, une requête est doté d'autres éléments que simplement un **nom de domaine** et d'un **chemin d'accès** éventuel.

On peut spécifier des en-têtes, c'est parfois nécessaire, par exemple, en scraping il est souvent nécessaire de faire croire à un site que l'on est un utilisateur d'un navigateur classique :

In [22]:
IDENT_USER_AGENT_2018 = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:65.0) Gecko/20100101 Firefox/65.0'
# Para hacerse pasar por un navegador, le decimos "no soy python request", soy mozilla X. A veces igual no funciona

In [23]:
en_tetes = {
    'User-Agent': IDENT_USER_AGENT_2018,
}

In [25]:
res = sess.get('http://www.wikipedia.fr', headers=en_tetes)
res

<Response [200]>

In [26]:
res.request.headers
# Vemos que se "creyo" que somos un navigateur

{'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:65.0) Gecko/20100101 Firefox/65.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

NB : ces en-têtes sont ajoutés (sauf en cas de remplacement comme ici avec User-agent) aux 4 en-tetes déjà présents par défaut dans les requêtes de **requests** (Accept, Accept-encoding, Connection et User-agent)

##### Paramètres

In [27]:
parametres = {
    'q': 'Python'
}

In [30]:
parametres

{'q': 'Python'}

In [28]:
res = sess.get('http://www.google.fr', headers=en_tetes, params=parametres)
res
# Podemos pasar headers utilizando headers= y parametros usando params=

<Response [200]>

In [29]:
res.text[:500]

'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="fr"><head><meta charset="UTF-8"><meta content="origin" name="referrer"><meta content="/logos/doodles/2019/friedlieb-ferdinand-runges-225th-birthday-4887536710189056-law.gif" itemprop="image"><meta content="origin" name="referrer"><title>Google</title><script nonce="ddIe129WqW6KXfH3B86g5g==">(function(){window.google={kEI:\'vlBdXLfhM4iuUtL6gsAD\',kEXPI:\'31\',authuser:0,kscs:\'c9c918f0_vlBdXLfhM4iuUtL6gsAD\',kGL:\'FR\'};google.k'

In [31]:
# Esto es muy dificil deleer (html), queremos imprimirlo de una manera que nos permita leerlo mejor, eso lo hacemos
# en el paso siguiente

NB : ici, [:500] est utilisé uniquement pour des raisons d'affichage dans le Notebook : on limite l'affichage à 500 caractères

Ecrivons le contenu dans un fichier html temporaire, ce sera plus pratique de visualiser ça sous Notepad++ (utilisons d'abord Beautiful Soup pour le "prettifyer", l'indenter proprement)

In [32]:
import bs4
import requests
import json
import pprint

def imprime_le(resultat):
    if type(resultat) is requests.models.Response:
        with open('../output/temp_html.html', 'w', encoding='utf-8') as fichier:
            objet_bs = bs4.BeautifulSoup(resultat.text, 'html.parser')
            fichier.write(objet_bs.prettify())
    elif type(resultat) is dict:
        with open('../output/temp_json.json', 'w', encoding='utf-8') as fichier:
            fichier.write(pprint.PrettyPrinter(indent=4).pformat(resultat))
    else:
        raise Exception('Objet non supporté')

In [33]:
imprime_le(res)
# Encontramos el archivo para abrirlo con note++, en C:\Users\lucia\PyBooks\PyParis_XII_M2\output\temp_html.html

Hasta aqui vimos requete de tipo "get". Tambien estan las "post" que son las que se utilisan cuando no queremos que la info se muestre en la url (por ejemplo los datos bancarios). El tipo de requete lo vemos en el explorador del sitio.
![image.png](attachment:image.png)


### Data : requête post

Dans le cas d'une requête post on ne parle plus de paramètres, mais de données de la requête

In [35]:
donnees = {'key1': 'value1', 'key2': 'value2'}

In [36]:
res = sess.post('http://postman-echo.com/post', donnees, headers=en_tetes)
res

<Response [200]>

In [37]:
res.text

'{"args":{},"data":"","files":{},"form":{"key1":"value1","key2":"value2"},"headers":{"x-forwarded-proto":"https","host":"postman-echo.com","content-length":"23","accept":"*/*","accept-encoding":"gzip, deflate","content-type":"application/x-www-form-urlencoded","user-agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:65.0) Gecko/20100101 Firefox/65.0","x-forwarded-port":"80"},"json":{"key1":"value1","key2":"value2"},"url":"https://postman-echo.com/post"}'

In [38]:
import json

In [39]:
json.loads(res.text)

{'args': {},
 'data': '',
 'files': {},
 'form': {'key1': 'value1', 'key2': 'value2'},
 'headers': {'x-forwarded-proto': 'https',
  'host': 'postman-echo.com',
  'content-length': '23',
  'accept': '*/*',
  'accept-encoding': 'gzip, deflate',
  'content-type': 'application/x-www-form-urlencoded',
  'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:65.0) Gecko/20100101 Firefox/65.0',
  'x-forwarded-port': '80'},
 'json': {'key1': 'value1', 'key2': 'value2'},
 'url': 'https://postman-echo.com/post'}

### Identification simple (test avec une API)

Identification simple en paramètre

In [40]:
OMDB_KEY = 'f56f12e7'
SERVER_URL = 'http://www.omdbapi.com/'

In [41]:
test_search = 'Dracula'

In [42]:
parametres = {
    'apikey': OMDB_KEY,
    's': test_search,
}

In [43]:
res = sess.get(SERVER_URL, params=parametres)
res

<Response [200]>

In [49]:
res.content
#Vemos que el resultado tiene pinta de json

b'{"Search":[{"Title":"Bram Stoker\'s Dracula","Year":"1992","imdbID":"tt0103874","Type":"movie","Poster":"https://m.media-amazon.com/images/M/MV5BMTYyOTM5NzU3Nl5BMl5BanBnXkFtZTgwOTQxNjAxNzE@._V1_SX300.jpg"},{"Title":"Dracula Untold","Year":"2014","imdbID":"tt0829150","Type":"movie","Poster":"https://m.media-amazon.com/images/M/MV5BMTkzNzI1OTI4N15BMl5BanBnXkFtZTgwNTQ2NzEwMjE@._V1_SX300.jpg"},{"Title":"Dracula","Year":"1931","imdbID":"tt0021814","Type":"movie","Poster":"https://m.media-amazon.com/images/M/MV5BZDY2ODZhZWQtNDk0ZS00OGE4LWE4NjAtZjE5MTJhMjExMTRjXkEyXkFqcGdeQXVyNjc1NTYyMjg@._V1_SX300.jpg"},{"Title":"Dracula: Dead and Loving It","Year":"1995","imdbID":"tt0112896","Type":"movie","Poster":"https://m.media-amazon.com/images/M/MV5BZWQ0ZDFmYzMtZGMyMi00NmYxLWE0MGYtYzM2ZGNhMTE1NTczL2ltYWdlL2ltYWdlXkEyXkFqcGdeQXVyMjM5ODMxODc@._V1_SX300.jpg"},{"Title":"Dracula 2000","Year":"2000","imdbID":"tt0219653","Type":"movie","Poster":"https://m.media-amazon.com/images/M/MV5BYzUxYzFlZjYtYWNiOC00Z

In [45]:
json_obj = res.json()
#  Para obtenir el json como diccionario

In [46]:
json_obj.keys()

dict_keys(['Search', 'totalResults', 'Response'])

In [47]:
json_obj['Search'][0]

{'Title': "Bram Stoker's Dracula",
 'Year': '1992',
 'imdbID': 'tt0103874',
 'Type': 'movie',
 'Poster': 'https://m.media-amazon.com/images/M/MV5BMTYyOTM5NzU3Nl5BMl5BanBnXkFtZTgwOTQxNjAxNzE@._V1_SX300.jpg'}

In [48]:
json_obj

{'Search': [{'Title': "Bram Stoker's Dracula",
   'Year': '1992',
   'imdbID': 'tt0103874',
   'Type': 'movie',
   'Poster': 'https://m.media-amazon.com/images/M/MV5BMTYyOTM5NzU3Nl5BMl5BanBnXkFtZTgwOTQxNjAxNzE@._V1_SX300.jpg'},
  {'Title': 'Dracula Untold',
   'Year': '2014',
   'imdbID': 'tt0829150',
   'Type': 'movie',
   'Poster': 'https://m.media-amazon.com/images/M/MV5BMTkzNzI1OTI4N15BMl5BanBnXkFtZTgwNTQ2NzEwMjE@._V1_SX300.jpg'},
  {'Title': 'Dracula',
   'Year': '1931',
   'imdbID': 'tt0021814',
   'Type': 'movie',
   'Poster': 'https://m.media-amazon.com/images/M/MV5BZDY2ODZhZWQtNDk0ZS00OGE4LWE4NjAtZjE5MTJhMjExMTRjXkEyXkFqcGdeQXVyNjc1NTYyMjg@._V1_SX300.jpg'},
  {'Title': 'Dracula: Dead and Loving It',
   'Year': '1995',
   'imdbID': 'tt0112896',
   'Type': 'movie',
   'Poster': 'https://m.media-amazon.com/images/M/MV5BZWQ0ZDFmYzMtZGMyMi00NmYxLWE0MGYtYzM2ZGNhMTE1NTczL2ltYWdlL2ltYWdlXkEyXkFqcGdeQXVyMjM5ODMxODc@._V1_SX300.jpg'},
  {'Title': 'Dracula 2000',
   'Year': '2000',
   'im

<div class="alert alert-block alert-info"><b>Pour aller plus loin :</b> <a href=http://docs.python-requests.org/en/master> Le site officiel de <b>Requests</b> </a></div>

# Réaliser un scraper simple

## Principe

Algorithme qui scrape un site une fois sur la base d'une liste de requêts et dont chaque requête renvoi 1 réponse (1 boucle)

- Créer la liste des requètes
- **Boucle des requêtes**. Pour chaque requête faire :
    - Envoi de la requête
    - Vérification de la réponse
    - Extraction des données
    - Traitement des données
    - Enregistrement des données
    - **Attente**

## En détail

### Créer la liste des requêtes

Cette étape peut être soit :
- effectuée à la main (genéralement : constitution sous Excel d'une liste de requêtes)
- effectuée par le programme lui-même : il faut alors faire une section de code qui récupère un ensemble de possibilités de requêtes grâce à une extraction HTML ou JSON

### Boucle principale

#### Envoi de la requête

#### Vérication de la réponse

On va d'abord vérifier que la requête n'a pas provoqué une erreur en utilisant la gestion des erreurs (**try except**) et en traitant le cas

Il sera parfois nécessaire de **"parer à toute éventualité"**, en utilisant, en dernier recours, une clause except sans rien après (ce qui fait qu'AUCUNE erreur ne provoque l'arrêt de l'extraction). 

On vérifie une fois passé le traitement des erreurs que la réponse renvoyée par le server est bien une réponse avec un code de status 200.

Il faut bien traiter les cas except et les non-validité du code de status, et bien penser à ajouter un timer si nécessaire pour éviter que l'algorithme ne s'acharne sur un site (cf. ci-dessous)

#### Extraction des données

On va parcourir la réponse pour obtenir les données brutes. On utilisera alors les modules Beautiful Soup et JSON (parfois l'un après l'autre) pour parcourir les données HTML ou JSON.

#### Formatage des données

On va ensuite transformer ces données brutes pour en faire des données proprement formatées (en pensant déjà si possible à les mettre dans les **types** Python adaptés (par exemple transformer les chaines de caractères en nombres, dates, etc.)

#### Enregistrement des résultats

On utilisera ensuite généralement pandas pour ajouter nos résultats à une base de données

#### Attente

<div class="alert alert-block alert-danger"><b>Attention : </b> L'attente est une action essentielle de l'activité de scraping</div>

Comme expliqué en début de cours, il est important de respecter les sites que vous allez scraper. Pour cela il est essentiel d'inclure un **timer** dans vos boucles de requêtes. 

Sans timer, votre boucle, selon son degré de complexité, pourrait partir très vite et se mettre à envoyer plusieurs requêtes par secondes à un site web ! Cela s'apparente à du **flooding** (technique de piratage consistant à provoquer l'inaccessibiltié d'un site en raison d'un trop grand nombre de requêtes). 

**Il ne faut jamais faire ça !** Ca nuirait au site scrapé et vous attirerait des ennuis...

En puis il faut savoir que **même en espaçant nos requêtes d'un laps de temps raisonnable de quelques secondes**, on peut obtenir vite de **grandes quantités de données**. 

Imaginons un site sur lequel chaque requête ne permet d'obtenir qu'une seule ligne de données. Même avec 1 requêtes toutes les 5 secondes, on obtient plus de 17000 lignes de données en 24 heures ! Or, 1 requête toutes les 5 secondes, c'est très peu pour un site. Songez que lorsque vous naviguez sur un site, vous changez de page (et envoyez donc des requêtes) généralement plus fréquemment qu'1 fois toutes les 5 secondes...

La règle est que **toutes les requêtes doivent être espacées par un laps d'attente** (attention lorsque la requête provoque une erreur, cf. plus haut)

Pour cela on va utiliser la fonction **sleep** du module de la bibliothèque standard **time**

## Application

**Site** : http://www.laboiteverte.fr/120-photos-autour-du-pole-sud

**Fichier robots du site** : http://www.laboiteverte.fr/robots.txt

### Initialisation

In [56]:
import requests
import bs4

In [51]:
sess=requests.session()

### Liste requetes

In [125]:
res=sess.get('http://www.laboiteverte.fr/120-photos-autour-du-pole-sud')
res

<Response [200]>

In [126]:
res.content[:100]

b'<!DOCTYPE html>\n<html lang="fr-FR" prefix="og: http://ogp.me/ns#">\n<head>\n<meta charset="UTF-8">\n<me'

In [127]:
soup = bs4.BeautifulSoup(res.content, 'html.parser')

In [128]:
reponse=soup.find_all('a', attrs={'rel': 'attachment'})

In [129]:
test= list(reponses)

In [130]:
test[0]

<img src="http://www.laboiteverte.fr/wp-content/uploads/2015/10/mcmurdo-hivers-lumiere-nuit.jpg"/>

In [69]:
reponse

[<a href="http://www.laboiteverte.fr/120-photos-autour-du-pole-sud/mcmurdo-hivers-lumiere-nuit/" rel="attachment wp-att-66657"><img alt="Les lumières de McMurdo éclairent la nuit hivernale - Joshua Swanson" class="size-large wp-image-66657" data-attachment-id="66657" data-comments-opened="1" data-image-description="" data-image-meta='{"aperture":"2.8","credit":"Joshua Swanson","camera":"NIKON D7100","caption":"","created_timestamp":"1433610990","copyright":"Joshua_Swanson","focal_length":"90","iso":"200","shutter_speed":"5","title":"","orientation":"1"}' data-image-title="mcmurdo-hivers-lumiere-nuit" data-large-file="http://www.laboiteverte.fr/wp-content/uploads/2015/10/mcmurdo-hivers-lumiere-nuit-1280x475.jpg" data-medium-file="http://www.laboiteverte.fr/wp-content/uploads/2015/10/mcmurdo-hivers-lumiere-nuit-620x230.jpg" data-orig-file="http://www.laboiteverte.fr/wp-content/uploads/2015/10/mcmurdo-hivers-lumiere-nuit.jpg" data-orig-size="3000,1113" data-permalink="http://www.laboiteve

In [131]:
liste_liens=[]
for ligne in reponse:
    liste_liens.append(ligne.attrs['href'])
    # break #cale

In [132]:
liste_liens

['http://www.laboiteverte.fr/120-photos-autour-du-pole-sud/mcmurdo-hivers-lumiere-nuit/',
 'http://www.laboiteverte.fr/120-photos-autour-du-pole-sud/carte-antarctique/',
 'http://www.laboiteverte.fr/120-photos-autour-du-pole-sud/vue-aerienne-montagne-antartique/',
 'http://www.laboiteverte.fr/120-photos-autour-du-pole-sud/rv-laurence-gould-brise-glace/',
 'http://www.laboiteverte.fr/120-photos-autour-du-pole-sud/lake-hoare-taylor-valley/',
 'http://www.laboiteverte.fr/120-photos-autour-du-pole-sud/lumiere-rouge-maintenance-telescope-pole-sud/',
 'http://www.laboiteverte.fr/120-photos-autour-du-pole-sud/ruth-stiple-librairie-amundsen-scott/',
 'http://www.laboiteverte.fr/120-photos-autour-du-pole-sud/orque-vue-aerienne/',
 'http://www.laboiteverte.fr/120-photos-autour-du-pole-sud/icecubelab-aurore-australe/',
 'http://www.laboiteverte.fr/120-photos-autour-du-pole-sud/iceberg-chaos-01/',
 'http://www.laboiteverte.fr/120-photos-autour-du-pole-sud/iceberg-chaos-02/',
 'http://www.laboiteve

### Boucle principale

Elegimos una foto y la inspectamos, vemos que es una balise img, vemos que trae un img. LAs habiamps hecho todo por separado y despues seleccionamos las cellules con shift y con shift+M las ponemos todas en una celula. Y agregamos el for
y hacemos que lo haga para cada elemento de la lista liste_lien

In [133]:
lien = liste_liens[0]

In [134]:
for lien in liste_liens: 
    
    res = sess.get(lien) # Vamos sobre la segunda pagina
    
    soup=bs4.BeautifulSoup(res.content, 'html.parser')
    # Como trae 30 y pico de resultados, buscamos otras valises 
    #para filtrar y traer la buena imagen. Cambiamos y vamos a tomar solo la primera

    reponse=soup.find('img') # Recupere la premiere image

    lienimg=reponse.attrs['src']

    resimg=sess.get(lienimg)

    nom_fichier=lienimg.split('/')[-1]

    with open(f'../output/{nom_fichier}', 'wb') as destfile:
        destfile.write(resimg.content)   # wb para que lo guarde en binaire. "content" contenu en binaire, contrairement à "texte"
    
    time.sleep(1) ### Important : Attente 1 seg !
    # ESte programa descarga 140 imagenes !!
    
    # En C:\Users\lucia\PyBooks\PyParis_XII_M2\output\ la boucle va a descargar 140 imagenes !!

KeyboardInterrupt: 

# Réaliser un scraper à réponses multiples

## Principe

Algorithme qui scrape un site une fois sur la base d'une liste de requêts et dont chaque requête renvoi plusieurs réponses (2 boucles)

- Créer la liste des requètes
- **Boucle des requêtes**. Pour chaque requête faire :
    - Envoi de la requête
    - Vérification de la réponse
    - **Boucle de traitement des réponses**. Pour chaque ligne de données faire :
        - Extraction des données
        - Formatage des données
        - Ajout à une liste de résultats 
    - Enregistrement des données brutes
    - **Attente**
- Si nécessaire : Post-traitement des résultats
- Si nécessaire : Enregistement des résultats finaux

## Application

**Site** : https://www.carrefour.fr

**Fichier robots du site** : https://www.carrefour.fr/robots.txt

# Réaliser un scraper à fonctionnement périodique

## Principe

Algorithme qui scrape un site périodiquement sur la base d'une liste de requêts (3 boucles)

- Créer la liste des requètes
- **Boucle périodique**. Pour chaque itération faire :
    - **Boucle des requêtes**. Pour chaque requête faire :
        - Envoi de la requête
        - Vérification de la réponse
        - **Boucle de traitement des réponses**. Pour chaque ligne de données faire :
            - Extraction des données
            - Formatage des données
            - Ajout à une liste de résultats
        - **Attente**
    - Enregistrement des résultats brutes
    - **Attente de la prochaine itération**
- Si nécessaire : Post-traitement des résultats
- Si nécessaire : Enregistement des résultats finaux

## Application

**Site** : https://www.marinetraffic.com

**Fichier robots du site** : https://www.marinetraffic.com/robots.txt