# Introduction au Web scraping

* Préréquis (souhaités): HTML, Java Script, CSS, Python

# Table of content
* [Data privacy and protection](#data-protection)
    * [Data](#licence-de-donnees)
    * [Open data](#open-data)
* Data retrieving via an API
    * [API: what's it ?](#definition-api)
    * [HTTP requests](#requete-http)
    * [Examples](#exemples-api)
* Data extraction from the Web
    * Web scraping: what's it ?
    * Use cases
    * Examples
    * Terminologies
* Web scraping: let's go !
    * Static pages
    * Dynamic pages
* To go further
    * Proxies
    * Cookies
    * Authentification
    * Session
    * HTTP errors
    * Web agents

# API <div id="definition-api"></div>

> Une **API**, ou [Application Programming Interface](https://en.wikipedia.org/wiki/Application_programming_interface), est une interface ou un protocole de communication entre différentes parties d'un programme informatique destiné à simplifier la mise en œuvre et la maintenance des logiciels

Une classe d'API très utiles est celle des API basées sur le Web. Une *Api Web* est un serveur que vous pouvez utiliser pour récupérer et envoyer des données à l'aide de code. Les API sont le plus souvent utilisées pour récupérer des données, et ce sera en grande partie l'objet de ce cours.

Lorsque vous naviguez sur https://www.google.com/ , vous envoyez actuellement une requête qui ressemble à :

**Request URL**: http://google.com/  
**Request Method**: GET  
**Status Code**: 200   
**Remote Address**: 172.217.18.  
**Referrer Policy**: no-referrer-when-downgrade  
**Cache-Control**: public, max-age=2592000  
**Content-Length**: 219  
**Content-Type**: text/html; charset=UTF-8  
**Date**: Mon, 06 Jan 2020 03:08:42 GMT   
**Expires**: Wed, 05 Feb 2020 03:08:42 GMT  
**Location**: http://www.google.com/  

Pour extraire des données du web, certains sites web offrent une **API** documentée qui peut être requêtée par HTTP.

HTTP (HyperText Transfer Protocol) est un protocole conçu pour permettre la communication entre  clients et serveurs. Lorsque vous surfez sur le Web, votre navigateur Web peut être le client, et une application Web  hébergée sur un ordinateur distant peut être le serveur. Il existe différentes méthodes HTTP : **GET**, **POST**, **PUT**, **DELETE** ... Les plus utilisées sont **GET** et **POST**.

# Surfer sur le net sans son navigateur web

* Ouvrir un terminal sur votre OS (Win + "cmd" + Enter ou Ctrl+Alt+T sur Linux )
* Taper: `curl -X GET www.google.com`
* Vous verrez la réponse du serveur sur votre écran. C'est un code HTML brut qui pourrait être visionné par n'importe quel lecteur HTML.

# Envoyer une requête `GET`

Pour faire une requête `GET`, nous utiliserons le module **requests** et sa fonction **requests**.<b><font color="blue">get()</font></b>, qui nécessite un argument: l'**URL** (**U**niversal **R**essource **L**ocator) de notre requête.

In [15]:
import requests # Ne pas oublier d'exécuter cette ligne

In [16]:
# Nous envoyons une requête `GET` à l'URL 'https://api.ratesapi.io/api/2010-01-12'
response = requests.get("https://api.ratesapi.io/api/2010-01-12")

Lorsque vous envoyez une requête `GET` au serveur, vous recevez normalement une réponse HTTP. En Python et avec le module **requests**, cette réponse http est représentée sous forme d'un objet `requests.models.Response` comme vous pouvez le voir ci-dessous :

In [17]:
type(response)

requests.models.Response

Ce type d'objet possède un attribut **status_code**; c'est le **code d'état** de votre requête et il vous permet de vérifier si la requête a réussi ou pas.

In [18]:
response.status_code

200

>Le protocole HTTP possède différents types de **code d'état** dont les plus importants sont:
* **200** : succès de la requête ;
* **301** et **302** : redirection, respectivement permanente et temporaire ;
* **401** : utilisateur non authentifié ;
* **403** : accès refusé ;
* **404** : page non trouvée (vous le reconnaîtrez sûrement 😈);
* **500** et **503** : erreur serveur ;
* **504** : le serveur n'a pas répondu.

[Visiter ce lien pour une liste plus complète](https://fr.wikipedia.org/wiki/Liste_des_codes_HTTP).

In [22]:
requests.get("https://api.ratesapi.io/api/2010-01-12", params={"a": "é ~ `` ''"})

<Response [200]>

In [23]:
response.url

'https://api.ratesapi.io/api/2010-01-12'

In [26]:
response.headers

{'Date': 'Tue, 07 Jan 2020 07:04:21 GMT', 'Content-Type': 'application/json', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'Set-Cookie': '__cfduid=d47ef5cd2b50a1afd5882a5fbaab6da661578380661; expires=Thu, 06-Feb-20 07:04:21 GMT; path=/; domain=.ratesapi.io; HttpOnly; SameSite=Lax', 'Vary': 'Accept-Encoding', 'Access-Control-Allow-Methods': 'GET', 'Access-Control-Allow-Credentials': 'true', 'Access-Control-Allow-Origin': '*', 'Content-Encoding': 'gzip', 'Cache-Control': 'max-age=14400', 'CF-Cache-Status': 'HIT', 'Age': '922', 'Expect-CT': 'max-age=604800, report-uri="https://report-uri.cloudflare.com/cdn-cgi/beacon/expect-ct"', 'Server': 'cloudflare', 'CF-RAY': '551413bc4b7897f6-FRA'}

**Q1** <font face="sans-serif">Alors, l'URL précédemment requêtée existe t-elle ou pas ?</font>

In [7]:
response.text

'{"base":"EUR","rates":{"GBP":0.8972,"HKD":11.2301,"IDR":13281.14,"PLN":4.0838,"DKK":7.4405,"LVL":0.7093,"INR":66.21,"CHF":1.4743,"MXN":18.4995,"CZK":26.258,"SGD":2.0133,"THB":47.839,"BGN":1.9558,"MYR":4.8424,"NOK":8.1825,"CNY":9.8863,"HRK":7.2753,"PHP":66.106,"SEK":10.2215,"LTL":3.4528,"ZAR":10.8264,"CAD":1.4959,"BRL":2.5309,"RON":4.1405,"EEK":15.6466,"NZD":1.9573,"TRY":2.1084,"JPY":132.41,"RUB":42.6974,"KRW":1627.4,"USD":1.4481,"HUF":268.18,"AUD":1.5668},"date":"2010-01-12"}'