# Parcours "Python pour le webscraping"

**Formation en trois volets :**
1. **HTML** et le web
2. Introduction à la programmation avec **Python**
3. Application au **webscraping**

On ne traitera que la **partie amont du travail de recherche et d'analyse** :
* Pour les questions d'analyse, voir notamment le **Parcours Quantitatif** proposé aussi par la MSH-LSE

**Objectifs :**
* Se construire une **boîte à outils** de base pour **extraire** rapidement et efficacement des informations depuis **n'importe quelle page web** (ou à peu près...)
* Un élément de **culture numérique** qui vise à interroger les outils que nous utilisons au quotidien, à ouvrir les **boîtes noires**
* **Pratiquer**, pratiquer, pratiquer... Et pour cela, se retrousser les manches et rencontrer notre nouveau meilleur ami : le **clavier**

## Module 1 - Introduction aux technologies du web

### 1. HTML

### 1. HTML

**HTML :**
* Un langage à **balises**
* Un langage de **description**

**Pourquoi ?**
* Représenter des données de façon **structurée**

### 1. HTML

**Comment ?**
* Une succession de **balises**

**C'est quoi une balise ?**
* D'abord, c'est un **couple** composé :
    * D'une **balise ouvrante** `<balise>`
    * D'une **balise fermante** `</balise>`
* Ensuite, c'est un **mot-clé** (n'importe lequel, pourvu qu'il commence par une lettre)
* Entouré de deux **chevrons** :
    * Un pour indiquer le début du mot-clé `<`
    * Un pour indiquer la fin du mot-clé `>`
* Pour la **balise fermante**, on ajoute simplement un slash (`/`) après le premier **chevron**

### 1. HTML

**Okay, mais ça sert à quoi ?**
* A **représenter de l'information de façon structurée**, on l'a déjà dit...

**Okay, mais ça veut dire quoi ?**
* Ça veut dire que grâce à ces balises, on pourra **imbriquer les éléments les uns dans les autres** et pouvoir retrouver chaque brique

### 1. HTML

**Que peuvent contenir les balises ?**
* Une valeur (du texte, des nombres)
* Une autre balise
* Un mélange des deux

**Exemple :**
```html
<materiel>
    <peinture>Autoportrait
        <pinceau>4 mm</pinceau>
        <pinceau>10 mm</pinceau>
        <gouache>Rouge</gouache>
        <gouache>Vert</gouache>
    </peinture>
    <peinture>Paysage d'automne
        <pinceau>4 mm</pinceau>
        <huile>Rouge</huile>
        <huile>Jaune</huile>
    </peinture>
</materiel>
```

### 1. HTML

**Ce qu'il ne faut pas faire :**
* Enchasser les balises
* Ne pas avoir de **balise-racine**

**Exemples :**

1. ```html
<trousse>
    <crayon>Rouge</crayon>
    <stylo>Vert</stylo>
</trousse>
<regle>Double décimètre</regle>
```
---
2. ```html
<stylo><couleur>Rouge</stylo></couleur>
```

### 1. HTML

**Plus concrètement :**
* En HTML, les balises n'ont pas vraiment n'importe quel nom
* Elles suivent une nomenclature particulière car certaines permettent de transmettre des données, par exemple (couplées à d'autres mécanismes dont il ne s'agira pas de parler en détail ici)

|Nom balise|Description|Que peut-elle contenir ?|
|---|---|---|
|`<div>`|Divers|Balise ou texte|
|`<span>`|Divers|Texte uniquement|
|`<a>`|Liens hypertextes|Balise ou texte|
|`<img>`|Images|Rien|
|`<ul>/<ol>`|Listes|Uniquement balises `<li>`|
|`<p>`|Paragraphes|Texte uniquement|

### 1. HTML

**Les entrailles du navigateur !**
* Sur Mac OS : `Alt + Cmd + i`
* Sur Windows : `F12`

### 1. HTML

**Les attributs :**
* Ils viennent compléter une balise
* Il existe globalement deux attributs en HTML :
    * `class` : constitue un **identifiant générique**, a priori, il doit y en avoir plusieurs sur une même page web
    * `id` : constitue un **identifiant unique**, a priori, il doit être le seul sur toute une page web


```html
<div id="agriculture">
    <div id="colombie">
        <div class="cafe">650 000 tonnes/an</div>
        <div class="bananes">2 000 000 tonnes/an</div>
    </div>
    <div id="inde">
        <div class="millet">11 000 000 tonnes/an</div>
        <div class="thé">1 000 000 tonnes/an</div>
        <div class="banane">27 000 000 tonnes/an</div>
    </div>
    <div id="costa-rica">
        <div class="cafe">76 000 tonnes/an</div>
        <div class="banane">2 000 000 tonnes/an</div>
    </div>
</div>
```

### 1. HTML

**Les commentaires :**
* On peut écrire des **commentaires** dans un fichier HTML
    * Ça signifie que ce sera une portion de code qui ne sera pas interprétée et qui sert essentiellement au développeur pour s'y retrouver dans son code
    
```html
<!-- Ceci est un commentaire -->
```

### 2. Client-serveur

**L'idée :**
* Mode de communication et de séparation des tâches :
    * **Clients** : demandent de l'information en envoyant des **requêtes**
    * **Serveurs** : répondent aux sollicitations des clients en envoyant des **réponses**
    
**Pour le webscraping :**
* Envoyer une requête à un serveur
* Récupérer la réponse et la découper pour extraire uniquement les informations qui nous intéressent grâce aux balises et aux attributs
    * A partir de l'exemple précédent : "Je veux récupérer uniquement les balises `div` qui contiennent la classe `cafe`"

### 2. Client-serveur

**Le contenu dynamique :**
* Certaines pages web n'existent pas en soi
* Elles sont **générées** à partir d'une requête envoyée au serveur

### 3. Le DOM

**Qu'est-ce que c'est ?**
* Un modèle (*Document object model*)
* Une **représentation arborescente** d'une page web (balises, attributs, texte)
* Vise à représenter un document affiché par le navigateur
* Permet à des programmes d'accéder au document et d'en **modifier le contenu**
* Analogie des "prises" comme dans l'escalade : on peut s'y "accrocher" pour récupérer l'information qui nous intéresse à un certain niveau de la page

**Les événements :**
* Le DOM permet aussi de "surveiller" certains éléments
* Cela permet au navigateur de **savoir si l'utilisateur a cliqué** dessus, par exemple
* Parfois, il sera utile de déclencher des événements pour pouvoir webscraper une page web (techniques avancées)

### 4. Les requêtes HTTP

**Qu'est-ce que c'est ?**
* C'est les questions que l'on pose aux serveurs
* Les navigateurs sont des clients HTTP

**A quoi ça ressemble ?**
* Du texte
* Composé de :
    * **Ligne de commande** suivie de l'**URL** demandée et de la **version du protocole HTTP** utilisée
    * Un **en-tête de requête** (contient des informations sur notre navigateur, notamment)
    * Le **corps de la requête** (quand on envoie des informations au serveur, lorsqu'on remplit un formulaire notamment)

### 4. Les requêtes HTTP

**Différentes commandes :**
* `GET`
* `POST`

**Différents status de réponse :**
* Erreur 404

|Code|Description|
|---|---|
|**100**|Requête en cours de traitement|
|**200**|Requête acceptée|
|**300**|Redirection de la requête|
|**400**|Erreur client (accès refusé, ressource inexistante)|
|**500**|Erreur serveur (serveur indisponible)|