# Web Scraping - Moissonage du web

Dans ce notebook, nous allons présenter comment "extraire" des données d'Internet avec les bibliothèques Python requests et BeautifulSoup.

Nous aborderons les points suivants :

* Accéder de manière programmatique au texte d'une page web
* Comprendre les bases du HTML
* Extraire certains éléments HTML

## Qu'est-ce que le Web Scraping ?

Le web scraping est le processus d'extraction de données à partir de sites web. Dans ce cours, nous utiliserons Python pour automatiser la récupération d'informations le web

## Pourquoi en a-t-on besoin ?
 - Constituer un corpus
 - Automatiser la récupération de données


#### Requête et réponse

Lorsque vous saisissez une URL dans la barre d'adresse de votre moteur de recherche, vous envoyez une **requête** HTTP pour une page web, et le serveur qui stocke cette page web renverra en conséquence une **réponse**, c'est-à-dire des données de la page web que votre navigateur affichera.


### Import Requests 


In [None]:
import requests

### Récupère les données HTML:

Avec la méthode `.get()`, nous pouvons demander à "obtenir" les données d'une page web pour une URL spécifique, que nous stockerons dans une variable appelée `response`.

In [11]:
response = requests.get("https://fr.wikisource.org/wiki/Le_Père_Goriot_(1855)")

Si nous examinons `response`, il nous indiquera simplement son [code de réponse HTTP](https://developer.mozilla.org/fr/docs/Web/HTTP/Status), c'est-à-dire si la requête a réussi ou non.

"200" est une réponse réussie, tandis que "404" est une erreur courante indiquant "Page non trouvée".

In [None]:
response

Voyons ce qui se passe si on remplace *Le_Père_Goriot_(1855)* par *Le_Pare_Goriot_(1855)* dans l'URL...

In [7]:
response = requests.get("https://fr.wikisource.org/wiki/Le_Pare_Goriot_(1855)")

In [None]:
response

### Extraire le texte de la page 

Pour accéder aux données textuelles dans la réponse, nous devons utiliser `.text`, que nous enregistrerons dans une variable appelée `html_string`. Les données textuelles que nous obtenons sont formatées en langage de balisage HTML, sur lequel nous en parlerons plus dans la section suivante sur BeautifulSoup.

In [12]:
html_string = response.text

In [None]:
print(html_string)

In [17]:
print(html_string)

<!DOCTYPE html>
<html class="client-nojs" lang="fr" dir="ltr">
<head>
<meta charset="UTF-8">
<title>Le Père Goriot (1855) - Wikisource</title>
<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\t."," \t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","janvier","février","mars","avril","mai","juin","juillet","août","septembre","octobre","novembre","décembre"],"wgRequestId":"57c03352-81c9-4d09-813d-b4acab4a4f16","wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Le_Père_Goriot_(1855)","wgTitle":"Le Père Goriot (1855)","wgCurRevisionId":13176337,"wgRevisionId":13176337,"wgArticleId":1599760,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Éditions liées à une œuvre par Header template","100%","Œuvres d’Honoré de Balzac"],"wgPageViewLanguage":"fr","wgPageContentLanguage":"fr","wgPag

### Exercices !

Extraire du texte de multiples pages web:

Sélectionner 10 url dans les oeuvres de Balzac : [ici](https://fr.wikisource.org/wiki/Cat%C3%A9gorie:%C5%92uvres_d%E2%80%99Honor%C3%A9_de_Balzac)

créer une liste avec les 10 URL, puis écrire une fonction qui scrape les 10 pages web et les conserve le résultat dans un dataframe (chaque ligne est un roman, une colonne 'url', une autre 'contenu')

# HTML TAGS 

Ceci est un document HTML. HTML signifie HyperText Markup Language. C'est le langage standard pour écrire des documents de pages web. La chose la plus importante que vous devez savoir sur HTML est que le langage utilise des "balises" HTML pour représenter différents éléments, tels qu'un en-tête principal `<h1>`.

| Balise HTML                | Explication                              |
|--------------------|-------------------------------------------|
| <\!DOCTYPE\>        | Définit le type de document                 |
| <html\>             | Définit un document HTML                  |
| <head\>             | Informations principales sur le document    |
| <title\>            | Titre du document          |
| <body\>             | Corps du document               |
| <h1\> à <h6\>       |  Titres                    |
| <p\>                | Paragraphe                       |
| <br\>               | Saut de ligne               |
| <\!\-\-commentaire ici-\-> | Commentaire                         |
| <img\> | Image                         |
| <a\> | Hyperlien                       |
| <ul\> | Liste non ordonnée                     |
| <ol\> | Liste ordonnée                     |
| <li\> | Élément de liste                     |
| <style\> | Informations de style pour un document                    |
| <div\> | Section dans un document                   |
| <span\> | Section dans un document                   |




Les balises HTML nécessitent souvent, mais pas toujours, une balise "de fermeture". Par exemple, l'en-tête principal "LE PÈRE GORIOT" sera entouré de `<h2>` (balise d'ouverture) et `</h2>` (balise de fermeture) de chaque côté : `<h2>LE PÈRE GORIOT</h2>`




### HTML Attributes, Classes, and IDs

Les éléments HTML peuvent parfois contenir encore plus d'informations à l'intérieur d'une balise. Il s'agit souvent d'un mot-clé (comme `class` ou `id`) suivi d'un signe égal `=` et d'un descripteur supplémentaire, comme `<div>`.

Nous devons connaître les balises ainsi que les attributs, classes et IDs, car c'est ainsi que nous allons extraire des données HTML spécifiques avec BeautifulSoup.

## BeautifulSoup

Pour créer un document BeautifulSoup, nous appelons `BeautifulSoup()` avec deux paramètres : le `html_string` de notre requête HTTP et [le type de parseur](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#specifying-the-parser-to-use) que nous voulons utiliser, qui sera toujours `"html.parser"` pour nos besoins.

In [18]:
from bs4 import BeautifulSoup

In [19]:
document = BeautifulSoup(html_string, "html.parser")

In [None]:
document

### Extraire des éléments 

Nous pouvons utiliser les méthodes `.find()` et `.find_all()` pour trouver et extraire certains éléments, tels qu'un en-tête principal.

In [None]:
document.find("h2")

In [24]:
# accéder au texte -> .text
# check type

In [42]:
# multiples éléments
document.find_all("p")# img, div,

In [33]:
list_p = document.find_all("p")# img, div, 

In [None]:
#boucle for pour récupérer le texte

In [39]:
all_h2_headers = document.find_all("h2")