# Web Scraping - Moissonage du web

Dans ce notebook, nous allons présenter comment "extraire" des données d'Internet avec les bibliothèques Python requests et BeautifulSoup.

Nous aborderons les points suivants :

* Accéder de manière programmatique au texte d'une page web
* Comprendre les bases du HTML
* Extraire certains éléments HTML

## Qu'est-ce que le Web Scraping ?

Le web scraping est le processus d'extraction de données à partir de sites web. Dans ce cours, nous utiliserons Python pour automatiser la récupération d'informations le web

## Pourquoi en a-t-on besoin ?
 - Constituer un corpus
 - Automatiser la récupération de données


#### Requête et réponse

Lorsque vous saisissez une URL dans la barre d'adresse de votre moteur de recherche, vous envoyez une **requête** HTTP pour une page web, et le serveur qui stocke cette page web renverra en conséquence une **réponse**, c'est-à-dire des données de la page web que votre navigateur affichera.


### Import Requests 


In [1]:
import requests

### Récupère les données HTML:

Avec la méthode `.get()`, nous pouvons demander à "obtenir" les données d'une page web pour une URL spécifique, que nous stockerons dans une variable appelée `response`.

In [11]:
url  = "https://www.reddit.com/r/nosleep"

In [12]:
requests.get(url)

<Response [200]>

Si nous examinons `response`, il nous indiquera simplement son [code de réponse HTTP](https://developer.mozilla.org/fr/docs/Web/HTTP/Status), c'est-à-dire si la requête a réussi ou non.

"200" est une réponse réussie, tandis que "404" est une erreur courante indiquant "Page non trouvée".

Je vous laisse faire vos propres recherches sur les codes de réponse HTTP, mais dans l'idée :
- Les codes 2xx : succès de requête principalement 200, réponse réussie
- Les codes 3xx : redirection
- Les codes 4xx : erreur du côté client (ie. nous, client = côté requête). La plus connue est 404 (lien mort). Sinon 403 (erreur d'authorisation (*Forbidden*)), 429 (*Too many requests*)
- Les codes 5xx : erreur serveur. 500 (Internal server error), 502 (Bad Gateway, problème de proxy), 503 

Récémment, l'ensemble des sites de la fondation wikimedia ont connu un petit changement de politique... voyons ce que ça donne: 

In [13]:
## test avec une page wikipédia
url_wiki = "https://fr.wikipedia.org/wiki/The_Thing_(film,_1982)"
response = requests.get(url_wiki)
#...


In [14]:
response

<Response [403]>

In [15]:
## À déplier plus tard
headers= {"User-Agent": "Mozilla/5.0"}
response = requests.get("https://fr.wikipedia.org/wiki/The_Thing_(film,_1982)", headers=headers)

In [18]:
response

<Response [200]>

### Extraire le texte de la page 

Pour accéder aux données textuelles dans la réponse, nous devons utiliser `.text`, que nous enregistrerons dans une variable appelée `html_string`. Les données textuelles que nous obtenons sont formatées en langage de balisage HTML, sur lequel nous en parlerons plus dans la section suivante sur BeautifulSoup.

In [19]:
html_string = response.text

In [21]:
print(html_string)

<!DOCTYPE html>
<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-custom-font-size-clientpref-1 vector-feature-appearance-pinned-clientpref-1 vector-feature-night-mode-enabled skin-theme-clientpref-day vector-sticky-header-enabled vector-toc-available" lang="fr" dir="ltr">
<head>
<meta charset="UTF-8">
<title>The Thing (film, 1982) — Wikipédia</title>
<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vec

In [None]:
response = requests.get("https://fr.wikipedia.org/wiki/The_Thing_(film,_1982)", headers= {"User-Agent": "Mozilla/5.0"})

In [None]:
response

In [None]:
print(response.text)

### Exercices !

Extraire du texte de multiples pages web:

Sélectionner 10 url dans les oeuvres de Balzac : [ici](https://fr.wikisource.org/wiki/Cat%C3%A9gorie:%C5%92uvres_d%E2%80%99Honor%C3%A9_de_Balzac)

créer une liste avec les 10 URL, puis écrire une fonction qui scrape les 10 pages web et les conserve le résultat dans un dataframe (chaque ligne est un roman, une colonne 'url', une autre 'contenu')

In [22]:
## Import 
import requests
import pandas as pd
liste_url = ['https://fr.wikisource.org/wiki/Le_Cabinet_des_Antiques','https://fr.wikisource.org/wiki/Le_Chef-d%E2%80%99%C5%93uvre_inconnu','https://fr.wikisource.org/wiki/Le_P%C3%A8re_Goriot_(1855)','https://fr.wikisource.org/wiki/La_Peau_de_chagrin/1855']

In [26]:
#Votre fonction 
headers= {"User-Agent": "Mozilla/5.0"}
res = pd.DataFrame(zip(liste_url, [requests.get(lien, headers=headers).text for lien in liste_url]),
                   columns=['url','content']) 


In [27]:
res

Unnamed: 0,url,content
0,https://fr.wikisource.org/wiki/Le_Cabinet_des_...,"<!DOCTYPE html>\n<html class=""client-nojs vect..."
1,https://fr.wikisource.org/wiki/Le_Chef-d%E2%80...,"<!DOCTYPE html>\n<html class=""client-nojs vect..."
2,https://fr.wikisource.org/wiki/Le_P%C3%A8re_Go...,"<!DOCTYPE html>\n<html class=""client-nojs vect..."
3,https://fr.wikisource.org/wiki/La_Peau_de_chag...,"<!DOCTYPE html>\n<html class=""client-nojs vect..."


In [28]:
import requests
import pandas as pd

def scraping(liste_url):
    data = {"url": [], "content": []}
    headers= {"User-Agent": "Mozilla/5.0"}
    for url in liste_url:
        response = requests.get(url, headers =headers)
        data["url"].append(url)
        data["content"].append(response.text)
    df_main = pd.DataFrame(data)
    return df_main

In [29]:
#Testez votre fonction ! 
scraping(liste_url=liste_url)

Unnamed: 0,url,content
0,https://fr.wikisource.org/wiki/Le_Cabinet_des_...,"<!DOCTYPE html>\n<html class=""client-nojs vect..."
1,https://fr.wikisource.org/wiki/Le_Chef-d%E2%80...,"<!DOCTYPE html>\n<html class=""client-nojs vect..."
2,https://fr.wikisource.org/wiki/Le_P%C3%A8re_Go...,"<!DOCTYPE html>\n<html class=""client-nojs vect..."
3,https://fr.wikisource.org/wiki/La_Peau_de_chag...,"<!DOCTYPE html>\n<html class=""client-nojs vect..."


# HTML TAGS 

Ceci est un document HTML. HTML signifie HyperText Markup Language. C'est le langage standard pour écrire des documents de pages web. La chose la plus importante que vous devez savoir sur HTML est que le langage utilise des "balises" HTML pour représenter différents éléments, tels qu'un en-tête principal `<h1>`.

| Balise HTML                | Explication                              |
|--------------------|-------------------------------------------|
| <\!DOCTYPE\>        | Définit le type de document                 |
| <html\>             | Définit un document HTML                  |
| <head\>             | Informations principales sur le document    |
| <title\>            | Titre du document          |
| <body\>             | Corps du document               |
| <h1\> à <h6\>       |  Titres                    |
| <p\>                | Paragraphe                       |
| <br\>               | Saut de ligne               |
| <\!\-\-commentaire ici-\-> | Commentaire                         |
| <img\> | Image                         |
| <a\> | Hyperlien                       |
| <ul\> | Liste non ordonnée                     |
| <ol\> | Liste ordonnée                     |
| <li\> | Élément de liste                     |
| <style\> | Informations de style pour un document                    |
| <div\> | Section dans un document                   |
| <span\> | Section dans un document                   |




Les balises HTML nécessitent souvent, mais pas toujours, une balise "de fermeture". Par exemple, l'en-tête principal "LE PÈRE GORIOT" sera entouré de `<h2>` (balise d'ouverture) et `</h2>` (balise de fermeture) de chaque côté : `<h2>LE PÈRE GORIOT</h2>`




### HTML Attributes, Classes, and IDs

Les éléments HTML peuvent parfois contenir encore plus d'informations à l'intérieur d'une balise. Il s'agit souvent d'un mot-clé (comme `class` ou `id`) suivi d'un signe égal `=` et d'un descripteur supplémentaire, comme `<div>`.

Nous devons connaître les balises ainsi que les attributs, classes et IDs, car c'est ainsi que nous allons extraire des données HTML spécifiques avec BeautifulSoup.

## BeautifulSoup

Pour créer un document BeautifulSoup, nous appelons `BeautifulSoup()` avec deux paramètres : le `html_string` de notre requête HTTP et [le type de parseur](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#specifying-the-parser-to-use) que nous voulons utiliser, qui sera toujours `"html.parser"` pour nos besoins.

In [None]:
%pip install bs4

In [30]:
from bs4 import BeautifulSoup

In [31]:
response = requests.get('https://fr.wikipedia.org/wiki/The_Thing_(film,_1982)', headers=headers)
if response.status_code == 200 : 
    document = BeautifulSoup(response.text, 'html.parser')

In [32]:
document

<!DOCTYPE html>

<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-custom-font-size-clientpref-1 vector-feature-appearance-pinned-clientpref-1 vector-feature-night-mode-enabled skin-theme-clientpref-day vector-sticky-header-enabled vector-toc-available" dir="ltr" lang="fr">
<head>
<meta charset="utf-8"/>
<title>The Thing (film, 1982) — Wikipédia</title>
<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled v

### Extraire des éléments 

Nous pouvons utiliser les méthodes `.find()` et `.find_all()` pour trouver et extraire certains éléments, tels qu'un en-tête principal.

In [34]:
document.find('title').text

'The Thing (film, 1982) — Wikipédia'

In [None]:
document.find('h1')

'The Thing (film, 1982)'

In [40]:
[h2.text for h2 in document.find_all('p')]

['Pour les articles homonymes, voir The Thing.\n',
 '\n',
 'Pour plus de détails, voir Fiche technique et Distribution.',
 'modifier ',
 "The Thing [ðə θɪŋ][n 1], ou L'Effroyable Chose au Québec, est un film de science-fiction horrifique américain réalisé par John Carpenter et sorti en 1982.\n",
 "Écrit par Bill Lancaster, le film est adapté du roman court La Chose (Who Goes There?, 1938) de John W. Campbell. Le film met en scène un groupe de chercheurs américains en Antarctique en proie à la Chose, une forme de vie parasite extraterrestre, qui assimile puis imite les autres organismes. La distribution comprend Kurt Russell dans le rôle principal, celui du pilote d'hélicoptère R.J. MacReady, et A. Wilford Brimley, T.K. Carter, David Clennon, Keith David, Richard A. Dysart, Charles Hallahan, Peter Maloney, Richard Masur, Donald Moffat, Joel Polis et Thomas G. Waites dans les rôles secondaires.\n",
 "La production débute au milieu des années 1970, avec pour ambition d'être une adaptation

## Exercices
Écrire une fonction qui prend en paramètre un dataframe et retourne une liste de texte extrait des contenus de la colonne *content* 

In [None]:
def get_text() : 
    # À vous de jouer 
    return