# Web Scraping - Moissonage du web

Dans ce notebook, nous allons présenter comment "extraire" des données d'Internet avec les bibliothèques Python requests et BeautifulSoup.

Nous aborderons les points suivants :

* Accéder de manière programmatique au texte d'une page web
* Comprendre les bases du HTML
* Extraire certains éléments HTML

## Qu'est-ce que le Web Scraping ?

Le web scraping est le processus d'extraction de données à partir de sites web. Dans ce cours, nous utiliserons Python pour automatiser la récupération d'informations le web

## Pourquoi en a-t-on besoin ?
 - Constituer un corpus
 - Automatiser la récupération de données


#### Requête et réponse

Lorsque vous saisissez une URL dans la barre d'adresse de votre moteur de recherche, vous envoyez une **requête** HTTP pour une page web, et le serveur qui stocke cette page web renverra en conséquence une **réponse**, c'est-à-dire des données de la page web que votre navigateur affichera.


### Import Requests 


In [2]:
import requests

### Récupère les données HTML:

Avec la méthode `.get()`, nous pouvons demander à "obtenir" les données d'une page web pour une URL spécifique, que nous stockerons dans une variable appelée `response`.

In [9]:
response = requests.get("https://fr.wikisource.org/wiki/Le_Père_Goriot_(1855)")

Si nous examinons `response`, il nous indiquera simplement son [code de réponse HTTP](https://developer.mozilla.org/fr/docs/Web/HTTP/Status), c'est-à-dire si la requête a réussi ou non.

"200" est une réponse réussie, tandis que "404" est une erreur courante indiquant "Page non trouvée".

In [4]:
response

<Response [200]>

Voyons ce qui se passe si on remplace *Le_Père_Goriot_(1855)* par *Le_Pare_Goriot_(1855)* dans l'URL...

In [5]:
response = requests.get("https://fr.wikisource.org/wiki/Le_Pare_Goriot_(1855)")

In [6]:
response

<Response [404]>

### Extraire le texte de la page 

Pour accéder aux données textuelles dans la réponse, nous devons utiliser `.text`, que nous enregistrerons dans une variable appelée `html_string`. Les données textuelles que nous obtenons sont formatées en langage de balisage HTML, sur lequel nous en parlerons plus dans la section suivante sur BeautifulSoup.

In [10]:
html_string = response.text

In [11]:
html_string

'<!DOCTYPE html>\n<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-disabled vector-feature-custom-font-size-clientpref-1 vector-feature-appearance-pinned-clientpref-1 vector-feature-night-mode-disabled skin-theme-clientpref-day vector-toc-not-available" lang="fr" dir="ltr">\n<head>\n<meta charset="UTF-8">\n<title>Le Père Goriot (1855) - Wikisource</title>\n<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-cl

In [12]:
response = requests.get("https://fr.wikisource.org/wiki/Sarrasine")

In [13]:
print(response.text)

<!DOCTYPE html>
<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-disabled vector-feature-custom-font-size-clientpref-1 vector-feature-appearance-pinned-clientpref-1 vector-feature-night-mode-disabled skin-theme-clientpref-day vector-toc-not-available" lang="fr" dir="ltr">
<head>
<meta charset="UTF-8">
<title>Sarrasine - Wikisource</title>
<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-

### Exercices !

Extraire du texte de multiples pages web:

Sélectionner 10 url dans les oeuvres de Balzac : [ici](https://fr.wikisource.org/wiki/Cat%C3%A9gorie:%C5%92uvres_d%E2%80%99Honor%C3%A9_de_Balzac)

créer une liste avec les 10 URL, puis écrire une fonction qui scrape les 10 pages web et les conserve le résultat dans un dataframe (chaque ligne est un roman, une colonne 'url', une autre 'contenu')

In [19]:
import pandas as pd

In [14]:
liste_url = ["https://fr.wikisource.org/wiki/Sarrasine", 'https://fr.wikisource.org/wiki/Le_P%C3%A8re_Goriot_(1855)']

In [48]:
def scraping(liste_url):
    df_main = pd.DataFrame(columns=["url", "content"])
    for url in liste_url:
        response = requests.get("https://fr.wikisource.org/wiki/Sarrasine").text

        df_courant = pd.DataFrame([[url, response]], columns=["url", "content"])
        df_main = pd.concat([df_main, df_courant])

    return df_main

In [49]:
df = scraping(liste_url)

In [50]:
df

Unnamed: 0,url,content
0,https://fr.wikisource.org/wiki/Sarrasine,"<!DOCTYPE html>\n<html class=""client-nojs vect..."
0,https://fr.wikisource.org/wiki/Le_P%C3%A8re_Go...,"<!DOCTYPE html>\n<html class=""client-nojs vect..."


# HTML TAGS 

Ceci est un document HTML. HTML signifie HyperText Markup Language. C'est le langage standard pour écrire des documents de pages web. La chose la plus importante que vous devez savoir sur HTML est que le langage utilise des "balises" HTML pour représenter différents éléments, tels qu'un en-tête principal `<h1>`.

| Balise HTML                | Explication                              |
|--------------------|-------------------------------------------|
| <\!DOCTYPE\>        | Définit le type de document                 |
| <html\>             | Définit un document HTML                  |
| <head\>             | Informations principales sur le document    |
| <title\>            | Titre du document          |
| <body\>             | Corps du document               |
| <h1\> à <h6\>       |  Titres                    |
| <p\>                | Paragraphe                       |
| <br\>               | Saut de ligne               |
| <\!\-\-commentaire ici-\-> | Commentaire                         |
| <img\> | Image                         |
| <a\> | Hyperlien                       |
| <ul\> | Liste non ordonnée                     |
| <ol\> | Liste ordonnée                     |
| <li\> | Élément de liste                     |
| <style\> | Informations de style pour un document                    |
| <div\> | Section dans un document                   |
| <span\> | Section dans un document                   |




Les balises HTML nécessitent souvent, mais pas toujours, une balise "de fermeture". Par exemple, l'en-tête principal "LE PÈRE GORIOT" sera entouré de `<h2>` (balise d'ouverture) et `</h2>` (balise de fermeture) de chaque côté : `<h2>LE PÈRE GORIOT</h2>`




### HTML Attributes, Classes, and IDs

Les éléments HTML peuvent parfois contenir encore plus d'informations à l'intérieur d'une balise. Il s'agit souvent d'un mot-clé (comme `class` ou `id`) suivi d'un signe égal `=` et d'un descripteur supplémentaire, comme `<div>`.

Nous devons connaître les balises ainsi que les attributs, classes et IDs, car c'est ainsi que nous allons extraire des données HTML spécifiques avec BeautifulSoup.

## BeautifulSoup

Pour créer un document BeautifulSoup, nous appelons `BeautifulSoup()` avec deux paramètres : le `html_string` de notre requête HTTP et [le type de parseur](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#specifying-the-parser-to-use) que nous voulons utiliser, qui sera toujours `"html.parser"` pour nos besoins.

In [51]:
from bs4 import BeautifulSoup

In [53]:
document = BeautifulSoup(html_string, "html.parser")

In [54]:
document

<!DOCTYPE html>

<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-disabled vector-feature-custom-font-size-clientpref-1 vector-feature-appearance-pinned-clientpref-1 vector-feature-night-mode-disabled skin-theme-clientpref-day vector-toc-not-available" dir="ltr" lang="fr">
<head>
<meta charset="utf-8"/>
<title>Le Père Goriot (1855) - Wikisource</title>
<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-client

### Extraire des éléments 

Nous pouvons utiliser les méthodes `.find()` et `.find_all()` pour trouver et extraire certains éléments, tels qu'un en-tête principal.

In [58]:
document.find("h2")

<h2 class="tmp" id="LE_PÈRE_GORIOT." style="border-bottom:0 none;"><span id="LE_P.C3.88RE_GORIOT."></span> LE PÈRE GORIOT.</h2>

In [24]:
# accéder au texte -> .text
# check type

In [73]:
text = document.find_all("h2")

In [74]:
type(text)

bs4.element.ResultSet

In [79]:
text[0].text

' LE PÈRE GORIOT.'

In [67]:
text = document.find("p").text

In [68]:
text

' Pour les autres éditions de ce texte, voir Le Père Goriot.'

In [82]:
# multiples éléments
document.find_all("p")# img, div,

[<p><small class="ws-noexport" itemid="http://www.wikidata.org/entity/Q108843937" itemscope="" itemtype="http://schema.org/CreativeWork" style="text-align:center;font-style:italic"><span typeof="mw:File"><span><img class="mw-file-element" data-file-height="168" data-file-width="220" decoding="async" height="19" src="//upload.wikimedia.org/wikipedia/commons/thumb/8/81/List2.svg/25px-List2.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/8/81/List2.svg/38px-List2.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/8/81/List2.svg/50px-List2.svg.png 2x" width="25"/></span></span> Pour les autres éditions de ce texte, voir <span itemid="http://www.wikidata.org/entity/Q240617" itemprop="exampleOfWork" itemscope="" itemtype="http://schema.org/CreativeWork"><a class="mw-disambig" href="/wiki/Le_P%C3%A8re_Goriot" title="Le Père Goriot"><span itemprop="name">Le Père Goriot</span></a><link href="https://fr.wikisource.org/wiki/Le_P%C3%A8re_Goriot" itemprop="mainEntityOfPage

In [83]:
list_p = document.find_all("p")

In [84]:
liste_p_text = [balise_p.text for balise_p in list_p]

In [86]:
list_x = []
for balise_p in list_p:
    list_x.append(balise_p)

In [88]:
list_x

[<p><small class="ws-noexport" itemid="http://www.wikidata.org/entity/Q108843937" itemscope="" itemtype="http://schema.org/CreativeWork" style="text-align:center;font-style:italic"><span typeof="mw:File"><span><img class="mw-file-element" data-file-height="168" data-file-width="220" decoding="async" height="19" src="//upload.wikimedia.org/wikipedia/commons/thumb/8/81/List2.svg/25px-List2.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/8/81/List2.svg/38px-List2.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/8/81/List2.svg/50px-List2.svg.png 2x" width="25"/></span></span> Pour les autres éditions de ce texte, voir <span itemid="http://www.wikidata.org/entity/Q240617" itemprop="exampleOfWork" itemscope="" itemtype="http://schema.org/CreativeWork"><a class="mw-disambig" href="/wiki/Le_P%C3%A8re_Goriot" title="Le Père Goriot"><span itemprop="name">Le Père Goriot</span></a><link href="https://fr.wikisource.org/wiki/Le_P%C3%A8re_Goriot" itemprop="mainEntityOfPage

In [68]:
df_url_txt

Unnamed: 0,url,html
0,https://fr.wikisource.org/wiki/Le_Père_Goriot_...,"<!DOCTYPE html>\n<html class=""client-nojs"" lan..."
1,https://fr.wikisource.org/wiki/Sarrasine,"<!DOCTYPE html>\n<html class=""client-nojs"" lan..."
2,https://fr.wikisource.org/wiki/La_Fille_aux_ye...,"<!DOCTYPE html>\n<html class=""client-nojs"" lan..."


In [72]:
df_url_txt.loc[0]

url     https://fr.wikisource.org/wiki/Le_Père_Goriot_...
html    <!DOCTYPE html>\n<html class="client-nojs" lan...
Name: 0, dtype: object

## Écrire une fonction qui prend en paramètre un dataframe et retourne une liste de texte (pour chaque element de la colonne "html" )

In [82]:
def get_text(dataframe):
    list_textes = []
    for html in dataframe.html:
        list_p = BeautifulSoup(html, 'html.parser').find_all('p')
        text_p = [balise_p.text for balise_p in list_p]
        list_textes.append(text_p)

    return list_textes
    

In [83]:
ma_liste = get_text(df_url_txt)

In [84]:
ma_liste

[[' Pour les autres éditions de ce texte, voir Le Père Goriot.',
  '\n',
  'Madame Vauquer, née de Coflans, est une vieille femme qui, depuis quarante ans, tient à Paris une pension bourgeoise établie rue Neuve-Sainte-Geneviève, entre le quartier latin et le faubourg Saint-Marceau. Cette pension, connue sous le nom de la Maison Vauquer, admet également des hommes et des femmes, des jeunes \ngens et des vieillards, sans que jamais la médisance ait attaqué les mœurs de ce respectable établissement. Mais aussi depuis trente ans ne s’y était-il jamais vu de jeune personne, et pour qu’un jeune homme y demeure, sa famille doit-elle lui faire une bien maigre pension. Néanmoins, en 1819, époque à laquelle ce drame commence, il s’y trouvait une pauvre jeune fille. En quelque discrédit que soit tombé le mot drame par la manière abusive et tortionnaire \ndont il a été prodigué dans ces temps de douloureuse littérature, il est nécessaire de l’employer ici\xa0: non que cette histoire soit dramatiqu