# 1. Web Scraping - Introduction

<img src='https://xn--kvin-duranty-beb.fr/wp-content/uploads/2022/10/Web-Scraping-_-IPSSI-PRS.png'>


Dans ce premier exercice, nous allons utiliser le package requests afin de scraper le premier site internet mis en ligne par Tim Berners-Lee le concepteur du langage de programmation html, et du protocole http.

Cet exercice a pour but de revoir les bases de la programmation html, il est important de bien comprendre les notions de balise de tag et d'attribut afin de poursuivre ce cours dans les meilleures conditions.

Voici quelques-uns des codes HTTP les plus couramment rencontrés lors de requêtes HTML :

- `200` OK : La requête a réussi, et le serveur a retourné les données demandées.

- `400` Bad Request : La syntaxe de la requête est incorrecte ou la requête est mal formée.

- `401` Unauthorized : L'accès à la ressource est refusé en raison d'une authentification insuffisante ou de clés d'accès invalides.

- `403` Forbidden : L'accès à la ressource est interdit, même avec une authentification valide.

- `404` Not Found : La ressource demandée n'a pas été trouvée sur le serveur.

- `500` Internal Server Error : Une erreur interne du serveur s'est produite, souvent due à un dysfonctionnement du côté du serveur.

- `503` Service Unavailable : Le serveur n'est pas prêt à gérer la requête. Cela peut être dû à une surcharge temporaire ou à une maintenance du serveur.

- `504` Gateway Timeout : Le serveur agissant comme une passerelle ou un proxy n'a pas reçu de réponse en temps opportun du serveur en amont ou d'une autre source nécessaire pour terminer la requête.

## 1.1 Importez le package `requests`.

In [1]:
import requests

## 1.2 Utilisez la méthode `get` du package `requests` afin d'obtenir la page [TheProject](http://info.cern.ch/hypertext/WWW/TheProject.html).

Enregistrez le résultat dans une variable `response` puis affichez le type de cette variable ainsi que le statut de la réponse en utilisant l'instance `status_code`.

In [2]:
response = requests.get("https://info.cern.ch/hypertext/WWW/TheProject.html")
response

<Response [200]>

## 1.3 Utilisez l'instance `text` de la variable `response` et notez vos observations.
Sauvegardez le résultat '`The World Wide Web project.html`', ouvrez ensuite ce fichier avec votre navigateur, notez vos observations.



In [3]:
print(response.text)

<HEADER>
<TITLE>The World Wide Web project</TITLE>
<NEXTID N="55">
</HEADER>
<BODY>
<H1>World Wide Web</H1>The WorldWideWeb (W3) is a wide-area<A
NAME=0 HREF="WhatIs.html">
hypermedia</A> information retrieval
initiative aiming to give universal
access to a large universe of documents.<P>
Everything there is online about
W3 is linked directly or indirectly
to this document, including an <A
NAME=24 HREF="Summary.html">executive
summary</A> of the project, <A
NAME=29 HREF="Administration/Mailing/Overview.html">Mailing lists</A>
, <A
NAME=30 HREF="Policy.html">Policy</A> , November's  <A
NAME=34 HREF="News/9211.html">W3  news</A> ,
<A
NAME=41 HREF="FAQ/List.html">Frequently Asked Questions</A> .
<DL>
<DT><A
NAME=44 HREF="../DataSources/Top.html">What's out there?</A>
<DD> Pointers to the
world's online information,<A
NAME=45 HREF="../DataSources/bySubject/Overview.html"> subjects</A>
, <A
NAME=z54 HREF="../DataSources/WWW/Servers.html">W3 servers</A>, etc.
<DT><A
NAME=46 HREF="Help.html">

In [4]:
with open('The World Wide Web project.html', 'w') as file:
    file.write(response.text)

## 1.4 Quelle instance de la variable `response` contient l'adresse URL de la page observée ?

In [5]:
print(response.url)

https://info.cern.ch/hypertext/WWW/TheProject.html


## 1.5 Combien de titre 'h1' contient la page  `The World Wide Web project` ?
! Attention aux majuscules !

In [8]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text, 'html.parser')
h1_tags = soup.find_all('h1')
print(len(h1_tags))


1


## 1.6 Combien de lien possède la page `The World Wide Web project` ?

In [9]:
a_tags = soup.find_all('a')
print(len(a_tags))


25


## 1.7 Récupérez tous les liens de la page à l'aide d'une fonction.

Créez une fonction `get_links` qui prend en argument une variable `response` (de type requests.models.Response) et qui retourne une liste contenant tous les liens présents sur la page.

In [10]:
def get_links(response):
    soup = BeautifulSoup(response.text, 'html.parser')
    return [link.get('href') for link in soup.find_all('a')]

links = get_links(response)
print(links)


['WhatIs.html', 'Summary.html', 'Administration/Mailing/Overview.html', 'Policy.html', 'News/9211.html', 'FAQ/List.html', '../DataSources/Top.html', '../DataSources/bySubject/Overview.html', '../DataSources/WWW/Servers.html', 'Help.html', 'Status.html', 'LineMode/Browser.html', 'Status.html#35', 'NeXT/WorldWideWeb.html', 'Daemon/Overview.html', 'Tools/Overview.html', 'MailRobot/Overview.html', 'Status.html#57', 'Technical.html', 'Bibliography.html', 'People.html', 'History.html', 'Helping.html', '../README.html', 'LineMode/Defaults/Distribution.html']


## 1.8 Vérifiez l'existence des pages présentes dans cette liste.

In [17]:
from urllib.parse import urljoin

base_url = "http://info.cern.ch/hypertext/WWW/"

for link in links:
    absolute_link = urljoin(base_url, link)
    res = requests.get(absolute_link)
    print(absolute_link, res.status_code)


http://info.cern.ch/hypertext/WWW/WhatIs.html 200
http://info.cern.ch/hypertext/WWW/Summary.html 200
http://info.cern.ch/hypertext/WWW/Administration/Mailing/Overview.html 404
http://info.cern.ch/hypertext/WWW/Policy.html 200
http://info.cern.ch/hypertext/WWW/News/9211.html 200
http://info.cern.ch/hypertext/WWW/FAQ/List.html 200
http://info.cern.ch/hypertext/DataSources/Top.html 200
http://info.cern.ch/hypertext/DataSources/bySubject/Overview.html 200
http://info.cern.ch/hypertext/DataSources/WWW/Servers.html 200
http://info.cern.ch/hypertext/WWW/Help.html 200
http://info.cern.ch/hypertext/WWW/Status.html 200
http://info.cern.ch/hypertext/WWW/LineMode/Browser.html 200
http://info.cern.ch/hypertext/WWW/Status.html#35 200
http://info.cern.ch/hypertext/WWW/NeXT/WorldWideWeb.html 200
http://info.cern.ch/hypertext/WWW/Daemon/Overview.html 200
http://info.cern.ch/hypertext/WWW/Tools/Overview.html 200
http://info.cern.ch/hypertext/WWW/MailRobot/Overview.html 200
http://info.cern.ch/hypertext/

## 1.9 Récupérez les liens présents sur la deuxième page de cette liste.