# Introduction au web

On confond souvent internet et le web alors que le premier naît dans les années 1970 et le second est inventé par *Tim Bernes-Lee* dans les années 1990.

Voici une vidéo sur l'histoire d'internet et qui mentionne aussi l'une de ses applications les plus importantes: le web (exécuter la cellule qui suit pour voir la vidéo)

In [None]:
%%HTML
<iframe width="676" height="380" src="https://www.youtube.com/embed/GTP4vDelF_g" allowfullscreen></iframe>

En voici une seconde, qui nous parle un peu plus de Tim Bernes-Lee et son invention: le web

In [None]:
%%HTML
<iframe width="676" height="380" src="https://www.youtube.com/embed/PbCG_BeL5dY" allowfullscreen></iframe>

**note**: le code magique `%%HTML` permet d'indiquer à la cellule de code qu'on souhaite voir «rendu» la partie html qui suit sans altération.

**Internet** consiste en l'ensemble des moyens pour permettre à deux applications (logiciels) distantes de communiquer et cela quelle que soit l'organisation sous-jacente des réseaux, sous réseaux etc.; internet s'incarne dans deux protocoles **TCP** et **IP**.

Le **web** (abréviation des 3W - *World Wide Web* - la toile d'araignée mondiale) est une (des nombreuses) **application d'internet**. Il utilise un modèle de dialogue *client/serveur* et s'incarne principalement dans quelques notions clés:
- **URL**: sert à décrire la localisation d'une ressource sur internet,
- **http** (*Hyper Text Transport Protocol*): un protocole de la *couche application* qui organise le dialogue entre clients et serveur «web»,
- **HTML** (*Hyper Text Markup Language*):un langage de description de document, : langage à balise proposant des «hyper text» c'est à dire des liens cliquables permettant d'accéder à d'autres documents.
- **CSS** (*Cascading Style Sheet* - feuille de style en cascade): un langage de mise en forme.

## Les URL(s) - *Uniform Ressource Locator*

une **URL** - «localiseur uniforme de ressource» - précise basiquement:
- un **protocole**: généralement `http` ou `https` (s pour sécurisé) pour le web, 
- un **hôte** du réseau (machine): son ip (et éventuellement un port) ou son nom de domaine,
- et le **chemin d'accès** à une ressource (fichier) par rapport à un répertoire de référence sur cette machine.

Sa *syntaxe* simplifiée est:

        protocole://nom_ou_adresse_hote/chemin_vers_fichier
        


*Exemple*: lorsqu'on saisit l'url [https://docs.python.org/fr/3/library/functions.html#open](https://docs.python.org/fr/3/library/functions.html#open) (ou qu'on clique sur un lien dont l'attribut *href* est cette url) dans un navigateur web:
1. le navigateur isole le nom de domaine *docs.python.org* et effectue une requête DNS pour obtenir l'ip associé (ici *151.101.120.223* - vérifier avec la commande `host`),
2. puis il se connecte à cette adresse, en utilisant TCP, sur le port 443 (port par défaut pour https),
3. il envoie alors un certain nombre de messages en se conformant au protocole *https* afin d'obtenir la ressource `/fr/3/library/functions.html`,
4. enfin, il affiche le fichier html obtenu puis cherche dans le document une ancre `<a href="#open">..</a>` afin de se positionner au bon endroit dans la page.

## «Jouons» un peu avec Python

### Parser une url

Le module standard `urllib.parse` contient tous les outils nécessaires pour «démembrer» (on dit «parser») une url, en particulier la fonction `urlparse()`.

In [None]:
from urllib.parse import urlparse

parties = urlparse("https://docs.python.org/fr/3/library/functions.html#open")
print(parties)
print(f"type du résultat: {type(parties)}")

pour récupérer les parties de l'url, on utilise une notation pointée de la forme `var.attribut`. 

In [None]:
protocole = parties.scheme
nom_domaine = parties.netloc
chemin = parties.path
ancre = parties.fragment
print(
    f"""
    protocole: {protocole},
    nom de domaine: {nom_domaine},
    chemin ressource: {chemin},
    ancre dans la ressource: {ancre}"""
)

### Un client web minimaliste

Il est même possible de réaliser une sorte de client bas niveau effectuant des requêtes en utilisant une url.

La fonction `urlopen(url, timeout=tps_en_s)` du module standard `urllib.request` fait cela.

In [None]:
from urllib.request import urlopen

reponse = urlopen("https://python.org", timeout=5)
entetes = reponse.getheaders()
message = reponse.read()
reponse.close() # voir la zone cachée pour cette ligne

**Note**

l'objet `reponse` demande, pour être créé, des ressources: ici une zone mémoire géré par le système d'exploitation appelé tampon (*buffer*).

Cette ressource n'est pas libérée automatiquement (le même phénomène se produit avec un fichier par exemple). 

C'est de la **responsabilité du programmeur** d'indiquer qu'il en a terminé avec la ressource en appelant `reponse.close()` ce qui permet à l'OS de libérer la zone mémoire occupée et donc de la recycler.

En réalité, Python possède une syntaxe spéciale pour ce type de situation (appelé manager de contexte):
        
```python
with demande_ressource as nom_ressource:
    # utiliser la ressource à l'aide de 
    # son «handler» (variable qui la représente)
    # nom_ressource

# ici, la ressource a été libérée car nous sommes sortis de la zone «with»
```

Ainsi, dans notre cas, il aurait mieux valu écrire (plus court et plus propre):

```python
with urlopen("https://python.org", timeout=5) as reponse:
    entetes = reponse.getheaders()
    message = reponse.read()
```

Voyons un peu à quoi ressemble ces éléments de la réponse:

In [None]:
# liste de tuples (cle, valeur)
print(entetes)

En **un peu** moins désagréable... (avec une révision en prime) :-o

In [None]:
print("\n".join([
    f"{cle}: {valeur}"
    for cle, valeur in entetes
]))

Vous avez maintenant une idée de ce à quoi ressemble le protocole http(s)!

Enfin, voici le message transmis (ces 1000 premiers octets)

In [None]:
# le message est de type bytes, si on veut une chaîne il faut décoder... (utf-8 par défaut)
print(message[:1000].decode())

## Surfer sur le web dans la console

Il est utile de pouvoir réaliser toutes les opérations ordinaires en mode texte (sans GUI)

Pour cette raison, je vous propose d'explorer (un peu) le web en mode texte avec **lynx** en suivant cette vidéo.

In [None]:
%%HTML
<iframe src="https://player.vimeo.com/video/398790387" width="640" height="437" frameborder="0" allow="autoplay; fullscreen" allowfullscreen></iframe>