# Récupérer les identifiants de films sur *Allociné*

## Lire une page Web

Page Web = document structuré
- marqueurs autour de segments
- hiérarchie des informations
- représention arborescente

Films de SF 2010-2019 les mieux notés sur Allociné :  
http://www.allocine.fr/films/notes/genre-13021/decennie-2010/

In [None]:
#!/usr/bin/env python
#-*- coding: utf-8 -*-

# Module urllib
import urllib.request

# Configuration de la requête HTTP
url = 'http://www.allocine.fr/films/notes/genre-13021/decennie-2010/'
headers = { 'User-agent' : 'HTML extractor (Alexandre Roulois)' }
request = urllib.request.Request(url, headers=headers)

# Extraire le code HTML
with urllib.request.urlopen(request) as fichier:
    html = fichier.read().decode('utf-8')

## Analyse syntaxique

Quel est le type, au sens de type de données, de la variable `html` ?

In [None]:
# <class 'str'>
print(type(html))

**Question :** comment interpréter du texte brut comme texte structuré ?

Importer module *BeautifulSoup* :
- analyses syntaxiques HTML et XML
- modélisation arborescente du fichier
- méthodes pour parcourir, rechercher et modifier un arbre

Importer le module :

In [None]:
# Importer BeautifulSoup v4
from bs4 import BeautifulSoup

Lancer l’analse syntaxique :

In [None]:
soup = BeautifulSoup(html, 'html.parser')

Rechercher tous les films dans le document :
- méthode `select()` avec comme entrée un sélecteur CSS
- sélecteur `.meta-title-link` trop gourmand
- contrainte supplémentaire comme enfant de `.mdl`

In [None]:
movies = soup.select('.mdl .meta-title-link')

Pour chaque film, récupérer le lien hypertexte :

In [None]:
# Pour chaque film…
for movie in movies:
    # … récupérer le contenu de l'attribut href
    href = movie.get('href')

Et l’insérer dans une liste propre :

In [None]:
# Liste de tous les liens
hrefs = []

# Insérer le contenu de "href" dans la liste
for movie in movies:
    hrefs.append(movie.get('href'))

## Écrire dans un fichier

**Objectif :** enregistrer les liens dans un fichier à plat

**Besoins :**
- créer nouveau fichier avec droits en écriture
- insérer chaque lien dans le fichier
- un lien par ligne

**1e étape :** ouvrir un nouveau fichier en écriture

In [None]:
with open('liste_liens.txt', 'w') as file:
    # Liste des instructions
    pass

**2e étape :** pour chaque lien, lancer une instruction d’écriture dans le fichier

In [None]:
with open('liste_liens.txt', 'w') as file:
    for href in hrefs:
        file.write(href)

**3e étape:** ajouter un retour à la ligne à chaque fois

In [None]:
with open('liste_liens.txt', 'w') as file:
    for href in hrefs:
        file.write(href)
        file.write('\n')

## Optimiser

Modulariser le code grâce à une fonction utilisateur :

In [None]:
def get_HTML_from_URL(url, charset='utf-8'):
    """Extracts the HTML code from a single URL.
    
    Keyword arguments:
    url -- the url to scrap
    charset -- the charset used to decode caracters (default utf-8)
    """
    headers = { 'User-agent' : 'HTML extractor (Alexandre Roulois)' }
    request = urllib.request.Request(url, headers=headers)
    with urllib.request.urlopen(request) as fichier:
        html = fichier.read().decode(charset)
    return html

Placer la fonction et ses dépendances (`urllib.request`) dans un fichier `tools.py`, à importer comme un module dans le script :

In [None]:
# Importer le module en tête du fichier
import tools

Appeler ensuite la fonction au lieu de tout le code explicite :

In [None]:
# Récupérer code HTML
html = tools.get_HTML_from_URL(url)