# Scraping des identifiants de haikus francophones

Ce notebook vise à réaliser le scraping des identifiants des haïkus francophones dans la base de haïkus du site [tempslibres](http://www.tempslibres.org/tl/tlphp/dbauteurs.php?lg=f). 

On procède en deux étapes. D'abord, on récupère l'ensemble des adresses des pages d'auteurs francophones sur [cette page](http://www.tempslibres.org/tl/tlphp/dbauteurs.php?lg=f), puis sur chacun des pages auteurs (comme [ici](http://www.tempslibres.org/tl/tlphp/dbhk01.php?auteur=ahes-r&lg=f), on récupère l'ensemble des identifiants de haïkus, permettant ainsi d'avoir une liste de pages de haïkus à scraper. Il est en effet préférable de récolter l'information sur les pages de haïkus (information plus complète, contenant notamment la liste des figures de style utilisées) que directement sur les pages des auteurs.

In [105]:
from jyquickhelper import add_notebook_menu
add_notebook_menu()

## Première étape : récupération des pages auteurs

Même si nous n'allons pas aujourd'hui faire un cours de web, il vous faut néanmoins certaines bases pour comprendre comment un site internet fonctionne et comment sont structurées les informations sur une page.




In [1]:
import urllib
import bs4
import collections
import pandas as pd

# pour le site que nous utilisons, le user agent de python 3 n'est pas  bien passé :
# on le change donc pour celui de Mozilla
#req = urllib.request.Request('http://www.tempslibres.org/tl/tlphp/dbauteurs.php?lg=f', headers = {'User-Agent' : 'Mozilla/5.0'})

request = urllib.request.urlopen("http://www.tempslibres.org/tl/tlphp/dbauteursl.php?lang=fr&lg=f").read()
page = bs4.BeautifulSoup(request, "html.parser")
page

<!DOCTYPE html>

<html lang="fr">
<head>
<title>Haiku - tempslibres : Auteurs publiés par langue.</title>
<meta content="haiku, tempslibres, database, base de données, recueils, collections, authors, auteurs, search, searchable" name="keywords"/>
<meta content="haiku - tempslibres : index : auteurs publiés par langue / published authors by languages" name="Description"/>
<meta content="text/html; charset=utf-8" http-equiv="content-type"/>
<meta charset="utf-8"/>
<meta content="Serge Tomé" name="author"/>
<meta content="ALL" name="ROBOTS"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<link href="../../favicons/tlfavicon.ico" rel="shortcut icon"/>
<link href="../styles/normalize.css" rel="stylesheet" type="text/css"/>
<link href="../styles/dimfont.css" rel="stylesheet" type="text/css"/>
<link href="../styles/ftlpage501.css" rel="stylesheet" type="text/css"/>
<link href="../styles/rdbhaiku.css" rel="stylesheet" type="text/css">
<!--[if lt IE 9]>
   <script src=

In [3]:
# Récupération des auteurs
table_liens = page.find("table")
#table_liens
# Ici un tableau qui contient tout ce que l'on veut.
#for item in page.find(table_liens, {'td class' : 'liensurl'}).findAll({'a'})[0:5] : 
 #   print(item, "\n-------")
for item in table_liens.find_all({'a'}):
    if item.get("href"):
        print(item.get("href"))

dbhk01.php?auteur=ahes-r&lg=f
dbhk01.php?auteur=alex-m&lg=f
dbhk01.php?auteur=alsa-m&lg=f
dbhk01.php?auteur=ambr-p&lg=f
dbhk01.php?auteur=anna&lg=f
dbhk01.php?auteur=arna-v&lg=f
dbhk01.php?auteur=asun-i&lg=f
dbhk01.php?auteur=aubr-f&lg=f
dbhk01.php?auteur=aucl-p&lg=f
dbhk01.php?auteur=bake-c&lg=f
dbhk01.php?auteur=bala-i&lg=f
dbhk01.php?auteur=bard-c&lg=f
dbhk01.php?auteur=baud-v&lg=f
dbhk01.php?auteur=bazin-b&lg=f
dbhk01.php?auteur=beau-a&lg=f
dbhk01.php?auteur=beau-m&lg=f
dbhk01.php?auteur=bell-j&lg=f
dbhk01.php?auteur=bikko&lg=f
dbhk01.php?auteur=bilq-b&lg=f
dbhk01.php?auteur=bois-h&lg=f
dbhk01.php?auteur=bonn-m&lg=f
dbhk01.php?auteur=bouc-h&lg=f
dbhk01.php?auteur=boul-j&lg=f
dbhk01.php?auteur=brah-n&lg=f
dbhk01.php?auteur=breh-p&lg=f
dbhk01.php?auteur=brei-r&lg=f
dbhk01.php?auteur=bret-d&lg=f
dbhk01.php?auteur=bria-b&lg=f
dbhk01.php?auteur=brill-y&lg=f
dbhk01.php?auteur=brul-g&lg=f
dbhk01.php?auteur=buis-v&lg=f
dbhk01.php?auteur=bull-s&lg=f
dbhk01.php?auteur=burl-j&lg=f
dbhk01.php?

In [4]:
# Création de la liste d'URLs d'auteurs
liste_urls = []
debut_url = "http://www.tempslibres.org/tl/tlphp/"
for item in table_liens.find_all({'a'}):
    if item.get("href") :
        liste_urls.append(debut_url+item.get("href")) 

liste_urls[0:10]

['http://www.tempslibres.org/tl/tlphp/dbhk01.php?auteur=ahes-r&lg=f',
 'http://www.tempslibres.org/tl/tlphp/dbhk01.php?auteur=alex-m&lg=f',
 'http://www.tempslibres.org/tl/tlphp/dbhk01.php?auteur=alsa-m&lg=f',
 'http://www.tempslibres.org/tl/tlphp/dbhk01.php?auteur=ambr-p&lg=f',
 'http://www.tempslibres.org/tl/tlphp/dbhk01.php?auteur=anna&lg=f',
 'http://www.tempslibres.org/tl/tlphp/dbhk01.php?auteur=arna-v&lg=f',
 'http://www.tempslibres.org/tl/tlphp/dbhk01.php?auteur=asun-i&lg=f',
 'http://www.tempslibres.org/tl/tlphp/dbhk01.php?auteur=aubr-f&lg=f',
 'http://www.tempslibres.org/tl/tlphp/dbhk01.php?auteur=aucl-p&lg=f',
 'http://www.tempslibres.org/tl/tlphp/dbhk01.php?auteur=bake-c&lg=f']

## Deuxième étape : récupération des listes d'identifiants des haïkus pour l'ensemble des pages auteurs

In [5]:
request = urllib.request.urlopen("http://www.tempslibres.org/tl/tlphp/dbhk01.php?auteur=alex-m&lg=f").read()
page = bs4.BeautifulSoup(request, "html.parser")
#page

In [23]:
# Récupération des auteurs
contenu_page_auteur = page.find("article")

liste_urls_auteur = []
debut_url = "http://www.tempslibres.org/tl/tlphp/"

# Récupération de l'ensemble des URLs d'haikus sur une page auteur
for item in contenu_page_auteur.find_all({'a'}):
    if item.get("href"):
        liste_urls_auteur.append(debut_url+item.get("href")) 

liste_urls_auteur[0:10]

['http://www.tempslibres.org/tl/tlphp/dbhk03.php?id=5521&lg=f',
 'http://www.tempslibres.org/tl/tlphp/dbhk03.php?id=5437&lg=f',
 'http://www.tempslibres.org/tl/tlphp/dbhk03.php?id=4758&lg=f',
 'http://www.tempslibres.org/tl/tlphp/dbhk03.php?id=4758&lg=f']

In [26]:
## On crée la liste d'URLs pour l'ensemble des auteurs (suppression des doublons en aval)
import time
debut_url = "http://www.tempslibres.org/tl/tlphp/"
liste_url_haikus = []

start_time = time.time()
for url in liste_urls:
    request = urllib.request.urlopen(url).read()
    page = bs4.BeautifulSoup(request, "html.parser")
    contenu_page_auteur = page.find("article")
    #print("coucou")
    for item in contenu_page_auteur.find_all({'a'}):
        if item.get("href") :
            # Instruction pour ne garder que les URLs relatives (renvoyant sur des haïkus) et non les liens externes
            if ((item.get("href")[0:4])!="http"):
                liste_url_haikus.append(debut_url+item.get("href")) 
            
print("La récupération de l'ensemble des URLs à scraper a duré %s secondes." % (time.time() - start_time))

La récupération de l'ensemble des URLs à scraper a duré 51.33759331703186 secondes.


In [27]:
# Suppression doublons
#liste_url_haikus = list(set(liste_url_haikus))

liste_url_haikus = list(set(liste_url_haikus))
len(liste_url_haikus)

# :-(
## NB : plus de haïkus avec (+11) avec un scraping quelques jours après... -> Normal !

3488

In [None]:
### Still to do car pour le moment plusieurs choses ne vont pas !
### Certains auteurs écrivent à la fois en frnaçais et anglais (exemple Israel Balan qui est censé avoir 3 haïkus 
### En français mais il y en a bien plus sur sa page
### http://www.tempslibres.org/tl/tlphp/dbauteursl.php?lang=fr&lg=f
# Exemple de page avec un lien en plus (pas si simple de l'identifier :)
# http://www.tempslibres.org/tl/tlphp/dbhk01.php?auteur=haba-k&lg=e

In [9]:
# Dataframe
df = pd.DataFrame(liste_url_haikus, columns=["URL"])
df.to_csv("liste_urls_haikus_auteurs_franco_V2_20181022.csv")
# A priori ormal car ajout de haïkus sur la db durant le we.
