Scraping des haïkus
===========
Objectif : scraper les haïkus, leur contenu et quelques informations sur les auteurs.

Méthode : On utilise la liste des url d'haïkus écrits par des écrivains francophones. Cette liste a été préalablement extraite du site tempslibres.org. Il s'agit de télécharger chaque page, d'en extraire le poème à partir du repérage des balises HTML puis de les ranger dans un tableau de données exporté au format csv. Celui-ci sera enfin épluché afin de s'assurer que les haïkus correspondent à leur auteur, sont intègres, et sont en langue française.

Difficultés : La difficulté principale réside dans la présence occasionnelle de plusieurs haïkus par page. En effet, certains haïkus sont écrits en plusieurs langues. Dans la perspective d'une analyse lexicale, il convient de les éliminer. Hélas, la place du poème français parmi les différents poèmes n'est pas fixe d'où le recours nécessaire à un dispositif de reconnaissance de la langue du texte.

Le format du haïku rendant approximative la reconnaissance de la langue par la fréquence des lettres, nous avons opté pour un score calculé à partir de marques du français et de marques de langues étrangères, essentiellement des stopwords ainsi que certains accents.

La phase de vérification a montré une efficacité de 100% de cette méthode, au sens où 100% des poèmes scrappés étaient en français alors que les cas de langues multiples étaient fréquents. Un poème mi-français mi-anglais a été retiré manuellement ensuite.

Chargement des données
----------
Deux tableaux de données sont utilisés :
* la liste des URL des haïkus
* le tableau de correspondance du nom de l'auteur et de son sexe, lequel a été saisi manuellement

In [53]:
import requests
import time
import urllib
import bs4
import pandas as pd
import re
import numpy as np
from urllib import request
from stop_words import get_stop_words

##Liste des URL :
bdd_url = pd.read_csv("liste_urls_haikus_auteurs_franco_V2_20181022.csv")
##Correspondance auteurs-sexes
auteurs = pd.read_csv("Sexe_Auteurs_Haikus.csv", sep=",")
##Tableau de données à l'issue de l'extraction
haikus=pd.DataFrame(columns=["url","id_auteur", "auteur", "sexe", "pays", "haiku"])

Constitution des listes de marqueurs du français et des langues étrangères
------
Le problème des langues étrangères ne se posent que pour deux langues :
1. l'anglais, très majoritairement
2. l'espagnol, anecdotiquement

Il a paru suffisant de faire un score unique, d'autant plus élevé que le texte possède de marques du français et d'autant plus bas qu'il contient des marques de l'anglais ou de l'espagnol.

En plus des stopwords, on a rajouté des accents, y compris le "é" qui existe aussi en espagnol mais est moins fréquent qu'en français.

In [54]:
stop_words_fr = get_stop_words('french') 
stop_words_fr = [ " "+i+" " for i in stop_words_fr if len(i)>1] ## on espace les mots vides pour qu'ils ne soient pas comptablisés au sein d'un autre mot. Par exemple "the" ne doit pas être
stop_words_fr += ["é", "ê", "à", "è", "'a", "'à", "'u", "'e", "'o", "ç"]
stop_words_non_fr = get_stop_words('english') + get_stop_words('spanish')
stop_words_non_fr = [ " "+i+" " for i in stop_words_non_fr if len(i)>1]
stop_words_non_fr += ["'s", "the"]
#print(stop_words_fr)
#print(stop_words_non_fr)

On boucle sur les URL
----------

In [62]:
def scrapper_sur_csv(jusqua=len(bdd_url)-1) :
	"""Écrit chaque haiku sur une ligne dans le fichier haikus.csv"""
	i = 0
	timestamp_initial= time.time()
	###Afficher l'avancement pour les i suivants
	i_affiches = [int(i*jusqua) for i in np.linspace(start=0, stop=1, num=11)]
	while i < jusqua :
		url_page = bdd_url.loc[i, "URL"]
		page = request.urlopen(url_page).read()
		page = bs4.BeautifulSoup(page, "lxml")
		extrait = page.findAll('p', {'class' : 'dbhkanahaiku'}) ### le haïku se trouve dans un paragraphe de classe dbhkanahaiku
		extrait = str(extrait) # objet BS → chaîne de caractères
		##On retire les balises parasites
		extrait = extrait.split('class="dbhkanahaiku">')[1] #la balise initiale
		extrait = extrait.replace("</p>]", "") #la balise finale
		extrait = extrait.replace("<br/>","")
		extrait = extrait.replace("\r", "")
		##Lorsqu'il y a plusieurs poèmes, ils sont séparés par un double saut de ligne, on les enregistre dans une liste
		extrait = extrait.split("\n\n")
		### AUTEUR, IDENTIFIANT, PAYS, SEXE
		auteur = page.findAll('p', {'class' : 'dbhktlref'})
		auteur=str(auteur)
		#print(auteur)
		auteur = auteur.split("<br/>")[1]
		pays = auteur.split(",")[1]
		pays = pays.replace(" ","")
		auteur = auteur.split(",")[0]
		id_auteur = str(page).split("auteur=")[1]
		id_auteur = id_auteur.split("&")[0]
		id_auteur = id_auteur + " "
		sexe = auteurs[(auteurs["Page"] == id_auteur)]["Sexe"] ##On utilise l'identifiant de l'auteur pour le retrouver dans le tableau de correspondance auteurs-sexes
		sexe = sexe.iloc[0]
		id_auteur = id_auteur.replace(" ", "")
		#### Boucle pour calculer le score de langue de chaque poème de la liste
		j = 0
		scores = []
		while j < len(extrait) :
			haiku = extrait[j].replace("\n", "\\\\")
			contenu = haiku.replace("\\\\", " ")
			score = 0 
			for caract in stop_words_fr :
				score = score + (caract in contenu)
			for caract in stop_words_non_fr :
				score = score - (caract in contenu)
			#print(url_page, contenu)
			scores.append(score)
			#print(scores[j])
			j += 1
		m = max(scores) ##On enregistre le score du poème le « plus » français
		if m > 0 : ##on ne prend le poème le « plus » français que si son score est positif, ie si le français l'emporte
			indice = [i for i, j in enumerate(scores) if j == m][0]
			haiku = extrait[indice].replace("\n", "\\\\") ##On adopte le signe \\ pour marquer les retours à la ligne
			haikus.loc[len(haikus)] = [url_page, id_auteur, auteur, sexe, pays, haiku] ## ajouter le poème à la liste
		##Calcul d'un pourcentage d'avancement de l'opération de scraping
		avancement = round(100*i/jusqua,1)
		if i in i_affiches:
			timestamp_intermediaire = time.time()
			duree_moyenne = (timestamp_intermediaire-timestamp_initial)/(i+1)
			duree_restante = duree_moyenne*(jusqua+1-i)
			print(avancement, "%", "    ", "i=", i, "     Temps estimé : ", int(round(duree_restante//60,0)), " minutes et ", int(round(duree_restante%60,0)), " secondes", sep="")
			print("==============================================================")
			haikus.to_csv("sauvegarde.csv") ####on fait des sauvegardes régulières
		i += 1
	print("Nombre de poèmes scrapés : ", jusqua, "     Temps total : ", int((timestamp_intermediaire-timestamp_initial)//60), " minutes et ", int((timestamp_intermediaire-timestamp_initial)%60), " secondes", sep="")
	haikus.to_csv("haikus.csv", index=False)
	return(haikus)
haikus = scrapper_sur_csv(jusqua=10) ## Tester sur les 10 premiers urls
#scrapper_sur_csv() ## Tester sur tous les urls
haikus.head()


0.0%    i=0     Temps estimé : 0 minutes et 4 secondes
10.0%    i=1     Temps estimé : 0 minutes et 5 secondes
20.0%    i=2     Temps estimé : 0 minutes et 4 secondes
30.0%    i=3     Temps estimé : 0 minutes et 5 secondes
40.0%    i=4     Temps estimé : 0 minutes et 4 secondes
50.0%    i=5     Temps estimé : 0 minutes et 3 secondes
60.0%    i=6     Temps estimé : 0 minutes et 3 secondes
70.0%    i=7     Temps estimé : 0 minutes et 2 secondes
80.0%    i=8     Temps estimé : 0 minutes et 2 secondes
90.0%    i=9     Temps estimé : 0 minutes et 1 secondes
Nombre de poèmes scrapés : 10     Temps total : 0 minutes et 4 secondes


Unnamed: 0,url,id_auteur,auteur,sexe,pays,haiku
0,http://www.tempslibres.org/tl/tlphp/dbhk03.php...,quin-p,Philippe Quinta,H,France,"Fut-elle pleine\\déjà, elle décroit\\la lune"
1,http://www.tempslibres.org/tl/tlphp/dbhk03.php...,py-d,Daniel Py,H,France,Lune parfaitement ronde\\Buée sur la vitre
2,http://www.tempslibres.org/tl/tlphp/dbhk03.php...,alex-m,Marlène Alexa,F,Egypte,hiver\\dans les yeux de grand-mère\\une ombre ...
3,http://www.tempslibres.org/tl/tlphp/dbhk03.php...,sang-r,Rahmatou Sangotte,F,France,ciel gris -\\une odeur d'oignons\\caramélisés
4,http://www.tempslibres.org/tl/tlphp/dbhk03.php...,rais-c,Carol Raisfeld,F,USA,la fille du pasteur\\sa robe du dimanche\\de l...
