Permalink
Browse files

Create INSTRUCTIONS

  • Loading branch information...
juleshuchin committed Nov 5, 2015
1 parent 2748772 commit f410af96a72213d481cb606c8cf85294ddf5988d
Showing with 43 additions and 0 deletions.
  1. +43 −0 INSTRUCTIONS
View
@@ -0,0 +1,43 @@
Pyllica fonctionnait bien avec l'ancienne version de Gallica, mais depuis le remplacement du site par la version de gallicalabs (qui contient des versions textes de certains périodiques inaccessibles sur l'ancien site), les modalités d'accès au texte brut ont changé (la redirection à partir de la date d'un périodique ne fonctionne pas de la même manière).
Les outils Pyllicalabs utilisent la nouvelle architecture du site Gallica pour récupérer des fichiers.
Installation
Pyllicalabs est fondé sur Python 3 et nécessite le module beautiful soup
Il est composé de quatre outils:
- Pyllicalabs permet d’extraire les fichiers en texte brut de numéros de périodiques qui ont été océrisés, selon une fourchette définie par l'utilisateur;
- Pyllicalabspdf permet d’extraire les pdf de numéros de périodiques;
- Pyllicalabsjpg permet d’extraire les pages d’un document sous forme de fichier jpg, tif ou png, avec une qualité définie par l’utilisateur;
- Pyllicalabsjpgpress permet de faire la même opération pour des numéros de périodiques.
Utilisation
Pour chacun des outils, il y a deux fichiers: un fichier contenant le programme, et un fichier d’instruction (commençant par le mot « action »). Pour utiliser un outil, il suffit de placer les deux fichiers dans un nouveau dossier et de modifier le fichier d’instruction en fonction des livres ou périodiques que l’on veut télécharger. Sous Mac, s’il y a des problèmes d’encodage du texte au moment de l’utilisation des outils, il ne faut pas cliquer sur le fichier d’instruction pour le lancer mais démarrer IDLE depuis depuis le Terminal ($ idle3) et faire Fichier > Ouvrir pour lancer l’action.
Pyllicalabs
On modifie le contenu du fichier actionpyllicalabs:
textpress(url="http://gallicalabs.bnf.fr/ark:/12148/cb32817642h/date", title="lemoderniste", year=1889, month=5, day=25, item=52, rate=7, lastpage=11)
url: on indique l’adresse sur Gallica de la page du périodique indiquant toutes les années disponibles.
title: on choisit un titre qui sera indiqué dans le nom du fichier.
year, month, day: la date du premier numéro qu’on souhaite télécharger.
item: le nombre de fichiers qu’on veut récupérer.
rate: le nombre de jours entre chaque numéro.
lastpage: avec la nouvelle version de Gallica, la numérotation des pages n’est pas importante, on peut laisser cet élément tel quel.
J’ai intégré des règles en cas d’exception: si l’outil ne trouve pas un des numéros (par exemple, si le périodique n’est pas disponible pour une des dates), un message avertit du problème mais le téléchargement des numéros suivants continue.
Pyllicalabspdf
Comme l’outil précédent, il permet de récupérer les fichiers pdf de périodiques; la méthode d’utilisation est la même.
Pyllicalabsjpg
La nouvelle version de Gallica utilise la norme IIIF, permettant de récupérer les images en haute résolution.
Pour l'utiliser avec un document unique, il suffit de récupérer l'identifiant du document dans l'adresse de gallicalabs (ce qui suit ark:), par exemple: /12148/btv1b86000454/
On insère ces chiffres (en conservant bien les slash) dans le fichier actionpyllicalabspg.py au niveau de la variable "identifier", on choisit un titre ("title") pour les fichiers de sortie et on sélectionne la première et la dernière page (attention, il faut choisir en fonction des numéros des vues et non de la pagination réelle du document). On place ce fichier et le fichier pyllicalabs3jpg.py dans le dossier de destination et on le lance avec Python.
On peut changer la résolution souhaitée en modifiant la fin de l'url dans le fichier pyllicalabsjpg.py (par exemple, full/5000/0/native.jpg au lieu de full/3000/0/native.png). On peut aussi récupérer les images au format png ou tif en remplaçant la mention « jpg » par « png » ou « tif » à la fin de l'adresse et du format de fichier créé:
for page in listpage:
jpgfile = title + "_" + str(page) + ".png"
url = 'http://gallicalabs.bnf.fr/iiif/ark:' + identifier + '/f' + str(page) + '/full/3000/0/native.png'
urllib.request.urlretrieve(url, jpgfile)
Pyllicalabsjpgpress
Pour récupérer les images d’une série de numéros de périodiques, on part de l’adresse du périodique avec les dates: http://gallicalabs.bnf.fr/ark:/12148/cb34427442r/date et on supprime la fin de l'adresse "/date" pour l'intégrer dans le fichier actionpyllicalabsjpgpress.py dans la variable « url ».
Il faut ici tenir compte de la pagination; on peut gonfler le nombre de pages au cas ou certains documents comportent plus de pages, les erreurs s'afficheront dans le shell avant que le programme ne continue avec le numéro suivant du périodique. Par exemple, pour un journal de 8 pages, il vaut mieux indiquer 12 pages pour être certain que des numéros plus longs seront entièrement téléchargés.

0 comments on commit f410af9

Please sign in to comment.