## testing box conversion

In [14]:
import requests
from requests.auth import HTTPBasicAuth
import json
import datetime

In [15]:
from impresso_commons.path.path_fs import IssueDir, detect_canonical_issues, canonical_path, KNOWN_JOURNALS
from text_importer.helpers import get_page_schema

In [16]:
from impresso_commons.images.olive_boxes import get_iiif_url
from IPython.display import Image

In [17]:
issues = detect_canonical_issues("/scratch/matteo/images_test/", KNOWN_JOURNALS)

In [18]:
len(issues)

8181

In [19]:
import os
import json
from random import randint, shuffle

Page = get_page_schema()

def select_random_index(objects):
    shuffle(objects)
    total_objects = len(objects)
    index = randint(0, len(objects) - 1)
    return index

def read_issue_pages(issue):
    pages = []
    
    page_files = [
        file
        for file in os.listdir(issue.path)
        if not 'issue.json' in file
    ]
    
    for page_file in page_files:
        
        page_path = os.path.join(issue.path, page_file)
        
        with open(page_path, 'r') as f:
            data = json.loads(f.read())
            pages.append((page_file, Page(**data)))
    
    return pages

def select_random_token(page_obj):
    total_regions = len(page_obj.r)
    region = page_obj.r[randint(0, total_regions - 1)]
    total_paragraphs = len(region.p)
    paragraph = region.p[randint(0, total_paragraphs - 1)]
    total_lines = len(paragraph.l)
    line = paragraph.l[randint(0, total_lines - 1)]
    total_tokens = len(line.t)
    token = line.t[randint(0, total_tokens - 1)]
    return token

def get_link(page_name, coordinates):
    link = get_iiif_url(page_name, " ".join([str(i) for i in coordinates]))
    return link

def get_image(page_name, coordinates, user="epfl-team", pwd="_pYmypGG#+N;6{3U"):
    link = get_iiif_url(page_name, " ".join([str(i) for i in coordinates]))
    return requests.get(link, auth=HTTPBasicAuth(user, pwd)).content
    

In [24]:
for n in range(0, 40):
    issue_idx = select_random_index(issues)
    issue = issues[issue_idx]
    print(issue.path)
    pages = read_issue_pages(issue)
    
    for j in range(0, 5):
        page_idx = select_random_index(pages)
        page_name, page = pages[page_idx]
        print(page_name)

        for i in range(0, 2):
            try:
                token = select_random_token(page)
                print(token.tx, list(token.c))
                print(get_link(page_name.replace('.json', ''), token.c))
            except Exception as e:
                print(e)
                pass
    

/scratch/matteo/images_test/LCE/1962/01/03/a
LCE-1962-01-03-a-p0003.json
Hug [28, 400, 32, 17]
http://dhlabsrv17.epfl.ch/iiif_impresso/LCE-1962-01-03-a-p0003/28,400,32,17/full/0/default.jpg
petits [1398, 564, 45, 17]
http://dhlabsrv17.epfl.ch/iiif_impresso/LCE-1962-01-03-a-p0003/1398,564,45,17/full/0/default.jpg
LCE-1962-01-03-a-p0006.json
Une [1166, 1709, 31, 17]
http://dhlabsrv17.epfl.ch/iiif_impresso/LCE-1962-01-03-a-p0006/1166,1709,31,17/full/0/default.jpg
la [558, 457, 13, 17]
http://dhlabsrv17.epfl.ch/iiif_impresso/LCE-1962-01-03-a-p0006/558,457,13,17/full/0/default.jpg
LCE-1962-01-03-a-p0005.json
empty range for randrange() (0,0, 0)
empty range for randrange() (0,0, 0)
LCE-1962-01-03-a-p0002.json
le [1241, 1009, 12, 15]
http://dhlabsrv17.epfl.ch/iiif_impresso/LCE-1962-01-03-a-p0002/1241,1009,12,15/full/0/default.jpg
adresse [758, 1122, 55, 16]
http://dhlabsrv17.epfl.ch/iiif_impresso/LCE-1962-01-03-a-p0002/758,1122,55,16/full/0/default.jpg
LCE-1962-01-03-a-p0005.json
empty range 

, [1740, 2163, 4, 17]
http://dhlabsrv17.epfl.ch/iiif_impresso/LCE-1952-01-07-a-p0003/1740,2163,4,17/full/0/default.jpg
marqué [1811, 807, 62, 17]
http://dhlabsrv17.epfl.ch/iiif_impresso/LCE-1952-01-07-a-p0003/1811,807,62,17/full/0/default.jpg
LCE-1952-01-07-a-p0003.json
il [519, 1052, 9, 15]
http://dhlabsrv17.epfl.ch/iiif_impresso/LCE-1952-01-07-a-p0003/519,1052,9,15/full/0/default.jpg
DE [157, 2245, 30, 17]
http://dhlabsrv17.epfl.ch/iiif_impresso/LCE-1952-01-07-a-p0003/157,2245,30,17/full/0/default.jpg
/scratch/matteo/images_test/IMP/1970/01/21/a
IMP-1970-01-21-a-p0012.json
, [772, 538, 3, 15]
http://dhlabsrv17.epfl.ch/iiif_impresso/IMP-1970-01-21-a-p0012/772,538,3,15/full/0/default.jpg
NEW [863, 1158, 31, 15]
http://dhlabsrv17.epfl.ch/iiif_impresso/IMP-1970-01-21-a-p0012/863,1158,31,15/full/0/default.jpg
IMP-1970-01-21-a-p0002.json
un [421, 565, 15, 17]
http://dhlabsrv17.epfl.ch/iiif_impresso/IMP-1970-01-21-a-p0002/421,565,15,17/full/0/default.jpg
divers [512, 190, 32, 17]
http://dhl

de [2229, 1248, 38, 35]
http://dhlabsrv17.epfl.ch/iiif_impresso/GDL-1972-01-11-a-p0001/2229,1248,38,35/full/0/default.jpg
« [1338, 2273, 19, 35]
http://dhlabsrv17.epfl.ch/iiif_impresso/GDL-1972-01-11-a-p0001/1338,2273,19,35/full/0/default.jpg
/scratch/matteo/images_test/GDL/1830/01/08/a
GDL-1830-01-08-a-p0002.json
hiver [1483, 2437, 82, 37]
http://dhlabsrv17.epfl.ch/iiif_impresso/GDL-1830-01-08-a-p0002/1483,2437,82,37/full/0/default.jpg
souveraineté [320, 462, 207, 37]
http://dhlabsrv17.epfl.ch/iiif_impresso/GDL-1830-01-08-a-p0002/320,462,207,37/full/0/default.jpg
GDL-1830-01-08-a-p0004.json
, [897, 212, 10, 35]
http://dhlabsrv17.epfl.ch/iiif_impresso/GDL-1830-01-08-a-p0004/897,212,10,35/full/0/default.jpg
. [2142, 3677, 8, 28]
http://dhlabsrv17.epfl.ch/iiif_impresso/GDL-1830-01-08-a-p0004/2142,3677,8,28/full/0/default.jpg
GDL-1830-01-08-a-p0003.json
Constance [232, 1147, 168, 37]
http://dhlabsrv17.epfl.ch/iiif_impresso/GDL-1830-01-08-a-p0003/232,1147,168,37/full/0/default.jpg
est [118

is [4596, 2483, 31, 38]
http://dhlabsrv17.epfl.ch/iiif_impresso/GDL-1944-01-15-a-p0002/4596,2483,31,38/full/0/default.jpg
janvier [683, 2054, 131, 44]
http://dhlabsrv17.epfl.ch/iiif_impresso/GDL-1944-01-15-a-p0002/683,2054,131,44/full/0/default.jpg
GDL-1944-01-15-a-p0003.json
ooo [400, 5050, 100, 38]
http://dhlabsrv17.epfl.ch/iiif_impresso/GDL-1944-01-15-a-p0003/400,5050,100,38/full/0/default.jpg
10 [3592, 5946, 33, 33]
http://dhlabsrv17.epfl.ch/iiif_impresso/GDL-1944-01-15-a-p0003/3592,5946,33,33/full/0/default.jpg
/scratch/matteo/images_test/IMP/1956/01/13/a
IMP-1956-01-13-a-p0016.json
cinq [1351, 2077, 33, 24]
http://dhlabsrv17.epfl.ch/iiif_impresso/IMP-1956-01-13-a-p0016/1351,2077,33,24/full/0/default.jpg
Des [1521, 1889, 43, 35]
http://dhlabsrv17.epfl.ch/iiif_impresso/IMP-1956-01-13-a-p0016/1521,1889,43,35/full/0/default.jpg
IMP-1956-01-13-a-p0004.json
Quimellraii [712, 1170, 198, 96]
http://dhlabsrv17.epfl.ch/iiif_impresso/IMP-1956-01-13-a-p0004/712,1170,198,96/full/0/default.jpg

JDG-1950-01-03-a-p0002.json
examiné [623, 1876, 97, 29]
http://dhlabsrv17.epfl.ch/iiif_impresso/JDG-1950-01-03-a-p0002/623,1876,97,29/full/0/default.jpg
Concerto [1498, 1432, 97, 22]
http://dhlabsrv17.epfl.ch/iiif_impresso/JDG-1950-01-03-a-p0002/1498,1432,97,22/full/0/default.jpg
JDG-1950-01-03-a-p0006.json
, [1410, 1577, 7, 28]
http://dhlabsrv17.epfl.ch/iiif_impresso/JDG-1950-01-03-a-p0006/1410,1577,7,28/full/0/default.jpg
principaux [2162, 2189, 125, 26]
http://dhlabsrv17.epfl.ch/iiif_impresso/JDG-1950-01-03-a-p0006/2162,2189,125,26/full/0/default.jpg
JDG-1950-01-03-a-p0004.json
de [414, 1967, 28, 28]
http://dhlabsrv17.epfl.ch/iiif_impresso/JDG-1950-01-03-a-p0004/414,1967,28,28/full/0/default.jpg
des [495, 2238, 37, 26]
http://dhlabsrv17.epfl.ch/iiif_impresso/JDG-1950-01-03-a-p0004/495,2238,37,26/full/0/default.jpg
JDG-1950-01-03-a-p0006.json
. [1150, 3964, 7, 28]
http://dhlabsrv17.epfl.ch/iiif_impresso/JDG-1950-01-03-a-p0006/1150,3964,7,28/full/0/default.jpg
aux [352, 1417, 50, 44]


LBP-1882-01-26-a-p0004.json
sa [975, 454, 13, 18]
http://dhlabsrv17.epfl.ch/iiif_impresso/LBP-1882-01-26-a-p0004/975,454,13,18/full/0/default.jpg
. [634, 257, 4, 22]
http://dhlabsrv17.epfl.ch/iiif_impresso/LBP-1882-01-26-a-p0004/634,257,4,22/full/0/default.jpg
LBP-1882-01-26-a-p0002.json
10 [221, 168, 15, 19]
http://dhlabsrv17.epfl.ch/iiif_impresso/LBP-1882-01-26-a-p0002/221,168,15,19/full/0/default.jpg
de [1033, 511, 14, 19]
http://dhlabsrv17.epfl.ch/iiif_impresso/LBP-1882-01-26-a-p0002/1033,511,14,19/full/0/default.jpg
LBP-1882-01-26-a-p0003.json
plusieurs [814, 1197, 75, 23]
http://dhlabsrv17.epfl.ch/iiif_impresso/LBP-1882-01-26-a-p0003/814,1197,75,23/full/0/default.jpg
une [874, 279, 23, 21]
http://dhlabsrv17.epfl.ch/iiif_impresso/LBP-1882-01-26-a-p0003/874,279,23,21/full/0/default.jpg
LBP-1882-01-26-a-p0003.json
le [177, 916, 11, 21]
http://dhlabsrv17.epfl.ch/iiif_impresso/LBP-1882-01-26-a-p0003/177,916,11,21/full/0/default.jpg
21 [931, 1324, 15, 21]
http://dhlabsrv17.epfl.ch/iiif

LBP-1886-01-16-a-p0004.json
. [1077, 719, 3, 16]
http://dhlabsrv17.epfl.ch/iiif_impresso/LBP-1886-01-16-a-p0004/1077,719,3,16/full/0/default.jpg
IJNWERgBl [929, 658, 134, 36]
http://dhlabsrv17.epfl.ch/iiif_impresso/LBP-1886-01-16-a-p0004/929,658,134,36/full/0/default.jpg
LBP-1886-01-16-a-p0003.json
à [471, 314, 7, 20]
http://dhlabsrv17.epfl.ch/iiif_impresso/LBP-1886-01-16-a-p0003/471,314,7,20/full/0/default.jpg
de [451, 432, 14, 20]
http://dhlabsrv17.epfl.ch/iiif_impresso/LBP-1886-01-16-a-p0003/451,432,14,20/full/0/default.jpg
LBP-1886-01-16-a-p0001.json
obtenir [1043, 1310, 38, 21]
http://dhlabsrv17.epfl.ch/iiif_impresso/LBP-1886-01-16-a-p0001/1043,1310,38,21/full/0/default.jpg
formé [884, 682, 36, 21]
http://dhlabsrv17.epfl.ch/iiif_impresso/LBP-1886-01-16-a-p0001/884,682,36,21/full/0/default.jpg
LBP-1886-01-16-a-p0004.json
y [45, 464, 13, 21]
http://dhlabsrv17.epfl.ch/iiif_impresso/LBP-1886-01-16-a-p0004/45,464,13,21/full/0/default.jpg
pharmacie [313, 859, 65, 21]
http://dhlabsrv17.e

In [2]:
#Image(get_image("GDL-1900-01-02-a-p0001", token.c))

## data acquisition

In [24]:
import json
from impresso_commons.path import *
from text_importer.helpers import get_page_schema

In [21]:
Page = get_page_schema()

In [10]:
issues = detect_canonical_issues('./text_importer/data/out/',"GDL")

In [45]:
pages = []
for issue in issues[:1]:
    page_files = [
        f
        for f in os.listdir(issue.path)
        if "issue" not in f
    ]
    for file in page_files:
        file_path = os.path.join(issue.path, file)
        with open(file_path, 'r') as inp_file:
            json_data = json.load(inp_file)
            pages.append(Page(**json_data))

In [46]:
for region in pages[0].r:
    print("[Part of item {}]".format(region.pOf))
    for paragraph in region.p:
        for line in paragraph.l:
            tokens = [str(token.tx) for token in line.t]
            print(" ".join(tokens))
    print("\n")

[Part of item GDL-1900-01-02-a-i0001]
RÉDACTION
Bat Pépins i
BUREAU D'ABONNEMENTS
Ruelle Si-François , 20-
Oo s'abouno dans tous les bureaux de posta
Les abonnements partent
du i" ou du 15 de chaque m » . *


[Part of item GDL-1900-01-02-a-i0002]
Gazelle de Lausanne


[Part of item GDL-1900-01-02-a-i0002]
ET JOURNAL SUISSE
FONDÉE EN 1798


[Part of item GDL-1900-01-02-a-i0003]
PRIX D'ABONNEMENl
Ul U ( BtÛ I Mit
Strisse Fr . 20 10 50 5 50
Union postale » 36 18 50 9 50
Prix du numéro : 10 centimes .


[Part of item GDL-1900-01-02-a-i0004]
Lausanne , 2 janvier 1900 .
Regards en arrière .


[Part of item GDL-1900-01-02-a-i0004]
Supposez un dessinateur installé au coin
de son feu tandis que la dernière bûche de
l'année s'effondrait bleuâtre entre les che-
nets . Supposez-le cherchant à personnifier
le peuple suisse , comme d'au 1 res ont
évoqué en « oncle Sam » les Yankees , ou ,
en John Bnll , la nation britannique . La
silhouette découlant de la pointe de son
crayon aurait été environ la 

un état satisfaisant . Statuant en janvier sur
un recours de la compagnie du Central et
en juillet sur un recours de la compagnie
du Nord-Est , le Tribunal fédéral a défini ,
sans d'ailleurs déterminer de chiffre précis ,
les notions de « produit net » , de « capital
de premier établissement » et de « état par-
faitement satisfaisant » . On sait que ses ar-
rêts n'ont , sur les points essentiels , pas
modifié les arrêtés du Conseil fédéral con-
tre lesquels les compagnies recouraient .
Reste à savoir si , étant données les condi-
tions du marché financier , le rachat aura
lieu en vertu des concessions . Une tentative
d'entente amiable entre la Confédération et
la compagnie du Central a échoué . Il n'est
pas invraisemblable que les pourparlers
soient repris . Quant à l'organisation des
chemins de fer fédéraux , elle a fait l'objet
de diverses ordonnances . La direction cen-
trale et les directions d'arrondissement se-
ront , dans l'idée du pouvoir fédéral , cons-
tituées dès l'été proch

voir Yvonne garder sa petite mère et de jouir
lui-même des douceurs de l'intimité frater-
nelle .
A un caractère facile , Hubert de Faverolles
joignait une parfaite éducation ; il disait vo-
lontiers des choses aimables et les disait bien .
En l'écoutant , Yvonne , dans l'obscurité du
chemin , recommença à s'essuyer les yeux et ,
à sa façon , Mme de Soyssel sembla s'émouvoir
anssi en répondant :
— Je m'étais faite depuis longtemps à la
Serspeclive de vivre seule . Le repos , c'était
éjà beaucoup pour moi et j'ai peut-être tort
de me laisser entraîner à accepter davantage ...
Elle s'arrêta ; mais cette allusion aux parti-
cularités de son sort était déjà une dérogation
singulière à sa réserve habituelle , moins farou-
che mais peut-être plus impénélrah'e encore
que celle du prince Saliakofï . On eût dit que
cette journée de soleil , de fleurs et de mouve-
ment avait porté d'une façon différente sur les
nerfs de chacun , que cette première poussée de
sève printanière en animant les jeune

leurs voisins , et , pendant plusieurs siècles , on
rencontre partout où l'on se bat — parfois
même dans les deux camps opposés I — ces
professionnels de la guerre , qu'on a essayé ,
aussi sottement qu'injustement , de flétrir du
nom de « mercenaires » , comme si , jusqu'à
une époque très voisine de la nôtre , tous les
soldats ne vendaient pas leur vie pour de l'ar-
gent , et comme si l'allocation d'une solde quel-
conque était exclusive non seulement de l'a
mour du métiei et du courage , mais encore de
la fidélité et de l'abnégation I Ce n'est qu'après
la Révolution que , les guerres devenant plus
essentiellement nationales , on fut forcé de re
cruter presque uniquement la chair à canon
parmi les « nationaux » , et , lorsque la chute
de Napoléon eut définitivement clos l'ère des
grandes Iutte 3 , qui avaient encore fourni aux
Suisses plus d'une occasion de se signaler , ils
ne trouvèrent plus à s'employer activement
que dans quelques rares pays ( la France jus-
qu'à 1830 , le royaume 