In [1]:
# This reload library is just used for developing the REPUBLIC hOCR parser 
# and can be removed once this module is stable.
%reload_ext autoreload
%autoreload 2


# This is needed to add the repo dir to the path so jupyter
# can load the republic modules directly from the notebooks
import os
import sys
repo_name = 'republic-project'
repo_dir = os.path.split(os.getcwd())[0].split(repo_name)[0] + repo_name
print(repo_dir)
if repo_dir not in sys.path:
    sys.path.append(repo_dir)



/Users/marijnkoolen/Code/Huygens/republic-project


In [2]:
import pickle

lbd_model_file = "../../data/models/line_break_detector-18th_century.pcl"

with open(lbd_model_file, 'rb') as fh:
    lbd = pickle.load(fh)

In [4]:
import glob

from republic.elastic.republic_elasticsearch import initialize_es
from republic.helper.paragraph_helper import LineBreakDetector
from republic.helper.paragraph_helper import LineReader
import republic.helper.paragraph_helper as para_helper
from republic.helper.text_helper import SkipgramSimilarity

rep_es = initialize_es(host_type='external', timeout=60)


In [26]:

page_line_files = glob.glob("../../data/pages/page_lines-*-*.tsv.gz")
page_line_files


line_reader = LineReader(page_line_files)

for line in line_reader:
    print(line)
    break



reading lines from file ../../data/pages/page_lines-3760-3771.tsv.gz
{'page_id': 'NL-HaNA_1.01.02_3760_0671-page-1340', 'text': 'Ontfangen een Missivé van den Raedt van'}


In [4]:
line = "zelfs plaatse als Secretaris van gemelde Stad"
line = "van de Provincie van Hollandt eude West-Vries-"
para_helper.get_line_words(line)

['van', 'de', 'Provincie', 'van', 'Hollandt', 'eude', 'West-Vries-']

In [5]:

lbd = LineBreakDetector()

In [6]:
line_reader = LineReader(page_line_files)

lbd.set_counters(line_reader)


Step 1: setting unigram counters
reading lines from file ../../data/pages/page_lines-3760-3771.tsv.gz
reading lines from file ../../data/pages/page_lines-3820-3864.tsv.gz
reading lines from file ../../data/pages/page_lines-3772-3804.tsv.gz
reading lines from file ../../data/pages/page_lines-3805-3819.tsv.gz
10474363 lines processed	all:   756920 types	71226602 tokens
Step 2: setting bigram counter
reading lines from file ../../data/pages/page_lines-3760-3771.tsv.gz
reading lines from file ../../data/pages/page_lines-3820-3864.tsv.gz
reading lines from file ../../data/pages/page_lines-3772-3804.tsv.gz
reading lines from file ../../data/pages/page_lines-3805-3819.tsv.gz
10474363 lines processed	all: 1910172 bigrams
Step 3: setting common merge counters
reading lines from file ../../data/pages/page_lines-3760-3771.tsv.gz
reading lines from file ../../data/pages/page_lines-3820-3864.tsv.gz
reading lines from file ../../data/pages/page_lines-3772-3804.tsv.gz
reading lines from file ../../da

In [3]:
lbd.print_counter_stats()

number of lines: 10474363
number of words per line: 6.800089131911888
all:            756920 types	  71226602 tokens
start:          265194 types	  10474363 tokens
mid:            493624 types	  50342776 tokens
end:            227425 types	  10474363 tokens
mid bigrams:   1910172 types	  29860123 tokens
Number of typical merge line ends: 2655
Number of typical merge line starts: 2279
Number of common merge line ends: 78
Number of common merge line starts: 158


In [8]:
# List the most frequent line end words

for word, e_freq in lbd.end_freq.most_common(20):
    m_freq = lbd.mid_freq[word] if word in lbd.mid_freq else 0
    s_freq = lbd.start_freq[word] if word in lbd.start_freq else 0
    print(f'{word: <25}{e_freq: >8}{s_freq: >8}{m_freq: >8}')

.                         1019297    1586  501975
,                          687483    1033 5183286
van                        353798  370326 2828652
de                         269861  322478 2152357
ge-                        201061      46      33
en                         180748  161049 1374021
den                        159798  298440 1198203
te                         143302  114030 1169242
het                        113323   96030  825700
ver-                        82943      12      10
in                          81430   69803  753855
dat                         80346   85380  760148
haar                        78997   60179  470501
voor-                       75282      11      44
Hoogh                       62937   57944  294690
Heere                       62136   12332  110696
aan                         55863   48844  425044
ende                        54798   46779  340398
Requeste                    53496   17139  108015
op                          52671  101897  552875


## Finding Typical Start and End Line Words

Some words almost exclusively appear as the first or last word of a line. Some of these are special cases, like 'ONtfangen', which always occurs at the start of a resolution base on a received Missive. In that case, the word is not a continuation of the word broken of on the previous line. But first words that are often continuations can be detected by looking at which broken off words they continue and how often their combination occurs. 

The same applies to last words of a line. The word 'gevallen' often ends a resolution that has no decision, so is not continued on the next line. 

Using their distinctive statistical characteristics, we sorted typical start and end line words into:
- t**ypical continuation words**: words that always go together with the last word on the previous line to form an existing word. These words should be considered for merging.
- **non-continuation words**: exceptions like 'ONtfangen' that start a paragraph, that should not be considered for merging.
- **typical broken off words**: words that always go together with the first word on the next line to form an existing word. These words should be considered for merging.
- **non-broken off words**: exceptions like 'gevallen' that end a paragraph, that should not be considered for merging.


In [9]:
lbd.typical_start_merged_with["len-"]

Counter({('geval-', 'gevallen'): 113,
         ('oordee-', 'oordeelen'): 2,
         ('Principa-', 'Principalen'): 3,
         ('geval', 'gevallen'): 1,
         ('stel-', 'stellen'): 3,
         ('geyal-', 'geyallen'): 1,
         ('zey-', 'zeylen'): 1,
         ('al-', 'allen'): 1,
         ('verval-', 'vervallen'): 1,
         ('betaa-', 'betaalen'): 6,
         ('sul-', 'sullen'): 1,
         ('Moo-', 'Moolen'): 1,
         ('uitstel-', 'uitstellen'): 1,
         ('voorval-', 'voorvallen'): 1,
         ('val-', 'vallen'): 2,
         ('inval-', 'invallen'): 1,
         ('Mo-', 'Molen'): 1,
         ('voorgeval-', 'voorgevallen'): 1,
         ('Meubi-', 'Meubilen'): 1})

In [10]:
first_word = "len-"
for last_word, merged_word in lbd.typical_start_merged_with[first_word]:
    print(f"{first_word}\t{lbd.mid_freq[first_word]}\t{last_word: <15}\t{lbd.mid_freq[last_word]}\t{lbd.typical_start_merged_with[first_word][(last_word, merged_word)]}\t{merged_word: <20}\t{lbd.mid_freq[merged_word]}")
    

len-	0	geval-         	0	113	gevallen            	88832
len-	0	oordee-        	0	2	oordeelen           	9993
len-	0	Principa-      	0	3	Principalen         	4175
len-	0	geval          	8853	1	gevallen            	88832
len-	0	stel-          	0	3	stellen             	23338
len-	0	geyal-         	0	1	geyallen            	25
len-	0	zey-           	0	1	zeylen              	880
len-	0	al-            	12	1	allen               	5849
len-	0	verval-        	0	1	vervallen           	2762
len-	0	betaa-         	0	6	betaalen            	8379
len-	0	sul-           	2	1	sullen              	55424
len-	0	Moo-           	0	1	Moolen              	242
len-	0	uitstel-       	0	1	uitstellen          	107
len-	0	voorval-       	0	1	voorvallen          	499
len-	0	val-           	0	2	vallen              	3216
len-	0	inval-         	0	1	invallen            	333
len-	0	Mo-            	3	1	Molen               	157
len-	0	voorgeval-     	0	1	voorgevallen        	1393
len-	0	Meubi-         	0	1	Meubilen         

In [11]:
lbd.typical_end_merged_with["tijdt-"]

Counter({('versuym', 'tijdtversuym'): 6, ('verlies', 'tijdtverlies'): 1})

In [12]:
last_word = "tijdt-"
for first_word, merged_word in lbd.typical_end_merged_with[last_word]:
    print(f"{last_word}\t{lbd.mid_freq[last_word]: <15}\t{first_word}\t{lbd.mid_freq[first_word]}\t{lbd.typical_end_merged_with[last_word][(first_word, merged_word)]}\t{merged_word: <20}\t{lbd.mid_freq[merged_word]}")
    

tijdt-	0              	versuym	280	6	tijdtversuym        	54
tijdt-	0              	verlies	1065	1	tijdtverlies        	14


In [13]:
list(lbd.typical_merge_starts)[:10]

['dikant',
 'tricht',
 'litaire',
 'staen',
 'mineeren',
 'thorisatie',
 'soecken',
 'to',
 'res',
 'tannien']

In [14]:
list(lbd.typical_non_merge_starts)[:10]

['Eindelyk',
 '1732',
 'Koomen',
 'Tjassens',
 '150',
 'ONtifangen',
 'Gockinga',
 'Ouwerkerck',
 'DONtfangen',
 'Onder']

In [15]:
first_word = "teerde"
for last_word, merged_word in lbd.typical_start_merged_with[first_word]:
    print(f"{first_word}\t{lbd.mid_freq[first_word]}\t{last_word: <20}\t{lbd.mid_freq[last_word]}\t{lbd.typical_start_merged_with[first_word][(last_word, merged_word)]}\t{merged_word: <20}\t{lbd.mid_freq[merged_word]}")
    

teerde	28	gepermit-           	0	395	gepermitteerde      	3018
teerde	28	Gedepu-             	1	2127	Gedeputeerde        	20881
teerde	28	ver-                	10	2	verteerde           	13
teerde	28	gerappor-           	0	107	gerapporteerde      	1859
teerde	28	Gecommit-           	0	390	Gecommitteerde      	2818
teerde	28	geëxecu-            	0	3	geëxecuteerde       	32
teerde	28	gepermit            	27	1	gepermitteerde      	3018
teerde	28	gepresen-           	0	28	gepresenteerde      	212
teerde	28	gecontrac-          	0	9	gecontracteerde     	33
teerde	28	gedecre-            	0	6	gedecreteerde       	46
teerde	28	presen-             	0	8	presenteerde        	77
teerde	28	compe-              	0	66	competeerde         	407
teerde	28	geaccep-            	0	20	geaccepteerde       	139
teerde	28	difficul-           	0	16	difficulteerde      	55
teerde	28	spec-               	0	3	specteerde          	25
teerde	28	permit-             	0	5	permitteerde        	86
teerde	28	ongepermit-      

## Finding other common line break words

Words like 'de' often are the continuation of a line break word.

In [16]:
lbd.common_start_merged_with['had']

Counter({('ge-', 'gehad'): 659,
         (':', 'had'): 1,
         ('ge', 'gehad'): 2,
         ('voor-', 'voorhad'): 1,
         ('in', 'inhad'): 2,
         ('inge-', 'ingehad'): 3})

In [17]:
lbd.common_start_merged_with['dus']

Counter({('Arnol-', 'Arnoldus'): 36,
         ('Al-', 'Aldus'): 19,
         ('Everhar-', 'Everhardus'): 2,
         ('al-', 'aldus'): 38,
         ('Ferdinan-', 'Ferdinandus'): 15,
         ('Everar-', 'Everardus'): 7,
         ('preten-', 'pretendus'): 2,
         ('Rappar-', 'Rappardus'): 2,
         ('Godefri-', 'Godefridus'): 18,
         ('per-', 'perdus'): 1,
         ('Sigismun-', 'Sigismundus'): 3,
         ('Syno-', 'Synodus'): 7,
         ('Leonar-', 'Leonardus'): 13,
         ('Gerar-', 'Gerardus'): 16,
         ('Bernar-', 'Bernardus'): 37,
         ('Gerhar-', 'Gerhardus'): 3,
         ('Zelan-', 'Zelandus'): 3,
         ('Elar-', 'Elardus'): 1,
         ('Gudwal-', 'Gudwaldus'): 2,
         ('Godesri-', 'Godesridus'): 1,
         ('Edmun-', 'Edmundus'): 2,
         ('Wynan-', 'Wynandus'): 2,
         ('Richar-', 'Richardus'): 6,
         ('Conrar-', 'Conrardus'): 1,
         ('Meynar-', 'Meynardus'): 1,
         ('Wigbol-', 'Wigboldus'): 2,
         ('repan-', 'repandus'

In [19]:
import pickle

lbd_model_file = "../../data/models/line_break_detector-18th_century.pcl"

with open(lbd_model_file, 'wb') as fh:
    pickle.dump(lbd, fh)

## An algorithm for deciding to merge or not

This notebook was used to develop the line break detection algorithm, by iteratively parsing lines and determining whether there is a line break linking a line to its successor. As rules are added that decide merge or not, the algorithm outputs the line end and line start words and potential merge. That way, rules are eyeballed for mistakes.

To avoid developing the rules for a specific subset of the lines (e.g. because the lines are fed in the same order, starting with the same inventory each time), the line reader should randomise the order of the inventory files.

In [149]:
import glob
import re
import random

data_dir = "../../data/pages"

data_files = glob.glob(f"{data_dir}/page_lines-*.tsv.gz")
# remove any files that contain multiple inventory numbers
data_files = [data_file for data_file in data_files if re.search("page_lines-\d{4}.tsv.gz", data_file)]
# sort in order of inventory number
data_files = sorted(data_files)
# map data files to dictionary with inventory number as key
line_file_map = {}
for data_file in data_files:
    inv_num = int(data_file.split('page_lines-')[-1].replace('.tsv.gz', ''))
    line_file_map[inv_num] = data_file


In [29]:
from republic.helper.metadata_helper import doc_id_to_iiif_url
prev_line = None
for li, line in enumerate(line_reader):
    if prev_line and prev_line["text"].endswith('--'):
        print(li-1, prev_line["text"], '\t', prev_line["page_id"])
        print(doc_id_to_iiif_url(prev_line["page_id"]))
        print(li, line["text"])
        print(para_helper.get_line_words(prev_line["text"]))
        print()
    prev_line = line
    if (li+1) % 50000 == 0:
        break

reading lines from file ../../data/pages/page_lines-3760-3771.tsv.gz
6791 sal werden geconsenteert, sullende het selve be-- 	 NL-HaNA_1.01.02_3760_0130-page-259
https://images.diginfra.net/iiif/NL-HaNA_1.01.02/3760/NL-HaNA_1.01.02_3760_0130.jpg/2400,0,2500,3500/full/0/default.jpg
6792 staen uyt acht kloecke Schepen van Oorlogh,
['sal', 'werden', 'geconsenteert', ',', 'sullende', 'het', 'selve', 'be-']

8052 Hoogh Mogende hem als dan met eenen or-- 	 NL-HaNA_1.01.02_3760_0644-page-1287
https://images.diginfra.net/iiif/NL-HaNA_1.01.02/3760/NL-HaNA_1.01.02_3760_0644.jpg/2400,0,2500,3500/full/0/default.jpg
8053 donneerden het Commando van het Guarni-
['Hoogh', 'Mogende', 'hem', 'als', 'dan', 'met', 'eenen', 'or-']

11434 mogen werden. Waer op gedelibereerdt zijn-- 	 NL-HaNA_1.01.02_3760_0264-page-527
https://images.diginfra.net/iiif/NL-HaNA_1.01.02/3760/NL-HaNA_1.01.02_3760_0264.jpg/2400,0,2500,3500/full/0/default.jpg
11435 de, is goedtgevonden ende verstaen, dat de
['mogen', 'werden', '.'

In [197]:
lbd.common_non_merge_starts

{'&',
 '15',
 '18',
 '25',
 'Acte',
 'Admiraliteit',
 'Advis',
 'Amsterdam',
 'April',
 'Articul',
 'Berlyn',
 'Bout',
 'Breda',
 'Brieven',
 'C',
 'Capiteyn',
 'Collegie',
 'Collonel',
 'Commissarissen',
 'Commissie',
 'Committé',
 'Compagnie',
 'Compagnien',
 'Comptoir',
 'Consul',
 'DD',
 'DE',
 'EE',
 'Edele',
 'Extract',
 'Fagel',
 'Gelderland',
 'Generaal',
 'Goederen',
 'Gouverneur',
 'Graave',
 'Grave',
 'Groot',
 'Groot-Brittannien',
 'Haer',
 'Hage',
 'Ham',
 'Heer',
 'Heere',
 'Heim',
 'Hertogh',
 'Hof',
 'Holland',
 'Hollandt',
 'Hoog',
 'Hoorn',
 'IS',
 'Jan',
 'Johan',
 'July',
 'Koning',
 'Koningh',
 'Koopman',
 'Lande',
 'Landen',
 'Lands',
 'Landt',
 'Lynden',
 'Maaze',
 'Major',
 'Mandament',
 'Memorie',
 'Minister',
 'Mog',
 'Ontfanger',
 'Orange',
 'Ordonnantie',
 'Pasporten',
 'Penningen',
 'Persoonen',
 'Petitie',
 'Plaatsen',
 'Placaat',
 'Prince',
 'Provincien',
 'Puissances',
 'Raad',
 'Raaden',
 'Raadt',
 'Raedt',
 'Rapport',
 'Regiment',
 'Register',
 'Renswo

In [243]:
from republic.helper.metadata_helper import doc_id_to_iiif_url

common_terms = [term for term in lbd.mid_freq if lbd.mid_freq[term] > 100]
print(len(common_terms))
skip_sim = SkipgramSimilarity(ngram_length=2, terms=common_terms)

page_line_files = []
for _ in range(30):
    inv_num = random.randint(3760, 3864)
    if line_file_map[inv_num] not in page_line_files:
        page_line_files.append(line_file_map[inv_num])
        
page_line_files

line_reader = LineReader(page_line_files)


prev_words = []
match_count = 0
prev_line = None
no_merge_count = 0
merge_count = 0
unknown = 0

for li, curr_line in enumerate(line_reader):
    curr_words = para_helper.get_line_words(curr_line["text"])
    #print(curr_words)
    terms = get_line_words(curr_line["text"])
    do_merge, use_merge = para_helper.determine_line_break(lbd, curr_words, prev_words, skip_sim)
    if do_merge is True:
        merge_count += 1
    elif do_merge is False:
        no_merge_count += 1
    else:
        unknown += 1
    if (li+1) % 10000 == 0:
        print(li+1, merge_count, 'merges', no_merge_count, 'non-merges', unknown, 'undecided')
    prev_words = curr_words
    prev_line = curr_line
    if (li+1) % 500000 == 0:
        break
    continue


13393
reading lines from file ../../data/pages/page_lines-3846.tsv.gz
hehoonlyke            0       1	decentie             19     113     144	hehoonlykedecentie       0
1e                   65     259	embruilleeren         1       0       1	1eembruilleeren       0
uittersten          244      20	misnoegt              4      10      14	uitterstenmisnoegt       0
et                  141      33	gedeeltelyk          58     409     513	etgedeeltelyk         0
1650                 39      10	gesloten             87     600     786	1650gesloten          0
jamais              482      73	permettre            29     129     171	jamaispermettre       0
chetchera             0       1	toujours             96     549     736	chetcheratoujours       0
sien-                 0      70	genasseert            1       3       5	siengenasseert        0
Vrugten             175      20	onbruikbaar           9      50      66	Vrugtenonbruikbaar       0
sterk               336      70	toenamen              7

indirect            453      65	belarg                1       1       4	indirectbelarg        0
Mcg                  15      14	sia                  11      20      35	Mcgsia                0
soodamge              3       1	maalr                 1       0       1	soodamgemaalr         0
gesogte              13       3	quaestien            13      70      93	gesogtequaestien       0
deff                  1       1	sterken              17      56      82	deffsterken           0
preetensie-           0       4	maakten              22     103     137	preetensiemaakten       0
uitsluitende          1       1	bevoegtheid          12     106     131	uitsluitendebevoegtheid       0
wordem                8      69	toegelegd            43     257     361	wordemtoegelegd       0
ongewoon             35       6	teeken               87     303     446	ongewoonteeken        0
anderë                0       4	gezoute              15      56      78	anderëgezoute         0
titull                0      

malkander           113      13	grensende            29     113     153	malkandergrensende       0
Betig-                0       2	tse                   4       7      15	Betigtse              0
hoogstdeselven-       0       1	personeelyk           6      10      18	hoogstdeselvenpersoneelyk       0
Otto                694      96	willem               11      11      89	Ottowillem            0
schreeuwende         25       8	beswaaren            63     465     620	schreeuwendebeswaaren       0
voordeele           657      97	ezpresselyk           1       1       2	voordeeleezpresselyk       0
lde-                  0       7	selvel                2       5       7	ldeselvel             0
weesendlyke-          0       1	reproches             5      62      75	weesendlykereproches       0
peremptoire         135      16	faiten               30     220     272	peremptoirefaiten       0
confessie           111      12	brengt               32      48     105	confessiebrengt       0
volgendet

reis                449      64	geschikte            26     116     164	reisgeschikte         0
Cabbottagie           0       1	vaarende            136     516     732	Cabbottagievaarende       0
tevens              718     115	wisten               75     486     623	tevenswisten          0
Kameren             730      66	commoniceeren         1       0       2	Kamerencommoniceeren       0
Confes-               0       5	digne                31      46      91	Confesdigne           0
den-                 40     587	147                   9       5      15	den147                0
besloote            206      27	hegtenis              8      57      74	beslootehegtenis       0
engagement          350      59	hidde                 6      19      27	engagementhidde       0
sentiment           560      96	pretenselyk          28     157     207	sentimentpretenselyk       0
Russen               84      16	geanimeert            8      74      92	Russengeanimeert       0
bestencig-            0 

onderneemingen      205      34	aanleiding           80     402     534	onderneemingenaanleiding       0
bez                   6      16	denken              158     290     509	bezdenken             0
soortgelyke         598      72	onaangenaamheeden      24      78     117	soortgelykeonaangenaamheeden       0
afte                 11       4	danken               61     123     214	aftedanken            0
Weeskameren         200     202	see                  12      45      97	Weeskamerensee        0
verschillende       277      45	begrippen            19     122     156	verschillendebegrippen       0
driemaal            235      34	tierschouten         31       1      32	driemaaltierschouten       0
geloof-               0      21	waardigheid          13      40      64	geloofwaardigheid       0
gedeponeerde         15       6	ietwes               56     407     508	gedeponeerdeietwes       0
bevreest            177      33	gem-ikt               1       0       1	bevreestgem-ikt       0

Peuitie              10       5	specteerende        146     590     854	Peuitiespecteerende       0
onderlingh          109      16	vastgestelde         39     226     295	onderlinghvastgestelde       0
Wildschut            17       3	geconjungeert         4      14      20	Wildschutgeconjungeert       0
lossingh            391      44	versuymt             30     163     219	lossinghversuymt       0
abusive             304      47	voorgeevingen         1       9      11	abusivevoorgeevingen       0
Wet                 621     107	sondigende            1       2       3	Wetsondigende         0
vôtre               137      18	avantage             30     292     362	vôtreavantage         0
frendre               0       1	congé                12      40      57	frendrecongé          0
avouë                 1       1	naturellement         8      26      37	avouënaturellement       0
cclatante             0       1	preuve               56     344     461	cclatantepreuve       0
bonne        

doux                 13       4	effets               28     218     281	douxeffets            0
muraille              0       1	restans               1       8      10	muraillerestans       0
desselss            424      81	importantie         101     563     744	desselssimportantie       0
gesloote            179      27	vree                  2       3       5	geslootevree          0
Beyersche           186      29	auxiliaire           56     244     356	Beyerscheauxiliaire       0
quatriéme           162      19	quart                42     283     362	quatriémequart        0
doii                  0       1	renouveller          19     125     163	doiirenouveller       0
Bian-                 0       3	deler                26     104     152	Biandeler             0
trouwen             217      47	beswangert            4      17      25	trouwenbeswangert       0
notoir              687      68	blyckt               43     349     448	notoirblyckt          0
Mans                298      6

Douane              301      38	soutenus              1       5       9	Douanesoutenus        0
quarante            409      49	neus                 34       9      86	quaranteneus          0
raadsaam            175      30	oordeelde            45     353     445	raadsaamoordeelde       0
wietd                 2       1	gesabriceert          1       1       3	wietdgesabriceert       0
genoeghsaame        269      46	ondergangh           16     105     133	genoeghsaameondergangh       0
swaar               479      93	verdrukte             1       2       5	swaarverdrukte        0
welcker             395      42	welvaart             46     251     340	welckerwelvaart       0
gevoeiige             0       1	smert                 6      44      58	gevoeiigesmert        0
Fluys                 1       1	converseerende        1       2       3	Fluysconverseerende       0
desquels             26       5	lesdits              47     263     346	desquelslesdits       0
Enschedé              1  

fit                 241      23	revoquer              4      29      35	fitrevoquer           0
Droit                89      16	incontestable        16      94     118	Droitincontestable       0
mulle                 9       5	reponse              43     320     398	mullereponse          0
fattoit               0       1	toûjours             28     203     262	fattoittoûjours       0
subyistent            0       1	actuellement         27     168     228	subyistentactuellement       0
Les                 223      37	moyens               50     236     352	Lesmoyens             0
69                  172      44	tretensions           1       0       1	69tretensions         0
pourroit            409      48	alierer               1       0       1	pourroitalierer       0
toujours            549      92	dessein              20     188     231	toujoursdessein       0
ouds                633     105	geschiede           137     639     939	oudsgeschiede         0
quatriéme           162      1

Erve                204      30	verstrooyt            5      11      19	Erveverstrooyt        0
blyve               321      55	recruteeren           4      36      45	blyverecruteeren       0
Chambrier           205      57	geleyd               21     120     158	Chambriergeleyd       0
Blaarthem            53      14	wyftien              31      20      51	Blaarthemwyftien       0
seditieuse           15       1	beweegingen          19      87     122	seditieusebeweegingen       0
Ysland              101      16	vaarende            136     516     732	Yslandvaarende        0
vice                518      90	wersa                 5       0       6	vicewersa             0
reading lines from file ../../data/pages/page_lines-3806.tsv.gz
Forin-                0       1	za                   38      40      87	Forinza               0
quovis               16       4	alio                  2       5       9	quovisalio            0
convenable-           0       9	inkomste             11      43 

Waater              701      92	exactelijck          79     502     621	Waaterexactelijck       0
selvigen              8       1	jaurs                 2       5      10	selvigenjaurs         0
eem                  24     153	soort               126     698     932	eemsoort              0
efficacicuse         10       2	maatregulen         125     484     678	efficacicusemaatregulen       0
ern-.                 0       0	stighste             96       0      96	ern-.stighste         0
copielijk           466      52	vvergenoomen          4       7      13	copielijkvvergenoomen       0
Lont                 58      17	gedeeltelijk          9      86     105	Lontgedeeltelijk       0
gedeeltelijck        61       1	verbrand             15     102     146	gedeeltelijckverbrand       0
inet                149      16	scherpe              27      99     147	inetscherpe           0
bedraagen           640     155	bonderd              12      67      90	bedraagenbonderd       0
Normanos        

nom                 528      87	mumeratae             1       0       1	nommumeratae          0
Principauté          77       8	jouissoient           1       2       3	Principautéjouissoient       0
là                  274      63	permission           20     148     199	làpermission          0
Soussigné           652      57	chargé               81     494     643	Soussignéchargé       0
Steval                0       1	confronteeren         7      14      25	Stevalconfronteeren       0
hooghstenm            0       1	sensibel             14      66      84	hooghstenmsensibel       0
onwettige           146      29	onderneeminge        24      99     140	onwettigeonderneeminge       0
Batavia             432      61	sou                  67     466     623	Bataviasou            0
continueese           2       1	stercken             25      42      74	continueesestercken       0
myn                 203      41	vermelde             43     243     326	mynvermelde           0
transitoire    

Ferin-                0       4	za                   38      40      87	Ferinza               0
230000 71610 merges 157231 non-merges 1159 undecided
geem                  1      57	geneegentheyd        16      91     128	geemgeneegentheyd       0
aanvangh            559      79	pneemende             1       0       1	aanvanghpneemende       0
allodiaale           41       5	aangekoghte           2       6      10	allodiaaleaangekoghte       0
Werninck              4       3	kraght               55     264     362	Werninckkraght        0
1e                   65     259	stellin               3       2       5	1estellin             0
ryckelijcken          0       1	tax                  10      71      94	ryckelijckentax       0
casa                  3       2	quo                  50     482     609	casaquo               0
afscheyds             5       4	audientien            5      38      50	afscheydsaudientien       0
yemand              420      74	exemtie              20      57      

IE                   30     113	bmnen                 5      14      19	IEbmnen               0
gedesidereerde       12       2	ontlastingen         12      62      85	gedesidereerdeontlastingen       0
soogenaamde         528      78	styydende             1       0       1	soogenaamdestyydende       0
zet-                  0      44	reegel                8      26      39	zetreegel             0
innerlijke            3       1	constitutie         107     621     799	innerlijkeconstitutie       0
konnende            399      62	bedaght              43     268     351	konnendebedaght       0
moer                 24      36	ingeright             8      69      90	moeringeright         0
XNWAXR                0       1	ap                   17      56     103	XNWAXRap              0
pienitudine           7       1	potestatis           31     228     289	pienitudinepotestatis       0
Vicehoogh-            0      17	schoot               28     144     197	Vicehooghschoot       0
Gewesten    

ayent               237      25	donné               132     571     758	ayentdonné            0
vôtre               137      18	amitié               37     546     645	vôtreamitié           0
sterfgeval           69      13	geluckigh            49     191     280	sterfgevalgeluckigh       0
Guarnisoens          83      15	verwisselinge        32     142     194	Guarnisoensverwisselinge       0
éenemaale             0       1	strydigh            144     768     993	éenemaalestrydigh       0
incluys             637     151	opgemaackt           37     178     258	incluysopgemaackt       0
sustenuen           247      41	voorquaamen          17      37      61	sustenuenvoorquaamen       0
versoeekende        248      50	gebenificeert         6      51      70	versoeekendegebenificeert       0
justice             733     100	plustôt               3      22      27	justiceplustôt        0
reading lines from file ../../data/pages/page_lines-3764.tsv.gz
Gewesten            357      79	aenkomen

sijns               126      20	bedunckens            4      12      17	sijnsbedunckens       0
swevende             79       7	geschillen           31     205     279	swevendegeschillen       0
daerenboven         466      72	dagelijks            65     660     816	daerenbovendagelijks       0
eygendom            566      81	toebehoorden         13      67     101	eygendomtoebehoorden       0
gemaeckte           230      26	overslagh             9      65      79	gemaeckteoverslagh       0
Broeck              580     200	geteyckent           17      79     118	Broeckgeteyckent       0
jus                 249      38	prasidi               1       0       1	jusprasidi            0
verlegentheyt       138      30	baerde                2       4       6	verlegentheytbaerde       0
wederzydtsche       107      10	uytwisselinge        27     178     220	wederzydtscheuytwisselinge       0
Pacquetten           95       9	beneden              41     310     380	Pacquettenbeneden       0
partic

afgeleydt           215      94	heefst               26     258     348	afgeleydtheefst       0
gering              309      45	aental               10      47      60	geringaental          0
alleenlijck         704      82	gereflecteert        23     113     163	alleenlijckgereflecteert       0
elkanders            28       6	gerief               35     231     296	elkandersgerief       0
Concordaten          48       9	geprescribeert       10      44      73	Concordatengeprescribeert       0
Juni                153     129	jonghitleden          6      35      49	Junijonghitleden       0
provisionelijclk       0       1	toegestaen           50     362     480	provisionelijclktoegestaen       0
Anhale                0       1	verley                4      14      19	Anhaleverley          0
praetense           146      14	verhef                2      27      34	praetenseverhef       0
vondt               546      83	gegraveert           23     140     207	vondtgegraveert       0
320000 1

Banck               331      43	noyt                103     657     864	Bancknoyt             0
noyt                657     104	gehoorde             52      56     120	noytgehoorde          0
mede-Broeders         0       1	barmhertelijck        1       0       1	mede-Broedersbarmhertelijck       0
Valckenburg          16       9	nochmael             60     409     509	Valckenburgnochmael       0
pure                137      17	nieuwigheyt          21     100     138	purenieuwigheyt       0
24a                   0       1	2000                 44      69     132	24a2000               0
40                  266     104	2000                 44      69     132	402000                0
1300                  5      11	6700                  3       0       3	13006700              0
aerlijcks             0       1	170040                0       0       0	aerlijcks170040       0
expedienten          73      12	uytgevonden          23     224     287	expedientenuytgevonden       0
Dantsick         

Zegel               587     159	belanght             42     336     424	Zegelbelanght         0
peuvent             371      39	tirer                27     112     148	peuventtirer          0
laissé               83       9	libre                51     433     537	laissélibre           0
feroit               69      10	trouver              40     225     294	feroittrouver         0
Rhijn               105      16	geremplaceert        29     169     245	Rhijngeremplaceert       0
veneratione           0       1	qua                  45     285     386	venerationequa        0
Rhe-                  0      62	das                  57     120     187	Rhedas                0
provinciam            0       1	hanc                  2      26      29	provinciamhanc        0
suscepisse            0       1	declaraverat          1       0       1	suscepissedeclaraverat       0
depo-                 0      22	sita                  1       7       8	deposita              0
vecturis              0       

fermes               12       3	geschiedende         20     139     181	fermesgeschiedende       0
380000 122035 merges 256125 non-merges 1840 undecided
mede-Erfge-           0       1	niem                  3       6       9	mede-Erfgeniem        0
ongele-               0      31	geheven              98     609     791	ongelegeheven         0
opsichte-             0      19	rekeningh            93     479     646	opsichterekeningh       0
liquidi-              0      13	afkortinge            4      15      20	liquidiafkortinge       0
gefingeert           12       3	praetext             70     525     647	gefingeertpraetext       0
persone-              0      21	ijck                  6      15      23	personeijck           0
ongelast            523      66	vondt               152     546     778	ongelastvondt         0
veertigh-             2     192	balen                20     123     152	veertighbalen         0
deede               269      56	executeren           51     333     457	

goeden              601      91	uytkomste             8      26      39	goedenuytkomste       0
Montures             45      10	perdues               2       4       6	Monturesperdues       0
Novembre            380      77	1709                 58      75     637	Novembre1709          0
inlandtsche          44       8	vette                55     267     368	inlandtschevette       0
passés               29       4	quelques            100     645     825	passésquelques        0
Staet-                0      58	gespeelt              3      20      26	Staetgespeelt         0
Parlement           465      64	lichten              95     471     757	Parlementlichten       0
voordeele           657      97	alleenlijck         110     704     896	voordeelealleenlijck       0
deniers             375      79	suivant              47     392     486	denierssuivant        0
latende             508      67	waeyen                3       5      12	latendewaeyen         0
noodigen             33       8	t

vigeur              253      42	herstelt             78     517     685	vigeurherstelt        0
sousigncs             0       1	authorisés            4      26      31	sousigncsauthorisés       0
Fevrier             393      75	prochain             17      78     113	Fevrierprochain       0
trouvent            263      49	déja                 47     303     387	trouventdéja          0
irreparable-          0       2	ongelegentheden       3      19      25	irreparableongelegentheden       0
tydt-                 0     105	benoemde             19     149     197	tydtbenoemde          0
appellé              45       3	lHercule              1       0       1	appellélHercule       0
deja                335      28	faite                88     635     800	dejafaite             0
specie              403      55	rijcksdaelders      127     613     819	specierijcksdaelders       0
campagne            161      30	passée               30     200     255	campagnepassée        0
assifter            

Savat                17       1	desonaengesien        1       5       7	Savatdesonaengesien       0
gesustineerde       407      68	diesaengaende         4      46      57	gesustineerdediesaengaende       0
ladite              457      44	demande              79     563     739	laditedemande         0
decidé               39       6	quels                86     296     420	decidéquels           0
pretensions         193      24	fondées               8      57      73	pretensionsfondées       0
plaintes            427      57	souvent              16     143     182	plaintessouvent       0
peuvent             371      39	porter               87     345     470	peuventporter         0
drost                15       1	commun               20     143     187	drostcommun           0
desdits             179      30	comptes               7      48      64	desditscomptes        0
ans                 283      47	consecutifs           1       8       9	ansconsecutifs        0
pire                  

hare-                 1       3	domesticque          17      97     123	haredomesticque       0
geweldighlijck        6       2	overgevoert          11      52      76	geweldighlijckovergevoert       0
remarquable          12       4	actien               57     241     333	remarquableactien       0
450000 146708 merges 301079 non-merges 2213 undecided
gyselinge           216      24	ontslaen             56     433     560	gyselingeontslaen       0
Wateren             329      44	gaven               160     734     989	Waterengaven          0
wederzydts          431      58	ingenomene            5      36      49	wederzydtsingenomene       0
afzijn               13       1	bedacht              17     141     182	afzijnbedacht         0
toereyckent          22       5	antwoort             98     694     866	toereyckentantwoort       0
geledene            132      25	schaden              88     533     691	geledeneschaden       0
alrede               93       7	jonger               18    

Amies                16       4	desirent              3      11      15	Amiesdesirent         0
expedier            131      25	ulterieurement        4      25      36	expedierulterieurement       0
Passepurt             0       1	necessaire           58     362     488	Passepurtnecessaire       0
Tonneau               8       1	rempli                6      28      35	Tonneaurempli         0
gehecle              58      13	queestieuse           6      24      36	geheclequeestieuse       0
huine                 5       5	betoonde             17      92     137	huinebetoonde         0
Gouve-                0       1	e-                   11      21     653	Gouvee-               0
intormee-             0       1	rem                  34      35      80	intormeerem           0
Week-                17      12	blad                  4       8      14	Weekblad              0
zullende-             0      48	opgekogt             14      74     106	zullendeopgekogt       0
preetext             73  

geem                  1      57	mindere              74     418     563	geemmindere           0
etait                 8       2	amical                2       1       3	etaitamical           0
croyait               0       1	pouvoir             117     610     823	croyaitpouvoir        0
Proclamatien        137      14	voortgang            69     300     427	Proclamatienvoortgang       0
nillioen             28       1	vyfmaal              27     152     214	nillioenvyfmaal       0
strafwaardige        10       5	misdaad              42     208     298	strafwaardigemisdaad       0
Noorder-             11      96	avons                18     164     208	Noorderavons          0
possage               0       1	dlune                 3       4       9	possagedlune          0
présenter            32       2	ci-joint             11      82     116	présenterci-joint       0
llanken               0       1	waarschynelyk        15     105     131	llankenwaarschynelyk       0
Capitulation        10

Doore                 0       1	logtige               2       0       2	Doorelogtige          0
Eede                383      65	gelterkt              1       0       1	Eedegelterkt          0
onbegrypelyk         20       4	voorkomt            129     538     752	onbegrypelykvoorkomt       0
minst               249      38	kostbaar             46     205     271	minstkostbaar         0
Werf                165      34	vorderden            11      42      63	Werfvorderden         0
490000 158389 merges 329104 non-merges 2507 undecided
abuis                88      17	veroorzaakt          44     221     321	abuisveroorzaakt       0
Kerkenraad          761      94	telkens             106     655     867	Kerkenraadtelkens       0
Vaandrig             86      28	4l5ergeanten          1       0       1	Vaandrig4l5ergeanten       0
277                   2       5	113                  23      12      39	277113                0
113                  12      23	36                  159     295     5

## Common contractions

The common merge ends and starts reveal typical contractions of common words like:
- `Requestevan`
- `Missivevan`

In [218]:
lbd.common_end_merged_with['Requeste']

Counter({('van', 'Requestevan'): 45232,
         ('-', 'Requeste'): 2,
         ('l', 'Requestel'): 1})

In [390]:
mid_bigram_freq[('Missive', 'van')]

157693

## Testing the line break detector on paragraph generation from sessions

The 5th resolution (17th paragraph) of the 1705-02-20 resolutions has the following lines:

<pre>
Op de Requeste van den Collonel de la
Cost de Crose, onder het Regiment Dragon-
ders van Walef, is naer voorgaende deliberatie
goedtgevonden ende verstaen, dat een Pasport-
in behoorlijcke forma sal werden gedepescheert,
om vyftien Paerden naer Sluys in Vlaende-
ren te mogen uytvoeren, vry, ende sonder
betalinge van 's Lands gerechtigheyt, mits dat het
jaer, hayr en teken van de voorschreve Paerden
op het eerste Comptoir op het Pasport sal moeten
werden aengetekent.
</pre>

A previous version of line break detection led to the following paragraph:

<pre>
Op de Requeste van den Collonel de la Cost de Crose, onder het Regiment Dragonders van Walef, is naer voorgaende deliberatie goedtgevonden ende verstaen, dat een Pasportin behoorlijcke forma sal werden gedepescheert, om vyftien Paerden naer Sluys in Vlaenderen te mogen uytvoeren, vry, ende sonder betalinge van 's Lands gerechtigheyt, mits dat het jaer, hayr en teken van de voorschreve Paerden op het eerste Comptoir op het Pasport sal moeten werden aengetekent.
</pre>

The word `Pasport` is stuck to the next word `in`.

The new version leads to this:

<pre>
Op de Requeste van den Collonel de la Cost de Crose, onder het Regiment Dragonders van Walef, is naer voorgaende deliberatie goedtgevonden ende verstaen, dat een Pasport - in behoorlijcke forma sal werden gedepescheert, om vyftien Paerden naer Sluys in Vlaenderen te mogen uytvoeren, vry, ende sonder betalinge van 's Lands gerechtigheyt, mits dat het jaer, hayr en teken van de voorschreve Paerden op het eerste Comptoir op het Pasport sal moeten werden aengetekent.
</pre>

In [68]:
session_date = "1705-02-20"
session = rep_es.retrieve_session_by_date(session_date, session_index="session_lines")
session.id

'session-1705-02-20-num-1'

In [53]:
#compare_paragraphs(session)

session-1705-02-20-num-1-para-1
session-1705-02-20-num-1-para-2
session-1705-02-20-num-1-para-3
session-1705-02-20-num-1-para-4
session-1705-02-20-num-1-para-5
session-1705-02-20-num-1-para-6
---------------
DIFFERENCE
---------------
Heemskerck , de Lange, van Hoey, Raedt-
---------------
Heemskerck , de Lange, van Hoey, Raedt
---------------



session-1705-02-20-num-1-para-7
session-1705-02-20-num-1-para-8
---------------
DIFFERENCE
---------------
Wellant, Renswoude, met een Extraordi-
---------------
Wellant, Renswoude, met een Extraordi
---------------



session-1705-02-20-num-1-para-9
session-1705-02-20-num-1-para-10
session-1705-02-20-num-1-para-11
session-1705-02-20-num-1-para-12
session-1705-02-20-num-1-para-13
---------------
DIFFERENCE
---------------
Ontfangen een Missive van den Heere van Haersolte, haer Hoogh Mogende extraordinaris Envoyé aen de Hoven van de Koningen van Sweeden ende Poolen, geschreven tot Danzicht den rr. deser loopende maendt, houdende advertentie. Wa