-
Notifications
You must be signed in to change notification settings - Fork 0
/
list_of_errors_by_ngrams_and_models.py
185 lines (175 loc) · 51.3 KB
/
list_of_errors_by_ngrams_and_models.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
#!/usr/local/bin/python
#-*- coding: utf-8 -*-
#List of errors from the test sets pages
#Set Other
#Letter 607 Page 3
correct_transcription = ["tranquillité", "Tout", "XXX", "tances", "de", "base", "Chamvres", "barricades", "brusquement", "Députés", "hensible", "rellement", "mécontentement", "bizarre", "exploitée", "partisans", "Grand", "Poincariste", "Clémenciste", "bénéfice"]
model_war = ["tranquilaité", "Lout", "EXX", "", "ss", "pase", "", "parricades", "brusquenent", "péputés", "nensible", "relloment", "mécontentenent", "bigarre", "", "parisans", "Crand", "poincariste", "", "pénéfice"]
model_other = ["tranquimlité", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", ""]
model_gt = ["tranquilbité", "", "", "ttances", "qa", "", "cham/res", "", "", "", "", "", "", "", "explottée", "", "", "", "Clémençiste", ""]
tetragrams_correct_transcription = ['tran', 'quil', 'lité']['Tout']['XXX']['tanc', 'es']['de']['base']['Cham', 'vres']['barr', 'icad', 'es']['brus', 'quem', 'ent']['Dépu', 'tés']['hens', 'ible']['rell', 'emen', 't']['méco', 'nten', 'teme', 'nt']['biza', 'rre']['expl', 'oité', 'e']['part', 'isan', 's']['Gran', 'd']['Poin', 'cari', 'ste']['Clém', 'enci', 'ste']['béné', 'fice']
trigrams_correct_transcription = ['tra', 'nqu', 'ill', 'ité']['Tou', 't']['XXX']['tan', 'ces']['de']['bas', 'e']['Cha', 'mvr', 'es']['bar', 'ric', 'ade', 's']['bru', 'squ', 'eme', 'nt']['Dép', 'uté', 's']['hen', 'sib', 'le']['rel', 'lem', 'ent']['méc', 'ont', 'ent', 'eme', 'nt']['biz', 'arr', 'e']['exp', 'loi', 'tée']['par', 'tis', 'ans']['Gra', 'nd']['Poi', 'nca', 'ris', 'te']['Clé', 'men', 'cis', 'te']['bén', 'éfi', 'ce']
bigrams_correct_transcription = ['tr', 'an', 'qu', 'il', 'li', 'té']['To', 'ut']['XX', 'X']['ta', 'nc', 'es']['de']['ba', 'se']['Ch', 'am', 'vr', 'es']['ba', 'rr', 'ic', 'ad', 'es']['br', 'us', 'qu', 'em', 'en', 't']['Dé', 'pu', 'té', 's']['he', 'ns', 'ib', 'le']['re', 'll', 'em', 'en', 't']['mé', 'co', 'nt', 'en', 'te', 'me', 'nt']['bi', 'za', 'rr', 'e']['ex', 'pl', 'oi', 'té', 'e']['pa', 'rt', 'is', 'an', 's']['Gr', 'an', 'd']['Po', 'in', 'ca', 'ri', 'st', 'e']['Cl', 'ém', 'en', 'ci', 'st', 'e']['bé', 'né', 'fi', 'ce']
tetragrams_model_war = ['tran', 'quil', 'aité']['Lout']['EXX'][]['ss']['pase'][]['parr', 'icad', 'es']['brus', 'quen', 'ent']['pépu', 'tés']['nens', 'ible']['rell', 'omen', 't']['méco', 'nten', 'tene', 'nt']['biga', 'rre'][]['pari', 'sans']['Cran', 'd']['poin', 'cari', 'ste'][]['péné', 'fice']
trigrams_model_war = ['tra', 'nqu', 'ila', 'ité']['Lou', 't']['EXX'][]['ss']['pas', 'e'][]['par', 'ric', 'ade', 's']['bru', 'squ', 'ene', 'nt']['pép', 'uté', 's']['nen', 'sib', 'le']['rel', 'lom', 'ent']['méc', 'ont', 'ent', 'ene', 'nt']['big', 'arr', 'e'][]['par', 'isa', 'ns']['Cra', 'nd']['poi', 'nca', 'ris', 'te'][]['pén', 'éfi', 'ce']
bigrams_model_war = ['tr', 'an', 'qu', 'il', 'ai', 'té']['Lo', 'ut']['EX', 'X'][]['ss']['pa', 'se'][]['pa', 'rr', 'ic', 'ad', 'es']['br', 'us', 'qu', 'en', 'en', 't']['pé', 'pu', 'té', 's']['ne', 'ns', 'ib', 'le']['re', 'll', 'om', 'en', 't']['mé', 'co', 'nt', 'en', 'te', 'ne', 'nt']['bi', 'ga', 'rr', 'e'][]['pa', 'ri', 'sa', 'ns']['Cr', 'an', 'd']['po', 'in', 'ca', 'ri', 'st', 'e'][]['pé', 'né', 'fi', 'ce']
tetragrams_model_other = ['tran', 'quim', 'lité'][][][][][][][][][][][][][][][][][][][]
trigrams_model_other = ['tra', 'nqu', 'iml', 'ité'][][][][][][][][][][][][][][][][][][][]
bigrams_model_other = ['tr', 'an', 'qu', 'im', 'li', 'té'][][][][][][][][][][][][][][][][][][][]
tetragrams_model_gt = ['tran', 'quil', 'bité'][][]['ttan', 'ces']['qa'][]['cham', '/res'][][][][][][][]['expl', 'otté', 'e'][][][]['Clém', 'ençi', 'ste'][]
trigrams_model_gt = ['tra', 'nqu', 'ilb', 'ité'][][]['tta', 'nce', 's']['qa'][]['cha', 'm/r', 'es'][][][][][][][]['exp', 'lot', 'tée'][][][]['Clé', 'men', 'çis', 'te'][]
bigrams_model_gt = ['tr', 'an', 'qu', 'il', 'bi', 'té'][][]['tt', 'an', 'ce', 's']['qa'][]['ch', 'am', '/r', 'es'][][][][][][][]['ex', 'pl', 'ot', 'té', 'e'][][][]['Cl', 'ém', 'en', 'çi', 'st', 'e'][]
#Letter 607 Page 17
correct_transcription = ["circulaire", "accusant", "chacun", "condamnation", "manifestement", "Restait", "ici", "bonheur", "succès", "Que", "tôt", "souhaitaient", "titre", "parler", "Septem", "Octobre", "Moi", "dois", "monde", "reconnaît", "ceux", "mêmes", "garder", "premier", "carrière", "fils", "Bolo", "ces", "Messieurs", "fui", "Mais", "fallu", "Répondre", "infâmante", "Un", "débat", "fût", "préféré", "yeux", "beau", "rôle"]
model_war = ["ciroulaire", "accusaut", "Chaoun", "Condamnation", "maniestement", "Bestait", "joi", "bonpeur", "sucès", "que", "tdt", "sounaitaient", "titfe", "Parler", "septen", "octobre", "Noi", "cois", "nonde", "reconnatt", "Ceux", "mênes", "Parde", "prenten", "carrisre", "fila", "", "Ces", "sessieurs", "rui", "sais", "failu", "hépondre", "infêmante", "In", "dépat", "ôt", "préréré", "veux", "neau", "pôle"]
model_other = ["", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "reconnatt", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", ""]
model_gt = ["", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "octobre", "", "", "", "", "", "", "parde", "", "", "", "Rolo", "", "", "", "", "fall", "", "infamante", "", "", "", "", "", "", ""]
tetragrams_correct_transcription = ['circ', 'ulai', 're']['accu', 'sant']['chac', 'un']['cond', 'amna', 'tion']['mani', 'fest', 'emen', 't']['Rest', 'ait']['ici']['bonh', 'eur']['succ', 'ès']['Que']['tôt']['souh', 'aita', 'ient']['titr', 'e']['parl', 'er']['Sept', 'em']['Octo', 'bre']['Moi']['dois']['mond', 'e']['reco', 'nnaî', 't']['ceux']['même', 's']['gard', 'er']['prem', 'ier']['carr', 'ière']['fils']['Bolo']['ces']['Mess', 'ieur', 's']['fui']['Mais']['fall', 'u']['Répo', 'ndre']['infâ', 'mant', 'e']['Un']['déba', 't']['fût']['préf', 'éré']['yeux']['beau']['rôle']
trigrams_correct_transcription = ['cir', 'cul', 'air', 'e']['acc', 'usa', 'nt']['cha', 'cun']['con', 'dam', 'nat', 'ion']['man', 'ife', 'ste', 'men', 't']['Res', 'tai', 't']['ici']['bon', 'heu', 'r']['suc', 'cès']['Que']['tôt']['sou', 'hai', 'tai', 'ent']['tit', 're']['par', 'ler']['Sep', 'tem']['Oct', 'obr', 'e']['Moi']['doi', 's']['mon', 'de']['rec', 'onn', 'aît']['ceu', 'x']['mêm', 'es']['gar', 'der']['pre', 'mie', 'r']['car', 'riè', 're']['fil', 's']['Bol', 'o']['ces']['Mes', 'sie', 'urs']['fui']['Mai', 's']['fal', 'lu']['Rép', 'ond', 're']['inf', 'âma', 'nte']['Un']['déb', 'at']['fût']['pré', 'fér', 'é']['yeu', 'x']['bea', 'u']['rôl', 'e']
bigrams_correct_transcription = ['ci', 'rc', 'ul', 'ai', 're']['ac', 'cu', 'sa', 'nt']['ch', 'ac', 'un']['co', 'nd', 'am', 'na', 'ti', 'on']['ma', 'ni', 'fe', 'st', 'em', 'en', 't']['Re', 'st', 'ai', 't']['ic', 'i']['bo', 'nh', 'eu', 'r']['su', 'cc', 'ès']['Qu', 'e']['tô', 't']['so', 'uh', 'ai', 'ta', 'ie', 'nt']['ti', 'tr', 'e']['pa', 'rl', 'er']['Se', 'pt', 'em']['Oc', 'to', 'br', 'e']['Mo', 'i']['do', 'is']['mo', 'nd', 'e']['re', 'co', 'nn', 'aî', 't']['ce', 'ux']['mê', 'me', 's']['ga', 'rd', 'er']['pr', 'em', 'ie', 'r']['ca', 'rr', 'iè', 're']['fi', 'ls']['Bo', 'lo']['ce', 's']['Me', 'ss', 'ie', 'ur', 's']['fu', 'i']['Ma', 'is']['fa', 'll', 'u']['Ré', 'po', 'nd', 're']['in', 'fâ', 'ma', 'nt', 'e']['Un']['dé', 'ba', 't']['fû', 't']['pr', 'éf', 'ér', 'é']['ye', 'ux']['be', 'au']['rô', 'le']
tetragrams_model_other = [][][][][][][][][][][][][][][][][][][]['reco', 'nnat', 't'][][][][][][][][][][][][][][][][][][][][][]
trigrams_model_other = [][][][][][][][][][][][][][][][][][][]['rec', 'onn', 'att'][][][][][][][][][][][][][][][][][][][][][]
bigrams_model_other = [][][][][][][][][][][][][][][][][][][]['re', 'co', 'nn', 'at', 't'][][][][][][][][][][][][][][][][][][][][][]
tetragrams_model_war = ['ciro', 'ulai', 're']['accu', 'saut']['Chao', 'un']['Cond', 'amna', 'tion']['mani', 'este', 'ment']['Best', 'ait']['joi']['bonp', 'eur']['sucè', 's']['que']['tdt']['soun', 'aita', 'ient']['titf', 'e']['Parl', 'er']['sept', 'en']['octo', 'bre']['Noi']['cois']['nond', 'e']['reco', 'nnat', 't']['Ceux']['mêne', 's']['Pard', 'e']['pren', 'ten']['carr', 'isre']['fila'][]['Ces']['sess', 'ieur', 's']['rui']['sais']['fail', 'u']['hépo', 'ndre']['infê', 'mant', 'e']['In']['dépa', 't']['ôt']['prér', 'éré']['veux']['neau']['pôle']
trigrams_model_war = ['cir', 'oul', 'air', 'e']['acc', 'usa', 'ut']['Cha', 'oun']['Con', 'dam', 'nat', 'ion']['man', 'ies', 'tem', 'ent']['Bes', 'tai', 't']['joi']['bon', 'peu', 'r']['suc', 'ès']['que']['tdt']['sou', 'nai', 'tai', 'ent']['tit', 'fe']['Par', 'ler']['sep', 'ten']['oct', 'obr', 'e']['Noi']['coi', 's']['non', 'de']['rec', 'onn', 'att']['Ceu', 'x']['mên', 'es']['Par', 'de']['pre', 'nte', 'n']['car', 'ris', 're']['fil', 'a'][]['Ces']['ses', 'sie', 'urs']['rui']['sai', 's']['fai', 'lu']['hép', 'ond', 're']['inf', 'êma', 'nte']['In']['dép', 'at']['ôt']['pré', 'rér', 'é']['veu', 'x']['nea', 'u']['pôl', 'e']
bigrams_model_war = ['ci', 'ro', 'ul', 'ai', 're']['ac', 'cu', 'sa', 'ut']['Ch', 'ao', 'un']['Co', 'nd', 'am', 'na', 'ti', 'on']['ma', 'ni', 'es', 'te', 'me', 'nt']['Be', 'st', 'ai', 't']['jo', 'i']['bo', 'np', 'eu', 'r']['su', 'cè', 's']['qu', 'e']['td', 't']['so', 'un', 'ai', 'ta', 'ie', 'nt']['ti', 'tf', 'e']['Pa', 'rl', 'er']['se', 'pt', 'en']['oc', 'to', 'br', 'e']['No', 'i']['co', 'is']['no', 'nd', 'e']['re', 'co', 'nn', 'at', 't']['Ce', 'ux']['mê', 'ne', 's']['Pa', 'rd', 'e']['pr', 'en', 'te', 'n']['ca', 'rr', 'is', 're']['fi', 'la'][]['Ce', 's']['se', 'ss', 'ie', 'ur', 's']['ru', 'i']['sa', 'is']['fa', 'il', 'u']['hé', 'po', 'nd', 're']['in', 'fê', 'ma', 'nt', 'e']['In']['dé', 'pa', 't']['ôt']['pr', 'ér', 'ér', 'é']['ve', 'ux']['ne', 'au']['pô', 'le']
tetragrams_model_gt = [][][][][][][][][][][][][][][]['octo', 'bre'][][][][][][]['pard', 'e'][][][]['Rolo'][][][][]['fall'][]['infa', 'mant', 'e'][][][][][][][]
trigrams_model_gt = [][][][][][][][][][][][][][][]['oct', 'obr', 'e'][][][][][][]['par', 'de'][][][]['Rol', 'o'][][][][]['fal', 'l'][]['inf', 'ama', 'nte'][][][][][][][]
bigrams_model_gt = [][][][][][][][][][][][][][][]['oc', 'to', 'br', 'e'][][][][][][]['pa', 'rd', 'e'][][][]['Ro', 'lo'][][][][]['fa', 'll'][]['in', 'fa', 'ma', 'nt', 'e'][][][][][][][]
#Letter 722 Page 1
correct_transcription = ["PARIS", "Novembre", "MISS", "MARGARET", "ALEXANDER", "PARIS", "cher", "nouveau", "Albanie", "où", "Croix", "Rouge", "américaine", "pensez", "dû", "jeunesse", "faut", "et", "Je", "recommande", "isolée", "Miss", "Alexander", "descendue", "Pierre", "nous", "accueillons", "sommes", "notre", "bureau", "foyer", "modeste", "harmonie", "Haskell", "Murray"]
model_war = ["PARIô", "Noyembre", "MIôS", "MandenNr", "ALETespRR", "PaRl", "", "nouvebu", "Alaunie", "ou", "Cryix", "mouge", "", "pamsez", "dù", "jounesse", "fut", "e", "de", "Locommande", "jsclée", "Nis", "Aloxander", "descenque", "Lierre", "pous", "acusillons", "sonmes", "", "hureau", "loyer", "mojeste", "harmouie", "Mastell", "Muvray"]
model_other = ["", "", "", "", "ALEWANDER", "PAuIC", "chef", "", "", "", "croix", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", ""]
model_gt = ["", "", "", "MARCARET", "", "", "", "", "", "", "", "", "américains", "", "", "", "", "", "", "", "", "", "", "descenque", "", "", "", "", "hotre", "", "Jover", "", "", "", ""]
tetragrams_correct_transcription = ['PARI', 'S']['Nove', 'mbre']['MISS']['MARG', 'ARET']['ALEX', 'ANDE', 'R']['PARI', 'S']['cher']['nouv', 'eau']['Alba', 'nie']['où']['Croi', 'x']['Roug', 'e']['amér', 'icai', 'ne']['pens', 'ez']['dû']['jeun', 'esse']['faut']['et']['Je']['reco', 'mman', 'de']['isol', 'ée']['Miss']['Alex', 'ande', 'r']['desc', 'endu', 'e']['Pier', 're']['nous']['accu', 'eill', 'ons']['somm', 'es']['notr', 'e']['bure', 'au']['foye', 'r']['mode', 'ste']['harm', 'onie']['Hask', 'ell']['Murr', 'ay']
trigrams_correct_transcription = ['PAR', 'IS']['Nov', 'emb', 're']['MIS', 'S']['MAR', 'GAR', 'ET']['ALE', 'XAN', 'DER']['PAR', 'IS']['che', 'r']['nou', 'vea', 'u']['Alb', 'ani', 'e']['où']['Cro', 'ix']['Rou', 'ge']['amé', 'ric', 'ain', 'e']['pen', 'sez']['dû']['jeu', 'nes', 'se']['fau', 't']['et']['Je']['rec', 'omm', 'and', 'e']['iso', 'lée']['Mis', 's']['Ale', 'xan', 'der']['des', 'cen', 'due']['Pie', 'rre']['nou', 's']['acc', 'uei', 'llo', 'ns']['som', 'mes']['not', 're']['bur', 'eau']['foy', 'er']['mod', 'est', 'e']['har', 'mon', 'ie']['Has', 'kel', 'l']['Mur', 'ray']
bigrams_correct_transcription = ['PA', 'RI', 'S']['No', 've', 'mb', 're']['MI', 'SS']['MA', 'RG', 'AR', 'ET']['AL', 'EX', 'AN', 'DE', 'R']['PA', 'RI', 'S']['ch', 'er']['no', 'uv', 'ea', 'u']['Al', 'ba', 'ni', 'e']['où']['Cr', 'oi', 'x']['Ro', 'ug', 'e']['am', 'ér', 'ic', 'ai', 'ne']['pe', 'ns', 'ez']['dû']['je', 'un', 'es', 'se']['fa', 'ut']['et']['Je']['re', 'co', 'mm', 'an', 'de']['is', 'ol', 'ée']['Mi', 'ss']['Al', 'ex', 'an', 'de', 'r']['de', 'sc', 'en', 'du', 'e']['Pi', 'er', 're']['no', 'us']['ac', 'cu', 'ei', 'll', 'on', 's']['so', 'mm', 'es']['no', 'tr', 'e']['bu', 're', 'au']['fo', 'ye', 'r']['mo', 'de', 'st', 'e']['ha', 'rm', 'on', 'ie']['Ha', 'sk', 'el', 'l']['Mu', 'rr', 'ay']
tetragrams_model_other = [][][][]['ALEW', 'ANDE', 'R']['PAuI', 'C']['chef'][][][]['croi', 'x'][][][][][][][][][][][][][][][][][][][][][][][][]
trigrams_model_other = [][][][]['ALE', 'WAN', 'DER']['PAu', 'IC']['che', 'f'][][][]['cro', 'ix'][][][][][][][][][][][][][][][][][][][][][][][][]
bigrams_model_other = [][][][]['AL', 'EW', 'AN', 'DE', 'R']['PA', 'uI', 'C']['ch', 'ef'][][][]['cr', 'oi', 'x'][][][][][][][][][][][][][][][][][][][][][][][][]
tetragrams_model_war = ['PARI', 'ô']['Noye', 'mbre']['MIôS']['Mand', 'enNr']['ALET', 'espR', 'R']['PaRl'][]['nouv', 'ebu']['Alau', 'nie']['ou']['Cryi', 'x']['moug', 'e'][]['pams', 'ez']['dù']['joun', 'esse']['fut']['e']['de']['Loco', 'mman', 'de']['jscl', 'ée']['Nis']['Alox', 'ande', 'r']['desc', 'enqu', 'e']['Lier', 're']['pous']['acus', 'illo', 'ns']['sonm', 'es'][]['hure', 'au']['loye', 'r']['moje', 'ste']['harm', 'ouie']['Mast', 'ell']['Muvr', 'ay']
trigrams_model_war = ['PAR', 'Iô']['Noy', 'emb', 're']['MIô', 'S']['Man', 'den', 'Nr']['ALE', 'Tes', 'pRR']['PaR', 'l'][]['nou', 'veb', 'u']['Ala', 'uni', 'e']['ou']['Cry', 'ix']['mou', 'ge'][]['pam', 'sez']['dù']['jou', 'nes', 'se']['fut']['e']['de']['Loc', 'omm', 'and', 'e']['jsc', 'lée']['Nis']['Alo', 'xan', 'der']['des', 'cen', 'que']['Lie', 'rre']['pou', 's']['acu', 'sil', 'lon', 's']['son', 'mes'][]['hur', 'eau']['loy', 'er']['moj', 'est', 'e']['har', 'mou', 'ie']['Mas', 'tel', 'l']['Muv', 'ray']
bigrams_model_war = ['PA', 'RI', 'ô']['No', 'ye', 'mb', 're']['MI', 'ôS']['Ma', 'nd', 'en', 'Nr']['AL', 'ET', 'es', 'pR', 'R']['Pa', 'Rl'][]['no', 'uv', 'eb', 'u']['Al', 'au', 'ni', 'e']['ou']['Cr', 'yi', 'x']['mo', 'ug', 'e'][]['pa', 'ms', 'ez']['dù']['jo', 'un', 'es', 'se']['fu', 't']['e']['de']['Lo', 'co', 'mm', 'an', 'de']['js', 'cl', 'ée']['Ni', 's']['Al', 'ox', 'an', 'de', 'r']['de', 'sc', 'en', 'qu', 'e']['Li', 'er', 're']['po', 'us']['ac', 'us', 'il', 'lo', 'ns']['so', 'nm', 'es'][]['hu', 're', 'au']['lo', 'ye', 'r']['mo', 'je', 'st', 'e']['ha', 'rm', 'ou', 'ie']['Ma', 'st', 'el', 'l']['Mu', 'vr', 'ay']
tetragrams_model_gt = [][][]['MARC', 'ARET'][][][][][][][][]['amér', 'icai', 'ns'][][][][][][][][][][]['desc', 'enqu', 'e'][][][][]['hotr', 'e'][]['Jove', 'r'][][][][]
trigrams_model_gt = [][][]['MAR', 'CAR', 'ET'][][][][][][][][]['amé', 'ric', 'ain', 's'][][][][][][][][][][]['des', 'cen', 'que'][][][][]['hot', 're'][]['Jov', 'er'][][][][]
bigrams_model_gt = [][][]['MA', 'RC', 'AR', 'ET'][][][][][][][][]['am', 'ér', 'ic', 'ai', 'ns'][][][][][][][][][][]['de', 'sc', 'en', 'qu', 'e'][][][][]['ho', 'tr', 'e'][]['Jo', 've', 'r'][][][][]
#Letter 1170 Page 3
correct_transcription = ["Mais", "aspirations", "géné", "humaine", "ainsi", "çais", "soumis", "Seine", "Montagne", "Sainte", "Rien", "Quoi", "donc", "sans", "faveur", "chrétiennes", "Orient", "su", "Islam", "sang", "par", "a", "Son", "inaperçu", "agitation", "éphémères", "commises", "toujours", "conserve"]
model_war = ["bais", "ashirations", "séné", "pumaine", "sinsi", "Cais", "sonmis", "seine", "Hontagne", "aainte", "hien", "coi", "dondt", "ans", "", "chrétienes", "crient", "au", "felas", "sans", "Ber", "s", "son", "insperdu", "asitation", "Cphémères", "comises", "toujons", "couserve"]
model_other = ["", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", ""]
model_gt = ["", "", "", "", "", "", "", "", "", "", "", "Cooi", "", "", "fuveur", "", "orient", "", "Islan/Islam", "", "", "", "", "inaperqu", "", "éphénères", "", "toujorrs", ""]
tetragrams_correct_transcription = ['Mais']['aspi', 'rati', 'ons']['géné']['huma', 'ine']['ains', 'i']['çais']['soum', 'is']['Sein', 'e']['Mont', 'agne']['Sain', 'te']['Rien']['Quoi']['donc']['sans']['fave', 'ur']['chré', 'tien', 'nes']['Orie', 'nt']['su']['Isla', 'm']['sang']['par']['a']['Son']['inap', 'erçu']['agit', 'atio', 'n']['éphé', 'mère', 's']['comm', 'ises']['touj', 'ours']['cons', 'erve']
trigrams_correct_transcription = ['Mai', 's']['asp', 'ira', 'tio', 'ns']['gén', 'é']['hum', 'ain', 'e']['ain', 'si']['çai', 's']['sou', 'mis']['Sei', 'ne']['Mon', 'tag', 'ne']['Sai', 'nte']['Rie', 'n']['Quo', 'i']['don', 'c']['san', 's']['fav', 'eur']['chr', 'éti', 'enn', 'es']['Ori', 'ent']['su']['Isl', 'am']['san', 'g']['par']['a']['Son']['ina', 'per', 'çu']['agi', 'tat', 'ion']['éph', 'émè', 'res']['com', 'mis', 'es']['tou', 'jou', 'rs']['con', 'ser', 've']
bigrams_correct_transcription = ['Ma', 'is']['as', 'pi', 'ra', 'ti', 'on', 's']['gé', 'né']['hu', 'ma', 'in', 'e']['ai', 'ns', 'i']['ça', 'is']['so', 'um', 'is']['Se', 'in', 'e']['Mo', 'nt', 'ag', 'ne']['Sa', 'in', 'te']['Ri', 'en']['Qu', 'oi']['do', 'nc']['sa', 'ns']['fa', 've', 'ur']['ch', 'ré', 'ti', 'en', 'ne', 's']['Or', 'ie', 'nt']['su']['Is', 'la', 'm']['sa', 'ng']['pa', 'r']['a']['So', 'n']['in', 'ap', 'er', 'çu']['ag', 'it', 'at', 'io', 'n']['ép', 'hé', 'mè', 're', 's']['co', 'mm', 'is', 'es']['to', 'uj', 'ou', 'rs']['co', 'ns', 'er', 've']
tetragrams_model_other = [][][][][][][][][][][][][][][][][][][][][][][][][][][][][]
trigrams_model_other = [][][][][][][][][][][][][][][][][][][][][][][][][][][][][]
bigrams_model_other = [][][][][][][][][][][][][][][][][][][][][][][][][][][][][]
tetragrams_model_war = ['bais']['ashi', 'rati', 'ons']['séné']['puma', 'ine']['sins', 'i']['Cais']['sonm', 'is']['sein', 'e']['Hont', 'agne']['aain', 'te']['hien']['coi']['dond', 't']['ans'][]['chré', 'tien', 'es']['crie', 'nt']['au']['fela', 's']['sans']['Ber']['s']['son']['insp', 'erdu']['asit', 'atio', 'n']['Cphé', 'mère', 's']['comi', 'ses']['touj', 'ons']['cous', 'erve']
trigrams_model_war = ['bai', 's']['ash', 'ira', 'tio', 'ns']['sén', 'é']['pum', 'ain', 'e']['sin', 'si']['Cai', 's']['son', 'mis']['sei', 'ne']['Hon', 'tag', 'ne']['aai', 'nte']['hie', 'n']['coi']['don', 'dt']['ans'][]['chr', 'éti', 'ene', 's']['cri', 'ent']['au']['fel', 'as']['san', 's']['Ber']['s']['son']['ins', 'per', 'du']['asi', 'tat', 'ion']['Cph', 'émè', 'res']['com', 'ise', 's']['tou', 'jon', 's']['cou', 'ser', 've']
bigrams_model_war = ['ba', 'is']['as', 'hi', 'ra', 'ti', 'on', 's']['sé', 'né']['pu', 'ma', 'in', 'e']['si', 'ns', 'i']['Ca', 'is']['so', 'nm', 'is']['se', 'in', 'e']['Ho', 'nt', 'ag', 'ne']['aa', 'in', 'te']['hi', 'en']['co', 'i']['do', 'nd', 't']['an', 's'][]['ch', 'ré', 'ti', 'en', 'es']['cr', 'ie', 'nt']['au']['fe', 'la', 's']['sa', 'ns']['Be', 'r']['s']['so', 'n']['in', 'sp', 'er', 'du']['as', 'it', 'at', 'io', 'n']['Cp', 'hé', 'mè', 're', 's']['co', 'mi', 'se', 's']['to', 'uj', 'on', 's']['co', 'us', 'er', 've']
tetragrams_model_gt = [][][][][][][][][][][]['Cooi'][][]['fuve', 'ur'][]['orie', 'nt'][]['Isla', 'n/Is', 'lam'][][][][]['inap', 'erqu'][]['éphé', 'nère', 's'][]['touj', 'orrs'][]
trigrams_model_gt = [][][][][][][][][][][]['Coo', 'i'][][]['fuv', 'eur'][]['ori', 'ent'][]['Isl', 'an/', 'Isl', 'am'][][][][]['ina', 'per', 'qu'][]['éph', 'énè', 'res'][]['tou', 'jor', 'rs'][]
bigrams_model_gt = [][][][][][][][][][][]['Co', 'oi'][][]['fu', 've', 'ur'][]['or', 'ie', 'nt'][]['Is', 'la', 'n/', 'Is', 'la', 'm'][][][][]['in', 'ap', 'er', 'qu'][]['ép', 'hé', 'nè', 're', 's'][]['to', 'uj', 'or', 'rs'][]
#Letter 1358 Page 4
correct_transcription = ["Murray", "Sénateur", "ESTOURNELLES", "CONSTANT", "Baron", "ADELSWARD", "Recteur", "APPELL", "SHOTWELL", "SANGRO", "OLANO", "Professeur", "REDLICH", "Hellmuth", "GERLACH", "Professeur", "FOERSTER", "Professeur", "GIDE", "EFREMOFF", "Député", "Justin", "GODART", "Sénateur", "LA", "FONTAINE", "Professeur", "Henri", "LICHTENBERGER", "LEJEUNE", "Représentant", "Albert", "THOMAS", "NIPPOLD", "JAUDON", "CONVERSET", "ESTOURNELLES", "CONSTANT", "Professeur", "Th", "RUYSSEN", "Professeur", "PRUDHOMMEAUX", "DANDIEU"]
model_war = ["Muray", "sénatour", "RsfdURLIEs", "CoNaIAN", "Maron", "ADELSyARD", "Becteur", "ApLNIT", "SHCTNPII", "SANCh0", "CIA440", "professeur", "BETLION", "Mellmuth", "GERLACN", "prcfesseur", "FOFRCTRR", "professeur", "GILR", "NENEMOTT", "péputé", "Dustin", "dopAR", "sénateur", "La", "FoNLAIRR", "Frofesseur", "Benri", "LIONTERERdER", "LETEUEE", "Beprésentant", "Alhert", "Lacns", "NIPPGLR", "TANDON", "CoNvERSET", "EsfouRETIES", "CoRsTANT", "Frofesseur", "lh", "BUTSsRN", "Profeseur", "PRpRONMURAU", "BANRIES"]
model_other = ["", "", "ESTOURNELES", "", "", "", "", "", "SuOTVELL", "SANCRO", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "FONTATNE", "", "", "", "LEJEUE", "", "", "", "", "", "", "", "", "", "", "", "", "PUDHOMMEAUX", ""]
model_gt = ["", "", "", "", "", "", "Becteur", "", "SHOTUWELL", "SANCRO", "", "", "", "Mellmuth", "", "", "", "", "", "EEREMOFP", "Ddéputé", "", "", "", "", "", "", "", "LICHTENRERGER", "LETEUE", "", "", "TRORAS", "", "", "", "", "", "", "", "BUYSSEN", "", "", ""]
tetragrams_correct_transcription = ['Murr', 'ay']['Séna', 'teur']['ESTO', 'URNE', 'LLES']['CONS', 'TANT']['Baro', 'n']['ADEL', 'SWAR', 'D']['Rect', 'eur']['APPE', 'LL']['SHOT', 'WELL']['SANG', 'RO']['OLAN', 'O']['Prof', 'esse', 'ur']['REDL', 'ICH']['Hell', 'muth']['GERL', 'ACH']['Prof', 'esse', 'ur']['FOER', 'STER']['Prof', 'esse', 'ur']['GIDE']['EFRE', 'MOFF']['Dépu', 'té']['Just', 'in']['GODA', 'RT']['Séna', 'teur']['LA']['FONT', 'AINE']['Prof', 'esse', 'ur']['Henr', 'i']['LICH', 'TENB', 'ERGE', 'R']['LEJE', 'UNE']['Repr', 'ésen', 'tant']['Albe', 'rt']['THOM', 'AS']['NIPP', 'OLD']['JAUD', 'ON']['CONV', 'ERSE', 'T']['ESTO', 'URNE', 'LLES']['CONS', 'TANT']['Prof', 'esse', 'ur']['Th']['RUYS', 'SEN']['Prof', 'esse', 'ur']['PRUD', 'HOMM', 'EAUX']['DAND', 'IEU']
trigrams_correct_transcription = ['Mur', 'ray']['Sén', 'ate', 'ur']['EST', 'OUR', 'NEL', 'LES']['CON', 'STA', 'NT']['Bar', 'on']['ADE', 'LSW', 'ARD']['Rec', 'teu', 'r']['APP', 'ELL']['SHO', 'TWE', 'LL']['SAN', 'GRO']['OLA', 'NO']['Pro', 'fes', 'seu', 'r']['RED', 'LIC', 'H']['Hel', 'lmu', 'th']['GER', 'LAC', 'H']['Pro', 'fes', 'seu', 'r']['FOE', 'RST', 'ER']['Pro', 'fes', 'seu', 'r']['GID', 'E']['EFR', 'EMO', 'FF']['Dép', 'uté']['Jus', 'tin']['GOD', 'ART']['Sén', 'ate', 'ur']['LA']['FON', 'TAI', 'NE']['Pro', 'fes', 'seu', 'r']['Hen', 'ri']['LIC', 'HTE', 'NBE', 'RGE', 'R']['LEJ', 'EUN', 'E']['Rep', 'rés', 'ent', 'ant']['Alb', 'ert']['THO', 'MAS']['NIP', 'POL', 'D']['JAU', 'DON']['CON', 'VER', 'SET']['EST', 'OUR', 'NEL', 'LES']['CON', 'STA', 'NT']['Pro', 'fes', 'seu', 'r']['Th']['RUY', 'SSE', 'N']['Pro', 'fes', 'seu', 'r']['PRU', 'DHO', 'MME', 'AUX']['DAN', 'DIE', 'U']
bigrams_correct_transcription = ['Mu', 'rr', 'ay']['Sé', 'na', 'te', 'ur']['ES', 'TO', 'UR', 'NE', 'LL', 'ES']['CO', 'NS', 'TA', 'NT']['Ba', 'ro', 'n']['AD', 'EL', 'SW', 'AR', 'D']['Re', 'ct', 'eu', 'r']['AP', 'PE', 'LL']['SH', 'OT', 'WE', 'LL']['SA', 'NG', 'RO']['OL', 'AN', 'O']['Pr', 'of', 'es', 'se', 'ur']['RE', 'DL', 'IC', 'H']['He', 'll', 'mu', 'th']['GE', 'RL', 'AC', 'H']['Pr', 'of', 'es', 'se', 'ur']['FO', 'ER', 'ST', 'ER']['Pr', 'of', 'es', 'se', 'ur']['GI', 'DE']['EF', 'RE', 'MO', 'FF']['Dé', 'pu', 'té']['Ju', 'st', 'in']['GO', 'DA', 'RT']['Sé', 'na', 'te', 'ur']['LA']['FO', 'NT', 'AI', 'NE']['Pr', 'of', 'es', 'se', 'ur']['He', 'nr', 'i']['LI', 'CH', 'TE', 'NB', 'ER', 'GE', 'R']['LE', 'JE', 'UN', 'E']['Re', 'pr', 'és', 'en', 'ta', 'nt']['Al', 'be', 'rt']['TH', 'OM', 'AS']['NI', 'PP', 'OL', 'D']['JA', 'UD', 'ON']['CO', 'NV', 'ER', 'SE', 'T']['ES', 'TO', 'UR', 'NE', 'LL', 'ES']['CO', 'NS', 'TA', 'NT']['Pr', 'of', 'es', 'se', 'ur']['Th']['RU', 'YS', 'SE', 'N']['Pr', 'of', 'es', 'se', 'ur']['PR', 'UD', 'HO', 'MM', 'EA', 'UX']['DA', 'ND', 'IE', 'U']
tetragrams_model_other = [][]['ESTO', 'URNE', 'LES'][][][][][]['SuOT', 'VELL']['SANC', 'RO'][][][][][][][][][][][][][][][]['FONT', 'ATNE'][][][]['LEJE', 'UE'][][][][][][][][][][][][]['PUDH', 'OMME', 'AUX'][]
trigrams_model_other = [][]['EST', 'OUR', 'NEL', 'ES'][][][][][]['SuO', 'TVE', 'LL']['SAN', 'CRO'][][][][][][][][][][][][][][][]['FON', 'TAT', 'NE'][][][]['LEJ', 'EUE'][][][][][][][][][][][][]['PUD', 'HOM', 'MEA', 'UX'][]
bigrams_model_other = [][]['ES', 'TO', 'UR', 'NE', 'LE', 'S'][][][][][]['Su', 'OT', 'VE', 'LL']['SA', 'NC', 'RO'][][][][][][][][][][][][][][][]['FO', 'NT', 'AT', 'NE'][][][]['LE', 'JE', 'UE'][][][][][][][][][][][][]['PU', 'DH', 'OM', 'ME', 'AU', 'X'][]
tetragrams_model_war = ['Mura', 'y']['séna', 'tour']['Rsfd', 'URLI', 'Es']['CoNa', 'IAN']['Maro', 'n']['ADEL', 'SyAR', 'D']['Bect', 'eur']['ApLN', 'IT']['SHCT', 'NPII']['SANC', 'h0']['CIA4', '40']['prof', 'esse', 'ur']['BETL', 'ION']['Mell', 'muth']['GERL', 'ACN']['prcf', 'esse', 'ur']['FOFR', 'CTRR']['prof', 'esse', 'ur']['GILR']['NENE', 'MOTT']['pépu', 'té']['Dust', 'in']['dopA', 'R']['séna', 'teur']['La']['FoNL', 'AIRR']['Frof', 'esse', 'ur']['Benr', 'i']['LION', 'TERE', 'RdER']['LETE', 'UEE']['Bepr', 'ésen', 'tant']['Alhe', 'rt']['Lacn', 's']['NIPP', 'GLR']['TAND', 'ON']['CoNv', 'ERSE', 'T']['Esfo', 'uRET', 'IES']['CoRs', 'TANT']['Frof', 'esse', 'ur']['lh']['BUTS', 'sRN']['Prof', 'eseu', 'r']['PRpR', 'ONMU', 'RAU']['BANR', 'IES']
trigrams_model_war = ['Mur', 'ay']['sén', 'ato', 'ur']['Rsf', 'dUR', 'LIE', 's']['CoN', 'aIA', 'N']['Mar', 'on']['ADE', 'LSy', 'ARD']['Bec', 'teu', 'r']['ApL', 'NIT']['SHC', 'TNP', 'II']['SAN', 'Ch0']['CIA', '440']['pro', 'fes', 'seu', 'r']['BET', 'LIO', 'N']['Mel', 'lmu', 'th']['GER', 'LAC', 'N']['prc', 'fes', 'seu', 'r']['FOF', 'RCT', 'RR']['pro', 'fes', 'seu', 'r']['GIL', 'R']['NEN', 'EMO', 'TT']['pép', 'uté']['Dus', 'tin']['dop', 'AR']['sén', 'ate', 'ur']['La']['FoN', 'LAI', 'RR']['Fro', 'fes', 'seu', 'r']['Ben', 'ri']['LIO', 'NTE', 'RER', 'dER']['LET', 'EUE', 'E']['Bep', 'rés', 'ent', 'ant']['Alh', 'ert']['Lac', 'ns']['NIP', 'PGL', 'R']['TAN', 'DON']['CoN', 'vER', 'SET']['Esf', 'ouR', 'ETI', 'ES']['CoR', 'sTA', 'NT']['Fro', 'fes', 'seu', 'r']['lh']['BUT', 'SsR', 'N']['Pro', 'fes', 'eur']['PRp', 'RON', 'MUR', 'AU']['BAN', 'RIE', 'S']
bigrams_model_war = ['Mu', 'ra', 'y']['sé', 'na', 'to', 'ur']['Rs', 'fd', 'UR', 'LI', 'Es']['Co', 'Na', 'IA', 'N']['Ma', 'ro', 'n']['AD', 'EL', 'Sy', 'AR', 'D']['Be', 'ct', 'eu', 'r']['Ap', 'LN', 'IT']['SH', 'CT', 'NP', 'II']['SA', 'NC', 'h0']['CI', 'A4', '40']['pr', 'of', 'es', 'se', 'ur']['BE', 'TL', 'IO', 'N']['Me', 'll', 'mu', 'th']['GE', 'RL', 'AC', 'N']['pr', 'cf', 'es', 'se', 'ur']['FO', 'FR', 'CT', 'RR']['pr', 'of', 'es', 'se', 'ur']['GI', 'LR']['NE', 'NE', 'MO', 'TT']['pé', 'pu', 'té']['Du', 'st', 'in']['do', 'pA', 'R']['sé', 'na', 'te', 'ur']['La']['Fo', 'NL', 'AI', 'RR']['Fr', 'of', 'es', 'se', 'ur']['Be', 'nr', 'i']['LI', 'ON', 'TE', 'RE', 'Rd', 'ER']['LE', 'TE', 'UE', 'E']['Be', 'pr', 'és', 'en', 'ta', 'nt']['Al', 'he', 'rt']['La', 'cn', 's']['NI', 'PP', 'GL', 'R']['TA', 'ND', 'ON']['Co', 'Nv', 'ER', 'SE', 'T']['Es', 'fo', 'uR', 'ET', 'IE', 'S']['Co', 'Rs', 'TA', 'NT']['Fr', 'of', 'es', 'se', 'ur']['lh']['BU', 'TS', 'sR', 'N']['Pr', 'of', 'es', 'eu', 'r']['PR', 'pR', 'ON', 'MU', 'RA', 'U']['BA', 'NR', 'IE', 'S']
tetragrams_model_gt = [][][][][][]['Bect', 'eur'][]['SHOT', 'UWEL', 'L']['SANC', 'RO'][][][]['Mell', 'muth'][][][][][]['EERE', 'MOFP']['Ddép', 'uté'][][][][][][][]['LICH', 'TENR', 'ERGE', 'R']['LETE', 'UE'][][]['TROR', 'AS'][][][][][][][]['BUYS', 'SEN'][][][]
trigrams_model_gt = [][][][][][]['Bec', 'teu', 'r'][]['SHO', 'TUW', 'ELL']['SAN', 'CRO'][][][]['Mel', 'lmu', 'th'][][][][][]['EER', 'EMO', 'FP']['Ddé', 'put', 'é'][][][][][][][]['LIC', 'HTE', 'NRE', 'RGE', 'R']['LET', 'EUE'][][]['TRO', 'RAS'][][][][][][][]['BUY', 'SSE', 'N'][][][]
bigrams_model_gt = [][][][][][]['Be', 'ct', 'eu', 'r'][]['SH', 'OT', 'UW', 'EL', 'L']['SA', 'NC', 'RO'][][][]['Me', 'll', 'mu', 'th'][][][][][]['EE', 'RE', 'MO', 'FP']['Dd', 'ép', 'ut', 'é'][][][][][][][]['LI', 'CH', 'TE', 'NR', 'ER', 'GE', 'R']['LE', 'TE', 'UE'][][]['TR', 'OR', 'AS'][][][][][][][]['BU', 'YS', 'SE', 'N'][][][]
#Set War
#Letter 678 Page 1
correct_transcription = ["LETTRE", "PARIS", "Juin", "ON", "PARLE", "PLUS", "AFFAIRE", "CAILLAUX", "CAVALLINI", "VIENT", "ETRE", "ACQUITTÉ", "affaire", "Caillaux", "appartient", "Son", "ACTION", "FRANCAISE", "parle", "accusateurs", "Rome", "Public", "On"]
model_war = ["", "", "", "", "", "LUS", "", "CAILLAUT", "CAVAIIINI", "", "", "", "arfaire", "caillaux", "apbartient", "", "", "PRANCAISN", "", "", "", "", ""]
model_other = ["LETE", "PAaIS", "", "OE", "PAULE", "", "AFATE", "CAILTAU", "SAvALIEL", "VIET", "ETSE", "ACOUITT", "", "", "appartlent", "Sen", "A0TTON", "", "pafle", "asgusateurs", "", "", "on"]
model_gt = ["", "", "ruin", "", "", "", "APPAIRE", "CAILAU", "", "", "", "", "", "", "", "Sen", "", "", "", "ansusateurs", "Bome", "public", ""]
tetragrams_correct_transcription = ['LETT', 'RE']['PARI', 'S']['Juin']['ON']['PARL', 'E']['PLUS']['AFFA', 'IRE']['CAIL', 'LAUX']['CAVA', 'LLIN', 'I']['VIEN', 'T']['ETRE']['ACQU', 'ITTÉ']['affa', 'ire']['Cail', 'laux']['appa', 'rtie', 'nt']['Son']['ACTI', 'ON']['FRAN', 'CAIS', 'E']['parl', 'e']['accu', 'sate', 'urs']['Rome']['Publ', 'ic']['On']
trigrams_correct_transcription = ['LET', 'TRE']['PAR', 'IS']['Jui', 'n']['ON']['PAR', 'LE']['PLU', 'S']['AFF', 'AIR', 'E']['CAI', 'LLA', 'UX']['CAV', 'ALL', 'INI']['VIE', 'NT']['ETR', 'E']['ACQ', 'UIT', 'TÉ']['aff', 'air', 'e']['Cai', 'lla', 'ux']['app', 'art', 'ien', 't']['Son']['ACT', 'ION']['FRA', 'NCA', 'ISE']['par', 'le']['acc', 'usa', 'teu', 'rs']['Rom', 'e']['Pub', 'lic']['On']
bigrams_correct_transcription = ['LE', 'TT', 'RE']['PA', 'RI', 'S']['Ju', 'in']['ON']['PA', 'RL', 'E']['PL', 'US']['AF', 'FA', 'IR', 'E']['CA', 'IL', 'LA', 'UX']['CA', 'VA', 'LL', 'IN', 'I']['VI', 'EN', 'T']['ET', 'RE']['AC', 'QU', 'IT', 'TÉ']['af', 'fa', 'ir', 'e']['Ca', 'il', 'la', 'ux']['ap', 'pa', 'rt', 'ie', 'nt']['So', 'n']['AC', 'TI', 'ON']['FR', 'AN', 'CA', 'IS', 'E']['pa', 'rl', 'e']['ac', 'cu', 'sa', 'te', 'ur', 's']['Ro', 'me']['Pu', 'bl', 'ic']['On']
tetragrams_model_other = ['LETE']['PAaI', 'S'][]['OE']['PAUL', 'E'][]['AFAT', 'E']['CAIL', 'TAU']['SAvA', 'LIEL']['VIET']['ETSE']['ACOU', 'ITT'][][]['appa', 'rtle', 'nt']['Sen']['A0TT', 'ON'][]['pafl', 'e']['asgu', 'sate', 'urs'][][]['on']
trigrams_model_other = ['LET', 'E']['PAa', 'IS'][]['OE']['PAU', 'LE'][]['AFA', 'TE']['CAI', 'LTA', 'U']['SAv', 'ALI', 'EL']['VIE', 'T']['ETS', 'E']['ACO', 'UIT', 'T'][][]['app', 'art', 'len', 't']['Sen']['A0T', 'TON'][]['paf', 'le']['asg', 'usa', 'teu', 'rs'][][]['on']
bigrams_model_other = ['LE', 'TE']['PA', 'aI', 'S'][]['OE']['PA', 'UL', 'E'][]['AF', 'AT', 'E']['CA', 'IL', 'TA', 'U']['SA', 'vA', 'LI', 'EL']['VI', 'ET']['ET', 'SE']['AC', 'OU', 'IT', 'T'][][]['ap', 'pa', 'rt', 'le', 'nt']['Se', 'n']['A0', 'TT', 'ON'][]['pa', 'fl', 'e']['as', 'gu', 'sa', 'te', 'ur', 's'][][]['on']
tetragrams_model_war = [][][][][]['LUS'][]['CAIL', 'LAUT']['CAVA', 'IIIN', 'I'][][][]['arfa', 'ire']['cail', 'laux']['apba', 'rtie', 'nt'][][]['PRAN', 'CAIS', 'N'][][][][][]
trigrams_model_war = [][][][][]['LUS'][]['CAI', 'LLA', 'UT']['CAV', 'AII', 'INI'][][][]['arf', 'air', 'e']['cai', 'lla', 'ux']['apb', 'art', 'ien', 't'][][]['PRA', 'NCA', 'ISN'][][][][][]
bigrams_model_war = [][][][][]['LU', 'S'][]['CA', 'IL', 'LA', 'UT']['CA', 'VA', 'II', 'IN', 'I'][][][]['ar', 'fa', 'ir', 'e']['ca', 'il', 'la', 'ux']['ap', 'ba', 'rt', 'ie', 'nt'][][]['PR', 'AN', 'CA', 'IS', 'N'][][][][][]
tetragrams_model_gt = [][]['ruin'][][][]['APPA', 'IRE']['CAIL', 'AU'][][][][][][][]['Sen'][][][]['ansu', 'sate', 'urs']['Bome']['publ', 'ic'][]
trigrams_model_gt = [][]['rui', 'n'][][][]['APP', 'AIR', 'E']['CAI', 'LAU'][][][][][][][]['Sen'][][][]['ans', 'usa', 'teu', 'rs']['Bom', 'e']['pub', 'lic'][]
bigrams_model_gt = [][]['ru', 'in'][][][]['AP', 'PA', 'IR', 'E']['CA', 'IL', 'AU'][][][][][][][]['Se', 'n'][][][]['an', 'su', 'sa', 'te', 'ur', 's']['Bo', 'me']['pu', 'bl', 'ic'][]
#Letter 844 Page 1
correct_transcription = ["PARIS", "le", "CONTINUE", "IMPORTUN", "ET", "CONTRE", "NATURE", "Sarthe", "pas", "printemps", "humaines", "laisseraient", "mais", "non", "est", "cependant", "haute", "tenue", "infini", "çaise", "guerre", "pourquoi", "aperçoit", "Certes", "hommage", "Murray", "BUTLER"]
model_war = ["", "", "CONTINUR", "INTONTUN", "NT", "GONTRE", "NATRE", "sarthe", "bas", "", "hnmaines", "laisséraient", "", "", "", "", "", "", "", "Caise", "guerrs", "pourquci", "apercoit", "", "", "", ""]
model_other = ["PARrS", "Ce", "CONTHRE", "LÉTORCUE", "EX", "CONTE", "FATURE", "", "", "", "", "laisséraient", "Mais", "nom", "", "", "", "tenque", "infiri", "caise", "", "", "", "Gertes", "hommge", "", "EUTLER"]
model_gt = ["", "ee", "", "", "", "", "", "", "", "brintemps", "", "laisssraient", "", "nun", "esit", "cebendant", "huaute", "tenque", "infiri", "", "", "pourççoi", "", "Certeos", "", "Murrey", ""]
tetragrams_correct_transcription = ['PARI', 'S']['le']['CONT', 'INUE']['IMPO', 'RTUN']['ET']['CONT', 'RE']['NATU', 'RE']['Sart', 'he']['pas']['prin', 'temp', 's']['huma', 'ines']['lais', 'sera', 'ient']['mais']['non']['est']['cepe', 'ndan', 't']['haut', 'e']['tenu', 'e']['infi', 'ni']['çais', 'e']['guer', 're']['pour', 'quoi']['aper', 'çoit']['Cert', 'es']['homm', 'age']['Murr', 'ay']['BUTL', 'ER']
trigrams_correct_transcription = ['PAR', 'IS']['le']['CON', 'TIN', 'UE']['IMP', 'ORT', 'UN']['ET']['CON', 'TRE']['NAT', 'URE']['Sar', 'the']['pas']['pri', 'nte', 'mps']['hum', 'ain', 'es']['lai', 'sse', 'rai', 'ent']['mai', 's']['non']['est']['cep', 'end', 'ant']['hau', 'te']['ten', 'ue']['inf', 'ini']['çai', 'se']['gue', 'rre']['pou', 'rqu', 'oi']['ape', 'rço', 'it']['Cer', 'tes']['hom', 'mag', 'e']['Mur', 'ray']['BUT', 'LER']
bigrams_correct_transcription = ['PA', 'RI', 'S']['le']['CO', 'NT', 'IN', 'UE']['IM', 'PO', 'RT', 'UN']['ET']['CO', 'NT', 'RE']['NA', 'TU', 'RE']['Sa', 'rt', 'he']['pa', 's']['pr', 'in', 'te', 'mp', 's']['hu', 'ma', 'in', 'es']['la', 'is', 'se', 'ra', 'ie', 'nt']['ma', 'is']['no', 'n']['es', 't']['ce', 'pe', 'nd', 'an', 't']['ha', 'ut', 'e']['te', 'nu', 'e']['in', 'fi', 'ni']['ça', 'is', 'e']['gu', 'er', 're']['po', 'ur', 'qu', 'oi']['ap', 'er', 'ço', 'it']['Ce', 'rt', 'es']['ho', 'mm', 'ag', 'e']['Mu', 'rr', 'ay']['BU', 'TL', 'ER']
tetragrams_model_other = ['PARr', 'S']['Ce']['CONT', 'HRE']['LÉTO', 'RCUE']['EX']['CONT', 'E']['FATU', 'RE'][][][][]['lais', 'séra', 'ient']['Mais']['nom'][][][]['tenq', 'ue']['infi', 'ri']['cais', 'e'][][][]['Gert', 'es']['homm', 'ge'][]['EUTL', 'ER']
trigrams_model_other = ['PAR', 'rS']['Ce']['CON', 'THR', 'E']['LÉT', 'ORC', 'UE']['EX']['CON', 'TE']['FAT', 'URE'][][][][]['lai', 'ssé', 'rai', 'ent']['Mai', 's']['nom'][][][]['ten', 'que']['inf', 'iri']['cai', 'se'][][][]['Ger', 'tes']['hom', 'mge'][]['EUT', 'LER']
bigrams_model_other = ['PA', 'Rr', 'S']['Ce']['CO', 'NT', 'HR', 'E']['LÉ', 'TO', 'RC', 'UE']['EX']['CO', 'NT', 'E']['FA', 'TU', 'RE'][][][][]['la', 'is', 'sé', 'ra', 'ie', 'nt']['Ma', 'is']['no', 'm'][][][]['te', 'nq', 'ue']['in', 'fi', 'ri']['ca', 'is', 'e'][][][]['Ge', 'rt', 'es']['ho', 'mm', 'ge'][]['EU', 'TL', 'ER']
tetragrams_model_war = [][]['CONT', 'INUR']['INTO', 'NTUN']['NT']['GONT', 'RE']['NATR', 'E']['sart', 'he']['bas'][]['hnma', 'ines']['lais', 'séra', 'ient'][][][][][][][]['Cais', 'e']['guer', 'rs']['pour', 'quci']['aper', 'coit'][][][][]
trigrams_model_war = [][]['CON', 'TIN', 'UR']['INT', 'ONT', 'UN']['NT']['GON', 'TRE']['NAT', 'RE']['sar', 'the']['bas'][]['hnm', 'ain', 'es']['lai', 'ssé', 'rai', 'ent'][][][][][][][]['Cai', 'se']['gue', 'rrs']['pou', 'rqu', 'ci']['ape', 'rco', 'it'][][][][]
bigrams_model_war = [][]['CO', 'NT', 'IN', 'UR']['IN', 'TO', 'NT', 'UN']['NT']['GO', 'NT', 'RE']['NA', 'TR', 'E']['sa', 'rt', 'he']['ba', 's'][]['hn', 'ma', 'in', 'es']['la', 'is', 'sé', 'ra', 'ie', 'nt'][][][][][][][]['Ca', 'is', 'e']['gu', 'er', 'rs']['po', 'ur', 'qu', 'ci']['ap', 'er', 'co', 'it'][][][][]
tetragrams_model_gt = []['ee'][][][][][][][]['brin', 'temp', 's'][]['lais', 'ssra', 'ient'][]['nun']['esit']['cebe', 'ndan', 't']['huau', 'te']['tenq', 'ue']['infi', 'ri'][][]['pour', 'ççoi'][]['Cert', 'eos'][]['Murr', 'ey'][]
trigrams_model_gt = []['ee'][][][][][][][]['bri', 'nte', 'mps'][]['lai', 'sss', 'rai', 'ent'][]['nun']['esi', 't']['ceb', 'end', 'ant']['hua', 'ute']['ten', 'que']['inf', 'iri'][][]['pou', 'rçç', 'oi'][]['Cer', 'teo', 's'][]['Mur', 'rey'][]
bigrams_model_gt = []['ee'][][][][][][][]['br', 'in', 'te', 'mp', 's'][]['la', 'is', 'ss', 'ra', 'ie', 'nt'][]['nu', 'n']['es', 'it']['ce', 'be', 'nd', 'an', 't']['hu', 'au', 'te']['te', 'nq', 'ue']['in', 'fi', 'ri'][][]['po', 'ur', 'çç', 'oi'][]['Ce', 'rt', 'eo', 's'][]['Mu', 'rr', 'ey'][]
#Letter 948 Page 1
correct_transcription = ["LETTRE", "LE", "DÉSARMEMENT", "ALLEMAGNE", "GERLACH", "FOERSTER", "RÉPONSE", "à", "VOTRE", "LETTRE", "DÉCEMBRE", "cher", "Butler", "moral", "désarmement", "Allemagne", "nos", "préoccupations", "parlé", "compatriotes", "Professeur", "Central", "Homme", "Kessler", "Kessler", "appris", "représentants", "Frioul", "chez", "propriétés", "Lozère", "facilement", "Parlement", "Chambrun", "Lascazes", "notamment", "Monsieur", "Nicholas", "BUTLER"]
model_war = ["", "", "DÉSARMEMRNT", "", "GRLACN", "FOERSTR", "BÉPONSRE", "", "", "LETERE", "DÉRSRE", "", "", "", "désrmement", "Allemage", "", "préoccupstions", "", "", "Frofesseur", "", "", "", "", "", "", "Frjoul", "ches", "", "", "fadilement", "parlement", "Ghamrun", "lascages", "", "", "", ""]
model_other = ["LEVTRR", "VE", "FÉSARMEENT", "ATLACR", "DEULACS", "gOEMCIER", "RUFONSR", "A", "VORE", "LUTRE", "FÉORÉERE", "cuer", "", "", "désaurmement", "Allesague", "qos", "préoccupatious", "parté", "compEtriotes", "", "", "", "Fessler", "Fessler", "apris", "", "", "", "probriétés", "Lomère", "", "", "", "lascames", "notemment", "", "Nichouas", "EUTLER"]
model_gt = ["", "EN", "DÉSARUERGENT", "", "CERLAGH", "POERSTER", "RÉPONRE", "", "VOTRN", "", "DÉGEMBRE", "", "mutler", "aoral", "", "", "", "préecoupations", "", "", "", "Gentral", "homme", "", "Nessler", "", "représontants", "Prioul", "", "", "", "", "", "", "", "notament", "Momsieur", "", ""]
tetragrams_correct_transcription = ['LETT', 'RE']['LE']['DÉSA', 'RMEM', 'ENT']['ALLE', 'MAGN', 'E']['GERL', 'ACH']['FOER', 'STER']['RÉPO', 'NSE']['à']['VOTR', 'E']['LETT', 'RE']['DÉCE', 'MBRE']['cher']['Butl', 'er']['mora', 'l']['désa', 'rmem', 'ent']['Alle', 'magn', 'e']['nos']['préo', 'ccup', 'atio', 'ns']['parl', 'é']['comp', 'atri', 'otes']['Prof', 'esse', 'ur']['Cent', 'ral']['Homm', 'e']['Kess', 'ler']['Kess', 'ler']['appr', 'is']['repr', 'ésen', 'tant', 's']['Frio', 'ul']['chez']['prop', 'riét', 'és']['Lozè', 're']['faci', 'leme', 'nt']['Parl', 'emen', 't']['Cham', 'brun']['Lasc', 'azes']['nota', 'mmen', 't']['Mons', 'ieur']['Nich', 'olas']['BUTL', 'ER']
trigrams_correct_transcription = ['LET', 'TRE']['LE']['DÉS', 'ARM', 'EME', 'NT']['ALL', 'EMA', 'GNE']['GER', 'LAC', 'H']['FOE', 'RST', 'ER']['RÉP', 'ONS', 'E']['à']['VOT', 'RE']['LET', 'TRE']['DÉC', 'EMB', 'RE']['che', 'r']['But', 'ler']['mor', 'al']['dés', 'arm', 'eme', 'nt']['All', 'ema', 'gne']['nos']['pré', 'occ', 'upa', 'tio', 'ns']['par', 'lé']['com', 'pat', 'rio', 'tes']['Pro', 'fes', 'seu', 'r']['Cen', 'tra', 'l']['Hom', 'me']['Kes', 'sle', 'r']['Kes', 'sle', 'r']['app', 'ris']['rep', 'rés', 'ent', 'ant', 's']['Fri', 'oul']['che', 'z']['pro', 'pri', 'été', 's']['Loz', 'ère']['fac', 'ile', 'men', 't']['Par', 'lem', 'ent']['Cha', 'mbr', 'un']['Las', 'caz', 'es']['not', 'amm', 'ent']['Mon', 'sie', 'ur']['Nic', 'hol', 'as']['BUT', 'LER']
bigrams_correct_transcription = ['LE', 'TT', 'RE']['LE']['DÉ', 'SA', 'RM', 'EM', 'EN', 'T']['AL', 'LE', 'MA', 'GN', 'E']['GE', 'RL', 'AC', 'H']['FO', 'ER', 'ST', 'ER']['RÉ', 'PO', 'NS', 'E']['à']['VO', 'TR', 'E']['LE', 'TT', 'RE']['DÉ', 'CE', 'MB', 'RE']['ch', 'er']['Bu', 'tl', 'er']['mo', 'ra', 'l']['dé', 'sa', 'rm', 'em', 'en', 't']['Al', 'le', 'ma', 'gn', 'e']['no', 's']['pr', 'éo', 'cc', 'up', 'at', 'io', 'ns']['pa', 'rl', 'é']['co', 'mp', 'at', 'ri', 'ot', 'es']['Pr', 'of', 'es', 'se', 'ur']['Ce', 'nt', 'ra', 'l']['Ho', 'mm', 'e']['Ke', 'ss', 'le', 'r']['Ke', 'ss', 'le', 'r']['ap', 'pr', 'is']['re', 'pr', 'és', 'en', 'ta', 'nt', 's']['Fr', 'io', 'ul']['ch', 'ez']['pr', 'op', 'ri', 'ét', 'és']['Lo', 'zè', 're']['fa', 'ci', 'le', 'me', 'nt']['Pa', 'rl', 'em', 'en', 't']['Ch', 'am', 'br', 'un']['La', 'sc', 'az', 'es']['no', 'ta', 'mm', 'en', 't']['Mo', 'ns', 'ie', 'ur']['Ni', 'ch', 'ol', 'as']['BU', 'TL', 'ER']
tetragrams_model_other = ['LEVT', 'RR']['VE']['FÉSA', 'RMEE', 'NT']['ATLA', 'CR']['DEUL', 'ACS']['gOEM', 'CIER']['RUFO', 'NSR']['A']['VORE']['LUTR', 'E']['FÉOR', 'ÉERE']['cuer'][][]['désa', 'urme', 'ment']['Alle', 'sagu', 'e']['qos']['préo', 'ccup', 'atio', 'us']['part', 'é']['comp', 'Etri', 'otes'][][][]['Fess', 'ler']['Fess', 'ler']['apri', 's'][][][]['prob', 'riét', 'és']['Lomè', 're'][][][]['lasc', 'ames']['note', 'mmen', 't'][]['Nich', 'ouas']['EUTL', 'ER']
trigrams_model_other = ['LEV', 'TRR']['VE']['FÉS', 'ARM', 'EEN', 'T']['ATL', 'ACR']['DEU', 'LAC', 'S']['gOE', 'MCI', 'ER']['RUF', 'ONS', 'R']['A']['VOR', 'E']['LUT', 'RE']['FÉO', 'RÉE', 'RE']['cue', 'r'][][]['dés', 'aur', 'mem', 'ent']['All', 'esa', 'gue']['qos']['pré', 'occ', 'upa', 'tio', 'us']['par', 'té']['com', 'pEt', 'rio', 'tes'][][][]['Fes', 'sle', 'r']['Fes', 'sle', 'r']['apr', 'is'][][][]['pro', 'bri', 'été', 's']['Lom', 'ère'][][][]['las', 'cam', 'es']['not', 'emm', 'ent'][]['Nic', 'hou', 'as']['EUT', 'LER']
bigrams_model_other = ['LE', 'VT', 'RR']['VE']['FÉ', 'SA', 'RM', 'EE', 'NT']['AT', 'LA', 'CR']['DE', 'UL', 'AC', 'S']['gO', 'EM', 'CI', 'ER']['RU', 'FO', 'NS', 'R']['A']['VO', 'RE']['LU', 'TR', 'E']['FÉ', 'OR', 'ÉE', 'RE']['cu', 'er'][][]['dé', 'sa', 'ur', 'me', 'me', 'nt']['Al', 'le', 'sa', 'gu', 'e']['qo', 's']['pr', 'éo', 'cc', 'up', 'at', 'io', 'us']['pa', 'rt', 'é']['co', 'mp', 'Et', 'ri', 'ot', 'es'][][][]['Fe', 'ss', 'le', 'r']['Fe', 'ss', 'le', 'r']['ap', 'ri', 's'][][][]['pr', 'ob', 'ri', 'ét', 'és']['Lo', 'mè', 're'][][][]['la', 'sc', 'am', 'es']['no', 'te', 'mm', 'en', 't'][]['Ni', 'ch', 'ou', 'as']['EU', 'TL', 'ER']
tetragrams_model_war = [][]['DÉSA', 'RMEM', 'RNT'][]['GRLA', 'CN']['FOER', 'STR']['BÉPO', 'NSRE'][][]['LETE', 'RE']['DÉRS', 'RE'][][][]['désr', 'meme', 'nt']['Alle', 'mage'][]['préo', 'ccup', 'stio', 'ns'][][]['Frof', 'esse', 'ur'][][][][][][]['Frjo', 'ul']['ches'][][]['fadi', 'leme', 'nt']['parl', 'emen', 't']['Gham', 'run']['lasc', 'ages'][][][][]
trigrams_model_war = [][]['DÉS', 'ARM', 'EMR', 'NT'][]['GRL', 'ACN']['FOE', 'RST', 'R']['BÉP', 'ONS', 'RE'][][]['LET', 'ERE']['DÉR', 'SRE'][][][]['dés', 'rme', 'men', 't']['All', 'ema', 'ge'][]['pré', 'occ', 'ups', 'tio', 'ns'][][]['Fro', 'fes', 'seu', 'r'][][][][][][]['Frj', 'oul']['che', 's'][][]['fad', 'ile', 'men', 't']['par', 'lem', 'ent']['Gha', 'mru', 'n']['las', 'cag', 'es'][][][][]
bigrams_model_war = [][]['DÉ', 'SA', 'RM', 'EM', 'RN', 'T'][]['GR', 'LA', 'CN']['FO', 'ER', 'ST', 'R']['BÉ', 'PO', 'NS', 'RE'][][]['LE', 'TE', 'RE']['DÉ', 'RS', 'RE'][][][]['dé', 'sr', 'me', 'me', 'nt']['Al', 'le', 'ma', 'ge'][]['pr', 'éo', 'cc', 'up', 'st', 'io', 'ns'][][]['Fr', 'of', 'es', 'se', 'ur'][][][][][][]['Fr', 'jo', 'ul']['ch', 'es'][][]['fa', 'di', 'le', 'me', 'nt']['pa', 'rl', 'em', 'en', 't']['Gh', 'am', 'ru', 'n']['la', 'sc', 'ag', 'es'][][][][]
tetragrams_model_gt = []['EN']['DÉSA', 'RUER', 'GENT'][]['CERL', 'AGH']['POER', 'STER']['RÉPO', 'NRE'][]['VOTR', 'N'][]['DÉGE', 'MBRE'][]['mutl', 'er']['aora', 'l'][][][]['prée', 'coup', 'atio', 'ns'][][][]['Gent', 'ral']['homm', 'e'][]['Ness', 'ler'][]['repr', 'éson', 'tant', 's']['Prio', 'ul'][][][][][][][]['nota', 'ment']['Moms', 'ieur'][][]
trigrams_model_gt = []['EN']['DÉS', 'ARU', 'ERG', 'ENT'][]['CER', 'LAG', 'H']['POE', 'RST', 'ER']['RÉP', 'ONR', 'E'][]['VOT', 'RN'][]['DÉG', 'EMB', 'RE'][]['mut', 'ler']['aor', 'al'][][][]['pré', 'eco', 'upa', 'tio', 'ns'][][][]['Gen', 'tra', 'l']['hom', 'me'][]['Nes', 'sle', 'r'][]['rep', 'rés', 'ont', 'ant', 's']['Pri', 'oul'][][][][][][][]['not', 'ame', 'nt']['Mom', 'sie', 'ur'][][]
bigrams_model_gt = []['EN']['DÉ', 'SA', 'RU', 'ER', 'GE', 'NT'][]['CE', 'RL', 'AG', 'H']['PO', 'ER', 'ST', 'ER']['RÉ', 'PO', 'NR', 'E'][]['VO', 'TR', 'N'][]['DÉ', 'GE', 'MB', 'RE'][]['mu', 'tl', 'er']['ao', 'ra', 'l'][][][]['pr', 'ée', 'co', 'up', 'at', 'io', 'ns'][][][]['Ge', 'nt', 'ra', 'l']['ho', 'mm', 'e'][]['Ne', 'ss', 'le', 'r'][]['re', 'pr', 'és', 'on', 'ta', 'nt', 's']['Pr', 'io', 'ul'][][][][][][][]['no', 'ta', 'me', 'nt']['Mo', 'ms', 'ie', 'ur'][][]
#Letter 1000 Page 3
correct_transcription = ["lettres", "York", "Certaines", "quand", "vous", "Verdun", "Ardennes", "Vosges", "luttes", "noble", "Défense", "franco", "apothéose"]
model_war = ["", "", "", "", "Vous", "verdun", "Ardenes", "vosges", "", "", "péfense", "Franco", "apothécse"]
model_other = ["", "", "", "Chand", "", "", "", "", "", "noRke", "", "granco", ""]
model_gt = ["lattres", "Nork", "Gertaines", "dhand", "", "verdun", "", "vosges", "luetes", "noère", "péfense", "", ""]
tetragrams_correct_transcription = ['lett', 'res']['York']['Cert', 'aine', 's']['quan', 'd']['vous']['Verd', 'un']['Arde', 'nnes']['Vosg', 'es']['lutt', 'es']['nobl', 'e']['Défe', 'nse']['fran', 'co']['apot', 'héos', 'e']
trigrams_correct_transcription = ['let', 'tre', 's']['Yor', 'k']['Cer', 'tai', 'nes']['qua', 'nd']['vou', 's']['Ver', 'dun']['Ard', 'enn', 'es']['Vos', 'ges']['lut', 'tes']['nob', 'le']['Déf', 'ens', 'e']['fra', 'nco']['apo', 'thé', 'ose']
bigrams_correct_transcription = ['le', 'tt', 're', 's']['Yo', 'rk']['Ce', 'rt', 'ai', 'ne', 's']['qu', 'an', 'd']['vo', 'us']['Ve', 'rd', 'un']['Ar', 'de', 'nn', 'es']['Vo', 'sg', 'es']['lu', 'tt', 'es']['no', 'bl', 'e']['Dé', 'fe', 'ns', 'e']['fr', 'an', 'co']['ap', 'ot', 'hé', 'os', 'e']
tetragrams_model_other = [][][]['Chan', 'd'][][][][][]['noRk', 'e'][]['gran', 'co'][]
trigrams_model_other = [][][]['Cha', 'nd'][][][][][]['noR', 'ke'][]['gra', 'nco'][]
bigrams_model_other = [][][]['Ch', 'an', 'd'][][][][][]['no', 'Rk', 'e'][]['gr', 'an', 'co'][]
tetragrams_model_war = [][][][]['Vous']['verd', 'un']['Arde', 'nes']['vosg', 'es'][][]['péfe', 'nse']['Fran', 'co']['apot', 'hécs', 'e']
trigrams_model_war = [][][][]['Vou', 's']['ver', 'dun']['Ard', 'ene', 's']['vos', 'ges'][][]['péf', 'ens', 'e']['Fra', 'nco']['apo', 'thé', 'cse']
bigrams_model_war = [][][][]['Vo', 'us']['ve', 'rd', 'un']['Ar', 'de', 'ne', 's']['vo', 'sg', 'es'][][]['pé', 'fe', 'ns', 'e']['Fr', 'an', 'co']['ap', 'ot', 'hé', 'cs', 'e']
tetragrams_model_gt = ['latt', 'res']['Nork']['Gert', 'aine', 's']['dhan', 'd'][]['verd', 'un'][]['vosg', 'es']['luet', 'es']['noèr', 'e']['péfe', 'nse'][][]
trigrams_model_gt = ['lat', 'tre', 's']['Nor', 'k']['Ger', 'tai', 'nes']['dha', 'nd'][]['ver', 'dun'][]['vos', 'ges']['lue', 'tes']['noè', 're']['péf', 'ens', 'e'][][]
bigrams_model_gt = ['la', 'tt', 're', 's']['No', 'rk']['Ge', 'rt', 'ai', 'ne', 's']['dh', 'an', 'd'][]['ve', 'rd', 'un'][]['vo', 'sg', 'es']['lu', 'et', 'es']['no', 'èr', 'e']['pé', 'fe', 'ns', 'e'][][]
#Letter 1367 Page 1
correct_transcription = ["LETTRE", "Créans", "Août", "EN", "ALLEMAGNE", "encourageons", "manifestation", "Voici", "pour", "décla", "guerre", "là", "misères", "Est", "dixième", "invitons", "cimetière", "matin", "répudiation", "poussent", "guerre", "français", "Orateurs", "Murray"]
model_war = ["", "", "", "N", "ALLERMAGNE", "encouragecns", "", "Vojoi", "nour", "", "", "", "Bisèrest", "Rst", "", "", "cimetjère", "", "", "", "suerre", "", "", "MMurray"]
model_other = ["AETOE", "créans", "Acût", "NE", "ALEWAGE", "", "manigestation", "voici", "mour", "déCla", "querre", "1à", "", "Hst", "dixiême", "invitonë", "cimetdère", "", "répadiation", "pouscent", "Sierre", "francais", "orateurs", ""]
model_gt = ["RETTRE", "", "", "", "ALLEMASNE", "", "", "", "", "", "", "", "", "", "", "", "", "mntin", "", "", "Suerre", "", "orateurs", ""]
tetragrams_correct_transcription = ['LETT', 'RE']['Créa', 'ns']['Août']['EN']['ALLE', 'MAGN', 'E']['enco', 'urag', 'eons']['mani', 'fest', 'atio', 'n']['Voic', 'i']['pour']['décl', 'a']['guer', 're']['là']['misè', 'res']['Est']['dixi', 'ème']['invi', 'tons']['cime', 'tièr', 'e']['mati', 'n']['répu', 'diat', 'ion']['pous', 'sent']['guer', 're']['fran', 'çais']['Orat', 'eurs']['Murr', 'ay']
trigrams_correct_transcription = ['LET', 'TRE']['Cré', 'ans']['Aoû', 't']['EN']['ALL', 'EMA', 'GNE']['enc', 'our', 'age', 'ons']['man', 'ife', 'sta', 'tio', 'n']['Voi', 'ci']['pou', 'r']['déc', 'la']['gue', 'rre']['là']['mis', 'ère', 's']['Est']['dix', 'ièm', 'e']['inv', 'ito', 'ns']['cim', 'eti', 'ère']['mat', 'in']['rép', 'udi', 'ati', 'on']['pou', 'sse', 'nt']['gue', 'rre']['fra', 'nça', 'is']['Ora', 'teu', 'rs']['Mur', 'ray']
bigrams_correct_transcription = ['LE', 'TT', 'RE']['Cr', 'éa', 'ns']['Ao', 'ût']['EN']['AL', 'LE', 'MA', 'GN', 'E']['en', 'co', 'ur', 'ag', 'eo', 'ns']['ma', 'ni', 'fe', 'st', 'at', 'io', 'n']['Vo', 'ic', 'i']['po', 'ur']['dé', 'cl', 'a']['gu', 'er', 're']['là']['mi', 'sè', 're', 's']['Es', 't']['di', 'xi', 'èm', 'e']['in', 'vi', 'to', 'ns']['ci', 'me', 'ti', 'èr', 'e']['ma', 'ti', 'n']['ré', 'pu', 'di', 'at', 'io', 'n']['po', 'us', 'se', 'nt']['gu', 'er', 're']['fr', 'an', 'ça', 'is']['Or', 'at', 'eu', 'rs']['Mu', 'rr', 'ay']
tetragrams_model_other = ['AETO', 'E']['créa', 'ns']['Acût']['NE']['ALEW', 'AGE'][]['mani', 'gest', 'atio', 'n']['voic', 'i']['mour']['déCl', 'a']['quer', 're']['1à'][]['Hst']['dixi', 'ême']['invi', 'tonë']['cime', 'tdèr', 'e'][]['répa', 'diat', 'ion']['pous', 'cent']['Sier', 're']['fran', 'cais']['orat', 'eurs'][]
trigrams_model_other = ['AET', 'OE']['cré', 'ans']['Acû', 't']['NE']['ALE', 'WAG', 'E'][]['man', 'ige', 'sta', 'tio', 'n']['voi', 'ci']['mou', 'r']['déC', 'la']['que', 'rre']['1à'][]['Hst']['dix', 'iêm', 'e']['inv', 'ito', 'në']['cim', 'etd', 'ère'][]['rép', 'adi', 'ati', 'on']['pou', 'sce', 'nt']['Sie', 'rre']['fra', 'nca', 'is']['ora', 'teu', 'rs'][]
bigrams_model_other = ['AE', 'TO', 'E']['cr', 'éa', 'ns']['Ac', 'ût']['NE']['AL', 'EW', 'AG', 'E'][]['ma', 'ni', 'ge', 'st', 'at', 'io', 'n']['vo', 'ic', 'i']['mo', 'ur']['dé', 'Cl', 'a']['qu', 'er', 're']['1à'][]['Hs', 't']['di', 'xi', 'êm', 'e']['in', 'vi', 'to', 'në']['ci', 'me', 'td', 'èr', 'e'][]['ré', 'pa', 'di', 'at', 'io', 'n']['po', 'us', 'ce', 'nt']['Si', 'er', 're']['fr', 'an', 'ca', 'is']['or', 'at', 'eu', 'rs'][]
tetragrams_model_war = [][][]['N']['ALLE', 'RMAG', 'NE']['enco', 'urag', 'ecns'][]['Vojo', 'i']['nour'][][][]['Bisè', 'rest']['Rst'][][]['cime', 'tjèr', 'e'][][][]['suer', 're'][][]['MMur', 'ray']
trigrams_model_war = [][][]['N']['ALL', 'ERM', 'AGN', 'E']['enc', 'our', 'age', 'cns'][]['Voj', 'oi']['nou', 'r'][][][]['Bis', 'ère', 'st']['Rst'][][]['cim', 'etj', 'ère'][][][]['sue', 'rre'][][]['MMu', 'rra', 'y']
bigrams_model_war = [][][]['N']['AL', 'LE', 'RM', 'AG', 'NE']['en', 'co', 'ur', 'ag', 'ec', 'ns'][]['Vo', 'jo', 'i']['no', 'ur'][][][]['Bi', 'sè', 're', 'st']['Rs', 't'][][]['ci', 'me', 'tj', 'èr', 'e'][][][]['su', 'er', 're'][][]['MM', 'ur', 'ra', 'y']
tetragrams_model_gt = ['RETT', 'RE'][][][]['ALLE', 'MASN', 'E'][][][][][][][][][][][][]['mnti', 'n'][][]['Suer', 're'][]['orat', 'eurs'][]
trigrams_model_gt = ['RET', 'TRE'][][][]['ALL', 'EMA', 'SNE'][][][][][][][][][][][][]['mnt', 'in'][][]['Sue', 'rre'][]['ora', 'teu', 'rs'][]
bigrams_model_gt = ['RE', 'TT', 'RE'][][][]['AL', 'LE', 'MA', 'SN', 'E'][][][][][][][][][][][][]['mn', 'ti', 'n'][][]['Su', 'er', 're'][]['or', 'at', 'eu', 'rs'][]