-
Notifications
You must be signed in to change notification settings - Fork 0
/
results_unique_and_common_most_popular.py
179 lines (121 loc) · 125 KB
/
results_unique_and_common_most_popular.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
#!/usr/local/bin/python
# -*- coding: utf-8 -*-
"""
- author: Floriane Chiffoleau
- date: April 2023
- description: Results from the scripts for the token analysis with the most popular tokens
"""
#War vs Other
#Number of occurrences: 0
war_unique_2grams = []
#Number of occurrences: 98
other_unique_2grams = ['Bo', 'Br', 'Ch', 'Cl', 'Cr', 'De', 'Do', 'Dé', 'El', 'En', 'Es', 'Fl', 'Ge', 'Go', 'He', 'Ja', 'Ju', 'Lo', 'Lu', 'Me', 'Mm', 'NA', 'NE', 'On', 'Po', 'Qu', 'Re', 'Ré', 'Sa', 'So', 'Sé', 'To', 'Un', 'XX', 'ba', 'bu', 'cc', 'cs', 'cé', 'dè', 'ea', 'ef', 'ei', 'ev', 'ff', 'fl', 'fu', 'gi', 'go', 'gé', 'hu', 'hé', 'ia', 'if', 'ig', 'ip', 'iv', 'lg', 'ls', 'lé', 'mt', 'mu', 'nf', 'nq', 'ob', 'od', 'og', 'om', 'ot', 'où', 'pp', 'pt', 'pé', 'rf', 'rg', 'rn', 'rp', 'ru', 'rê', 'sq', 'ua', 'ub', 'uc', 'ud', 'uf', 'uj', 'um', 'vu', 'vé', 'èc', 'èr', 'éa', 'éd', 'éf', 'ég', 'él', 'ém', 'év']
#Number of occurrences: 211
common_2grams = ['Al', 'BU', 'Bu', 'Ca', 'Ce', 'Co', 'ER', 'Et', 'Fr', 'Il', 'Je', 'LE', 'La', 'Le', 'Ma', 'Mo', 'Mu', 'Ni', 'No', 'PA', 'Pa', 'Pr', 'RE', 'TL', 'Vo', 'ab', 'ac', 'ad', 'af', 'ag', 'ai', 'al', 'am', 'an', 'ap', 'ar', 'as', 'at', 'au', 'av', 'ay', 'be', 'bi', 'bl', 'bo', 'br', 'ca', 'ce', 'ch', 'ci', 'cl', 'co', 'cr', 'ct', 'cu', 'da', 'de', 'di', 'do', 'dr', 'du', 'dé', 'ec', 'el', 'em', 'en', 'er', 'es', 'et', 'eu', 'ex', 'ez', 'fa', 'fe', 'fi', 'fo', 'fr', 'ga', 'ge', 'gl', 'gn', 'gr', 'gu', 'ha', 'he', 'ho', 'ib', 'ic', 'id', 'ie', 'il', 'im', 'in', 'io', 'iq', 'ir', 'is', 'it', 'ix', 'iè', 'ié', 'ja', 'je', 'jo', 'ju', 'la', 'le', 'li', 'll', 'lo', 'lu', 'ma', 'mb', 'me', 'mi', 'mm', 'mo', 'mp', 'mé', 'mê', 'na', 'nc', 'nd', 'ne', 'ng', 'ni', 'nn', 'no', 'ns', 'nt', 'nu', 'nv', 'né', 'oc', 'of', 'oi', 'ol', 'on', 'op', 'or', 'os', 'ou', 'pa', 'pe', 'pi', 'pl', 'po', 'pr', 'pu', 'qu', 'ra', 'rc', 'rd', 're', 'ri', 'rl', 'rm', 'ro', 'rr', 'rs', 'rt', 'rv', 'rè', 'ré', 'sa', 'sc', 'se', 'si', 'so', 'sp', 'ss', 'st', 'su', 'sé', 'ta', 'te', 'ti', 'tl', 'to', 'tr', 'ts', 'tt', 'tu', 'té', 'ue', 'ui', 'ul', 'un', 'up', 'ur', 'us', 'ut', 'uv', 'ux', 'ué', 'va', 've', 'vi', 'vo', 'vr', 'ye', 'ys', 'ça', 'ès', 'éc', 'ée', 'ép', 'ér', 'és', 'ét', 'êt']
#Number of occurrences: 5
war_unique_3grams = ['All', 'mil', 'mor', 'ume', 'écr']
#Number of occurrences: 277
other_unique_3grams = ['Bou', 'Cai', 'Cha', 'Cle', 'Com', 'Con', 'Cor', 'Dot', 'Dép', 'Ell', 'Est', 'Flè', 'Ger', 'Gou', 'Leb', 'Man', 'Mar', 'Mme', 'Nou', 'Pro', 'Sar', 'Sén', 'Tou', 'Uni', 'abl', 'abo', 'acc', 'act', 'adm', 'adv', 'age', 'aie', 'ail', 'air', 'ale', 'alo', 'anc', 'ani', 'ans', 'apr', 'ard', 'ari', 'arr', 'art', 'ate', 'aur', 'aus', 'avo', 'bea', 'bon', 'bre', 'cai', 'cam', 'can', 'car', 'cau', 'cer', 'cet', 'ceu', 'cha', 'cho', 'cil', 'cir', 'cra', 'cri', 'cro', 'cte', 'cti', 'cès', 'céd', 'del', 'dem', 'dep', 'der', 'deu', 'did', 'dif', 'dit', 'doi', 'dou', 'dra', 'déj', 'dél', 'dép', 'eau', 'emb', 'emp', 'enf', 'enn', 'env', 'ers', 'ert', 'erv', 'esp', 'ess', 'etc', 'eux', 'exc', 'exe', 'exp', 'fal', 'fam', 'fau', 'fes', 'fia', 'fil', 'fin', 'foi', 'fon', 'fra', 'fér', 'gré', 'gén', 'heu', 'hon', 'iat', 'ica', 'ici', 'ide', 'ier', 'ili', 'ill', 'ina', 'inc', 'ine', 'ins', 'inv', 'iqu', 'isa', 'ise', 'isi', 'iss', 'ist', 'ite', 'iti', 'its', 'ive', 'jeu', 'jus', 'lem', 'len', 'lib', 'lig', 'liq', 'lis', 'lit', 'lla', 'lon', 'lée', 'mar', 'mat', 'mbr', 'met', 'mid', 'mie', 'min', 'mis', 'mod', 'mun', 'nai', 'nan', 'ncs', 'nde', 'ndr', 'nel', 'nem', 'ner', 'neu', 'nir', 'nne', 'nom', 'non', 'nts', 'off', 'oir', 'ois', 'omm', 'omp', 'onc', 'ond', 'onn', 'ord', 'ore', 'org', 'ori', 'ort', 'ose', 'ouv', 'oué', 'pag', 'pet', 'pla', 'ple', 'por', 'pos', 'pub', 'pui', "qu'", 'rai', 'ran', 'rat', 'rec', 'rel', 'rem', 'ret', 'reu', 'rev', 'rge', 'ria', 'ric', 'rie', 'rit', 'rue', 'réa', 'réc', 'rég', 'rép', 'réu', 'sac', 'sal', 'sat', 'sav', 'scr', 'sec', 'sei', 'sib', 'sim', 'sin', 'som', 'sor', 'squ', 'ssa', 'ssi', 'ssé', 'sta', 'ste', 'sti', 'sto', 'suc', 'séa', 'tai', 'tea', 'tel', 'tem', 'tic', 'tie', 'tis', 'ton', 'tri', 'trè', 'tré', 'tur', 'ubl', 'uco', 'uel', 'ueu', 'uis', 'ula', 'urs', 'use', 'uti', 'uté', 'uve', 'vic', 'vis', 'viv', 'vot', 'vra', 'vre', 'ère', 'ées', 'éga', 'égu', 'éle', 'éra', 'ére', 'été']
#Number of occurrences: 156
common_3grams = ['BUT', 'But', 'Fra', 'LER', 'Les', 'Mai', 'Mon', 'Mur', 'Nic', 'Par', 'Pré', 'aff', 'ain', 'ais', 'ait', 'all', 'ami', 'and', 'ant', 'app', 'ass', 'ati', 'att', 'aut', 'aux', 'ava', 'ave', 'bie', 'ble', 'cel', 'ces', 'che', 'col', 'com', 'con', 'cou', 'dan', 'des', 'dev', 'dir', 'dis', 'don', 'dre', 'déc', 'dév', 'ect', 'ell', 'ema', 'eme', 'enc', 'end', 'ens', 'ent', 'est', 'eur', 'fai', 'for', 'gra', 'gue', 'hol', 'ien', 'ils', 'imp', 'ind', 'int', 'ion', 'ire', 'ita', 'ité', 'jou', 'lai', 'ler', 'les', 'let', 'leu', 'lie', 'lle', 'lui', 'mai', 'mal', 'man', 'men', 'mes', 'moi', 'mon', 'mêm', 'nat', 'nce', 'nes', 'nos', 'not', 'nou', 'nte', 'nça', 'ons', 'ont', 'our', 'pai', 'par', 'pas', 'pay', 'pen', 'per', 'peu', 'plu', 'pou', 'pre', 'pri', 'pro', 'pré', 'qua', 'que', 'qui', 'ray', 'ren', 'rep', 'res', 'ris', 'rre', 'rés', 'sai', 'san', 'sem', 'sen', 'ser', 'ses', 'seu', 'sid', 'sie', 'sio', 'soi', 'son', 'sou', 'sse', 'sui', 'sur', 'tan', 'ten', 'ter', 'tes', 'tio', 'tou', 'tra', 'tre', 'tro', 'une', 'ure', 'vai', 'ven', 'ver', 'vie', 'voi', 'vou', 'éri', 'éta', 'êtr']
#Number of occurrences: 7
war_unique_4grams = ['Alle', 'lett', 'magn', 'mand', 'mort', 'paix', 'écri']
#Number of occurrences: 199
other_unique_4grams = ['Cail', 'Cham', 'Comt', 'Conc', 'Cons', 'Cord', 'Dota', 'Elle', 'Esto', 'Flèc', 'Gouv', 'Lebe', 'Mans', 'Nous', 'Pari', 'Prof', 'Préf', 'Séna', 'VRAI', 'able', 'abor', 'acco', 'accu', 'admi', 'agne', 'aill', 'ains', 'aire', 'alle', 'alor', 'amis', 'ance', 'aprè', 'aris', 'arri', 'asse', 'aura', 'auss', 'auta', 'avan', 'avez', 'avoi', 'avon', 'beau', 'blic', 'camp', 'cand', 'cant', 'cell', 'cett', 'ceux', 'chez', 'choi', 'ciel', 'cipa', 'conc', 'cond', 'conf', 'conn', 'conv', 'coup', 'cour', 'croi', 'dema', 'depu', 'deux', 'diff', 'dire', 'disc', 'donc', 'donn', 'dont', 'délé', 'elet', 'emai', 'ente', 'enti', 'erne', 'esse', 'essi', 'eurs', 'euse', 'exce', 'fall', 'fami', 'faut', 'fils', 'fois', 'fran', 'gran', 'géné', 'heur', 'honn', 'ianc', 'ible', 'idat', 'ient', 'ilia', 'impo', 'impr', 'indi', 'inte', 'inté', 'ions', 'ière', 'jeun', 'jusq', 'lais', 'laux', 'leme', 'lend', 'lité', 'lles', 'long', 'main', 'malg', 'mati', 'mbre', 'midi', 'mond', 'mont', 'nair', 'ndan', 'ndre', 'nomb', 'nomm', 'nouv', 'onal', 'onne', 'orga', 'pass', 'pend', 'pens', 'pers', 'peti', 'plei', 'port', 'poss', 'pouv', 'prem', 'pren', 'pres', 'pris', 'proc', 'prop', 'préc', 'prép', 'prés', 'publ', 'puis', 'quan', 'quel', 'ques', 'quoi', 'reco', 'reme', 'repr', 'resp', 'reux', 'rien', 'rieu', 'rité', 'rtem', 'réac', 'répo', 'répu', 'sant', 'scru', 'semb', 'serv', 'seul', 'sion', 'soir', 'soit', 'somm', 'succ', 'suis', 'séan', 'tant', 'tell', 'temp', 'tena', 'teur', 'touj', 'tour', 'trav', 'trop', 'trou', 'très', 'urne', 'usem', 'vien', 'voir', 'votr', 'voul', 'égal', 'élec', 'ésen', 'étai']
#Number of occurrences: 61
common_4grams = ['BUTL', 'Butl', 'Fran', 'Mais', 'Mons', 'Murr', 'Nich', 'Prés', 'affe', 'atio', 'atte', 'autr', 'avai', 'avec', 'bien', 'cela', 'cher', 'comm', 'comp', 'cons', 'cont', 'dans', 'dévo', 'elle', 'emen', 'ence', 'enco', 'entr', 'fair', 'fait', 'guer', 'iden', 'ieur', 'ique', 'jour', 'leur', 'mais', 'ment', 'moin', 'même', 'notr', 'nous', 'olas', 'ours', 'parl', 'part', 'pays', 'plus', 'pour', 'rend', 'rest', 'sans', 'sera', 'sont', 'sous', 'tion', 'tous', 'tout', 'vous', 'çais', 'être']
#War vs GT
#Number of occurrences: 0
war_unique_2grams = []
#Number of occurrences: 389
gt_unique_2grams = ['AC', 'AD', 'AG', 'AI', 'AL', 'AM', 'AN', 'AP', 'AR', 'AS', 'AT', 'AU', 'AV', 'Af', 'Ag', 'Ai', 'Am', 'An', 'Ao', 'Ap', 'Ar', 'As', 'Au', 'Av', 'BA', 'BE', 'BO', 'Ba', 'Be', 'Bi', 'Bo', 'Br', 'CA', 'CE', 'CH', 'CI', 'CL', 'CO', 'CR', 'Ch', 'Cl', 'Cr', 'DA', 'DE', 'DI', 'DO', 'DR', 'DU', 'Da', 'De', 'Di', 'Do', 'Dr', 'Du', 'DÉ', 'Dé', 'EA', 'EC', 'EG', 'EI', 'EL', 'EM', 'EN', 'ES', 'ET', 'El', 'Em', 'En', 'Es', 'Eu', 'Ex', 'FA', 'FE', 'FI', 'FO', 'FR', 'Fe', 'Fi', 'Fl', 'Fo', 'Fé', 'GA', 'GE', 'GR', 'GU', 'Ga', 'Ge', 'Go', 'Gr', 'Gu', 'Gé', 'HE', 'HO', 'Ha', 'He', 'Ho', 'Hu', 'IA', 'IC', 'ID', 'IE', 'II', 'IL', 'IN', 'IO', 'IR', 'IS', 'IT', 'IX', 'In', 'It', 'JO', 'Ja', 'Jo', 'Ju', 'LA', 'LI', 'LL', 'LO', 'Li', 'Lo', 'Lu', 'Là', 'Lé', 'MA', 'MB', 'ME', 'MI', 'MM', 'MO', 'MP', 'Me', 'Mi', 'NA', 'NC', 'ND', 'NE', 'NG', 'NI', 'NO', 'NS', 'NT', 'Na', 'Ne', 'NÉ', 'OI', 'OL', 'ON', 'OP', 'OR', 'OU', 'Oc', 'On', 'Or', 'Ou', 'PE', 'PI', 'PL', 'PO', 'PP', 'PR', 'PU', 'Pe', 'Pi', 'Po', 'Pu', 'QU', 'Qu', 'RA', 'RD', 'RI', 'RK', 'RN', 'RO', 'RR', 'RS', 'RT', 'RU', 'Re', 'Ri', 'Ro', 'Ru', 'RÉ', 'Ré', 'SA', 'SC', 'SE', 'SI', 'SO', 'SS', 'ST', 'SU', 'Sa', 'Sc', 'Se', 'Si', 'So', 'St', 'Su', 'SÉ', 'Sé', 'TA', 'TE', 'TI', 'TO', 'TR', 'TS', 'TT', 'Ta', 'Te', 'To', 'Tr', 'TÉ', 'UD', 'UE', 'UN', 'UR', 'US', 'UT', 'UX', 'Un', 'VE', 'VI', 'VO', 'Ve', 'Vi', 'WE', 'Wa', 'Wi', 'XI', 'XX', 'YO', 'Yo', 'aj', 'aq', 'aî', 'ba', 'bs', 'bu', 'bé', 'cc', 'cs', 'cè', 'cé', 'cô', 'cœ', 'dg', 'ds', 'dè', 'dû', 'ea', 'ef', 'eg', 'ei', 'ep', 'ev', 'ff', 'fl', 'fu', 'fé', 'fê', 'gg', 'gi', 'gm', 'go', 'gé', 'gê', 'hi', 'hu', 'hy', 'hè', 'hé', 'hô', 'ia', 'if', 'ig', 'ip', 'iv', 'jà', 'ki', 'lc', 'ld', 'lg', 'lh', 'lk', 'ls', 'lt', 'ly', 'là', 'lè', 'lé', 'mn', 'mt', 'mu', 'mè', 'nf', 'nl', 'nq', 'nç', 'nô', 'ob', 'od', 'oe', 'og', 'oj', 'om', 'oq', 'ot', 'ov', 'oy', 'où', 'ph', 'pp', 'ps', 'pt', 'pè', 'pé', 'pê', 'pô', 'rb', 'rf', 'rg', 'rk', 'rn', 'rp', 'rq', 'ru', 'rê', 'rô', 'sf', 'sh', 'sl', 'sm', 'sq', 'sy', 'sû', 'th', 'tâ', 'tê', 'tô', 'ua', 'ub', 'uc', 'ud', 'uf', 'ug', 'uh', 'uj', 'um', 'uê', 'vu', 'vé', 'wa', 'xe', 'xi', 'xt', 'ya', 'yo', 'yé', 'ze', 'ÉN', 'ÉR', 'ÉS', 'ÉT', 'âc', 'âm', 'ât', 'ço', 'èc', 'èg', 'èm', 'èn', 'èr', 'èt', 'èv', 'éa', 'éd', 'ég', 'él', 'ém', 'én', 'éq', 'év', 'êm', 'ît', 'ôt', 'ûl', 'ût', 'œu']
#Number of occurrences: 211
common_2grams = ['Al', 'BU', 'Bu', 'Ca', 'Ce', 'Co', 'ER', 'Et', 'Fr', 'Il', 'Je', 'LE', 'La', 'Le', 'Ma', 'Mo', 'Mu', 'Ni', 'No', 'PA', 'Pa', 'Pr', 'RE', 'TL', 'Vo', 'ab', 'ac', 'ad', 'af', 'ag', 'ai', 'al', 'am', 'an', 'ap', 'ar', 'as', 'at', 'au', 'av', 'ay', 'be', 'bi', 'bl', 'bo', 'br', 'ca', 'ce', 'ch', 'ci', 'cl', 'co', 'cr', 'ct', 'cu', 'da', 'de', 'di', 'do', 'dr', 'du', 'dé', 'ec', 'el', 'em', 'en', 'er', 'es', 'et', 'eu', 'ex', 'ez', 'fa', 'fe', 'fi', 'fo', 'fr', 'ga', 'ge', 'gl', 'gn', 'gr', 'gu', 'ha', 'he', 'ho', 'ib', 'ic', 'id', 'ie', 'il', 'im', 'in', 'io', 'iq', 'ir', 'is', 'it', 'ix', 'iè', 'ié', 'ja', 'je', 'jo', 'ju', 'la', 'le', 'li', 'll', 'lo', 'lu', 'ma', 'mb', 'me', 'mi', 'mm', 'mo', 'mp', 'mé', 'mê', 'na', 'nc', 'nd', 'ne', 'ng', 'ni', 'nn', 'no', 'ns', 'nt', 'nu', 'nv', 'né', 'oc', 'of', 'oi', 'ol', 'on', 'op', 'or', 'os', 'ou', 'pa', 'pe', 'pi', 'pl', 'po', 'pr', 'pu', 'qu', 'ra', 'rc', 'rd', 're', 'ri', 'rl', 'rm', 'ro', 'rr', 'rs', 'rt', 'rv', 'rè', 'ré', 'sa', 'sc', 'se', 'si', 'so', 'sp', 'ss', 'st', 'su', 'sé', 'ta', 'te', 'ti', 'tl', 'to', 'tr', 'ts', 'tt', 'tu', 'té', 'ue', 'ui', 'ul', 'un', 'up', 'ur', 'us', 'ut', 'uv', 'ux', 'ué', 'va', 've', 'vi', 'vo', 'vr', 'ye', 'ys', 'ça', 'ès', 'éc', 'ée', 'ép', 'ér', 'és', 'ét', 'êt']
#Number of occurrences: 0
war_unique_3grams = []
#Number of occurrences: 1124
gt_unique_3grams = ['AIN', 'ALL', 'AMÉ', 'ANI', 'ANS', 'ART', 'ASS', 'ATI', 'Aff', 'Ain', 'Alb', 'Als', 'Amé', 'And', 'Ang', 'Aoû', 'App', 'Apr', 'Ass', 'Auj', 'Aut', 'Avr', 'BOU', 'Bal', 'Bea', 'Bel', 'Ber', 'Bie', 'Bou', 'Bru', 'Bur', 'CAR', 'CLE', 'COM', 'CON', 'COU', 'CRE', 'Cai', 'Car', 'Cec', 'Cel', 'Ces', 'Cet', 'Cha', 'Cle', 'Com', 'Con', 'Cou', 'Cré', 'DAN', 'DES', 'DOT', 'Dan', 'Des', 'Die', 'Dot', 'Dro', 'Déc', 'Dép', 'ELL', 'ENT', 'EST', 'ETT', 'Ell', 'Emp', 'Enc', 'Est', 'Eta', 'Etr', 'Eur', 'FRA', 'Fer', 'Fin', 'Flè', 'Fév', 'GUE', 'Ger', 'Gou', 'Gra', 'Gue', 'Gui', 'Gén', 'Hay', 'Hum', 'ION', 'ISE', 'ITÉ', 'Ils', 'Int', 'Ita', 'Jan', 'Jau', 'Jou', 'Jui', 'Jus', 'LES', 'LET', 'Leu', 'Loi', 'Lon', 'Lor', 'Lou', 'Léo', 'MAI', 'MAN', 'MON', 'Mad', 'Mal', 'Mam', 'Man', 'Mar', 'Mes', 'Min', 'NAT', 'NCA', 'NCE', 'NEG', 'NEL', 'NEW', 'NIP', 'NOT', 'Nat', 'New', 'Nip', 'Non', 'Nor', 'Nos', 'Not', 'Nou', 'Nov', 'OCI', 'OIS', 'ONS', 'OUR', 'Océ', 'PAI', 'PAR', 'POL', 'POU', 'PRO', 'PRÉ', 'Pai', 'Pau', 'Per', 'Pie', 'Pou', 'Pro', 'QUE', 'Qua', 'Que', 'Quo', 'RES', 'RGE', 'RIC', 'RRE', 'Rob', 'Roo', 'Rus', 'Rép', 'SEN', 'SID', 'SOC', 'SON', 'STA', 'Sai', 'San', 'Sar', 'Sec', 'Sep', 'Soc', 'Sui', 'SÉN', 'Sén', 'TIO', 'TRE', 'TTR', 'Tan', 'Tou', 'Tra', 'UNI', 'Une', 'Uni', 'Ver', 'Voi', 'Vot', 'Vou', 'Wil', 'XXX', 'YOR', 'aba', 'abl', 'abo', 'abs', 'abu', 'acc', 'ace', 'ach', 'act', 'ade', 'adm', 'ado', 'adr', 'adv', 'age', 'agg', 'agi', 'agn', 'agr', 'agé', 'ahi', 'aid', 'aie', 'aig', 'ail', 'aim', 'air', 'ajo', 'alc', 'ale', 'ali', 'alo', 'amb', 'ame', 'amm', 'amé', 'ana', 'anc', 'ane', 'ang', 'ani', 'ann', 'ans', 'ané', 'apa', 'ape', 'apr', 'aqu', 'ara', 'arb', 'arc', 'ard', 'are', 'arg', 'ari', 'arm', 'arr', 'art', 'asi', 'ast', 'ate', 'atr', 'ats', 'auc', 'aud', 'aug', 'auj', 'aup', 'aur', 'aus', 'avi', 'avo', 'aye', 'aît', 'bal', 'ban', 'bar', 'bas', 'bat', 'bea', 'bel', 'ber', 'bes', 'bil', 'bla', 'bli', 'blo', 'blè', 'blé', 'boi', 'bon', 'bor', 'bou', 'bra', 'bre', 'bri', 'bru', 'brû', 'bud', 'bue', 'bur', 'but', 'bén', 'cac', 'cai', 'cal', 'cam', 'can', 'cap', 'car', 'cas', 'cat', 'cau', 'cea', 'cem', 'cen', 'cep', 'cer', 'cet', 'ceu', 'cha', 'chi', 'cho', 'châ', 'ché', 'cia', 'cie', 'cil', 'cin', 'cip', 'cir', 'cis', 'cit', 'civ', 'cla', 'cle', 'cli', 'clu', 'coe', 'cor', 'coû', 'cra', 'cri', 'cro', 'cré', 'cta', 'cte', 'cti', 'cto', 'cui', 'cul', 'cun', 'cur', 'cus', 'cut', 'cès', 'céd', 'cée', 'cél', 'côt', 'cœu', 'dai', 'dam', 'dat', 'dav', 'dem', 'den', 'dep', 'der', 'deu', 'dia', 'dic', 'dif', 'dig', 'dim', 'din', 'dip', 'dit', 'div', 'doi', 'dom', 'dou', 'dra', 'dro', 'duc', 'due', 'dui', 'dur', 'dus', 'dès', 'déb', 'déf', 'dég', 'déj', 'dél', 'dém', 'dén', 'dép', 'dés', 'dét', 'eau', 'eff', 'eig', 'eil', 'elo', 'els', 'elt', 'elé', 'emb', 'emi', 'emm', 'emp', 'enf', 'eng', 'eni', 'enn', 'enq', 'enr', 'enu', 'env', 'ept', 'era', 'erc', 'ere', 'eri', 'erm', 'ern', 'ero', 'err', 'ers', 'ert', 'erv', 'esc', 'esp', 'ess', 'etc', 'ets', 'ett', 'eté', 'eun', 'eus', 'euv', 'eux', 'eve', 'evo', 'exa', 'exc', 'exe', 'exi', 'exp', 'ext', 'exé', 'fac', 'fal', 'fam', 'fan', 'fau', 'fav', 'fem', 'fer', 'fes', 'feu', 'ffr', 'fia', 'fic', 'fid', 'fie', 'fig', 'fil', 'fin', 'fir', 'fit', 'fix', 'fle', 'foi', 'fon', 'fou', 'foy', 'fra', 'fro', 'frs', 'fru', 'fun', 'fut', 'fér', 'fêt', 'gag', 'gai', 'gar', 'gen', 'ger', 'ges', 'get', 'gin', 'giq', 'glo', 'gne', 'gné', 'gou', 'gre', 'gro', 'grâ', 'grè', 'gré', 'gte', 'gée', 'gén', 'gên', 'hab', 'hai', 'han', 'hau', 'haî', 'her', 'hes', 'heu', 'hie', 'hin', 'his', 'hom', 'hon', 'hor', 'hos', 'hou', 'hui', 'hum', 'hél', 'hér', 'hôt', 'ial', 'ian', 'iat', 'ibl', 'ibé', 'ica', 'ice', 'ich', 'ici', 'icl', 'ide', 'idé', 'iel', 'ier', 'ies', 'ieu', 'iez', 'ife', 'iff', 'ifi', 'ifs', 'ige', 'igi', 'ign', 'igé', 'ile', 'ili', 'ill', 'ima', 'ime', 'imi', 'imm', 'ina', 'inc', 'ine', 'inf', 'ing', 'ini', 'ino', 'inq', 'ins', 'inu', 'inv', 'iné', 'iqu', 'ira', 'irm', 'iro', 'irr', 'isa', 'ise', 'isi', 'ism', 'iso', 'iss', 'ist', 'isé', 'ite', 'iti', 'ito', 'itr', 'its', 'itu', 'iva', 'ive', 'ivi', 'ivr', 'ivé', 'ièr', 'iée', 'iés', 'iét', 'jad', 'jam', 'jet', 'jeu', 'joi', 'jug', 'jui', 'jus', 'kan', 'kil', 'lab', 'lag', 'lam', 'lan', 'laq', 'lar', 'las', 'lat', 'lau', 'lec', 'lem', 'len', 'lev', 'lez', 'lia', 'lib', 'lic', 'lig', 'lim', 'lin', 'lio', 'liq', 'lir', 'lis', 'lit', 'liv', 'lié', 'lla', 'lli', 'loc', 'log', 'loi', 'lom', 'lon', 'lor', 'lou', 'loy', 'lqu', 'lue', 'lut', 'lux', 'lèg', 'lée', 'lég', 'mac', 'mag', 'maj', 'mar', 'mas', 'mat', 'mau', 'maî', 'mbr', 'mei', 'mem', 'mer', 'met', 'meu', 'mie', 'min', 'mir', 'mis', 'miè', 'mme', 'mod', 'mom', 'mot', 'mou', 'moy', 'mpe', 'mpl', 'mps', 'mul', 'mun', 'mus', 'mèr', 'méc', 'méd', 'mém', 'mér', 'mét', 'nag', 'nai', 'nal', 'nan', 'naî', 'nch', 'nci', 'nco', 'ncs', 'ncu', 'nda', 'nde', 'ndi', 'ndo', 'ndr', 'nds', 'neg', 'nel', 'nem', 'nen', 'ner', 'net', 'neu', 'nfa', 'nge', 'nie', 'nif', 'nim', 'nio', 'nir', 'nis', 'niè', 'nna', 'nne', 'nné', 'nob', 'nom', 'non', 'nor', 'nqu', 'nsp', 'nta', 'nti', 'nts', 'nui', 'nul', 'néc', 'née', 'nég', 'nés', 'nôt', 'obj', 'obl', 'obr', 'obs', 'occ', 'oci', 'ocr', 'oeu', 'off', 'oie', 'oin', 'oir', 'ois', 'ole', 'olt', 'olu', 'olé', 'omm', 'omn', 'omo', 'omp', 'omè', 'ona', 'onc', 'ond', 'oni', 'onn', 'ope', 'opi', 'opp', 'opé', 'ora', 'ord', 'ore', 'org', 'ori', 'orm', 'ort', 'osa', 'ose', 'oss', 'osé', 'oub', 'oue', 'ous', 'out', 'ouv', 'oué', 'pab', 'pac', 'pag', 'pal', 'pan', 'pat', 'pau', 'pec', 'pei', 'pel', 'pes', 'pet', 'pie', 'pil', 'pir', 'pit', 'piè', 'pla', 'ple', 'pli', 'plè', 'plé', 'poi', 'pol', 'pon', 'pop', 'por', 'pos', 'ppe', 'ppé', 'pru', 'prè', 'prê', 'pte', 'pti', 'pub', 'pui', 'pèr', 'pén', 'pér', 'quo', 'qué', 'quê', 'rab', 'rac', 'rag', 'rai', 'ral', 'ran', 'rap', 'rar', 'ras', 'rat', 'rav', 'rce', 'rch', 'rds', 'rec', 'red', 'ref', 'reg', 'rel', 'rem', 'rer', 'ret', 'reu', 'rev', 'rez', 'reç', 'rge', 'rgi', 'rgé', 'ria', 'rib', 'ric', 'rie', 'rif', 'rim', 'rio', 'riq', 'rir', 'rit', 'riv', 'riè', 'rme', 'rmo', 'rna', 'rne', 'rni', 'rné', 'rob', 'roc', 'ron', 'rop', 'rou', 'roy', 'rqu', 'rra', 'rri', 'rro', 'rsu', 'rta', 'rue', 'rui', 'rès', 'réa', 'réc', 'réd', 'rée', 'réf', 'rég', 'rép', 'rét', 'réu', 'rév', 'rêv', 'rôl', 'sab', 'sac', 'sag', 'sal', 'sat', 'sau', 'sav', 'sci', 'scr', 'sec', 'sei', 'sel', 'sev', 'sib', 'sig', 'sil', 'sim', 'sin', 'sis', 'sit', 'six', 'siè', 'sme', 'soc', 'sol', 'som', 'sor', 'spe', 'spé', 'squ', 'ssa', 'ssi', 'sso', 'ssé', 'sta', 'ste', 'sti', 'sto', 'str', 'sub', 'suc', 'suf', 'suj', 'sup', 'sus', 'sym', 'sys', 'séa', 'séc', 'sée', 'séq', 'sér', 'sés', 'sûr', 'tab', 'tac', 'tag', 'tai', 'tal', 'tar', 'tat', 'tau', 'tea', 'tel', 'tem', 'teu', 'tex', 'the', 'thè', 'tia', 'tic', 'tie', 'tif', 'til', 'tim', 'tin', 'tiq', 'tir', 'tis', 'tit', 'tiv', 'tié', 'toi', 'tom', 'ton', 'tor', 'tot', 'tri', 'tru', 'trè', 'tré', 'tte', 'tud', 'tue', 'tur', 'tué', 'tèm', 'tée', 'tél', 'tém', 'tés', 'têt', 'tôt', 'uat', 'ubl', 'uco', 'ude', 'uei', 'uel', 'uen', 'uer', 'ues', 'ueu', 'uff', 'uis', 'uit', 'uié', 'ula', 'uli', 'ult', 'una', 'uni', 'uns', 'upe', 'ura', 'urg', 'urr', 'urs', 'usa', 'use', 'usi', 'ust', 'usé', 'ute', 'uti', 'uté', 'uva', 'uve', 'uvi', 'uvé', 'uêt', 'vag', 'val', 'van', 'var', 'vat', 'vau', 'vea', 'vei', 'vel', 'vem', 'ves', 'veu', 'vic', 'vid', 'vig', 'vil', 'vin', 'vio', 'vir', 'vis', 'vit', 'viv', 'vol', 'von', 'voq', 'vos', 'vot', 'voy', 'vra', 'vre', 'vue', 'vée', 'vér', 'xel', 'yeu', 'âme', 'çai', 'èle', 'ème', 'ère', 'ève', 'éch', 'écl', 'éco', 'édi', 'édu', 'ées', 'éfi', 'éga', 'égo', 'égr', 'égu', 'éla', 'éle', 'éli', 'élo', 'élu', 'élé', 'éme', 'émo', 'éne', 'éni', 'éno', 'énu', 'épa', 'épe', 'épo', 'épr', 'épu', 'équ', 'éra', 'ére', 'éro', 'éré', 'érê', 'éte', 'éti', 'étr', 'étu', 'été', 'évi', 'êch', 'ême', 'ête', 'ôts', 'œuv']
#Number of occurrences: 161
common_3grams = ['All', 'BUT', 'But', 'Fra', 'LER', 'Les', 'Mai', 'Mon', 'Mur', 'Nic', 'Par', 'Pré', 'aff', 'ain', 'ais', 'ait', 'all', 'ami', 'and', 'ant', 'app', 'ass', 'ati', 'att', 'aut', 'aux', 'ava', 'ave', 'bie', 'ble', 'cel', 'ces', 'che', 'col', 'com', 'con', 'cou', 'dan', 'des', 'dev', 'dir', 'dis', 'don', 'dre', 'déc', 'dév', 'ect', 'ell', 'ema', 'eme', 'enc', 'end', 'ens', 'ent', 'est', 'eur', 'fai', 'for', 'gra', 'gue', 'hol', 'ien', 'ils', 'imp', 'ind', 'int', 'ion', 'ire', 'ita', 'ité', 'jou', 'lai', 'ler', 'les', 'let', 'leu', 'lie', 'lle', 'lui', 'mai', 'mal', 'man', 'men', 'mes', 'mil', 'moi', 'mon', 'mor', 'mêm', 'nat', 'nce', 'nes', 'nos', 'not', 'nou', 'nte', 'nça', 'ons', 'ont', 'our', 'pai', 'par', 'pas', 'pay', 'pen', 'per', 'peu', 'plu', 'pou', 'pre', 'pri', 'pro', 'pré', 'qua', 'que', 'qui', 'ray', 'ren', 'rep', 'res', 'ris', 'rre', 'rés', 'sai', 'san', 'sem', 'sen', 'ser', 'ses', 'seu', 'sid', 'sie', 'sio', 'soi', 'son', 'sou', 'sse', 'sui', 'sur', 'tan', 'ten', 'ter', 'tes', 'tio', 'tou', 'tra', 'tre', 'tro', 'ume', 'une', 'ure', 'vai', 'ven', 'ver', 'vie', 'voi', 'vou', 'écr', 'éri', 'éta', 'êtr']
#Number of occurrences: 0
war_unique_4grams = []
#Number of occurrences: 1228
gt_unique_4grams = ['AMÉR', 'ASSO', 'Affa', 'Ains', 'Alli', 'Alsa', 'Amér', 'Andr', 'Angl', 'Août', 'Aprè', 'Asso', 'Aujo', 'Autr', 'Avri', 'BOUR', 'Beau', 'Belg', 'Bien', 'Bour', 'Brux', 'Bure', 'CAIS', 'CARN', 'CIAT', 'CONS', 'CREA', 'Cail', 'Carn', 'Ceci', 'Cela', 'Cett', 'Cham', 'Clem', 'Cler', 'Comi', 'Comm', 'Conc', 'Conf', 'Cons', 'Cour', 'Créa', 'DANS', 'DOTA', 'Dans', 'Dieu', 'Dota', 'Droi', 'Déce', 'Dépa', 'EGIE', 'ESTO', 'ETTR', 'Elle', 'Empe', 'Empi', 'Enco', 'Etat', 'Etra', 'Euro', 'FRAN', 'Flèc', 'Févr', 'GEOI', 'GUER', 'Gouv', 'Guer', 'Guil', 'Géné', 'Haye', 'Huma', 'ICAI', 'IDEN', 'Inte', 'Ital', 'Janv', 'Jour', 'Juil', 'LETT', 'LLES', 'Leur', 'Loir', 'Lond', 'Lord', 'Lorr', 'Loui', 'Léon', 'Mame', 'Mans', 'Mars', 'Mini', 'Mond', 'Mont', 'NATI', 'NIPP', 'NOTR', 'Nati', 'Nipp', 'Notr', 'Nous', 'Nove', 'PAIX', 'PARI', 'POUR', 'PRÉS', 'Paix', 'Pari', 'Parl', 'Paul', 'Pier', 'Pour', 'Prof', 'Quan', 'Quel', 'Quoi', 'Robe', 'Roos', 'Russ', 'Répu', 'SENA', 'SOCI', 'Sain', 'Sart', 'Secr', 'Sept', 'Soci', 'Suis', 'SÉNA', 'Séna', 'TANT', 'TION', 'Tous', 'Tout', 'URNE', 'Unis', 'VRAI', 'Voic', 'Voil', 'Votr', 'Vous', 'Wils', 'XXXX', 'YORK', 'York', 'aban', 'abat', 'able', 'abor', 'abus', 'acce', 'acco', 'accu', 'ache', 'acte', 'acti', 'actu', 'admi', 'adre', 'adve', 'affa', 'affi', 'agan', 'ages', 'aggr', 'agne', 'agre', 'aide', 'aien', 'aill', 'aine', 'ains', 'aire', 'aise', 'aiss', 'aite', 'ajou', 'ales', 'alis', 'alla', 'alle', 'alli', 'allo', 'allé', 'alor', 'ambi', 'amis', 'amné', 'amér', 'ance', 'anci', 'ande', 'angl', 'anim', 'anne', 'anno', 'anné', 'ante', 'anti', 'ants', 'aper', 'appa', 'appe', 'appl', 'appo', 'appr', 'appu', 'aprè', 'arat', 'araî', 'arbi', 'arer', 'arge', 'arme', 'armé', 'arri', 'arro', 'arrê', 'arti', 'arée', 'asse', 'assi', 'asso', 'assu', 'ateu', 'athi', 'atro', 'atta', 'atti', 'attr', 'atté', 'atur', 'aucu', 'audi', 'augm', 'aujo', 'aupa', 'aura', 'auro', 'auss', 'auta', 'auto', 'avan', 'aven', 'aver', 'avez', 'avio', 'avis', 'avoi', 'avon', 'aîne', 'barb', 'bata', 'beau', 'bell', 'beso', 'bili', 'bles', 'blic', 'bliq', 'bloc', 'bonn', 'bord', 'born', 'bouc', 'bour', 'brav', 'brûl', 'budg', 'bure', 'béné', 'cain', 'camp', 'cand', 'cant', 'carr', 'cata', 'cati', 'caus', 'cell', 'celu', 'cent', 'cepe', 'cert', 'cess', 'cett', 'ceux', 'chac', 'chal', 'cham', 'chan', 'chaq', 'char', 'chau', 'chef', 'chem', 'chev', 'chez', 'chif', 'chis', 'choi', 'chos', 'chât', 'chée', 'ciat', 'ciel', 'cien', 'cier', 'cinq', 'cipa', 'cipe', 'circ', 'cité', 'civi', 'clai', 'clas', 'coeu', 'coll', 'colo', 'comb', 'conc', 'cond', 'conf', 'conn', 'conq', 'conv', 'cord', 'corr', 'coup', 'cour', 'couv', 'coût', 'crai', 'crat', 'crim', 'cris', 'croi', 'croy', 'créa', 'ctio', 'ctue', 'cult', 'côté', 'cœur', 'dang', 'dava', 'dema', 'depu', 'dern', 'desc', 'dess', 'dest', 'deui', 'deux', 'deva', 'deve', 'devi', 'devo', 'devr', 'diff', 'dign', 'dipl', 'dira', 'dire', 'diri', 'disa', 'disc', 'disp', 'dist', 'dive', 'divi', 'doit', 'domi', 'donc', 'donn', 'dont', 'doub', 'doul', 'dout', 'dres', 'droi', 'dura', 'dure', 'déba', 'débu', 'déce', 'déch', 'déci', 'décl', 'déco', 'défa', 'défe', 'défi', 'déje', 'déjà', 'déli', 'délé', 'démo', 'déno', 'dépa', 'dépe', 'dépi', 'dépo', 'désa', 'dése', 'dési', 'déso', 'détr', 'déve', 'eaux', 'ecti', 'effe', 'effi', 'effo', 'effr', 'egie', 'eill', 'emai', 'embr', 'emme', 'empl', 'empo', 'empê', 'encé', 'enda', 'endr', 'endu', 'enfa', 'enfi', 'enga', 'enir', 'enne', 'enqu', 'enri', 'ense', 'ensu', 'enta', 'ente', 'enti', 'ents', 'enva', 'enve', 'envi', 'envo', 'epri', 'erai', 'erce', 'erne', 'eron', 'erre', 'erse', 'erve', 'espo', 'espr', 'espè', 'espé', 'essa', 'esse', 'essi', 'esta', 'este', 'esti', 'eten', 'eter', 'ette', 'eure', 'eurs', 'euse', 'evel', 'exac', 'exce', 'exem', 'exer', 'exis', 'expl', 'expo', 'expr', 'expé', 'extr', 'exéc', 'face', 'faci', 'faib', 'fais', 'fall', 'fami', 'faud', 'faut', 'fave', 'favo', 'femm', 'fera', 'ferm', 'fest', 'ffér', 'fica', 'fice', 'fidè', 'fier', 'figu', 'fill', 'fils', 'fina', 'fini', 'fiqu', 'fleu', 'fois', 'fonc', 'fond', 'font', 'forc', 'form', 'fort', 'forê', 'four', 'foye', 'frai', 'fran', 'frap', 'fron', 'frui', 'futu', 'fête', 'gagn', 'gard', 'gean', 'geme', 'gens', 'geoi', 'gion', 'gouv', 'gran', 'grat', 'gros', 'grou', 'grâc', 'grèv', 'géné', 'habi', 'hain', 'haut', 'heur', 'hier', 'hist', 'homm', 'honn', 'hont', 'horr', 'huma', 'héla', 'héro', 'hôte', 'iale', 'ianc', 'iard', 'iati', 'ible', 'icai', 'icat', 'ices', 'icil', 'icul', 'idéa', 'idée', 'idér', 'iens', 'ient', 'iers', 'ieux', 'ific', 'ifie', 'ifié', 'igne', 'igno', 'ilia', 'ille', 'illu', 'imen', 'imes', 'imit', 'imme', 'impo', 'impr', 'impu', 'impé', 'impô', 'inca', 'ince', 'inco', 'inct', 'indi', 'indé', 'iner', 'ines', 'inex', 'infi', 'infé', 'ingr', 'init', 'inqu', 'insi', 'insp', 'inst', 'insu', 'inte', 'inté', 'inue', 'inut', 'inva', 'invi', 'inév', 'iona', 'ionn', 'ions', 'ipli', 'ires', 'irré', 'isan', 'isme', 'isol', 'ison', 'issa', 'isse', 'issi', 'iste', 'ital', 'iter', 'itio', 'itud', 'itut', 'ière', 'jadi', 'jama', 'jeun', 'joie', 'join', 'juge', 'jusq', 'just', 'kilo', 'lair', 'lais', 'lait', 'lame', 'lanc', 'lang', 'lant', 'laqu', 'larg', 'lass', 'lati', 'laum', 'laux', 'leme', 'lend', 'lent', 'lesq', 'less', 'libe', 'libr', 'libé', 'lier', 'lieu', 'lign', 'limi', 'liqu', 'lisa', 'list', 'lité', 'livr', 'lièr', 'llem', 'llen', 'lles', 'loca', 'loin', 'long', 'lopp', 'ltat', 'luti', 'lutt', 'lème', 'lète', 'légi', 'léon', 'mach', 'maga', 'main', 'mair', 'majo', 'mala', 'malg', 'malh', 'mani', 'manq', 'marc', 'mari', 'mass', 'mati', 'maté', 'mauv', 'maît', 'mble', 'mblé', 'mbre', 'meil', 'memb', 'mena', 'mens', 'mesu', 'mett', 'mieu', 'mili', 'mill', 'mini', 'mira', 'miss', 'mmen', 'mobi', 'mode', 'mois', 'mome', 'mond', 'mons', 'mont', 'monu', 'mora', 'moye', 'mpar', 'mphe', 'mère', 'mètr', 'médi', 'méri', 'nair', 'nais', 'nant', 'nati', 'natu', 'naux', 'nces', 'nche', 'ncie', 'ndai', 'ndan', 'nden', 'nder', 'ndie', 'ndis', 'ndre', 'nent', 'neut', 'nger', 'ngèr', 'nisa', 'nise', 'nist', 'nisé', 'nité', 'nnai', 'nnaî', 'nnel', 'nobl', 'nomb', 'nomm', 'norm', 'nota', 'nour', 'nouv', 'nses', 'ntag', 'ntai', 'nten', 'ntie', 'ntio', 'ntér', 'nuer', 'néce', 'nées', 'nôtr', 'obat', 'obje', 'obli', 'obse', 'occa', 'occu', 'oche', 'oeuv', 'offe', 'offi', 'oire', 'omat', 'omiq', 'onal', 'onge', 'onna', 'onne', 'onni', 'onsa', 'ontr', 'opin', 'oppo', 'ordi', 'ordr', 'orga', 'orgu', 'orie', 'orig', 'orte', 'orti', 'oser', 'osit', 'oubl', 'ourc', 'outr', 'ouve', 'ouvr', 'oyab', 'paci', 'paie', 'pala', 'para', 'parc', 'pare', 'parf', 'parm', 'paro', 'pass', 'pati', 'patr', 'pauv', 'paye', 'pein', 'pend', 'pens', 'perd', 'perm', 'pers', 'pert', 'peti', 'peup', 'peut', 'peuv', 'pire', 'plac', 'plai', 'plan', 'plei', 'plup', 'plut', 'poin', 'poli', 'popu', 'port', 'poss', 'pous', 'pouv', 'prem', 'pren', 'pres', 'prin', 'pris', 'priv', 'prix', 'prob', 'proc', 'prod', 'prof', 'prog', 'proj', 'prol', 'prom', 'pron', 'prop', 'prot', 'prov', 'prus', 'près', 'préc', 'prép', 'prés', 'prét', 'prév', 'prêt', 'ptio', 'publ', 'puis', 'père', 'péen', 'péri', 'quan', 'quar', 'quat', 'quel', 'ques', 'queu', 'quil', 'quoi', 'rabl', 'radi', 'raie', 'rair', 'rais', 'rait', 'rale', 'rali', 'ramm', 'ranc', 'rant', 'rapi', 'rapp', 'rare', 'rati', 'raux', 'rava', 'rdre', 'rece', 'reco', 'recu', 'refu', 'rega', 'regr', 'rela', 'reli', 'rell', 'reme', 'remp', 'renc', 'reno', 'rent', 'repa', 'repo', 'repr', 'resp', 'ress', 'reta', 'reto', 'retr', 'reur', 'reus', 'reux', 'reva', 'reve', 'revi', 'rial', 'ribu', 'rich', 'riel', 'rien', 'rieu', 'rise', 'risq', 'rité', 'rnat', 'rons', 'ront', 'rout', 'rray', 'rsai', 'rtan', 'rtem', 'ruct', 'ruin', 'réac', 'réal', 'réce', 'récl', 'réco', 'rédi', 'rédu', 'réfl', 'réfu', 'régi', 'régl', 'régu', 'répa', 'répo', 'répu', 'rése', 'rési', 'réso', 'résu', 'réta', 'réun', 'réus', 'révo', 'rôle', 'sabl', 'sach', 'sacr', 'sage', 'sais', 'sait', 'sanc', 'sang', 'sant', 'sati', 'sauv', 'save', 'savo', 'seco', 'secr', 'sema', 'semb', 'seme', 'sens', 'sent', 'sero', 'serv', 'seul', 'sien', 'sign', 'simp', 'sion', 'situ', 'sièg', 'soci', 'soie', 'soin', 'soir', 'soit', 'sold', 'somm', 'sons', 'sort', 'souf', 'souh', 'soul', 'sour', 'sout', 'souv', 'spec', 'spor', 'ssai', 'ssan', 'sser', 'ssib', 'ssio', 'stan', 'ster', 'stes', 'stic', 'stre', 'stro', 'stèr', 'subi', 'subs', 'succ', 'suff', 'suis', 'suit', 'suiv', 'suje', 'supp', 'supé', 'surp', 'surt', 'surv', 'susc', 'susp', 'symp', 'syst', 'séan', 'séri', 'tabl', 'tacl', 'tage', 'tain', 'tair', 'tait', 'tand', 'tant', 'tard', 'tari', 'tate', 'tati', 'taux', 'tell', 'teme', 'temp', 'tena', 'tend', 'teni', 'tent', 'tenu', 'term', 'terr', 'teur', 'text', 'tien', 'tiqu', 'titr', 'titu', 'tité', 'tive', 'tomb', 'tora', 'tort', 'tota', 'touc', 'touj', 'tour', 'trad', 'trag', 'trai', 'tran', 'trav', 'tres', 'trio', 'tris', 'troi', 'trom', 'trop', 'trou', 'très', 'ttre', 'tude', 'tuel', 'ture', 'télé', 'témo', 'tête', 'ucti', 'uell', 'uels', 'ueme', 'uent', 'uire', 'uite', 'uits', 'unan', 'uner', 'unes', 'unio', 'uniq', 'univ', 'urag', 'ures', 'urie', 'urne', 'urre', 'usem', 'usse', 'ussi', 'utif', 'util', 'uves', 'uête', 'vain', 'vait', 'vale', 'vant', 'vari', 'veil', 'veme', 'vend', 'veni', 'vent', 'venu', 'vera', 'vere', 'verr', 'vers', 'veul', 'veut', 'vict', 'vide', 'viei', 'vien', 'vieu', 'vill', 'vins', 'viol', 'visi', 'vite', 'vité', 'viva', 'vive', 'vivr', 'voic', 'voie', 'voil', 'voir', 'vois', 'voit', 'voix', 'volo', 'vont', 'votr', 'voud', 'voul', 'voya', 'voye', 'véri', 'yeux', 'ÉNAT', 'ègue', 'ères', 'écha', 'éche', 'écho', 'écla', 'écon', 'écra', 'édif', 'éduc', 'égal', 'égar', 'élec', 'élev', 'émen', 'éner', 'énor', 'épar', 'épre', 'épui', 'éque', 'équi', 'éren', 'ésen', 'étab', 'étai', 'étan', 'état', 'étra', 'étud', 'évit', 'êtes', 'œuvr']
#Number of occurrences: 68
common_4grams = ['Alle', 'BUTL', 'Butl', 'Fran', 'Mais', 'Mons', 'Murr', 'Nich', 'Prés', 'affe', 'atio', 'atte', 'autr', 'avai', 'avec', 'bien', 'cela', 'cher', 'comm', 'comp', 'cons', 'cont', 'dans', 'dévo', 'elle', 'emen', 'ence', 'enco', 'entr', 'fair', 'fait', 'guer', 'iden', 'ieur', 'ique', 'jour', 'lett', 'leur', 'magn', 'mais', 'mand', 'ment', 'moin', 'mort', 'même', 'notr', 'nous', 'olas', 'ours', 'paix', 'parl', 'part', 'pays', 'plus', 'pour', 'rend', 'rest', 'sans', 'sera', 'sont', 'sous', 'tion', 'tous', 'tout', 'vous', 'çais', 'écri', 'être']
#Other vs GT
#Number of occurrences: 2
other_unique_2grams = ['Mm', 'éf']
#Number of occurrences: 293
gt_unique_2grams = ['AC', 'AD', 'AG', 'AI', 'AL', 'AM', 'AN', 'AP', 'AR', 'AS', 'AT', 'AU', 'AV', 'Af', 'Ag', 'Ai', 'Am', 'An', 'Ao', 'Ap', 'Ar', 'As', 'Au', 'Av', 'BA', 'BE', 'BO', 'Ba', 'Be', 'Bi', 'CA', 'CE', 'CH', 'CI', 'CL', 'CO', 'CR', 'DA', 'DE', 'DI', 'DO', 'DR', 'DU', 'Da', 'Di', 'Dr', 'Du', 'DÉ', 'EA', 'EC', 'EG', 'EI', 'EL', 'EM', 'EN', 'ES', 'ET', 'Em', 'Eu', 'Ex', 'FA', 'FE', 'FI', 'FO', 'FR', 'Fe', 'Fi', 'Fo', 'Fé', 'GA', 'GE', 'GR', 'GU', 'Ga', 'Gr', 'Gu', 'Gé', 'HE', 'HO', 'Ha', 'Ho', 'Hu', 'IA', 'IC', 'ID', 'IE', 'II', 'IL', 'IN', 'IO', 'IR', 'IS', 'IT', 'IX', 'In', 'It', 'JO', 'Jo', 'LA', 'LI', 'LL', 'LO', 'Li', 'Là', 'Lé', 'MA', 'MB', 'ME', 'MI', 'MM', 'MO', 'MP', 'Mi', 'NC', 'ND', 'NG', 'NI', 'NO', 'NS', 'NT', 'Na', 'Ne', 'NÉ', 'OI', 'OL', 'ON', 'OP', 'OR', 'OU', 'Oc', 'Or', 'Ou', 'PE', 'PI', 'PL', 'PO', 'PP', 'PR', 'PU', 'Pe', 'Pi', 'Pu', 'QU', 'RA', 'RD', 'RI', 'RK', 'RN', 'RO', 'RR', 'RS', 'RT', 'RU', 'Ri', 'Ro', 'Ru', 'RÉ', 'SA', 'SC', 'SE', 'SI', 'SO', 'SS', 'ST', 'SU', 'Sc', 'Se', 'Si', 'St', 'Su', 'SÉ', 'TA', 'TE', 'TI', 'TO', 'TR', 'TS', 'TT', 'Ta', 'Te', 'Tr', 'TÉ', 'UD', 'UE', 'UN', 'UR', 'US', 'UT', 'UX', 'VE', 'VI', 'VO', 'Ve', 'Vi', 'WE', 'Wa', 'Wi', 'XI', 'YO', 'Yo', 'aj', 'aq', 'aî', 'bs', 'bé', 'cè', 'cô', 'cœ', 'dg', 'ds', 'dû', 'eg', 'ep', 'fé', 'fê', 'gg', 'gm', 'gê', 'hi', 'hy', 'hè', 'hô', 'jà', 'ki', 'lc', 'ld', 'lh', 'lk', 'lt', 'ly', 'là', 'lè', 'mn', 'mè', 'nl', 'nç', 'nô', 'oe', 'oj', 'oq', 'ov', 'oy', 'ph', 'ps', 'pè', 'pê', 'pô', 'rb', 'rk', 'rq', 'rô', 'sf', 'sh', 'sl', 'sm', 'sy', 'sû', 'th', 'tâ', 'tê', 'tô', 'ug', 'uh', 'uê', 'wa', 'xe', 'xi', 'xt', 'ya', 'yo', 'yé', 'ze', 'ÉN', 'ÉR', 'ÉS', 'ÉT', 'âc', 'âm', 'ât', 'ço', 'èg', 'èm', 'èn', 'èt', 'èv', 'én', 'éq', 'êm', 'ît', 'ôt', 'ûl', 'ût', 'œu']
#Number of occurrences: 307
common_2grams = ['Al', 'BU', 'Bo', 'Br', 'Bu', 'Ca', 'Ce', 'Ch', 'Cl', 'Co', 'Cr', 'De', 'Do', 'Dé', 'ER', 'El', 'En', 'Es', 'Et', 'Fl', 'Fr', 'Ge', 'Go', 'He', 'Il', 'Ja', 'Je', 'Ju', 'LE', 'La', 'Le', 'Lo', 'Lu', 'Ma', 'Me', 'Mo', 'Mu', 'NA', 'NE', 'Ni', 'No', 'On', 'PA', 'Pa', 'Po', 'Pr', 'Qu', 'RE', 'Re', 'Ré', 'Sa', 'So', 'Sé', 'TL', 'To', 'Un', 'Vo', 'XX', 'ab', 'ac', 'ad', 'af', 'ag', 'ai', 'al', 'am', 'an', 'ap', 'ar', 'as', 'at', 'au', 'av', 'ay', 'ba', 'be', 'bi', 'bl', 'bo', 'br', 'bu', 'ca', 'cc', 'ce', 'ch', 'ci', 'cl', 'co', 'cr', 'cs', 'ct', 'cu', 'cé', 'da', 'de', 'di', 'do', 'dr', 'du', 'dè', 'dé', 'ea', 'ec', 'ef', 'ei', 'el', 'em', 'en', 'er', 'es', 'et', 'eu', 'ev', 'ex', 'ez', 'fa', 'fe', 'ff', 'fi', 'fl', 'fo', 'fr', 'fu', 'ga', 'ge', 'gi', 'gl', 'gn', 'go', 'gr', 'gu', 'gé', 'ha', 'he', 'ho', 'hu', 'hé', 'ia', 'ib', 'ic', 'id', 'ie', 'if', 'ig', 'il', 'im', 'in', 'io', 'ip', 'iq', 'ir', 'is', 'it', 'iv', 'ix', 'iè', 'ié', 'ja', 'je', 'jo', 'ju', 'la', 'le', 'lg', 'li', 'll', 'lo', 'ls', 'lu', 'lé', 'ma', 'mb', 'me', 'mi', 'mm', 'mo', 'mp', 'mt', 'mu', 'mé', 'mê', 'na', 'nc', 'nd', 'ne', 'nf', 'ng', 'ni', 'nn', 'no', 'nq', 'ns', 'nt', 'nu', 'nv', 'né', 'ob', 'oc', 'od', 'of', 'og', 'oi', 'ol', 'om', 'on', 'op', 'or', 'os', 'ot', 'ou', 'où', 'pa', 'pe', 'pi', 'pl', 'po', 'pp', 'pr', 'pt', 'pu', 'pé', 'qu', 'ra', 'rc', 'rd', 're', 'rf', 'rg', 'ri', 'rl', 'rm', 'rn', 'ro', 'rp', 'rr', 'rs', 'rt', 'ru', 'rv', 'rè', 'ré', 'rê', 'sa', 'sc', 'se', 'si', 'so', 'sp', 'sq', 'ss', 'st', 'su', 'sé', 'ta', 'te', 'ti', 'tl', 'to', 'tr', 'ts', 'tt', 'tu', 'té', 'ua', 'ub', 'uc', 'ud', 'ue', 'uf', 'ui', 'uj', 'ul', 'um', 'un', 'up', 'ur', 'us', 'ut', 'uv', 'ux', 'ué', 'va', 've', 'vi', 'vo', 'vr', 'vu', 'vé', 'ye', 'ys', 'ça', 'èc', 'èr', 'ès', 'éa', 'éc', 'éd', 'ée', 'ég', 'él', 'ém', 'ép', 'ér', 'és', 'ét', 'év', 'êt']
#Number of occurrences: 7
other_unique_3grams = ['Cor', 'Leb', 'Mme', 'del', 'did', 'mid', "qu'"]
#Number of occurrences: 859
gt_unique_3grams = ['AIN', 'ALL', 'AMÉ', 'ANI', 'ANS', 'ART', 'ASS', 'ATI', 'Aff', 'Ain', 'Alb', 'All', 'Als', 'Amé', 'And', 'Ang', 'Aoû', 'App', 'Apr', 'Ass', 'Auj', 'Aut', 'Avr', 'BOU', 'Bal', 'Bea', 'Bel', 'Ber', 'Bie', 'Bru', 'Bur', 'CAR', 'CLE', 'COM', 'CON', 'COU', 'CRE', 'Car', 'Cec', 'Cel', 'Ces', 'Cet', 'Cou', 'Cré', 'DAN', 'DES', 'DOT', 'Dan', 'Des', 'Die', 'Dro', 'Déc', 'ELL', 'ENT', 'EST', 'ETT', 'Emp', 'Enc', 'Eta', 'Etr', 'Eur', 'FRA', 'Fer', 'Fin', 'Fév', 'GUE', 'Gra', 'Gue', 'Gui', 'Gén', 'Hay', 'Hum', 'ION', 'ISE', 'ITÉ', 'Ils', 'Int', 'Ita', 'Jan', 'Jau', 'Jou', 'Jui', 'Jus', 'LES', 'LET', 'Leu', 'Loi', 'Lon', 'Lor', 'Lou', 'Léo', 'MAI', 'MAN', 'MON', 'Mad', 'Mal', 'Mam', 'Mes', 'Min', 'NAT', 'NCA', 'NCE', 'NEG', 'NEL', 'NEW', 'NIP', 'NOT', 'Nat', 'New', 'Nip', 'Non', 'Nor', 'Nos', 'Not', 'Nov', 'OCI', 'OIS', 'ONS', 'OUR', 'Océ', 'PAI', 'PAR', 'POL', 'POU', 'PRO', 'PRÉ', 'Pai', 'Pau', 'Per', 'Pie', 'Pou', 'QUE', 'Qua', 'Que', 'Quo', 'RES', 'RGE', 'RIC', 'RRE', 'Rob', 'Roo', 'Rus', 'Rép', 'SEN', 'SID', 'SOC', 'SON', 'STA', 'Sai', 'San', 'Sec', 'Sep', 'Soc', 'Sui', 'SÉN', 'TIO', 'TRE', 'TTR', 'Tan', 'Tra', 'UNI', 'Une', 'Ver', 'Voi', 'Vot', 'Vou', 'Wil', 'XXX', 'YOR', 'aba', 'abs', 'abu', 'ace', 'ach', 'ade', 'ado', 'adr', 'agg', 'agi', 'agn', 'agr', 'agé', 'ahi', 'aid', 'aig', 'aim', 'ajo', 'alc', 'ali', 'amb', 'ame', 'amm', 'amé', 'ana', 'ane', 'ang', 'ann', 'ané', 'apa', 'ape', 'aqu', 'ara', 'arb', 'arc', 'are', 'arg', 'arm', 'asi', 'ast', 'atr', 'ats', 'auc', 'aud', 'aug', 'auj', 'aup', 'avi', 'aye', 'aît', 'bal', 'ban', 'bar', 'bas', 'bat', 'bel', 'ber', 'bes', 'bil', 'bla', 'bli', 'blo', 'blè', 'blé', 'boi', 'bor', 'bou', 'bra', 'bri', 'bru', 'brû', 'bud', 'bue', 'bur', 'but', 'bén', 'cac', 'cal', 'cap', 'cas', 'cat', 'cea', 'cem', 'cen', 'cep', 'chi', 'châ', 'ché', 'cia', 'cie', 'cin', 'cip', 'cis', 'cit', 'civ', 'cla', 'cle', 'cli', 'clu', 'coe', 'cor', 'coû', 'cré', 'cta', 'cto', 'cui', 'cul', 'cun', 'cur', 'cus', 'cut', 'cée', 'cél', 'côt', 'cœu', 'dai', 'dam', 'dat', 'dav', 'den', 'dia', 'dic', 'dig', 'dim', 'din', 'dip', 'div', 'dom', 'dro', 'duc', 'due', 'dui', 'dur', 'dus', 'dès', 'déb', 'déf', 'dég', 'dém', 'dén', 'dés', 'dét', 'eff', 'eig', 'eil', 'elo', 'els', 'elt', 'elé', 'emi', 'emm', 'eng', 'eni', 'enq', 'enr', 'enu', 'ept', 'era', 'erc', 'ere', 'eri', 'erm', 'ern', 'ero', 'err', 'esc', 'ets', 'ett', 'eté', 'eun', 'eus', 'euv', 'eve', 'evo', 'exa', 'exi', 'ext', 'exé', 'fac', 'fan', 'fav', 'fem', 'fer', 'feu', 'ffr', 'fic', 'fid', 'fie', 'fig', 'fir', 'fit', 'fix', 'fle', 'fou', 'foy', 'fro', 'frs', 'fru', 'fun', 'fut', 'fêt', 'gag', 'gai', 'gar', 'gen', 'ger', 'ges', 'get', 'gin', 'giq', 'glo', 'gne', 'gné', 'gou', 'gre', 'gro', 'grâ', 'grè', 'gte', 'gée', 'gên', 'hab', 'hai', 'han', 'hau', 'haî', 'her', 'hes', 'hie', 'hin', 'his', 'hom', 'hor', 'hos', 'hou', 'hui', 'hum', 'hél', 'hér', 'hôt', 'ial', 'ian', 'ibl', 'ibé', 'ice', 'ich', 'icl', 'idé', 'iel', 'ies', 'ieu', 'iez', 'ife', 'iff', 'ifi', 'ifs', 'ige', 'igi', 'ign', 'igé', 'ile', 'ima', 'ime', 'imi', 'imm', 'inf', 'ing', 'ini', 'ino', 'inq', 'inu', 'iné', 'ira', 'irm', 'iro', 'irr', 'ism', 'iso', 'isé', 'ito', 'itr', 'itu', 'iva', 'ivi', 'ivr', 'ivé', 'ièr', 'iée', 'iés', 'iét', 'jad', 'jam', 'jet', 'joi', 'jug', 'jui', 'kan', 'kil', 'lab', 'lag', 'lam', 'lan', 'laq', 'lar', 'las', 'lat', 'lau', 'lec', 'lev', 'lez', 'lia', 'lic', 'lim', 'lin', 'lio', 'lir', 'liv', 'lié', 'lli', 'loc', 'log', 'loi', 'lom', 'lor', 'lou', 'loy', 'lqu', 'lue', 'lut', 'lux', 'lèg', 'lég', 'mac', 'mag', 'maj', 'mas', 'mau', 'maî', 'mei', 'mem', 'mer', 'meu', 'mil', 'mir', 'miè', 'mme', 'mom', 'mor', 'mot', 'mou', 'moy', 'mpe', 'mpl', 'mps', 'mul', 'mus', 'mèr', 'méc', 'méd', 'mém', 'mér', 'mét', 'nag', 'nal', 'naî', 'nch', 'nci', 'nco', 'ncu', 'nda', 'ndi', 'ndo', 'nds', 'neg', 'nen', 'net', 'nfa', 'nge', 'nie', 'nif', 'nim', 'nio', 'nis', 'niè', 'nna', 'nné', 'nob', 'nor', 'nqu', 'nsp', 'nta', 'nti', 'nui', 'nul', 'néc', 'née', 'nég', 'nés', 'nôt', 'obj', 'obl', 'obr', 'obs', 'occ', 'oci', 'ocr', 'oeu', 'oie', 'oin', 'ole', 'olt', 'olu', 'olé', 'omn', 'omo', 'omè', 'ona', 'oni', 'ope', 'opi', 'opp', 'opé', 'ora', 'orm', 'osa', 'oss', 'osé', 'oub', 'oue', 'ous', 'out', 'pab', 'pac', 'pal', 'pan', 'pat', 'pau', 'pec', 'pei', 'pel', 'pes', 'pie', 'pil', 'pir', 'pit', 'piè', 'pli', 'plè', 'plé', 'poi', 'pol', 'pon', 'pop', 'ppe', 'ppé', 'pru', 'prè', 'prê', 'pte', 'pti', 'pèr', 'pén', 'pér', 'quo', 'qué', 'quê', 'rab', 'rac', 'rag', 'ral', 'rap', 'rar', 'ras', 'rav', 'rce', 'rch', 'rds', 'red', 'ref', 'reg', 'rer', 'rez', 'reç', 'rgi', 'rgé', 'rib', 'rif', 'rim', 'rio', 'riq', 'rir', 'riv', 'riè', 'rme', 'rmo', 'rna', 'rne', 'rni', 'rné', 'rob', 'roc', 'ron', 'rop', 'rou', 'roy', 'rqu', 'rra', 'rri', 'rro', 'rsu', 'rta', 'rui', 'rès', 'réd', 'rée', 'réf', 'rét', 'rév', 'rêv', 'rôl', 'sab', 'sag', 'sau', 'sci', 'sel', 'sev', 'sig', 'sil', 'sis', 'sit', 'six', 'siè', 'sme', 'soc', 'sol', 'spe', 'spé', 'sso', 'str', 'sub', 'suf', 'suj', 'sup', 'sus', 'sym', 'sys', 'séc', 'sée', 'séq', 'sér', 'sés', 'sûr', 'tab', 'tac', 'tag', 'tal', 'tar', 'tat', 'tau', 'teu', 'tex', 'the', 'thè', 'tia', 'tif', 'til', 'tim', 'tin', 'tiq', 'tir', 'tit', 'tiv', 'tié', 'toi', 'tom', 'tor', 'tot', 'tru', 'tte', 'tud', 'tue', 'tué', 'tèm', 'tée', 'tél', 'tém', 'tés', 'têt', 'tôt', 'uat', 'ude', 'uei', 'uen', 'uer', 'ues', 'uff', 'uit', 'uié', 'uli', 'ult', 'ume', 'una', 'uni', 'uns', 'upe', 'ura', 'urg', 'urr', 'usa', 'usi', 'ust', 'usé', 'ute', 'uva', 'uvi', 'uvé', 'uêt', 'vag', 'val', 'van', 'var', 'vat', 'vau', 'vea', 'vei', 'vel', 'vem', 'ves', 'veu', 'vid', 'vig', 'vil', 'vin', 'vio', 'vir', 'vit', 'vol', 'von', 'voq', 'vos', 'voy', 'vue', 'vée', 'vér', 'xel', 'yeu', 'âme', 'çai', 'èle', 'ème', 'ève', 'éch', 'écl', 'éco', 'écr', 'édi', 'édu', 'éfi', 'égo', 'égr', 'éla', 'éli', 'élo', 'élu', 'élé', 'éme', 'émo', 'éne', 'éni', 'éno', 'énu', 'épa', 'épe', 'épo', 'épr', 'épu', 'équ', 'éro', 'éré', 'érê', 'éte', 'éti', 'étr', 'étu', 'évi', 'êch', 'ême', 'ête', 'ôts', 'œuv']
#Number of occurrences: 426
common_3grams = ['BUT', 'Bou', 'But', 'Cai', 'Cha', 'Cle', 'Com', 'Con', 'Dot', 'Dép', 'Ell', 'Est', 'Flè', 'Fra', 'Ger', 'Gou', 'LER', 'Les', 'Mai', 'Man', 'Mar', 'Mon', 'Mur', 'Nic', 'Nou', 'Par', 'Pro', 'Pré', 'Sar', 'Sén', 'Tou', 'Uni', 'abl', 'abo', 'acc', 'act', 'adm', 'adv', 'aff', 'age', 'aie', 'ail', 'ain', 'air', 'ais', 'ait', 'ale', 'all', 'alo', 'ami', 'anc', 'and', 'ani', 'ans', 'ant', 'app', 'apr', 'ard', 'ari', 'arr', 'art', 'ass', 'ate', 'ati', 'att', 'aur', 'aus', 'aut', 'aux', 'ava', 'ave', 'avo', 'bea', 'bie', 'ble', 'bon', 'bre', 'cai', 'cam', 'can', 'car', 'cau', 'cel', 'cer', 'ces', 'cet', 'ceu', 'cha', 'che', 'cho', 'cil', 'cir', 'col', 'com', 'con', 'cou', 'cra', 'cri', 'cro', 'cte', 'cti', 'cès', 'céd', 'dan', 'dem', 'dep', 'der', 'des', 'deu', 'dev', 'dif', 'dir', 'dis', 'dit', 'doi', 'don', 'dou', 'dra', 'dre', 'déc', 'déj', 'dél', 'dép', 'dév', 'eau', 'ect', 'ell', 'ema', 'emb', 'eme', 'emp', 'enc', 'end', 'enf', 'enn', 'ens', 'ent', 'env', 'ers', 'ert', 'erv', 'esp', 'ess', 'est', 'etc', 'eur', 'eux', 'exc', 'exe', 'exp', 'fai', 'fal', 'fam', 'fau', 'fes', 'fia', 'fil', 'fin', 'foi', 'fon', 'for', 'fra', 'fér', 'gra', 'gré', 'gue', 'gén', 'heu', 'hol', 'hon', 'iat', 'ica', 'ici', 'ide', 'ien', 'ier', 'ili', 'ill', 'ils', 'imp', 'ina', 'inc', 'ind', 'ine', 'ins', 'int', 'inv', 'ion', 'iqu', 'ire', 'isa', 'ise', 'isi', 'iss', 'ist', 'ita', 'ite', 'iti', 'its', 'ité', 'ive', 'jeu', 'jou', 'jus', 'lai', 'lem', 'len', 'ler', 'les', 'let', 'leu', 'lib', 'lie', 'lig', 'liq', 'lis', 'lit', 'lla', 'lle', 'lon', 'lui', 'lée', 'mai', 'mal', 'man', 'mar', 'mat', 'mbr', 'men', 'mes', 'met', 'mie', 'min', 'mis', 'mod', 'moi', 'mon', 'mun', 'mêm', 'nai', 'nan', 'nat', 'nce', 'ncs', 'nde', 'ndr', 'nel', 'nem', 'ner', 'nes', 'neu', 'nir', 'nne', 'nom', 'non', 'nos', 'not', 'nou', 'nte', 'nts', 'nça', 'off', 'oir', 'ois', 'omm', 'omp', 'onc', 'ond', 'onn', 'ons', 'ont', 'ord', 'ore', 'org', 'ori', 'ort', 'ose', 'our', 'ouv', 'oué', 'pag', 'pai', 'par', 'pas', 'pay', 'pen', 'per', 'pet', 'peu', 'pla', 'ple', 'plu', 'por', 'pos', 'pou', 'pre', 'pri', 'pro', 'pré', 'pub', 'pui', 'qua', 'que', 'qui', 'rai', 'ran', 'rat', 'ray', 'rec', 'rel', 'rem', 'ren', 'rep', 'res', 'ret', 'reu', 'rev', 'rge', 'ria', 'ric', 'rie', 'ris', 'rit', 'rre', 'rue', 'réa', 'réc', 'rég', 'rép', 'rés', 'réu', 'sac', 'sai', 'sal', 'san', 'sat', 'sav', 'scr', 'sec', 'sei', 'sem', 'sen', 'ser', 'ses', 'seu', 'sib', 'sid', 'sie', 'sim', 'sin', 'sio', 'soi', 'som', 'son', 'sor', 'sou', 'squ', 'ssa', 'sse', 'ssi', 'ssé', 'sta', 'ste', 'sti', 'sto', 'suc', 'sui', 'sur', 'séa', 'tai', 'tan', 'tea', 'tel', 'tem', 'ten', 'ter', 'tes', 'tic', 'tie', 'tio', 'tis', 'ton', 'tou', 'tra', 'tre', 'tri', 'tro', 'trè', 'tré', 'tur', 'ubl', 'uco', 'uel', 'ueu', 'uis', 'ula', 'une', 'ure', 'urs', 'use', 'uti', 'uté', 'uve', 'vai', 'ven', 'ver', 'vic', 'vie', 'vis', 'viv', 'voi', 'vot', 'vou', 'vra', 'vre', 'ère', 'ées', 'éga', 'égu', 'éle', 'éra', 'ére', 'éri', 'éta', 'été', 'êtr']
#Number of occurrences: 10
other_unique_4grams = ['Comt', 'Cord', 'Esto', 'Lebe', 'Préf', 'aris', 'elet', 'idat', 'midi', 'scru']
#Number of occurrences: 1046
gt_unique_4grams = ['AMÉR', 'ASSO', 'Affa', 'Ains', 'Alle', 'Alli', 'Alsa', 'Amér', 'Andr', 'Angl', 'Août', 'Aprè', 'Asso', 'Aujo', 'Autr', 'Avri', 'BOUR', 'Beau', 'Belg', 'Bien', 'Bour', 'Brux', 'Bure', 'CAIS', 'CARN', 'CIAT', 'CONS', 'CREA', 'Carn', 'Ceci', 'Cela', 'Cett', 'Clem', 'Cler', 'Comi', 'Comm', 'Conf', 'Cour', 'Créa', 'DANS', 'DOTA', 'Dans', 'Dieu', 'Droi', 'Déce', 'Dépa', 'EGIE', 'ESTO', 'ETTR', 'Empe', 'Empi', 'Enco', 'Etat', 'Etra', 'Euro', 'FRAN', 'Févr', 'GEOI', 'GUER', 'Guer', 'Guil', 'Géné', 'Haye', 'Huma', 'ICAI', 'IDEN', 'Inte', 'Ital', 'Janv', 'Jour', 'Juil', 'LETT', 'LLES', 'Leur', 'Loir', 'Lond', 'Lord', 'Lorr', 'Loui', 'Léon', 'Mame', 'Mars', 'Mini', 'Mond', 'Mont', 'NATI', 'NIPP', 'NOTR', 'Nati', 'Nipp', 'Notr', 'Nove', 'PAIX', 'PARI', 'POUR', 'PRÉS', 'Paix', 'Parl', 'Paul', 'Pier', 'Pour', 'Quan', 'Quel', 'Quoi', 'Robe', 'Roos', 'Russ', 'Répu', 'SENA', 'SOCI', 'Sain', 'Sart', 'Secr', 'Sept', 'Soci', 'Suis', 'SÉNA', 'TANT', 'TION', 'Tous', 'Tout', 'URNE', 'Unis', 'Voic', 'Voil', 'Votr', 'Vous', 'Wils', 'XXXX', 'YORK', 'York', 'aban', 'abat', 'abus', 'acce', 'ache', 'acte', 'acti', 'actu', 'adre', 'adve', 'affa', 'affi', 'agan', 'ages', 'aggr', 'agre', 'aide', 'aien', 'aine', 'aise', 'aiss', 'aite', 'ajou', 'ales', 'alis', 'alla', 'alli', 'allo', 'allé', 'ambi', 'amné', 'amér', 'anci', 'ande', 'angl', 'anim', 'anne', 'anno', 'anné', 'ante', 'anti', 'ants', 'aper', 'appa', 'appe', 'appl', 'appo', 'appr', 'appu', 'arat', 'araî', 'arbi', 'arer', 'arge', 'arme', 'armé', 'arro', 'arrê', 'arti', 'arée', 'assi', 'asso', 'assu', 'ateu', 'athi', 'atro', 'atta', 'atti', 'attr', 'atté', 'atur', 'aucu', 'audi', 'augm', 'aujo', 'aupa', 'auro', 'auto', 'aven', 'aver', 'avio', 'avis', 'aîne', 'barb', 'bata', 'bell', 'beso', 'bili', 'bles', 'bliq', 'bloc', 'bonn', 'bord', 'born', 'bouc', 'bour', 'brav', 'brûl', 'budg', 'bure', 'béné', 'cain', 'carr', 'cata', 'cati', 'caus', 'celu', 'cent', 'cepe', 'cert', 'cess', 'chac', 'chal', 'cham', 'chan', 'chaq', 'char', 'chau', 'chef', 'chem', 'chev', 'chif', 'chis', 'chos', 'chât', 'chée', 'ciat', 'cien', 'cier', 'cinq', 'cipe', 'circ', 'cité', 'civi', 'clai', 'clas', 'coeu', 'coll', 'colo', 'comb', 'conq', 'cord', 'corr', 'couv', 'coût', 'crai', 'crat', 'crim', 'cris', 'croy', 'créa', 'ctio', 'ctue', 'cult', 'côté', 'cœur', 'dang', 'dava', 'dern', 'desc', 'dess', 'dest', 'deui', 'deva', 'deve', 'devi', 'devo', 'devr', 'dign', 'dipl', 'dira', 'diri', 'disa', 'disp', 'dist', 'dive', 'divi', 'doit', 'domi', 'doub', 'doul', 'dout', 'dres', 'droi', 'dura', 'dure', 'déba', 'débu', 'déce', 'déch', 'déci', 'décl', 'déco', 'défa', 'défe', 'défi', 'déje', 'déjà', 'déli', 'démo', 'déno', 'dépa', 'dépe', 'dépi', 'dépo', 'désa', 'dése', 'dési', 'déso', 'détr', 'déve', 'eaux', 'ecti', 'effe', 'effi', 'effo', 'effr', 'egie', 'eill', 'embr', 'emme', 'empl', 'empo', 'empê', 'encé', 'enda', 'endr', 'endu', 'enfa', 'enfi', 'enga', 'enir', 'enne', 'enqu', 'enri', 'ense', 'ensu', 'enta', 'ents', 'enva', 'enve', 'envi', 'envo', 'epri', 'erai', 'erce', 'eron', 'erre', 'erse', 'erve', 'espo', 'espr', 'espè', 'espé', 'essa', 'esta', 'este', 'esti', 'eten', 'eter', 'ette', 'eure', 'evel', 'exac', 'exem', 'exer', 'exis', 'expl', 'expo', 'expr', 'expé', 'extr', 'exéc', 'face', 'faci', 'faib', 'fais', 'faud', 'fave', 'favo', 'femm', 'fera', 'ferm', 'fest', 'ffér', 'fica', 'fice', 'fidè', 'fier', 'figu', 'fill', 'fina', 'fini', 'fiqu', 'fleu', 'fonc', 'fond', 'font', 'forc', 'form', 'fort', 'forê', 'four', 'foye', 'frai', 'frap', 'fron', 'frui', 'futu', 'fête', 'gagn', 'gard', 'gean', 'geme', 'gens', 'geoi', 'gion', 'gouv', 'grat', 'gros', 'grou', 'grâc', 'grèv', 'habi', 'hain', 'haut', 'hier', 'hist', 'homm', 'hont', 'horr', 'huma', 'héla', 'héro', 'hôte', 'iale', 'iard', 'iati', 'icai', 'icat', 'ices', 'icil', 'icul', 'idéa', 'idée', 'idér', 'iens', 'iers', 'ieux', 'ific', 'ifie', 'ifié', 'igne', 'igno', 'ille', 'illu', 'imen', 'imes', 'imit', 'imme', 'impu', 'impé', 'impô', 'inca', 'ince', 'inco', 'inct', 'indé', 'iner', 'ines', 'inex', 'infi', 'infé', 'ingr', 'init', 'inqu', 'insi', 'insp', 'inst', 'insu', 'inue', 'inut', 'inva', 'invi', 'inév', 'iona', 'ionn', 'ipli', 'ires', 'irré', 'isan', 'isme', 'isol', 'ison', 'issa', 'isse', 'issi', 'iste', 'ital', 'iter', 'itio', 'itud', 'itut', 'jadi', 'jama', 'joie', 'join', 'juge', 'just', 'kilo', 'lair', 'lait', 'lame', 'lanc', 'lang', 'lant', 'laqu', 'larg', 'lass', 'lati', 'laum', 'lent', 'lesq', 'less', 'lett', 'libe', 'libr', 'libé', 'lier', 'lieu', 'lign', 'limi', 'liqu', 'lisa', 'list', 'livr', 'lièr', 'llem', 'llen', 'loca', 'loin', 'lopp', 'ltat', 'luti', 'lutt', 'lème', 'lète', 'légi', 'léon', 'mach', 'maga', 'magn', 'mair', 'majo', 'mala', 'malh', 'mand', 'mani', 'manq', 'marc', 'mari', 'mass', 'maté', 'mauv', 'maît', 'mble', 'mblé', 'meil', 'memb', 'mena', 'mens', 'mesu', 'mett', 'mieu', 'mili', 'mill', 'mini', 'mira', 'miss', 'mmen', 'mobi', 'mode', 'mois', 'mome', 'mons', 'monu', 'mora', 'mort', 'moye', 'mpar', 'mphe', 'mère', 'mètr', 'médi', 'méri', 'nais', 'nant', 'nati', 'natu', 'naux', 'nces', 'nche', 'ncie', 'ndai', 'nden', 'nder', 'ndie', 'ndis', 'nent', 'neut', 'nger', 'ngèr', 'nisa', 'nise', 'nist', 'nisé', 'nité', 'nnai', 'nnaî', 'nnel', 'nobl', 'norm', 'nota', 'nour', 'nses', 'ntag', 'ntai', 'nten', 'ntie', 'ntio', 'ntér', 'nuer', 'néce', 'nées', 'nôtr', 'obat', 'obje', 'obli', 'obse', 'occa', 'occu', 'oche', 'oeuv', 'offe', 'offi', 'oire', 'omat', 'omiq', 'onge', 'onna', 'onni', 'onsa', 'ontr', 'opin', 'oppo', 'ordi', 'ordr', 'orgu', 'orie', 'orig', 'orte', 'orti', 'oser', 'osit', 'oubl', 'ourc', 'outr', 'ouve', 'ouvr', 'oyab', 'paci', 'paie', 'paix', 'pala', 'para', 'parc', 'pare', 'parf', 'parm', 'paro', 'pati', 'patr', 'pauv', 'paye', 'pein', 'perd', 'perm', 'pert', 'peup', 'peut', 'peuv', 'pire', 'plac', 'plai', 'plan', 'plup', 'plut', 'poin', 'poli', 'popu', 'pous', 'prin', 'priv', 'prix', 'prob', 'prod', 'prof', 'prog', 'proj', 'prol', 'prom', 'pron', 'prot', 'prov', 'prus', 'près', 'prét', 'prév', 'prêt', 'ptio', 'père', 'péen', 'péri', 'quar', 'quat', 'queu', 'quil', 'rabl', 'radi', 'raie', 'rair', 'rais', 'rait', 'rale', 'rali', 'ramm', 'ranc', 'rant', 'rapi', 'rapp', 'rare', 'rati', 'raux', 'rava', 'rdre', 'rece', 'recu', 'refu', 'rega', 'regr', 'rela', 'reli', 'rell', 'remp', 'renc', 'reno', 'rent', 'repa', 'repo', 'ress', 'reta', 'reto', 'retr', 'reur', 'reus', 'reva', 'reve', 'revi', 'rial', 'ribu', 'rich', 'riel', 'rise', 'risq', 'rnat', 'rons', 'ront', 'rout', 'rray', 'rsai', 'rtan', 'ruct', 'ruin', 'réal', 'réce', 'récl', 'réco', 'rédi', 'rédu', 'réfl', 'réfu', 'régi', 'régl', 'régu', 'répa', 'rése', 'rési', 'réso', 'résu', 'réta', 'réun', 'réus', 'révo', 'rôle', 'sabl', 'sach', 'sacr', 'sage', 'sais', 'sait', 'sanc', 'sang', 'sati', 'sauv', 'save', 'savo', 'seco', 'secr', 'sema', 'seme', 'sens', 'sent', 'sero', 'sien', 'sign', 'simp', 'situ', 'sièg', 'soci', 'soie', 'soin', 'sold', 'sons', 'sort', 'souf', 'souh', 'soul', 'sour', 'sout', 'souv', 'spec', 'spor', 'ssai', 'ssan', 'sser', 'ssib', 'ssio', 'stan', 'ster', 'stes', 'stic', 'stre', 'stro', 'stèr', 'subi', 'subs', 'suff', 'suit', 'suiv', 'suje', 'supp', 'supé', 'surp', 'surt', 'surv', 'susc', 'susp', 'symp', 'syst', 'séri', 'tabl', 'tacl', 'tage', 'tain', 'tair', 'tait', 'tand', 'tard', 'tari', 'tate', 'tati', 'taux', 'teme', 'tend', 'teni', 'tent', 'tenu', 'term', 'terr', 'text', 'tien', 'tiqu', 'titr', 'titu', 'tité', 'tive', 'tomb', 'tora', 'tort', 'tota', 'touc', 'trad', 'trag', 'trai', 'tran', 'tres', 'trio', 'tris', 'troi', 'trom', 'ttre', 'tude', 'tuel', 'ture', 'télé', 'témo', 'tête', 'ucti', 'uell', 'uels', 'ueme', 'uent', 'uire', 'uite', 'uits', 'unan', 'uner', 'unes', 'unio', 'uniq', 'univ', 'urag', 'ures', 'urie', 'urre', 'usse', 'ussi', 'utif', 'util', 'uves', 'uête', 'vain', 'vait', 'vale', 'vant', 'vari', 'veil', 'veme', 'vend', 'veni', 'vent', 'venu', 'vera', 'vere', 'verr', 'vers', 'veul', 'veut', 'vict', 'vide', 'viei', 'vieu', 'vill', 'vins', 'viol', 'visi', 'vite', 'vité', 'viva', 'vive', 'vivr', 'voic', 'voie', 'voil', 'vois', 'voit', 'voix', 'volo', 'vont', 'voud', 'voya', 'voye', 'véri', 'yeux', 'ÉNAT', 'ègue', 'ères', 'écha', 'éche', 'écho', 'écla', 'écon', 'écra', 'écri', 'édif', 'éduc', 'égar', 'élev', 'émen', 'éner', 'énor', 'épar', 'épre', 'épui', 'éque', 'équi', 'éren', 'étab', 'étan', 'état', 'étra', 'étud', 'évit', 'êtes', 'œuvr']
#Number of occurrences: 250
common_4grams = ['BUTL', 'Butl', 'Cail', 'Cham', 'Conc', 'Cons', 'Dota', 'Elle', 'Flèc', 'Fran', 'Gouv', 'Mais', 'Mans', 'Mons', 'Murr', 'Nich', 'Nous', 'Pari', 'Prof', 'Prés', 'Séna', 'VRAI', 'able', 'abor', 'acco', 'accu', 'admi', 'affe', 'agne', 'aill', 'ains', 'aire', 'alle', 'alor', 'amis', 'ance', 'aprè', 'arri', 'asse', 'atio', 'atte', 'aura', 'auss', 'auta', 'autr', 'avai', 'avan', 'avec', 'avez', 'avoi', 'avon', 'beau', 'bien', 'blic', 'camp', 'cand', 'cant', 'cela', 'cell', 'cett', 'ceux', 'cher', 'chez', 'choi', 'ciel', 'cipa', 'comm', 'comp', 'conc', 'cond', 'conf', 'conn', 'cons', 'cont', 'conv', 'coup', 'cour', 'croi', 'dans', 'dema', 'depu', 'deux', 'diff', 'dire', 'disc', 'donc', 'donn', 'dont', 'délé', 'dévo', 'elle', 'emai', 'emen', 'ence', 'enco', 'ente', 'enti', 'entr', 'erne', 'esse', 'essi', 'eurs', 'euse', 'exce', 'fair', 'fait', 'fall', 'fami', 'faut', 'fils', 'fois', 'fran', 'gran', 'guer', 'géné', 'heur', 'honn', 'ianc', 'ible', 'iden', 'ient', 'ieur', 'ilia', 'impo', 'impr', 'indi', 'inte', 'inté', 'ions', 'ique', 'ière', 'jeun', 'jour', 'jusq', 'lais', 'laux', 'leme', 'lend', 'leur', 'lité', 'lles', 'long', 'main', 'mais', 'malg', 'mati', 'mbre', 'ment', 'moin', 'mond', 'mont', 'même', 'nair', 'ndan', 'ndre', 'nomb', 'nomm', 'notr', 'nous', 'nouv', 'olas', 'onal', 'onne', 'orga', 'ours', 'parl', 'part', 'pass', 'pays', 'pend', 'pens', 'pers', 'peti', 'plei', 'plus', 'port', 'poss', 'pour', 'pouv', 'prem', 'pren', 'pres', 'pris', 'proc', 'prop', 'préc', 'prép', 'prés', 'publ', 'puis', 'quan', 'quel', 'ques', 'quoi', 'reco', 'reme', 'rend', 'repr', 'resp', 'rest', 'reux', 'rien', 'rieu', 'rité', 'rtem', 'réac', 'répo', 'répu', 'sans', 'sant', 'semb', 'sera', 'serv', 'seul', 'sion', 'soir', 'soit', 'somm', 'sont', 'sous', 'succ', 'suis', 'séan', 'tant', 'tell', 'temp', 'tena', 'teur', 'tion', 'touj', 'tour', 'tous', 'tout', 'trav', 'trop
#War_unique vs GT
#Number of occurrences: 0
war_unique_unique_2grams = []
#Number of occurrences: 600
gt_unique_2grams = ['AC', 'AD', 'AG', 'AI', 'AL', 'AM', 'AN', 'AP', 'AR', 'AS', 'AT', 'AU', 'AV', 'Af', 'Ag', 'Ai', 'Al', 'Am', 'An', 'Ao', 'Ap', 'Ar', 'As', 'Au', 'Av', 'BA', 'BE', 'BO', 'BU', 'Ba', 'Be', 'Bi', 'Bo', 'Br', 'Bu', 'CA', 'CE', 'CH', 'CI', 'CL', 'CO', 'CR', 'Ca', 'Ce', 'Ch', 'Cl', 'Co', 'Cr', 'DA', 'DE', 'DI', 'DO', 'DR', 'DU', 'Da', 'De', 'Di', 'Do', 'Dr', 'Du', 'DÉ', 'Dé', 'EA', 'EC', 'EG', 'EI', 'EL', 'EM', 'EN', 'ER', 'ES', 'ET', 'El', 'Em', 'En', 'Es', 'Et', 'Eu', 'Ex', 'FA', 'FE', 'FI', 'FO', 'FR', 'Fe', 'Fi', 'Fl', 'Fo', 'Fr', 'Fé', 'GA', 'GE', 'GR', 'GU', 'Ga', 'Ge', 'Go', 'Gr', 'Gu', 'Gé', 'HE', 'HO', 'Ha', 'He', 'Ho', 'Hu', 'IA', 'IC', 'ID', 'IE', 'II', 'IL', 'IN', 'IO', 'IR', 'IS', 'IT', 'IX', 'Il', 'In', 'It', 'JO', 'Ja', 'Je', 'Jo', 'Ju', 'LA', 'LE', 'LI', 'LL', 'LO', 'La', 'Le', 'Li', 'Lo', 'Lu', 'Là', 'Lé', 'MA', 'MB', 'ME', 'MI', 'MM', 'MO', 'MP', 'Ma', 'Me', 'Mi', 'Mo', 'Mu', 'NA', 'NC', 'ND', 'NE', 'NG', 'NI', 'NO', 'NS', 'NT', 'Na', 'Ne', 'Ni', 'No', 'NÉ', 'OI', 'OL', 'ON', 'OP', 'OR', 'OU', 'Oc', 'On', 'Or', 'Ou', 'PA', 'PE', 'PI', 'PL', 'PO', 'PP', 'PR', 'PU', 'Pa', 'Pe', 'Pi', 'Po', 'Pr', 'Pu', 'QU', 'Qu', 'RA', 'RD', 'RE', 'RI', 'RK', 'RN', 'RO', 'RR', 'RS', 'RT', 'RU', 'Re', 'Ri', 'Ro', 'Ru', 'RÉ', 'Ré', 'SA', 'SC', 'SE', 'SI', 'SO', 'SS', 'ST', 'SU', 'Sa', 'Sc', 'Se', 'Si', 'So', 'St', 'Su', 'SÉ', 'Sé', 'TA', 'TE', 'TI', 'TL', 'TO', 'TR', 'TS', 'TT', 'Ta', 'Te', 'To', 'Tr', 'TÉ', 'UD', 'UE', 'UN', 'UR', 'US', 'UT', 'UX', 'Un', 'VE', 'VI', 'VO', 'Ve', 'Vi', 'Vo', 'WE', 'Wa', 'Wi', 'XI', 'XX', 'YO', 'Yo', 'ab', 'ac', 'ad', 'af', 'ag', 'ai', 'aj', 'al', 'am', 'an', 'ap', 'aq', 'ar', 'as', 'at', 'au', 'av', 'ay', 'aî', 'ba', 'be', 'bi', 'bl', 'bo', 'br', 'bs', 'bu', 'bé', 'ca', 'cc', 'ce', 'ch', 'ci', 'cl', 'co', 'cr', 'cs', 'ct', 'cu', 'cè', 'cé', 'cô', 'cœ', 'da', 'de', 'dg', 'di', 'do', 'dr', 'ds', 'du', 'dè', 'dé', 'dû', 'ea', 'ec', 'ef', 'eg', 'ei', 'el', 'em', 'en', 'ep', 'er', 'es', 'et', 'eu', 'ev', 'ex', 'ez', 'fa', 'fe', 'ff', 'fi', 'fl', 'fo', 'fr', 'fu', 'fé', 'fê', 'ga', 'ge', 'gg', 'gi', 'gl', 'gm', 'gn', 'go', 'gr', 'gu', 'gé', 'gê', 'ha', 'he', 'hi', 'ho', 'hu', 'hy', 'hè', 'hé', 'hô', 'ia', 'ib', 'ic', 'id', 'ie', 'if', 'ig', 'il', 'im', 'in', 'io', 'ip', 'iq', 'ir', 'is', 'it', 'iv', 'ix', 'iè', 'ié', 'ja', 'je', 'jo', 'ju', 'jà', 'ki', 'la', 'lc', 'ld', 'le', 'lg', 'lh', 'li', 'lk', 'll', 'lo', 'ls', 'lt', 'lu', 'ly', 'là', 'lè', 'lé', 'ma', 'mb', 'me', 'mi', 'mm', 'mn', 'mo', 'mp', 'mt', 'mu', 'mè', 'mé', 'mê', 'na', 'nc', 'nd', 'ne', 'nf', 'ng', 'ni', 'nl', 'nn', 'no', 'nq', 'ns', 'nt', 'nu', 'nv', 'nç', 'né', 'nô', 'ob', 'oc', 'od', 'oe', 'of', 'og', 'oi', 'oj', 'ol', 'om', 'on', 'op', 'oq', 'or', 'os', 'ot', 'ou', 'ov', 'oy', 'où', 'pa', 'pe', 'ph', 'pi', 'pl', 'po', 'pp', 'pr', 'ps', 'pt', 'pu', 'pè', 'pé', 'pê', 'pô', 'qu', 'ra', 'rb', 'rc', 'rd', 're', 'rf', 'rg', 'ri', 'rk', 'rl', 'rm', 'rn', 'ro', 'rp', 'rq', 'rr', 'rs', 'rt', 'ru', 'rv', 'rè', 'ré', 'rê', 'rô', 'sa', 'sc', 'se', 'sf', 'sh', 'si', 'sl', 'sm', 'so', 'sp', 'sq', 'ss', 'st', 'su', 'sy', 'sé', 'sû', 'ta', 'te', 'th', 'ti', 'tl', 'to', 'tr', 'ts', 'tt', 'tu', 'tâ', 'té', 'tê', 'tô', 'ua', 'ub', 'uc', 'ud', 'ue', 'uf', 'ug', 'uh', 'ui', 'uj', 'ul', 'um', 'un', 'up', 'ur', 'us', 'ut', 'uv', 'ux', 'ué', 'uê', 'va', 've', 'vi', 'vo', 'vr', 'vu', 'vé', 'wa', 'xe', 'xi', 'xt', 'ya', 'ye', 'yo', 'ys', 'yé', 'ze', 'ÉN', 'ÉR', 'ÉS', 'ÉT', 'âc', 'âm', 'ât', 'ça', 'ço', 'èc', 'èg', 'èm', 'èn', 'èr', 'ès', 'èt', 'èv', 'éa', 'éc', 'éd', 'ée', 'ég', 'él', 'ém', 'én', 'ép', 'éq', 'ér', 'és', 'ét', 'év', 'êm', 'êt', 'ît', 'ôt', 'ûl', 'ût', 'œu']
#Number of occurrences: 0
common_2grams = []
#Number of occurrences: 0
war_unique_unique_3grams = []
#Number of occurrences: 1280
gt_unique_3grams = ['AIN', 'ALL', 'AMÉ', 'ANI', 'ANS', 'ART', 'ASS', 'ATI', 'Aff', 'Ain', 'Alb', 'Als', 'Amé', 'And', 'Ang', 'Aoû', 'App', 'Apr', 'Ass', 'Auj', 'Aut', 'Avr', 'BOU', 'BUT', 'Bal', 'Bea', 'Bel', 'Ber', 'Bie', 'Bou', 'Bru', 'Bur', 'But', 'CAR', 'CLE', 'COM', 'CON', 'COU', 'CRE', 'Cai', 'Car', 'Cec', 'Cel', 'Ces', 'Cet', 'Cha', 'Cle', 'Com', 'Con', 'Cou', 'Cré', 'DAN', 'DES', 'DOT', 'Dan', 'Des', 'Die', 'Dot', 'Dro', 'Déc', 'Dép', 'ELL', 'ENT', 'EST', 'ETT', 'Ell', 'Emp', 'Enc', 'Est', 'Eta', 'Etr', 'Eur', 'FRA', 'Fer', 'Fin', 'Flè', 'Fra', 'Fév', 'GUE', 'Ger', 'Gou', 'Gra', 'Gue', 'Gui', 'Gén', 'Hay', 'Hum', 'ION', 'ISE', 'ITÉ', 'Ils', 'Int', 'Ita', 'Jan', 'Jau', 'Jou', 'Jui', 'Jus', 'LER', 'LES', 'LET', 'Les', 'Leu', 'Loi', 'Lon', 'Lor', 'Lou', 'Léo', 'MAI', 'MAN', 'MON', 'Mad', 'Mai', 'Mal', 'Mam', 'Man', 'Mar', 'Mes', 'Min', 'Mon', 'Mur', 'NAT', 'NCA', 'NCE', 'NEG', 'NEL', 'NEW', 'NIP', 'NOT', 'Nat', 'New', 'Nic', 'Nip', 'Non', 'Nor', 'Nos', 'Not', 'Nou', 'Nov', 'OCI', 'OIS', 'ONS', 'OUR', 'Océ', 'PAI', 'PAR', 'POL', 'POU', 'PRO', 'PRÉ', 'Pai', 'Par', 'Pau', 'Per', 'Pie', 'Pou', 'Pro', 'Pré', 'QUE', 'Qua', 'Que', 'Quo', 'RES', 'RGE', 'RIC', 'RRE', 'Rob', 'Roo', 'Rus', 'Rép', 'SEN', 'SID', 'SOC', 'SON', 'STA', 'Sai', 'San', 'Sar', 'Sec', 'Sep', 'Soc', 'Sui', 'SÉN', 'Sén', 'TIO', 'TRE', 'TTR', 'Tan', 'Tou', 'Tra', 'UNI', 'Une', 'Uni', 'Ver', 'Voi', 'Vot', 'Vou', 'Wil', 'XXX', 'YOR', 'aba', 'abl', 'abo', 'abs', 'abu', 'acc', 'ace', 'ach', 'act', 'ade', 'adm', 'ado', 'adr', 'adv', 'aff', 'age', 'agg', 'agi', 'agn', 'agr', 'agé', 'ahi', 'aid', 'aie', 'aig', 'ail', 'aim', 'ain', 'air', 'ais', 'ait', 'ajo', 'alc', 'ale', 'ali', 'all', 'alo', 'amb', 'ame', 'ami', 'amm', 'amé', 'ana', 'anc', 'and', 'ane', 'ang', 'ani', 'ann', 'ans', 'ant', 'ané', 'apa', 'ape', 'app', 'apr', 'aqu', 'ara', 'arb', 'arc', 'ard', 'are', 'arg', 'ari', 'arm', 'arr', 'art', 'asi', 'ass', 'ast', 'ate', 'ati', 'atr', 'ats', 'att', 'auc', 'aud', 'aug', 'auj', 'aup', 'aur', 'aus', 'aut', 'aux', 'ava', 'ave', 'avi', 'avo', 'aye', 'aît', 'bal', 'ban', 'bar', 'bas', 'bat', 'bea', 'bel', 'ber', 'bes', 'bie', 'bil', 'bla', 'ble', 'bli', 'blo', 'blè', 'blé', 'boi', 'bon', 'bor', 'bou', 'bra', 'bre', 'bri', 'bru', 'brû', 'bud', 'bue', 'bur', 'but', 'bén', 'cac', 'cai', 'cal', 'cam', 'can', 'cap', 'car', 'cas', 'cat', 'cau', 'cea', 'cel', 'cem', 'cen', 'cep', 'cer', 'ces', 'cet', 'ceu', 'cha', 'che', 'chi', 'cho', 'châ', 'ché', 'cia', 'cie', 'cil', 'cin', 'cip', 'cir', 'cis', 'cit', 'civ', 'cla', 'cle', 'cli', 'clu', 'coe', 'col', 'com', 'con', 'cor', 'cou', 'coû', 'cra', 'cri', 'cro', 'cré', 'cta', 'cte', 'cti', 'cto', 'cui', 'cul', 'cun', 'cur', 'cus', 'cut', 'cès', 'céd', 'cée', 'cél', 'côt', 'cœu', 'dai', 'dam', 'dan', 'dat', 'dav', 'dem', 'den', 'dep', 'der', 'des', 'deu', 'dev', 'dia', 'dic', 'dif', 'dig', 'dim', 'din', 'dip', 'dir', 'dis', 'dit', 'div', 'doi', 'dom', 'don', 'dou', 'dra', 'dre', 'dro', 'duc', 'due', 'dui', 'dur', 'dus', 'dès', 'déb', 'déc', 'déf', 'dég', 'déj', 'dél', 'dém', 'dén', 'dép', 'dés', 'dét', 'dév', 'eau', 'ect', 'eff', 'eig', 'eil', 'ell', 'elo', 'els', 'elt', 'elé', 'ema', 'emb', 'eme', 'emi', 'emm', 'emp', 'enc', 'end', 'enf', 'eng', 'eni', 'enn', 'enq', 'enr', 'ens', 'ent', 'enu', 'env', 'ept', 'era', 'erc', 'ere', 'eri', 'erm', 'ern', 'ero', 'err', 'ers', 'ert', 'erv', 'esc', 'esp', 'ess', 'est', 'etc', 'ets', 'ett', 'eté', 'eun', 'eur', 'eus', 'euv', 'eux', 'eve', 'evo', 'exa', 'exc', 'exe', 'exi', 'exp', 'ext', 'exé', 'fac', 'fai', 'fal', 'fam', 'fan', 'fau', 'fav', 'fem', 'fer', 'fes', 'feu', 'ffr', 'fia', 'fic', 'fid', 'fie', 'fig', 'fil', 'fin', 'fir', 'fit', 'fix', 'fle', 'foi', 'fon', 'for', 'fou', 'foy', 'fra', 'fro', 'frs', 'fru', 'fun', 'fut', 'fér', 'fêt', 'gag', 'gai', 'gar', 'gen', 'ger', 'ges', 'get', 'gin', 'giq', 'glo', 'gne', 'gné', 'gou', 'gra', 'gre', 'gro', 'grâ', 'grè', 'gré', 'gte', 'gue', 'gée', 'gén', 'gên', 'hab', 'hai', 'han', 'hau', 'haî', 'her', 'hes', 'heu', 'hie', 'hin', 'his', 'hol', 'hom', 'hon', 'hor', 'hos', 'hou', 'hui', 'hum', 'hél', 'hér', 'hôt', 'ial', 'ian', 'iat', 'ibl', 'ibé', 'ica', 'ice', 'ich', 'ici', 'icl', 'ide', 'idé', 'iel', 'ien', 'ier', 'ies', 'ieu', 'iez', 'ife', 'iff', 'ifi', 'ifs', 'ige', 'igi', 'ign', 'igé', 'ile', 'ili', 'ill', 'ils', 'ima', 'ime', 'imi', 'imm', 'imp', 'ina', 'inc', 'ind', 'ine', 'inf', 'ing', 'ini', 'ino', 'inq', 'ins', 'int', 'inu', 'inv', 'iné', 'ion', 'iqu', 'ira', 'ire', 'irm', 'iro', 'irr', 'isa', 'ise', 'isi', 'ism', 'iso', 'iss', 'ist', 'isé', 'ita', 'ite', 'iti', 'ito', 'itr', 'its', 'itu', 'ité', 'iva', 'ive', 'ivi', 'ivr', 'ivé', 'ièr', 'iée', 'iés', 'iét', 'jad', 'jam', 'jet', 'jeu', 'joi', 'jou', 'jug', 'jui', 'jus', 'kan', 'kil', 'lab', 'lag', 'lai', 'lam', 'lan', 'laq', 'lar', 'las', 'lat', 'lau', 'lec', 'lem', 'len', 'ler', 'les', 'let', 'leu', 'lev', 'lez', 'lia', 'lib', 'lic', 'lie', 'lig', 'lim', 'lin', 'lio', 'liq', 'lir', 'lis', 'lit', 'liv', 'lié', 'lla', 'lle', 'lli', 'loc', 'log', 'loi', 'lom', 'lon', 'lor', 'lou', 'loy', 'lqu', 'lue', 'lui', 'lut', 'lux', 'lèg', 'lée', 'lég', 'mac', 'mag', 'mai', 'maj', 'mal', 'man', 'mar', 'mas', 'mat', 'mau', 'maî', 'mbr', 'mei', 'mem', 'men', 'mer', 'mes', 'met', 'meu', 'mie', 'min', 'mir', 'mis', 'miè', 'mme', 'mod', 'moi', 'mom', 'mon', 'mot', 'mou', 'moy', 'mpe', 'mpl', 'mps', 'mul', 'mun', 'mus', 'mèr', 'méc', 'méd', 'mém', 'mér', 'mét', 'mêm', 'nag', 'nai', 'nal', 'nan', 'nat', 'naî', 'nce', 'nch', 'nci', 'nco', 'ncs', 'ncu', 'nda', 'nde', 'ndi', 'ndo', 'ndr', 'nds', 'neg', 'nel', 'nem', 'nen', 'ner', 'nes', 'net', 'neu', 'nfa', 'nge', 'nie', 'nif', 'nim', 'nio', 'nir', 'nis', 'niè', 'nna', 'nne', 'nné', 'nob', 'nom', 'non', 'nor', 'nos', 'not', 'nou', 'nqu', 'nsp', 'nta', 'nte', 'nti', 'nts', 'nui', 'nul', 'nça', 'néc', 'née', 'nég', 'nés', 'nôt', 'obj', 'obl', 'obr', 'obs', 'occ', 'oci', 'ocr', 'oeu', 'off', 'oie', 'oin', 'oir', 'ois', 'ole', 'olt', 'olu', 'olé', 'omm', 'omn', 'omo', 'omp', 'omè', 'ona', 'onc', 'ond', 'oni', 'onn', 'ons', 'ont', 'ope', 'opi', 'opp', 'opé', 'ora', 'ord', 'ore', 'org', 'ori', 'orm', 'ort', 'osa', 'ose', 'oss', 'osé', 'oub', 'oue', 'our', 'ous', 'out', 'ouv', 'oué', 'pab', 'pac', 'pag', 'pai', 'pal', 'pan', 'par', 'pas', 'pat', 'pau', 'pay', 'pec', 'pei', 'pel', 'pen', 'per', 'pes', 'pet', 'peu', 'pie', 'pil', 'pir', 'pit', 'piè', 'pla', 'ple', 'pli', 'plu', 'plè', 'plé', 'poi', 'pol', 'pon', 'pop', 'por', 'pos', 'pou', 'ppe', 'ppé', 'pre', 'pri', 'pro', 'pru', 'prè', 'pré', 'prê', 'pte', 'pti', 'pub', 'pui', 'pèr', 'pén', 'pér', 'qua', 'que', 'qui', 'quo', 'qué', 'quê', 'rab', 'rac', 'rag', 'rai', 'ral', 'ran', 'rap', 'rar', 'ras', 'rat', 'rav', 'ray', 'rce', 'rch', 'rds', 'rec', 'red', 'ref', 'reg', 'rel', 'rem', 'ren', 'rep', 'rer', 'res', 'ret', 'reu', 'rev', 'rez', 'reç', 'rge', 'rgi', 'rgé', 'ria', 'rib', 'ric', 'rie', 'rif', 'rim', 'rio', 'riq', 'rir', 'ris', 'rit', 'riv', 'riè', 'rme', 'rmo', 'rna', 'rne', 'rni', 'rné', 'rob', 'roc', 'ron', 'rop', 'rou', 'roy', 'rqu', 'rra', 'rre', 'rri', 'rro', 'rsu', 'rta', 'rue', 'rui', 'rès', 'réa', 'réc', 'réd', 'rée', 'réf', 'rég', 'rép', 'rés', 'rét', 'réu', 'rév', 'rêv', 'rôl', 'sab', 'sac', 'sag', 'sai', 'sal', 'san', 'sat', 'sau', 'sav', 'sci', 'scr', 'sec', 'sei', 'sel', 'sem', 'sen', 'ser', 'ses', 'seu', 'sev', 'sib', 'sid', 'sie', 'sig', 'sil', 'sim', 'sin', 'sio', 'sis', 'sit', 'six', 'siè', 'sme', 'soc', 'soi', 'sol', 'som', 'son', 'sor', 'sou', 'spe', 'spé', 'squ', 'ssa', 'sse', 'ssi', 'sso', 'ssé', 'sta', 'ste', 'sti', 'sto', 'str', 'sub', 'suc', 'suf', 'sui', 'suj', 'sup', 'sur', 'sus', 'sym', 'sys', 'séa', 'séc', 'sée', 'séq', 'sér', 'sés', 'sûr', 'tab', 'tac', 'tag', 'tai', 'tal', 'tan', 'tar', 'tat', 'tau', 'tea', 'tel', 'tem', 'ten', 'ter', 'tes', 'teu', 'tex', 'the', 'thè', 'tia', 'tic', 'tie', 'tif', 'til', 'tim', 'tin', 'tio', 'tiq', 'tir', 'tis', 'tit', 'tiv', 'tié', 'toi', 'tom', 'ton', 'tor', 'tot', 'tou', 'tra', 'tre', 'tri', 'tro', 'tru', 'trè', 'tré', 'tte', 'tud', 'tue', 'tur', 'tué', 'tèm', 'tée', 'tél', 'tém', 'tés', 'têt', 'tôt', 'uat', 'ubl', 'uco', 'ude', 'uei', 'uel', 'uen', 'uer', 'ues', 'ueu', 'uff', 'uis', 'uit', 'uié', 'ula', 'uli', 'ult', 'una', 'une', 'uni', 'uns', 'upe', 'ura', 'ure', 'urg', 'urr', 'urs', 'usa', 'use', 'usi', 'ust', 'usé', 'ute', 'uti', 'uté', 'uva', 'uve', 'uvi', 'uvé', 'uêt', 'vag', 'vai', 'val', 'van', 'var', 'vat', 'vau', 'vea', 'vei', 'vel', 'vem', 'ven', 'ver', 'ves', 'veu', 'vic', 'vid', 'vie', 'vig', 'vil', 'vin', 'vio', 'vir', 'vis', 'vit', 'viv', 'voi', 'vol', 'von', 'voq', 'vos', 'vot', 'vou', 'voy', 'vra', 'vre', 'vue', 'vée', 'vér', 'xel', 'yeu', 'âme', 'çai', 'èle', 'ème', 'ère', 'ève', 'éch', 'écl', 'éco', 'édi', 'édu', 'ées', 'éfi', 'éga', 'égo', 'égr', 'égu', 'éla', 'éle', 'éli', 'élo', 'élu', 'élé', 'éme', 'émo', 'éne', 'éni', 'éno', 'énu', 'épa', 'épe', 'épo', 'épr', 'épu', 'équ', 'éra', 'ére', 'éri', 'éro', 'éré', 'érê', 'éta', 'éte', 'éti', 'étr', 'étu', 'été', 'évi', 'êch', 'ême', 'ête', 'êtr', 'ôts', 'œuv']
#Number of occurrences: 5
common_3grams = ['All', 'mil', 'mor', 'ume', 'écr']
#Number of occurrences: 0
war_unique_unique_4grams = []
#Number of occurrences: 1289
gt_unique_4grams = ['AMÉR', 'ASSO', 'Affa', 'Ains', 'Alli', 'Alsa', 'Amér', 'Andr', 'Angl', 'Août', 'Aprè', 'Asso', 'Aujo', 'Autr', 'Avri', 'BOUR', 'BUTL', 'Beau', 'Belg', 'Bien', 'Bour', 'Brux', 'Bure', 'Butl', 'CAIS', 'CARN', 'CIAT', 'CONS', 'CREA', 'Cail', 'Carn', 'Ceci', 'Cela', 'Cett', 'Cham', 'Clem', 'Cler', 'Comi', 'Comm', 'Conc', 'Conf', 'Cons', 'Cour', 'Créa', 'DANS', 'DOTA', 'Dans', 'Dieu', 'Dota', 'Droi', 'Déce', 'Dépa', 'EGIE', 'ESTO', 'ETTR', 'Elle', 'Empe', 'Empi', 'Enco', 'Etat', 'Etra', 'Euro', 'FRAN', 'Flèc', 'Fran', 'Févr', 'GEOI', 'GUER', 'Gouv', 'Guer', 'Guil', 'Géné', 'Haye', 'Huma', 'ICAI', 'IDEN', 'Inte', 'Ital', 'Janv', 'Jour', 'Juil', 'LETT', 'LLES', 'Leur', 'Loir', 'Lond', 'Lord', 'Lorr', 'Loui', 'Léon', 'Mais', 'Mame', 'Mans', 'Mars', 'Mini', 'Mond', 'Mons', 'Mont', 'Murr', 'NATI', 'NIPP', 'NOTR', 'Nati', 'Nich', 'Nipp', 'Notr', 'Nous', 'Nove', 'PAIX', 'PARI', 'POUR', 'PRÉS', 'Paix', 'Pari', 'Parl', 'Paul', 'Pier', 'Pour', 'Prof', 'Prés', 'Quan', 'Quel', 'Quoi', 'Robe', 'Roos', 'Russ', 'Répu', 'SENA', 'SOCI', 'Sain', 'Sart', 'Secr', 'Sept', 'Soci', 'Suis', 'SÉNA', 'Séna', 'TANT', 'TION', 'Tous', 'Tout', 'URNE', 'Unis', 'VRAI', 'Voic', 'Voil', 'Votr', 'Vous', 'Wils', 'XXXX', 'YORK', 'York', 'aban', 'abat', 'able', 'abor', 'abus', 'acce', 'acco', 'accu', 'ache', 'acte', 'acti', 'actu', 'admi', 'adre', 'adve', 'affa', 'affe', 'affi', 'agan', 'ages', 'aggr', 'agne', 'agre', 'aide', 'aien', 'aill', 'aine', 'ains', 'aire', 'aise', 'aiss', 'aite', 'ajou', 'ales', 'alis', 'alla', 'alle', 'alli', 'allo', 'allé', 'alor', 'ambi', 'amis', 'amné', 'amér', 'ance', 'anci', 'ande', 'angl', 'anim', 'anne', 'anno', 'anné', 'ante', 'anti', 'ants', 'aper', 'appa', 'appe', 'appl', 'appo', 'appr', 'appu', 'aprè', 'arat', 'araî', 'arbi', 'arer', 'arge', 'arme', 'armé', 'arri', 'arro', 'arrê', 'arti', 'arée', 'asse', 'assi', 'asso', 'assu', 'ateu', 'athi', 'atio', 'atro', 'atta', 'atte', 'atti', 'attr', 'atté', 'atur', 'aucu', 'audi', 'augm', 'aujo', 'aupa', 'aura', 'auro', 'auss', 'auta', 'auto', 'autr', 'avai', 'avan', 'avec', 'aven', 'aver', 'avez', 'avio', 'avis', 'avoi', 'avon', 'aîne', 'barb', 'bata', 'beau', 'bell', 'beso', 'bien', 'bili', 'bles', 'blic', 'bliq', 'bloc', 'bonn', 'bord', 'born', 'bouc', 'bour', 'brav', 'brûl', 'budg', 'bure', 'béné', 'cain', 'camp', 'cand', 'cant', 'carr', 'cata', 'cati', 'caus', 'cela', 'cell', 'celu', 'cent', 'cepe', 'cert', 'cess', 'cett', 'ceux', 'chac', 'chal', 'cham', 'chan', 'chaq', 'char', 'chau', 'chef', 'chem', 'cher', 'chev', 'chez', 'chif', 'chis', 'choi', 'chos', 'chât', 'chée', 'ciat', 'ciel', 'cien', 'cier', 'cinq', 'cipa', 'cipe', 'circ', 'cité', 'civi', 'clai', 'clas', 'coeu', 'coll', 'colo', 'comb', 'comm', 'comp', 'conc', 'cond', 'conf', 'conn', 'conq', 'cons', 'cont', 'conv', 'cord', 'corr', 'coup', 'cour', 'couv', 'coût', 'crai', 'crat', 'crim', 'cris', 'croi', 'croy', 'créa', 'ctio', 'ctue', 'cult', 'côté', 'cœur', 'dang', 'dans', 'dava', 'dema', 'depu', 'dern', 'desc', 'dess', 'dest', 'deui', 'deux', 'deva', 'deve', 'devi', 'devo', 'devr', 'diff', 'dign', 'dipl', 'dira', 'dire', 'diri', 'disa', 'disc', 'disp', 'dist', 'dive', 'divi', 'doit', 'domi', 'donc', 'donn', 'dont', 'doub', 'doul', 'dout', 'dres', 'droi', 'dura', 'dure', 'déba', 'débu', 'déce', 'déch', 'déci', 'décl', 'déco', 'défa', 'défe', 'défi', 'déje', 'déjà', 'déli', 'délé', 'démo', 'déno', 'dépa', 'dépe', 'dépi', 'dépo', 'désa', 'dése', 'dési', 'déso', 'détr', 'déve', 'dévo', 'eaux', 'ecti', 'effe', 'effi', 'effo', 'effr', 'egie', 'eill', 'elle', 'emai', 'embr', 'emen', 'emme', 'empl', 'empo', 'empê', 'ence', 'enco', 'encé', 'enda', 'endr', 'endu', 'enfa', 'enfi', 'enga', 'enir', 'enne', 'enqu', 'enri', 'ense', 'ensu', 'enta', 'ente', 'enti', 'entr', 'ents', 'enva', 'enve', 'envi', 'envo', 'epri', 'erai', 'erce', 'erne', 'eron', 'erre', 'erse', 'erve', 'espo', 'espr', 'espè', 'espé', 'essa', 'esse', 'essi', 'esta', 'este', 'esti', 'eten', 'eter', 'ette', 'eure', 'eurs', 'euse', 'evel', 'exac', 'exce', 'exem', 'exer', 'exis', 'expl', 'expo', 'expr', 'expé', 'extr', 'exéc', 'face', 'faci', 'faib', 'fair', 'fais', 'fait', 'fall', 'fami', 'faud', 'faut', 'fave', 'favo', 'femm', 'fera', 'ferm', 'fest', 'ffér', 'fica', 'fice', 'fidè', 'fier', 'figu', 'fill', 'fils', 'fina', 'fini', 'fiqu', 'fleu', 'fois', 'fonc', 'fond', 'font', 'forc', 'form', 'fort', 'forê', 'four', 'foye', 'frai', 'fran', 'frap', 'fron', 'frui', 'futu', 'fête', 'gagn', 'gard', 'gean', 'geme', 'gens', 'geoi', 'gion', 'gouv', 'gran', 'grat', 'gros', 'grou', 'grâc', 'grèv', 'guer', 'géné', 'habi', 'hain', 'haut', 'heur', 'hier', 'hist', 'homm', 'honn', 'hont', 'horr', 'huma', 'héla', 'héro', 'hôte', 'iale', 'ianc', 'iard', 'iati', 'ible', 'icai', 'icat', 'ices', 'icil', 'icul', 'iden', 'idéa', 'idée', 'idér', 'iens', 'ient', 'iers', 'ieur', 'ieux', 'ific', 'ifie', 'ifié', 'igne', 'igno', 'ilia', 'ille', 'illu', 'imen', 'imes', 'imit', 'imme', 'impo', 'impr', 'impu', 'impé', 'impô', 'inca', 'ince', 'inco', 'inct', 'indi', 'indé', 'iner', 'ines', 'inex', 'infi', 'infé', 'ingr', 'init', 'inqu', 'insi', 'insp', 'inst', 'insu', 'inte', 'inté', 'inue', 'inut', 'inva', 'invi', 'inév', 'iona', 'ionn', 'ions', 'ipli', 'ique', 'ires', 'irré', 'isan', 'isme', 'isol', 'ison', 'issa', 'isse', 'issi', 'iste', 'ital', 'iter', 'itio', 'itud', 'itut', 'ière', 'jadi', 'jama', 'jeun', 'joie', 'join', 'jour', 'juge', 'jusq', 'just', 'kilo', 'lair', 'lais', 'lait', 'lame', 'lanc', 'lang', 'lant', 'laqu', 'larg', 'lass', 'lati', 'laum', 'laux', 'leme', 'lend', 'lent', 'lesq', 'less', 'leur', 'libe', 'libr', 'libé', 'lier', 'lieu', 'lign', 'limi', 'liqu', 'lisa', 'list', 'lité', 'livr', 'lièr', 'llem', 'llen', 'lles', 'loca', 'loin', 'long', 'lopp', 'ltat', 'luti', 'lutt', 'lème', 'lète', 'légi', 'léon', 'mach', 'maga', 'main', 'mair', 'mais', 'majo', 'mala', 'malg', 'malh', 'mani', 'manq', 'marc', 'mari', 'mass', 'mati', 'maté', 'mauv', 'maît', 'mble', 'mblé', 'mbre', 'meil', 'memb', 'mena', 'mens', 'ment', 'mesu', 'mett', 'mieu', 'mili', 'mill', 'mini', 'mira', 'miss', 'mmen', 'mobi', 'mode', 'moin', 'mois', 'mome', 'mond', 'mons', 'mont', 'monu', 'mora', 'moye', 'mpar', 'mphe', 'mère', 'mètr', 'médi', 'méri', 'même', 'nair', 'nais', 'nant', 'nati', 'natu', 'naux', 'nces', 'nche', 'ncie', 'ndai', 'ndan', 'nden', 'nder', 'ndie', 'ndis', 'ndre', 'nent', 'neut', 'nger', 'ngèr', 'nisa', 'nise', 'nist', 'nisé', 'nité', 'nnai', 'nnaî', 'nnel', 'nobl', 'nomb', 'nomm', 'norm', 'nota', 'notr', 'nour', 'nous', 'nouv', 'nses', 'ntag', 'ntai', 'nten', 'ntie', 'ntio', 'ntér', 'nuer', 'néce', 'nées', 'nôtr', 'obat', 'obje', 'obli', 'obse', 'occa', 'occu', 'oche', 'oeuv', 'offe', 'offi', 'oire', 'olas', 'omat', 'omiq', 'onal', 'onge', 'onna', 'onne', 'onni', 'onsa', 'ontr', 'opin', 'oppo', 'ordi', 'ordr', 'orga', 'orgu', 'orie', 'orig', 'orte', 'orti', 'oser', 'osit', 'oubl', 'ourc', 'ours', 'outr', 'ouve', 'ouvr', 'oyab', 'paci', 'paie', 'pala', 'para', 'parc', 'pare', 'parf', 'parl', 'parm', 'paro', 'part', 'pass', 'pati', 'patr', 'pauv', 'paye', 'pays', 'pein', 'pend', 'pens', 'perd', 'perm', 'pers', 'pert', 'peti', 'peup', 'peut', 'peuv', 'pire', 'plac', 'plai', 'plan', 'plei', 'plup', 'plus', 'plut', 'poin', 'poli', 'popu', 'port', 'poss', 'pour', 'pous', 'pouv', 'prem', 'pren', 'pres', 'prin', 'pris', 'priv', 'prix', 'prob', 'proc', 'prod', 'prof', 'prog', 'proj', 'prol', 'prom', 'pron', 'prop', 'prot', 'prov', 'prus', 'près', 'préc', 'prép', 'prés', 'prét', 'prév', 'prêt', 'ptio', 'publ', 'puis', 'père', 'péen', 'péri', 'quan', 'quar', 'quat', 'quel', 'ques', 'queu', 'quil', 'quoi', 'rabl', 'radi', 'raie', 'rair', 'rais', 'rait', 'rale', 'rali', 'ramm', 'ranc', 'rant', 'rapi', 'rapp', 'rare', 'rati', 'raux', 'rava', 'rdre', 'rece', 'reco', 'recu', 'refu', 'rega', 'regr', 'rela', 'reli', 'rell', 'reme', 'remp', 'renc', 'rend', 'reno', 'rent', 'repa', 'repo', 'repr', 'resp', 'ress', 'rest', 'reta', 'reto', 'retr', 'reur', 'reus', 'reux', 'reva', 'reve', 'revi', 'rial', 'ribu', 'rich', 'riel', 'rien', 'rieu', 'rise', 'risq', 'rité', 'rnat', 'rons', 'ront', 'rout', 'rray', 'rsai', 'rtan', 'rtem', 'ruct', 'ruin', 'réac', 'réal', 'réce', 'récl', 'réco', 'rédi', 'rédu', 'réfl', 'réfu', 'régi', 'régl', 'régu', 'répa', 'répo', 'répu', 'rése', 'rési', 'réso', 'résu', 'réta', 'réun', 'réus', 'révo', 'rôle', 'sabl', 'sach', 'sacr', 'sage', 'sais', 'sait', 'sanc', 'sang', 'sans', 'sant', 'sati', 'sauv', 'save', 'savo', 'seco', 'secr', 'sema', 'semb', 'seme', 'sens', 'sent', 'sera', 'sero', 'serv', 'seul', 'sien', 'sign', 'simp', 'sion', 'situ', 'sièg', 'soci', 'soie', 'soin', 'soir', 'soit', 'sold', 'somm', 'sons', 'sont', 'sort', 'souf', 'souh', 'soul', 'sour', 'sous', 'sout', 'souv', 'spec', 'spor', 'ssai', 'ssan', 'sser', 'ssib', 'ssio', 'stan', 'ster', 'stes', 'stic', 'stre', 'stro', 'stèr', 'subi', 'subs', 'succ', 'suff', 'suis', 'suit', 'suiv', 'suje', 'supp', 'supé', 'surp', 'surt', 'surv', 'susc', 'susp', 'symp', 'syst', 'séan', 'séri', 'tabl', 'tacl', 'tage', 'tain', 'tair', 'tait', 'tand', 'tant', 'tard', 'tari', 'tate', 'tati', 'taux', 'tell', 'teme', 'temp', 'tena', 'tend', 'teni', 'tent', 'tenu', 'term', 'terr', 'teur', 'text', 'tien', 'tion', 'tiqu', 'titr', 'titu', 'tité', 'tive', 'tomb', 'tora', 'tort', 'tota', 'touc', 'touj', 'tour', 'tous', 'tout', 'trad', 'trag', 'trai', 'tran', 'trav', 'tres', 'trio', 'tris', 'troi', 'trom', 'trop', 'trou', 'très', 'ttre', 'tude', 'tuel', 'ture', 'télé', 'témo', 'tête', 'ucti', 'uell', 'uels', 'ueme', 'uent', 'uire', 'uite', 'uits', 'unan', 'uner', 'unes', 'unio', 'uniq', 'univ', 'urag', 'ures', 'urie', 'urne', 'urre', 'usem', 'usse', 'ussi', 'utif', 'util', 'uves', 'uête', 'vain', 'vait', 'vale', 'vant', 'vari', 'veil', 'veme', 'vend', 'veni', 'vent', 'venu', 'vera', 'vere', 'verr', 'vers', 'veul', 'veut', 'vict', 'vide', 'viei', 'vien', 'vieu', 'vill', 'vins', 'viol', 'visi', 'vite', 'vité', 'viva', 'vive', 'vivr', 'voic', 'voie', 'voil', 'voir', 'vois', 'voit', 'voix', 'volo', 'vont', 'votr', 'voud', 'voul', 'vous', 'voya', 'voye', 'véri', 'yeux', 'ÉNAT', 'çais', 'ègue', 'ères', 'écha', 'éche', 'écho', 'écla', 'écon', 'écra', 'édif', 'éduc', 'égal', 'égar', 'élec', 'élev', 'émen', 'éner', 'énor', 'épar', 'épre', 'épui', 'éque', 'équi', 'éren', 'ésen', 'étab', 'étai', 'étan', 'état', 'étra', 'étud', 'évit', 'êtes', 'être', 'œuvr']
#Number of occurrences: 7
common_4grams = ['Alle', 'lett', 'magn', 'mand', 'mort', 'paix', 'écri']
#Other_unique vs GT
#Number of occurrences: 2
other_unique_unique_2grams = ['Mm', 'éf']
#Number of occurrences: 504
gt_unique_2grams = ['AC', 'AD', 'AG', 'AI', 'AL', 'AM', 'AN', 'AP', 'AR', 'AS', 'AT', 'AU', 'AV', 'Af', 'Ag', 'Ai', 'Al', 'Am', 'An', 'Ao', 'Ap', 'Ar', 'As', 'Au', 'Av', 'BA', 'BE', 'BO', 'BU', 'Ba', 'Be', 'Bi', 'Bu', 'CA', 'CE', 'CH', 'CI', 'CL', 'CO', 'CR', 'Ca', 'Ce', 'Co', 'DA', 'DE', 'DI', 'DO', 'DR', 'DU', 'Da', 'Di', 'Dr', 'Du', 'DÉ', 'EA', 'EC', 'EG', 'EI', 'EL', 'EM', 'EN', 'ER', 'ES', 'ET', 'Em', 'Et', 'Eu', 'Ex', 'FA', 'FE', 'FI', 'FO', 'FR', 'Fe', 'Fi', 'Fo', 'Fr', 'Fé', 'GA', 'GE', 'GR', 'GU', 'Ga', 'Gr', 'Gu', 'Gé', 'HE', 'HO', 'Ha', 'Ho', 'Hu', 'IA', 'IC', 'ID', 'IE', 'II', 'IL', 'IN', 'IO', 'IR', 'IS', 'IT', 'IX', 'Il', 'In', 'It', 'JO', 'Je', 'Jo', 'LA', 'LE', 'LI', 'LL', 'LO', 'La', 'Le', 'Li', 'Là', 'Lé', 'MA', 'MB', 'ME', 'MI', 'MM', 'MO', 'MP', 'Ma', 'Mi', 'Mo', 'Mu', 'NC', 'ND', 'NG', 'NI', 'NO', 'NS', 'NT', 'Na', 'Ne', 'Ni', 'No', 'NÉ', 'OI', 'OL', 'ON', 'OP', 'OR', 'OU', 'Oc', 'Or', 'Ou', 'PA', 'PE', 'PI', 'PL', 'PO', 'PP', 'PR', 'PU', 'Pa', 'Pe', 'Pi', 'Pr', 'Pu', 'QU', 'RA', 'RD', 'RE', 'RI', 'RK', 'RN', 'RO', 'RR', 'RS', 'RT', 'RU', 'Ri', 'Ro', 'Ru', 'RÉ', 'SA', 'SC', 'SE', 'SI', 'SO', 'SS', 'ST', 'SU', 'Sc', 'Se', 'Si', 'St', 'Su', 'SÉ', 'TA', 'TE', 'TI', 'TL', 'TO', 'TR', 'TS', 'TT', 'Ta', 'Te', 'Tr', 'TÉ', 'UD', 'UE', 'UN', 'UR', 'US', 'UT', 'UX', 'VE', 'VI', 'VO', 'Ve', 'Vi', 'Vo', 'WE', 'Wa', 'Wi', 'XI', 'YO', 'Yo', 'ab', 'ac', 'ad', 'af', 'ag', 'ai', 'aj', 'al', 'am', 'an', 'ap', 'aq', 'ar', 'as', 'at', 'au', 'av', 'ay', 'aî', 'be', 'bi', 'bl', 'bo', 'br', 'bs', 'bé', 'ca', 'ce', 'ch', 'ci', 'cl', 'co', 'cr', 'ct', 'cu', 'cè', 'cô', 'cœ', 'da', 'de', 'dg', 'di', 'do', 'dr', 'ds', 'du', 'dé', 'dû', 'ec', 'eg', 'el', 'em', 'en', 'ep', 'er', 'es', 'et', 'eu', 'ex', 'ez', 'fa', 'fe', 'fi', 'fo', 'fr', 'fé', 'fê', 'ga', 'ge', 'gg', 'gl', 'gm', 'gn', 'gr', 'gu', 'gê', 'ha', 'he', 'hi', 'ho', 'hy', 'hè', 'hô', 'ib', 'ic', 'id', 'ie', 'il', 'im', 'in', 'io', 'iq', 'ir', 'is', 'it', 'ix', 'iè', 'ié', 'ja', 'je', 'jo', 'ju', 'jà', 'ki', 'la', 'lc', 'ld', 'le', 'lh', 'li', 'lk', 'll', 'lo', 'lt', 'lu', 'ly', 'là', 'lè', 'ma', 'mb', 'me', 'mi', 'mm', 'mn', 'mo', 'mp', 'mè', 'mé', 'mê', 'na', 'nc', 'nd', 'ne', 'ng', 'ni', 'nl', 'nn', 'no', 'ns', 'nt', 'nu', 'nv', 'nç', 'né', 'nô', 'oc', 'oe', 'of', 'oi', 'oj', 'ol', 'on', 'op', 'oq', 'or', 'os', 'ou', 'ov', 'oy', 'pa', 'pe', 'ph', 'pi', 'pl', 'po', 'pr', 'ps', 'pu', 'pè', 'pê', 'pô', 'qu', 'ra', 'rb', 'rc', 'rd', 're', 'ri', 'rk', 'rl', 'rm', 'ro', 'rq', 'rr', 'rs', 'rt', 'rv', 'rè', 'ré', 'rô', 'sa', 'sc', 'se', 'sf', 'sh', 'si', 'sl', 'sm', 'so', 'sp', 'ss', 'st', 'su', 'sy', 'sé', 'sû', 'ta', 'te', 'th', 'ti', 'tl', 'to', 'tr', 'ts', 'tt', 'tu', 'tâ', 'té', 'tê', 'tô', 'ue', 'ug', 'uh', 'ui', 'ul', 'un', 'up', 'ur', 'us', 'ut', 'uv', 'ux', 'ué', 'uê', 'va', 've', 'vi', 'vo', 'vr', 'wa', 'xe', 'xi', 'xt', 'ya', 'ye', 'yo', 'ys', 'yé', 'ze', 'ÉN', 'ÉR', 'ÉS', 'ÉT', 'âc', 'âm', 'ât', 'ça', 'ço', 'èg', 'èm', 'èn', 'ès', 'èt', 'èv', 'éc', 'ée', 'én', 'ép', 'éq', 'ér', 'és', 'ét', 'êm', 'êt', 'ît', 'ôt', 'ûl', 'ût', 'œu']
#Number of occurrences: 96
common_2grams = ['Bo', 'Br', 'Ch', 'Cl', 'Cr', 'De', 'Do', 'Dé', 'El', 'En', 'Es', 'Fl', 'Ge', 'Go', 'He', 'Ja', 'Ju', 'Lo', 'Lu', 'Me', 'NA', 'NE', 'On', 'Po', 'Qu', 'Re', 'Ré', 'Sa', 'So', 'Sé', 'To', 'Un', 'XX', 'ba', 'bu', 'cc', 'cs', 'cé', 'dè', 'ea', 'ef', 'ei', 'ev', 'ff', 'fl', 'fu', 'gi', 'go', 'gé', 'hu', 'hé', 'ia', 'if', 'ig', 'ip', 'iv', 'lg', 'ls', 'lé', 'mt', 'mu', 'nf', 'nq', 'ob', 'od', 'og', 'om', 'ot', 'où', 'pp', 'pt', 'pé', 'rf', 'rg', 'rn', 'rp', 'ru', 'rê', 'sq', 'ua', 'ub', 'uc', 'ud', 'uf', 'uj', 'um', 'vu', 'vé', 'èc', 'èr', 'éa', 'éd', 'ég', 'él', 'ém', 'év']
#Number of occurrences: 7
other_unique_unique_3grams = ['Cor', 'Leb', 'Mme', 'del', 'did', 'mid', "qu'"]
#Number of occurrences: 1015
gt_unique_3grams = ['AIN', 'ALL', 'AMÉ', 'ANI', 'ANS', 'ART', 'ASS', 'ATI', 'Aff', 'Ain', 'Alb', 'All', 'Als', 'Amé', 'And', 'Ang', 'Aoû', 'App', 'Apr', 'Ass', 'Auj', 'Aut', 'Avr', 'BOU', 'BUT', 'Bal', 'Bea', 'Bel', 'Ber', 'Bie', 'Bru', 'Bur', 'But', 'CAR', 'CLE', 'COM', 'CON', 'COU', 'CRE', 'Car', 'Cec', 'Cel', 'Ces', 'Cet', 'Cou', 'Cré', 'DAN', 'DES', 'DOT', 'Dan', 'Des', 'Die', 'Dro', 'Déc', 'ELL', 'ENT', 'EST', 'ETT', 'Emp', 'Enc', 'Eta', 'Etr', 'Eur', 'FRA', 'Fer', 'Fin', 'Fra', 'Fév', 'GUE', 'Gra', 'Gue', 'Gui', 'Gén', 'Hay', 'Hum', 'ION', 'ISE', 'ITÉ', 'Ils', 'Int', 'Ita', 'Jan', 'Jau', 'Jou', 'Jui', 'Jus', 'LER', 'LES', 'LET', 'Les', 'Leu', 'Loi', 'Lon', 'Lor', 'Lou', 'Léo', 'MAI', 'MAN', 'MON', 'Mad', 'Mai', 'Mal', 'Mam', 'Mes', 'Min', 'Mon', 'Mur', 'NAT', 'NCA', 'NCE', 'NEG', 'NEL', 'NEW', 'NIP', 'NOT', 'Nat', 'New', 'Nic', 'Nip', 'Non', 'Nor', 'Nos', 'Not', 'Nov', 'OCI', 'OIS', 'ONS', 'OUR', 'Océ', 'PAI', 'PAR', 'POL', 'POU', 'PRO', 'PRÉ', 'Pai', 'Par', 'Pau', 'Per', 'Pie', 'Pou', 'Pré', 'QUE', 'Qua', 'Que', 'Quo', 'RES', 'RGE', 'RIC', 'RRE', 'Rob', 'Roo', 'Rus', 'Rép', 'SEN', 'SID', 'SOC', 'SON', 'STA', 'Sai', 'San', 'Sec', 'Sep', 'Soc', 'Sui', 'SÉN', 'TIO', 'TRE', 'TTR', 'Tan', 'Tra', 'UNI', 'Une', 'Ver', 'Voi', 'Vot', 'Vou', 'Wil', 'XXX', 'YOR', 'aba', 'abs', 'abu', 'ace', 'ach', 'ade', 'ado', 'adr', 'aff', 'agg', 'agi', 'agn', 'agr', 'agé', 'ahi', 'aid', 'aig', 'aim', 'ain', 'ais', 'ait', 'ajo', 'alc', 'ali', 'all', 'amb', 'ame', 'ami', 'amm', 'amé', 'ana', 'and', 'ane', 'ang', 'ann', 'ant', 'ané', 'apa', 'ape', 'app', 'aqu', 'ara', 'arb', 'arc', 'are', 'arg', 'arm', 'asi', 'ass', 'ast', 'ati', 'atr', 'ats', 'att', 'auc', 'aud', 'aug', 'auj', 'aup', 'aut', 'aux', 'ava', 'ave', 'avi', 'aye', 'aît', 'bal', 'ban', 'bar', 'bas', 'bat', 'bel', 'ber', 'bes', 'bie', 'bil', 'bla', 'ble', 'bli', 'blo', 'blè', 'blé', 'boi', 'bor', 'bou', 'bra', 'bri', 'bru', 'brû', 'bud', 'bue', 'bur', 'but', 'bén', 'cac', 'cal', 'cap', 'cas', 'cat', 'cea', 'cel', 'cem', 'cen', 'cep', 'ces', 'che', 'chi', 'châ', 'ché', 'cia', 'cie', 'cin', 'cip', 'cis', 'cit', 'civ', 'cla', 'cle', 'cli', 'clu', 'coe', 'col', 'com', 'con', 'cor', 'cou', 'coû', 'cré', 'cta', 'cto', 'cui', 'cul', 'cun', 'cur', 'cus', 'cut', 'cée', 'cél', 'côt', 'cœu', 'dai', 'dam', 'dan', 'dat', 'dav', 'den', 'des', 'dev', 'dia', 'dic', 'dig', 'dim', 'din', 'dip', 'dir', 'dis', 'div', 'dom', 'don', 'dre', 'dro', 'duc', 'due', 'dui', 'dur', 'dus', 'dès', 'déb', 'déc', 'déf', 'dég', 'dém', 'dén', 'dés', 'dét', 'dév', 'ect', 'eff', 'eig', 'eil', 'ell', 'elo', 'els', 'elt', 'elé', 'ema', 'eme', 'emi', 'emm', 'enc', 'end', 'eng', 'eni', 'enq', 'enr', 'ens', 'ent', 'enu', 'ept', 'era', 'erc', 'ere', 'eri', 'erm', 'ern', 'ero', 'err', 'esc', 'est', 'ets', 'ett', 'eté', 'eun', 'eur', 'eus', 'euv', 'eve', 'evo', 'exa', 'exi', 'ext', 'exé', 'fac', 'fai', 'fan', 'fav', 'fem', 'fer', 'feu', 'ffr', 'fic', 'fid', 'fie', 'fig', 'fir', 'fit', 'fix', 'fle', 'for', 'fou', 'foy', 'fro', 'frs', 'fru', 'fun', 'fut', 'fêt', 'gag', 'gai', 'gar', 'gen', 'ger', 'ges', 'get', 'gin', 'giq', 'glo', 'gne', 'gné', 'gou', 'gra', 'gre', 'gro', 'grâ', 'grè', 'gte', 'gue', 'gée', 'gên', 'hab', 'hai', 'han', 'hau', 'haî', 'her', 'hes', 'hie', 'hin', 'his', 'hol', 'hom', 'hor', 'hos', 'hou', 'hui', 'hum', 'hél', 'hér', 'hôt', 'ial', 'ian', 'ibl', 'ibé', 'ice', 'ich', 'icl', 'idé', 'iel', 'ien', 'ies', 'ieu', 'iez', 'ife', 'iff', 'ifi', 'ifs', 'ige', 'igi', 'ign', 'igé', 'ile', 'ils', 'ima', 'ime', 'imi', 'imm', 'imp', 'ind', 'inf', 'ing', 'ini', 'ino', 'inq', 'int', 'inu', 'iné', 'ion', 'ira', 'ire', 'irm', 'iro', 'irr', 'ism', 'iso', 'isé', 'ita', 'ito', 'itr', 'itu', 'ité', 'iva', 'ivi', 'ivr', 'ivé', 'ièr', 'iée', 'iés', 'iét', 'jad', 'jam', 'jet', 'joi', 'jou', 'jug', 'jui', 'kan', 'kil', 'lab', 'lag', 'lai', 'lam', 'lan', 'laq', 'lar', 'las', 'lat', 'lau', 'lec', 'ler', 'les', 'let', 'leu', 'lev', 'lez', 'lia', 'lic', 'lie', 'lim', 'lin', 'lio', 'lir', 'liv', 'lié', 'lle', 'lli', 'loc', 'log', 'loi', 'lom', 'lor', 'lou', 'loy', 'lqu', 'lue', 'lui', 'lut', 'lux', 'lèg', 'lég', 'mac', 'mag', 'mai', 'maj', 'mal', 'man', 'mas', 'mau', 'maî', 'mei', 'mem', 'men', 'mer', 'mes', 'meu', 'mil', 'mir', 'miè', 'mme', 'moi', 'mom', 'mon', 'mor', 'mot', 'mou', 'moy', 'mpe', 'mpl', 'mps', 'mul', 'mus', 'mèr', 'méc', 'méd', 'mém', 'mér', 'mét', 'mêm', 'nag', 'nal', 'nat', 'naî', 'nce', 'nch', 'nci', 'nco', 'ncu', 'nda', 'ndi', 'ndo', 'nds', 'neg', 'nen', 'nes', 'net', 'nfa', 'nge', 'nie', 'nif', 'nim', 'nio', 'nis', 'niè', 'nna', 'nné', 'nob', 'nor', 'nos', 'not', 'nou', 'nqu', 'nsp', 'nta', 'nte', 'nti', 'nui', 'nul', 'nça', 'néc', 'née', 'nég', 'nés', 'nôt', 'obj', 'obl', 'obr', 'obs', 'occ', 'oci', 'ocr', 'oeu', 'oie', 'oin', 'ole', 'olt', 'olu', 'olé', 'omn', 'omo', 'omè', 'ona', 'oni', 'ons', 'ont', 'ope', 'opi', 'opp', 'opé', 'ora', 'orm', 'osa', 'oss', 'osé', 'oub', 'oue', 'our', 'ous', 'out', 'pab', 'pac', 'pai', 'pal', 'pan', 'par', 'pas', 'pat', 'pau', 'pay', 'pec', 'pei', 'pel', 'pen', 'per', 'pes', 'peu', 'pie', 'pil', 'pir', 'pit', 'piè', 'pli', 'plu', 'plè', 'plé', 'poi', 'pol', 'pon', 'pop', 'pou', 'ppe', 'ppé', 'pre', 'pri', 'pro', 'pru', 'prè', 'pré', 'prê', 'pte', 'pti', 'pèr', 'pén', 'pér', 'qua', 'que', 'qui', 'quo', 'qué', 'quê', 'rab', 'rac', 'rag', 'ral', 'rap', 'rar', 'ras', 'rav', 'ray', 'rce', 'rch', 'rds', 'red', 'ref', 'reg', 'ren', 'rep', 'rer', 'res', 'rez', 'reç', 'rgi', 'rgé', 'rib', 'rif', 'rim', 'rio', 'riq', 'rir', 'ris', 'riv', 'riè', 'rme', 'rmo', 'rna', 'rne', 'rni', 'rné', 'rob', 'roc', 'ron', 'rop', 'rou', 'roy', 'rqu', 'rra', 'rre', 'rri', 'rro', 'rsu', 'rta', 'rui', 'rès', 'réd', 'rée', 'réf', 'rés', 'rét', 'rév', 'rêv', 'rôl', 'sab', 'sag', 'sai', 'san', 'sau', 'sci', 'sel', 'sem', 'sen', 'ser', 'ses', 'seu', 'sev', 'sid', 'sie', 'sig', 'sil', 'sio', 'sis', 'sit', 'six', 'siè', 'sme', 'soc', 'soi', 'sol', 'son', 'sou', 'spe', 'spé', 'sse', 'sso', 'str', 'sub', 'suf', 'sui', 'suj', 'sup', 'sur', 'sus', 'sym', 'sys', 'séc', 'sée', 'séq', 'sér', 'sés', 'sûr', 'tab', 'tac', 'tag', 'tal', 'tan', 'tar', 'tat', 'tau', 'ten', 'ter', 'tes', 'teu', 'tex', 'the', 'thè', 'tia', 'tif', 'til', 'tim', 'tin', 'tio', 'tiq', 'tir', 'tit', 'tiv', 'tié', 'toi', 'tom', 'tor', 'tot', 'tou', 'tra', 'tre', 'tro', 'tru', 'tte', 'tud', 'tue', 'tué', 'tèm', 'tée', 'tél', 'tém', 'tés', 'têt', 'tôt', 'uat', 'ude', 'uei', 'uen', 'uer', 'ues', 'uff', 'uit', 'uié', 'uli', 'ult', 'ume', 'una', 'une', 'uni', 'uns', 'upe', 'ura', 'ure', 'urg', 'urr', 'usa', 'usi', 'ust', 'usé', 'ute', 'uva', 'uvi', 'uvé', 'uêt', 'vag', 'vai', 'val', 'van', 'var', 'vat', 'vau', 'vea', 'vei', 'vel', 'vem', 'ven', 'ver', 'ves', 'veu', 'vid', 'vie', 'vig', 'vil', 'vin', 'vio', 'vir', 'vit', 'voi', 'vol', 'von', 'voq', 'vos', 'vou', 'voy', 'vue', 'vée', 'vér', 'xel', 'yeu', 'âme', 'çai', 'èle', 'ème', 'ève', 'éch', 'écl', 'éco', 'écr', 'édi', 'édu', 'éfi', 'égo', 'égr', 'éla', 'éli', 'élo', 'élu', 'élé', 'éme', 'émo', 'éne', 'éni', 'éno', 'énu', 'épa', 'épe', 'épo', 'épr', 'épu', 'équ', 'éri', 'éro', 'éré', 'érê', 'éta', 'éte', 'éti', 'étr', 'étu', 'évi', 'êch', 'ême', 'ête', 'êtr', 'ôts', 'œuv']
#Number of occurrences: 270
common_3grams = ['Bou', 'Cai', 'Cha', 'Cle', 'Com', 'Con', 'Dot', 'Dép', 'Ell', 'Est', 'Flè', 'Ger', 'Gou', 'Man', 'Mar', 'Nou', 'Pro', 'Sar', 'Sén', 'Tou', 'Uni', 'abl', 'abo', 'acc', 'act', 'adm', 'adv', 'age', 'aie', 'ail', 'air', 'ale', 'alo', 'anc', 'ani', 'ans', 'apr', 'ard', 'ari', 'arr', 'art', 'ate', 'aur', 'aus', 'avo', 'bea', 'bon', 'bre', 'cai', 'cam', 'can', 'car', 'cau', 'cer', 'cet', 'ceu', 'cha', 'cho', 'cil', 'cir', 'cra', 'cri', 'cro', 'cte', 'cti', 'cès', 'céd', 'dem', 'dep', 'der', 'deu', 'dif', 'dit', 'doi', 'dou', 'dra', 'déj', 'dél', 'dép', 'eau', 'emb', 'emp', 'enf', 'enn', 'env', 'ers', 'ert', 'erv', 'esp', 'ess', 'etc', 'eux', 'exc', 'exe', 'exp', 'fal', 'fam', 'fau', 'fes', 'fia', 'fil', 'fin', 'foi', 'fon', 'fra', 'fér', 'gré', 'gén', 'heu', 'hon', 'iat', 'ica', 'ici', 'ide', 'ier', 'ili', 'ill', 'ina', 'inc', 'ine', 'ins', 'inv', 'iqu', 'isa', 'ise', 'isi', 'iss', 'ist', 'ite', 'iti', 'its', 'ive', 'jeu', 'jus', 'lem', 'len', 'lib', 'lig', 'liq', 'lis', 'lit', 'lla', 'lon', 'lée', 'mar', 'mat', 'mbr', 'met', 'mie', 'min', 'mis', 'mod', 'mun', 'nai', 'nan', 'ncs', 'nde', 'ndr', 'nel', 'nem', 'ner', 'neu', 'nir', 'nne', 'nom', 'non', 'nts', 'off', 'oir', 'ois', 'omm', 'omp', 'onc', 'ond', 'onn', 'ord', 'ore', 'org', 'ori', 'ort', 'ose', 'ouv', 'oué', 'pag', 'pet', 'pla', 'ple', 'por', 'pos', 'pub', 'pui', 'rai', 'ran', 'rat', 'rec', 'rel', 'rem', 'ret', 'reu', 'rev', 'rge', 'ria', 'ric', 'rie', 'rit', 'rue', 'réa', 'réc', 'rég', 'rép', 'réu', 'sac', 'sal', 'sat', 'sav', 'scr', 'sec', 'sei', 'sib', 'sim', 'sin', 'som', 'sor', 'squ', 'ssa', 'ssi', 'ssé', 'sta', 'ste', 'sti', 'sto', 'suc', 'séa', 'tai', 'tea', 'tel', 'tem', 'tic', 'tie', 'tis', 'ton', 'tri', 'trè', 'tré', 'tur', 'ubl', 'uco', 'uel', 'ueu', 'uis', 'ula', 'urs', 'use', 'uti', 'uté', 'uve', 'vic', 'vis', 'viv', 'vot', 'vra', 'vre', 'ère', 'ées', 'éga', 'égu', 'éle', 'éra', 'ére', 'été']
#Number of occurrences: 10
other_unique_unique_4grams = ['Comt', 'Cord', 'Esto', 'Lebe', 'Préf', 'aris', 'elet', 'idat', 'midi', 'scru']
#Number of occurrences: 1107
gt_unique_4grams = ['AMÉR', 'ASSO', 'Affa', 'Ains', 'Alle', 'Alli', 'Alsa', 'Amér', 'Andr', 'Angl', 'Août', 'Aprè', 'Asso', 'Aujo', 'Autr', 'Avri', 'BOUR', 'BUTL', 'Beau', 'Belg', 'Bien', 'Bour', 'Brux', 'Bure', 'Butl', 'CAIS', 'CARN', 'CIAT', 'CONS', 'CREA', 'Carn', 'Ceci', 'Cela', 'Cett', 'Clem', 'Cler', 'Comi', 'Comm', 'Conf', 'Cour', 'Créa', 'DANS', 'DOTA', 'Dans', 'Dieu', 'Droi', 'Déce', 'Dépa', 'EGIE', 'ESTO', 'ETTR', 'Empe', 'Empi', 'Enco', 'Etat', 'Etra', 'Euro', 'FRAN', 'Fran', 'Févr', 'GEOI', 'GUER', 'Guer', 'Guil', 'Géné', 'Haye', 'Huma', 'ICAI', 'IDEN', 'Inte', 'Ital', 'Janv', 'Jour', 'Juil', 'LETT', 'LLES', 'Leur', 'Loir', 'Lond', 'Lord', 'Lorr', 'Loui', 'Léon', 'Mais', 'Mame', 'Mars', 'Mini', 'Mond', 'Mons', 'Mont', 'Murr', 'NATI', 'NIPP', 'NOTR', 'Nati', 'Nich', 'Nipp', 'Notr', 'Nove', 'PAIX', 'PARI', 'POUR', 'PRÉS', 'Paix', 'Parl', 'Paul', 'Pier', 'Pour', 'Prés', 'Quan', 'Quel', 'Quoi', 'Robe', 'Roos', 'Russ', 'Répu', 'SENA', 'SOCI', 'Sain', 'Sart', 'Secr', 'Sept', 'Soci', 'Suis', 'SÉNA', 'TANT', 'TION', 'Tous', 'Tout', 'URNE', 'Unis', 'Voic', 'Voil', 'Votr', 'Vous', 'Wils', 'XXXX', 'YORK', 'York', 'aban', 'abat', 'abus', 'acce', 'ache', 'acte', 'acti', 'actu', 'adre', 'adve', 'affa', 'affe', 'affi', 'agan', 'ages', 'aggr', 'agre', 'aide', 'aien', 'aine', 'aise', 'aiss', 'aite', 'ajou', 'ales', 'alis', 'alla', 'alli', 'allo', 'allé', 'ambi', 'amné', 'amér', 'anci', 'ande', 'angl', 'anim', 'anne', 'anno', 'anné', 'ante', 'anti', 'ants', 'aper', 'appa', 'appe', 'appl', 'appo', 'appr', 'appu', 'arat', 'araî', 'arbi', 'arer', 'arge', 'arme', 'armé', 'arro', 'arrê', 'arti', 'arée', 'assi', 'asso', 'assu', 'ateu', 'athi', 'atio', 'atro', 'atta', 'atte', 'atti', 'attr', 'atté', 'atur', 'aucu', 'audi', 'augm', 'aujo', 'aupa', 'auro', 'auto', 'autr', 'avai', 'avec', 'aven', 'aver', 'avio', 'avis', 'aîne', 'barb', 'bata', 'bell', 'beso', 'bien', 'bili', 'bles', 'bliq', 'bloc', 'bonn', 'bord', 'born', 'bouc', 'bour', 'brav', 'brûl', 'budg', 'bure', 'béné', 'cain', 'carr', 'cata', 'cati', 'caus', 'cela', 'celu', 'cent', 'cepe', 'cert', 'cess', 'chac', 'chal', 'cham', 'chan', 'chaq', 'char', 'chau', 'chef', 'chem', 'cher', 'chev', 'chif', 'chis', 'chos', 'chât', 'chée', 'ciat', 'cien', 'cier', 'cinq', 'cipe', 'circ', 'cité', 'civi', 'clai', 'clas', 'coeu', 'coll', 'colo', 'comb', 'comm', 'comp', 'conq', 'cons', 'cont', 'cord', 'corr', 'couv', 'coût', 'crai', 'crat', 'crim', 'cris', 'croy', 'créa', 'ctio', 'ctue', 'cult', 'côté', 'cœur', 'dang', 'dans', 'dava', 'dern', 'desc', 'dess', 'dest', 'deui', 'deva', 'deve', 'devi', 'devo', 'devr', 'dign', 'dipl', 'dira', 'diri', 'disa', 'disp', 'dist', 'dive', 'divi', 'doit', 'domi', 'doub', 'doul', 'dout', 'dres', 'droi', 'dura', 'dure', 'déba', 'débu', 'déce', 'déch', 'déci', 'décl', 'déco', 'défa', 'défe', 'défi', 'déje', 'déjà', 'déli', 'démo', 'déno', 'dépa', 'dépe', 'dépi', 'dépo', 'désa', 'dése', 'dési', 'déso', 'détr', 'déve', 'dévo', 'eaux', 'ecti', 'effe', 'effi', 'effo', 'effr', 'egie', 'eill', 'elle', 'embr', 'emen', 'emme', 'empl', 'empo', 'empê', 'ence', 'enco', 'encé', 'enda', 'endr', 'endu', 'enfa', 'enfi', 'enga', 'enir', 'enne', 'enqu', 'enri', 'ense', 'ensu', 'enta', 'entr', 'ents', 'enva', 'enve', 'envi', 'envo', 'epri', 'erai', 'erce', 'eron', 'erre', 'erse', 'erve', 'espo', 'espr', 'espè', 'espé', 'essa', 'esta', 'este', 'esti', 'eten', 'eter', 'ette', 'eure', 'evel', 'exac', 'exem', 'exer', 'exis', 'expl', 'expo', 'expr', 'expé', 'extr', 'exéc', 'face', 'faci', 'faib', 'fair', 'fais', 'fait', 'faud', 'fave', 'favo', 'femm', 'fera', 'ferm', 'fest', 'ffér', 'fica', 'fice', 'fidè', 'fier', 'figu', 'fill', 'fina', 'fini', 'fiqu', 'fleu', 'fonc', 'fond', 'font', 'forc', 'form', 'fort', 'forê', 'four', 'foye', 'frai', 'frap', 'fron', 'frui', 'futu', 'fête', 'gagn', 'gard', 'gean', 'geme', 'gens', 'geoi', 'gion', 'gouv', 'grat', 'gros', 'grou', 'grâc', 'grèv', 'guer', 'habi', 'hain', 'haut', 'hier', 'hist', 'homm', 'hont', 'horr', 'huma', 'héla', 'héro', 'hôte', 'iale', 'iard', 'iati', 'icai', 'icat', 'ices', 'icil', 'icul', 'iden', 'idéa', 'idée', 'idér', 'iens', 'iers', 'ieur', 'ieux', 'ific', 'ifie', 'ifié', 'igne', 'igno', 'ille', 'illu', 'imen', 'imes', 'imit', 'imme', 'impu', 'impé', 'impô', 'inca', 'ince', 'inco', 'inct', 'indé', 'iner', 'ines', 'inex', 'infi', 'infé', 'ingr', 'init', 'inqu', 'insi', 'insp', 'inst', 'insu', 'inue', 'inut', 'inva', 'invi', 'inév', 'iona', 'ionn', 'ipli', 'ique', 'ires', 'irré', 'isan', 'isme', 'isol', 'ison', 'issa', 'isse', 'issi', 'iste', 'ital', 'iter', 'itio', 'itud', 'itut', 'jadi', 'jama', 'joie', 'join', 'jour', 'juge', 'just', 'kilo', 'lair', 'lait', 'lame', 'lanc', 'lang', 'lant', 'laqu', 'larg', 'lass', 'lati', 'laum', 'lent', 'lesq', 'less', 'lett', 'leur', 'libe', 'libr', 'libé', 'lier', 'lieu', 'lign', 'limi', 'liqu', 'lisa', 'list', 'livr', 'lièr', 'llem', 'llen', 'loca', 'loin', 'lopp', 'ltat', 'luti', 'lutt', 'lème', 'lète', 'légi', 'léon', 'mach', 'maga', 'magn', 'mair', 'mais', 'majo', 'mala', 'malh', 'mand', 'mani', 'manq', 'marc', 'mari', 'mass', 'maté', 'mauv', 'maît', 'mble', 'mblé', 'meil', 'memb', 'mena', 'mens', 'ment', 'mesu', 'mett', 'mieu', 'mili', 'mill', 'mini', 'mira', 'miss', 'mmen', 'mobi', 'mode', 'moin', 'mois', 'mome', 'mons', 'monu', 'mora', 'mort', 'moye', 'mpar', 'mphe', 'mère', 'mètr', 'médi', 'méri', 'même', 'nais', 'nant', 'nati', 'natu', 'naux', 'nces', 'nche', 'ncie', 'ndai', 'nden', 'nder', 'ndie', 'ndis', 'nent', 'neut', 'nger', 'ngèr', 'nisa', 'nise', 'nist', 'nisé', 'nité', 'nnai', 'nnaî', 'nnel', 'nobl', 'norm', 'nota', 'notr', 'nour', 'nous', 'nses', 'ntag', 'ntai', 'nten', 'ntie', 'ntio', 'ntér', 'nuer', 'néce', 'nées', 'nôtr', 'obat', 'obje', 'obli', 'obse', 'occa', 'occu', 'oche', 'oeuv', 'offe', 'offi', 'oire', 'olas', 'omat', 'omiq', 'onge', 'onna', 'onni', 'onsa', 'ontr', 'opin', 'oppo', 'ordi', 'ordr', 'orgu', 'orie', 'orig', 'orte', 'orti', 'oser', 'osit', 'oubl', 'ourc', 'ours', 'outr', 'ouve', 'ouvr', 'oyab', 'paci', 'paie', 'paix', 'pala', 'para', 'parc', 'pare', 'parf', 'parl', 'parm', 'paro', 'part', 'pati', 'patr', 'pauv', 'paye', 'pays', 'pein', 'perd', 'perm', 'pert', 'peup', 'peut', 'peuv', 'pire', 'plac', 'plai', 'plan', 'plup', 'plus', 'plut', 'poin', 'poli', 'popu', 'pour', 'pous', 'prin', 'priv', 'prix', 'prob', 'prod', 'prof', 'prog', 'proj', 'prol', 'prom', 'pron', 'prot', 'prov', 'prus', 'près', 'prét', 'prév', 'prêt', 'ptio', 'père', 'péen', 'péri', 'quar', 'quat', 'queu', 'quil', 'rabl', 'radi', 'raie', 'rair', 'rais', 'rait', 'rale', 'rali', 'ramm', 'ranc', 'rant', 'rapi', 'rapp', 'rare', 'rati', 'raux', 'rava', 'rdre', 'rece', 'recu', 'refu', 'rega', 'regr', 'rela', 'reli', 'rell', 'remp', 'renc', 'rend', 'reno', 'rent', 'repa', 'repo', 'ress', 'rest', 'reta', 'reto', 'retr', 'reur', 'reus', 'reva', 'reve', 'revi', 'rial', 'ribu', 'rich', 'riel', 'rise', 'risq', 'rnat', 'rons', 'ront', 'rout', 'rray', 'rsai', 'rtan', 'ruct', 'ruin', 'réal', 'réce', 'récl', 'réco', 'rédi', 'rédu', 'réfl', 'réfu', 'régi', 'régl', 'régu', 'répa', 'rése', 'rési', 'réso', 'résu', 'réta', 'réun', 'réus', 'révo', 'rôle', 'sabl', 'sach', 'sacr', 'sage', 'sais', 'sait', 'sanc', 'sang', 'sans', 'sati', 'sauv', 'save', 'savo', 'seco', 'secr', 'sema', 'seme', 'sens', 'sent', 'sera', 'sero', 'sien', 'sign', 'simp', 'situ', 'sièg', 'soci', 'soie', 'soin', 'sold', 'sons', 'sont', 'sort', 'souf', 'souh', 'soul', 'sour', 'sous', 'sout', 'souv', 'spec', 'spor', 'ssai', 'ssan', 'sser', 'ssib', 'ssio', 'stan', 'ster', 'stes', 'stic', 'stre', 'stro', 'stèr', 'subi', 'subs', 'suff', 'suit', 'suiv', 'suje', 'supp', 'supé', 'surp', 'surt', 'surv', 'susc', 'susp', 'symp', 'syst', 'séri', 'tabl', 'tacl', 'tage', 'tain', 'tair', 'tait', 'tand', 'tard', 'tari', 'tate', 'tati', 'taux', 'teme', 'tend', 'teni', 'tent', 'tenu', 'term', 'terr', 'text', 'tien', 'tion', 'tiqu', 'titr', 'titu', 'tité', 'tive', 'tomb', 'tora', 'tort', 'tota', 'touc', 'tous', 'tout', 'trad', 'trag', 'trai', 'tran', 'tres', 'trio', 'tris', 'troi', 'trom', 'ttre', 'tude', 'tuel', 'ture', 'télé', 'témo', 'tête', 'ucti', 'uell', 'uels', 'ueme', 'uent', 'uire', 'uite', 'uits', 'unan', 'uner', 'unes', 'unio', 'uniq', 'univ', 'urag', 'ures', 'urie', 'urre', 'usse', 'ussi', 'utif', 'util', 'uves', 'uête', 'vain', 'vait', 'vale', 'vant', 'vari', 'veil', 'veme', 'vend', 'veni', 'vent', 'venu', 'vera', 'vere', 'verr', 'vers', 'veul', 'veut', 'vict', 'vide', 'viei', 'vieu', 'vill', 'vins', 'viol', 'visi', 'vite', 'vité', 'viva', 'vive', 'vivr', 'voic', 'voie', 'voil', 'vois', 'voit', 'voix', 'volo', 'vont', 'voud', 'vous', 'voya', 'voye', 'véri', 'yeux', 'ÉNAT', 'çais', 'ègue', 'ères', 'écha', 'éche', 'écho', 'écla', 'écon', 'écra', 'écri', 'édif', 'éduc', 'égar', 'élev', 'émen', 'éner', 'énor', 'épar', 'épre', 'épui', 'éque', 'équi', 'éren', 'étab', 'étan', 'état', 'étra', 'étud', 'évit', 'êtes', 'être', 'œuvr']
#Number of occurrences: 189
common_4grams = ['Cail', 'Cham', 'Conc', 'Cons', 'Dota', 'Elle', 'Flèc', 'Gouv', 'Mans', 'Nous', 'Pari', 'Prof', 'Séna', 'VRAI', 'able', 'abor', 'acco', 'accu', 'admi', 'agne', 'aill', 'ains', 'aire', 'alle', 'alor', 'amis', 'ance', 'aprè', 'arri', 'asse', 'aura', 'auss', 'auta', 'avan', 'avez', 'avoi', 'avon', 'beau', 'blic', 'camp', 'cand', 'cant', 'cell', 'cett', 'ceux', 'chez', 'choi', 'ciel', 'cipa', 'conc', 'cond', 'conf', 'conn', 'conv', 'coup', 'cour', 'croi', 'dema', 'depu', 'deux', 'diff', 'dire', 'disc', 'donc', 'donn', 'dont', 'délé', 'emai', 'ente', 'enti', 'erne', 'esse', 'essi', 'eurs', 'euse', 'exce', 'fall', 'fami', 'faut', 'fils', 'fois', 'fran', 'gran', 'géné', 'heur', 'honn', 'ianc', 'ible', 'ient', 'ilia', 'impo', 'impr', 'indi', 'inte', 'inté', 'ions', 'ière', 'jeun', 'jusq', 'lais', 'laux', 'leme', 'lend', 'lité', 'lles', 'long', 'main', 'malg', 'mati', 'mbre', 'mond', 'mont', 'nair', 'ndan', 'ndre', 'nomb', 'nomm', 'nouv', 'onal', 'onne', 'orga', 'pass', 'pend', 'pens', 'pers', 'peti', 'plei', 'port', 'poss', 'pouv', 'prem', 'pren', 'pres', 'pris', 'proc', 'prop', 'préc', 'prép', 'prés', 'publ', 'puis', 'quan', 'quel', 'ques', 'quoi', 'reco', 'reme', 'repr', 'resp', 'reux', 'rien', 'rieu', 'rité', 'rtem', 'réac', 'répo', 'répu', 'sant', 'semb', 'serv', 'seul', 'sion', 'soir', 'soit', 'somm', 'succ', 'suis', 'séan', 'tant', 'tell', 'temp', 'tena', 'teur', 'touj', 'tour', 'trav', 'trop', 'trou', 'très', 'urne', 'usem', 'vien', 'voir', 'votr', 'voul', 'égal', 'élec', 'ésen', 'étai']
#Common vs GT
#Number of occurrences: 0
common_unique_2grams = []
#Number of occurrences: 389
gt_unique_2grams = ['AC', 'AD', 'AG', 'AI', 'AL', 'AM', 'AN', 'AP', 'AR', 'AS', 'AT', 'AU', 'AV', 'Af', 'Ag', 'Ai', 'Am', 'An', 'Ao', 'Ap', 'Ar', 'As', 'Au', 'Av', 'BA', 'BE', 'BO', 'Ba', 'Be', 'Bi', 'Bo', 'Br', 'CA', 'CE', 'CH', 'CI', 'CL', 'CO', 'CR', 'Ch', 'Cl', 'Cr', 'DA', 'DE', 'DI', 'DO', 'DR', 'DU', 'Da', 'De', 'Di', 'Do', 'Dr', 'Du', 'DÉ', 'Dé', 'EA', 'EC', 'EG', 'EI', 'EL', 'EM', 'EN', 'ES', 'ET', 'El', 'Em', 'En', 'Es', 'Eu', 'Ex', 'FA', 'FE', 'FI', 'FO', 'FR', 'Fe', 'Fi', 'Fl', 'Fo', 'Fé', 'GA', 'GE', 'GR', 'GU', 'Ga', 'Ge', 'Go', 'Gr', 'Gu', 'Gé', 'HE', 'HO', 'Ha', 'He', 'Ho', 'Hu', 'IA', 'IC', 'ID', 'IE', 'II', 'IL', 'IN', 'IO', 'IR', 'IS', 'IT', 'IX', 'In', 'It', 'JO', 'Ja', 'Jo', 'Ju', 'LA', 'LI', 'LL', 'LO', 'Li', 'Lo', 'Lu', 'Là', 'Lé', 'MA', 'MB', 'ME', 'MI', 'MM', 'MO', 'MP', 'Me', 'Mi', 'NA', 'NC', 'ND', 'NE', 'NG', 'NI', 'NO', 'NS', 'NT', 'Na', 'Ne', 'NÉ', 'OI', 'OL', 'ON', 'OP', 'OR', 'OU', 'Oc', 'On', 'Or', 'Ou', 'PE', 'PI', 'PL', 'PO', 'PP', 'PR', 'PU', 'Pe', 'Pi', 'Po', 'Pu', 'QU', 'Qu', 'RA', 'RD', 'RI', 'RK', 'RN', 'RO', 'RR', 'RS', 'RT', 'RU', 'Re', 'Ri', 'Ro', 'Ru', 'RÉ', 'Ré', 'SA', 'SC', 'SE', 'SI', 'SO', 'SS', 'ST', 'SU', 'Sa', 'Sc', 'Se', 'Si', 'So', 'St', 'Su', 'SÉ', 'Sé', 'TA', 'TE', 'TI', 'TO', 'TR', 'TS', 'TT', 'Ta', 'Te', 'To', 'Tr', 'TÉ', 'UD', 'UE', 'UN', 'UR', 'US', 'UT', 'UX', 'Un', 'VE', 'VI', 'VO', 'Ve', 'Vi', 'WE', 'Wa', 'Wi', 'XI', 'XX', 'YO', 'Yo', 'aj', 'aq', 'aî', 'ba', 'bs', 'bu', 'bé', 'cc', 'cs', 'cè', 'cé', 'cô', 'cœ', 'dg', 'ds', 'dè', 'dû', 'ea', 'ef', 'eg', 'ei', 'ep', 'ev', 'ff', 'fl', 'fu', 'fé', 'fê', 'gg', 'gi', 'gm', 'go', 'gé', 'gê', 'hi', 'hu', 'hy', 'hè', 'hé', 'hô', 'ia', 'if', 'ig', 'ip', 'iv', 'jà', 'ki', 'lc', 'ld', 'lg', 'lh', 'lk', 'ls', 'lt', 'ly', 'là', 'lè', 'lé', 'mn', 'mt', 'mu', 'mè', 'nf', 'nl', 'nq', 'nç', 'nô', 'ob', 'od', 'oe', 'og', 'oj', 'om', 'oq', 'ot', 'ov', 'oy', 'où', 'ph', 'pp', 'ps', 'pt', 'pè', 'pé', 'pê', 'pô', 'rb', 'rf', 'rg', 'rk', 'rn', 'rp', 'rq', 'ru', 'rê', 'rô', 'sf', 'sh', 'sl', 'sm', 'sq', 'sy', 'sû', 'th', 'tâ', 'tê', 'tô', 'ua', 'ub', 'uc', 'ud', 'uf', 'ug', 'uh', 'uj', 'um', 'uê', 'vu', 'vé', 'wa', 'xe', 'xi', 'xt', 'ya', 'yo', 'yé', 'ze', 'ÉN', 'ÉR', 'ÉS', 'ÉT', 'âc', 'âm', 'ât', 'ço', 'èc', 'èg', 'èm', 'èn', 'èr', 'èt', 'èv', 'éa', 'éd', 'ég', 'él', 'ém', 'én', 'éq', 'év', 'êm', 'ît', 'ôt', 'ûl', 'ût', 'œu']
#Number of occurrences: 211
common_2grams = ['Al', 'BU', 'Bu', 'Ca', 'Ce', 'Co', 'ER', 'Et', 'Fr', 'Il', 'Je', 'LE', 'La', 'Le', 'Ma', 'Mo', 'Mu', 'Ni', 'No', 'PA', 'Pa', 'Pr', 'RE', 'TL', 'Vo', 'ab', 'ac', 'ad', 'af', 'ag', 'ai', 'al', 'am', 'an', 'ap', 'ar', 'as', 'at', 'au', 'av', 'ay', 'be', 'bi', 'bl', 'bo', 'br', 'ca', 'ce', 'ch', 'ci', 'cl', 'co', 'cr', 'ct', 'cu', 'da', 'de', 'di', 'do', 'dr', 'du', 'dé', 'ec', 'el', 'em', 'en', 'er', 'es', 'et', 'eu', 'ex', 'ez', 'fa', 'fe', 'fi', 'fo', 'fr', 'ga', 'ge', 'gl', 'gn', 'gr', 'gu', 'ha', 'he', 'ho', 'ib', 'ic', 'id', 'ie', 'il', 'im', 'in', 'io', 'iq', 'ir', 'is', 'it', 'ix', 'iè', 'ié', 'ja', 'je', 'jo', 'ju', 'la', 'le', 'li', 'll', 'lo', 'lu', 'ma', 'mb', 'me', 'mi', 'mm', 'mo', 'mp', 'mé', 'mê', 'na', 'nc', 'nd', 'ne', 'ng', 'ni', 'nn', 'no', 'ns', 'nt', 'nu', 'nv', 'né', 'oc', 'of', 'oi', 'ol', 'on', 'op', 'or', 'os', 'ou', 'pa', 'pe', 'pi', 'pl', 'po', 'pr', 'pu', 'qu', 'ra', 'rc', 'rd', 're', 'ri', 'rl', 'rm', 'ro', 'rr', 'rs', 'rt', 'rv', 'rè', 'ré', 'sa', 'sc', 'se', 'si', 'so', 'sp', 'ss', 'st', 'su', 'sé', 'ta', 'te', 'ti', 'tl', 'to', 'tr', 'ts', 'tt', 'tu', 'té', 'ue', 'ui', 'ul', 'un', 'up', 'ur', 'us', 'ut', 'uv', 'ux', 'ué', 'va', 've', 'vi', 'vo', 'vr', 'ye', 'ys', 'ça', 'ès', 'éc', 'ée', 'ép', 'ér', 'és', 'ét', 'êt']
#Number of occurrences: 0
common_unique_3grams = []
#Number of occurrences: 1129
gt_unique_3grams = ['AIN', 'ALL', 'AMÉ', 'ANI', 'ANS', 'ART', 'ASS', 'ATI', 'Aff', 'Ain', 'Alb', 'All', 'Als', 'Amé', 'And', 'Ang', 'Aoû', 'App', 'Apr', 'Ass', 'Auj', 'Aut', 'Avr', 'BOU', 'Bal', 'Bea', 'Bel', 'Ber', 'Bie', 'Bou', 'Bru', 'Bur', 'CAR', 'CLE', 'COM', 'CON', 'COU', 'CRE', 'Cai', 'Car', 'Cec', 'Cel', 'Ces', 'Cet', 'Cha', 'Cle', 'Com', 'Con', 'Cou', 'Cré', 'DAN', 'DES', 'DOT', 'Dan', 'Des', 'Die', 'Dot', 'Dro', 'Déc', 'Dép', 'ELL', 'ENT', 'EST', 'ETT', 'Ell', 'Emp', 'Enc', 'Est', 'Eta', 'Etr', 'Eur', 'FRA', 'Fer', 'Fin', 'Flè', 'Fév', 'GUE', 'Ger', 'Gou', 'Gra', 'Gue', 'Gui', 'Gén', 'Hay', 'Hum', 'ION', 'ISE', 'ITÉ', 'Ils', 'Int', 'Ita', 'Jan', 'Jau', 'Jou', 'Jui', 'Jus', 'LES', 'LET', 'Leu', 'Loi', 'Lon', 'Lor', 'Lou', 'Léo', 'MAI', 'MAN', 'MON', 'Mad', 'Mal', 'Mam', 'Man', 'Mar', 'Mes', 'Min', 'NAT', 'NCA', 'NCE', 'NEG', 'NEL', 'NEW', 'NIP', 'NOT', 'Nat', 'New', 'Nip', 'Non', 'Nor', 'Nos', 'Not', 'Nou', 'Nov', 'OCI', 'OIS', 'ONS', 'OUR', 'Océ', 'PAI', 'PAR', 'POL', 'POU', 'PRO', 'PRÉ', 'Pai', 'Pau', 'Per', 'Pie', 'Pou', 'Pro', 'QUE', 'Qua', 'Que', 'Quo', 'RES', 'RGE', 'RIC', 'RRE', 'Rob', 'Roo', 'Rus', 'Rép', 'SEN', 'SID', 'SOC', 'SON', 'STA', 'Sai', 'San', 'Sar', 'Sec', 'Sep', 'Soc', 'Sui', 'SÉN', 'Sén', 'TIO', 'TRE', 'TTR', 'Tan', 'Tou', 'Tra', 'UNI', 'Une', 'Uni', 'Ver', 'Voi', 'Vot', 'Vou', 'Wil', 'XXX', 'YOR', 'aba', 'abl', 'abo', 'abs', 'abu', 'acc', 'ace', 'ach', 'act', 'ade', 'adm', 'ado', 'adr', 'adv', 'age', 'agg', 'agi', 'agn', 'agr', 'agé', 'ahi', 'aid', 'aie', 'aig', 'ail', 'aim', 'air', 'ajo', 'alc', 'ale', 'ali', 'alo', 'amb', 'ame', 'amm', 'amé', 'ana', 'anc', 'ane', 'ang', 'ani', 'ann', 'ans', 'ané', 'apa', 'ape', 'apr', 'aqu', 'ara', 'arb', 'arc', 'ard', 'are', 'arg', 'ari', 'arm', 'arr', 'art', 'asi', 'ast', 'ate', 'atr', 'ats', 'auc', 'aud', 'aug', 'auj', 'aup', 'aur', 'aus', 'avi', 'avo', 'aye', 'aît', 'bal', 'ban', 'bar', 'bas', 'bat', 'bea', 'bel', 'ber', 'bes', 'bil', 'bla', 'bli', 'blo', 'blè', 'blé', 'boi', 'bon', 'bor', 'bou', 'bra', 'bre', 'bri', 'bru', 'brû', 'bud', 'bue', 'bur', 'but', 'bén', 'cac', 'cai', 'cal', 'cam', 'can', 'cap', 'car', 'cas', 'cat', 'cau', 'cea', 'cem', 'cen', 'cep', 'cer', 'cet', 'ceu', 'cha', 'chi', 'cho', 'châ', 'ché', 'cia', 'cie', 'cil', 'cin', 'cip', 'cir', 'cis', 'cit', 'civ', 'cla', 'cle', 'cli', 'clu', 'coe', 'cor', 'coû', 'cra', 'cri', 'cro', 'cré', 'cta', 'cte', 'cti', 'cto', 'cui', 'cul', 'cun', 'cur', 'cus', 'cut', 'cès', 'céd', 'cée', 'cél', 'côt', 'cœu', 'dai', 'dam', 'dat', 'dav', 'dem', 'den', 'dep', 'der', 'deu', 'dia', 'dic', 'dif', 'dig', 'dim', 'din', 'dip', 'dit', 'div', 'doi', 'dom', 'dou', 'dra', 'dro', 'duc', 'due', 'dui', 'dur', 'dus', 'dès', 'déb', 'déf', 'dég', 'déj', 'dél', 'dém', 'dén', 'dép', 'dés', 'dét', 'eau', 'eff', 'eig', 'eil', 'elo', 'els', 'elt', 'elé', 'emb', 'emi', 'emm', 'emp', 'enf', 'eng', 'eni', 'enn', 'enq', 'enr', 'enu', 'env', 'ept', 'era', 'erc', 'ere', 'eri', 'erm', 'ern', 'ero', 'err', 'ers', 'ert', 'erv', 'esc', 'esp', 'ess', 'etc', 'ets', 'ett', 'eté', 'eun', 'eus', 'euv', 'eux', 'eve', 'evo', 'exa', 'exc', 'exe', 'exi', 'exp', 'ext', 'exé', 'fac', 'fal', 'fam', 'fan', 'fau', 'fav', 'fem', 'fer', 'fes', 'feu', 'ffr', 'fia', 'fic', 'fid', 'fie', 'fig', 'fil', 'fin', 'fir', 'fit', 'fix', 'fle', 'foi', 'fon', 'fou', 'foy', 'fra', 'fro', 'frs', 'fru', 'fun', 'fut', 'fér', 'fêt', 'gag', 'gai', 'gar', 'gen', 'ger', 'ges', 'get', 'gin', 'giq', 'glo', 'gne', 'gné', 'gou', 'gre', 'gro', 'grâ', 'grè', 'gré', 'gte', 'gée', 'gén', 'gên', 'hab', 'hai', 'han', 'hau', 'haî', 'her', 'hes', 'heu', 'hie', 'hin', 'his', 'hom', 'hon', 'hor', 'hos', 'hou', 'hui', 'hum', 'hél', 'hér', 'hôt', 'ial', 'ian', 'iat', 'ibl', 'ibé', 'ica', 'ice', 'ich', 'ici', 'icl', 'ide', 'idé', 'iel', 'ier', 'ies', 'ieu', 'iez', 'ife', 'iff', 'ifi', 'ifs', 'ige', 'igi', 'ign', 'igé', 'ile', 'ili', 'ill', 'ima', 'ime', 'imi', 'imm', 'ina', 'inc', 'ine', 'inf', 'ing', 'ini', 'ino', 'inq', 'ins', 'inu', 'inv', 'iné', 'iqu', 'ira', 'irm', 'iro', 'irr', 'isa', 'ise', 'isi', 'ism', 'iso', 'iss', 'ist', 'isé', 'ite', 'iti', 'ito', 'itr', 'its', 'itu', 'iva', 'ive', 'ivi', 'ivr', 'ivé', 'ièr', 'iée', 'iés', 'iét', 'jad', 'jam', 'jet', 'jeu', 'joi', 'jug', 'jui', 'jus', 'kan', 'kil', 'lab', 'lag', 'lam', 'lan', 'laq', 'lar', 'las', 'lat', 'lau', 'lec', 'lem', 'len', 'lev', 'lez', 'lia', 'lib', 'lic', 'lig', 'lim', 'lin', 'lio', 'liq', 'lir', 'lis', 'lit', 'liv', 'lié', 'lla', 'lli', 'loc', 'log', 'loi', 'lom', 'lon', 'lor', 'lou', 'loy', 'lqu', 'lue', 'lut', 'lux', 'lèg', 'lée', 'lég', 'mac', 'mag', 'maj', 'mar', 'mas', 'mat', 'mau', 'maî', 'mbr', 'mei', 'mem', 'mer', 'met', 'meu', 'mie', 'mil', 'min', 'mir', 'mis', 'miè', 'mme', 'mod', 'mom', 'mor', 'mot', 'mou', 'moy', 'mpe', 'mpl', 'mps', 'mul', 'mun', 'mus', 'mèr', 'méc', 'méd', 'mém', 'mér', 'mét', 'nag', 'nai', 'nal', 'nan', 'naî', 'nch', 'nci', 'nco', 'ncs', 'ncu', 'nda', 'nde', 'ndi', 'ndo', 'ndr', 'nds', 'neg', 'nel', 'nem', 'nen', 'ner', 'net', 'neu', 'nfa', 'nge', 'nie', 'nif', 'nim', 'nio', 'nir', 'nis', 'niè', 'nna', 'nne', 'nné', 'nob', 'nom', 'non', 'nor', 'nqu', 'nsp', 'nta', 'nti', 'nts', 'nui', 'nul', 'néc', 'née', 'nég', 'nés', 'nôt', 'obj', 'obl', 'obr', 'obs', 'occ', 'oci', 'ocr', 'oeu', 'off', 'oie', 'oin', 'oir', 'ois', 'ole', 'olt', 'olu', 'olé', 'omm', 'omn', 'omo', 'omp', 'omè', 'ona', 'onc', 'ond', 'oni', 'onn', 'ope', 'opi', 'opp', 'opé', 'ora', 'ord', 'ore', 'org', 'ori', 'orm', 'ort', 'osa', 'ose', 'oss', 'osé', 'oub', 'oue', 'ous', 'out', 'ouv', 'oué', 'pab', 'pac', 'pag', 'pal', 'pan', 'pat', 'pau', 'pec', 'pei', 'pel', 'pes', 'pet', 'pie', 'pil', 'pir', 'pit', 'piè', 'pla', 'ple', 'pli', 'plè', 'plé', 'poi', 'pol', 'pon', 'pop', 'por', 'pos', 'ppe', 'ppé', 'pru', 'prè', 'prê', 'pte', 'pti', 'pub', 'pui', 'pèr', 'pén', 'pér', 'quo', 'qué', 'quê', 'rab', 'rac', 'rag', 'rai', 'ral', 'ran', 'rap', 'rar', 'ras', 'rat', 'rav', 'rce', 'rch', 'rds', 'rec', 'red', 'ref', 'reg', 'rel', 'rem', 'rer', 'ret', 'reu', 'rev', 'rez', 'reç', 'rge', 'rgi', 'rgé', 'ria', 'rib', 'ric', 'rie', 'rif', 'rim', 'rio', 'riq', 'rir', 'rit', 'riv', 'riè', 'rme', 'rmo', 'rna', 'rne', 'rni', 'rné', 'rob', 'roc', 'ron', 'rop', 'rou', 'roy', 'rqu', 'rra', 'rri', 'rro', 'rsu', 'rta', 'rue', 'rui', 'rès', 'réa', 'réc', 'réd', 'rée', 'réf', 'rég', 'rép', 'rét', 'réu', 'rév', 'rêv', 'rôl', 'sab', 'sac', 'sag', 'sal', 'sat', 'sau', 'sav', 'sci', 'scr', 'sec', 'sei', 'sel', 'sev', 'sib', 'sig', 'sil', 'sim', 'sin', 'sis', 'sit', 'six', 'siè', 'sme', 'soc', 'sol', 'som', 'sor', 'spe', 'spé', 'squ', 'ssa', 'ssi', 'sso', 'ssé', 'sta', 'ste', 'sti', 'sto', 'str', 'sub', 'suc', 'suf', 'suj', 'sup', 'sus', 'sym', 'sys', 'séa', 'séc', 'sée', 'séq', 'sér', 'sés', 'sûr', 'tab', 'tac', 'tag', 'tai', 'tal', 'tar', 'tat', 'tau', 'tea', 'tel', 'tem', 'teu', 'tex', 'the', 'thè', 'tia', 'tic', 'tie', 'tif', 'til', 'tim', 'tin', 'tiq', 'tir', 'tis', 'tit', 'tiv', 'tié', 'toi', 'tom', 'ton', 'tor', 'tot', 'tri', 'tru', 'trè', 'tré', 'tte', 'tud', 'tue', 'tur', 'tué', 'tèm', 'tée', 'tél', 'tém', 'tés', 'têt', 'tôt', 'uat', 'ubl', 'uco', 'ude', 'uei', 'uel', 'uen', 'uer', 'ues', 'ueu', 'uff', 'uis', 'uit', 'uié', 'ula', 'uli', 'ult', 'ume', 'una', 'uni', 'uns', 'upe', 'ura', 'urg', 'urr', 'urs', 'usa', 'use', 'usi', 'ust', 'usé', 'ute', 'uti', 'uté', 'uva', 'uve', 'uvi', 'uvé', 'uêt', 'vag', 'val', 'van', 'var', 'vat', 'vau', 'vea', 'vei', 'vel', 'vem', 'ves', 'veu', 'vic', 'vid', 'vig', 'vil', 'vin', 'vio', 'vir', 'vis', 'vit', 'viv', 'vol', 'von', 'voq', 'vos', 'vot', 'voy', 'vra', 'vre', 'vue', 'vée', 'vér', 'xel', 'yeu', 'âme', 'çai', 'èle', 'ème', 'ère', 'ève', 'éch', 'écl', 'éco', 'écr', 'édi', 'édu', 'ées', 'éfi', 'éga', 'égo', 'égr', 'égu', 'éla', 'éle', 'éli', 'élo', 'élu', 'élé', 'éme', 'émo', 'éne', 'éni', 'éno', 'énu', 'épa', 'épe', 'épo', 'épr', 'épu', 'équ', 'éra', 'ére', 'éro', 'éré', 'érê', 'éte', 'éti', 'étr', 'étu', 'été', 'évi', 'êch', 'ême', 'ête', 'ôts', 'œuv']
#Number of occurrences: 156
common_3grams = ['BUT', 'But', 'Fra', 'LER', 'Les', 'Mai', 'Mon', 'Mur', 'Nic', 'Par', 'Pré', 'aff', 'ain', 'ais', 'ait', 'all', 'ami', 'and', 'ant', 'app', 'ass', 'ati', 'att', 'aut', 'aux', 'ava', 'ave', 'bie', 'ble', 'cel', 'ces', 'che', 'col', 'com', 'con', 'cou', 'dan', 'des', 'dev', 'dir', 'dis', 'don', 'dre', 'déc', 'dév', 'ect', 'ell', 'ema', 'eme', 'enc', 'end', 'ens', 'ent', 'est', 'eur', 'fai', 'for', 'gra', 'gue', 'hol', 'ien', 'ils', 'imp', 'ind', 'int', 'ion', 'ire', 'ita', 'ité', 'jou', 'lai', 'ler', 'les', 'let', 'leu', 'lie', 'lle', 'lui', 'mai', 'mal', 'man', 'men', 'mes', 'moi', 'mon', 'mêm', 'nat', 'nce', 'nes', 'nos', 'not', 'nou', 'nte', 'nça', 'ons', 'ont', 'our', 'pai', 'par', 'pas', 'pay', 'pen', 'per', 'peu', 'plu', 'pou', 'pre', 'pri', 'pro', 'pré', 'qua', 'que', 'qui', 'ray', 'ren', 'rep', 'res', 'ris', 'rre', 'rés', 'sai', 'san', 'sem', 'sen', 'ser', 'ses', 'seu', 'sid', 'sie', 'sio', 'soi', 'son', 'sou', 'sse', 'sui', 'sur', 'tan', 'ten', 'ter', 'tes', 'tio', 'tou', 'tra', 'tre', 'tro', 'une', 'ure', 'vai', 'ven', 'ver', 'vie', 'voi', 'vou', 'éri', 'éta', 'êtr']
#Number of occurrences: 0
common_unique_4grams = []
#Number of occurrences: 1235
gt_unique_4grams = ['AMÉR', 'ASSO', 'Affa', 'Ains', 'Alle', 'Alli', 'Alsa', 'Amér', 'Andr', 'Angl', 'Août', 'Aprè', 'Asso', 'Aujo', 'Autr', 'Avri', 'BOUR', 'Beau', 'Belg', 'Bien', 'Bour', 'Brux', 'Bure', 'CAIS', 'CARN', 'CIAT', 'CONS', 'CREA', 'Cail', 'Carn', 'Ceci', 'Cela', 'Cett', 'Cham', 'Clem', 'Cler', 'Comi', 'Comm', 'Conc', 'Conf', 'Cons', 'Cour', 'Créa', 'DANS', 'DOTA', 'Dans', 'Dieu', 'Dota', 'Droi', 'Déce', 'Dépa', 'EGIE', 'ESTO', 'ETTR', 'Elle', 'Empe', 'Empi', 'Enco', 'Etat', 'Etra', 'Euro', 'FRAN', 'Flèc', 'Févr', 'GEOI', 'GUER', 'Gouv', 'Guer', 'Guil', 'Géné', 'Haye', 'Huma', 'ICAI', 'IDEN', 'Inte', 'Ital', 'Janv', 'Jour', 'Juil', 'LETT', 'LLES', 'Leur', 'Loir', 'Lond', 'Lord', 'Lorr', 'Loui', 'Léon', 'Mame', 'Mans', 'Mars', 'Mini', 'Mond', 'Mont', 'NATI', 'NIPP', 'NOTR', 'Nati', 'Nipp', 'Notr', 'Nous', 'Nove', 'PAIX', 'PARI', 'POUR', 'PRÉS', 'Paix', 'Pari', 'Parl', 'Paul', 'Pier', 'Pour', 'Prof', 'Quan', 'Quel', 'Quoi', 'Robe', 'Roos', 'Russ', 'Répu', 'SENA', 'SOCI', 'Sain', 'Sart', 'Secr', 'Sept', 'Soci', 'Suis', 'SÉNA', 'Séna', 'TANT', 'TION', 'Tous', 'Tout', 'URNE', 'Unis', 'VRAI', 'Voic', 'Voil', 'Votr', 'Vous', 'Wils', 'XXXX', 'YORK', 'York', 'aban', 'abat', 'able', 'abor', 'abus', 'acce', 'acco', 'accu', 'ache', 'acte', 'acti', 'actu', 'admi', 'adre', 'adve', 'affa', 'affi', 'agan', 'ages', 'aggr', 'agne', 'agre', 'aide', 'aien', 'aill', 'aine', 'ains', 'aire', 'aise', 'aiss', 'aite', 'ajou', 'ales', 'alis', 'alla', 'alle', 'alli', 'allo', 'allé', 'alor', 'ambi', 'amis', 'amné', 'amér', 'ance', 'anci', 'ande', 'angl', 'anim', 'anne', 'anno', 'anné', 'ante', 'anti', 'ants', 'aper', 'appa', 'appe', 'appl', 'appo', 'appr', 'appu', 'aprè', 'arat', 'araî', 'arbi', 'arer', 'arge', 'arme', 'armé', 'arri', 'arro', 'arrê', 'arti', 'arée', 'asse', 'assi', 'asso', 'assu', 'ateu', 'athi', 'atro', 'atta', 'atti', 'attr', 'atté', 'atur', 'aucu', 'audi', 'augm', 'aujo', 'aupa', 'aura', 'auro', 'auss', 'auta', 'auto', 'avan', 'aven', 'aver', 'avez', 'avio', 'avis', 'avoi', 'avon', 'aîne', 'barb', 'bata', 'beau', 'bell', 'beso', 'bili', 'bles', 'blic', 'bliq', 'bloc', 'bonn', 'bord', 'born', 'bouc', 'bour', 'brav', 'brûl', 'budg', 'bure', 'béné', 'cain', 'camp', 'cand', 'cant', 'carr', 'cata', 'cati', 'caus', 'cell', 'celu', 'cent', 'cepe', 'cert', 'cess', 'cett', 'ceux', 'chac', 'chal', 'cham', 'chan', 'chaq', 'char', 'chau', 'chef', 'chem', 'chev', 'chez', 'chif', 'chis', 'choi', 'chos', 'chât', 'chée', 'ciat', 'ciel', 'cien', 'cier', 'cinq', 'cipa', 'cipe', 'circ', 'cité', 'civi', 'clai', 'clas', 'coeu', 'coll', 'colo', 'comb', 'conc', 'cond', 'conf', 'conn', 'conq', 'conv', 'cord', 'corr', 'coup', 'cour', 'couv', 'coût', 'crai', 'crat', 'crim', 'cris', 'croi', 'croy', 'créa', 'ctio', 'ctue', 'cult', 'côté', 'cœur', 'dang', 'dava', 'dema', 'depu', 'dern', 'desc', 'dess', 'dest', 'deui', 'deux', 'deva', 'deve', 'devi', 'devo', 'devr', 'diff', 'dign', 'dipl', 'dira', 'dire', 'diri', 'disa', 'disc', 'disp', 'dist', 'dive', 'divi', 'doit', 'domi', 'donc', 'donn', 'dont', 'doub', 'doul', 'dout', 'dres', 'droi', 'dura', 'dure', 'déba', 'débu', 'déce', 'déch', 'déci', 'décl', 'déco', 'défa', 'défe', 'défi', 'déje', 'déjà', 'déli', 'délé', 'démo', 'déno', 'dépa', 'dépe', 'dépi', 'dépo', 'désa', 'dése', 'dési', 'déso', 'détr', 'déve', 'eaux', 'ecti', 'effe', 'effi', 'effo', 'effr', 'egie', 'eill', 'emai', 'embr', 'emme', 'empl', 'empo', 'empê', 'encé', 'enda', 'endr', 'endu', 'enfa', 'enfi', 'enga', 'enir', 'enne', 'enqu', 'enri', 'ense', 'ensu', 'enta', 'ente', 'enti', 'ents', 'enva', 'enve', 'envi', 'envo', 'epri', 'erai', 'erce', 'erne', 'eron', 'erre', 'erse', 'erve', 'espo', 'espr', 'espè', 'espé', 'essa', 'esse', 'essi', 'esta', 'este', 'esti', 'eten', 'eter', 'ette', 'eure', 'eurs', 'euse', 'evel', 'exac', 'exce', 'exem', 'exer', 'exis', 'expl', 'expo', 'expr', 'expé', 'extr', 'exéc', 'face', 'faci', 'faib', 'fais', 'fall', 'fami', 'faud', 'faut', 'fave', 'favo', 'femm', 'fera', 'ferm', 'fest', 'ffér', 'fica', 'fice', 'fidè', 'fier', 'figu', 'fill', 'fils', 'fina', 'fini', 'fiqu', 'fleu', 'fois', 'fonc', 'fond', 'font', 'forc', 'form', 'fort', 'forê', 'four', 'foye', 'frai', 'fran', 'frap', 'fron', 'frui', 'futu', 'fête', 'gagn', 'gard', 'gean', 'geme', 'gens', 'geoi', 'gion', 'gouv', 'gran', 'grat', 'gros', 'grou', 'grâc', 'grèv', 'géné', 'habi', 'hain', 'haut', 'heur', 'hier', 'hist', 'homm', 'honn', 'hont', 'horr', 'huma', 'héla', 'héro', 'hôte', 'iale', 'ianc', 'iard', 'iati', 'ible', 'icai', 'icat', 'ices', 'icil', 'icul', 'idéa', 'idée', 'idér', 'iens', 'ient', 'iers', 'ieux', 'ific', 'ifie', 'ifié', 'igne', 'igno', 'ilia', 'ille', 'illu', 'imen', 'imes', 'imit', 'imme', 'impo', 'impr', 'impu', 'impé', 'impô', 'inca', 'ince', 'inco', 'inct', 'indi', 'indé', 'iner', 'ines', 'inex', 'infi', 'infé', 'ingr', 'init', 'inqu', 'insi', 'insp', 'inst', 'insu', 'inte', 'inté', 'inue', 'inut', 'inva', 'invi', 'inév', 'iona', 'ionn', 'ions', 'ipli', 'ires', 'irré', 'isan', 'isme', 'isol', 'ison', 'issa', 'isse', 'issi', 'iste', 'ital', 'iter', 'itio', 'itud', 'itut', 'ière', 'jadi', 'jama', 'jeun', 'joie', 'join', 'juge', 'jusq', 'just', 'kilo', 'lair', 'lais', 'lait', 'lame', 'lanc', 'lang', 'lant', 'laqu', 'larg', 'lass', 'lati', 'laum', 'laux', 'leme', 'lend', 'lent', 'lesq', 'less', 'lett', 'libe', 'libr', 'libé', 'lier', 'lieu', 'lign', 'limi', 'liqu', 'lisa', 'list', 'lité', 'livr', 'lièr', 'llem', 'llen', 'lles', 'loca', 'loin', 'long', 'lopp', 'ltat', 'luti', 'lutt', 'lème', 'lète', 'légi', 'léon', 'mach', 'maga', 'magn', 'main', 'mair', 'majo', 'mala', 'malg', 'malh', 'mand', 'mani', 'manq', 'marc', 'mari', 'mass', 'mati', 'maté', 'mauv', 'maît', 'mble', 'mblé', 'mbre', 'meil', 'memb', 'mena', 'mens', 'mesu', 'mett', 'mieu', 'mili', 'mill', 'mini', 'mira', 'miss', 'mmen', 'mobi', 'mode', 'mois', 'mome', 'mond', 'mons', 'mont', 'monu', 'mora', 'mort', 'moye', 'mpar', 'mphe', 'mère', 'mètr', 'médi', 'méri', 'nair', 'nais', 'nant', 'nati', 'natu', 'naux', 'nces', 'nche', 'ncie', 'ndai', 'ndan', 'nden', 'nder', 'ndie', 'ndis', 'ndre', 'nent', 'neut', 'nger', 'ngèr', 'nisa', 'nise', 'nist', 'nisé', 'nité', 'nnai', 'nnaî', 'nnel', 'nobl', 'nomb', 'nomm', 'norm', 'nota', 'nour', 'nouv', 'nses', 'ntag', 'ntai', 'nten', 'ntie', 'ntio', 'ntér', 'nuer', 'néce', 'nées', 'nôtr', 'obat', 'obje', 'obli', 'obse', 'occa', 'occu', 'oche', 'oeuv', 'offe', 'offi', 'oire', 'omat', 'omiq', 'onal', 'onge', 'onna', 'onne', 'onni', 'onsa', 'ontr', 'opin', 'oppo', 'ordi', 'ordr', 'orga', 'orgu', 'orie', 'orig', 'orte', 'orti', 'oser', 'osit', 'oubl', 'ourc', 'outr', 'ouve', 'ouvr', 'oyab', 'paci', 'paie', 'paix', 'pala', 'para', 'parc', 'pare', 'parf', 'parm', 'paro', 'pass', 'pati', 'patr', 'pauv', 'paye', 'pein', 'pend', 'pens', 'perd', 'perm', 'pers', 'pert', 'peti', 'peup', 'peut', 'peuv', 'pire', 'plac', 'plai', 'plan', 'plei', 'plup', 'plut', 'poin', 'poli', 'popu', 'port', 'poss', 'pous', 'pouv', 'prem', 'pren', 'pres', 'prin', 'pris', 'priv', 'prix', 'prob', 'proc', 'prod', 'prof', 'prog', 'proj', 'prol', 'prom', 'pron', 'prop', 'prot', 'prov', 'prus', 'près', 'préc', 'prép', 'prés', 'prét', 'prév', 'prêt', 'ptio', 'publ', 'puis', 'père', 'péen', 'péri', 'quan', 'quar', 'quat', 'quel', 'ques', 'queu', 'quil', 'quoi', 'rabl', 'radi', 'raie', 'rair', 'rais', 'rait', 'rale', 'rali', 'ramm', 'ranc', 'rant', 'rapi', 'rapp', 'rare', 'rati', 'raux', 'rava', 'rdre', 'rece', 'reco', 'recu', 'refu', 'rega', 'regr', 'rela', 'reli', 'rell', 'reme', 'remp', 'renc', 'reno', 'rent', 'repa', 'repo', 'repr', 'resp', 'ress', 'reta', 'reto', 'retr', 'reur', 'reus', 'reux', 'reva', 'reve', 'revi', 'rial', 'ribu', 'rich', 'riel', 'rien', 'rieu', 'rise', 'risq', 'rité', 'rnat', 'rons', 'ront', 'rout', 'rray', 'rsai', 'rtan', 'rtem', 'ruct', 'ruin', 'réac', 'réal', 'réce', 'récl', 'réco', 'rédi', 'rédu', 'réfl', 'réfu', 'régi', 'régl', 'régu', 'répa', 'répo', 'répu', 'rése', 'rési', 'réso', 'résu', 'réta', 'réun', 'réus', 'révo', 'rôle', 'sabl', 'sach', 'sacr', 'sage', 'sais', 'sait', 'sanc', 'sang', 'sant', 'sati', 'sauv', 'save', 'savo', 'seco', 'secr', 'sema', 'semb', 'seme', 'sens', 'sent', 'sero', 'serv', 'seul', 'sien', 'sign', 'simp', 'sion', 'situ', 'sièg', 'soci', 'soie', 'soin', 'soir', 'soit', 'sold', 'somm', 'sons', 'sort', 'souf', 'souh', 'soul', 'sour', 'sout', 'souv', 'spec', 'spor', 'ssai', 'ssan', 'sser', 'ssib', 'ssio', 'stan', 'ster', 'stes', 'stic', 'stre', 'stro', 'stèr', 'subi', 'subs', 'succ', 'suff', 'suis', 'suit', 'suiv', 'suje', 'supp', 'supé', 'surp', 'surt', 'surv', 'susc', 'susp', 'symp', 'syst', 'séan', 'séri', 'tabl', 'tacl', 'tage', 'tain', 'tair', 'tait', 'tand', 'tant', 'tard', 'tari', 'tate', 'tati', 'taux', 'tell', 'teme', 'temp', 'tena', 'tend', 'teni', 'tent', 'tenu', 'term', 'terr', 'teur', 'text', 'tien', 'tiqu', 'titr', 'titu', 'tité', 'tive', 'tomb', 'tora', 'tort', 'tota', 'touc', 'touj', 'tour', 'trad', 'trag', 'trai', 'tran', 'trav', 'tres', 'trio', 'tris', 'troi', 'trom', 'trop', 'trou', 'très', 'ttre', 'tude', 'tuel', 'ture', 'télé', 'témo', 'tête', 'ucti', 'uell', 'uels', 'ueme', 'uent', 'uire', 'uite', 'uits', 'unan', 'uner', 'unes', 'unio', 'uniq', 'univ', 'urag', 'ures', 'urie', 'urne', 'urre', 'usem', 'usse', 'ussi', 'utif', 'util', 'uves', 'uête', 'vain', 'vait', 'vale', 'vant', 'vari', 'veil', 'veme', 'vend', 'veni', 'vent', 'venu', 'vera', 'vere', 'verr', 'vers', 'veul', 'veut', 'vict', 'vide', 'viei', 'vien', 'vieu', 'vill', 'vins', 'viol', 'visi', 'vite', 'vité', 'viva', 'vive', 'vivr', 'voic', 'voie', 'voil', 'voir', 'vois', 'voit', 'voix', 'volo', 'vont', 'votr', 'voud', 'voul', 'voya', 'voye', 'véri', 'yeux', 'ÉNAT', 'ègue', 'ères', 'écha', 'éche', 'écho', 'écla', 'écon', 'écra', 'écri', 'édif', 'éduc', 'égal', 'égar', 'élec', 'élev', 'émen', 'éner', 'énor', 'épar', 'épre', 'épui', 'éque', 'équi', 'éren', 'ésen', 'étab', 'étai', 'étan', 'état', 'étra', 'étud', 'évit', 'êtes', 'œuvr']
#Number of occurrences: 61
common_4grams = ['BUTL', 'Butl', 'Fran', 'Mais', 'Mons', 'Murr', 'Nich', 'Prés', 'affe', 'atio', 'atte', 'autr', 'avai', 'avec', 'bien', 'cela', 'cher', 'comm', 'comp', 'cons', 'cont', 'dans', 'dévo', 'elle', 'emen', 'ence', 'enco', 'entr', 'fair', 'fait', 'guer', 'iden', 'ieur', 'ique', 'jour', 'leur', 'mais', 'ment', 'moin', 'même', 'notr', 'nous', 'olas', 'ours', 'parl', 'part', 'pays', 'plus', 'pour', 'rend', 'rest', 'sans', 'sera', 'sont', 'sous', 'tion', 'tous', 'tout', 'vous', 'çais', 'être']