-
Notifications
You must be signed in to change notification settings - Fork 0
/
results_unique_and_common_least_popular.py
181 lines (121 loc) · 218 KB
/
results_unique_and_common_least_popular.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
#!/usr/local/bin/python
# -*- coding: utf-8 -*-
"""
- author: Floriane Chiffoleau
- date: April 2023
- description: Results from the scripts for the token analysis with the least popular tokens
"""
#Other vs War
#Number of occurrences: 120
war_unique_2grams = ['AD', 'AI', 'AU', 'At', 'Ay', 'Aô', 'BE', 'CU', 'Cr', 'D9', 'Da', 'Di', 'Do', 'EA', 'EG', 'Ec', 'FA', 'Fa', 'Gu', 'HR', 'HT', 'He', 'ID', 'IL', 'IM', 'IQ', 'IS', 'IX', 'It', 'Jo', 'LI', 'Lé', 'MO', 'Me', 'Mê', 'OC', 'Oc', 'Or', 'Ot', 'PE', 'PR', 'PU', 'Pi', 'Pl', 'RA', 'RN', 'RS', 'RT', 'Re', 'Ru', 'Ré', 'SA', 'SL', 'SO', 'Se', 'Si', 'TU', 'Ti', 'UG', 'UI', 'US', 'UX', 'VO', 'Ve', 'aj', 'bâ', 'bé', 'ck', 'cq', 'cy', 'cè', 'dn', 'eS', 'eg', 'eo', 'ey', 'eé', 'fé', 'gh', 'gâ', 'gê', 'hn', 'hô', 'lf', 'lg', 'lm', 'lq', 'ls', 'mn', 'mu', 'nb', 'nl', 'nz', 'nô', 'ov', 'rô', 'sL', 'sS', 'sd', 'tê', 'uo', 'uq', 'vè', 'xa', 'xq', 'xt', 'ya', 'ze', 'zè', 'ÇU', 'ÉS', 'ÉT', 'àc', 'èd', 'èm', 'éa', 'éj', 'êm', 'ïs', 'ôt']
#Number of occurrences: 123
other_unique_2grams = ['AP', 'Ac', 'Ag', 'BL', 'BO', 'CI', 'CR', 'DI', 'DL', 'DÉ', 'Dè', 'EF', 'EV', 'Ed', 'Er', 'Ev', 'Ex', 'FE', 'FF', 'FL', 'Fâ', 'GH', 'GU', 'GÉ', 'HA', 'HU', 'HÔ', 'Hé', 'Hô', 'I7', 'IA', 'IC', 'II', 'IO', 'IR', 'IT', 'Ib', 'Im', 'Ir', 'JA', 'JE', 'JO', 'Ka', 'MU', 'Mé', 'NB', 'ND', 'NG', 'NV', 'Nu', 'NÉ', 'Né', 'OM', 'OT', 'OU', 'Où', 'RL', 'SH', 'SQ', 'Sè', 'TH', 'TÉ', 'Té', 'UL', 'UP', 'Ut', 'UÉ', 'VE', 'VI', 'WA', 'WE', 'We', 'Wr', 'YS', 'Zé', 'bs', 'bv', 'bû', 'cê', 'dl', 'e!', 'ed', 'ek', 'eà', 'fè', 'gg', 'gm', 'gs', 'gt', 'gè', 'ht', 'hè', 'jé', 'kl', 'ly', 'nê', 'oa', 'oj', 'ok', 'oq', 'oz', 'pn', 'rç', 'sg', 'sè', 'ty', 'tz', 'uz', 'v£', 'wi', 'xc', 'xo', 'yi', 'zo', 'ÈR', 'ÉN', 'éâ', 'ên', 'êq', 'êv', 'ël', 'ït', 'üe']
#Number of occurrences: 29
common_2grams = ['AF', 'Ao', 'Bl', 'CE', 'DO', 'DU', 'EU', 'FR', 'GL', 'MB', 'PL', 'RD', 'RM', 'RU', 'RÉ', 'SU', 'ah', 'az', 'fs', 'lb', 'lp', 'my', 'nh', 'rh', 'râ', 'wa', 'xé', 'âm', 'ôm']
#Number of occurrences: 475
war_unique_3grams = ['ACQ', 'AFF', 'ANS', 'ARM', 'Als', 'Arm', 'Atl', 'Auj', 'Aut', 'Aya', 'Aôu', 'BEA', 'Bel', 'Bla', 'Bou', 'CAI', 'CAR', 'CAV', 'CRE', 'CRI', 'Can', 'Cap', 'Car', 'Cet', 'Cré', 'DEU', 'DNO', 'DRE', 'Day', 'Dim', 'Dot', 'Dup', 'Duq', 'DÉC', 'DÉS', 'Dét', 'EME', 'ENG', 'ERD', 'ETR', 'EUR', 'Ech', 'Env', 'Esp', 'Est', 'Far', 'For', 'Fri', 'God', 'Gol', 'Gra', 'Gri', 'Gue', 'Has', 'Hen', 'Hoh', 'Hol', 'Hon', 'Hot', 'IMP', 'INI', 'ITA', 'Ils', 'Ita', 'IÉT', 'J!a', 'Jac', 'Jau', 'Joh', 'LAN', 'LIE', 'LLA', 'Lal', 'Lic', 'Lor', 'Loz', 'Lég', 'MOR', 'Mar', 'Mat', 'May', 'Min', 'Mor', 'Mus', 'Mêm', 'NCA', 'NCI', 'NDS', 'NEG', 'NOT', 'NQU', 'Nip', 'Nor', 'Nov', 'OCC', 'ONS', 'ORT', 'Oct', 'Ora', 'Ote', 'P.S', 'PAI', 'PLU', 'POP', 'PRÉ', 'Pic', 'Plu', 'Poi', 'Pos', 'Pro', 'Pub', 'REA', 'REÇ', 'RKL', 'RUH', 'Rev', 'Rhé', 'Ruy', 'RÉP', 'Rés', 'SID', 'SLE', 'SOC', 'SUP', 'Sen', 'TAL', 'TIN', 'TIO', 'TIQ', 'Tan', 'Tim', 'Tol', 'Tra', 'Tri', 'UGH', 'UIT', 'ULA', 'UPA', 'URE', 'UTÉ', 'VAI', 'VOT', 'Ver', 'Vic', 'Viv', 'ada', 'ade', 'adn', 'ado', 'agg', 'agi', 'agn', 'aib', 'ajo', 'alq', 'ame', 'amu', 'anx', 'apo', 'arb', 'ard', 'asi', 'ast', 'avd', 'avu', 'ayo', 'aça', 'bia', 'bor', 'bri', 'bât', 'cai', 'can', 'car', 'cas', 'caz', 'chi', 'cig', 'cip', 'cir', 'civ', 'cla', 'clu', 'coe', 'crè', 'cré', 'cta', 'cts', 'cun', 'cut', 'cyn', 'céd', 'cés', 'dai', 'dal', 'dia', 'dic', 'did', 'dim', 'dip', 'doc', 'dua', 'dun', 'dut', 'dég', 'eau', 'eid', 'ela', 'els', 'ene', 'enr', 'enu', 'enz', 'era', 'erg', 'ern', 'erp', 'esc', 'esm', 'ets', 'ett', 'eui', 'euv', 'evo', 'eàc', 'far', 'fia', 'fic', 'fir', 'fié', 'fru', 'fum', 'fus', 'gas', 'gau', 'giq', 'gir', 'gni', 'gou', 'goû', 'gro', 'guè', 'gué', 'gât', 'géo', 'gên', 'hai', 'haï', 'hiv', 'hod', 'hor', 'hou', 'hte', 'hts', 'hum', 'hôt', 'ibi', 'ibl', 'idé', 'ies', 'ifs', 'igr', 'igé', 'imb', 'inj', 'inq', 'inr', 'ism', 'iso', 'isp', 'ito', 'iva', 'ivr', 'ièm', 'ièr', 'jan', 'jet', 'jud', 'jup', 'kel', 'lat', 'lco', 'lec', 'lei', 'lev', 'lib', 'lim', 'lio', 'lut', 'lée', 'lés', 'lôm', 'mau', 'mbr', 'mee', 'mei', 'mem', 'min', 'mod', 'moq', 'mps', 'mpé', 'mul', 'mèr', 'méd', 'mée', 'mér', 'm€l', 'nav', 'naî', 'nbe', 'nca', 'nco', 'ncu', 'ndu', 'neg', 'nen', 'net', 'nge', 'nit', 'niè', 'nmo', 'nné', 'nob', 'noi', 'nor', 'nsa', 'nsd', 'nsi', 'ntô', 'nui', 'num', 'nze', 'nés', 'nôt', 'obr', 'ocr', 'ogi', 'oig', 'oli', 'olu', 'olv', 'omi', 'omn', 'ona', 'onç', 'ope', 'orb', 'orm', 'oti', 'oug', 'oui', 'oul', 'out', 'oux', 'oye', 'oût', 'pal', 'pan', 'pau', 'pel', 'pit', 'plé', 'ppe', 'pra', 'pru', 'ptu', 'pue', 'pun', 'pus', 'pèr', 'pén', 'pêc', 'rap', 'rar', 'rav', 'rdo', 'reg', 'reç', 'rgi', 'rgé', 'rhé', 'rib', 'rme', 'roy', 'rpe', 'rqu', 'rsa', 'rsi', 'rsu', 'rte', 'rub', 'rço', 'règ', 'rès', 'réd', 'réj', 'sag', 'sal', 'sca', 'sep', 'sis', 'six', 'sme', 'sot', 'spé', 'ssi', 'sto', 'sua', 'suc', 'suf', 'suj', 'sèd', 'sée', 'séj', 'sév', 'tas', 'tex', 'thé', 'tib', 'tif', 'tla', 'tnu', 'tod', 'tot', 'tru', 'trô', 'tté', 'tum', 'tué', 'tég', 'tér', 'têt', 'uab', 'uai', 'uan', 'ubl', 'uct', 'udi', 'uiè', 'uli', 'ulu', 'una', 'uns', 'uné', 'upi', 'upp', 'uré', 'usi', 'usé', 'vea', 'vex', 'via', 'vil', 'viè', 'voc', 'vue', 'véc', 'vér', 'xes', 'xéc', 'èsS', 'éci', 'écl', 'édi', 'éga', 'éli', 'élé', 'émo', 'épe', 'épo', 'épu', 'évi', 'êch', 'ête']
#Number of occurrences: 557
other_unique_3grams = ['ALI', 'AMB', 'APP', 'ARI', 'ATO', 'Acc', 'Adm', 'Age', 'Aja', 'Ajo', 'Arr', 'Ava', 'Ave', 'BAR', 'BLI', 'BOU', 'Bac', 'Bes', 'Bib', 'Blo', 'Bor', 'Bra', 'Bui', 'Bur', 'CAS', 'CHO', 'CHÈ', 'CIL', 'COR', 'CRA', 'Cam', 'Cas', 'Cie', 'Cob', 'Coo', 'Cos', 'Cre', 'Cub', 'DAN', 'DER', 'DES', 'DIA', 'DIE', 'Dar', 'Dat', 'Die', 'Dir', 'Dog', 'DÉP', 'Dès', 'Déb', 'Déj', 'Dém', 'ECL', 'EFR', 'ELL', 'EMI', 'EMO', 'ENN', 'ERS', 'ETT', 'EUN', 'EXA', 'Eli', 'Enc', 'Enq', 'Err', 'Evê', 'Exé', 'FAR', 'FAU', 'FFE', 'FIA', 'FLE', 'FOE', 'FON', 'Fid', 'Foc', 'Fâc', 'Féd', 'Fér', 'Fév', 'GAR', 'GIA', 'GID', 'GIG', 'GNI', 'GOD', 'GRO', 'Gam', 'Gas', 'Gir', 'Gro', 'GÉN', 'HAB', 'HES', 'HTE', 'HUG', 'Ham', 'Hau', 'Hel', 'Hub', 'HÔT', 'Hér', 'Hôt', 'ICI', 'ILL', 'INA', 'ION', 'IVE', 'Ibs', 'Imp', 'Ira', 'JAU', 'JOU', 'Jon', 'Jou', 'Jug', 'Jup', 'Kah', 'LAI', 'LAT', 'LEC', 'LEJ', 'LEV', 'LIS', 'Laz', 'Leg', 'Leh', 'Low', 'Lui', 'Lut', 'Lya', 'Lyo', 'LÉE', 'LÉG', 'MAI', 'MAR', 'MAS', 'MIS', 'MON', 'MOS', 'MOU', 'Mac', 'Maï', 'Mei', 'Moi', 'Myi', 'Mén', 'NA', 'NBE', 'NCE', 'NIP', 'NTS', 'Nap', 'Nev', 'Noë', 'Nul', 'Nén', 'OLA', 'ORB', 'OUE', 'OUX', 'Ont', 'PAL', 'PEU', 'PLA', 'PLE', 'POL', 'POR', 'PRO', 'Pat', 'Pea', 'Per', 'Pet', 'Pol', 'Por', 'Pot', 'Pra', 'Pru', 'QUÉ', 'Qua', 'Qui', 'Qué', 'RA', 'RAP', 'RAT', 'RED', 'RGE', 'RNA', 'RST', 'RUY', 'Rec', 'Red', 'Rep', 'Rie', 'Rig', 'Roc', 'Rou', 'Rud', 'RÉÉ', 'Réf', 'Réu', 'SAI', 'SAN', 'SEN', 'SET', 'SHO', 'SSE', 'STO', 'SUR', 'Sce', 'Sch', 'Sei', 'Sep', 'Seu', 'Sim', 'Sir', 'Sol', 'Sud', 'Sui', 'Suz', 'SÉA', 'Sèv', 'TAI', 'TET', 'THO', 'TIE', 'TIL', 'TOT', 'TWE', 'Tab', 'Thi', 'Thr', 'Thw', 'Thé', 'Tor', 'Trè', 'Tuf', 'Tur', 'Téz', 'UGU', 'Uti', 'VER', 'VIE', 'Veu', 'Vib', 'Voy', 'WAL', 'Was', 'Wea', 'Wri', 'XAN', 'Yor', 'Zél', 'abd', 'abi', 'aca', 'acl', 'acé', 'aga', 'agr', 'aig', 'ala', 'alt', 'amp', 'ana', 'aok', 'atr', 'aul', 'aum', 'auq', 'avé', 'bai', 'bar', 'bav', 'ber', 'bet', 'beu', 'bib', 'bin', 'biz', 'bos', 'bro', 'brè', 'bua', 'buf', 'bui', 'but', 'bée', 'bén', 'bûc', 'chr', 'chê', 'chô', 'ciè', 'clô', 'coa', 'cog', 'coh', 'coi', 'coo', 'coq', 'cqu', 'cru', 'crû', 'cup', 'cée', 'cél', 'cém', 'dek', 'dez', 'dho', 'die', 'dio', 'dix', 'diz', 'dol', 'duc', 'dus', 'dér', 'ean', 'efo', 'efs', 'elo', 'emn', 'emo', 'eno', 'esq', 'etL', 'eta', 'eth', 'eti', 'eva', 'evi', 'evr', 'evé', 'eçu', 'fac', 'fat', 'fen', 'ffé', 'fig', 'fiq', 'fix', 'fiè', 'fle', 'fli', 'flé', 'fou', 'fre', 'fré', 'fun', 'fuy', 'fèr', 'fét', 'gat', 'gea', 'geo', 'ght', 'gin', 'gla', 'glo', 'gre', 'gri', 'gso', 'gto', 'gér', 'güe', 'har', 'haî', 'hef', 'hié', 'hès', 'hég', 'icu', 'idè', 'ifi', 'ila', 'inl', 'inu', 'iod', 'ipa', 'iph', 'ips', 'ipé', 'irs', 'isc', 'isq', 'it£', 'ièt', 'iés', 'jal', 'jau', 'jol', 'joy', 'jés', 'las', 'lif', 'lmu', 'lpt', 'lux', 'lve', 'lèv', 'max', 'mmo', 'moe', 'mos', 'mum', 'mus', 'mut', 'mvr', 'mèn', 'mém', 'nap', 'nar', 'nau', 'ndé', 'nea', 'nei', 'nic', 'nil', 'nin', 'niv', 'nkl', 'nna', 'nop', 'nsp', 'nue', 'nve', 'nym', 'ném', 'nér', 'nét', 'nêt', 'océ', 'oit', 'olo', 'omè', 'onf', 'opo', 'opt', 'opu', 'osi', 'ost', 'ous', 'oxi', 'pac', 'paq', 'pes', 'pha', 'phr', 'pic', 'pin', 'pne', 'poè', 'ppo', 'ppé', 'pse', 'pta', 'pti', 'pté', 'ptô', 'raj', 'rbe', 'rce', 'rcé', 'reh', 'req', 'rgn', 'rhu', 'riè', 'rni', 'rog', 'rov', 'rpa', 'rri', 'rth', 'rtr', 'rtu', 'rté', 'rus', 'rêv', 'sar', 'sax', 'sco', 'scu', 'shi', 'siv', 'sod', 'spi', 'spo', 'sté', 'sug', 'sué', 'sép', 'séq', 'tam', 'tap', 'tfo', 'tid', 'tig', 'tmi', 'tol', 'trê', 'tta', 'tud', 'tât', 'tél', 'uda', 'udo', 'uem', 'ugn', 'uid', 'uié', 'ule', 'ulg', 'ulé', 'umb', 'umé', 'uon', 'urn', 'usc', 'usu', 'utr', 'uts', 'uvi', 'uvo', 'uzo', 'uée', 'vay', 'vib', 'vig', 'vus', 'vén', 'vés', 'xac', 'zea', 'zor', 'zél', 'âma', 'âtr', 'çon', 'ège', 'éca', 'édu', 'édé', 'éla', 'élè', 'éma', 'émè', 'éna', 'éni', 'éné', 'ési', 'îch', 'îne']
#Number of occurrences: 112
common_3grams = ['AIR', 'ATI', 'Aoû', 'Ard', 'Aus', 'Cho', 'DON', 'DOT', 'EMB', 'ENT', 'FRA', 'ISE', 'Jap', 'Leu', 'MEN', 'Mex', 'Nos', 'Not', 'PAT', 'Pre', 'TRA', 'TTR', 'UNE', 'Vos', 'acq', 'afi', 'aly', 'amo', 'aqu', 'aré', 'ase', 'ben', 'blo', 'cad', 'chu', 'dea', 'enh', 'fas', 'flo', 'fri', 'frè', 'féc', 'gal', 'gle', 'gur', 'has', 'ial', 'iez', 'igu', 'ipe', 'irr', 'leq', 'lex', 'lor', 'lum', 'léc', 'mir', 'mob', 'mou', 'mwa', 'mys', 'mép', 'nab', 'ncr', 'néa', 'obt', 'oca', 'oce', 'ogn', 'oll', 'ols', 'osa', 'pho', 'pie', 'plè', 'pço', 'pée', 'pét', 'rad', 'rgu', 'roi', 'rop', 'rro', 'rud', 'rçu', 'rêm', 'sia', 'soc', 'spe', 'sum', 'tef', 'tho', 'tip', 'toy', 'tun', 'uge', 'uma', 'ura', 'urg', 'usq', 'uta', 'ués', 'vid', 'vul', 'vée', 'yan', 'âme', 'çai', 'éfi', 'ége', 'éno', 'énu']
#Number of occurrences: 801
war_unique_4grams = ['ACQU', 'ADNO', 'AFFA', 'ALIT', 'Alsa', 'Arma', 'Atla', 'Aujo', 'Auss', 'Aute', 'Ayan', 'Aôut', 'BEAU', 'Belg', 'Berk', 'Blan', 'Bour', 'Brio', 'CARN', 'CAVA', 'CREA', 'CRIT', 'Capi', 'Carn', 'Cett', 'Chac', 'Cham', 'Chaq', 'Char', 'Choe', 'Colb', 'Comi', 'Créa', 'D9ic', 'DEUI', 'Dayt', 'Dima', 'Dota', 'Dupl', 'Duqu', 'DÉCE', 'DÉSA', 'Défa', 'Défe', 'Détr', 'EGIE', 'EMAN', 'ENGL', 'ERLE', 'ETRE', 'Echo', 'Enve', 'Espa', 'Etan', 'Farg', 'Forc', 'Frio', 'Goda', 'Golf', 'Gran', 'Griè', 'Guer', 'Hase', 'Henr', 'Hohe', 'Holl', 'Honn', 'Hote', 'IDEN', 'IEME', 'IMPO', 'INUE', 'IQUE', 'ITTÉ', 'Ital', 'J!au', 'Jacq', 'Jaur', 'John', 'LAIR', 'LAUX', 'LLIN', 'Lall', 'Lasc', 'Lass', 'Lich', 'Lorr', 'Lozè', 'Légi', 'MAND', 'MBRE', 'MENT', 'MILI', 'MILL', 'Main', 'Mati', 'Maye', 'Mini', 'Mort', 'Musi', 'Même', 'NATI', 'NATU', 'NOTR', 'Nipp', 'Nord', 'Nove', 'OCCU', 'Octo', 'Orat', 'PAIX', 'PARL', 'PATI', 'PLUS', 'POPU', 'PRÉS', 'Paci', 'Pact', 'Parl', 'Parm', 'Picc', 'Plus', 'Poin', 'Post', 'Prof', 'Publ', 'QUEU', 'Quel', 'Quoi', 'Quos', 'RDRE', 'RESL', 'REÇU', 'RMEM', 'RTUN', 'RUHR', 'Revu', 'Rhén', 'Ruyt', 'RÉPO', 'Résu', 'SOCI', 'SUPE', 'Senl', 'TAIR', 'TRAI', 'Tand', 'Time', 'Toll', 'Trai', 'Trib', 'UGHT', 'VAIN', 'VIEN', 'VOTR', 'Verd', 'Vict', 'Vive', 'Vosg', 'abri', 'abse', 'abso', 'ache', 'acro', 'acré', 'acte', 'adil', 'aggr', 'agit', 'aide', 'aidé', 'aill', 'aima', 'aime', 'aire', 'aisa', 'aiss', 'ajou', 'ales', 'alla', 'alli', 'amba', 'ambi', 'amir', 'amit', 'amme', 'amou', 'amus', 'anci', 'anda', 'anie', 'anne', 'anni', 'anno', 'anth', 'anti', 'anxi', 'apit', 'apot', 'appa', 'appo', 'arai', 'arbr', 'arge', 'argu', 'aris', 'arrê', 'arus', 'asil', 'assi', 'atie', 'attr', 'atur', 'auro', 'auta', 'auxq', 'avdr', 'avia', 'avis', 'avug', 'ayon', 'azes', 'berl', 'bi-q', 'biai', 'bili', 'blem', 'blir', 'bond', 'bons', 'bouq', 'bout', 'bran', 'breS', 'brun', 'bâto', 'caba', 'cabo', 'cain', 'calo', 'cama', 'cand', 'caré', 'cati', 'caus', 'cess', 'ceàc', 'chas', 'chez', 'chif', 'chis', 'choq', 'chée', 'ciel', 'ciga', 'cile', 'cipa', 'circ', 'civi', 'coeu', 'colè', 'conq', 'conç', 'crat', 'cris', 'crié', 'crép', 'ctem', 'culp', 'curr', 'cyni', 'céré', 'dant', 'dati', 'dens', 'dent', 'desc', 'dess', 'diat', 'dict', 'dimi', 'dipl', 'dira', 'dise', 'dixi', 'dnou', 'dock', 'dram', 'drea', 'duct', 'dura', 'dèsL', 'débu', 'déca', 'décr', 'décè', 'défi', 'dégo', 'déli', 'délu', 'déni', 'déno', 'dépa', 'dépi', 'déta', 'détr', 'eait', 'effo', 'efor', 'egie', 'eign', 'eler', 'eley', 'empl', 'empo', 'empt', 'empê', 'encé', 'enda', 'ennu', 'enri', 'ento', 'ents', 'envi', 'eons', 'epti', 'erge', 'erma', 'erte', 'esne', 'espè', 'espé', 'esrê', 'esti', 'et-2', 'eten', 'eter', 'etie', 'etté', 'eure', 'even', 'excl', 'exer', 'exig', 'expr', 'expé', 'fame', 'fard', 'fata', 'fauc', 'faud', 'faus', 'fave', 'favo', 'ferm', 'fica', 'fidé', 'flor', 'fonc', 'form', 'frui', 'fume', 'féco', 'gala', 'garn', 'gasp', 'gauc', 'geab', 'germ', 'ghts', 'giqu', 'gloi', 'glor', 'gnai', 'gner', 'gnes', 'gnée', 'gouv', 'goût', 'grap', 'grem', 'gumè', 'gura', 'gure', 'guèr', 'gués', 'gâte', 'géog', 'gêne', 'hain', 'haïs', 'hies', 'hono', 'huma', 'héos', 'hôte', 'iale', 'ianc', 'ibli', 'ibue', 'idat', 'idée', 'idér', 'ieux', 'ifie', 'ifié', 'igna', 'igne', 'ilit', 'illu', 'imbé', 'imes', 'immi', 'immé', 'impa', 'impé', 'inat', 'incr', 'indu', 'inen', 'ines', 'infa', 'inge', 'inju', 'inqu', 'insi', 'invi', 'invr', 'inév', 'ioti', 'iple', 'iptu', 'ires', 'irée', 'isol', 'issa', 'isée', 'itab', 'itai', 'iten', 'iteu', 'itoi', 'itté', 'ités', 'iète', 'iées', 'janv', 'jeté', 'jupi', 'labl', 'laie', 'lamm', 'lanc', 'lern', 'lexe', 'libe', 'lité', 'lièr', 'llem', 'loni', 'lque', 'luti', 'lutt', 'lver', 'lysé', 'malv', 'marb', 'mast', 'mauv', 'mbla', 'mble', 'meet', 'meil', 'meme', 'mine', 'mini', 'mire', 'mnié', 'mobi', 'mode', 'mois', 'moni', 'moqu', 'mots', 'mouv', 'mpar', 'mphe', 'mult', 'médi', 'métr', 'nabl', 'nale', 'natr', 'nauf', 'naug', 'nava', 'naît', 'ncen', 'nche', 'ndon', 'ndée', 'neme', 'nent', 'nett', 'neuv', 'nhei', 'nier', 'nité', 'nnus', 'nobl', 'noir', 'norm', 'note', 'noue', 'nren', 'nser', 'ntab', 'ntes', 'ntie', 'ntiq', 'ntre', 'nuit', 'null', 'numé', 'nzol', 'nçan', 'néme', 'nôtr', 'obsc', 'odon', 'oiss', 'olat', 'olog', 'omie', 'on-3', 'onde', 'onds', 'onis', 'onné', 'onsd', 'onst', 'onte', 'opol', 'ordr', 'orme', 'oser', 'outr', 'ouvr', 'oyer', 'pang', 'pant', 'paru', 'patr', 'pauv', 'payé', 'pent', 'piti', 'pité', 'plan', 'plaq', 'plat', 'plei', 'ples', 'plin', 'plut', 'poig', 'post', 'ppor', 'prat', 'prié', 'prog', 'pron', 'pros', 'prou', 'prov', 'prud', 'préd', 'préj', 'pues', 'puné', 'père', 'péen', 'pénu', 'pêch', 'qual', 'quar', 'quat', 'quit', 'rain', 'rale', 'rall', 'rame', 'ramm', 'raph', 'rapp', 'rare', 'rdon', 'rece', 'refe', 'refu', 'regr', 'rela', 'rell', 'remi', 'remo', 'remp', 'rens', 'rent', 'resp', 'retr', 'rett', 'revi', 'revo', 'revu', 'reçu', 'rgur', 'rhét', 'rich', 'rier', 'rion', 'rire', 'risq', 'riss', 'risé', 'riét', 'rmai', 'rméd', 'romi', 'ront', 'rosi', 'rota', 'rqua', 'rque', 'rras', 'rrés', 'rtai', 'rtan', 'rtem', 'rtie', 'ruba', 'rven', 'règl', 'rète', 'réag', 'réal', 'réci', 'rées', 'régu', 'réjo', 'réta', 'réus', 'révi', 'révé', 'rêvé', 'rôlé', 'sage', 'sant', 'sate', 'satl', 'savi', 'scan', 'sema', 'seme', 'sept', 'sess', 'seur', 'sfac', 'sian', 'sinc', 'smai', 'soie', 'soin', 'soir', 'sola', 'sole', 'soli', 'somb', 'sott', 'soul', 'souv', 'spec', 'spen', 'ssad', 'ssam', 'ssim', 'ssiv', 'stan', 'stes', 'stre', 'stèr', 'subl', 'subo', 'succ', 'suff', 'suje', 'supp', 'supé', 'sure', 'séjo', 'sévè', 'sûrs', 'tais', 'tand', 'tass', 'tati', 'tatr', 'tenb', 'teni', 'tenu', 'tera', 'teur', 'text', 'thod', 'tici', 'tien', 'tier', 'time', 'timi', 'tina', 'tiqu', 'titr', 'tive', 'tocr', 'tons', 'torp', 'tota', 'trai', 'tres', 'trib', 'tric', 'trio', 'trod', 'trom', 'truc', 'ttre', 'tuen', 'tuée', 'tête', 'uait', 'uasi', 'uden', 'udic', 'uell', 'umac', 'umer', 'unan', 'unic', 'unif', 'uniq', 'unis', 'uoti', 'urat', 'urit', 'urne', 'uscu', 'usse', 'ussi', 'utée', 'uvai', 'uves', 'uvri', 'vail', 'vaut', 'veli', 'veni', 'vert', 'vexa', 'vieu', 'vill', 'vita', 'vite', 'voic', 'voit', 'vole', 'vote', 'voud', 'vran', 'vult', 'vécu', 'véri', 'xécu', 'yées', 'çoit', 'éces', 'écla', 'écon', 'écut', 'éder', 'égar', 'éger', 'élec', 'élev', 'élém', 'émat', 'épou', 'épre', 'épui', 'éten', 'étoi', 'éton', 'évit']
#Number of occurrences: 1128
other_unique_4grams = ['AINE', 'ALES', 'ALEX', 'AMBA', 'ANDE', 'APPE', 'ARET', 'ARIS', 'ASSE', 'ATIE', 'ATIO', 'Acca', 'Admi', 'Agen', 'Ajam', 'Ajou', 'Arro', 'Assi', 'Aust', 'Auto', 'Autr', 'Avan', 'Avec', 'BARO', 'BLIN', 'BOUL', 'Baco', 'Bara', 'Berg', 'Bern', 'Bess', 'Bibl', 'Bloc', 'Bonn', 'Bord', 'Bray', 'Buis', 'Bure', 'CAST', 'CHÈR', 'CONV', 'Camu', 'Cant', 'Cast', 'Cele', 'Cert', 'Chat', 'Choa', 'Chri', 'Chré', 'Cobl', 'Colu', 'Conf', 'Coop', 'Corb', 'Cors', 'Cosm', 'Coun', 'Cour', 'Creu', 'Cuba', 'DAND', 'Dard', 'Dato', 'Desc', 'Desn', 'Dieu', 'Dire', 'Dogu', 'DÉPA', 'Déba', 'Déjà', 'Démo', 'ECLA', 'ECTI', 'EFRE', 'ENNE', 'ERGE', 'ERSE', 'ETTR', 'EVAR', 'EXAM', 'Ecom', 'Econ', 'Elis', 'Empi', 'Enco', 'Enfe', 'Enqu', 'Erre', 'Evêq', 'Exéc', 'FARG', 'FAUT', 'FERI', 'FIAN', 'FLEC', 'FOER', 'FONT', 'Ferd', 'Fidè', 'Fina', 'Finc', 'Foch', 'Fâch', 'Fédé', 'Féra', 'Févr', 'GERL', 'GIAF', 'GIDE', 'GIGO', 'GODA', 'GURA', 'Gamb', 'Garf', 'Gast', 'Genè', 'Gire', 'Goug', 'Grou', 'Guic', 'GÉNÉ', 'HABI', 'HOIS', 'HUGH', 'Hamm', 'Haut', 'Hell', 'Hers', 'Hous', 'Houz', 'Hube', 'HÔTE', 'Héro', 'Hôte', 'ILIT', 'ILLE', 'INAU', 'ISLA', 'Ibse', 'Impo', 'Inté', 'JAUD', 'JOUR', 'Jard', 'Jarr', 'Jone', 'Jour', 'Juge', 'Juig', 'Jupi', 'Kahn', 'LAIN', 'LEJE', 'LICH', 'LITÉ', 'Lane', 'Lans', 'Legs', 'Leha', 'Loué', 'Lowe', 'Luci', 'Lucé', 'Lute', 'Lyau', 'Lyon', 'LÉGL', 'MARG', 'MBLÉ', 'MISS', 'MOFF', 'MORO', 'MOSQ', 'MOUT', 'MUNI', 'Made', 'Malh', 'Malv', 'Marg', 'Marn', 'Maro', 'Maub', 'Mauv', 'Maït', 'Meil', 'Merl', 'Mond', 'Myia', 'Méni', 'NIER', 'NIPP', 'NTHE', 'Napo', 'Neve', 'Nouv', 'Noël', 'Néno', 'OLAN', 'ONAL', 'ORBI', 'ORDI', 'OUES', 'PARE', 'PATR', 'PERE', 'PEUP', 'PLAN', 'Parc', 'Parf', 'Pate', 'Peac', 'Pers', 'Peti', 'Peup', 'Plai', 'Plaz', 'Plut', 'Port', 'Pott', 'Prag', 'Proz', 'Prud', 'Quan', 'Quic', 'Quér', 'RALE', 'RAPP', 'RARD', 'REDL', 'RMAI', 'RUYS', 'Rect', 'Redl', 'Repr', 'Rien', 'Rigo', 'Roch', 'Roug', 'Rude', 'RÉÉL', 'Réfo', 'Régn', 'Répo', 'Réus', 'SAIN', 'SANG', 'SENA', 'SHOT', 'SSAD', 'STER', 'Sara', 'Scep', 'Schn', 'Sein', 'Sept', 'Seul', 'Simo', 'Solv', 'Suis', 'Supp', 'Supé', 'Suze', 'SÉAN', 'Sèvr', 'TENB', 'THOM', 'TIVE', 'TOCR', 'TORI', 'TOTA', 'Tabl', 'Thie', 'Thra', 'Thwi', 'Théâ', 'Torr', 'Très', 'Tuff', 'Turc', 'Tézé', 'UNES', 'Util', 'Vent', 'Verm', 'Vers', 'Veuv', 'Vibr', 'Vois', 'Voye', 'WALL', 'WELL', 'Wash', 'Wear', 'Wilb', 'Will', 'Wrig', 'Zéla', 'abdi', 'abet', 'acad', 'acer', 'acra', 'adap', 'adju', 'ados', 'affl', 'agac', 'agan', 'agem', 'agir', 'agis', 'agri', 'aigu', 'aimé', 'ainc', 'aisi', 'aiso', 'aisé', 'aita', 'aiti', 'aité', 'alar', 'allo', 'alti', 'ambu', 'amen', 'ammé', 'amor', 'ampu', 'anar', 'ancê', 'anen', 'ante', 'anéa', 'apea', 'apeu', 'appl', 'apr!', 'arad', 'araî', 'ardo', 'aret', 'arit', 'armi', 'arra', 'arés', 'assé', 'atav', 'atre', 'auda', 'audé', 'auff', 'augm', 'augu', 'aume', 'auqu', 'auxi', 'avag', 'avoc', 'avér', 'bail', 'bana', 'band', 'bani', 'banq', 'barr', 'base', 'bata', 'bava', 'belg', 'beur', 'bibl', 'bite', 'biza', 'bler', 'blie', 'blis', 'blée', 'bonh', 'boss', 'bouc', 'boud', 'boue', 'brui', 'brus', 'brèv', 'buff', 'buis', 'bule', 'bull', 'béné', 'bûch', 'cade', 'cafa', 'cail', 'cani', 'capa', 'carr', 'casi', 'caul', 'ccup', 'cept', 'cerc', 'ceva', 'chai', 'chic', 'chie', 'chou', 'chré', 'chèq', 'chèv', 'chên', 'chôm', 'cian', 'ciat', 'cins', 'cipé', 'cito', 'cité', 'clor', 'clus', 'clém', 'clér', 'clôt', 'coal', 'cogn', 'coha', 'coin', 'cole', 'colp', 'comi', 'coop', 'corp', 'crev', 'croy', 'crut', 'ctat', 'ctes', 'ctoi', 'ctué', 'ct§è', 'cula', 'cult', 'cupa', 'curé', 'cède', 'cère', 'céde', 'datu', 'delà', 'deui', 'devi', 'dian', 'dida', 'dini', 'dios', 'diss', 'dite', 'diti', 'dité', 'diza', 'doci', 'doct', 'dois', 'doiv', 'dolé', 'doma', 'dony', 'doul', 'drap', 'dron', 'durc', 'dure', 'déba', 'dégé', 'démi', 'déna', 'déri', 'déto', 'déve', 'dîné', 'ecta', 'ecte', 'ecto', 'effr', 'effu', 'efoi', 'efou', 'eide', 'eket', 'embl', 'enci', 'ende', 'ends', 'ener', 'enfl', 'enge', 'enha', 'enor', 'entz', 'entâ', 'enus', 'ença', 'erbe', 'erce', 'erna', 'erné', 'eron', 'erso', 'ersé', 'erts', 'erçu', 'escl', 'espa', 'espi', 'essa', 'essu', 'esté', 'etLE', 'etin', 'evue', 'excé', 'expi', 'face', 'fail', 'faim', 'fals', 'fect', 'fens', 'fenê', 'fera', 'fets', 'feui', 'ffée', 'fice', 'fici', 'ficu', 'figu', 'fixé', 'fièr', 'fiée', 'flet', 'fleu', 'flot', 'fléc', 'four', 'frac', 'frat', 'fraî', 'frei', 'fren', 'fric', 'fréq', 'fuie', 'fuit', 'funè', 'futu', 'fuya', 'fère', 'galv', 'gare', 'gars', 'garç', 'gend', 'gent', 'gera', 'gers', 'gies', 'gieu', 'giss', 'glem', 'gles', 'glet', 'gneu', 'gnif', 'gnés', 'grai', 'grec', 'grie', 'gréa', 'guei', 'guem', 'gueu', 'gusé', 'géni', 'gêné', 'hait', 'hala', 'hane', 'harm', 'hens', 'heri', 'heue', 'hont', 'hors', 'hosp', 'humi', 'hégé', 'hére', 'iait', 'iard', 'ibil', 'ibut', 'icad', 'iche', 'ichi', 'icis', 'icit', 'icti', 'ider', 'idie', 'ield', 'iell', 'iett', 'ifiq', 'igea', 'igny', 'igné', 'igué', 'igés', 'iles', 'ilie', 'ilèg', 'immu', 'impl', 'impu', 'imul', 'inap', 'inde', 'indr', 'inex', 'info', 'infâ', 'infé', 'ingt', 'iniè', 'inla', 'inne', 'inof', 'inon', 'insc', 'inso', 'ints', 'inue', 'inés', 'ion:', 'irci', 'ire!', 'iren', 'ireà', 'irmé', 'isai', 'isam', 'isat', 'iscr', 'iste', 'isés', 'itin', 'itué', 'itôt', 'ivat', 'iéta', 'jalo', 'jaun', 'joli', 'joui', 'joué', 'joye', 'jésu', 'klin', 'lamp', 'lang', 'lave', 'lavé', 'lect', 'lenc', 'lgen', 'liai', 'lice', 'lifi', 'lige', 'ling', 'liro', 'liss', 'lits', 'llar', 'llit', 'llon', 'loge', 'loin', 'lopp', 'lore', 'loue', 'loux', 'loué', 'ltan', 'lter', 'ltés', 'luin', 'lure', 'luxe', 'lyse', 'lève', 'léan', 'lété', 'mabl', 'maci', 'mair', 'mala', 'mali', 'mang', 'marq', 'masc', 'mass', 'mate', 'mato', 'matu', 'maxi', 'mbia', 'meur', 'meut', 'mide', 'minu', 'miné', 'miss', 'mist', 'misè', 'mnit', 'modè', 'modé', 'moeu', 'mono', 'monu', 'mort', 'mosq', 'moui', 'mpha', 'mphé', 'mpli', 'mpré', 'musi', 'muth', 'mutu', 'mène', 'mémo', 'méti', 'mêla', 'mêle', 'naie', 'nait', 'nant', 'napo', 'naus', 'ncil', 'nciè', 'ncon', 'ndel', 'ndue', 'ndés', 'negi', 'nerf', 'neuf', 'neur', 'neut', 'nevi', 'nfor', 'nglo', 'ngés', 'nici', 'nieu', 'nive', 'nnan', 'nnue', 'nonc', 'norv', 'noté', 'nour', 'nsci', 'nsib', 'nsid', 'nsti', 'ntat', 'nthè', 'ntir', 'ntiv', 'ntri', 'ntér', 'ntés', 'négo', 'nére', 'obst', 'oché', 'ocri', 'océa', 'odes', 'odox', 'oeuf', 'offr', 'oidi', 'oise', 'oiso', 'oité', 'olid', 'ombe', 'once', 'oncu', 'ondr', 'onie', 'opri', 'opti', 'oqué', 'orag', 'ordi', 'ores', 'orgu', 'orig', 'orth', 'orts', 'osan', 'oson', 'oste', 'osti', 'otio', 'ouss', 'ovis', 'oyag', 'pait', 'pani', 'pann', 'paqu', 'pari', 'payi', 'pera', 'pert', 'peux', 'phar', 'phié', 'phon', 'phra', 'phér', 'pied', 'pitt', 'plés', 'pneu', 'poil', 'pole', 'pond', 'poud', 'poèt', 'pria', 'prie', 'prit', 'priv', 'proj', 'prém', 'pseu', 'pson', 'pteu', 'pula', 'pées', 'péné', 'pére', 'péti', 'quef', 'quem', 'quié', 'quot', 'qués', 'quêt', 'race', 'raco', 'rade', 'raje', 'rang', 'rape', 'rapi', 'rass', 'rato', 'ratr', 'ratt', 'raux', 'rbai', 'rban', 'rber', 'rcié', 'rdag', 'rden', 'rder', 'rdir', 'rdit', 'recu', 'refr', 'reha', 'rele', 'relé', 'remè', 'requ', 'reta', 'reti', 'rets', 'reui', 'reva', 'reço', 'rhum', 'riai', 'rian', 'riau', 'rigo', 'rima', 'rimé', 'risi', 'riti', 'riva', 'rive', 'rièm', 'riée', 'rmat', 'rmèd', 'rner', 'rnes', 'rona', 'roya', 'rray', 'rrec', 'rren', 'rrer', 'rroi', 'rrée', 'rter', 'rtis', 'rtun', 'rtur', 'rues', 'ruin', 'rume', 'runi', 'russ', 'rval', 'rvat', 'rvon', 'réch', 'réel', 'réfo', 'régl', 'régn', 'répl', 'répè', 'rêve', 'sade', 'saie', 'sair', 'salu', 'sart', 'sauv', 'sava', 'sav£', 'scol', 'seig', 'seil', 'semé', 'sere', 'sert', 'seté', 'shis', 'sidu', 'simu', 'sini', 'sire', 'siss', 'sist', 'sois', 'sono', 'sons', 'sors', 'souc', 'spar', 'spir', 'spoi', 'spon', 'spos', "squ'", 'ssab', 'ssag', 'ssio', 'stem', 'stif', 'stou', 'suar', 'subs', 'subv', 'sugg', 'sulm', 'sult', 'surl', 'suro', 'suéd', 'séch', 'sées', 'sémi', 'sépa', 'tact', 'tail', 'tale', 'tali', 'tamm', 'tané', 'tapi', 'taré', 'tata', 'taté', 'tein', 'tess', 'thès', 'tian', 'tiel', 'tige', 'tins', 'titi', 'tité', 'togé', 'tola', 'tolé', 'trad', 'traî', 'tref', 'trem', 'tren', 'treu', 'triq', 'trêv', 'tuer', 'tuil', 'tule', 'tulé', 'tupl', 'turp', 'tées', 'télé', 'tôme', 'uade', 'uadé', 'uant', 'ubli', 'ucti', 'udem', 'uenc', 'uits', 'uièm', 'ulte', 'unai', 'unir', 'urel', 'uren', 'ureu', 'ussé', 'usur', 'utab', 'utif', 'uver', 'uvée', 'uéra', 'vaie', 'vala', 'vell', 'verd', 'vest', 'veté', 'vian', 'vibr', 'vice', 'vide', 'vier', 'vigi', 'vila', 'vini', 'vins', 'viro', 'vise', 'vist', 'vive', 'volt', 'voqu', 'vota', 'voto', 'voue', 'vres', 'vreu', 'vulg', 'vées', 'végè', 'véné', 'xcit', 'yens', 'zare', 'zélé', 'èden', 'èren', 'écar', 'écie', 'écli', 'éctu', 'édif', 'édio', 'édur', 'égie', 'élar', 'élud', 'élèv', 'élég', 'éman', 'émie', 'émig', 'émis', 'épai', 'épar', 'éphé', 'épiq', 'éque', 'érai', 'éran', 'érer', 'érie', 'érit', 'érés', 'évid', 'êtem']
#Number of occurrences: 194
common_4grams = ['Août', 'Arde', 'CAIL', 'CAIS', 'CIPA', 'Cana', 'Colo', 'DOTA', 'FRAN', 'Japo', 'Leur', 'MORA', 'Marq', 'Mexi', 'Natu', 'Notr', 'Pren', 'TTRE', 'abil', 'abst', 'acqu', 'actu', 'ador', 'afin', 'allu', 'anté', 'arée', 'asme', 'ates', 'atit', 'aîne', 'aîné', 'bass', 'blan', 'bloc', 'bont', 'born', 'bref', 'broc', 'calm', 'chen', 'chés', 'cite', 'clai', 'crai', 'cées', 'célè', 'dale', 'dest', 'devr', 'dien', 'diqu', 'disg', 'dres', 'déce', 'déla', 'embu', 'empi', 'enag', 'enga', 'engr', 'enta', 'enth', 'epre', 'erch', 'ervé', 'esca', 'este', 'ettr', 'exio', 'fass', 'fati', 'fero', 'fine', 'forê', 'frèr', 'gara', 'gnol', 'grav', 'gros', 'hasa', 'hevé', 'hive', 'horr', 'huit', 'hure', 'héri', 'iabl', 'iair', 'icip', 'inci', 'inct', 'ingu', 'insu', 'inut', 'ipli', 'irai', 'irré', 'lair', 'lequ', 'leva', 'lica', 'lign', 'lise', 'lisé', 'lors', 'ltat', 'lumi', 'lusi', 'lète', 'mait', 'misé', 'mpen', 'myst', 'mère', 'mépr', 'méth', 'nata', 'nché', 'nnaî', 'nnen', 'nnes', 'nsiv', 'néan', 'obse', 'obte', 'ocat', 'offe', 'oite', 'oncé', 'onqu', 'oppr', 'orté', 'osen', 'ousi', 'oyab', 'pard', 'perp', 'phot', 'ptab', 'quic', 'raci', 'rast', 'rech', 'rial', 'rise', 'rpré', 'rrai', 'rrom', 'ruct', 'rver', 'râce', 'rédu', 'rétr', 'réve', 'saur', 'sino', 'siti', 'soci', 'soup', 'squé', 'ssan', 'ssen', 'sser', 'stri', 'supr', 'sura', 'surm', 'sécu', 'sûre', 'tire', 'tort', 'trac', 'trah', 'tram', 'uaie', 'uent', 'uets', 'uire', 'urge', 'usie', 'usio', 'uvés', 'verr', 'veut', 'vues', 'çant', 'çonn', 'échi', 'écol', 'éduc', 'énor', 'étue', 'étés']
#War vs GT
#Number of occurrences: 139
war_unique_2grams = ['AD', 'AF', 'AI', 'AU', 'Ao', 'At', 'Ay', 'Aô', 'BE', 'Bl', 'CE', 'CU', 'Cr', 'D9', 'DO', 'DU', 'Da', 'Di', 'Do', 'EA', 'EG', 'EU', 'Ec', 'FA', 'FR', 'Fa', 'GL', 'Gu', 'HR', 'HT', 'He', 'ID', 'IL', 'IM', 'IQ', 'IS', 'IX', 'It', 'Jo', 'LI', 'Lé', 'MB', 'MO', 'Me', 'Mê', 'OC', 'Oc', 'Or', 'Ot', 'PE', 'PL', 'PR', 'PU', 'Pi', 'Pl', 'RA', 'RD', 'RM', 'RN', 'RS', 'RT', 'RU', 'Re', 'Ru', 'RÉ', 'Ré', 'SA', 'SL', 'SO', 'SU', 'Se', 'Si', 'TU', 'Ti', 'UG', 'UI', 'US', 'UX', 'VO', 'Ve', 'ah', 'aj', 'az', 'bâ', 'bé', 'ck', 'cy', 'cè', 'dn', 'eS', 'eg', 'ey', 'eé', 'fs', 'fé', 'gh', 'gâ', 'gê', 'hn', 'hô', 'lb', 'lf', 'lg', 'lm', 'lp', 'lq', 'ls', 'mn', 'mu', 'my', 'nh', 'nl', 'nô', 'ov', 'rh', 'rô', 'sL', 'sS', 'tê', 'uo', 'vè', 'wa', 'xq', 'xt', 'xé', 'ya', 'ze', 'ÇU', 'ÉS', 'ÉT', 'àc', 'âm', 'èd', 'èm', 'éa', 'éj', 'êm', 'ïs', 'ôt']
#Number of occurrences: 122
gt_unique_2grams = ['AO', 'Ah', 'Bâ', 'CÉ', 'CÔ', 'Cé', 'DM', 'Dû', 'EO', 'EW', 'FL', 'FT', 'FÉ', 'Fê', 'Fû', 'GD', 'Gl', 'HC', 'HS', 'HÉ', 'IP', 'Jé', 'Km', 'Ku', 'MS', 'MT', 'NL', 'NZ', 'Nö', 'OA', 'OK', 'OO', 'Oe', 'Os', 'PY', 'Pâ', 'RB', 'RQ', 'RÈ', 'SN', 'SY', 'Sq', 'TZ', 'Tc', 'Tâ', 'UB', 'Uk', 'Up', 'UÊ', 'Vl', 'WO', 'WY', 'Wr', 'XY', 'Xa', 'Zo', 'aL', 'ae', 'aï', 'bj', 'bt', 'c…', 'dh', 'dà', 'fC', 'gb', 'hf', 'hs', 'ht', 'hw', 'iP', 'iâ', 'iò', 'kf', 'km', 'lw', 'mâ', 'n!', 'nL', 'nS', 'nâ', 'nê', 'oa', 'ok', 'qe', 'rL', 'ry', 'rz', 'sv', 'sw', 't?', 'tC', 'tS', 'tf', 'tè', 'vy', 'vœ', 'we', 'yC', 'yc', 'yf', 'yn', 'yr', 'yt', 'zi', 'zu', 'zé', 'ÉD', 'ÏV', 'àL', 'ân', 'çû', 'éL', 'éS', 'éx', 'éz', 'ët', 'îf', 'ïo', 'ùp', 'ûe', 'œi']
#Number of occurrences: 10
common_2grams = ['cq', 'eo', 'nb', 'nz', 'râ', 'sd', 'uq', 'xa', 'zè', 'ôm']
#Number of occurrences: 543
war_unique_3grams = ['ACQ', 'AFF', 'AIR', 'ANS', 'ARM', 'ATI', 'Als', 'Aoû', 'Ard', 'Arm', 'Atl', 'Auj', 'Aus', 'Aut', 'Aya', 'Aôu', 'BEA', 'Bel', 'Bla', 'Bou', 'CAI', 'CAR', 'CAV', 'CRE', 'CRI', 'Can', 'Car', 'Cet', 'Cho', 'Cré', 'DEU', 'DNO', 'DON', 'DOT', 'DRE', 'Day', 'Dim', 'Dot', 'Dup', 'Duq', 'DÉC', 'DÉS', 'EMB', 'ENG', 'ENT', 'ERD', 'ETR', 'EUR', 'Ech', 'Env', 'Esp', 'Est', 'FRA', 'Far', 'For', 'Fri', 'God', 'Gol', 'Gra', 'Gri', 'Gue', 'Has', 'Hen', 'Hol', 'Hon', 'Hot', 'INI', 'ISE', 'ITA', 'Ils', 'Ita', 'IÉT', 'J!a', 'Jap', 'Jau', 'Joh', 'LAN', 'LIE', 'LLA', 'Leu', 'Lor', 'Loz', 'Lég', 'MEN', 'MOR', 'Mar', 'Mat', 'May', 'Mex', 'Min', 'Mor', 'Mus', 'Mêm', 'NCA', 'NEG', 'NOT', 'NQU', 'Nip', 'Nor', 'Nos', 'Not', 'Nov', 'OCC', 'ONS', 'ORT', 'Oct', 'Ora', 'Ote', 'P.S', 'PAI', 'PAT', 'PLU', 'POP', 'PRÉ', 'Pic', 'Plu', 'Poi', 'Pos', 'Pre', 'Pro', 'Pub', 'REA', 'REÇ', 'RUH', 'Rev', 'Rhé', 'Ruy', 'RÉP', 'SID', 'SLE', 'SOC', 'SUP', 'Sen', 'TIO', 'TRA', 'TTR', 'Tan', 'Tim', 'Tol', 'Tra', 'Tri', 'UGH', 'ULA', 'UNE', 'UPA', 'URE', 'UTÉ', 'VAI', 'VOT', 'Ver', 'Vic', 'Viv', 'Vos', 'acq', 'ada', 'ade', 'adn', 'ado', 'afi', 'agg', 'agi', 'agn', 'aib', 'ajo', 'alq', 'aly', 'ame', 'amo', 'amu', 'anx', 'apo', 'aqu', 'arb', 'ard', 'aré', 'ase', 'asi', 'ast', 'avd', 'ayo', 'aça', 'ben', 'bia', 'blo', 'bor', 'bri', 'bât', 'cad', 'cai', 'can', 'car', 'cas', 'caz', 'chi', 'chu', 'cip', 'cir', 'civ', 'cla', 'clu', 'coe', 'crè', 'cré', 'cta', 'cts', 'cun', 'cut', 'céd', 'cés', 'dai', 'dea', 'dia', 'dic', 'did', 'dim', 'dip', 'doc', 'dun', 'dut', 'dég', 'eau', 'eid', 'ela', 'els', 'ene', 'enh', 'enr', 'enu', 'era', 'erg', 'ern', 'erp', 'esc', 'esm', 'ets', 'ett', 'euv', 'evo', 'eàc', 'far', 'fas', 'fia', 'fic', 'fir', 'fié', 'flo', 'fri', 'fru', 'frè', 'fum', 'fus', 'féc', 'gal', 'gas', 'gau', 'giq', 'gir', 'gle', 'gou', 'goû', 'gro', 'gur', 'guè', 'gué', 'gât', 'gên', 'hai', 'has', 'haï', 'hiv', 'hod', 'hor', 'hou', 'hte', 'hts', 'hum', 'hôt', 'ial', 'ibl', 'idé', 'ies', 'iez', 'ifs', 'igu', 'igé', 'imb', 'inj', 'inq', 'inr', 'ipe', 'irr', 'ism', 'iso', 'isp', 'ito', 'iva', 'ivr', 'ièr', 'jan', 'jet', 'jup', 'kel', 'lat', 'lec', 'lei', 'leq', 'lev', 'lex', 'lib', 'lim', 'lio', 'lor', 'lum', 'lut', 'léc', 'lée', 'lés', 'lôm', 'mau', 'mbr', 'mee', 'mei', 'mem', 'min', 'mir', 'mob', 'mod', 'moq', 'mou', 'mps', 'mpé', 'mul', 'mwa', 'mys', 'mèr', 'méd', 'mée', 'mép', 'mér', 'm€l', 'nab', 'nav', 'naî', 'nbe', 'nca', 'nco', 'ncr', 'ncu', 'ndu', 'neg', 'nen', 'net', 'nge', 'nit', 'niè', 'nné', 'nob', 'noi', 'nor', 'nsa', 'nsd', 'nsi', 'ntô', 'nui', 'num', 'nze', 'néa', 'nés', 'nôt', 'obr', 'obt', 'oca', 'oce', 'ocr', 'ogi', 'ogn', 'oig', 'oli', 'oll', 'ols', 'olu', 'olv', 'omn', 'ona', 'onç', 'ope', 'orb', 'orm', 'osa', 'oug', 'oui', 'oul', 'out', 'oux', 'oye', 'oût', 'pal', 'pan', 'pau', 'pel', 'pho', 'pie', 'pit', 'plè', 'plé', 'ppe', 'pra', 'pru', 'ptu', 'pue', 'pun', 'pus', 'pço', 'pèr', 'pée', 'pén', 'pét', 'pêc', 'rad', 'rap', 'rar', 'rav', 'rdo', 'reg', 'reç', 'rgi', 'rgé', 'rhé', 'rib', 'rme', 'roi', 'rop', 'roy', 'rpe', 'rqu', 'rro', 'rsu', 'rte', 'rub', 'rud', 'rço', 'rçu', 'règ', 'rès', 'réd', 'rêm', 'sag', 'sal', 'sca', 'sep', 'sia', 'sis', 'six', 'sme', 'soc', 'sot', 'spe', 'spé', 'ssi', 'sto', 'sua', 'suc', 'suf', 'suj', 'sèd', 'sée', 'séj', 'sév', 'tas', 'tef', 'tex', 'tho', 'thé', 'tib', 'tif', 'tip', 'tnu', 'tod', 'tot', 'tru', 'trô', 'tté', 'tun', 'tué', 'tér', 'têt', 'uab', 'uai', 'uan', 'ubl', 'uct', 'udi', 'uge', 'uiè', 'uli', 'ulu', 'uma', 'una', 'uns', 'uné', 'upi', 'upp', 'ura', 'urg', 'uré', 'usi', 'usq', 'usé', 'uta', 'vea', 'vex', 'via', 'vid', 'vil', 'viè', 'voc', 'vue', 'vul', 'véc', 'vée', 'vér', 'xéc', 'yan', 'âme', 'çai', 'èsS', 'éci', 'écl', 'édi', 'éfi', 'éga', 'ége', 'éli', 'élé', 'émo', 'éno', 'énu', 'épe', 'épo', 'épu', 'évi', 'êch', 'ête']
#Number of occurrences: 1048
gt_unique_3grams = ['ABD', 'ABO', 'ABU', 'ACE', 'ACH', 'ACY', 'ADI', 'ADM', 'ADV', 'AGG', 'AGN', 'AGR', 'AHI', 'AII', 'AIL', 'ALE', 'ALI', 'ALS', 'ALV', 'ALZ', 'AMO', 'ARE', 'ARI', 'ARR', 'ARÉ', 'ATS', 'ATU', 'AUD', 'AUG', 'AUN', 'AUP', 'AVr', 'AYS', 'Abb', 'Abo', 'Abr', 'Acc', 'Acq', 'Act', 'Adj', 'Adm', 'Ado', 'Ais', 'Ala', 'Alc', 'Alf', 'Ani', 'Ans', 'Anv', 'Arg', 'Ark', 'Ate', 'Aud', 'Avi', 'Aye', 'Ayo', 'BAG', 'BAN', 'BAT', 'BAU', 'BES', 'BIB', 'BLU', 'BOO', 'BOR', 'BRU', 'Bas', 'Bay', 'Beb', 'Bid', 'Ble', 'Boc', 'Boi', 'Boë', 'Brê', 'Brû', 'Bud', 'Bui', 'Buq', 'BÉA', 'BÉN', 'Bâl', 'CAC', 'CAT', 'CAU', 'CEP', 'CHS', 'CHa', 'CIN', 'CLA', 'CLU', 'CLÉ', 'COL', 'COS', 'COT', 'CRO', 'CTO', 'CUL', 'CUR', 'CUT', 'Chu', 'Cil', 'Cin', 'Civ', 'Coa', 'Cob', 'Coq', 'Cot', 'Cre', 'CÉR', 'CÔT', 'Cés', 'DAD', 'DAL', 'DAV', 'DAY', 'DEC', 'DEL', 'DEN', 'DEP', 'DER', 'DEV', 'DIC', 'DID', 'DIF', 'DIG', 'DIM', 'DIN', 'DIO', 'DIV', 'DOI', 'DUM', 'DUP', 'DWI', 'Dam', 'Dar', 'Dat', 'Dav', 'Dev', 'Dif', 'Dij', 'Dip', 'Doc', 'Dru', 'Duf', 'Dun', 'Dur', 'Dut', 'DÉJ', 'DÉL', 'DÉN', 'DÉR', 'Déb', 'Dér', 'ECR', 'EDA', 'EID', 'EIM', 'ELY', 'ENF', 'ENN', 'ENR', 'ENX', 'EOT', 'ERC', 'ERE', 'ERV', 'ESÉ', 'ETE', 'ETH', 'ETS', 'ETÉ', 'EVE', 'EXE', 'EXP', 'EXÉ', 'Ecr', 'Edo', 'Edw', 'Ele', 'Emb', 'End', 'Enq', 'Enr', 'Ens', 'Eri', 'Erm', 'Etc', 'Eve', 'Evi', 'Exa', 'Exp', 'FAL', 'FAV', 'FEU', 'FIA', 'FIC', 'FID', 'FIE', 'FIG', 'FIT', 'FLÉ', 'FOC', 'FOI', 'FOU', 'FRE', 'FUN', 'FUR', 'FUT', 'Fam', 'Fau', 'Fay', 'Fel', 'Fle', 'Foc', 'Foy', 'Fro', 'Fré', 'FÉL', 'Féd', 'Fél', 'Fêt', 'Fût', 'GAI', 'GAL', 'GID', 'GIN', 'GIQ', 'GLA', 'GNE', 'GNI', 'GNÉ', 'GRO', 'GRÈ', 'GUI', 'Gai', 'Gan', 'Gid', 'Gla', 'Gro', 'Géo', 'HAV', 'HOT', 'HUY', 'Hab', 'Hal', 'Hat', 'Hei', 'Hel', 'Hil', 'Hir', 'His', 'Hos', 'Hug', 'Hyd', 'Hym', 'HÉC', 'IAL', 'ICA', 'IEL', 'IFE', 'IFI', 'IGN', 'III', 'ILS', 'IMA', 'INC', 'IND', 'INE', 'INF', 'ING', 'INO', 'INQ', 'IRC', 'IRO', 'IRÉ', 'ISA', 'ISV', 'ITS', 'IVÉ', 'IXS', 'Ila', 'Ill', 'Imp', 'Inc', 'Ing', 'Irl', 'Iro', 'IÉS', 'JOR', 'JUI', 'JUP', 'JUS', 'Jol', 'Jon', 'Jos', 'Jua', 'Jup', 'Juv', 'Jér', 'KBe', 'KEL', 'KER', 'KIN', 'KSÉ', 'Kru', 'Kul', 'LAG', 'LAI', 'LAL', 'LCO', 'LEA', 'LEC', 'LEI', 'LEO', 'LIA', 'LIB', 'LIG', 'LIM', 'LIN', 'LIO', 'LIP', 'LIT', 'LIZ', 'LIÉ', 'LOR', 'LQU', 'LUI', 'LUS', 'LUT', 'LUX', 'Lac', 'Lau', 'Led', 'Len', 'Lep', 'Lie', 'Liè', 'Loq', 'Low', 'MAG', 'MAJ', 'MAM', 'MAX', 'MAY', 'MBE', 'MET', 'MEZ', 'MIN', 'MOD', 'MOI', 'MOU', 'MOY', 'MUO', 'MUR', 'MUS', 'MUT', 'Mak', 'Max', 'Maî', 'Mez', 'Mic', 'Mid', 'Mie', 'Mim', 'Moc', 'Mrs', 'Myi', 'MÉM', 'Mél', 'NAC', 'NAI', 'NCH', 'NCK', 'NCU', 'NDA', 'NDM', 'NDO', 'NEA', 'NED', 'NEZ', 'NIR', 'NIS', 'NIT', 'NIV', 'NOG', 'NOI', 'NOL', 'NON', 'NOP', 'NOV', 'NOW', 'NSP', 'Nes', 'Nog', 'Noi', 'Nom', 'NÉR', 'Nöé', 'OBI', 'OBR', 'OCE', 'OCT', 'OLA', 'OLS', 'OMO', 'ONC', 'ONI', 'ONN', 'OPU', 'ORB', 'ORC', 'ORD', 'ORI', 'ORM', 'OUT', 'Oeu', 'Ois', 'One', 'Osc', 'Otl', 'Ott', 'PAC', 'PAÏ', 'PEA', 'PET', 'PHI', 'PHO', 'PIC', 'PIR', 'PLI', 'PON', 'PTO', 'PUB', 'PYR', 'Pei', 'Pey', 'Pia', 'Pir', 'Ple', 'Plé', 'Poo', 'Pry', 'PÉN', 'PÉS', 'Pâl', 'QUÊ', 'RAC', 'RAL', 'RAM', 'RAV', 'RAY', 'RBO', 'REM', 'REW', 'RGA', 'RHU', 'RIA', 'RIF', 'RKA', 'RLA', 'RNI', 'ROG', 'ROQ', 'ROS', 'ROU', 'RRA', 'RRY', 'RUE', 'RUT', 'Rab', 'Rai', 'Ras', 'Rhô', 'Ric', 'Rig', 'Rom', 'RÉA', 'RÉE', 'RÉF', 'RÉG', 'RÉU', 'RÉV', 'Réa', 'Réd', 'Réf', 'Réi', 'Rôl', 'Rôt', 'SAC', 'SAG', 'SAI', 'SCH', 'SEB', 'SEQ', 'SHA', 'SHI', 'SIE', 'SIL', 'SIX', 'SNE', 'SOI', 'SOL', 'SOT', 'STI', 'STU', 'SUE', 'SUS', 'SXN', 'SYM', 'Sab', 'Sac', 'Sco', 'Sea', 'Sel', 'Seq', 'Set', 'Sia', 'Six', 'Sla', 'Slo', 'Spa', 'Spe', 'Spo', 'Squ', 'Sta', 'Sté', 'Sul', 'Sué', 'Syd', 'SÉE', 'SÉP', 'Séc', 'Sév', 'TAF', 'TAN', 'TAU', 'TED', 'TET', 'TEU', 'TEX', 'TEY', 'THC', 'TIC', 'TIS', 'TJO', 'TLI', 'TOG', 'TOL', 'TOR', 'TRO', 'TUD', 'TUL', 'TUT', 'TZA', 'Tag', 'Tal', 'Tap', 'Tch', 'Ten', 'Tex', 'The', 'Thr', 'Tig', 'Tom', 'Tré', 'Tsa', 'Tse', 'Tsi', 'Tuc', 'TÉS', 'Tâc', 'UBE', 'UCO', 'UEI', 'UEL', 'UEN', 'UFF', 'UGA', 'UIÉ', 'UJE', 'ULL', 'ULT', 'UMB', 'UMO', 'UPO', 'USS', 'UTE', 'UZE', 'Ukr', 'Upt', 'VEA', 'VEG', 'VEU', 'VIE', 'VII', 'VIN', 'VIS', 'VOI', 'VOS', 'VOU', 'Var', 'Vez', 'Vie', 'Vit', 'Vla', 'Voc', 'WAG', 'WEL', 'WET', 'WHE', 'WHI', 'WOR', 'WYT', 'Wag', 'Wal', 'Wat', 'Wes', 'Whh', 'Whi', 'Wia', 'Wri', 'XAN', 'XEL', 'XNX', 'XXV', 'XXe', 'XYX', 'Xav', 'YEA', 'YFU', 'YLE', 'You', 'ZAN', 'ZEP', 'Zor', 'aLE', 'abd', 'abn', 'aco', 'acr', 'acu', 'adh', 'akf', 'alt', 'alw', 'ama', 'aok', 'api', 'apl', 'apt', 'apè', 'arp', 'aum', 'ayi', 'aïe', 'bac', 'bav', 'baz', 'baï', 'bir', 'boy', 'boî', 'buv', 'bél', 'cce', 'ccl', 'cdo', 'ceL', 'chs', 'ciè', 'clo', 'cod', 'coh', 'coé', 'coù', 'crê', 'ctu', 'cud', 'cue', 'cué', 'cyc', 'cèl', 'cém', 'cœe', 'd!u', 'd!é', 'deA', 'deC', 'dol', 'doy', 'dré', 'dst', 'dèj', 'déa', 'déà', 'déç', 'dôm', 'dûr', 'eai', 'ecr', 'ecy', 'egg', 'egr', 'eiv', 'elb', 'elm', 'enL', 'eno', 'eot', 'epl', 'erl', 'esa', 'eth', 'etl', 'exh', 'exo', 'ezS', 'fCl', 'fch', 'ffo', 'fiâ', 'flâ', 'flè', 'fos', 'frê', 'fug', 'gby', 'gch', 'gez', 'ghb', 'ght', 'gic', 'gil', 'gio', 'gis', 'giv', 'gme', 'gog', 'gor', 'gua', 'gum', 'géa', 'gém', 'hac', 'ham', 'hea', 'hez', 'hib', 'hid', 'hig', 'hil', 'hit', 'hla', 'hni', 'hno', 'hro', 'hur', 'hyd', 'hèl', 'hém', 'iag', 'ias', 'icy', 'ido', 'idy', 'idè', 'iet', 'ilL', 'ilS', 'ily', 'inL', 'inl', 'iou', 'ipi', 'ipp', 'ipr', 'izé', 'ièc', 'ièt', 'iér', 'jau', 'jon', 'jux', 'kai', 'ker', 'kgs', 'kin', 'laD', 'lal', 'lap', 'lax', 'le:', 'leL', 'leX', 'lfo', 'lga', 'lge', 'lhe', 'lho', 'llè', 'lop', 'low', 'lpt', 'lté', 'luc', 'lug', 'lul', 'lèl', 'lèm', 'lèn', 'lém', 'lén', 'lér', 'lét', 'léz', 'mba', 'meL', 'meS', 'mic', 'mmo', 'mol', 'mpo', 'mpt', 'mpu', 'mte', 'mât', 'mèd', 'méa', 'mél', 'mêt', 'n!e', 'naa', 'nae', 'nas', 'nck', 'ncé', 'ndf', 'ndh', 'neS', 'nei', 'new', 'nga', 'ngr', 'nia', 'nin', 'nog', 'nol', 'nop', 'nsb', 'nse', 'nsv', 'nsw', 'nsé', 'ntr', 'nâi', 'nèr', 'nèt', 'nêt', 'obe', 'ody', 'okl', 'old', 'ong', 'ony', 'orn', 'oro', 'orp', 'orq', 'orç', 'osm', 'ott', 'oud', 'ovi', 'oyo', 'pbe', 'phè', 'piq', 'plâ', 'poè', 'poé', 'ppa', 'ppr', 'ppt', 'pâl', 'pél', 'pêt', 'pôt', 'quu', 'qûe', 'rLe', 'rSÉ', 'rdu', 'reh', 'rei', 'rin', 'rix', 'rli', 'rmi', 'rnu', 'rog', 'rol', 'roo', 'rpi', 'rtu', 'rup', 'rur', 'rut', 'rvo', 'rça', 'réi', 'sDU', 'say', 'sbo', 'sco', 'scu', 'scè', 'seL', 'seS', 'sea', 'sex', 'sha', 'sié', 'siò', 'soe', 'ssu', 'ssè', 'sty', 'stè', 'syp', 'sél', 'tLe', 'tSÉ', 'tad', 'tax', 'teL', 'teS', 'teb', 'thf', 'thm', 'tig', 'tiè', 'tle', 'tol', 'tsc', 'tsm', 'ttl', 'tui', 'tup', 'tva', 'typ', 'tât', 'tèg', 'tén', 'ual', 'uar', 'udf', 'ufa', 'ugh', 'uid', 'uin', 'uio', 'ull', 'ulm', 'ulé', 'umb', 'und', 'upo', 'uxé', 'uzo', 'vap', 'vaq', 'vay', 'vié', 'voû', 'vro', 'vyC', 'vét', 'vœu', 'wan', 'war', 'weg', 'wei', 'wil', 'wit', 'wsk', 'xal', 'xim', 'xiq', 'xis', 'xpu', 'xtr', 'xxt', 'xxx', 'xén', 'yas', 'yer', 'yfu', 'yio', 'ylo', 'you', 'zac', 'zep', 'ziè', 'zon', 'zun', 'zèl', 'ÉAB', 'ÉES', 'ÉFI', 'ÉGU', 'ÉMA', 'ÉMO', 'ÉMU', 'ÉNI', 'ÉPE', 'ÉPI', 'ÉTR', 'ÉVE', 'ÉVO', 'àLE', 'çoi', 'èce', 'ècl', 'ègn', 'ègr', 'èvr', 'éLE', 'éal', 'écu', 'éde', 'éen', 'éer', 'ého', 'émè', 'émé', 'éon', 'ésu', 'évy', 'éxé', 'éée', 'êlé', 'êti', 'êto', 'êtu', 'îné', 'ûme', 'œil']
#Number of occurrences: 44
common_3grams = ['Cap', 'Dét', 'EME', 'Hoh', 'IMP', 'Jac', 'Lal', 'Lic', 'NCI', 'NDS', 'RKL', 'Rés', 'TAL', 'TIN', 'TIQ', 'UIT', 'avu', 'cig', 'cyn', 'dal', 'dua', 'enz', 'eui', 'gni', 'géo', 'ibi', 'igr', 'ièm', 'jud', 'lco', 'nmo', 'omi', 'oti', 'rgu', 'rsa', 'rsi', 'réj', 'sum', 'tla', 'toy', 'tum', 'tég', 'ués', 'xes']
#Number of occurrences: 910
war_unique_4grams = ['ACQU', 'ADNO', 'AFFA', 'ALIT', 'Alsa', 'Août', 'Arde', 'Arma', 'Atla', 'Aujo', 'Auss', 'Ayan', 'Aôut', 'BEAU', 'Belg', 'Blan', 'Bour', 'Brio', 'CAIL', 'CAIS', 'CARN', 'CAVA', 'CIPA', 'CREA', 'CRIT', 'Cana', 'Capi', 'Carn', 'Cett', 'Chac', 'Cham', 'Chaq', 'Char', 'Choe', 'Colb', 'Colo', 'Comi', 'Créa', 'D9ic', 'DEUI', 'DOTA', 'Dayt', 'Dima', 'Dota', 'Dupl', 'Duqu', 'DÉSA', 'Défa', 'Défe', 'EGIE', 'EMAN', 'ENGL', 'ERLE', 'ETRE', 'Enve', 'Espa', 'Etan', 'FRAN', 'Farg', 'Forc', 'Frio', 'Goda', 'Golf', 'Gran', 'Griè', 'Guer', 'Hase', 'Henr', 'Holl', 'Hote', 'IDEN', 'IEME', 'IMPO', 'IQUE', 'ITTÉ', 'Ital', 'J!au', 'Japo', 'Jaur', 'John', 'LAIR', 'LAUX', 'LLIN', 'Lall', 'Lasc', 'Lass', 'Leur', 'Lorr', 'Lozè', 'Légi', 'MAND', 'MBRE', 'MENT', 'MILI', 'MILL', 'MORA', 'Main', 'Marq', 'Mati', 'Maye', 'Mexi', 'Mini', 'Musi', 'Même', 'NATI', 'NATU', 'NOTR', 'Natu', 'Nipp', 'Nord', 'Notr', 'Nove', 'OCCU', 'Octo', 'Orat', 'PAIX', 'PARL', 'PATI', 'PLUS', 'POPU', 'PRÉS', 'Paci', 'Parl', 'Parm', 'Plus', 'Poin', 'Post', 'Prof', 'Publ', 'Quel', 'Quoi', 'Quos', 'RDRE', 'RESL', 'REÇU', 'RMEM', 'RTUN', 'RUHR', 'Revu', 'Rhén', 'Ruyt', 'RÉPO', 'SOCI', 'SUPE', 'Senl', 'TRAI', 'TTRE', 'Tand', 'Time', 'Toll', 'Trai', 'UGHT', 'VAIN', 'VIEN', 'VOTR', 'Verd', 'Vict', 'Vosg', 'abil', 'abri', 'abse', 'abso', 'abst', 'ache', 'acqu', 'acré', 'acte', 'actu', 'adil', 'ador', 'afin', 'aggr', 'agit', 'aide', 'aidé', 'aill', 'aima', 'aime', 'aire', 'aisa', 'aiss', 'ajou', 'ales', 'alla', 'alli', 'allu', 'ambi', 'amir', 'amit', 'amme', 'amou', 'amus', 'anci', 'anda', 'anie', 'anne', 'anni', 'anno', 'anth', 'anti', 'anté', 'anxi', 'apot', 'appa', 'appo', 'arai', 'arbr', 'arge', 'argu', 'aris', 'arrê', 'arus', 'arée', 'asil', 'asme', 'assi', 'ates', 'atie', 'atit', 'attr', 'atur', 'auro', 'auta', 'auxq', 'avdr', 'avia', 'avis', 'avug', 'azes', 'aîne', 'aîné', 'bass', 'berl', 'bi-q', 'biai', 'bili', 'blan', 'blem', 'blir', 'bloc', 'bond', 'bons', 'bont', 'born', 'bout', 'breS', 'bref', 'broc', 'brun', 'bâto', 'caba', 'cabo', 'cain', 'calm', 'calo', 'cama', 'cand', 'caré', 'cati', 'caus', 'cess', 'ceàc', 'chas', 'chez', 'chif', 'chis', 'choq', 'chée', 'chés', 'ciel', 'cile', 'cipa', 'circ', 'cite', 'civi', 'clai', 'coeu', 'conq', 'conç', 'crai', 'crat', 'cris', 'crép', 'ctem', 'culp', 'curr', 'cées', 'célè', 'céré', 'dale', 'dant', 'dati', 'dens', 'dent', 'desc', 'dess', 'dest', 'devr', 'diat', 'dict', 'dien', 'dimi', 'dipl', 'diqu', 'dira', 'dise', 'dixi', 'dock', 'dram', 'drea', 'dres', 'duct', 'dura', 'dèsL', 'débu', 'déca', 'déce', 'décr', 'décè', 'défi', 'dégo', 'déla', 'déli', 'délu', 'déni', 'déno', 'dépa', 'dépi', 'déta', 'détr', 'eait', 'effo', 'efor', 'egie', 'eign', 'eler', 'eley', 'embu', 'empi', 'empl', 'empo', 'empt', 'empê', 'enag', 'encé', 'enda', 'enga', 'ennu', 'enri', 'enta', 'enth', 'ento', 'ents', 'envi', 'eons', 'epre', 'epti', 'erch', 'erma', 'ervé', 'esca', 'esne', 'espè', 'espé', 'esrê', 'este', 'esti', 'et-2', 'eten', 'eter', 'etie', 'ettr', 'etté', 'eure', 'even', 'excl', 'exer', 'exig', 'exio', 'expr', 'expé', 'fame', 'fard', 'fass', 'fata', 'fati', 'faud', 'faus', 'fave', 'favo', 'ferm', 'fero', 'fica', 'fidé', 'fine', 'fonc', 'form', 'forê', 'frui', 'frèr', 'fume', 'féco', 'gara', 'gasp', 'gauc', 'germ', 'giqu', 'gloi', 'glor', 'gnai', 'gner', 'gnes', 'gnée', 'gouv', 'goût', 'grap', 'grav', 'gros', 'gumè', 'gura', 'gure', 'guèr', 'gués', 'gâte', 'gêne', 'hain', 'hasa', 'haïs', 'hevé', 'hies', 'hive', 'hono', 'horr', 'huit', 'huma', 'hure', 'héos', 'héri', 'hôte', 'iabl', 'iair', 'iale', 'ianc', 'ibli', 'ibue', 'icip', 'idat', 'idée', 'idér', 'ieux', 'ifie', 'ifié', 'igna', 'igne', 'ilit', 'illu', 'imbé', 'imes', 'immi', 'immé', 'impa', 'impé', 'inat', 'inci', 'incr', 'inct', 'indu', 'inen', 'ines', 'infa', 'inge', 'ingu', 'inju', 'inqu', 'insi', 'insu', 'inut', 'invi', 'invr', 'inév', 'ioti', 'ipli', 'iptu', 'irai', 'ires', 'irré', 'irée', 'isol', 'issa', 'isée', 'itab', 'itai', 'iten', 'iteu', 'itoi', 'itté', 'ités', 'iète', 'iées', 'janv', 'jupi', 'labl', 'laie', 'lair', 'lamm', 'lanc', 'lequ', 'leva', 'libe', 'lign', 'lise', 'lisé', 'lité', 'lièr', 'llem', 'loni', 'lors', 'lque', 'ltat', 'lumi', 'lusi', 'luti', 'lutt', 'lysé', 'lète', 'mait', 'malv', 'mast', 'mauv', 'mbla', 'mble', 'meet', 'meil', 'meme', 'mine', 'mini', 'mire', 'misé', 'mobi', 'mode', 'mois', 'moni', 'moqu', 'mots', 'mouv', 'mpar', 'mpen', 'mphe', 'mult', 'myst', 'mère', 'médi', 'mépr', 'méth', 'métr', 'nale', 'nata', 'natr', 'naug', 'nava', 'naît', 'ncen', 'nche', 'ndon', 'ndée', 'neme', 'nent', 'nett', 'neuv', 'nhei', 'nier', 'nité', 'nnaî', 'nnen', 'nnes', 'nnus', 'nobl', 'norm', 'note', 'nren', 'nser', 'nsiv', 'ntab', 'ntes', 'ntie', 'ntiq', 'ntre', 'nuit', 'null', 'numé', 'néan', 'néme', 'nôtr', 'obsc', 'obse', 'obte', 'odon', 'offe', 'oite', 'olog', 'omie', 'on-3', 'oncé', 'onde', 'onds', 'onis', 'onné', 'onqu', 'onsd', 'onst', 'onte', 'opol', 'oppr', 'ordr', 'orme', 'oser', 'ousi', 'outr', 'ouvr', 'oyab', 'oyer', 'pant', 'pard', 'paru', 'patr', 'pauv', 'payé', 'pent', 'perp', 'phot', 'piti', 'pité', 'plan', 'plaq', 'plat', 'plei', 'ples', 'plin', 'plut', 'poig', 'post', 'ppor', 'prat', 'prog', 'pron', 'pros', 'prou', 'prov', 'prud', 'préd', 'préj', 'pues', 'puné', 'père', 'péen', 'pêch', 'qual', 'quar', 'quat', 'quic', 'quit', 'raci', 'rain', 'rale', 'rall', 'rame', 'ramm', 'raph', 'rapp', 'rare', 'rast', 'rdon', 'rece', 'rech', 'refe', 'refu', 'regr', 'rela', 'rell', 'remi', 'remo', 'remp', 'rens', 'rent', 'resp', 'retr', 'revi', 'revo', 'revu', 'reçu', 'rgur', 'rhét', 'rial', 'rich', 'rier', 'rion', 'rire', 'rise', 'risq', 'riss', 'risé', 'riét', 'rmai', 'rméd', 'romi', 'ront', 'rosi', 'rota', 'rpré', 'rqua', 'rque', 'rrai', 'rras', 'rrom', 'rrés', 'rtai', 'rtan', 'rtem', 'rtie', 'ruba', 'ruct', 'rven', 'rver', 'règl', 'rète', 'réag', 'réal', 'réci', 'rédu', 'rées', 'régu', 'réta', 'réus', 'révi', 'révé', 'rôlé', 'sage', 'sant', 'sate', 'saur', 'savi', 'scan', 'sema', 'seme', 'sept', 'sess', 'seur', 'sfac', 'sian', 'sinc', 'sino', 'siti', 'smai', 'soci', 'soie', 'soin', 'soir', 'sola', 'sole', 'soli', 'soul', 'soup', 'souv', 'spec', 'spen', 'squé', 'ssad', 'ssam', 'ssan', 'ssen', 'sser', 'ssim', 'stan', 'stes', 'stre', 'stri', 'stèr', 'subl', 'subo', 'succ', 'suff', 'suje', 'supp', 'supr', 'supé', 'sura', 'sure', 'surm', 'sécu', 'séjo', 'sévè', 'sûre', 'sûrs', 'tais', 'tand', 'tass', 'tati', 'tatr', 'tenb', 'teni', 'tenu', 'tera', 'teur', 'text', 'thod', 'tici', 'tien', 'tier', 'time', 'timi', 'tina', 'tiqu', 'tire', 'titr', 'tive', 'tocr', 'tons', 'torp', 'tort', 'tota', 'trac', 'trah', 'trai', 'tram', 'tres', 'trib', 'tric', 'trio', 'trod', 'trom', 'truc', 'ttre', 'tuen', 'tête', 'uaie', 'uait', 'uasi', 'uden', 'udic', 'uell', 'uent', 'uets', 'uire', 'umac', 'unan', 'unic', 'unif', 'uniq', 'unis', 'uoti', 'urat', 'urge', 'urne', 'uscu', 'usie', 'usio', 'usse', 'ussi', 'uvai', 'uves', 'uvri', 'uvés', 'vail', 'vaut', 'veli', 'veni', 'verr', 'vert', 'veut', 'vexa', 'vieu', 'vill', 'vita', 'vite', 'voic', 'voit', 'vole', 'vote', 'voud', 'vues', 'vult', 'vécu', 'véri', 'xécu', 'yées', 'çant', 'çoit', 'çonn', 'éces', 'échi', 'écla', 'écol', 'écon', 'écut', 'éduc', 'égar', 'élec', 'élev', 'élém', 'émat', 'énor', 'épou', 'épre', 'épui', 'éten', 'étoi', 'éton', 'étue', 'étés', 'évit']
#Number of occurrences: 2307
gt_unique_4grams = ['ABDI', 'ABLE', 'ABOR', 'ABUS', 'ACCE', 'ACHE', 'ADIE', 'ADMI', 'ADVI', 'AGAN', 'AGAR', 'AGEO', 'AGGR', 'AGIO', 'AGNA', 'AGNE', 'AGRÉ', 'AINE', 'AINÉ', 'AISE', 'ALEX', 'ALIS', 'ALLA', 'ALSA', 'ALVA', 'ALZA', 'AMBA', 'AMBU', 'AMEN', 'ANDE', 'ANIL', 'ANNE', 'ANTE', 'ANTI', 'ANTO', 'ARAN', 'ARDU', 'ARIS', 'ARRI', 'ASSA', 'ASSI', 'ASTE', 'ATIT', 'ATIV', 'AUDE', 'AUGU', 'AUPR', 'AURA', 'AVEC', 'AVEN', 'AVIS', 'AVri', 'AVÉE', 'Abbé', 'Abol', 'Abra', 'Acce', 'Acqu', 'Actu', 'Adjo', 'Admi', 'Adol', 'Aisn', 'Alan', 'Albi', 'Alca', 'Alfo', 'Anib', 'Anna', 'Anse', 'Anto', 'Anve', 'Appa', 'Appo', 'Appu', 'Argo', 'Arka', 'Arra', 'Arri', 'Arro', 'Arta', 'Arth', 'Arts', 'Artu', 'Assi', 'Assé', 'Aten', 'Atti', 'Audi', 'Auga', 'Augm', 'Auta', 'Auto', 'Avia', 'Avoc', 'Avoi', 'Ayez', 'Ayon', 'BAGD', 'BALE', 'BANQ', 'BARR', 'BART', 'BATT', 'BAUT', 'BELA', 'BELC', 'BERK', 'BESS', 'BETT', 'BIBL', 'BILI', 'BLUM', 'BONC', 'BONN', 'BOOK', 'BORD', 'BOUC', 'BOUE', 'BREN', 'BRES', 'BRIA', 'BRIE', 'BRUX', 'BUIL', 'Babe', 'Baby', 'Bach', 'Baco', 'Bebe', 'Berg', 'Beth', 'Bido', 'Blen', 'Boch', 'Bouc', 'Boui', 'Boët', 'Brau', 'Bray', 'Brit', 'Broo', 'Brow', 'Bréz', 'Brêm', 'Brûl', 'Budg', 'Buis', 'Bull', 'Buqu', 'Butt', 'BÉAN', 'BÉNÉ', 'Bâle', 'CALD', 'CAND', 'CANT', 'CARD', 'CASS', 'CATI', 'CAUS', 'CEPE', 'CEST', 'CHAD', 'CHAO', 'CHAS', 'CHIC', 'CHIE', 'CHIR', 'CHOA', 'CHar', 'CINE', 'CIPÉ', 'CITE', 'CKLI', 'CLAU', 'CLUB', 'COLU', 'COMT', 'COPA', 'CORD', 'CORN', 'CORR', 'COST', 'COTE', 'CRAC', 'CROI', 'CULA', 'CULT', 'Camp', 'Cand', 'Carl', 'Casa', 'Cass', 'Cell', 'Cera', 'Cerc', 'Cerf', 'Chah', 'Chan', 'Chap', 'Chev', 'Choa', 'Chos', 'Chur', 'Chét', 'Cili', 'Cinc', 'Civi', 'Clér', 'Coal', 'Cobl', 'Coll', 'Colu', 'Conç', 'Cord', 'Corr', 'Coul', 'Creu', 'Curs', 'Curz', 'CÉRÉ', 'CÔTE', 'Césa', 'DANE', 'DANG', 'DAVI', 'DEBA', 'DEBO', 'DECE', 'DELE', 'DEMA', 'DEME', 'DEPU', 'DESI', 'DESS', 'DEST', 'DEVI', 'DICK', 'DIEU', 'DIFF', 'DIGN', 'DIMA', 'DION', 'DISA', 'DIVE', 'DIÉE', 'DMAI', 'DOIS', 'DOUG', 'DOUL', 'DOUR', 'DRES', 'DREY', 'DUMA', 'Dame', 'Dard', 'Dato', 'Davi', 'Desc', 'Dest', 'Deut', 'Devo', 'Dick', 'Dict', 'Diff', 'Dijo', 'Dipl', 'Diri', 'Disc', 'Diso', 'Docu', 'Doma', 'Domi', 'Doug', 'Doui', 'Drea', 'Dreu', 'Drey', 'Drum', 'Duch', 'Ducr', 'Dufa', 'Dunk', 'Dura', 'Dutt', 'DÉFA', 'DÉJA', 'DÉLÉ', 'DÉMI', 'DÉNO', 'DÉPO', 'DÉRÉ', 'DÉSI', 'DÉSO', 'Déba', 'Déci', 'Décl', 'Déma', 'Démo', 'Déro', 'ECHE', 'ECRI', 'ECTE', 'ECTI', 'EFFE', 'EFFO', 'EILL', 'ELIN', 'ELLA', 'ELNA', 'ELYS', 'EMAI', 'EMBR', 'ENCH', 'ENDA', 'ENFO', 'ENNE', 'ENRI', 'ENSU', 'ENTR', 'ENVA', 'ENVO', 'ERBU', 'ERGU', 'ERLÉ', 'ERNA', 'ERON', 'ERPA', 'ESPA', 'ESPO', 'ESPR', 'ESSI', 'ESTR', 'ETAI', 'ETHN', 'EXPÉ', 'EXÉC', 'EYRI', 'Eche', 'Ecri', 'Edou', 'Edwa', 'Eled', 'Emba', 'Ench', 'Enqu', 'Enri', 'Ensu', 'Eric', 'Ermi', 'Etai', 'Even', 'Evid', 'Exam', 'Exec', 'Exem', 'Expl', 'Exté', 'FAIS', 'FALL', 'FAVE', 'FERM', 'FERN', 'FERR', 'FEST', 'FFIS', 'FIAS', 'FICI', 'FIGA', 'FINC', 'FIQU', 'FLÉC', 'FOCH', 'FOIS', 'FONC', 'FOND', 'FOUR', 'FREE', 'FROM', 'FRON', 'FUNE', 'FURE', 'FUTU', 'Fach', 'Fami', 'Faut', 'Faye', 'Feli', 'Flam', 'Flan', 'Fleu', 'Foch', 'Fore', 'Fort', 'Four', 'From', 'Fréd', 'FÉLI', 'Fédé', 'Féli', 'Fête', 'GAIE', 'GALL', 'GANI', 'GAUL', 'GERA', 'GERI', 'GERM', 'GIDE', 'GLÉE', 'GOUT', 'GRAV', 'GREC', 'GREV', 'GREY', 'GUEP', 'GUIR', 'Gain', 'Gand', 'Garc', 'Gass', 'Gast', 'Gaud', 'Gaul', 'Gens', 'Gent', 'Gera', 'Gide', 'Giro', 'Glad', 'Gree', 'Gren', 'Grou', 'Guis', 'Géog', 'HABE', 'HABI', 'HALL', 'HAVR', 'HAYE', 'HCLI', 'HEWS', 'HIES', 'HING', 'HOIS', 'HOLL', 'HONG', 'HONN', 'HSTA', 'Habs', 'Halé', 'Hamb', 'Hatf', 'Hava', 'Heid', 'Hell', 'Hila', 'Hirs', 'Hist', 'Holm', 'Holw', 'Hong', 'Hosp', 'Hugh', 'Huil', 'Hyde', 'Hyma', 'HÉCA', 'Hélo', 'IAMS', 'IATI', 'ICAN', 'ICAT', 'ICEN', 'ICUL', 'IDAT', 'IDEI', 'IELL', 'IEUS', 'IFIÉ', 'IGNO', 'IION', 'IMPR', 'INAL', 'INCE', 'INCL', 'INDÉ', 'INFI', 'INGR', 'INOP', 'INOR', 'INQU', 'INSO', 'INSU', 'IOTH', 'IOUE', 'IOUÉ', 'IPPI', 'IQUÉ', 'ISAT', 'ISME', 'ISOI', 'ISTA', 'ISVO', 'ITAL', 'ITEN', 'ITIN', 'ITOI', 'IXSX', 'Illi', 'Impo', 'Incr', 'Inde', 'Ingé', 'Intr', 'Irla', 'Iron', 'Issc', 'Isso', 'IÉTU', 'JAUR', 'JORD', 'JUIG', 'JUPI', 'JUST', 'Jaud', 'Jean', 'Jeud', 'Jeun', 'Joly', 'Jone', 'José', 'Juan', 'Juig', 'Jupi', 'Jusq', 'Juvi', 'Jéru', 'KERT', 'Krup', 'Kult', 'LACH', 'LACR', 'LADR', 'LALL', 'LANC', 'LAND', 'LARN', 'LASS', 'LATI', 'LAVA', 'LAVE', 'LAVI', 'LEAG', 'LECT', 'LEND', 'LEON', 'LESS', 'LEVE', 'LIBE', 'LIGU', 'LIMA', 'LIST', 'LITÉ', 'LIZA', 'LLEZ', 'LOIR', 'LOIS', 'LOND', 'LORR', 'LOUC', 'LSKY', 'LUXE', 'Lala', 'Laus', 'Lava', 'Ledo', 'Lens', 'Lepê', 'Libe', 'Libo', 'Libr', 'Lièg', 'Long', 'Loqu', 'Luch', 'Luci', 'Luné', 'MAGN', 'MAJO', 'MALI', 'MALL', 'MAME', 'MANI', 'MANN', 'MANZ', 'MARI', 'MARK', 'MAUD', 'MAXI', 'MAYE', 'MBIA', 'MBOU', 'MERE', 'MESS', 'MEZE', 'MIEU', 'MINI', 'MOBI', 'MODE', 'MOIN', 'MONI', 'MOUS', 'MOYE', 'MPHE', 'MPLI', 'MUNI', 'MURR', 'MUST', 'MUTU', 'Maid', 'Makl', 'Malo', 'Marg', 'Matt', 'Maxi', 'Mayf', 'Mesd', 'Meze', 'Mich', 'Midi', 'Mieu', 'Mill', 'Mimb', 'Mine', 'Moch', 'Moni', 'Mora', 'Moul', 'Mour', 'Myia', 'MÉMO', 'Méli', 'NAIS', 'NCES', 'NCHE', 'NDUE', 'NEGL', 'NELL', 'NEUT', 'NIAD', 'NISM', 'NISN', 'NIST', 'NIVE', 'NNAI', 'NNEL', 'NOLL', 'NOMB', 'NORT', 'NORV', 'NOUR', 'NOVE', 'NTAI', 'NXXY', 'Naza', 'Neuf', 'Neuv', 'News', 'Nice', 'Noge', 'Noir', 'Nomm', 'NonS', 'Note', 'Noyo', 'Null', 'OCEA', 'OCTO', 'OLAN', 'ONAL', 'ONAY', 'ONNI', 'OOLI', 'OPIE', 'ORBI', 'ORDI', 'ORIG', 'OTWE', 'OURE', 'OURN', 'OUTR', 'OVER', 'Oeuv', 'Oise', 'Oiss', 'Orme', 'Osca', 'Otle', 'Otto', 'Ouen', 'PACI', 'PALA', 'PARS', 'PART', 'PASS', 'PAÏV', 'PEAC', 'PERC', 'PERR', 'PETR', 'PHIL', 'PHOT', 'PICH', 'PIED', 'PINA', 'PIRE', 'PLEN', 'PLOU', 'PRAD', 'PREC', 'PREM', 'PREV', 'PRIE', 'PRIN', 'PRIX', 'PROI', 'PRÉC', 'PRÉP', 'PUBL', 'PULA', 'PYRR', 'Pail', 'Pair', 'Pana', 'Pann', 'Parc', 'Park', 'Past', 'Patr', 'Pein', 'Penh', 'Peyl', 'Piai', 'Pica', 'Pill', 'Pire', 'Plei', 'Plut', 'Plén', 'Poli', 'Poot', 'Prix', 'Prob', 'Prov', 'Pryt', 'Préd', 'Prél', 'Pyré', 'PÉNÉ', 'Pâle', 'QUAT', 'QUES', 'Quat', 'Quen', 'Quin', 'RACE', 'RANC', 'RATI', 'RATT', 'RATU', 'RCIE', 'RECO', 'RECU', 'REIC', 'REIM', 'REIN', 'REME', 'REND', 'RESO', 'REUN', 'REUX', 'RGAN', 'RMES', 'RONI', 'ROOT', 'ROQU', 'ROUG', 'ROUS', 'RSES', 'RUIR', 'RVIS', 'Rabe', 'Rais', 'Rass', 'Reic', 'Rela', 'Reli', 'Reno', 'Resp', 'Reve', 'Reyn', 'Rhôn', 'Rich', 'Rigo', 'Robi', 'Rois', 'Romn', 'Rott', 'Roup', 'Roya', 'RÉAC', 'RÉFO', 'RÉGI', 'RÉSO', 'RÉUN', 'RÉVO', 'Réac', 'Rédu', 'Réfl', 'Réin', 'Rémy', 'Répa', 'Répo', 'Rôle', 'Rôti', 'SACR', 'SAIN', 'SALL', 'SANT', 'SAVE', 'SCHE', 'SCOT', 'SEAI', 'SEAN', 'SEBE', 'SEME', 'SENL', 'SEPT', 'SERA', 'SERB', 'SIDE', 'SILL', 'SIXT', 'SOLD', 'SOTI', 'SOUL', 'SPOR', 'SSAD', 'SSAI', 'SSAN', 'SSIO', 'SSIT', 'SSOC', 'SSÉE', 'STAN', 'STAR', 'STAT', 'STES', 'STUN', 'STÉR', 'SUED', 'SUIT', 'SXNX', 'SYMP', 'Sabl', 'Sach', 'Sala', 'Sall', 'Sava', 'Save', 'Savo', 'Schn', 'Schw', 'Scot', 'Seat', 'Selo', 'Sequ', 'Sera', 'Seth', 'Siam', 'Sigr', 'Sing', 'Sira', 'Sixt', 'Slav', 'Soir', 'Soit', 'Soll', 'Solv', 'Sorb', 'Sort', 'Souh', 'Souv', 'Soyo', 'Spen', 'Spon', 'Squa', 'Star', 'Stee', 'Stei', 'Sten', 'Stre', 'Stép', 'Sult', 'Supr', 'Supé', 'Suéd', 'Sydn', 'SÉPA', 'Séce', 'Sévè', 'TAFT', 'TANS', 'TARI', 'TARY', 'TAUX', 'TEAU', 'TECH', 'TEES', 'TENA', 'TENO', 'TERR', 'TERY', 'TETE', 'TEXT', 'TIEL', 'TOLL', 'TOMB', 'TOME', 'TORA', 'TORI', 'TOUR', 'TRAT', 'TRAV', 'TRIM', 'TRIO', 'TROP', 'TURQ', 'TUÉE', 'TZAR', 'Tage', 'Talh', 'Tapl', 'Tché', 'Teno', 'Text', 'Thou', 'Thra', 'Tigr', 'Tome', 'Touc', 'Trie', 'Trip', 'Troc', 'Trés', 'Tsar', 'Tsen', 'Tsia', 'Tuck', 'Tâch', 'UDEL', 'UETE', 'UGAR', 'ULLO', 'UNDE', 'UNIT', 'UPON', 'URES', 'URSE', 'UTIF', 'UTIO', 'Ukra', 'Upto', 'UÊTE', 'VERS', 'VEUI', 'VICE', 'VIII', 'VOUS', 'Vari', 'Verg', 'Vern', 'Vezi', 'Vien', 'Vint', 'Vitr', 'Vlad', 'Voci', 'Voya', 'Voyo', 'WAGR', 'WALL', 'WALS', 'WETT', 'WHEE', 'WHIT', 'WICK', 'WILL', 'WORL', 'WYTH', 'Wagr', 'Wall', 'Wate', 'West', 'Whhe', 'Whit', 'Wiar', 'Wilb', 'Wilh', 'Wrig', 'XENX', 'XVII', 'XVIe', 'XXVI', 'XXXI', 'Xavi', 'YEAR', 'YLET', 'Youg', 'ZAIR', 'ZEPP', 'Zorn', 'aLET', 'abai', 'abba', 'abbé', 'abdi', 'abei', 'aber', 'abit', 'abné', 'abol', 'abom', 'accé', 'achè', 'acor', 'acta', 'acun', 'adhé', 'adie', 'adée', 'adér', 'affu', 'agai', 'ageo', 'aggl', 'agin', 'agno', 'agon', 'agée', 'aida', 'aier', 'aigl', 'aigu', 'aira', 'airi', 'aiso', 'alen', 'alig', 'aloi', 'alte', 'alwa', 'amai', 'aman', 'ambe', 'amia', 'amèr', 'amée', 'andi', 'ands', 'anec', 'anel', 'aner', 'anis', 'anom', 'ansp', 'apos', 'appê', 'apro', 'apte', 'apès', 'ards', 'aret', 'aria', 'arne', 'atai', 'ater', 'atib', 'atiq', 'atoi', 'auba', 'aubo', 'avag', 'avid', 'aviv', 'avoc', 'avor', 'aéri', 'aïeu', 'baco', 'baga', 'bail', 'bait', 'bana', 'bani', 'bare', 'bati', 'bava', 'baza', 'baïo', 'bele', 'bert', 'bill', 'bilt', 'bise', 'bite', 'bitr', 'bjet', 'blia', 'bole', 'bona', 'bonb', 'boyc', 'boît', 'brag', 'brai', 'brat', 'brea', 'bron', 'brul', 'brum', 'brée', 'bulg', 'bull', 'busé', 'buti', 'buva', 'bâti', 'béll', 'béni', 'cada', 'cadu', 'cais', 'came', 'carb', 'casi', 'cate', 'caté', 'cauc', 'cave', 'ccor', 'ceLE', 'cele', 'celé', 'cept', 'cerf', 'cero', 'cest', 'chao', 'chil', 'chiq', 'chit', 'choe', 'chèq', 'chét', 'cian', 'cide', 'cies', 'cill', 'cisc', 'cisi', 'citr', 'cits', 'ciée', 'ckin', 'ckli', 'clef', 'cler', 'cloc', 'club', 'clus', 'coch', 'cohé', 'coiv', 'colp', 'corb', 'cors', 'cost', 'cots', 'coté', 'cous', 'coéd', 'coùp', 'cred', 'cria', 'cril', 'crir', 'croc', 'cron', 'crou', 'crue', 'crêm', 'ctif', 'ctiq', 'ctiv', 'cuei', 'cues', 'culé', 'cupa', 'cupe', 'cure', 'cuté', 'cyue', 'cédo', 'césa', 'cœeu', 'd!un', 'd!éc', 'dais', 'dait', 'damn', 'danc', 'deAn', 'deCl', 'depr', 'dfon', 'dfor', 'dhal', 'dind', 'diro', 'disq', 'doct', 'doll', 'domn', 'donj', 'doti', 'doua', 'doxa', 'doye', 'dual', 'ducs', 'dues', 'duns', 'dupl', 'durs', 'dèjà', 'dèle', 'déal', 'débo', 'débr', 'déga', 'dégr', 'dénu', 'dépr', 'dépê', 'déra', 'déro', 'déçu', 'dîné', 'eadn', 'eaur', 'eban', 'ecoi', 'ecou', 'ecro', 'ectu', 'eful', 'eggs', 'eide', 'elbe', 'elge', 'ella', 'ellé', 'eman', 'empa', 'emst', 'enab', 'enad', 'enay', 'enca', 'endi', 'ends', 'eneg', 'ener', 'enez', 'enfl', 'enhe', 'enio', 'enli', 'enlè', 'enor', 'ent?', 'entC', 'entz', 'enus', 'eral', 'eran', 'erda', 'eret', 'ergé', 'erio', 'erme', 'ermo', 'erou', 'erqu', 'erré', 'erté', 'ervi', 'escl', 'esco', 'espa', 'espi', 'esso', 'estL', 'estl', 'esté', 'etag', 'etc…', 'ethn', 'etia', 'etle', 'etre', 'etzu', 'etés', 'euls', 'euss', 'evoy', 'evée', 'evés', 'exho', 'exot', 'fCle', 'faim', 'fals', 'fanf', 'fast', 'fena', 'fens', 'fenê', 'fere', 'fide', 'fidu', 'filt', 'fins', 'fire', 'firm', 'fixt', 'fièr', 'fièv', 'fiés', 'fiév', 'flag', 'flam', 'flue', 'flân', 'flèc', 'fons', 'fore', 'foss', 'frac', 'frag', 'frei', 'fren', 'frie', 'frin', 'from', 'frêl', 'fugi', 'fuir', 'fuit', 'fére', 'fêta', 'fêti', 'gabl', 'gair', 'gait', 'gale', 'galv', 'gant', 'gars', 'garç', 'gene', 'geno', 'geon', 'gerb', 'gibi', 'gibo', 'giga', 'gine', 'gira', 'giss', 'givr', 'glai', 'gler', 'gles', 'glém', 'gnem', 'gneu', 'gnez', 'gnor', 'gogn', 'gons', 'gorg', 'gori', 'gras', 'grel', 'gres', 'grev', 'gril', 'grip', 'gron', 'guan', 'guei', 'gues', 'gume', 'guré', 'guéé', 'géan', 'gémi', 'géne', 'gére', 'hach', 'hais', 'hale', 'hall', 'halt', 'hame', 'hane', 'harc', 'hari', 'haus', 'heim', 'hell', 'help', 'hema', 'herc', 'heri', 'hero', 'hers', 'hful', 'hibé', 'hide', 'hiez', 'high', 'homé', 'hone', 'hopi', 'hora', 'horl', 'horo', 'hsta', 'huiP', 'huil', 'hydr', 'hyma', 'hymn', 'hâti', 'hâté', 'hèla', 'hème', 'hète', 'hées', 'hémi', 'héti', 'iait', 'iars', 'ibut', 'icab', 'icis', 'icol', 'idue', 'idyl', 'ield', 'iels', 'ierr', 'ifia', 'iges', 'igny', 'igré', 'igua', 'igée', 'ilLE', 'ilSÉ', 'ilat', 'ilié', 'ilss', 'imat', 'imez', 'imèt', 'imés', 'inab', 'inag', 'inap', 'inav', 'indo', 'indû', 'inea', 'inez', 'ingo', 'inin', 'iniq', 'inis', 'inla', 'inna', 'inoc', 'ints', 'inua', 'inui', 'inuo', 'inus', 'inég', 'inén', 'inép', 'iole', 'ioré', 'iquo', 'irag', 'irio', 'irre', 'irri', 'isay', 'isem', 'isen', 'iseu', 'isto', 'isté', 'iswi', 'itan', 'itec', 'itif', 'itiv', 'itié', 'iton', 'itué', 'ivag', 'iven', 'ivez', 'ivos', 'ivée', 'iègn', 'iéte', 'iété', 'jamb', 'jaun', 'jeta', 'jeux', 'joug', 'joya', 'judi', 'jugi', 'jure', 'jury', 'juxt', 'kais', 'kfas', 'klin', 'koff', 'laDé', 'lacu', 'lacé', 'lady', 'lain', 'lamé', 'land', 'lanç', 'lapi', 'lata', 'latr', 'lave', 'lavé', 'laya', 'laça', 'lbla', 'leLE', 'leSÉ', 'leri', 'lets', 'leté', 'leun', 'leus', 'lheu', 'liar', 'lici', 'limp', 'liss', 'liti', 'liés', 'llad', 'llag', 'llan', 'llis', 'lman', 'loco', 'logé', 'loir', 'lone', 'lons', 'lori', 'lote', 'lots', 'lsio', 'lson', 'lten', 'ltez', 'ltra', 'ltée', 'luan', 'luci', 'luge', 'luis', 'luli', 'lunc', 'lund', 'lvab', 'lègè', 'lèle', 'lèvr', 'léan', 'légé', 'léta', 'léza', 'mace', 'mage', 'magi', 'maie', 'mals', 'mard', 'marm', 'maré', 'masq', 'mate', 'mato', 'mben', 'mber', 'mbia', 'mbré', 'menç', 'mené', 'mera', 'mero', 'mers', 'merç', 'mets', 'meul', 'meus', 'meut', 'micr', 'mida', 'mide', 'miez', 'mila', 'milé', 'mimo', 'mino', 'mins', 'minu', 'misa', 'mist', 'mite', 'mièr', 'mmag', 'mmit', 'mmiè', 'mnis', 'mocr', 'momt', 'monc', 'mori', 'mote', 'mous', 'mout', 'mpti', 'mula', 'musu', 'mâts', 'mède', 'méan', 'méda', 'méla', 'méni', 'méra', 'mêtr', 'mûre', 'mûri', 'n!es', 'nLet', 'nagé', 'nain', 'nanc', 'napp', 'nast', 'nate', 'nave', 'navi', 'naîf', 'nchi', 'nchè', 'ncia', 'ncib', 'ncol', 'ndLe', 'ndat', 'ndeu', 'ndia', 'ndid', 'ndio', 'ndiq', 'ndus', 'nels', 'neng', 'nera', 'nerv', 'ness', 'neus', 'neux', 'news', 'ngel', 'ngen', 'ngio', 'nglo', 'ngés', 'niai', 'nici', 'nids', 'nimé', 'nios', 'nira', 'nirs', 'nitu', 'nièr', 'niéc', 'niée', 'nnem', 'nniq', 'nnée', 'nois', 'nomé', 'nonc', 'nora', 'nors', 'noto', 'noté', 'nova', 'nows', 'nqui', 'nqué', 'nsit', 'nsor', 'nsém', 'nsés', 'ntau', 'nthr', 'ntit', 'ntiv', 'ntra', 'nuag', 'nuat', 'nuie', 'nume', 'nure', 'nâit', 'néga', 'nére', 'obis', 'obti', 'ocay', 'ocha', 'ocos', 'ocre', 'ocri', 'odil', 'odiq', 'odys', 'oger', 'ogne', 'oint', 'oisi', 'oiti', 'oité', 'olds', 'ombr', 'omes', 'omin', 'omme', 'ommo', 'omph', 'omér', 'onag', 'onar', 'onfi', 'onib', 'opiq', 'opéd', 'oqua', 'orag', 'orai', 'oran', 'orbi', 'orch', 'orda', 'ordo', 'ordu', 'orei', 'orna', 'oron', 'orou', 'orph', 'orth', 'osan', 'osez', 'oste', 'otag', 'otro', 'otte', 'otté', 'ouet', 'ougb', 'ouie', 'ouil', 'ouko', 'ourg', 'ourn', 'outL', 'outi', 'ouvo', 'ouée', 'oyés', 'pair', 'pait', 'pana', 'panh', 'pani', 'pann', 'pape', 'pari', 'parr', 'pate', 'pave', 'pavi', 'payi', 'peau', 'pecc', 'peit', 'penc', 'peri', 'perl', 'pero', 'pese', 'phal', 'phob', 'phém', 'pilo', 'piss', 'pitr', 'pitt', 'plaf', 'plau', 'plon', 'plos', 'plou', 'plue', 'plât', 'plée', 'poèt', 'poés', 'ppol', 'ppos', 'ppte', 'prev', 'prit', 'proq', 'prox', 'ptez', 'pugn', 'pull', 'pâli', 'pâte', 'pâtu', 'pées', 'péfi', 'pélé', 'péna', 'pénè', 'péra', 'péti', 'pétr', 'pétu', 'pôts', 'quas', 'quem', 'quet', 'quun', 'quér', 'quét', 'raba', 'rabe', 'racl', 'rafi', 'rand', 'rani', 'rans', 'ranç', 'rapé', 'rari', 'rats', 'rayo', 'rben', 'rbés', 'rcha', 'rcés', 'rdag', 'rdai', 'rdie', 'rdir', 'reSÉ', 'rebu', 'refl', 'refo', 'reha', 'reje', 'renf', 'renn', 'repe', 'rero', 'reçû', 'rgen', 'rges', 'rice', 'rick', 'rigi', 'rine', 'riqu', 'rita', 'rito', 'ritu', 'rive', 'rixe', 'rièm', 'riés', 'rlem', 'rloo', 'rman', 'rmie', 'rnen', 'rnic', 'rnés', 'robu', 'rogu', 'ronf', 'roos', 'roté', 'rouc', 'roui', 'rous', 'rouv', 'roît', 'rpel', 'rpem', 'rrec', 'rrie', 'rriv', 'rron', 'rser', 'rteu', 'rtin', 'rtis', 'ruis', 'runt', 'rust', 'rvan', 'rvoi', 'rvés', 'rçon', 'réar', 'récr', 'récu', 'réde', 'réfe', 'réfr', 'régn', 'réin', 'rému', 'rêta', 'sacs', 'sagé', 'sail', 'sale', 'samm', 'sani', 'satr', 'saup', 'saxo', 'sayé', 'sbor', 'scab', 'sche', 'scié', 'scré', 'scul', 'scèn', 'seLE', 'seSE', 'sect', 'secu', 'seil', 'sell', 'seri', 'serr', 'sers', 'sexe', 'sfér', 'shal', 'sias', 'sibl', 'sidé', 'sieu', 'sifs', 'sige', 'sill', 'simb', 'simi', 'sinu', 'sira', 'sire', 'sirè', 'siss', 'site', 'sixi', 'siég', 'smou', 'soeu', 'soif', 'some', 'sord', 'sots', 'soyo', 'spos', 'sses', 'ssoi', 'ssur', 'ssèd', 'stai', 'steu', 'stil', 'stin', 'stol', 'ston', 'styl', 'stée', 'stés', 'suas', 'subt', 'suic', 'suie', 'surc', 'surs', 'svaa', 'swaa', 'syph', 'séle', 'séme', 'sémi', 'séni', 'sévi', 'sévé', 'tSÉN', 'tabi', 'tach', 'taci', 'tact', 'tamm', 'taqu', 'taur', 'taxe', 'tech', 'tect', 'tels', 'tema', 'tene', 'teno', 'tens', 'tern', 'test', 'teus', 'thèm', 'théo', 'tiat', 'tica', 'ticu', 'tiem', 'tifi', 'tigr', 'tile', 'timo', 'tint', 'tira', 'tiré', 'tisa', 'tist', 'tolé', 'tont', 'torc', 'torr', 'touv', 'traf', 'trat', 'trei', 'trez', 'trie', 'trit', 'ttai', 'ttan', 'ttaq', 'tten', 'tton', 'ttra', 'tues', 'tuni', 'tura', 'turb', 'turp', 'type', 'tâto', 'tère', 'téma', 'témé', 'tére', 'uabl', 'uade', 'uadé', 'uali', 'ublé', 'udem', 'udes', 'udin', 'uerr', 'ueur', 'ueus', 'uion', 'uiss', 'uièm', 'ulab', 'ulèd', 'umen', 'umes', 'unte', 'unée', 'uons', 'uper', 'uple', 'upor', 'urez', 'urgi', 'urna', 'urnè', 'urro', 'urse', 'urvu', 'urée', 'usci', 'ussé', 'usée', 'usém', 'utie', 'utiq', 'utis', 'utum', 'uvea', 'uvré', 'vacc', 'vape', 'vaqu', 'vein', 'veno', 'veté', 'veui', 'vial', 'vici', 'vier', 'viez', 'vigi', 'vigu', 'vila', 'vina', 'vinr', 'vion', 'virg', 'viri', 'viso', 'viss', 'visé', 'viti', 'vity', 'voca', 'vols', 'volt', 'volé', 'voût', 'vrez', 'vété', 'vœux', 'wago', 'weil', 'with', 'xiqu', 'xonn', 'xons', 'xéno', 'yCIR', 'yent', 'yion', 'ymes', 'yons', 'your', 'zair', 'zepp', 'zèle', 'zéli', 'ÉDIT', 'ÉESS', 'ÉMAN', 'ÉMIE', 'ÉMIQ', 'ÉMUL', 'ÉPIS', 'ÉRAI', 'ÉSAI', 'ÉTAP', 'ÉTAT', 'ÉVEQ', 'ÉVOL', 'àLET', 'çons', 'ècle', 'ègne', 'ègre', 'èles', 'ènen', 'ènes', 'èrer', 'èsSÉ', 'ètem', 'ètes', 'ètre', 'èvre', 'écai', 'écio', 'éclo', 'écos', 'écre', 'écro', 'écur', 'édai', 'édan', 'édér', 'éfia', 'égoi', 'éhon', 'élan', 'élic', 'élog', 'élév', 'émic', 'émin', 'émiq', 'émoc', 'émou', 'émue', 'énig', 'énis', 'énég', 'énér', 'épai', 'épan', 'épau', 'épee', 'épen', 'éphé', 'épil', 'épis', 'épri', 'éral', 'érie', 'érir', 'érée', 'érém', 'ésum', 'étar', 'étei', 'étin', 'étou', 'étéL', 'étéS', 'évac', 'éven', 'évol', 'évue', 'évus', 'éxéc', 'êmem', 'êten', 'îtra', 'ûete', 'ûtée', 'œill']
#Number of occurrences: 85
common_4grams = ['Aute', 'Berk', 'DÉCE', 'Détr', 'Echo', 'Hohe', 'Honn', 'INUE', 'Jacq', 'Lich', 'Mort', 'Pact', 'Picc', 'Pren', 'QUEU', 'Résu', 'TAIR', 'Trib', 'Vive', 'acro', 'amba', 'apit', 'ayon', 'bouq', 'bran', 'chen', 'ciga', 'colè', 'crié', 'cyni', 'disg', 'dnou', 'engr', 'erge', 'erte', 'fauc', 'flor', 'gala', 'garn', 'geab', 'ghts', 'gnol', 'grem', 'géog', 'iple', 'jeté', 'lern', 'lexe', 'lica', 'lver', 'marb', 'mnié', 'nabl', 'nauf', 'nché', 'noir', 'noue', 'nzol', 'nçan', 'ocat', 'oiss', 'olat', 'orté', 'osen', 'pang', 'prié', 'ptab', 'pénu', 'rett', 'râce', 'réjo', 'rétr', 'réve', 'rêvé', 'satl', 'somb', 'sott', 'ssiv', 'tuée', 'umer', 'urit', 'utée', 'vran', 'éder', 'éger']
#Other vs GT
#Number of occurrences: 144
other_unique_2grams = ['AF', 'AP', 'Ac', 'Ag', 'Ao', 'BL', 'BO', 'Bl', 'CE', 'CI', 'CR', 'DI', 'DL', 'DO', 'DU', 'DÉ', 'Dè', 'EF', 'EU', 'EV', 'Ed', 'Er', 'Ev', 'Ex', 'FE', 'FF', 'FR', 'Fâ', 'GH', 'GL', 'GU', 'GÉ', 'HA', 'HU', 'HÔ', 'Hé', 'Hô', 'I7', 'IA', 'IC', 'II', 'IO', 'IR', 'IT', 'Ib', 'Im', 'Ir', 'JA', 'JE', 'JO', 'Ka', 'MB', 'MU', 'Mé', 'NB', 'ND', 'NG', 'NV', 'Nu', 'NÉ', 'Né', 'OM', 'OT', 'OU', 'Où', 'PL', 'RD', 'RL', 'RM', 'RU', 'RÉ', 'SH', 'SQ', 'SU', 'Sè', 'TH', 'TÉ', 'Té', 'UL', 'UP', 'Ut', 'UÉ', 'VE', 'VI', 'WA', 'WE', 'We', 'YS', 'Zé', 'ah', 'az', 'bs', 'bv', 'bû', 'cê', 'dl', 'e!', 'ed', 'ek', 'eà', 'fs', 'fè', 'gg', 'gm', 'gs', 'gt', 'gè', 'hè', 'jé', 'kl', 'lb', 'lp', 'ly', 'my', 'nh', 'oj', 'oq', 'oz', 'pn', 'rh', 'rç', 'sg', 'sè', 'ty', 'tz', 'uz', 'v£', 'wa', 'wi', 'xc', 'xo', 'xé', 'yi', 'zo', 'ÈR', 'ÉN', 'âm', 'éâ', 'ên', 'êq', 'êv', 'ël', 'ït', 'üe']
#Number of occurrences: 124
gt_unique_2grams = ['AO', 'Ah', 'Bâ', 'CÉ', 'CÔ', 'Cé', 'DM', 'Dû', 'EO', 'EW', 'FT', 'FÉ', 'Fê', 'Fû', 'GD', 'Gl', 'HC', 'HS', 'HÉ', 'IP', 'Jé', 'Km', 'Ku', 'MS', 'MT', 'NL', 'NZ', 'Nö', 'OA', 'OK', 'OO', 'Oe', 'Os', 'PY', 'Pâ', 'RB', 'RQ', 'RÈ', 'SN', 'SY', 'Sq', 'TZ', 'Tc', 'Tâ', 'UB', 'Uk', 'Up', 'UÊ', 'Vl', 'WO', 'WY', 'XY', 'Xa', 'Zo', 'aL', 'ae', 'aï', 'bj', 'bt', 'cq', 'c…', 'dh', 'dà', 'eo', 'fC', 'gb', 'hf', 'hs', 'hw', 'iP', 'iâ', 'iò', 'kf', 'km', 'lw', 'mâ', 'n!', 'nL', 'nS', 'nb', 'nz', 'nâ', 'qe', 'rL', 'ry', 'rz', 'sd', 'sv', 'sw', 't?', 'tC', 'tS', 'tf', 'tè', 'uq', 'vy', 'vœ', 'we', 'xa', 'yC', 'yc', 'yf', 'yn', 'yr', 'yt', 'zi', 'zu', 'zè', 'zé', 'ÉD', 'ÏV', 'àL', 'ân', 'çû', 'éL', 'éS', 'éx', 'éz', 'ët', 'îf', 'ïo', 'ùp', 'ûe', 'œi']
#Number of occurrences: 8
common_2grams = ['FL', 'Wr', 'ht', 'nê', 'oa', 'ok', 'râ', 'ôm']
#Number of occurrences: 589
other_unique_3grams = ['AIR', 'AMB', 'APP', 'ATI', 'ATO', 'Age', 'Aja', 'Ajo', 'Aoû', 'Ard', 'Arr', 'Aus', 'Ava', 'Ave', 'BAR', 'BLI', 'BOU', 'Bac', 'Bes', 'Bib', 'Blo', 'Bor', 'Bra', 'Bur', 'CAS', 'CHO', 'CHÈ', 'CIL', 'COR', 'CRA', 'Cam', 'Cas', 'Cho', 'Cie', 'Coo', 'Cos', 'Cub', 'DAN', 'DES', 'DIA', 'DIE', 'DON', 'DOT', 'Die', 'Dir', 'Dog', 'DÉP', 'Dès', 'Déj', 'Dém', 'ECL', 'EFR', 'ELL', 'EMB', 'EMI', 'EMO', 'ENT', 'ERS', 'ETT', 'EUN', 'EXA', 'Eli', 'Enc', 'Err', 'Evê', 'Exé', 'FAR', 'FAU', 'FFE', 'FLE', 'FOE', 'FON', 'FRA', 'Fid', 'Fâc', 'Fér', 'Fév', 'GAR', 'GIA', 'GIG', 'GOD', 'Gam', 'Gas', 'Gir', 'GÉN', 'HAB', 'HES', 'HTE', 'HUG', 'Ham', 'Hau', 'Hub', 'HÔT', 'Hér', 'Hôt', 'ICI', 'ILL', 'INA', 'ION', 'ISE', 'IVE', 'Ibs', 'Ira', 'JAU', 'JOU', 'Jap', 'Jou', 'Jug', 'Kah', 'LAT', 'LEJ', 'LEV', 'LIS', 'Laz', 'Leg', 'Leh', 'Leu', 'Lui', 'Lut', 'Lya', 'Lyo', 'LÉE', 'LÉG', 'MAI', 'MAR', 'MAS', 'MEN', 'MIS', 'MON', 'MOS', 'Mac', 'Maï', 'Mei', 'Mex', 'Moi', 'Mén', 'NA', 'NBE', 'NCE', 'NIP', 'NTS', 'Nap', 'Nev', 'Nos', 'Not', 'Noë', 'Nul', 'Nén', 'OUE', 'OUX', 'Ont', 'PAL', 'PAT', 'PEU', 'PLA', 'PLE', 'POL', 'POR', 'PRO', 'Pat', 'Pea', 'Per', 'Pet', 'Pol', 'Por', 'Pot', 'Pra', 'Pre', 'Pru', 'QUÉ', 'Qua', 'Qui', 'Qué', 'RA', 'RAP', 'RAT', 'RED', 'RGE', 'RNA', 'RST', 'RUY', 'Rec', 'Red', 'Rep', 'Rie', 'Roc', 'Rou', 'Rud', 'RÉÉ', 'Réu', 'SAN', 'SEN', 'SET', 'SHO', 'SSE', 'STO', 'SUR', 'Sce', 'Sch', 'Sei', 'Sep', 'Seu', 'Sim', 'Sir', 'Sol', 'Sud', 'Sui', 'Suz', 'SÉA', 'Sèv', 'TAI', 'THO', 'TIE', 'TIL', 'TOT', 'TRA', 'TTR', 'TWE', 'Tab', 'Thi', 'Thw', 'Thé', 'Tor', 'Trè', 'Tuf', 'Tur', 'Téz', 'UGU', 'UNE', 'Uti', 'VER', 'Veu', 'Vib', 'Vos', 'Voy', 'WAL', 'Was', 'Wea', 'Yor', 'Zél', 'abi', 'aca', 'acl', 'acq', 'acé', 'afi', 'aga', 'agr', 'aig', 'ala', 'aly', 'amo', 'amp', 'ana', 'aqu', 'aré', 'ase', 'atr', 'aul', 'auq', 'avé', 'bai', 'bar', 'ben', 'ber', 'bet', 'beu', 'bib', 'bin', 'biz', 'blo', 'bos', 'bro', 'brè', 'bua', 'buf', 'bui', 'but', 'bée', 'bén', 'bûc', 'cad', 'chr', 'chu', 'chê', 'chô', 'clô', 'coa', 'cog', 'coi', 'coo', 'coq', 'cqu', 'cru', 'crû', 'cup', 'cée', 'cél', 'dea', 'dek', 'dez', 'dho', 'die', 'dio', 'dix', 'diz', 'duc', 'dus', 'dér', 'ean', 'efo', 'efs', 'elo', 'emn', 'emo', 'enh', 'esq', 'etL', 'eta', 'eti', 'eva', 'evi', 'evr', 'evé', 'eçu', 'fac', 'fas', 'fat', 'fen', 'ffé', 'fig', 'fiq', 'fix', 'fiè', 'fle', 'fli', 'flo', 'flé', 'fou', 'fre', 'fri', 'frè', 'fré', 'fun', 'fuy', 'fèr', 'féc', 'fét', 'gal', 'gat', 'gea', 'geo', 'gin', 'gla', 'gle', 'glo', 'gre', 'gri', 'gso', 'gto', 'gur', 'gér', 'güe', 'har', 'has', 'haî', 'hef', 'hié', 'hès', 'hég', 'ial', 'icu', 'iez', 'ifi', 'igu', 'ila', 'inu', 'iod', 'ipa', 'ipe', 'iph', 'ips', 'ipé', 'irr', 'irs', 'isc', 'isq', 'it£', 'iés', 'jal', 'jol', 'joy', 'jés', 'las', 'leq', 'lex', 'lif', 'lmu', 'lor', 'lum', 'lux', 'lve', 'lèv', 'léc', 'max', 'mir', 'mob', 'moe', 'mos', 'mou', 'mum', 'mus', 'mut', 'mvr', 'mwa', 'mys', 'mèn', 'mém', 'mép', 'nab', 'nap', 'nar', 'nau', 'ncr', 'ndé', 'nea', 'nic', 'nil', 'niv', 'nkl', 'nna', 'nsp', 'nue', 'nve', 'nym', 'néa', 'ném', 'nér', 'nét', 'obt', 'oca', 'oce', 'océ', 'ogn', 'oit', 'oll', 'olo', 'ols', 'omè', 'onf', 'opo', 'opt', 'opu', 'osa', 'osi', 'ost', 'ous', 'oxi', 'pac', 'paq', 'pes', 'pha', 'pho', 'phr', 'pic', 'pie', 'pin', 'plè', 'pne', 'ppo', 'ppé', 'pse', 'pta', 'pti', 'pté', 'ptô', 'pço', 'pée', 'pét', 'rad', 'raj', 'rbe', 'rce', 'rcé', 'req', 'rgn', 'rhu', 'riè', 'rni', 'roi', 'rop', 'rov', 'rpa', 'rri', 'rro', 'rth', 'rtr', 'rté', 'rud', 'rus', 'rçu', 'rêm', 'rêv', 'sar', 'sax', 'shi', 'sia', 'siv', 'soc', 'sod', 'spe', 'spi', 'spo', 'sté', 'sug', 'sué', 'sép', 'séq', 'tam', 'tap', 'tef', 'tfo', 'tho', 'tid', 'tip', 'tmi', 'trê', 'tta', 'tud', 'tun', 'tél', 'uda', 'udo', 'uem', 'uge', 'ugn', 'uié', 'ule', 'ulg', 'uma', 'umé', 'uon', 'ura', 'urg', 'urn', 'usc', 'usq', 'usu', 'uta', 'utr', 'uts', 'uvi', 'uvo', 'uée', 'vib', 'vid', 'vig', 'vul', 'vus', 'vée', 'vén', 'vés', 'xac', 'yan', 'zea', 'zor', 'zél', 'âma', 'âme', 'âtr', 'çai', 'çon', 'ège', 'éca', 'édu', 'édé', 'éfi', 'ége', 'éla', 'élè', 'éma', 'éna', 'éni', 'éno', 'énu', 'éné', 'ési', 'îch', 'îne']
#Number of occurrences: 1012
gt_unique_3grams = ['ABD', 'ABO', 'ABU', 'ACE', 'ACH', 'ACY', 'ADI', 'ADM', 'ADV', 'AGG', 'AGN', 'AGR', 'AHI', 'AII', 'AIL', 'ALE', 'ALS', 'ALV', 'ALZ', 'AMO', 'ARE', 'ARR', 'ARÉ', 'ATS', 'ATU', 'AUD', 'AUG', 'AUN', 'AUP', 'AVr', 'AYS', 'Abb', 'Abo', 'Abr', 'Acq', 'Act', 'Adj', 'Ado', 'Ais', 'Ala', 'Alc', 'Alf', 'Ani', 'Ans', 'Anv', 'Arg', 'Ark', 'Ate', 'Aud', 'Avi', 'Aye', 'Ayo', 'BAG', 'BAN', 'BAT', 'BAU', 'BES', 'BIB', 'BLU', 'BOO', 'BOR', 'BRU', 'Bas', 'Bay', 'Beb', 'Bid', 'Ble', 'Boc', 'Boi', 'Boë', 'Brê', 'Brû', 'Bud', 'Buq', 'BÉA', 'BÉN', 'Bâl', 'CAC', 'CAT', 'CAU', 'CEP', 'CHS', 'CHa', 'CIN', 'CLA', 'CLU', 'CLÉ', 'COL', 'COS', 'COT', 'CRO', 'CTO', 'CUL', 'CUR', 'CUT', 'Cap', 'Chu', 'Cil', 'Cin', 'Civ', 'Coa', 'Coq', 'Cot', 'CÉR', 'CÔT', 'Cés', 'DAD', 'DAL', 'DAV', 'DAY', 'DEC', 'DEL', 'DEN', 'DEP', 'DEV', 'DIC', 'DID', 'DIF', 'DIG', 'DIM', 'DIN', 'DIO', 'DIV', 'DOI', 'DUM', 'DUP', 'DWI', 'Dam', 'Dav', 'Dev', 'Dif', 'Dij', 'Dip', 'Doc', 'Dru', 'Duf', 'Dun', 'Dur', 'Dut', 'DÉJ', 'DÉL', 'DÉN', 'DÉR', 'Dér', 'Dét', 'ECR', 'EDA', 'EID', 'EIM', 'ELY', 'EME', 'ENF', 'ENR', 'ENX', 'EOT', 'ERC', 'ERE', 'ERV', 'ESÉ', 'ETE', 'ETH', 'ETS', 'ETÉ', 'EVE', 'EXE', 'EXP', 'EXÉ', 'Ecr', 'Edo', 'Edw', 'Ele', 'Emb', 'End', 'Enr', 'Ens', 'Eri', 'Erm', 'Etc', 'Eve', 'Evi', 'Exa', 'Exp', 'FAL', 'FAV', 'FEU', 'FIC', 'FID', 'FIE', 'FIG', 'FIT', 'FLÉ', 'FOC', 'FOI', 'FOU', 'FRE', 'FUN', 'FUR', 'FUT', 'Fam', 'Fau', 'Fay', 'Fel', 'Fle', 'Foy', 'Fro', 'Fré', 'FÉL', 'Fél', 'Fêt', 'Fût', 'GAI', 'GAL', 'GIN', 'GIQ', 'GLA', 'GNE', 'GNÉ', 'GRÈ', 'GUI', 'Gai', 'Gan', 'Gid', 'Gla', 'Géo', 'HAV', 'HOT', 'HUY', 'Hab', 'Hal', 'Hat', 'Hei', 'Hil', 'Hir', 'His', 'Hoh', 'Hos', 'Hug', 'Hyd', 'Hym', 'HÉC', 'IAL', 'ICA', 'IEL', 'IFE', 'IFI', 'IGN', 'III', 'ILS', 'IMA', 'IMP', 'INC', 'IND', 'INE', 'INF', 'ING', 'INO', 'INQ', 'IRC', 'IRO', 'IRÉ', 'ISA', 'ISV', 'ITS', 'IVÉ', 'IXS', 'Ila', 'Ill', 'Inc', 'Ing', 'Irl', 'Iro', 'IÉS', 'JOR', 'JUI', 'JUP', 'JUS', 'Jac', 'Jol', 'Jos', 'Jua', 'Juv', 'Jér', 'KBe', 'KEL', 'KER', 'KIN', 'KSÉ', 'Kru', 'Kul', 'LAG', 'LAL', 'LCO', 'LEA', 'LEI', 'LEO', 'LIA', 'LIB', 'LIG', 'LIM', 'LIN', 'LIO', 'LIP', 'LIT', 'LIZ', 'LIÉ', 'LOR', 'LQU', 'LUI', 'LUS', 'LUT', 'LUX', 'Lac', 'Lal', 'Lau', 'Led', 'Len', 'Lep', 'Lic', 'Lie', 'Liè', 'Loq', 'MAG', 'MAJ', 'MAM', 'MAX', 'MAY', 'MBE', 'MET', 'MEZ', 'MIN', 'MOD', 'MOI', 'MOY', 'MUO', 'MUR', 'MUS', 'MUT', 'Mak', 'Max', 'Maî', 'Mez', 'Mic', 'Mid', 'Mie', 'Mim', 'Moc', 'Mrs', 'MÉM', 'Mél', 'NAC', 'NAI', 'NCH', 'NCI', 'NCK', 'NCU', 'NDA', 'NDM', 'NDO', 'NDS', 'NEA', 'NED', 'NEZ', 'NIR', 'NIS', 'NIT', 'NIV', 'NOG', 'NOI', 'NOL', 'NON', 'NOP', 'NOV', 'NOW', 'NSP', 'Nes', 'Nog', 'Noi', 'Nom', 'NÉR', 'Nöé', 'OBI', 'OBR', 'OCE', 'OCT', 'OLS', 'OMO', 'ONC', 'ONI', 'ONN', 'OPU', 'ORC', 'ORD', 'ORI', 'ORM', 'OUT', 'Oeu', 'Ois', 'One', 'Osc', 'Otl', 'Ott', 'PAC', 'PAÏ', 'PEA', 'PET', 'PHI', 'PHO', 'PIC', 'PIR', 'PLI', 'PON', 'PTO', 'PUB', 'PYR', 'Pei', 'Pey', 'Pia', 'Pir', 'Ple', 'Plé', 'Poo', 'Pry', 'PÉN', 'PÉS', 'Pâl', 'QUÊ', 'RAC', 'RAL', 'RAM', 'RAV', 'RAY', 'RBO', 'REM', 'REW', 'RGA', 'RHU', 'RIA', 'RIF', 'RKA', 'RKL', 'RLA', 'RNI', 'ROG', 'ROQ', 'ROS', 'ROU', 'RRA', 'RRY', 'RUE', 'RUT', 'Rab', 'Rai', 'Ras', 'Rhô', 'Ric', 'Rom', 'RÉA', 'RÉE', 'RÉF', 'RÉG', 'RÉU', 'RÉV', 'Réa', 'Réd', 'Réi', 'Rés', 'Rôl', 'Rôt', 'SAC', 'SAG', 'SCH', 'SEB', 'SEQ', 'SHA', 'SHI', 'SIE', 'SIL', 'SIX', 'SNE', 'SOI', 'SOL', 'SOT', 'STI', 'STU', 'SUE', 'SUS', 'SXN', 'SYM', 'Sab', 'Sac', 'Sco', 'Sea', 'Sel', 'Seq', 'Set', 'Sia', 'Six', 'Sla', 'Slo', 'Spa', 'Spe', 'Spo', 'Squ', 'Sta', 'Sté', 'Sul', 'Sué', 'Syd', 'SÉE', 'SÉP', 'Séc', 'Sév', 'TAF', 'TAL', 'TAN', 'TAU', 'TED', 'TEU', 'TEX', 'TEY', 'THC', 'TIC', 'TIN', 'TIQ', 'TIS', 'TJO', 'TLI', 'TOG', 'TOL', 'TOR', 'TRO', 'TUD', 'TUL', 'TUT', 'TZA', 'Tag', 'Tal', 'Tap', 'Tch', 'Ten', 'Tex', 'The', 'Tig', 'Tom', 'Tré', 'Tsa', 'Tse', 'Tsi', 'Tuc', 'TÉS', 'Tâc', 'UBE', 'UCO', 'UEI', 'UEL', 'UEN', 'UFF', 'UGA', 'UIT', 'UIÉ', 'UJE', 'ULL', 'ULT', 'UMB', 'UMO', 'UPO', 'USS', 'UTE', 'UZE', 'Ukr', 'Upt', 'VEA', 'VEG', 'VEU', 'VII', 'VIN', 'VIS', 'VOI', 'VOS', 'VOU', 'Var', 'Vez', 'Vie', 'Vit', 'Vla', 'Voc', 'WAG', 'WEL', 'WET', 'WHE', 'WHI', 'WOR', 'WYT', 'Wag', 'Wal', 'Wat', 'Wes', 'Whh', 'Whi', 'Wia', 'XEL', 'XNX', 'XXV', 'XXe', 'XYX', 'Xav', 'YEA', 'YFU', 'YLE', 'You', 'ZAN', 'ZEP', 'Zor', 'aLE', 'abn', 'aco', 'acr', 'acu', 'adh', 'akf', 'alw', 'ama', 'api', 'apl', 'apt', 'apè', 'arp', 'avu', 'ayi', 'aïe', 'bac', 'baz', 'baï', 'bir', 'boy', 'boî', 'buv', 'bél', 'cce', 'ccl', 'cdo', 'ceL', 'chs', 'cig', 'clo', 'cod', 'coé', 'coù', 'crê', 'ctu', 'cud', 'cue', 'cué', 'cyc', 'cyn', 'cèl', 'cœe', 'd!u', 'd!é', 'dal', 'deA', 'deC', 'doy', 'dré', 'dst', 'dua', 'dèj', 'déa', 'déà', 'déç', 'dôm', 'dûr', 'eai', 'ecr', 'ecy', 'egg', 'egr', 'eiv', 'elb', 'elm', 'enL', 'enz', 'eot', 'epl', 'erl', 'esa', 'etl', 'eui', 'exh', 'exo', 'ezS', 'fCl', 'fch', 'ffo', 'fiâ', 'flâ', 'flè', 'fos', 'frê', 'fug', 'gby', 'gch', 'gez', 'ghb', 'gic', 'gil', 'gio', 'gis', 'giv', 'gme', 'gni', 'gog', 'gor', 'gua', 'gum', 'géa', 'gém', 'géo', 'hac', 'ham', 'hea', 'hez', 'hib', 'hid', 'hig', 'hil', 'hit', 'hla', 'hni', 'hno', 'hro', 'hur', 'hyd', 'hèl', 'hém', 'iag', 'ias', 'ibi', 'icy', 'ido', 'idy', 'iet', 'igr', 'ilL', 'ilS', 'ily', 'inL', 'iou', 'ipi', 'ipp', 'ipr', 'izé', 'ièc', 'ièm', 'iér', 'jon', 'jud', 'jux', 'kai', 'ker', 'kgs', 'kin', 'laD', 'lal', 'lap', 'lax', 'lco', 'le:', 'leL', 'leX', 'lfo', 'lga', 'lge', 'lhe', 'lho', 'llè', 'lop', 'low', 'lté', 'luc', 'lug', 'lul', 'lèl', 'lèm', 'lèn', 'lém', 'lén', 'lér', 'lét', 'léz', 'mba', 'meL', 'meS', 'mic', 'mol', 'mpo', 'mpt', 'mpu', 'mte', 'mât', 'mèd', 'méa', 'mél', 'mêt', 'n!e', 'naa', 'nae', 'nas', 'nck', 'ncé', 'ndf', 'ndh', 'neS', 'new', 'nga', 'ngr', 'nia', 'nmo', 'nog', 'nol', 'nsb', 'nse', 'nsv', 'nsw', 'nsé', 'ntr', 'nâi', 'nèr', 'nèt', 'obe', 'ody', 'okl', 'old', 'omi', 'ong', 'ony', 'orn', 'oro', 'orp', 'orq', 'orç', 'osm', 'oti', 'ott', 'oud', 'ovi', 'oyo', 'pbe', 'phè', 'piq', 'plâ', 'poé', 'ppa', 'ppr', 'ppt', 'pâl', 'pél', 'pêt', 'pôt', 'quu', 'qûe', 'rLe', 'rSÉ', 'rdu', 'rei', 'rin', 'rix', 'rli', 'rmi', 'rnu', 'rol', 'roo', 'rpi', 'rsa', 'rsi', 'rup', 'rur', 'rut', 'rvo', 'rça', 'réi', 'réj', 'sDU', 'say', 'sbo', 'scè', 'seL', 'seS', 'sea', 'sex', 'sha', 'sié', 'siò', 'soe', 'ssu', 'ssè', 'sty', 'stè', 'syp', 'sél', 'tLe', 'tSÉ', 'tad', 'tax', 'teL', 'teS', 'teb', 'thf', 'thm', 'tiè', 'tla', 'tle', 'tsc', 'tsm', 'ttl', 'tui', 'tum', 'tup', 'tva', 'typ', 'tèg', 'tég', 'tén', 'ual', 'uar', 'udf', 'ufa', 'ugh', 'uin', 'uio', 'ull', 'ulm', 'und', 'upo', 'uxé', 'vap', 'vaq', 'vié', 'voû', 'vro', 'vyC', 'vét', 'vœu', 'wan', 'war', 'weg', 'wei', 'wil', 'wit', 'wsk', 'xal', 'xes', 'xim', 'xiq', 'xis', 'xpu', 'xtr', 'xxt', 'xxx', 'xén', 'yas', 'yer', 'yfu', 'yio', 'ylo', 'you', 'zac', 'zep', 'ziè', 'zon', 'zun', 'zèl', 'ÉAB', 'ÉES', 'ÉFI', 'ÉGU', 'ÉMA', 'ÉMO', 'ÉMU', 'ÉNI', 'ÉPE', 'ÉPI', 'ÉTR', 'ÉVE', 'ÉVO', 'àLE', 'çoi', 'èce', 'ècl', 'ègn', 'ègr', 'èvr', 'éLE', 'éal', 'écu', 'éde', 'éen', 'éer', 'ého', 'émé', 'éon', 'ésu', 'évy', 'éxé', 'éée', 'êlé', 'êti', 'êto', 'êtu', 'îné', 'ûme', 'œil']
#Number of occurrences: 80
common_3grams = ['ALI', 'ARI', 'Acc', 'Adm', 'Bui', 'Cob', 'Cre', 'DER', 'Dar', 'Dat', 'Déb', 'ENN', 'Enq', 'FIA', 'Foc', 'Féd', 'GID', 'GNI', 'GRO', 'Gro', 'Hel', 'Imp', 'Jon', 'Jup', 'LAI', 'LEC', 'Low', 'MOU', 'Myi', 'OLA', 'ORB', 'Rig', 'Réf', 'SAI', 'TET', 'Thr', 'VIE', 'Wri', 'XAN', 'abd', 'alt', 'aok', 'aum', 'bav', 'ciè', 'coh', 'cém', 'dol', 'eno', 'eth', 'ght', 'idè', 'inl', 'ièt', 'jau', 'lpt', 'mmo', 'nei', 'nin', 'nop', 'nêt', 'poè', 'reh', 'rgu', 'rog', 'rtu', 'sco', 'scu', 'sum', 'tig', 'tol', 'toy', 'tât', 'uid', 'ulé', 'umb', 'uzo', 'ués', 'vay', 'émè']
#Number of occurrences: 1122
other_unique_4grams = ['ALES', 'APPE', 'ARET', 'ASSE', 'ATIE', 'ATIO', 'Acca', 'Agen', 'Ajam', 'Ajou', 'Août', 'Arde', 'Aust', 'Autr', 'Avan', 'Avec', 'BARO', 'BLIN', 'BOUL', 'Bara', 'Bern', 'Bess', 'Bibl', 'Bloc', 'Bonn', 'Bord', 'Bure', 'CAIL', 'CAIS', 'CAST', 'CHÈR', 'CIPA', 'CONV', 'Camu', 'Cana', 'Cant', 'Cast', 'Cele', 'Cert', 'Chat', 'Chri', 'Chré', 'Colo', 'Conf', 'Coop', 'Corb', 'Cors', 'Cosm', 'Coun', 'Cour', 'Cuba', 'DAND', 'DOTA', 'Desn', 'Dieu', 'Dire', 'Dogu', 'DÉPA', 'Déjà', 'ECLA', 'EFRE', 'ERGE', 'ERSE', 'ETTR', 'EVAR', 'EXAM', 'Ecom', 'Econ', 'Elis', 'Empi', 'Enco', 'Enfe', 'Erre', 'Evêq', 'Exéc', 'FARG', 'FAUT', 'FERI', 'FIAN', 'FLEC', 'FOER', 'FONT', 'FRAN', 'Ferd', 'Fidè', 'Fina', 'Finc', 'Fâch', 'Féra', 'Févr', 'GERL', 'GIAF', 'GIGO', 'GODA', 'GURA', 'Gamb', 'Garf', 'Genè', 'Gire', 'Goug', 'Guic', 'GÉNÉ', 'HUGH', 'Hamm', 'Haut', 'Hers', 'Hous', 'Houz', 'Hube', 'HÔTE', 'Héro', 'Hôte', 'ILIT', 'ILLE', 'INAU', 'ISLA', 'Ibse', 'Inté', 'JAUD', 'JOUR', 'Japo', 'Jard', 'Jarr', 'Jour', 'Juge', 'Kahn', 'LAIN', 'LEJE', 'LICH', 'Lane', 'Lans', 'Legs', 'Leha', 'Leur', 'Loué', 'Lowe', 'Lucé', 'Lute', 'Lyau', 'Lyon', 'LÉGL', 'MARG', 'MBLÉ', 'MISS', 'MOFF', 'MORA', 'MORO', 'MOSQ', 'MOUT', 'Made', 'Malh', 'Malv', 'Marn', 'Maro', 'Marq', 'Maub', 'Mauv', 'Maït', 'Meil', 'Merl', 'Mexi', 'Mond', 'Méni', 'NIER', 'NIPP', 'NTHE', 'Napo', 'Natu', 'Neve', 'Notr', 'Nouv', 'Noël', 'Néno', 'OUES', 'PARE', 'PATR', 'PERE', 'PEUP', 'PLAN', 'Parf', 'Pate', 'Peac', 'Pers', 'Peti', 'Peup', 'Plai', 'Plaz', 'Port', 'Pott', 'Prag', 'Proz', 'Prud', 'Quan', 'Quic', 'Quér', 'RALE', 'RAPP', 'RARD', 'REDL', 'RMAI', 'RUYS', 'Rect', 'Redl', 'Repr', 'Rien', 'Roch', 'Roug', 'Rude', 'RÉÉL', 'Réfo', 'Régn', 'Réus', 'SANG', 'SENA', 'SHOT', 'STER', 'Sara', 'Scep', 'Sein', 'Sept', 'Seul', 'Simo', 'Suis', 'Supp', 'Suze', 'SÉAN', 'Sèvr', 'TENB', 'THOM', 'TIVE', 'TOCR', 'TOTA', 'TTRE', 'Tabl', 'Thie', 'Thwi', 'Théâ', 'Torr', 'Très', 'Tuff', 'Turc', 'Tézé', 'UNES', 'Util', 'Vent', 'Verm', 'Vers', 'Veuv', 'Vibr', 'Vois', 'Voye', 'WELL', 'Wash', 'Wear', 'Will', 'Zéla', 'abet', 'abil', 'abst', 'acad', 'acer', 'acqu', 'acra', 'actu', 'adap', 'adju', 'ador', 'ados', 'affl', 'afin', 'agac', 'agan', 'agem', 'agir', 'agis', 'agri', 'aimé', 'ainc', 'aisi', 'aisé', 'aita', 'aiti', 'aité', 'alar', 'allo', 'allu', 'alti', 'ambu', 'amen', 'ammé', 'amor', 'ampu', 'anar', 'ancê', 'anen', 'ante', 'anté', 'anéa', 'apea', 'apeu', 'appl', 'apr!', 'arad', 'araî', 'ardo', 'arit', 'armi', 'arra', 'arée', 'arés', 'asme', 'assé', 'atav', 'ates', 'atit', 'atre', 'auda', 'audé', 'auff', 'augm', 'augu', 'aume', 'auqu', 'auxi', 'avér', 'aîne', 'aîné', 'band', 'banq', 'barr', 'base', 'bass', 'bata', 'belg', 'beur', 'bibl', 'biza', 'blan', 'bler', 'blie', 'blis', 'bloc', 'blée', 'bonh', 'bont', 'born', 'boss', 'bouc', 'boud', 'boue', 'bref', 'broc', 'brui', 'brus', 'brèv', 'buff', 'buis', 'bule', 'béné', 'bûch', 'cade', 'cafa', 'cail', 'calm', 'cani', 'capa', 'carr', 'caul', 'ccup', 'cerc', 'ceva', 'chai', 'chic', 'chie', 'chou', 'chré', 'chèv', 'chés', 'chên', 'chôm', 'ciat', 'cins', 'cipé', 'cite', 'cito', 'cité', 'clai', 'clor', 'clém', 'clér', 'clôt', 'coal', 'cogn', 'coha', 'coin', 'cole', 'comi', 'coop', 'corp', 'crai', 'crev', 'croy', 'crut', 'ctat', 'ctes', 'ctoi', 'ctué', 'ct§è', 'cula', 'cult', 'curé', 'cède', 'cère', 'céde', 'cées', 'célè', 'dale', 'datu', 'delà', 'dest', 'deui', 'devi', 'devr', 'dian', 'dida', 'dien', 'dini', 'dios', 'diqu', 'diss', 'dite', 'diti', 'dité', 'diza', 'doci', 'dois', 'doiv', 'dolé', 'doma', 'dony', 'doul', 'drap', 'dres', 'dron', 'durc', 'dure', 'déba', 'déce', 'dégé', 'déla', 'démi', 'déna', 'déri', 'déto', 'déve', 'ecta', 'ecte', 'ecto', 'effr', 'effu', 'efoi', 'efou', 'eket', 'embl', 'embu', 'empi', 'enag', 'enci', 'ende', 'enga', 'enge', 'enha', 'enta', 'enth', 'entâ', 'ença', 'epre', 'erbe', 'erce', 'erch', 'erna', 'erné', 'eron', 'erso', 'ersé', 'erts', 'ervé', 'erçu', 'esca', 'essa', 'essu', 'este', 'etLE', 'etin', 'ettr', 'evue', 'excé', 'exio', 'expi', 'face', 'fail', 'fass', 'fati', 'fect', 'fera', 'fero', 'fets', 'feui', 'ffée', 'fice', 'fici', 'ficu', 'figu', 'fine', 'fixé', 'fiée', 'flet', 'fleu', 'flot', 'fléc', 'forê', 'four', 'frat', 'fraî', 'fric', 'frèr', 'fréq', 'fuie', 'funè', 'futu', 'fuya', 'fère', 'gara', 'gare', 'gend', 'gent', 'gera', 'gers', 'gies', 'gieu', 'glem', 'glet', 'gnif', 'gnés', 'grai', 'grav', 'grec', 'grie', 'gros', 'gréa', 'guem', 'gueu', 'gusé', 'géni', 'gêné', 'hait', 'hala', 'harm', 'hasa', 'hens', 'heue', 'hevé', 'hive', 'hont', 'horr', 'hors', 'hosp', 'huit', 'humi', 'hure', 'hégé', 'hére', 'héri', 'iabl', 'iair', 'iard', 'ibil', 'icad', 'iche', 'ichi', 'icip', 'icit', 'icti', 'ider', 'idie', 'iell', 'iett', 'ifiq', 'igea', 'igné', 'igué', 'igés', 'iles', 'ilie', 'ilèg', 'immu', 'impl', 'impu', 'imul', 'inci', 'inct', 'inde', 'indr', 'inex', 'info', 'infâ', 'infé', 'ingt', 'ingu', 'iniè', 'inne', 'inof', 'inon', 'insc', 'inso', 'insu', 'inue', 'inut', 'inés', 'ion:', 'ipli', 'irai', 'irci', 'ire!', 'iren', 'ireà', 'irmé', 'irré', 'isai', 'isam', 'isat', 'iscr', 'iste', 'isés', 'itin', 'itôt', 'ivat', 'iéta', 'jalo', 'joli', 'joui', 'joué', 'joye', 'jésu', 'lair', 'lamp', 'lang', 'lect', 'lenc', 'lequ', 'leva', 'lgen', 'liai', 'lice', 'lifi', 'lige', 'lign', 'ling', 'liro', 'lise', 'lisé', 'lits', 'llar', 'llit', 'llon', 'loge', 'loin', 'lopp', 'lore', 'lors', 'loue', 'loux', 'loué', 'ltan', 'ltat', 'lter', 'ltés', 'luin', 'lumi', 'lure', 'lusi', 'luxe', 'lyse', 'lète', 'lève', 'lété', 'mabl', 'maci', 'mair', 'mait', 'mala', 'mali', 'mang', 'marq', 'masc', 'mass', 'matu', 'maxi', 'meur', 'miné', 'miss', 'misè', 'misé', 'mnit', 'modè', 'modé', 'moeu', 'mono', 'monu', 'mort', 'mosq', 'moui', 'mpen', 'mpha', 'mphé', 'mpli', 'mpré', 'musi', 'muth', 'mutu', 'myst', 'mène', 'mère', 'mémo', 'mépr', 'méth', 'méti', 'mêla', 'mêle', 'naie', 'nait', 'nant', 'napo', 'nata', 'naus', 'ncil', 'nciè', 'ncon', 'ndel', 'ndue', 'ndés', 'negi', 'nerf', 'neuf', 'neur', 'neut', 'nevi', 'nfor', 'nieu', 'nive', 'nnan', 'nnaî', 'nnen', 'nnes', 'nnue', 'norv', 'nour', 'nsci', 'nsib', 'nsid', 'nsiv', 'nsti', 'ntat', 'nthè', 'ntir', 'ntri', 'ntér', 'ntés', 'néan', 'négo', 'obse', 'obst', 'obte', 'oché', 'océa', 'odes', 'odox', 'oeuf', 'offe', 'offr', 'oidi', 'oise', 'oiso', 'oite', 'olid', 'ombe', 'once', 'oncu', 'oncé', 'ondr', 'onie', 'onqu', 'oppr', 'opri', 'opti', 'oqué', 'ordi', 'ores', 'orgu', 'orig', 'orts', 'oson', 'osti', 'otio', 'ousi', 'ouss', 'ovis', 'oyab', 'oyag', 'paqu', 'pard', 'pera', 'perp', 'pert', 'peux', 'phar', 'phié', 'phon', 'phot', 'phra', 'phér', 'pied', 'plés', 'pneu', 'poil', 'pole', 'pond', 'poud', 'pria', 'prie', 'priv', 'proj', 'prém', 'pseu', 'pson', 'pteu', 'pula', 'péné', 'pére', 'quef', 'quic', 'quié', 'quot', 'qués', 'quêt', 'race', 'raci', 'raco', 'rade', 'raje', 'rang', 'rape', 'rapi', 'rass', 'rast', 'rato', 'ratr', 'ratt', 'raux', 'rbai', 'rban', 'rber', 'rcié', 'rden', 'rder', 'rdit', 'rech', 'recu', 'refr', 'rele', 'relé', 'remè', 'requ', 'reta', 'reti', 'rets', 'reui', 'reva', 'reço', 'rhum', 'riai', 'rial', 'rian', 'riau', 'rigo', 'rima', 'rimé', 'rise', 'risi', 'riti', 'riva', 'riée', 'rmat', 'rmèd', 'rner', 'rnes', 'rona', 'roya', 'rpré', 'rrai', 'rray', 'rren', 'rrer', 'rroi', 'rrom', 'rrée', 'rter', 'rtun', 'rtur', 'ruct', 'rues', 'ruin', 'rume', 'runi', 'russ', 'rval', 'rvat', 'rver', 'rvon', 'réch', 'rédu', 'réel', 'réfo', 'régl', 'répl', 'répè', 'rêve', 'sade', 'saie', 'sair', 'salu', 'sart', 'saur', 'sauv', 'sava', 'sav£', 'scol', 'seig', 'semé', 'sere', 'sert', 'seté', 'shis', 'sidu', 'simu', 'sini', 'sino', 'sist', 'siti', 'soci', 'sois', 'sono', 'sons', 'sors', 'souc', 'soup', 'spar', 'spir', 'spoi', 'spon', "squ'", 'squé', 'ssab', 'ssag', 'ssan', 'ssen', 'sser', 'ssio', 'stem', 'stif', 'stou', 'stri', 'suar', 'subs', 'subv', 'sugg', 'sulm', 'sult', 'supr', 'sura', 'surl', 'surm', 'suro', 'suéd', 'séch', 'sécu', 'sées', 'sépa', 'sûre', 'tail', 'tale', 'tali', 'tané', 'tapi', 'taré', 'tata', 'taté', 'tein', 'tess', 'thès', 'tian', 'tiel', 'tige', 'tins', 'tire', 'titi', 'tité', 'togé', 'tola', 'tort', 'trac', 'trad', 'trah', 'tram', 'traî', 'tref', 'trem', 'tren', 'treu', 'triq', 'trêv', 'tuer', 'tuil', 'tule', 'tulé', 'tupl', 'tées', 'télé', 'tôme', 'uaie', 'uant', 'ubli', 'ucti', 'uenc', 'uent', 'uets', 'uire', 'uits', 'ulte', 'unai', 'unir', 'urel', 'uren', 'ureu', 'urge', 'usie', 'usio', 'usur', 'utab', 'utif', 'uver', 'uvée', 'uvés', 'uéra', 'vaie', 'vala', 'vell', 'verd', 'verr', 'vest', 'veut', 'vian', 'vibr', 'vice', 'vide', 'vini', 'vins', 'viro', 'vise', 'vist', 'vive', 'voqu', 'vota', 'voto', 'voue', 'vres', 'vreu', 'vues', 'vulg', 'vées', 'végè', 'véné', 'xcit', 'yens', 'zare', 'zélé', 'çant', 'çonn', 'èden', 'èren', 'écar', 'échi', 'écie', 'écli', 'écol', 'éctu', 'édif', 'édio', 'éduc', 'édur', 'égie', 'élar', 'élud', 'élèv', 'élég', 'éman', 'émie', 'émig', 'émis', 'énor', 'épar', 'épiq', 'éque', 'érai', 'éran', 'érer', 'érit', 'érés', 'étue', 'étés', 'évid', 'êtem']
#Number of occurrences: 2192
gt_unique_4grams = ['ABDI', 'ABLE', 'ABOR', 'ABUS', 'ACCE', 'ACHE', 'ADIE', 'ADMI', 'ADVI', 'AGAN', 'AGAR', 'AGEO', 'AGGR', 'AGIO', 'AGNA', 'AGNE', 'AGRÉ', 'AINÉ', 'AISE', 'ALIS', 'ALLA', 'ALSA', 'ALVA', 'ALZA', 'AMBU', 'AMEN', 'ANIL', 'ANNE', 'ANTE', 'ANTI', 'ANTO', 'ARAN', 'ARDU', 'ARRI', 'ASSA', 'ASSI', 'ASTE', 'ATIT', 'ATIV', 'AUDE', 'AUGU', 'AUPR', 'AURA', 'AVEC', 'AVEN', 'AVIS', 'AVri', 'AVÉE', 'Abbé', 'Abol', 'Abra', 'Acce', 'Acqu', 'Actu', 'Adjo', 'Adol', 'Aisn', 'Alan', 'Albi', 'Alca', 'Alfo', 'Anib', 'Anna', 'Anse', 'Anto', 'Anve', 'Appa', 'Appo', 'Appu', 'Argo', 'Arka', 'Arra', 'Arri', 'Arta', 'Arth', 'Arts', 'Artu', 'Assé', 'Aten', 'Atti', 'Audi', 'Auga', 'Augm', 'Auta', 'Aute', 'Avia', 'Avoc', 'Avoi', 'Ayez', 'Ayon', 'BAGD', 'BALE', 'BANQ', 'BARR', 'BART', 'BATT', 'BAUT', 'BELA', 'BELC', 'BERK', 'BESS', 'BETT', 'BIBL', 'BILI', 'BLUM', 'BONC', 'BONN', 'BOOK', 'BORD', 'BOUC', 'BOUE', 'BREN', 'BRES', 'BRIA', 'BRIE', 'BRUX', 'BUIL', 'Babe', 'Baby', 'Bach', 'Bebe', 'Berk', 'Beth', 'Bido', 'Blen', 'Boch', 'Bouc', 'Boui', 'Boët', 'Brau', 'Brit', 'Broo', 'Brow', 'Bréz', 'Brêm', 'Brûl', 'Budg', 'Bull', 'Buqu', 'Butt', 'BÉAN', 'BÉNÉ', 'Bâle', 'CALD', 'CAND', 'CANT', 'CARD', 'CASS', 'CATI', 'CAUS', 'CEPE', 'CEST', 'CHAD', 'CHAO', 'CHAS', 'CHIC', 'CHIE', 'CHIR', 'CHOA', 'CHar', 'CINE', 'CIPÉ', 'CITE', 'CKLI', 'CLAU', 'CLUB', 'COLU', 'COMT', 'COPA', 'CORD', 'CORN', 'CORR', 'COST', 'COTE', 'CRAC', 'CROI', 'CULA', 'CULT', 'Camp', 'Cand', 'Carl', 'Casa', 'Cass', 'Cell', 'Cera', 'Cerc', 'Cerf', 'Chah', 'Chan', 'Chap', 'Chev', 'Chos', 'Chur', 'Chét', 'Cili', 'Cinc', 'Civi', 'Clér', 'Coal', 'Coll', 'Conç', 'Cord', 'Corr', 'Coul', 'Curs', 'Curz', 'CÉRÉ', 'CÔTE', 'Césa', 'DANE', 'DANG', 'DAVI', 'DEBA', 'DEBO', 'DECE', 'DELE', 'DEMA', 'DEME', 'DEPU', 'DESI', 'DESS', 'DEST', 'DEVI', 'DICK', 'DIEU', 'DIFF', 'DIGN', 'DIMA', 'DION', 'DISA', 'DIVE', 'DIÉE', 'DMAI', 'DOIS', 'DOUG', 'DOUL', 'DOUR', 'DRES', 'DREY', 'DUMA', 'Dame', 'Davi', 'Dest', 'Deut', 'Devo', 'Dick', 'Dict', 'Diff', 'Dijo', 'Dipl', 'Diri', 'Disc', 'Diso', 'Docu', 'Doma', 'Domi', 'Doug', 'Doui', 'Drea', 'Dreu', 'Drey', 'Drum', 'Duch', 'Ducr', 'Dufa', 'Dunk', 'Dura', 'Dutt', 'DÉCE', 'DÉFA', 'DÉJA', 'DÉLÉ', 'DÉMI', 'DÉNO', 'DÉPO', 'DÉRÉ', 'DÉSI', 'DÉSO', 'Déci', 'Décl', 'Déma', 'Déro', 'Détr', 'ECHE', 'ECRI', 'ECTE', 'EFFE', 'EFFO', 'EILL', 'ELIN', 'ELLA', 'ELNA', 'ELYS', 'EMAI', 'EMBR', 'ENCH', 'ENDA', 'ENFO', 'ENRI', 'ENSU', 'ENTR', 'ENVA', 'ENVO', 'ERBU', 'ERGU', 'ERLÉ', 'ERNA', 'ERON', 'ERPA', 'ESPA', 'ESPO', 'ESPR', 'ESSI', 'ESTR', 'ETAI', 'ETHN', 'EXPÉ', 'EXÉC', 'EYRI', 'Eche', 'Echo', 'Ecri', 'Edou', 'Edwa', 'Eled', 'Emba', 'Ench', 'Enri', 'Ensu', 'Eric', 'Ermi', 'Etai', 'Even', 'Evid', 'Exam', 'Exec', 'Exem', 'Expl', 'Exté', 'FAIS', 'FALL', 'FAVE', 'FERM', 'FERN', 'FERR', 'FEST', 'FFIS', 'FIAS', 'FICI', 'FIGA', 'FINC', 'FIQU', 'FLÉC', 'FOCH', 'FOIS', 'FONC', 'FOND', 'FOUR', 'FREE', 'FROM', 'FRON', 'FUNE', 'FURE', 'FUTU', 'Fach', 'Fami', 'Faut', 'Faye', 'Feli', 'Flam', 'Flan', 'Fleu', 'Fore', 'Fort', 'Four', 'From', 'Fréd', 'FÉLI', 'Féli', 'Fête', 'GAIE', 'GALL', 'GANI', 'GAUL', 'GERA', 'GERI', 'GERM', 'GLÉE', 'GOUT', 'GRAV', 'GREC', 'GREV', 'GREY', 'GUEP', 'GUIR', 'Gain', 'Gand', 'Garc', 'Gass', 'Gaud', 'Gaul', 'Gens', 'Gent', 'Gera', 'Gide', 'Giro', 'Glad', 'Gree', 'Gren', 'Guis', 'Géog', 'HABE', 'HALL', 'HAVR', 'HAYE', 'HCLI', 'HEWS', 'HIES', 'HING', 'HOLL', 'HONG', 'HONN', 'HSTA', 'Habs', 'Halé', 'Hamb', 'Hatf', 'Hava', 'Heid', 'Hila', 'Hirs', 'Hist', 'Hohe', 'Holm', 'Holw', 'Hong', 'Honn', 'Hosp', 'Hugh', 'Huil', 'Hyde', 'Hyma', 'HÉCA', 'Hélo', 'IAMS', 'IATI', 'ICAN', 'ICAT', 'ICEN', 'ICUL', 'IDAT', 'IDEI', 'IELL', 'IEUS', 'IFIÉ', 'IGNO', 'IION', 'IMPR', 'INAL', 'INCE', 'INCL', 'INDÉ', 'INFI', 'INGR', 'INOP', 'INOR', 'INQU', 'INSO', 'INSU', 'INUE', 'IOTH', 'IOUE', 'IOUÉ', 'IPPI', 'IQUÉ', 'ISAT', 'ISME', 'ISOI', 'ISTA', 'ISVO', 'ITAL', 'ITEN', 'ITIN', 'ITOI', 'IXSX', 'Illi', 'Incr', 'Inde', 'Ingé', 'Intr', 'Irla', 'Iron', 'Issc', 'Isso', 'IÉTU', 'JAUR', 'JORD', 'JUIG', 'JUPI', 'JUST', 'Jacq', 'Jaud', 'Jean', 'Jeud', 'Jeun', 'Joly', 'José', 'Juan', 'Jusq', 'Juvi', 'Jéru', 'KERT', 'Krup', 'Kult', 'LACH', 'LACR', 'LADR', 'LALL', 'LANC', 'LAND', 'LARN', 'LASS', 'LATI', 'LAVA', 'LAVE', 'LAVI', 'LEAG', 'LECT', 'LEND', 'LEON', 'LESS', 'LEVE', 'LIBE', 'LIGU', 'LIMA', 'LIST', 'LIZA', 'LLEZ', 'LOIR', 'LOIS', 'LOND', 'LORR', 'LOUC', 'LSKY', 'LUXE', 'Lala', 'Laus', 'Lava', 'Ledo', 'Lens', 'Lepê', 'Libe', 'Libo', 'Libr', 'Lich', 'Lièg', 'Long', 'Loqu', 'Luch', 'Luné', 'MAGN', 'MAJO', 'MALI', 'MALL', 'MAME', 'MANI', 'MANN', 'MANZ', 'MARI', 'MARK', 'MAUD', 'MAXI', 'MAYE', 'MBIA', 'MBOU', 'MERE', 'MESS', 'MEZE', 'MIEU', 'MINI', 'MOBI', 'MODE', 'MOIN', 'MONI', 'MOUS', 'MOYE', 'MPHE', 'MPLI', 'MURR', 'MUST', 'MUTU', 'Maid', 'Makl', 'Malo', 'Matt', 'Maxi', 'Mayf', 'Mesd', 'Meze', 'Mich', 'Midi', 'Mieu', 'Mill', 'Mimb', 'Mine', 'Moch', 'Moni', 'Mora', 'Mort', 'Moul', 'Mour', 'MÉMO', 'Méli', 'NAIS', 'NCES', 'NCHE', 'NDUE', 'NEGL', 'NELL', 'NEUT', 'NIAD', 'NISM', 'NISN', 'NIST', 'NIVE', 'NNAI', 'NNEL', 'NOLL', 'NOMB', 'NORT', 'NORV', 'NOUR', 'NOVE', 'NTAI', 'NXXY', 'Naza', 'Neuf', 'Neuv', 'News', 'Nice', 'Noge', 'Noir', 'Nomm', 'NonS', 'Note', 'Noyo', 'Null', 'OCEA', 'OCTO', 'ONAY', 'ONNI', 'OOLI', 'OPIE', 'ORIG', 'OTWE', 'OURE', 'OURN', 'OUTR', 'OVER', 'Oeuv', 'Oise', 'Oiss', 'Orme', 'Osca', 'Otle', 'Otto', 'Ouen', 'PACI', 'PALA', 'PARS', 'PART', 'PASS', 'PAÏV', 'PEAC', 'PERC', 'PERR', 'PETR', 'PHIL', 'PHOT', 'PICH', 'PIED', 'PINA', 'PIRE', 'PLEN', 'PLOU', 'PRAD', 'PREC', 'PREM', 'PREV', 'PRIE', 'PRIN', 'PRIX', 'PROI', 'PRÉC', 'PRÉP', 'PUBL', 'PULA', 'PYRR', 'Pact', 'Pail', 'Pair', 'Pana', 'Pann', 'Park', 'Past', 'Patr', 'Pein', 'Penh', 'Peyl', 'Piai', 'Pica', 'Picc', 'Pill', 'Pire', 'Plei', 'Plén', 'Poli', 'Poot', 'Prix', 'Prob', 'Prov', 'Pryt', 'Préd', 'Prél', 'Pyré', 'PÉNÉ', 'Pâle', 'QUAT', 'QUES', 'QUEU', 'Quat', 'Quen', 'Quin', 'RACE', 'RANC', 'RATI', 'RATT', 'RATU', 'RCIE', 'RECO', 'RECU', 'REIC', 'REIM', 'REIN', 'REME', 'REND', 'RESO', 'REUN', 'REUX', 'RGAN', 'RMES', 'RONI', 'ROOT', 'ROQU', 'ROUG', 'ROUS', 'RSES', 'RUIR', 'RVIS', 'Rabe', 'Rais', 'Rass', 'Reic', 'Rela', 'Reli', 'Reno', 'Resp', 'Reve', 'Reyn', 'Rhôn', 'Rich', 'Robi', 'Rois', 'Romn', 'Rott', 'Roup', 'Roya', 'RÉAC', 'RÉFO', 'RÉGI', 'RÉSO', 'RÉUN', 'RÉVO', 'Réac', 'Rédu', 'Réfl', 'Réin', 'Rémy', 'Répa', 'Résu', 'Rôle', 'Rôti', 'SACR', 'SALL', 'SANT', 'SAVE', 'SCHE', 'SCOT', 'SEAI', 'SEAN', 'SEBE', 'SEME', 'SENL', 'SEPT', 'SERA', 'SERB', 'SIDE', 'SILL', 'SIXT', 'SOLD', 'SOTI', 'SOUL', 'SPOR', 'SSAI', 'SSAN', 'SSIO', 'SSIT', 'SSOC', 'SSÉE', 'STAN', 'STAR', 'STAT', 'STES', 'STUN', 'STÉR', 'SUED', 'SUIT', 'SXNX', 'SYMP', 'Sabl', 'Sach', 'Sala', 'Sall', 'Sava', 'Save', 'Savo', 'Schw', 'Scot', 'Seat', 'Selo', 'Sequ', 'Sera', 'Seth', 'Siam', 'Sigr', 'Sing', 'Sira', 'Sixt', 'Slav', 'Soir', 'Soit', 'Soll', 'Sorb', 'Sort', 'Souh', 'Souv', 'Soyo', 'Spen', 'Spon', 'Squa', 'Star', 'Stee', 'Stei', 'Sten', 'Stre', 'Stép', 'Sult', 'Supr', 'Suéd', 'Sydn', 'SÉPA', 'Séce', 'Sévè', 'TAFT', 'TAIR', 'TANS', 'TARI', 'TARY', 'TAUX', 'TEAU', 'TECH', 'TEES', 'TENA', 'TENO', 'TERR', 'TERY', 'TETE', 'TEXT', 'TIEL', 'TOLL', 'TOMB', 'TOME', 'TORA', 'TOUR', 'TRAT', 'TRAV', 'TRIM', 'TRIO', 'TROP', 'TURQ', 'TUÉE', 'TZAR', 'Tage', 'Talh', 'Tapl', 'Tché', 'Teno', 'Text', 'Thou', 'Tigr', 'Tome', 'Touc', 'Trib', 'Trie', 'Trip', 'Troc', 'Trés', 'Tsar', 'Tsen', 'Tsia', 'Tuck', 'Tâch', 'UDEL', 'UETE', 'UGAR', 'ULLO', 'UNDE', 'UNIT', 'UPON', 'URES', 'URSE', 'UTIF', 'UTIO', 'Ukra', 'Upto', 'UÊTE', 'VERS', 'VEUI', 'VICE', 'VIII', 'VOUS', 'Vari', 'Verg', 'Vern', 'Vezi', 'Vien', 'Vint', 'Vitr', 'Vive', 'Vlad', 'Voci', 'Voya', 'Voyo', 'WAGR', 'WALS', 'WETT', 'WHEE', 'WHIT', 'WICK', 'WILL', 'WORL', 'WYTH', 'Wagr', 'Wall', 'Wate', 'West', 'Whhe', 'Whit', 'Wiar', 'Wilh', 'XENX', 'XVII', 'XVIe', 'XXVI', 'XXXI', 'Xavi', 'YEAR', 'YLET', 'Youg', 'ZAIR', 'ZEPP', 'Zorn', 'aLET', 'abai', 'abba', 'abbé', 'abei', 'aber', 'abit', 'abné', 'abol', 'abom', 'accé', 'achè', 'acor', 'acro', 'acta', 'acun', 'adhé', 'adie', 'adée', 'adér', 'affu', 'agai', 'ageo', 'aggl', 'agin', 'agno', 'agon', 'agée', 'aida', 'aier', 'aigl', 'aira', 'airi', 'alen', 'alig', 'aloi', 'alte', 'alwa', 'amai', 'aman', 'amba', 'ambe', 'amia', 'amèr', 'amée', 'andi', 'ands', 'anec', 'anel', 'aner', 'anis', 'anom', 'ansp', 'apit', 'apos', 'appê', 'apro', 'apte', 'apès', 'ards', 'aria', 'arne', 'atai', 'ater', 'atib', 'atiq', 'atoi', 'auba', 'aubo', 'avid', 'aviv', 'avor', 'ayon', 'aéri', 'aïeu', 'baco', 'baga', 'bait', 'bare', 'bati', 'baza', 'baïo', 'bele', 'bert', 'bill', 'bilt', 'bise', 'bitr', 'bjet', 'blia', 'bole', 'bona', 'bonb', 'bouq', 'boyc', 'boît', 'brag', 'brai', 'bran', 'brat', 'brea', 'bron', 'brul', 'brum', 'brée', 'bulg', 'busé', 'buti', 'buva', 'bâti', 'béll', 'béni', 'cada', 'cadu', 'cais', 'came', 'carb', 'cate', 'caté', 'cauc', 'cave', 'ccor', 'ceLE', 'cele', 'celé', 'cerf', 'cero', 'cest', 'chao', 'chil', 'chiq', 'chit', 'choe', 'chét', 'cide', 'cies', 'ciga', 'cill', 'cisc', 'cisi', 'citr', 'cits', 'ciée', 'ckin', 'ckli', 'clef', 'cler', 'cloc', 'club', 'coch', 'cohé', 'coiv', 'colè', 'corb', 'cors', 'cost', 'cots', 'coté', 'cous', 'coéd', 'coùp', 'cred', 'cria', 'cril', 'crir', 'crié', 'croc', 'cron', 'crou', 'crue', 'crêm', 'ctif', 'ctiq', 'ctiv', 'cuei', 'cues', 'culé', 'cupe', 'cure', 'cuté', 'cyni', 'cyue', 'cédo', 'césa', 'cœeu', 'd!un', 'd!éc', 'dais', 'dait', 'damn', 'danc', 'deAn', 'deCl', 'depr', 'dfon', 'dfor', 'dhal', 'dind', 'diro', 'disq', 'dnou', 'doll', 'domn', 'donj', 'doti', 'doua', 'doxa', 'doye', 'dual', 'ducs', 'dues', 'duns', 'dupl', 'durs', 'dèjà', 'dèle', 'déal', 'débo', 'débr', 'déga', 'dégr', 'dénu', 'dépr', 'dépê', 'déra', 'déro', 'déçu', 'eadn', 'eaur', 'eban', 'ecoi', 'ecou', 'ecro', 'ectu', 'eful', 'eggs', 'elbe', 'elge', 'ella', 'ellé', 'eman', 'empa', 'emst', 'enab', 'enad', 'enay', 'enca', 'endi', 'eneg', 'enez', 'enhe', 'enio', 'enli', 'enlè', 'ent?', 'entC', 'eral', 'eran', 'erda', 'eret', 'erge', 'ergé', 'erio', 'erme', 'ermo', 'erou', 'erqu', 'erré', 'erte', 'erté', 'ervi', 'esco', 'esso', 'estL', 'estl', 'etag', 'etc…', 'ethn', 'etia', 'etle', 'etre', 'etzu', 'etés', 'euls', 'euss', 'evoy', 'evée', 'evés', 'exho', 'exot', 'fCle', 'fanf', 'fast', 'fauc', 'fena', 'fere', 'fide', 'fidu', 'filt', 'fins', 'fire', 'firm', 'fixt', 'fièv', 'fiés', 'fiév', 'flag', 'flam', 'flor', 'flue', 'flân', 'flèc', 'fons', 'fore', 'foss', 'frag', 'frie', 'frin', 'from', 'frêl', 'fugi', 'fuir', 'fére', 'fêta', 'fêti', 'gabl', 'gair', 'gait', 'gala', 'gale', 'gant', 'garn', 'geab', 'gene', 'geno', 'geon', 'gerb', 'ghts', 'gibi', 'gibo', 'giga', 'gine', 'gira', 'givr', 'glai', 'gler', 'glém', 'gnem', 'gnez', 'gnor', 'gogn', 'gons', 'gorg', 'gori', 'gras', 'grel', 'grem', 'gres', 'grev', 'gril', 'grip', 'gron', 'guan', 'gues', 'gume', 'guré', 'guéé', 'géan', 'gémi', 'géne', 'géog', 'gére', 'hach', 'hais', 'hale', 'hall', 'halt', 'hame', 'harc', 'hari', 'haus', 'heim', 'hell', 'help', 'hema', 'herc', 'hero', 'hers', 'hful', 'hibé', 'hide', 'hiez', 'high', 'homé', 'hone', 'hopi', 'hora', 'horl', 'horo', 'hsta', 'huiP', 'huil', 'hydr', 'hyma', 'hymn', 'hâti', 'hâté', 'hèla', 'hème', 'hète', 'hées', 'hémi', 'héti', 'iars', 'icab', 'icol', 'idue', 'idyl', 'iels', 'ierr', 'ifia', 'iges', 'igré', 'igua', 'igée', 'ilLE', 'ilSÉ', 'ilat', 'ilié', 'ilss', 'imat', 'imez', 'imèt', 'imés', 'inab', 'inag', 'inav', 'indo', 'indû', 'inea', 'inez', 'ingo', 'inin', 'iniq', 'inis', 'inna', 'inoc', 'inua', 'inui', 'inuo', 'inus', 'inég', 'inén', 'inép', 'iole', 'ioré', 'iple', 'iquo', 'irag', 'irio', 'irre', 'irri', 'isay', 'isem', 'isen', 'iseu', 'isto', 'isté', 'iswi', 'itan', 'itec', 'itif', 'itiv', 'itié', 'iton', 'ivag', 'iven', 'ivez', 'ivos', 'ivée', 'iègn', 'iéte', 'iété', 'jamb', 'jeta', 'jeté', 'jeux', 'joug', 'joya', 'judi', 'jugi', 'jure', 'jury', 'juxt', 'kais', 'kfas', 'koff', 'laDé', 'lacu', 'lacé', 'lady', 'lain', 'lamé', 'land', 'lanç', 'lapi', 'lata', 'latr', 'laya', 'laça', 'lbla', 'leLE', 'leSÉ', 'leri', 'lern', 'lets', 'leté', 'leun', 'leus', 'lexe', 'lheu', 'liar', 'lici', 'limp', 'liti', 'liés', 'llad', 'llag', 'llan', 'llis', 'lman', 'loco', 'logé', 'loir', 'lone', 'lons', 'lori', 'lote', 'lots', 'lsio', 'lson', 'lten', 'ltez', 'ltra', 'ltée', 'luan', 'luci', 'luge', 'luis', 'luli', 'lunc', 'lund', 'lvab', 'lver', 'lègè', 'lèle', 'lèvr', 'légé', 'léta', 'léza', 'mace', 'mage', 'magi', 'maie', 'mals', 'marb', 'mard', 'marm', 'maré', 'masq', 'mben', 'mber', 'mbré', 'menç', 'mené', 'mera', 'mero', 'mers', 'merç', 'mets', 'meul', 'meus', 'micr', 'mida', 'miez', 'mila', 'milé', 'mimo', 'mino', 'mins', 'misa', 'mite', 'mièr', 'mmag', 'mmit', 'mmiè', 'mnis', 'mnié', 'mocr', 'momt', 'monc', 'mori', 'mote', 'mous', 'mout', 'mpti', 'mula', 'musu', 'mâts', 'mède', 'méan', 'méda', 'méla', 'méni', 'méra', 'mêtr', 'mûre', 'mûri', 'n!es', 'nLet', 'nabl', 'nagé', 'nain', 'nanc', 'napp', 'nast', 'nate', 'nauf', 'nave', 'navi', 'naîf', 'nchi', 'nchè', 'ncia', 'ncib', 'ncol', 'ndLe', 'ndat', 'ndeu', 'ndia', 'ndid', 'ndio', 'ndiq', 'ndus', 'nels', 'neng', 'nera', 'nerv', 'ness', 'neus', 'neux', 'news', 'ngel', 'ngen', 'ngio', 'niai', 'nids', 'nimé', 'nios', 'nira', 'nirs', 'nitu', 'nièr', 'niéc', 'niée', 'nnem', 'nniq', 'nnée', 'noir', 'nois', 'nomé', 'nora', 'nors', 'noto', 'noue', 'nova', 'nows', 'nqui', 'nqué', 'nsit', 'nsor', 'nsém', 'nsés', 'ntau', 'nthr', 'ntit', 'ntra', 'nuag', 'nuat', 'nuie', 'nume', 'nure', 'nzol', 'nâit', 'nçan', 'néga', 'obis', 'obti', 'ocay', 'ocha', 'ocos', 'ocre', 'odil', 'odiq', 'odys', 'oger', 'ogne', 'oint', 'oisi', 'oiss', 'oiti', 'olat', 'olds', 'ombr', 'omes', 'omin', 'omme', 'ommo', 'omph', 'omér', 'onag', 'onar', 'onfi', 'onib', 'opiq', 'opéd', 'oqua', 'orai', 'oran', 'orbi', 'orch', 'orda', 'ordo', 'ordu', 'orei', 'orna', 'oron', 'orou', 'orph', 'osez', 'otag', 'otro', 'otte', 'otté', 'ouet', 'ougb', 'ouie', 'ouil', 'ouko', 'ourg', 'ourn', 'outL', 'outi', 'ouvo', 'ouée', 'oyés', 'pair', 'pana', 'pang', 'panh', 'pape', 'parr', 'pate', 'pave', 'pavi', 'peau', 'pecc', 'peit', 'penc', 'peri', 'perl', 'pero', 'pese', 'phal', 'phob', 'phém', 'pilo', 'piss', 'pitr', 'plaf', 'plau', 'plon', 'plos', 'plou', 'plue', 'plât', 'plée', 'poés', 'ppol', 'ppos', 'ppte', 'prev', 'prié', 'proq', 'prox', 'ptez', 'pugn', 'pull', 'pâli', 'pâte', 'pâtu', 'péfi', 'pélé', 'péna', 'pénu', 'pénè', 'péra', 'pétr', 'pétu', 'pôts', 'quas', 'quet', 'quun', 'quér', 'quét', 'raba', 'rabe', 'racl', 'rafi', 'rand', 'rani', 'rans', 'ranç', 'rapé', 'rari', 'rats', 'rayo', 'rben', 'rbés', 'rcha', 'rcés', 'rdai', 'rdie', 'reSÉ', 'rebu', 'refl', 'refo', 'reje', 'renf', 'renn', 'repe', 'rero', 'rett', 'reçû', 'rgen', 'rges', 'rice', 'rick', 'rigi', 'rine', 'riqu', 'rita', 'rito', 'ritu', 'rixe', 'riés', 'rlem', 'rloo', 'rman', 'rmie', 'rnen', 'rnic', 'rnés', 'robu', 'rogu', 'ronf', 'roos', 'roté', 'rouc', 'roui', 'rous', 'rouv', 'roît', 'rpel', 'rpem', 'rrie', 'rriv', 'rron', 'rser', 'rteu', 'rtin', 'ruis', 'runt', 'rust', 'rvan', 'rvoi', 'rvés', 'rçon', 'réar', 'récr', 'récu', 'réde', 'réfe', 'réfr', 'réin', 'réjo', 'rému', 'rêta', 'rêvé', 'sacs', 'sagé', 'sail', 'sale', 'samm', 'sani', 'satl', 'satr', 'saup', 'saxo', 'sayé', 'sbor', 'scab', 'sche', 'scié', 'scré', 'scul', 'scèn', 'seLE', 'seSE', 'sect', 'secu', 'sell', 'seri', 'serr', 'sers', 'sexe', 'sfér', 'shal', 'sias', 'sibl', 'sidé', 'sieu', 'sifs', 'sige', 'sill', 'simb', 'simi', 'sinu', 'sira', 'sirè', 'site', 'sixi', 'siég', 'smou', 'soeu', 'soif', 'somb', 'some', 'sord', 'sots', 'sott', 'soyo', 'sses', 'ssiv', 'ssoi', 'ssur', 'ssèd', 'stai', 'steu', 'stil', 'stin', 'stol', 'ston', 'styl', 'stée', 'stés', 'suas', 'subt', 'suic', 'suie', 'surc', 'surs', 'svaa', 'swaa', 'syph', 'séle', 'séme', 'séni', 'sévi', 'sévé', 'tSÉN', 'tabi', 'tach', 'taci', 'taqu', 'taur', 'taxe', 'tech', 'tect', 'tels', 'tema', 'tene', 'teno', 'tens', 'tern', 'test', 'teus', 'thèm', 'théo', 'tiat', 'tica', 'ticu', 'tiem', 'tifi', 'tigr', 'tile', 'timo', 'tint', 'tira', 'tiré', 'tisa', 'tist', 'tont', 'torc', 'torr', 'touv', 'traf', 'trat', 'trei', 'trez', 'trie', 'trit', 'ttai', 'ttan', 'ttaq', 'tten', 'tton', 'ttra', 'tues', 'tuni', 'tura', 'turb', 'tuée', 'type', 'tâto', 'tère', 'téma', 'témé', 'tére', 'uabl', 'uali', 'ublé', 'udes', 'udin', 'uerr', 'ueur', 'ueus', 'uion', 'uiss', 'ulab', 'ulèd', 'umen', 'umer', 'umes', 'unte', 'unée', 'uons', 'uper', 'uple', 'upor', 'urez', 'urgi', 'urit', 'urna', 'urnè', 'urro', 'urse', 'urvu', 'urée', 'usci', 'usée', 'usém', 'utie', 'utiq', 'utis', 'utum', 'utée', 'uvea', 'uvré', 'vacc', 'vape', 'vaqu', 'vein', 'veno', 'veui', 'vial', 'vici', 'viez', 'vigu', 'vina', 'vinr', 'vion', 'virg', 'viri', 'viso', 'viss', 'visé', 'viti', 'vity', 'voca', 'vols', 'volé', 'voût', 'vran', 'vrez', 'vété', 'vœux', 'wago', 'weil', 'with', 'xiqu', 'xonn', 'xons', 'xéno', 'yCIR', 'yent', 'yion', 'ymes', 'yons', 'your', 'zair', 'zepp', 'zèle', 'zéli', 'ÉDIT', 'ÉESS', 'ÉMAN', 'ÉMIE', 'ÉMIQ', 'ÉMUL', 'ÉPIS', 'ÉRAI', 'ÉSAI', 'ÉTAP', 'ÉTAT', 'ÉVEQ', 'ÉVOL', 'àLET', 'çons', 'ècle', 'ègne', 'ègre', 'èles', 'ènen', 'ènes', 'èrer', 'èsSÉ', 'ètem', 'ètes', 'ètre', 'èvre', 'écai', 'écio', 'éclo', 'écos', 'écre', 'écro', 'écur', 'édai', 'édan', 'éder', 'édér', 'éfia', 'éger', 'égoi', 'éhon', 'élan', 'élic', 'élog', 'élév', 'émic', 'émin', 'émiq', 'émoc', 'émou', 'émue', 'énig', 'énis', 'énég', 'énér', 'épan', 'épau', 'épee', 'épen', 'épil', 'épis', 'épri', 'éral', 'érir', 'érée', 'érém', 'ésum', 'étar', 'étei', 'étin', 'étou', 'étéL', 'étéS', 'évac', 'éven', 'évol', 'évue', 'évus', 'éxéc', 'êmem', 'êten', 'îtra', 'ûete', 'ûtée', 'œill']
#Number of occurrences: 200
common_4grams = ['AINE', 'ALEX', 'AMBA', 'ANDE', 'ARIS', 'Admi', 'Arro', 'Assi', 'Auto', 'Baco', 'Berg', 'Bray', 'Buis', 'Choa', 'Cobl', 'Colu', 'Creu', 'Dard', 'Dato', 'Desc', 'Déba', 'Démo', 'ECTI', 'ENNE', 'Enqu', 'Foch', 'Fédé', 'GIDE', 'Gast', 'Grou', 'HABI', 'HOIS', 'Hell', 'Impo', 'Jone', 'Juig', 'Jupi', 'LITÉ', 'Luci', 'MUNI', 'Marg', 'Myia', 'OLAN', 'ONAL', 'ORBI', 'ORDI', 'Parc', 'Plut', 'Pren', 'Rigo', 'Répo', 'SAIN', 'SSAD', 'Schn', 'Solv', 'Supé', 'TORI', 'Thra', 'WALL', 'Wilb', 'Wrig', 'abdi', 'aigu', 'aiso', 'aret', 'avag', 'avoc', 'bail', 'bana', 'bani', 'bava', 'bite', 'bull', 'casi', 'cept', 'chen', 'chèq', 'cian', 'clus', 'colp', 'cupa', 'disg', 'doct', 'dîné', 'eide', 'ends', 'ener', 'enfl', 'engr', 'enor', 'entz', 'enus', 'escl', 'espa', 'espi', 'esté', 'faim', 'fals', 'fens', 'fenê', 'fièr', 'frac', 'frei', 'fren', 'fuit', 'galv', 'gars', 'garç', 'giss', 'gles', 'gneu', 'gnol', 'guei', 'hane', 'heri', 'iait', 'ibut', 'icis', 'ield', 'igny', 'inap', 'inla', 'ints', 'itué', 'jaun', 'klin', 'lave', 'lavé', 'lica', 'liss', 'léan', 'mate', 'mato', 'mbia', 'meut', 'mide', 'minu', 'mist', 'nché', 'nglo', 'ngés', 'nici', 'nonc', 'noté', 'ntiv', 'nére', 'ocat', 'ocri', 'oité', 'orag', 'orth', 'orté', 'osan', 'osen', 'oste', 'pait', 'pani', 'pann', 'pari', 'payi', 'pitt', 'poèt', 'prit', 'ptab', 'pées', 'péti', 'quem', 'rdag', 'rdir', 'reha', 'rive', 'rièm', 'rrec', 'rtis', 'râce', 'régn', 'rétr', 'réve', 'seil', 'sire', 'siss', 'spos', 'sémi', 'tact', 'tamm', 'tolé', 'turp', 'uade', 'uadé', 'udem', 'uièm', 'ussé', 'veté', 'vier', 'vigi', 'vila', 'volt', 'épai', 'éphé', 'érie']
#War_unique vs GT
#Number of occurrences: 112
war_unique_unique_2grams = ['AD', 'AI', 'AU', 'At', 'Ay', 'Aô', 'BE', 'CU', 'Cr', 'D9', 'Da', 'Di', 'Do', 'EA', 'EG', 'Ec', 'FA', 'Fa', 'Gu', 'HR', 'HT', 'He', 'ID', 'IL', 'IM', 'IQ', 'IS', 'IX', 'It', 'Jo', 'LI', 'Lé', 'MO', 'Me', 'Mê', 'OC', 'Oc', 'Or', 'Ot', 'PE', 'PR', 'PU', 'Pi', 'Pl', 'RA', 'RN', 'RS', 'RT', 'Re', 'Ru', 'Ré', 'SA', 'SL', 'SO', 'Se', 'Si', 'TU', 'Ti', 'UG', 'UI', 'US', 'UX', 'VO', 'Ve', 'aj', 'bâ', 'bé', 'ck', 'cy', 'cè', 'dn', 'eS', 'eg', 'ey', 'eé', 'fé', 'gh', 'gâ', 'gê', 'hn', 'hô', 'lf', 'lg', 'lm', 'lq', 'ls', 'mn', 'mu', 'nl', 'nô', 'ov', 'rô', 'sL', 'sS', 'tê', 'uo', 'vè', 'xq', 'xt', 'ya', 'ze', 'ÇU', 'ÉS', 'ÉT', 'àc', 'èd', 'èm', 'éa', 'éj', 'êm', 'ïs', 'ôt']
#Number of occurrences: 124
gt_unique_2grams = ['AO', 'Ah', 'Bâ', 'CÉ', 'CÔ', 'Cé', 'DM', 'Dû', 'EO', 'EW', 'FL', 'FT', 'FÉ', 'Fê', 'Fû', 'GD', 'Gl', 'HC', 'HS', 'HÉ', 'IP', 'Jé', 'Km', 'Ku', 'MS', 'MT', 'NL', 'NZ', 'Nö', 'OA', 'OK', 'OO', 'Oe', 'Os', 'PY', 'Pâ', 'RB', 'RQ', 'RÈ', 'SN', 'SY', 'Sq', 'TZ', 'Tc', 'Tâ', 'UB', 'Uk', 'Up', 'UÊ', 'Vl', 'WO', 'WY', 'Wr', 'XY', 'Xa', 'Zo', 'aL', 'ae', 'aï', 'bj', 'bt', 'c…', 'dh', 'dà', 'fC', 'gb', 'hf', 'hs', 'ht', 'hw', 'iP', 'iâ', 'iò', 'kf', 'km', 'lw', 'mâ', 'n!', 'nL', 'nS', 'nâ', 'nê', 'oa', 'ok', 'qe', 'rL', 'ry', 'rz', 'râ', 'sv', 'sw', 't?', 'tC', 'tS', 'tf', 'tè', 'vy', 'vœ', 'we', 'yC', 'yc', 'yf', 'yn', 'yr', 'yt', 'zi', 'zu', 'zé', 'ÉD', 'ÏV', 'àL', 'ân', 'çû', 'éL', 'éS', 'éx', 'éz', 'ët', 'îf', 'ïo', 'ôm', 'ùp', 'ûe', 'œi']
#Number of occurrences: 8
common_2grams = ['cq', 'eo', 'nb', 'nz', 'sd', 'uq', 'xa', 'zè']
#Number of occurrences: 435
war_unique_unique_3grams = ['ACQ', 'AFF', 'ANS', 'ARM', 'Als', 'Arm', 'Atl', 'Auj', 'Aut', 'Aya', 'Aôu', 'BEA', 'Bel', 'Bla', 'Bou', 'CAI', 'CAR', 'CAV', 'CRE', 'CRI', 'Can', 'Car', 'Cet', 'Cré', 'DEU', 'DNO', 'DRE', 'Day', 'Dim', 'Dot', 'Dup', 'Duq', 'DÉC', 'DÉS', 'ENG', 'ERD', 'ETR', 'EUR', 'Ech', 'Env', 'Esp', 'Est', 'Far', 'For', 'Fri', 'God', 'Gol', 'Gra', 'Gri', 'Gue', 'Has', 'Hen', 'Hol', 'Hon', 'Hot', 'INI', 'ITA', 'Ils', 'Ita', 'IÉT', 'J!a', 'Jau', 'Joh', 'LAN', 'LIE', 'LLA', 'Lor', 'Loz', 'Lég', 'MOR', 'Mar', 'Mat', 'May', 'Min', 'Mor', 'Mus', 'Mêm', 'NCA', 'NEG', 'NOT', 'NQU', 'Nip', 'Nor', 'Nov', 'OCC', 'ONS', 'ORT', 'Oct', 'Ora', 'Ote', 'P.S', 'PAI', 'PLU', 'POP', 'PRÉ', 'Pic', 'Plu', 'Poi', 'Pos', 'Pro', 'Pub', 'REA', 'REÇ', 'RUH', 'Rev', 'Rhé', 'Ruy', 'RÉP', 'SID', 'SLE', 'SOC', 'SUP', 'Sen', 'TIO', 'Tan', 'Tim', 'Tol', 'Tra', 'Tri', 'UGH', 'ULA', 'UPA', 'URE', 'UTÉ', 'VAI', 'VOT', 'Ver', 'Vic', 'Viv', 'ada', 'ade', 'adn', 'ado', 'agg', 'agi', 'agn', 'aib', 'ajo', 'alq', 'ame', 'amu', 'anx', 'apo', 'arb', 'ard', 'asi', 'ast', 'avd', 'ayo', 'aça', 'bia', 'bor', 'bri', 'bât', 'cai', 'can', 'car', 'cas', 'caz', 'chi', 'cip', 'cir', 'civ', 'cla', 'clu', 'coe', 'crè', 'cré', 'cta', 'cts', 'cun', 'cut', 'céd', 'cés', 'dai', 'dia', 'dic', 'did', 'dim', 'dip', 'doc', 'dun', 'dut', 'dég', 'eau', 'eid', 'ela', 'els', 'ene', 'enr', 'enu', 'era', 'erg', 'ern', 'erp', 'esc', 'esm', 'ets', 'ett', 'euv', 'evo', 'eàc', 'far', 'fia', 'fic', 'fir', 'fié', 'fru', 'fum', 'fus', 'gas', 'gau', 'giq', 'gir', 'gou', 'goû', 'gro', 'guè', 'gué', 'gât', 'gên', 'hai', 'haï', 'hiv', 'hod', 'hor', 'hou', 'hte', 'hts', 'hum', 'hôt', 'ibl', 'idé', 'ies', 'ifs', 'igé', 'imb', 'inj', 'inq', 'inr', 'ism', 'iso', 'isp', 'ito', 'iva', 'ivr', 'ièr', 'jan', 'jet', 'jup', 'kel', 'lat', 'lec', 'lei', 'lev', 'lib', 'lim', 'lio', 'lut', 'lée', 'lés', 'lôm', 'mau', 'mbr', 'mee', 'mei', 'mem', 'min', 'mod', 'moq', 'mps', 'mpé', 'mul', 'mèr', 'méd', 'mée', 'mér', 'm€l', 'nav', 'naî', 'nbe', 'nca', 'nco', 'ncu', 'ndu', 'neg', 'nen', 'net', 'nge', 'nit', 'niè', 'nné', 'nob', 'noi', 'nor', 'nsa', 'nsd', 'nsi', 'ntô', 'nui', 'num', 'nze', 'nés', 'nôt', 'obr', 'ocr', 'ogi', 'oig', 'oli', 'olu', 'olv', 'omn', 'ona', 'onç', 'ope', 'orb', 'orm', 'oug', 'oui', 'oul', 'out', 'oux', 'oye', 'oût', 'pal', 'pan', 'pau', 'pel', 'pit', 'plé', 'ppe', 'pra', 'pru', 'ptu', 'pue', 'pun', 'pus', 'pèr', 'pén', 'pêc', 'rap', 'rar', 'rav', 'rdo', 'reg', 'reç', 'rgi', 'rgé', 'rhé', 'rib', 'rme', 'roy', 'rpe', 'rqu', 'rsu', 'rte', 'rub', 'rço', 'règ', 'rès', 'réd', 'sag', 'sal', 'sca', 'sep', 'sis', 'six', 'sme', 'sot', 'spé', 'ssi', 'sto', 'sua', 'suc', 'suf', 'suj', 'sèd', 'sée', 'séj', 'sév', 'tas', 'tex', 'thé', 'tib', 'tif', 'tnu', 'tod', 'tot', 'tru', 'trô', 'tté', 'tué', 'tér', 'têt', 'uab', 'uai', 'uan', 'ubl', 'uct', 'udi', 'uiè', 'uli', 'ulu', 'una', 'uns', 'uné', 'upi', 'upp', 'uré', 'usi', 'usé', 'vea', 'vex', 'via', 'vil', 'viè', 'voc', 'vue', 'véc', 'vér', 'xéc', 'èsS', 'éci', 'écl', 'édi', 'éga', 'éli', 'élé', 'émo', 'épe', 'épo', 'épu', 'évi', 'êch', 'ête']
#Number of occurrences: 1052
gt_unique_3grams = ['ABD', 'ABO', 'ABU', 'ACE', 'ACH', 'ACY', 'ADI', 'ADM', 'ADV', 'AGG', 'AGN', 'AGR', 'AHI', 'AII', 'AIL', 'ALE', 'ALI', 'ALS', 'ALV', 'ALZ', 'AMO', 'ARE', 'ARI', 'ARR', 'ARÉ', 'ATS', 'ATU', 'AUD', 'AUG', 'AUN', 'AUP', 'AVr', 'AYS', 'Abb', 'Abo', 'Abr', 'Acc', 'Acq', 'Act', 'Adj', 'Adm', 'Ado', 'Ais', 'Ala', 'Alc', 'Alf', 'Ani', 'Ans', 'Anv', 'Arg', 'Ark', 'Ate', 'Aud', 'Avi', 'Aye', 'Ayo', 'BAG', 'BAN', 'BAT', 'BAU', 'BES', 'BIB', 'BLU', 'BOO', 'BOR', 'BRU', 'Bas', 'Bay', 'Beb', 'Bid', 'Ble', 'Boc', 'Boi', 'Boë', 'Brê', 'Brû', 'Bud', 'Bui', 'Buq', 'BÉA', 'BÉN', 'Bâl', 'CAC', 'CAT', 'CAU', 'CEP', 'CHS', 'CHa', 'CIN', 'CLA', 'CLU', 'CLÉ', 'COL', 'COS', 'COT', 'CRO', 'CTO', 'CUL', 'CUR', 'CUT', 'Chu', 'Cil', 'Cin', 'Civ', 'Coa', 'Cob', 'Coq', 'Cot', 'Cre', 'CÉR', 'CÔT', 'Cés', 'DAD', 'DAL', 'DAV', 'DAY', 'DEC', 'DEL', 'DEN', 'DEP', 'DER', 'DEV', 'DIC', 'DID', 'DIF', 'DIG', 'DIM', 'DIN', 'DIO', 'DIV', 'DOI', 'DUM', 'DUP', 'DWI', 'Dam', 'Dar', 'Dat', 'Dav', 'Dev', 'Dif', 'Dij', 'Dip', 'Doc', 'Dru', 'Duf', 'Dun', 'Dur', 'Dut', 'DÉJ', 'DÉL', 'DÉN', 'DÉR', 'Déb', 'Dér', 'ECR', 'EDA', 'EID', 'EIM', 'ELY', 'ENF', 'ENN', 'ENR', 'ENX', 'EOT', 'ERC', 'ERE', 'ERV', 'ESÉ', 'ETE', 'ETH', 'ETS', 'ETÉ', 'EVE', 'EXE', 'EXP', 'EXÉ', 'Ecr', 'Edo', 'Edw', 'Ele', 'Emb', 'End', 'Enq', 'Enr', 'Ens', 'Eri', 'Erm', 'Etc', 'Eve', 'Evi', 'Exa', 'Exp', 'FAL', 'FAV', 'FEU', 'FIA', 'FIC', 'FID', 'FIE', 'FIG', 'FIT', 'FLÉ', 'FOC', 'FOI', 'FOU', 'FRE', 'FUN', 'FUR', 'FUT', 'Fam', 'Fau', 'Fay', 'Fel', 'Fle', 'Foc', 'Foy', 'Fro', 'Fré', 'FÉL', 'Féd', 'Fél', 'Fêt', 'Fût', 'GAI', 'GAL', 'GID', 'GIN', 'GIQ', 'GLA', 'GNE', 'GNI', 'GNÉ', 'GRO', 'GRÈ', 'GUI', 'Gai', 'Gan', 'Gid', 'Gla', 'Gro', 'Géo', 'HAV', 'HOT', 'HUY', 'Hab', 'Hal', 'Hat', 'Hei', 'Hel', 'Hil', 'Hir', 'His', 'Hos', 'Hug', 'Hyd', 'Hym', 'HÉC', 'IAL', 'ICA', 'IEL', 'IFE', 'IFI', 'IGN', 'III', 'ILS', 'IMA', 'INC', 'IND', 'INE', 'INF', 'ING', 'INO', 'INQ', 'IRC', 'IRO', 'IRÉ', 'ISA', 'ISV', 'ITS', 'IVÉ', 'IXS', 'Ila', 'Ill', 'Imp', 'Inc', 'Ing', 'Irl', 'Iro', 'IÉS', 'JOR', 'JUI', 'JUP', 'JUS', 'Jol', 'Jon', 'Jos', 'Jua', 'Jup', 'Juv', 'Jér', 'KBe', 'KEL', 'KER', 'KIN', 'KSÉ', 'Kru', 'Kul', 'LAG', 'LAI', 'LAL', 'LCO', 'LEA', 'LEC', 'LEI', 'LEO', 'LIA', 'LIB', 'LIG', 'LIM', 'LIN', 'LIO', 'LIP', 'LIT', 'LIZ', 'LIÉ', 'LOR', 'LQU', 'LUI', 'LUS', 'LUT', 'LUX', 'Lac', 'Lau', 'Led', 'Len', 'Lep', 'Lie', 'Liè', 'Loq', 'Low', 'MAG', 'MAJ', 'MAM', 'MAX', 'MAY', 'MBE', 'MET', 'MEZ', 'MIN', 'MOD', 'MOI', 'MOU', 'MOY', 'MUO', 'MUR', 'MUS', 'MUT', 'Mak', 'Max', 'Maî', 'Mez', 'Mic', 'Mid', 'Mie', 'Mim', 'Moc', 'Mrs', 'Myi', 'MÉM', 'Mél', 'NAC', 'NAI', 'NCH', 'NCK', 'NCU', 'NDA', 'NDM', 'NDO', 'NEA', 'NED', 'NEZ', 'NIR', 'NIS', 'NIT', 'NIV', 'NOG', 'NOI', 'NOL', 'NON', 'NOP', 'NOV', 'NOW', 'NSP', 'Nes', 'Nog', 'Noi', 'Nom', 'NÉR', 'Nöé', 'OBI', 'OBR', 'OCE', 'OCT', 'OLA', 'OLS', 'OMO', 'ONC', 'ONI', 'ONN', 'OPU', 'ORB', 'ORC', 'ORD', 'ORI', 'ORM', 'OUT', 'Oeu', 'Ois', 'One', 'Osc', 'Otl', 'Ott', 'PAC', 'PAÏ', 'PEA', 'PET', 'PHI', 'PHO', 'PIC', 'PIR', 'PLI', 'PON', 'PTO', 'PUB', 'PYR', 'Pei', 'Pey', 'Pia', 'Pir', 'Ple', 'Plé', 'Poo', 'Pry', 'PÉN', 'PÉS', 'Pâl', 'QUÊ', 'RAC', 'RAL', 'RAM', 'RAV', 'RAY', 'RBO', 'REM', 'REW', 'RGA', 'RHU', 'RIA', 'RIF', 'RKA', 'RLA', 'RNI', 'ROG', 'ROQ', 'ROS', 'ROU', 'RRA', 'RRY', 'RUE', 'RUT', 'Rab', 'Rai', 'Ras', 'Rhô', 'Ric', 'Rig', 'Rom', 'RÉA', 'RÉE', 'RÉF', 'RÉG', 'RÉU', 'RÉV', 'Réa', 'Réd', 'Réf', 'Réi', 'Rôl', 'Rôt', 'SAC', 'SAG', 'SAI', 'SCH', 'SEB', 'SEQ', 'SHA', 'SHI', 'SIE', 'SIL', 'SIX', 'SNE', 'SOI', 'SOL', 'SOT', 'STI', 'STU', 'SUE', 'SUS', 'SXN', 'SYM', 'Sab', 'Sac', 'Sco', 'Sea', 'Sel', 'Seq', 'Set', 'Sia', 'Six', 'Sla', 'Slo', 'Spa', 'Spe', 'Spo', 'Squ', 'Sta', 'Sté', 'Sul', 'Sué', 'Syd', 'SÉE', 'SÉP', 'Séc', 'Sév', 'TAF', 'TAN', 'TAU', 'TED', 'TET', 'TEU', 'TEX', 'TEY', 'THC', 'TIC', 'TIS', 'TJO', 'TLI', 'TOG', 'TOL', 'TOR', 'TRO', 'TUD', 'TUL', 'TUT', 'TZA', 'Tag', 'Tal', 'Tap', 'Tch', 'Ten', 'Tex', 'The', 'Thr', 'Tig', 'Tom', 'Tré', 'Tsa', 'Tse', 'Tsi', 'Tuc', 'TÉS', 'Tâc', 'UBE', 'UCO', 'UEI', 'UEL', 'UEN', 'UFF', 'UGA', 'UIÉ', 'UJE', 'ULL', 'ULT', 'UMB', 'UMO', 'UPO', 'USS', 'UTE', 'UZE', 'Ukr', 'Upt', 'VEA', 'VEG', 'VEU', 'VIE', 'VII', 'VIN', 'VIS', 'VOI', 'VOS', 'VOU', 'Var', 'Vez', 'Vie', 'Vit', 'Vla', 'Voc', 'WAG', 'WEL', 'WET', 'WHE', 'WHI', 'WOR', 'WYT', 'Wag', 'Wal', 'Wat', 'Wes', 'Whh', 'Whi', 'Wia', 'Wri', 'XAN', 'XEL', 'XNX', 'XXV', 'XXe', 'XYX', 'Xav', 'YEA', 'YFU', 'YLE', 'You', 'ZAN', 'ZEP', 'Zor', 'aLE', 'abd', 'abn', 'aco', 'acr', 'acu', 'adh', 'akf', 'alt', 'alw', 'ama', 'aok', 'api', 'apl', 'apt', 'apè', 'arp', 'aum', 'ayi', 'aïe', 'bac', 'bav', 'baz', 'baï', 'bir', 'boy', 'boî', 'buv', 'bél', 'cce', 'ccl', 'cdo', 'ceL', 'chs', 'ciè', 'clo', 'cod', 'coh', 'coé', 'coù', 'crê', 'ctu', 'cud', 'cue', 'cué', 'cyc', 'cèl', 'cém', 'cœe', 'd!u', 'd!é', 'deA', 'deC', 'dol', 'doy', 'dré', 'dst', 'dèj', 'déa', 'déà', 'déç', 'dôm', 'dûr', 'eai', 'ecr', 'ecy', 'egg', 'egr', 'eiv', 'elb', 'elm', 'enL', 'eno', 'eot', 'epl', 'erl', 'esa', 'eth', 'etl', 'exh', 'exo', 'ezS', 'fCl', 'fch', 'ffo', 'fiâ', 'flâ', 'flè', 'fos', 'frê', 'fug', 'gby', 'gch', 'gez', 'ghb', 'ght', 'gic', 'gil', 'gio', 'gis', 'giv', 'gme', 'gog', 'gor', 'gua', 'gum', 'géa', 'gém', 'hac', 'ham', 'hea', 'hez', 'hib', 'hid', 'hig', 'hil', 'hit', 'hla', 'hni', 'hno', 'hro', 'hur', 'hyd', 'hèl', 'hém', 'iag', 'ias', 'icy', 'ido', 'idy', 'idè', 'iet', 'ilL', 'ilS', 'ily', 'inL', 'inl', 'iou', 'ipi', 'ipp', 'ipr', 'izé', 'ièc', 'ièt', 'iér', 'jau', 'jon', 'jux', 'kai', 'ker', 'kgs', 'kin', 'laD', 'lal', 'lap', 'lax', 'le:', 'leL', 'leX', 'lfo', 'lga', 'lge', 'lhe', 'lho', 'llè', 'lop', 'low', 'lpt', 'lté', 'luc', 'lug', 'lul', 'lèl', 'lèm', 'lèn', 'lém', 'lén', 'lér', 'lét', 'léz', 'mba', 'meL', 'meS', 'mic', 'mmo', 'mol', 'mpo', 'mpt', 'mpu', 'mte', 'mât', 'mèd', 'méa', 'mél', 'mêt', 'n!e', 'naa', 'nae', 'nas', 'nck', 'ncé', 'ndf', 'ndh', 'neS', 'nei', 'new', 'nga', 'ngr', 'nia', 'nin', 'nog', 'nol', 'nop', 'nsb', 'nse', 'nsv', 'nsw', 'nsé', 'ntr', 'nâi', 'nèr', 'nèt', 'nêt', 'obe', 'ody', 'okl', 'old', 'ong', 'ony', 'orn', 'oro', 'orp', 'orq', 'orç', 'osm', 'ott', 'oud', 'ovi', 'oyo', 'pbe', 'phè', 'piq', 'plâ', 'poè', 'poé', 'ppa', 'ppr', 'ppt', 'pâl', 'pél', 'pêt', 'pôt', 'quu', 'qûe', 'rLe', 'rSÉ', 'rdu', 'reh', 'rei', 'rgu', 'rin', 'rix', 'rli', 'rmi', 'rnu', 'rog', 'rol', 'roo', 'rpi', 'rtu', 'rup', 'rur', 'rut', 'rvo', 'rça', 'réi', 'sDU', 'say', 'sbo', 'sco', 'scu', 'scè', 'seL', 'seS', 'sea', 'sex', 'sha', 'sié', 'siò', 'soe', 'ssu', 'ssè', 'sty', 'stè', 'sum', 'syp', 'sél', 'tLe', 'tSÉ', 'tad', 'tax', 'teL', 'teS', 'teb', 'thf', 'thm', 'tig', 'tiè', 'tle', 'tol', 'toy', 'tsc', 'tsm', 'ttl', 'tui', 'tup', 'tva', 'typ', 'tât', 'tèg', 'tén', 'ual', 'uar', 'udf', 'ufa', 'ugh', 'uid', 'uin', 'uio', 'ull', 'ulm', 'ulé', 'umb', 'und', 'upo', 'uxé', 'uzo', 'ués', 'vap', 'vaq', 'vay', 'vié', 'voû', 'vro', 'vyC', 'vét', 'vœu', 'wan', 'war', 'weg', 'wei', 'wil', 'wit', 'wsk', 'xal', 'xim', 'xiq', 'xis', 'xpu', 'xtr', 'xxt', 'xxx', 'xén', 'yas', 'yer', 'yfu', 'yio', 'ylo', 'you', 'zac', 'zep', 'ziè', 'zon', 'zun', 'zèl', 'ÉAB', 'ÉES', 'ÉFI', 'ÉGU', 'ÉMA', 'ÉMO', 'ÉMU', 'ÉNI', 'ÉPE', 'ÉPI', 'ÉTR', 'ÉVE', 'ÉVO', 'àLE', 'çoi', 'èce', 'ècl', 'ègn', 'ègr', 'èvr', 'éLE', 'éal', 'écu', 'éde', 'éen', 'éer', 'ého', 'émè', 'émé', 'éon', 'ésu', 'évy', 'éxé', 'éée', 'êlé', 'êti', 'êto', 'êtu', 'îné', 'ûme', 'œil']
#Number of occurrences: 40
common_3grams = ['Cap', 'Dét', 'EME', 'Hoh', 'IMP', 'Jac', 'Lal', 'Lic', 'NCI', 'NDS', 'RKL', 'Rés', 'TAL', 'TIN', 'TIQ', 'UIT', 'avu', 'cig', 'cyn', 'dal', 'dua', 'enz', 'eui', 'gni', 'géo', 'ibi', 'igr', 'ièm', 'jud', 'lco', 'nmo', 'omi', 'oti', 'rsa', 'rsi', 'réj', 'tla', 'tum', 'tég', 'xes']
#Number of occurrences: 730
war_unique_unique_4grams = ['ACQU', 'ADNO', 'AFFA', 'ALIT', 'Alsa', 'Arma', 'Atla', 'Aujo', 'Auss', 'Ayan', 'Aôut', 'BEAU', 'Belg', 'Blan', 'Bour', 'Brio', 'CARN', 'CAVA', 'CREA', 'CRIT', 'Capi', 'Carn', 'Cett', 'Chac', 'Cham', 'Chaq', 'Char', 'Choe', 'Colb', 'Comi', 'Créa', 'D9ic', 'DEUI', 'Dayt', 'Dima', 'Dota', 'Dupl', 'Duqu', 'DÉSA', 'Défa', 'Défe', 'EGIE', 'EMAN', 'ENGL', 'ERLE', 'ETRE', 'Enve', 'Espa', 'Etan', 'Farg', 'Forc', 'Frio', 'Goda', 'Golf', 'Gran', 'Griè', 'Guer', 'Hase', 'Henr', 'Holl', 'Hote', 'IDEN', 'IEME', 'IMPO', 'IQUE', 'ITTÉ', 'Ital', 'J!au', 'Jaur', 'John', 'LAIR', 'LAUX', 'LLIN', 'Lall', 'Lasc', 'Lass', 'Lorr', 'Lozè', 'Légi', 'MAND', 'MBRE', 'MENT', 'MILI', 'MILL', 'Main', 'Mati', 'Maye', 'Mini', 'Musi', 'Même', 'NATI', 'NATU', 'NOTR', 'Nipp', 'Nord', 'Nove', 'OCCU', 'Octo', 'Orat', 'PAIX', 'PARL', 'PATI', 'PLUS', 'POPU', 'PRÉS', 'Paci', 'Parl', 'Parm', 'Plus', 'Poin', 'Post', 'Prof', 'Publ', 'Quel', 'Quoi', 'Quos', 'RDRE', 'RESL', 'REÇU', 'RMEM', 'RTUN', 'RUHR', 'Revu', 'Rhén', 'Ruyt', 'RÉPO', 'SOCI', 'SUPE', 'Senl', 'TRAI', 'Tand', 'Time', 'Toll', 'Trai', 'UGHT', 'VAIN', 'VIEN', 'VOTR', 'Verd', 'Vict', 'Vosg', 'abri', 'abse', 'abso', 'ache', 'acré', 'acte', 'adil', 'aggr', 'agit', 'aide', 'aidé', 'aill', 'aima', 'aime', 'aire', 'aisa', 'aiss', 'ajou', 'ales', 'alla', 'alli', 'ambi', 'amir', 'amit', 'amme', 'amou', 'amus', 'anci', 'anda', 'anie', 'anne', 'anni', 'anno', 'anth', 'anti', 'anxi', 'apot', 'appa', 'appo', 'arai', 'arbr', 'arge', 'argu', 'aris', 'arrê', 'arus', 'asil', 'assi', 'atie', 'attr', 'atur', 'auro', 'auta', 'auxq', 'avdr', 'avia', 'avis', 'avug', 'azes', 'berl', 'bi-q', 'biai', 'bili', 'blem', 'blir', 'bond', 'bons', 'bout', 'breS', 'brun', 'bâto', 'caba', 'cabo', 'cain', 'calo', 'cama', 'cand', 'caré', 'cati', 'caus', 'cess', 'ceàc', 'chas', 'chez', 'chif', 'chis', 'choq', 'chée', 'ciel', 'cile', 'cipa', 'circ', 'civi', 'coeu', 'conq', 'conç', 'crat', 'cris', 'crép', 'ctem', 'culp', 'curr', 'céré', 'dant', 'dati', 'dens', 'dent', 'desc', 'dess', 'diat', 'dict', 'dimi', 'dipl', 'dira', 'dise', 'dixi', 'dock', 'dram', 'drea', 'duct', 'dura', 'dèsL', 'débu', 'déca', 'décr', 'décè', 'défi', 'dégo', 'déli', 'délu', 'déni', 'déno', 'dépa', 'dépi', 'déta', 'détr', 'eait', 'effo', 'efor', 'egie', 'eign', 'eler', 'eley', 'empl', 'empo', 'empt', 'empê', 'encé', 'enda', 'ennu', 'enri', 'ento', 'ents', 'envi', 'eons', 'epti', 'erma', 'esne', 'espè', 'espé', 'esrê', 'esti', 'et-2', 'eten', 'eter', 'etie', 'etté', 'eure', 'even', 'excl', 'exer', 'exig', 'expr', 'expé', 'fame', 'fard', 'fata', 'faud', 'faus', 'fave', 'favo', 'ferm', 'fica', 'fidé', 'fonc', 'form', 'frui', 'fume', 'féco', 'gasp', 'gauc', 'germ', 'giqu', 'gloi', 'glor', 'gnai', 'gner', 'gnes', 'gnée', 'gouv', 'goût', 'grap', 'gumè', 'gura', 'gure', 'guèr', 'gués', 'gâte', 'gêne', 'hain', 'haïs', 'hies', 'hono', 'huma', 'héos', 'hôte', 'iale', 'ianc', 'ibli', 'ibue', 'idat', 'idée', 'idér', 'ieux', 'ifie', 'ifié', 'igna', 'igne', 'ilit', 'illu', 'imbé', 'imes', 'immi', 'immé', 'impa', 'impé', 'inat', 'incr', 'indu', 'inen', 'ines', 'infa', 'inge', 'inju', 'inqu', 'insi', 'invi', 'invr', 'inév', 'ioti', 'iptu', 'ires', 'irée', 'isol', 'issa', 'isée', 'itab', 'itai', 'iten', 'iteu', 'itoi', 'itté', 'ités', 'iète', 'iées', 'janv', 'jupi', 'labl', 'laie', 'lamm', 'lanc', 'libe', 'lité', 'lièr', 'llem', 'loni', 'lque', 'luti', 'lutt', 'lysé', 'malv', 'mast', 'mauv', 'mbla', 'mble', 'meet', 'meil', 'meme', 'mine', 'mini', 'mire', 'mobi', 'mode', 'mois', 'moni', 'moqu', 'mots', 'mouv', 'mpar', 'mphe', 'mult', 'médi', 'métr', 'nale', 'natr', 'naug', 'nava', 'naît', 'ncen', 'nche', 'ndon', 'ndée', 'neme', 'nent', 'nett', 'neuv', 'nhei', 'nier', 'nité', 'nnus', 'nobl', 'norm', 'note', 'nren', 'nser', 'ntab', 'ntes', 'ntie', 'ntiq', 'ntre', 'nuit', 'null', 'numé', 'néme', 'nôtr', 'obsc', 'odon', 'olog', 'omie', 'on-3', 'onde', 'onds', 'onis', 'onné', 'onsd', 'onst', 'onte', 'opol', 'ordr', 'orme', 'oser', 'outr', 'ouvr', 'oyer', 'pant', 'paru', 'patr', 'pauv', 'payé', 'pent', 'piti', 'pité', 'plan', 'plaq', 'plat', 'plei', 'ples', 'plin', 'plut', 'poig', 'post', 'ppor', 'prat', 'prog', 'pron', 'pros', 'prou', 'prov', 'prud', 'préd', 'préj', 'pues', 'puné', 'père', 'péen', 'pêch', 'qual', 'quar', 'quat', 'quit', 'rain', 'rale', 'rall', 'rame', 'ramm', 'raph', 'rapp', 'rare', 'rdon', 'rece', 'refe', 'refu', 'regr', 'rela', 'rell', 'remi', 'remo', 'remp', 'rens', 'rent', 'resp', 'retr', 'revi', 'revo', 'revu', 'reçu', 'rgur', 'rhét', 'rich', 'rier', 'rion', 'rire', 'risq', 'riss', 'risé', 'riét', 'rmai', 'rméd', 'romi', 'ront', 'rosi', 'rota', 'rqua', 'rque', 'rras', 'rrés', 'rtai', 'rtan', 'rtem', 'rtie', 'ruba', 'rven', 'règl', 'rète', 'réag', 'réal', 'réci', 'rées', 'régu', 'réta', 'réus', 'révi', 'révé', 'rôlé', 'sage', 'sant', 'sate', 'savi', 'scan', 'sema', 'seme', 'sept', 'sess', 'seur', 'sfac', 'sian', 'sinc', 'smai', 'soie', 'soin', 'soir', 'sola', 'sole', 'soli', 'soul', 'souv', 'spec', 'spen', 'ssad', 'ssam', 'ssim', 'stan', 'stes', 'stre', 'stèr', 'subl', 'subo', 'succ', 'suff', 'suje', 'supp', 'supé', 'sure', 'séjo', 'sévè', 'sûrs', 'tais', 'tand', 'tass', 'tati', 'tatr', 'tenb', 'teni', 'tenu', 'tera', 'teur', 'text', 'thod', 'tici', 'tien', 'tier', 'time', 'timi', 'tina', 'tiqu', 'titr', 'tive', 'tocr', 'tons', 'torp', 'tota', 'trai', 'tres', 'trib', 'tric', 'trio', 'trod', 'trom', 'truc', 'ttre', 'tuen', 'tête', 'uait', 'uasi', 'uden', 'udic', 'uell', 'umac', 'unan', 'unic', 'unif', 'uniq', 'unis', 'uoti', 'urat', 'urne', 'uscu', 'usse', 'ussi', 'uvai', 'uves', 'uvri', 'vail', 'vaut', 'veli', 'veni', 'vert', 'vexa', 'vieu', 'vill', 'vita', 'vite', 'voic', 'voit', 'vole', 'vote', 'voud', 'vult', 'vécu', 'véri', 'xécu', 'yées', 'çoit', 'éces', 'écla', 'écon', 'écut', 'égar', 'élec', 'élev', 'élém', 'émat', 'épou', 'épre', 'épui', 'éten', 'étoi', 'éton', 'évit']
#Number of occurrences: 2321
gt_unique_4grams = ['ABDI', 'ABLE', 'ABOR', 'ABUS', 'ACCE', 'ACHE', 'ADIE', 'ADMI', 'ADVI', 'AGAN', 'AGAR', 'AGEO', 'AGGR', 'AGIO', 'AGNA', 'AGNE', 'AGRÉ', 'AINE', 'AINÉ', 'AISE', 'ALEX', 'ALIS', 'ALLA', 'ALSA', 'ALVA', 'ALZA', 'AMBA', 'AMBU', 'AMEN', 'ANDE', 'ANIL', 'ANNE', 'ANTE', 'ANTI', 'ANTO', 'ARAN', 'ARDU', 'ARIS', 'ARRI', 'ASSA', 'ASSI', 'ASTE', 'ATIT', 'ATIV', 'AUDE', 'AUGU', 'AUPR', 'AURA', 'AVEC', 'AVEN', 'AVIS', 'AVri', 'AVÉE', 'Abbé', 'Abol', 'Abra', 'Acce', 'Acqu', 'Actu', 'Adjo', 'Admi', 'Adol', 'Aisn', 'Alan', 'Albi', 'Alca', 'Alfo', 'Anib', 'Anna', 'Anse', 'Anto', 'Anve', 'Appa', 'Appo', 'Appu', 'Argo', 'Arka', 'Arra', 'Arri', 'Arro', 'Arta', 'Arth', 'Arts', 'Artu', 'Assi', 'Assé', 'Aten', 'Atti', 'Audi', 'Auga', 'Augm', 'Auta', 'Auto', 'Avia', 'Avoc', 'Avoi', 'Ayez', 'Ayon', 'BAGD', 'BALE', 'BANQ', 'BARR', 'BART', 'BATT', 'BAUT', 'BELA', 'BELC', 'BERK', 'BESS', 'BETT', 'BIBL', 'BILI', 'BLUM', 'BONC', 'BONN', 'BOOK', 'BORD', 'BOUC', 'BOUE', 'BREN', 'BRES', 'BRIA', 'BRIE', 'BRUX', 'BUIL', 'Babe', 'Baby', 'Bach', 'Baco', 'Bebe', 'Berg', 'Beth', 'Bido', 'Blen', 'Boch', 'Bouc', 'Boui', 'Boët', 'Brau', 'Bray', 'Brit', 'Broo', 'Brow', 'Bréz', 'Brêm', 'Brûl', 'Budg', 'Buis', 'Bull', 'Buqu', 'Butt', 'BÉAN', 'BÉNÉ', 'Bâle', 'CALD', 'CAND', 'CANT', 'CARD', 'CASS', 'CATI', 'CAUS', 'CEPE', 'CEST', 'CHAD', 'CHAO', 'CHAS', 'CHIC', 'CHIE', 'CHIR', 'CHOA', 'CHar', 'CINE', 'CIPÉ', 'CITE', 'CKLI', 'CLAU', 'CLUB', 'COLU', 'COMT', 'COPA', 'CORD', 'CORN', 'CORR', 'COST', 'COTE', 'CRAC', 'CROI', 'CULA', 'CULT', 'Camp', 'Cand', 'Carl', 'Casa', 'Cass', 'Cell', 'Cera', 'Cerc', 'Cerf', 'Chah', 'Chan', 'Chap', 'Chev', 'Choa', 'Chos', 'Chur', 'Chét', 'Cili', 'Cinc', 'Civi', 'Clér', 'Coal', 'Cobl', 'Coll', 'Colu', 'Conç', 'Cord', 'Corr', 'Coul', 'Creu', 'Curs', 'Curz', 'CÉRÉ', 'CÔTE', 'Césa', 'DANE', 'DANG', 'DAVI', 'DEBA', 'DEBO', 'DECE', 'DELE', 'DEMA', 'DEME', 'DEPU', 'DESI', 'DESS', 'DEST', 'DEVI', 'DICK', 'DIEU', 'DIFF', 'DIGN', 'DIMA', 'DION', 'DISA', 'DIVE', 'DIÉE', 'DMAI', 'DOIS', 'DOUG', 'DOUL', 'DOUR', 'DRES', 'DREY', 'DUMA', 'Dame', 'Dard', 'Dato', 'Davi', 'Desc', 'Dest', 'Deut', 'Devo', 'Dick', 'Dict', 'Diff', 'Dijo', 'Dipl', 'Diri', 'Disc', 'Diso', 'Docu', 'Doma', 'Domi', 'Doug', 'Doui', 'Drea', 'Dreu', 'Drey', 'Drum', 'Duch', 'Ducr', 'Dufa', 'Dunk', 'Dura', 'Dutt', 'DÉFA', 'DÉJA', 'DÉLÉ', 'DÉMI', 'DÉNO', 'DÉPO', 'DÉRÉ', 'DÉSI', 'DÉSO', 'Déba', 'Déci', 'Décl', 'Déma', 'Démo', 'Déro', 'ECHE', 'ECRI', 'ECTE', 'ECTI', 'EFFE', 'EFFO', 'EILL', 'ELIN', 'ELLA', 'ELNA', 'ELYS', 'EMAI', 'EMBR', 'ENCH', 'ENDA', 'ENFO', 'ENNE', 'ENRI', 'ENSU', 'ENTR', 'ENVA', 'ENVO', 'ERBU', 'ERGU', 'ERLÉ', 'ERNA', 'ERON', 'ERPA', 'ESPA', 'ESPO', 'ESPR', 'ESSI', 'ESTR', 'ETAI', 'ETHN', 'EXPÉ', 'EXÉC', 'EYRI', 'Eche', 'Ecri', 'Edou', 'Edwa', 'Eled', 'Emba', 'Ench', 'Enqu', 'Enri', 'Ensu', 'Eric', 'Ermi', 'Etai', 'Even', 'Evid', 'Exam', 'Exec', 'Exem', 'Expl', 'Exté', 'FAIS', 'FALL', 'FAVE', 'FERM', 'FERN', 'FERR', 'FEST', 'FFIS', 'FIAS', 'FICI', 'FIGA', 'FINC', 'FIQU', 'FLÉC', 'FOCH', 'FOIS', 'FONC', 'FOND', 'FOUR', 'FREE', 'FROM', 'FRON', 'FUNE', 'FURE', 'FUTU', 'Fach', 'Fami', 'Faut', 'Faye', 'Feli', 'Flam', 'Flan', 'Fleu', 'Foch', 'Fore', 'Fort', 'Four', 'From', 'Fréd', 'FÉLI', 'Fédé', 'Féli', 'Fête', 'GAIE', 'GALL', 'GANI', 'GAUL', 'GERA', 'GERI', 'GERM', 'GIDE', 'GLÉE', 'GOUT', 'GRAV', 'GREC', 'GREV', 'GREY', 'GUEP', 'GUIR', 'Gain', 'Gand', 'Garc', 'Gass', 'Gast', 'Gaud', 'Gaul', 'Gens', 'Gent', 'Gera', 'Gide', 'Giro', 'Glad', 'Gree', 'Gren', 'Grou', 'Guis', 'Géog', 'HABE', 'HABI', 'HALL', 'HAVR', 'HAYE', 'HCLI', 'HEWS', 'HIES', 'HING', 'HOIS', 'HOLL', 'HONG', 'HONN', 'HSTA', 'Habs', 'Halé', 'Hamb', 'Hatf', 'Hava', 'Heid', 'Hell', 'Hila', 'Hirs', 'Hist', 'Holm', 'Holw', 'Hong', 'Hosp', 'Hugh', 'Huil', 'Hyde', 'Hyma', 'HÉCA', 'Hélo', 'IAMS', 'IATI', 'ICAN', 'ICAT', 'ICEN', 'ICUL', 'IDAT', 'IDEI', 'IELL', 'IEUS', 'IFIÉ', 'IGNO', 'IION', 'IMPR', 'INAL', 'INCE', 'INCL', 'INDÉ', 'INFI', 'INGR', 'INOP', 'INOR', 'INQU', 'INSO', 'INSU', 'IOTH', 'IOUE', 'IOUÉ', 'IPPI', 'IQUÉ', 'ISAT', 'ISME', 'ISOI', 'ISTA', 'ISVO', 'ITAL', 'ITEN', 'ITIN', 'ITOI', 'IXSX', 'Illi', 'Impo', 'Incr', 'Inde', 'Ingé', 'Intr', 'Irla', 'Iron', 'Issc', 'Isso', 'IÉTU', 'JAUR', 'JORD', 'JUIG', 'JUPI', 'JUST', 'Jaud', 'Jean', 'Jeud', 'Jeun', 'Joly', 'Jone', 'José', 'Juan', 'Juig', 'Jupi', 'Jusq', 'Juvi', 'Jéru', 'KERT', 'Krup', 'Kult', 'LACH', 'LACR', 'LADR', 'LALL', 'LANC', 'LAND', 'LARN', 'LASS', 'LATI', 'LAVA', 'LAVE', 'LAVI', 'LEAG', 'LECT', 'LEND', 'LEON', 'LESS', 'LEVE', 'LIBE', 'LIGU', 'LIMA', 'LIST', 'LITÉ', 'LIZA', 'LLEZ', 'LOIR', 'LOIS', 'LOND', 'LORR', 'LOUC', 'LSKY', 'LUXE', 'Lala', 'Laus', 'Lava', 'Ledo', 'Lens', 'Lepê', 'Libe', 'Libo', 'Libr', 'Lièg', 'Long', 'Loqu', 'Luch', 'Luci', 'Luné', 'MAGN', 'MAJO', 'MALI', 'MALL', 'MAME', 'MANI', 'MANN', 'MANZ', 'MARI', 'MARK', 'MAUD', 'MAXI', 'MAYE', 'MBIA', 'MBOU', 'MERE', 'MESS', 'MEZE', 'MIEU', 'MINI', 'MOBI', 'MODE', 'MOIN', 'MONI', 'MOUS', 'MOYE', 'MPHE', 'MPLI', 'MUNI', 'MURR', 'MUST', 'MUTU', 'Maid', 'Makl', 'Malo', 'Marg', 'Matt', 'Maxi', 'Mayf', 'Mesd', 'Meze', 'Mich', 'Midi', 'Mieu', 'Mill', 'Mimb', 'Mine', 'Moch', 'Moni', 'Mora', 'Moul', 'Mour', 'Myia', 'MÉMO', 'Méli', 'NAIS', 'NCES', 'NCHE', 'NDUE', 'NEGL', 'NELL', 'NEUT', 'NIAD', 'NISM', 'NISN', 'NIST', 'NIVE', 'NNAI', 'NNEL', 'NOLL', 'NOMB', 'NORT', 'NORV', 'NOUR', 'NOVE', 'NTAI', 'NXXY', 'Naza', 'Neuf', 'Neuv', 'News', 'Nice', 'Noge', 'Noir', 'Nomm', 'NonS', 'Note', 'Noyo', 'Null', 'OCEA', 'OCTO', 'OLAN', 'ONAL', 'ONAY', 'ONNI', 'OOLI', 'OPIE', 'ORBI', 'ORDI', 'ORIG', 'OTWE', 'OURE', 'OURN', 'OUTR', 'OVER', 'Oeuv', 'Oise', 'Oiss', 'Orme', 'Osca', 'Otle', 'Otto', 'Ouen', 'PACI', 'PALA', 'PARS', 'PART', 'PASS', 'PAÏV', 'PEAC', 'PERC', 'PERR', 'PETR', 'PHIL', 'PHOT', 'PICH', 'PIED', 'PINA', 'PIRE', 'PLEN', 'PLOU', 'PRAD', 'PREC', 'PREM', 'PREV', 'PRIE', 'PRIN', 'PRIX', 'PROI', 'PRÉC', 'PRÉP', 'PUBL', 'PULA', 'PYRR', 'Pail', 'Pair', 'Pana', 'Pann', 'Parc', 'Park', 'Past', 'Patr', 'Pein', 'Penh', 'Peyl', 'Piai', 'Pica', 'Pill', 'Pire', 'Plei', 'Plut', 'Plén', 'Poli', 'Poot', 'Pren', 'Prix', 'Prob', 'Prov', 'Pryt', 'Préd', 'Prél', 'Pyré', 'PÉNÉ', 'Pâle', 'QUAT', 'QUES', 'Quat', 'Quen', 'Quin', 'RACE', 'RANC', 'RATI', 'RATT', 'RATU', 'RCIE', 'RECO', 'RECU', 'REIC', 'REIM', 'REIN', 'REME', 'REND', 'RESO', 'REUN', 'REUX', 'RGAN', 'RMES', 'RONI', 'ROOT', 'ROQU', 'ROUG', 'ROUS', 'RSES', 'RUIR', 'RVIS', 'Rabe', 'Rais', 'Rass', 'Reic', 'Rela', 'Reli', 'Reno', 'Resp', 'Reve', 'Reyn', 'Rhôn', 'Rich', 'Rigo', 'Robi', 'Rois', 'Romn', 'Rott', 'Roup', 'Roya', 'RÉAC', 'RÉFO', 'RÉGI', 'RÉSO', 'RÉUN', 'RÉVO', 'Réac', 'Rédu', 'Réfl', 'Réin', 'Rémy', 'Répa', 'Répo', 'Rôle', 'Rôti', 'SACR', 'SAIN', 'SALL', 'SANT', 'SAVE', 'SCHE', 'SCOT', 'SEAI', 'SEAN', 'SEBE', 'SEME', 'SENL', 'SEPT', 'SERA', 'SERB', 'SIDE', 'SILL', 'SIXT', 'SOLD', 'SOTI', 'SOUL', 'SPOR', 'SSAD', 'SSAI', 'SSAN', 'SSIO', 'SSIT', 'SSOC', 'SSÉE', 'STAN', 'STAR', 'STAT', 'STES', 'STUN', 'STÉR', 'SUED', 'SUIT', 'SXNX', 'SYMP', 'Sabl', 'Sach', 'Sala', 'Sall', 'Sava', 'Save', 'Savo', 'Schn', 'Schw', 'Scot', 'Seat', 'Selo', 'Sequ', 'Sera', 'Seth', 'Siam', 'Sigr', 'Sing', 'Sira', 'Sixt', 'Slav', 'Soir', 'Soit', 'Soll', 'Solv', 'Sorb', 'Sort', 'Souh', 'Souv', 'Soyo', 'Spen', 'Spon', 'Squa', 'Star', 'Stee', 'Stei', 'Sten', 'Stre', 'Stép', 'Sult', 'Supr', 'Supé', 'Suéd', 'Sydn', 'SÉPA', 'Séce', 'Sévè', 'TAFT', 'TANS', 'TARI', 'TARY', 'TAUX', 'TEAU', 'TECH', 'TEES', 'TENA', 'TENO', 'TERR', 'TERY', 'TETE', 'TEXT', 'TIEL', 'TOLL', 'TOMB', 'TOME', 'TORA', 'TORI', 'TOUR', 'TRAT', 'TRAV', 'TRIM', 'TRIO', 'TROP', 'TURQ', 'TUÉE', 'TZAR', 'Tage', 'Talh', 'Tapl', 'Tché', 'Teno', 'Text', 'Thou', 'Thra', 'Tigr', 'Tome', 'Touc', 'Trie', 'Trip', 'Troc', 'Trés', 'Tsar', 'Tsen', 'Tsia', 'Tuck', 'Tâch', 'UDEL', 'UETE', 'UGAR', 'ULLO', 'UNDE', 'UNIT', 'UPON', 'URES', 'URSE', 'UTIF', 'UTIO', 'Ukra', 'Upto', 'UÊTE', 'VERS', 'VEUI', 'VICE', 'VIII', 'VOUS', 'Vari', 'Verg', 'Vern', 'Vezi', 'Vien', 'Vint', 'Vitr', 'Vlad', 'Voci', 'Voya', 'Voyo', 'WAGR', 'WALL', 'WALS', 'WETT', 'WHEE', 'WHIT', 'WICK', 'WILL', 'WORL', 'WYTH', 'Wagr', 'Wall', 'Wate', 'West', 'Whhe', 'Whit', 'Wiar', 'Wilb', 'Wilh', 'Wrig', 'XENX', 'XVII', 'XVIe', 'XXVI', 'XXXI', 'Xavi', 'YEAR', 'YLET', 'Youg', 'ZAIR', 'ZEPP', 'Zorn', 'aLET', 'abai', 'abba', 'abbé', 'abdi', 'abei', 'aber', 'abit', 'abné', 'abol', 'abom', 'accé', 'achè', 'acor', 'acta', 'acun', 'adhé', 'adie', 'adée', 'adér', 'affu', 'agai', 'ageo', 'aggl', 'agin', 'agno', 'agon', 'agée', 'aida', 'aier', 'aigl', 'aigu', 'aira', 'airi', 'aiso', 'alen', 'alig', 'aloi', 'alte', 'alwa', 'amai', 'aman', 'ambe', 'amia', 'amèr', 'amée', 'andi', 'ands', 'anec', 'anel', 'aner', 'anis', 'anom', 'ansp', 'apos', 'appê', 'apro', 'apte', 'apès', 'ards', 'aret', 'aria', 'arne', 'atai', 'ater', 'atib', 'atiq', 'atoi', 'auba', 'aubo', 'avag', 'avid', 'aviv', 'avoc', 'avor', 'aéri', 'aïeu', 'baco', 'baga', 'bail', 'bait', 'bana', 'bani', 'bare', 'bati', 'bava', 'baza', 'baïo', 'bele', 'bert', 'bill', 'bilt', 'bise', 'bite', 'bitr', 'bjet', 'blia', 'bole', 'bona', 'bonb', 'boyc', 'boît', 'brag', 'brai', 'brat', 'brea', 'bron', 'brul', 'brum', 'brée', 'bulg', 'bull', 'busé', 'buti', 'buva', 'bâti', 'béll', 'béni', 'cada', 'cadu', 'cais', 'came', 'carb', 'casi', 'cate', 'caté', 'cauc', 'cave', 'ccor', 'ceLE', 'cele', 'celé', 'cept', 'cerf', 'cero', 'cest', 'chao', 'chen', 'chil', 'chiq', 'chit', 'choe', 'chèq', 'chét', 'cian', 'cide', 'cies', 'cill', 'cisc', 'cisi', 'citr', 'cits', 'ciée', 'ckin', 'ckli', 'clef', 'cler', 'cloc', 'club', 'clus', 'coch', 'cohé', 'coiv', 'colp', 'corb', 'cors', 'cost', 'cots', 'coté', 'cous', 'coéd', 'coùp', 'cred', 'cria', 'cril', 'crir', 'croc', 'cron', 'crou', 'crue', 'crêm', 'ctif', 'ctiq', 'ctiv', 'cuei', 'cues', 'culé', 'cupa', 'cupe', 'cure', 'cuté', 'cyue', 'cédo', 'césa', 'cœeu', 'd!un', 'd!éc', 'dais', 'dait', 'damn', 'danc', 'deAn', 'deCl', 'depr', 'dfon', 'dfor', 'dhal', 'dind', 'diro', 'disg', 'disq', 'doct', 'doll', 'domn', 'donj', 'doti', 'doua', 'doxa', 'doye', 'dual', 'ducs', 'dues', 'duns', 'dupl', 'durs', 'dèjà', 'dèle', 'déal', 'débo', 'débr', 'déga', 'dégr', 'dénu', 'dépr', 'dépê', 'déra', 'déro', 'déçu', 'dîné', 'eadn', 'eaur', 'eban', 'ecoi', 'ecou', 'ecro', 'ectu', 'eful', 'eggs', 'eide', 'elbe', 'elge', 'ella', 'ellé', 'eman', 'empa', 'emst', 'enab', 'enad', 'enay', 'enca', 'endi', 'ends', 'eneg', 'ener', 'enez', 'enfl', 'engr', 'enhe', 'enio', 'enli', 'enlè', 'enor', 'ent?', 'entC', 'entz', 'enus', 'eral', 'eran', 'erda', 'eret', 'ergé', 'erio', 'erme', 'ermo', 'erou', 'erqu', 'erré', 'erté', 'ervi', 'escl', 'esco', 'espa', 'espi', 'esso', 'estL', 'estl', 'esté', 'etag', 'etc…', 'ethn', 'etia', 'etle', 'etre', 'etzu', 'etés', 'euls', 'euss', 'evoy', 'evée', 'evés', 'exho', 'exot', 'fCle', 'faim', 'fals', 'fanf', 'fast', 'fena', 'fens', 'fenê', 'fere', 'fide', 'fidu', 'filt', 'fins', 'fire', 'firm', 'fixt', 'fièr', 'fièv', 'fiés', 'fiév', 'flag', 'flam', 'flue', 'flân', 'flèc', 'fons', 'fore', 'foss', 'frac', 'frag', 'frei', 'fren', 'frie', 'frin', 'from', 'frêl', 'fugi', 'fuir', 'fuit', 'fére', 'fêta', 'fêti', 'gabl', 'gair', 'gait', 'gale', 'galv', 'gant', 'gars', 'garç', 'gene', 'geno', 'geon', 'gerb', 'gibi', 'gibo', 'giga', 'gine', 'gira', 'giss', 'givr', 'glai', 'gler', 'gles', 'glém', 'gnem', 'gneu', 'gnez', 'gnol', 'gnor', 'gogn', 'gons', 'gorg', 'gori', 'gras', 'grel', 'gres', 'grev', 'gril', 'grip', 'gron', 'guan', 'guei', 'gues', 'gume', 'guré', 'guéé', 'géan', 'gémi', 'géne', 'gére', 'hach', 'hais', 'hale', 'hall', 'halt', 'hame', 'hane', 'harc', 'hari', 'haus', 'heim', 'hell', 'help', 'hema', 'herc', 'heri', 'hero', 'hers', 'hful', 'hibé', 'hide', 'hiez', 'high', 'homé', 'hone', 'hopi', 'hora', 'horl', 'horo', 'hsta', 'huiP', 'huil', 'hydr', 'hyma', 'hymn', 'hâti', 'hâté', 'hèla', 'hème', 'hète', 'hées', 'hémi', 'héti', 'iait', 'iars', 'ibut', 'icab', 'icis', 'icol', 'idue', 'idyl', 'ield', 'iels', 'ierr', 'ifia', 'iges', 'igny', 'igré', 'igua', 'igée', 'ilLE', 'ilSÉ', 'ilat', 'ilié', 'ilss', 'imat', 'imez', 'imèt', 'imés', 'inab', 'inag', 'inap', 'inav', 'indo', 'indû', 'inea', 'inez', 'ingo', 'inin', 'iniq', 'inis', 'inla', 'inna', 'inoc', 'ints', 'inua', 'inui', 'inuo', 'inus', 'inég', 'inén', 'inép', 'iole', 'ioré', 'iquo', 'irag', 'irio', 'irre', 'irri', 'isay', 'isem', 'isen', 'iseu', 'isto', 'isté', 'iswi', 'itan', 'itec', 'itif', 'itiv', 'itié', 'iton', 'itué', 'ivag', 'iven', 'ivez', 'ivos', 'ivée', 'iègn', 'iéte', 'iété', 'jamb', 'jaun', 'jeta', 'jeux', 'joug', 'joya', 'judi', 'jugi', 'jure', 'jury', 'juxt', 'kais', 'kfas', 'klin', 'koff', 'laDé', 'lacu', 'lacé', 'lady', 'lain', 'lamé', 'land', 'lanç', 'lapi', 'lata', 'latr', 'lave', 'lavé', 'laya', 'laça', 'lbla', 'leLE', 'leSÉ', 'leri', 'lets', 'leté', 'leun', 'leus', 'lheu', 'liar', 'lica', 'lici', 'limp', 'liss', 'liti', 'liés', 'llad', 'llag', 'llan', 'llis', 'lman', 'loco', 'logé', 'loir', 'lone', 'lons', 'lori', 'lote', 'lots', 'lsio', 'lson', 'lten', 'ltez', 'ltra', 'ltée', 'luan', 'luci', 'luge', 'luis', 'luli', 'lunc', 'lund', 'lvab', 'lègè', 'lèle', 'lèvr', 'léan', 'légé', 'léta', 'léza', 'mace', 'mage', 'magi', 'maie', 'mals', 'mard', 'marm', 'maré', 'masq', 'mate', 'mato', 'mben', 'mber', 'mbia', 'mbré', 'menç', 'mené', 'mera', 'mero', 'mers', 'merç', 'mets', 'meul', 'meus', 'meut', 'micr', 'mida', 'mide', 'miez', 'mila', 'milé', 'mimo', 'mino', 'mins', 'minu', 'misa', 'mist', 'mite', 'mièr', 'mmag', 'mmit', 'mmiè', 'mnis', 'mocr', 'momt', 'monc', 'mori', 'mote', 'mous', 'mout', 'mpti', 'mula', 'musu', 'mâts', 'mède', 'méan', 'méda', 'méla', 'méni', 'méra', 'mêtr', 'mûre', 'mûri', 'n!es', 'nLet', 'nagé', 'nain', 'nanc', 'napp', 'nast', 'nate', 'nave', 'navi', 'naîf', 'nchi', 'nchè', 'nché', 'ncia', 'ncib', 'ncol', 'ndLe', 'ndat', 'ndeu', 'ndia', 'ndid', 'ndio', 'ndiq', 'ndus', 'nels', 'neng', 'nera', 'nerv', 'ness', 'neus', 'neux', 'news', 'ngel', 'ngen', 'ngio', 'nglo', 'ngés', 'niai', 'nici', 'nids', 'nimé', 'nios', 'nira', 'nirs', 'nitu', 'nièr', 'niéc', 'niée', 'nnem', 'nniq', 'nnée', 'nois', 'nomé', 'nonc', 'nora', 'nors', 'noto', 'noté', 'nova', 'nows', 'nqui', 'nqué', 'nsit', 'nsor', 'nsém', 'nsés', 'ntau', 'nthr', 'ntit', 'ntiv', 'ntra', 'nuag', 'nuat', 'nuie', 'nume', 'nure', 'nâit', 'néga', 'nére', 'obis', 'obti', 'ocat', 'ocay', 'ocha', 'ocos', 'ocre', 'ocri', 'odil', 'odiq', 'odys', 'oger', 'ogne', 'oint', 'oisi', 'oiti', 'oité', 'olds', 'ombr', 'omes', 'omin', 'omme', 'ommo', 'omph', 'omér', 'onag', 'onar', 'onfi', 'onib', 'opiq', 'opéd', 'oqua', 'orag', 'orai', 'oran', 'orbi', 'orch', 'orda', 'ordo', 'ordu', 'orei', 'orna', 'oron', 'orou', 'orph', 'orth', 'orté', 'osan', 'osen', 'osez', 'oste', 'otag', 'otro', 'otte', 'otté', 'ouet', 'ougb', 'ouie', 'ouil', 'ouko', 'ourg', 'ourn', 'outL', 'outi', 'ouvo', 'ouée', 'oyés', 'pair', 'pait', 'pana', 'panh', 'pani', 'pann', 'pape', 'pari', 'parr', 'pate', 'pave', 'pavi', 'payi', 'peau', 'pecc', 'peit', 'penc', 'peri', 'perl', 'pero', 'pese', 'phal', 'phob', 'phém', 'pilo', 'piss', 'pitr', 'pitt', 'plaf', 'plau', 'plon', 'plos', 'plou', 'plue', 'plât', 'plée', 'poèt', 'poés', 'ppol', 'ppos', 'ppte', 'prev', 'prit', 'proq', 'prox', 'ptab', 'ptez', 'pugn', 'pull', 'pâli', 'pâte', 'pâtu', 'pées', 'péfi', 'pélé', 'péna', 'pénè', 'péra', 'péti', 'pétr', 'pétu', 'pôts', 'quas', 'quem', 'quet', 'quun', 'quér', 'quét', 'raba', 'rabe', 'racl', 'rafi', 'rand', 'rani', 'rans', 'ranç', 'rapé', 'rari', 'rats', 'rayo', 'rben', 'rbés', 'rcha', 'rcés', 'rdag', 'rdai', 'rdie', 'rdir', 'reSÉ', 'rebu', 'refl', 'refo', 'reha', 'reje', 'renf', 'renn', 'repe', 'rero', 'reçû', 'rgen', 'rges', 'rice', 'rick', 'rigi', 'rine', 'riqu', 'rita', 'rito', 'ritu', 'rive', 'rixe', 'rièm', 'riés', 'rlem', 'rloo', 'rman', 'rmie', 'rnen', 'rnic', 'rnés', 'robu', 'rogu', 'ronf', 'roos', 'roté', 'rouc', 'roui', 'rous', 'rouv', 'roît', 'rpel', 'rpem', 'rrec', 'rrie', 'rriv', 'rron', 'rser', 'rteu', 'rtin', 'rtis', 'ruis', 'runt', 'rust', 'rvan', 'rvoi', 'rvés', 'râce', 'rçon', 'réar', 'récr', 'récu', 'réde', 'réfe', 'réfr', 'régn', 'réin', 'rému', 'rétr', 'réve', 'rêta', 'sacs', 'sagé', 'sail', 'sale', 'samm', 'sani', 'satr', 'saup', 'saxo', 'sayé', 'sbor', 'scab', 'sche', 'scié', 'scré', 'scul', 'scèn', 'seLE', 'seSE', 'sect', 'secu', 'seil', 'sell', 'seri', 'serr', 'sers', 'sexe', 'sfér', 'shal', 'sias', 'sibl', 'sidé', 'sieu', 'sifs', 'sige', 'sill', 'simb', 'simi', 'sinu', 'sira', 'sire', 'sirè', 'siss', 'site', 'sixi', 'siég', 'smou', 'soeu', 'soif', 'some', 'sord', 'sots', 'soyo', 'spos', 'sses', 'ssoi', 'ssur', 'ssèd', 'stai', 'steu', 'stil', 'stin', 'stol', 'ston', 'styl', 'stée', 'stés', 'suas', 'subt', 'suic', 'suie', 'surc', 'surs', 'svaa', 'swaa', 'syph', 'séle', 'séme', 'sémi', 'séni', 'sévi', 'sévé', 'tSÉN', 'tabi', 'tach', 'taci', 'tact', 'tamm', 'taqu', 'taur', 'taxe', 'tech', 'tect', 'tels', 'tema', 'tene', 'teno', 'tens', 'tern', 'test', 'teus', 'thèm', 'théo', 'tiat', 'tica', 'ticu', 'tiem', 'tifi', 'tigr', 'tile', 'timo', 'tint', 'tira', 'tiré', 'tisa', 'tist', 'tolé', 'tont', 'torc', 'torr', 'touv', 'traf', 'trat', 'trei', 'trez', 'trie', 'trit', 'ttai', 'ttan', 'ttaq', 'tten', 'tton', 'ttra', 'tues', 'tuni', 'tura', 'turb', 'turp', 'type', 'tâto', 'tère', 'téma', 'témé', 'tére', 'uabl', 'uade', 'uadé', 'uali', 'ublé', 'udem', 'udes', 'udin', 'uerr', 'ueur', 'ueus', 'uion', 'uiss', 'uièm', 'ulab', 'ulèd', 'umen', 'umes', 'unte', 'unée', 'uons', 'uper', 'uple', 'upor', 'urez', 'urgi', 'urna', 'urnè', 'urro', 'urse', 'urvu', 'urée', 'usci', 'ussé', 'usée', 'usém', 'utie', 'utiq', 'utis', 'utum', 'uvea', 'uvré', 'vacc', 'vape', 'vaqu', 'vein', 'veno', 'veté', 'veui', 'vial', 'vici', 'vier', 'viez', 'vigi', 'vigu', 'vila', 'vina', 'vinr', 'vion', 'virg', 'viri', 'viso', 'viss', 'visé', 'viti', 'vity', 'voca', 'vols', 'volt', 'volé', 'voût', 'vrez', 'vété', 'vœux', 'wago', 'weil', 'with', 'xiqu', 'xonn', 'xons', 'xéno', 'yCIR', 'yent', 'yion', 'ymes', 'yons', 'your', 'zair', 'zepp', 'zèle', 'zéli', 'ÉDIT', 'ÉESS', 'ÉMAN', 'ÉMIE', 'ÉMIQ', 'ÉMUL', 'ÉPIS', 'ÉRAI', 'ÉSAI', 'ÉTAP', 'ÉTAT', 'ÉVEQ', 'ÉVOL', 'àLET', 'çons', 'ècle', 'ègne', 'ègre', 'èles', 'ènen', 'ènes', 'èrer', 'èsSÉ', 'ètem', 'ètes', 'ètre', 'èvre', 'écai', 'écio', 'éclo', 'écos', 'écre', 'écro', 'écur', 'édai', 'édan', 'édér', 'éfia', 'égoi', 'éhon', 'élan', 'élic', 'élog', 'élév', 'émic', 'émin', 'émiq', 'émoc', 'émou', 'émue', 'énig', 'énis', 'énég', 'énér', 'épai', 'épan', 'épau', 'épee', 'épen', 'éphé', 'épil', 'épis', 'épri', 'éral', 'érie', 'érir', 'érée', 'érém', 'ésum', 'étar', 'étei', 'étin', 'étou', 'étéL', 'étéS', 'évac', 'éven', 'évol', 'évue', 'évus', 'éxéc', 'êmem', 'êten', 'îtra', 'ûete', 'ûtée', 'œill']
#Number of occurrences: 71
common_4grams = ['Aute', 'Berk', 'DÉCE', 'Détr', 'Echo', 'Hohe', 'Honn', 'INUE', 'Jacq', 'Lich', 'Mort', 'Pact', 'Picc', 'QUEU', 'Résu', 'TAIR', 'Trib', 'Vive', 'acro', 'amba', 'apit', 'ayon', 'bouq', 'bran', 'ciga', 'colè', 'crié', 'cyni', 'dnou', 'erge', 'erte', 'fauc', 'flor', 'gala', 'garn', 'geab', 'ghts', 'grem', 'géog', 'iple', 'jeté', 'lern', 'lexe', 'lver', 'marb', 'mnié', 'nabl', 'nauf', 'noir', 'noue', 'nzol', 'nçan', 'oiss', 'olat', 'pang', 'prié', 'pénu', 'rett', 'réjo', 'rêvé', 'satl', 'somb', 'sott', 'ssiv', 'tuée', 'umer', 'urit', 'utée', 'vran', 'éder', 'éger']
#Other_unique vs GT
#Number of occurrences: 117
other_unique_unique_2grams = ['AP', 'Ac', 'Ag', 'BL', 'BO', 'CI', 'CR', 'DI', 'DL', 'DÉ', 'Dè', 'EF', 'EV', 'Ed', 'Er', 'Ev', 'Ex', 'FE', 'FF', 'Fâ', 'GH', 'GU', 'GÉ', 'HA', 'HU', 'HÔ', 'Hé', 'Hô', 'I7', 'IA', 'IC', 'II', 'IO', 'IR', 'IT', 'Ib', 'Im', 'Ir', 'JA', 'JE', 'JO', 'Ka', 'MU', 'Mé', 'NB', 'ND', 'NG', 'NV', 'Nu', 'NÉ', 'Né', 'OM', 'OT', 'OU', 'Où', 'RL', 'SH', 'SQ', 'Sè', 'TH', 'TÉ', 'Té', 'UL', 'UP', 'Ut', 'UÉ', 'VE', 'VI', 'WA', 'WE', 'We', 'YS', 'Zé', 'bs', 'bv', 'bû', 'cê', 'dl', 'e!', 'ed', 'ek', 'eà', 'fè', 'gg', 'gm', 'gs', 'gt', 'gè', 'hè', 'jé', 'kl', 'ly', 'oj', 'oq', 'oz', 'pn', 'rç', 'sg', 'sè', 'ty', 'tz', 'uz', 'v£', 'wi', 'xc', 'xo', 'yi', 'zo', 'ÈR', 'ÉN', 'éâ', 'ên', 'êq', 'êv', 'ël', 'ït', 'üe']
#Number of occurrences: 126
gt_unique_2grams = ['AO', 'Ah', 'Bâ', 'CÉ', 'CÔ', 'Cé', 'DM', 'Dû', 'EO', 'EW', 'FT', 'FÉ', 'Fê', 'Fû', 'GD', 'Gl', 'HC', 'HS', 'HÉ', 'IP', 'Jé', 'Km', 'Ku', 'MS', 'MT', 'NL', 'NZ', 'Nö', 'OA', 'OK', 'OO', 'Oe', 'Os', 'PY', 'Pâ', 'RB', 'RQ', 'RÈ', 'SN', 'SY', 'Sq', 'TZ', 'Tc', 'Tâ', 'UB', 'Uk', 'Up', 'UÊ', 'Vl', 'WO', 'WY', 'XY', 'Xa', 'Zo', 'aL', 'ae', 'aï', 'bj', 'bt', 'cq', 'c…', 'dh', 'dà', 'eo', 'fC', 'gb', 'hf', 'hs', 'hw', 'iP', 'iâ', 'iò', 'kf', 'km', 'lw', 'mâ', 'n!', 'nL', 'nS', 'nb', 'nz', 'nâ', 'qe', 'rL', 'ry', 'rz', 'râ', 'sd', 'sv', 'sw', 't?', 'tC', 'tS', 'tf', 'tè', 'uq', 'vy', 'vœ', 'we', 'xa', 'yC', 'yc', 'yf', 'yn', 'yr', 'yt', 'zi', 'zu', 'zè', 'zé', 'ÉD', 'ÏV', 'àL', 'ân', 'çû', 'éL', 'éS', 'éx', 'éz', 'ët', 'îf', 'ïo', 'ôm', 'ùp', 'ûe', 'œi']
#Number of occurrences: 6
common_2grams = ['FL', 'Wr', 'ht', 'nê', 'oa', 'ok']
#Number of occurrences: 481
other_unique_unique_3grams = ['AMB', 'APP', 'ATO', 'Age', 'Aja', 'Ajo', 'Arr', 'Ava', 'Ave', 'BAR', 'BLI', 'BOU', 'Bac', 'Bes', 'Bib', 'Blo', 'Bor', 'Bra', 'Bur', 'CAS', 'CHO', 'CHÈ', 'CIL', 'COR', 'CRA', 'Cam', 'Cas', 'Cie', 'Coo', 'Cos', 'Cub', 'DAN', 'DES', 'DIA', 'DIE', 'Die', 'Dir', 'Dog', 'DÉP', 'Dès', 'Déj', 'Dém', 'ECL', 'EFR', 'ELL', 'EMI', 'EMO', 'ERS', 'ETT', 'EUN', 'EXA', 'Eli', 'Enc', 'Err', 'Evê', 'Exé', 'FAR', 'FAU', 'FFE', 'FLE', 'FOE', 'FON', 'Fid', 'Fâc', 'Fér', 'Fév', 'GAR', 'GIA', 'GIG', 'GOD', 'Gam', 'Gas', 'Gir', 'GÉN', 'HAB', 'HES', 'HTE', 'HUG', 'Ham', 'Hau', 'Hub', 'HÔT', 'Hér', 'Hôt', 'ICI', 'ILL', 'INA', 'ION', 'IVE', 'Ibs', 'Ira', 'JAU', 'JOU', 'Jou', 'Jug', 'Kah', 'LAT', 'LEJ', 'LEV', 'LIS', 'Laz', 'Leg', 'Leh', 'Lui', 'Lut', 'Lya', 'Lyo', 'LÉE', 'LÉG', 'MAI', 'MAR', 'MAS', 'MIS', 'MON', 'MOS', 'Mac', 'Maï', 'Mei', 'Moi', 'Mén', 'NA', 'NBE', 'NCE', 'NIP', 'NTS', 'Nap', 'Nev', 'Noë', 'Nul', 'Nén', 'OUE', 'OUX', 'Ont', 'PAL', 'PEU', 'PLA', 'PLE', 'POL', 'POR', 'PRO', 'Pat', 'Pea', 'Per', 'Pet', 'Pol', 'Por', 'Pot', 'Pra', 'Pru', 'QUÉ', 'Qua', 'Qui', 'Qué', 'RA', 'RAP', 'RAT', 'RED', 'RGE', 'RNA', 'RST', 'RUY', 'Rec', 'Red', 'Rep', 'Rie', 'Roc', 'Rou', 'Rud', 'RÉÉ', 'Réu', 'SAN', 'SEN', 'SET', 'SHO', 'SSE', 'STO', 'SUR', 'Sce', 'Sch', 'Sei', 'Sep', 'Seu', 'Sim', 'Sir', 'Sol', 'Sud', 'Sui', 'Suz', 'SÉA', 'Sèv', 'TAI', 'THO', 'TIE', 'TIL', 'TOT', 'TWE', 'Tab', 'Thi', 'Thw', 'Thé', 'Tor', 'Trè', 'Tuf', 'Tur', 'Téz', 'UGU', 'Uti', 'VER', 'Veu', 'Vib', 'Voy', 'WAL', 'Was', 'Wea', 'Yor', 'Zél', 'abi', 'aca', 'acl', 'acé', 'aga', 'agr', 'aig', 'ala', 'amp', 'ana', 'atr', 'aul', 'auq', 'avé', 'bai', 'bar', 'ber', 'bet', 'beu', 'bib', 'bin', 'biz', 'bos', 'bro', 'brè', 'bua', 'buf', 'bui', 'but', 'bée', 'bén', 'bûc', 'chr', 'chê', 'chô', 'clô', 'coa', 'cog', 'coi', 'coo', 'coq', 'cqu', 'cru', 'crû', 'cup', 'cée', 'cél', 'dek', 'dez', 'dho', 'die', 'dio', 'dix', 'diz', 'duc', 'dus', 'dér', 'ean', 'efo', 'efs', 'elo', 'emn', 'emo', 'esq', 'etL', 'eta', 'eti', 'eva', 'evi', 'evr', 'evé', 'eçu', 'fac', 'fat', 'fen', 'ffé', 'fig', 'fiq', 'fix', 'fiè', 'fle', 'fli', 'flé', 'fou', 'fre', 'fré', 'fun', 'fuy', 'fèr', 'fét', 'gat', 'gea', 'geo', 'gin', 'gla', 'glo', 'gre', 'gri', 'gso', 'gto', 'gér', 'güe', 'har', 'haî', 'hef', 'hié', 'hès', 'hég', 'icu', 'ifi', 'ila', 'inu', 'iod', 'ipa', 'iph', 'ips', 'ipé', 'irs', 'isc', 'isq', 'it£', 'iés', 'jal', 'jol', 'joy', 'jés', 'las', 'lif', 'lmu', 'lux', 'lve', 'lèv', 'max', 'moe', 'mos', 'mum', 'mus', 'mut', 'mvr', 'mèn', 'mém', 'nap', 'nar', 'nau', 'ndé', 'nea', 'nic', 'nil', 'niv', 'nkl', 'nna', 'nsp', 'nue', 'nve', 'nym', 'ném', 'nér', 'nét', 'océ', 'oit', 'olo', 'omè', 'onf', 'opo', 'opt', 'opu', 'osi', 'ost', 'ous', 'oxi', 'pac', 'paq', 'pes', 'pha', 'phr', 'pic', 'pin', 'pne', 'ppo', 'ppé', 'pse', 'pta', 'pti', 'pté', 'ptô', 'raj', 'rbe', 'rce', 'rcé', 'req', 'rgn', 'rhu', 'riè', 'rni', 'rov', 'rpa', 'rri', 'rth', 'rtr', 'rté', 'rus', 'rêv', 'sar', 'sax', 'shi', 'siv', 'sod', 'spi', 'spo', 'sté', 'sug', 'sué', 'sép', 'séq', 'tam', 'tap', 'tfo', 'tid', 'tmi', 'trê', 'tta', 'tud', 'tél', 'uda', 'udo', 'uem', 'ugn', 'uié', 'ule', 'ulg', 'umé', 'uon', 'urn', 'usc', 'usu', 'utr', 'uts', 'uvi', 'uvo', 'uée', 'vib', 'vig', 'vus', 'vén', 'vés', 'xac', 'zea', 'zor', 'zél', 'âma', 'âtr', 'çon', 'ège', 'éca', 'édu', 'édé', 'éla', 'élè', 'éma', 'éna', 'éni', 'éné', 'ési', 'îch', 'îne']
#Number of occurrences: 1016
gt_unique_3grams = ['ABD', 'ABO', 'ABU', 'ACE', 'ACH', 'ACY', 'ADI', 'ADM', 'ADV', 'AGG', 'AGN', 'AGR', 'AHI', 'AII', 'AIL', 'ALE', 'ALS', 'ALV', 'ALZ', 'AMO', 'ARE', 'ARR', 'ARÉ', 'ATS', 'ATU', 'AUD', 'AUG', 'AUN', 'AUP', 'AVr', 'AYS', 'Abb', 'Abo', 'Abr', 'Acq', 'Act', 'Adj', 'Ado', 'Ais', 'Ala', 'Alc', 'Alf', 'Ani', 'Ans', 'Anv', 'Arg', 'Ark', 'Ate', 'Aud', 'Avi', 'Aye', 'Ayo', 'BAG', 'BAN', 'BAT', 'BAU', 'BES', 'BIB', 'BLU', 'BOO', 'BOR', 'BRU', 'Bas', 'Bay', 'Beb', 'Bid', 'Ble', 'Boc', 'Boi', 'Boë', 'Brê', 'Brû', 'Bud', 'Buq', 'BÉA', 'BÉN', 'Bâl', 'CAC', 'CAT', 'CAU', 'CEP', 'CHS', 'CHa', 'CIN', 'CLA', 'CLU', 'CLÉ', 'COL', 'COS', 'COT', 'CRO', 'CTO', 'CUL', 'CUR', 'CUT', 'Cap', 'Chu', 'Cil', 'Cin', 'Civ', 'Coa', 'Coq', 'Cot', 'CÉR', 'CÔT', 'Cés', 'DAD', 'DAL', 'DAV', 'DAY', 'DEC', 'DEL', 'DEN', 'DEP', 'DEV', 'DIC', 'DID', 'DIF', 'DIG', 'DIM', 'DIN', 'DIO', 'DIV', 'DOI', 'DUM', 'DUP', 'DWI', 'Dam', 'Dav', 'Dev', 'Dif', 'Dij', 'Dip', 'Doc', 'Dru', 'Duf', 'Dun', 'Dur', 'Dut', 'DÉJ', 'DÉL', 'DÉN', 'DÉR', 'Dér', 'Dét', 'ECR', 'EDA', 'EID', 'EIM', 'ELY', 'EME', 'ENF', 'ENR', 'ENX', 'EOT', 'ERC', 'ERE', 'ERV', 'ESÉ', 'ETE', 'ETH', 'ETS', 'ETÉ', 'EVE', 'EXE', 'EXP', 'EXÉ', 'Ecr', 'Edo', 'Edw', 'Ele', 'Emb', 'End', 'Enr', 'Ens', 'Eri', 'Erm', 'Etc', 'Eve', 'Evi', 'Exa', 'Exp', 'FAL', 'FAV', 'FEU', 'FIC', 'FID', 'FIE', 'FIG', 'FIT', 'FLÉ', 'FOC', 'FOI', 'FOU', 'FRE', 'FUN', 'FUR', 'FUT', 'Fam', 'Fau', 'Fay', 'Fel', 'Fle', 'Foy', 'Fro', 'Fré', 'FÉL', 'Fél', 'Fêt', 'Fût', 'GAI', 'GAL', 'GIN', 'GIQ', 'GLA', 'GNE', 'GNÉ', 'GRÈ', 'GUI', 'Gai', 'Gan', 'Gid', 'Gla', 'Géo', 'HAV', 'HOT', 'HUY', 'Hab', 'Hal', 'Hat', 'Hei', 'Hil', 'Hir', 'His', 'Hoh', 'Hos', 'Hug', 'Hyd', 'Hym', 'HÉC', 'IAL', 'ICA', 'IEL', 'IFE', 'IFI', 'IGN', 'III', 'ILS', 'IMA', 'IMP', 'INC', 'IND', 'INE', 'INF', 'ING', 'INO', 'INQ', 'IRC', 'IRO', 'IRÉ', 'ISA', 'ISV', 'ITS', 'IVÉ', 'IXS', 'Ila', 'Ill', 'Inc', 'Ing', 'Irl', 'Iro', 'IÉS', 'JOR', 'JUI', 'JUP', 'JUS', 'Jac', 'Jol', 'Jos', 'Jua', 'Juv', 'Jér', 'KBe', 'KEL', 'KER', 'KIN', 'KSÉ', 'Kru', 'Kul', 'LAG', 'LAL', 'LCO', 'LEA', 'LEI', 'LEO', 'LIA', 'LIB', 'LIG', 'LIM', 'LIN', 'LIO', 'LIP', 'LIT', 'LIZ', 'LIÉ', 'LOR', 'LQU', 'LUI', 'LUS', 'LUT', 'LUX', 'Lac', 'Lal', 'Lau', 'Led', 'Len', 'Lep', 'Lic', 'Lie', 'Liè', 'Loq', 'MAG', 'MAJ', 'MAM', 'MAX', 'MAY', 'MBE', 'MET', 'MEZ', 'MIN', 'MOD', 'MOI', 'MOY', 'MUO', 'MUR', 'MUS', 'MUT', 'Mak', 'Max', 'Maî', 'Mez', 'Mic', 'Mid', 'Mie', 'Mim', 'Moc', 'Mrs', 'MÉM', 'Mél', 'NAC', 'NAI', 'NCH', 'NCI', 'NCK', 'NCU', 'NDA', 'NDM', 'NDO', 'NDS', 'NEA', 'NED', 'NEZ', 'NIR', 'NIS', 'NIT', 'NIV', 'NOG', 'NOI', 'NOL', 'NON', 'NOP', 'NOV', 'NOW', 'NSP', 'Nes', 'Nog', 'Noi', 'Nom', 'NÉR', 'Nöé', 'OBI', 'OBR', 'OCE', 'OCT', 'OLS', 'OMO', 'ONC', 'ONI', 'ONN', 'OPU', 'ORC', 'ORD', 'ORI', 'ORM', 'OUT', 'Oeu', 'Ois', 'One', 'Osc', 'Otl', 'Ott', 'PAC', 'PAÏ', 'PEA', 'PET', 'PHI', 'PHO', 'PIC', 'PIR', 'PLI', 'PON', 'PTO', 'PUB', 'PYR', 'Pei', 'Pey', 'Pia', 'Pir', 'Ple', 'Plé', 'Poo', 'Pry', 'PÉN', 'PÉS', 'Pâl', 'QUÊ', 'RAC', 'RAL', 'RAM', 'RAV', 'RAY', 'RBO', 'REM', 'REW', 'RGA', 'RHU', 'RIA', 'RIF', 'RKA', 'RKL', 'RLA', 'RNI', 'ROG', 'ROQ', 'ROS', 'ROU', 'RRA', 'RRY', 'RUE', 'RUT', 'Rab', 'Rai', 'Ras', 'Rhô', 'Ric', 'Rom', 'RÉA', 'RÉE', 'RÉF', 'RÉG', 'RÉU', 'RÉV', 'Réa', 'Réd', 'Réi', 'Rés', 'Rôl', 'Rôt', 'SAC', 'SAG', 'SCH', 'SEB', 'SEQ', 'SHA', 'SHI', 'SIE', 'SIL', 'SIX', 'SNE', 'SOI', 'SOL', 'SOT', 'STI', 'STU', 'SUE', 'SUS', 'SXN', 'SYM', 'Sab', 'Sac', 'Sco', 'Sea', 'Sel', 'Seq', 'Set', 'Sia', 'Six', 'Sla', 'Slo', 'Spa', 'Spe', 'Spo', 'Squ', 'Sta', 'Sté', 'Sul', 'Sué', 'Syd', 'SÉE', 'SÉP', 'Séc', 'Sév', 'TAF', 'TAL', 'TAN', 'TAU', 'TED', 'TEU', 'TEX', 'TEY', 'THC', 'TIC', 'TIN', 'TIQ', 'TIS', 'TJO', 'TLI', 'TOG', 'TOL', 'TOR', 'TRO', 'TUD', 'TUL', 'TUT', 'TZA', 'Tag', 'Tal', 'Tap', 'Tch', 'Ten', 'Tex', 'The', 'Tig', 'Tom', 'Tré', 'Tsa', 'Tse', 'Tsi', 'Tuc', 'TÉS', 'Tâc', 'UBE', 'UCO', 'UEI', 'UEL', 'UEN', 'UFF', 'UGA', 'UIT', 'UIÉ', 'UJE', 'ULL', 'ULT', 'UMB', 'UMO', 'UPO', 'USS', 'UTE', 'UZE', 'Ukr', 'Upt', 'VEA', 'VEG', 'VEU', 'VII', 'VIN', 'VIS', 'VOI', 'VOS', 'VOU', 'Var', 'Vez', 'Vie', 'Vit', 'Vla', 'Voc', 'WAG', 'WEL', 'WET', 'WHE', 'WHI', 'WOR', 'WYT', 'Wag', 'Wal', 'Wat', 'Wes', 'Whh', 'Whi', 'Wia', 'XEL', 'XNX', 'XXV', 'XXe', 'XYX', 'Xav', 'YEA', 'YFU', 'YLE', 'You', 'ZAN', 'ZEP', 'Zor', 'aLE', 'abn', 'aco', 'acr', 'acu', 'adh', 'akf', 'alw', 'ama', 'api', 'apl', 'apt', 'apè', 'arp', 'avu', 'ayi', 'aïe', 'bac', 'baz', 'baï', 'bir', 'boy', 'boî', 'buv', 'bél', 'cce', 'ccl', 'cdo', 'ceL', 'chs', 'cig', 'clo', 'cod', 'coé', 'coù', 'crê', 'ctu', 'cud', 'cue', 'cué', 'cyc', 'cyn', 'cèl', 'cœe', 'd!u', 'd!é', 'dal', 'deA', 'deC', 'doy', 'dré', 'dst', 'dua', 'dèj', 'déa', 'déà', 'déç', 'dôm', 'dûr', 'eai', 'ecr', 'ecy', 'egg', 'egr', 'eiv', 'elb', 'elm', 'enL', 'enz', 'eot', 'epl', 'erl', 'esa', 'etl', 'eui', 'exh', 'exo', 'ezS', 'fCl', 'fch', 'ffo', 'fiâ', 'flâ', 'flè', 'fos', 'frê', 'fug', 'gby', 'gch', 'gez', 'ghb', 'gic', 'gil', 'gio', 'gis', 'giv', 'gme', 'gni', 'gog', 'gor', 'gua', 'gum', 'géa', 'gém', 'géo', 'hac', 'ham', 'hea', 'hez', 'hib', 'hid', 'hig', 'hil', 'hit', 'hla', 'hni', 'hno', 'hro', 'hur', 'hyd', 'hèl', 'hém', 'iag', 'ias', 'ibi', 'icy', 'ido', 'idy', 'iet', 'igr', 'ilL', 'ilS', 'ily', 'inL', 'iou', 'ipi', 'ipp', 'ipr', 'izé', 'ièc', 'ièm', 'iér', 'jon', 'jud', 'jux', 'kai', 'ker', 'kgs', 'kin', 'laD', 'lal', 'lap', 'lax', 'lco', 'le:', 'leL', 'leX', 'lfo', 'lga', 'lge', 'lhe', 'lho', 'llè', 'lop', 'low', 'lté', 'luc', 'lug', 'lul', 'lèl', 'lèm', 'lèn', 'lém', 'lén', 'lér', 'lét', 'léz', 'mba', 'meL', 'meS', 'mic', 'mol', 'mpo', 'mpt', 'mpu', 'mte', 'mât', 'mèd', 'méa', 'mél', 'mêt', 'n!e', 'naa', 'nae', 'nas', 'nck', 'ncé', 'ndf', 'ndh', 'neS', 'new', 'nga', 'ngr', 'nia', 'nmo', 'nog', 'nol', 'nsb', 'nse', 'nsv', 'nsw', 'nsé', 'ntr', 'nâi', 'nèr', 'nèt', 'obe', 'ody', 'okl', 'old', 'omi', 'ong', 'ony', 'orn', 'oro', 'orp', 'orq', 'orç', 'osm', 'oti', 'ott', 'oud', 'ovi', 'oyo', 'pbe', 'phè', 'piq', 'plâ', 'poé', 'ppa', 'ppr', 'ppt', 'pâl', 'pél', 'pêt', 'pôt', 'quu', 'qûe', 'rLe', 'rSÉ', 'rdu', 'rei', 'rgu', 'rin', 'rix', 'rli', 'rmi', 'rnu', 'rol', 'roo', 'rpi', 'rsa', 'rsi', 'rup', 'rur', 'rut', 'rvo', 'rça', 'réi', 'réj', 'sDU', 'say', 'sbo', 'scè', 'seL', 'seS', 'sea', 'sex', 'sha', 'sié', 'siò', 'soe', 'ssu', 'ssè', 'sty', 'stè', 'sum', 'syp', 'sél', 'tLe', 'tSÉ', 'tad', 'tax', 'teL', 'teS', 'teb', 'thf', 'thm', 'tiè', 'tla', 'tle', 'toy', 'tsc', 'tsm', 'ttl', 'tui', 'tum', 'tup', 'tva', 'typ', 'tèg', 'tég', 'tén', 'ual', 'uar', 'udf', 'ufa', 'ugh', 'uin', 'uio', 'ull', 'ulm', 'und', 'upo', 'uxé', 'ués', 'vap', 'vaq', 'vié', 'voû', 'vro', 'vyC', 'vét', 'vœu', 'wan', 'war', 'weg', 'wei', 'wil', 'wit', 'wsk', 'xal', 'xes', 'xim', 'xiq', 'xis', 'xpu', 'xtr', 'xxt', 'xxx', 'xén', 'yas', 'yer', 'yfu', 'yio', 'ylo', 'you', 'zac', 'zep', 'ziè', 'zon', 'zun', 'zèl', 'ÉAB', 'ÉES', 'ÉFI', 'ÉGU', 'ÉMA', 'ÉMO', 'ÉMU', 'ÉNI', 'ÉPE', 'ÉPI', 'ÉTR', 'ÉVE', 'ÉVO', 'àLE', 'çoi', 'èce', 'ècl', 'ègn', 'ègr', 'èvr', 'éLE', 'éal', 'écu', 'éde', 'éen', 'éer', 'ého', 'émé', 'éon', 'ésu', 'évy', 'éxé', 'éée', 'êlé', 'êti', 'êto', 'êtu', 'îné', 'ûme', 'œil']
#Number of occurrences: 76
common_3grams = ['ALI', 'ARI', 'Acc', 'Adm', 'Bui', 'Cob', 'Cre', 'DER', 'Dar', 'Dat', 'Déb', 'ENN', 'Enq', 'FIA', 'Foc', 'Féd', 'GID', 'GNI', 'GRO', 'Gro', 'Hel', 'Imp', 'Jon', 'Jup', 'LAI', 'LEC', 'Low', 'MOU', 'Myi', 'OLA', 'ORB', 'Rig', 'Réf', 'SAI', 'TET', 'Thr', 'VIE', 'Wri', 'XAN', 'abd', 'alt', 'aok', 'aum', 'bav', 'ciè', 'coh', 'cém', 'dol', 'eno', 'eth', 'ght', 'idè', 'inl', 'ièt', 'jau', 'lpt', 'mmo', 'nei', 'nin', 'nop', 'nêt', 'poè', 'reh', 'rog', 'rtu', 'sco', 'scu', 'tig', 'tol', 'tât', 'uid', 'ulé', 'umb', 'uzo', 'vay', 'émè']
#Number of occurrences: 942
other_unique_unique_4grams = ['ALES', 'APPE', 'ARET', 'ASSE', 'ATIE', 'ATIO', 'Acca', 'Agen', 'Ajam', 'Ajou', 'Aust', 'Autr', 'Avan', 'Avec', 'BARO', 'BLIN', 'BOUL', 'Bara', 'Bern', 'Bess', 'Bibl', 'Bloc', 'Bonn', 'Bord', 'Bure', 'CAST', 'CHÈR', 'CONV', 'Camu', 'Cant', 'Cast', 'Cele', 'Cert', 'Chat', 'Chri', 'Chré', 'Conf', 'Coop', 'Corb', 'Cors', 'Cosm', 'Coun', 'Cour', 'Cuba', 'DAND', 'Desn', 'Dieu', 'Dire', 'Dogu', 'DÉPA', 'Déjà', 'ECLA', 'EFRE', 'ERGE', 'ERSE', 'ETTR', 'EVAR', 'EXAM', 'Ecom', 'Econ', 'Elis', 'Empi', 'Enco', 'Enfe', 'Erre', 'Evêq', 'Exéc', 'FARG', 'FAUT', 'FERI', 'FIAN', 'FLEC', 'FOER', 'FONT', 'Ferd', 'Fidè', 'Fina', 'Finc', 'Fâch', 'Féra', 'Févr', 'GERL', 'GIAF', 'GIGO', 'GODA', 'GURA', 'Gamb', 'Garf', 'Genè', 'Gire', 'Goug', 'Guic', 'GÉNÉ', 'HUGH', 'Hamm', 'Haut', 'Hers', 'Hous', 'Houz', 'Hube', 'HÔTE', 'Héro', 'Hôte', 'ILIT', 'ILLE', 'INAU', 'ISLA', 'Ibse', 'Inté', 'JAUD', 'JOUR', 'Jard', 'Jarr', 'Jour', 'Juge', 'Kahn', 'LAIN', 'LEJE', 'LICH', 'Lane', 'Lans', 'Legs', 'Leha', 'Loué', 'Lowe', 'Lucé', 'Lute', 'Lyau', 'Lyon', 'LÉGL', 'MARG', 'MBLÉ', 'MISS', 'MOFF', 'MORO', 'MOSQ', 'MOUT', 'Made', 'Malh', 'Malv', 'Marn', 'Maro', 'Maub', 'Mauv', 'Maït', 'Meil', 'Merl', 'Mond', 'Méni', 'NIER', 'NIPP', 'NTHE', 'Napo', 'Neve', 'Nouv', 'Noël', 'Néno', 'OUES', 'PARE', 'PATR', 'PERE', 'PEUP', 'PLAN', 'Parf', 'Pate', 'Peac', 'Pers', 'Peti', 'Peup', 'Plai', 'Plaz', 'Port', 'Pott', 'Prag', 'Proz', 'Prud', 'Quan', 'Quic', 'Quér', 'RALE', 'RAPP', 'RARD', 'REDL', 'RMAI', 'RUYS', 'Rect', 'Redl', 'Repr', 'Rien', 'Roch', 'Roug', 'Rude', 'RÉÉL', 'Réfo', 'Régn', 'Réus', 'SANG', 'SENA', 'SHOT', 'STER', 'Sara', 'Scep', 'Sein', 'Sept', 'Seul', 'Simo', 'Suis', 'Supp', 'Suze', 'SÉAN', 'Sèvr', 'TENB', 'THOM', 'TIVE', 'TOCR', 'TOTA', 'Tabl', 'Thie', 'Thwi', 'Théâ', 'Torr', 'Très', 'Tuff', 'Turc', 'Tézé', 'UNES', 'Util', 'Vent', 'Verm', 'Vers', 'Veuv', 'Vibr', 'Vois', 'Voye', 'WELL', 'Wash', 'Wear', 'Will', 'Zéla', 'abet', 'acad', 'acer', 'acra', 'adap', 'adju', 'ados', 'affl', 'agac', 'agan', 'agem', 'agir', 'agis', 'agri', 'aimé', 'ainc', 'aisi', 'aisé', 'aita', 'aiti', 'aité', 'alar', 'allo', 'alti', 'ambu', 'amen', 'ammé', 'amor', 'ampu', 'anar', 'ancê', 'anen', 'ante', 'anéa', 'apea', 'apeu', 'appl', 'apr!', 'arad', 'araî', 'ardo', 'arit', 'armi', 'arra', 'arés', 'assé', 'atav', 'atre', 'auda', 'audé', 'auff', 'augm', 'augu', 'aume', 'auqu', 'auxi', 'avér', 'band', 'banq', 'barr', 'base', 'bata', 'belg', 'beur', 'bibl', 'biza', 'bler', 'blie', 'blis', 'blée', 'bonh', 'boss', 'bouc', 'boud', 'boue', 'brui', 'brus', 'brèv', 'buff', 'buis', 'bule', 'béné', 'bûch', 'cade', 'cafa', 'cail', 'cani', 'capa', 'carr', 'caul', 'ccup', 'cerc', 'ceva', 'chai', 'chic', 'chie', 'chou', 'chré', 'chèv', 'chên', 'chôm', 'ciat', 'cins', 'cipé', 'cito', 'cité', 'clor', 'clém', 'clér', 'clôt', 'coal', 'cogn', 'coha', 'coin', 'cole', 'comi', 'coop', 'corp', 'crev', 'croy', 'crut', 'ctat', 'ctes', 'ctoi', 'ctué', 'ct§è', 'cula', 'cult', 'curé', 'cède', 'cère', 'céde', 'datu', 'delà', 'deui', 'devi', 'dian', 'dida', 'dini', 'dios', 'diss', 'dite', 'diti', 'dité', 'diza', 'doci', 'dois', 'doiv', 'dolé', 'doma', 'dony', 'doul', 'drap', 'dron', 'durc', 'dure', 'déba', 'dégé', 'démi', 'déna', 'déri', 'déto', 'déve', 'ecta', 'ecte', 'ecto', 'effr', 'effu', 'efoi', 'efou', 'eket', 'embl', 'enci', 'ende', 'enge', 'enha', 'entâ', 'ença', 'erbe', 'erce', 'erna', 'erné', 'eron', 'erso', 'ersé', 'erts', 'erçu', 'essa', 'essu', 'etLE', 'etin', 'evue', 'excé', 'expi', 'face', 'fail', 'fect', 'fera', 'fets', 'feui', 'ffée', 'fice', 'fici', 'ficu', 'figu', 'fixé', 'fiée', 'flet', 'fleu', 'flot', 'fléc', 'four', 'frat', 'fraî', 'fric', 'fréq', 'fuie', 'funè', 'futu', 'fuya', 'fère', 'gare', 'gend', 'gent', 'gera', 'gers', 'gies', 'gieu', 'glem', 'glet', 'gnif', 'gnés', 'grai', 'grec', 'grie', 'gréa', 'guem', 'gueu', 'gusé', 'géni', 'gêné', 'hait', 'hala', 'harm', 'hens', 'heue', 'hont', 'hors', 'hosp', 'humi', 'hégé', 'hére', 'iard', 'ibil', 'icad', 'iche', 'ichi', 'icit', 'icti', 'ider', 'idie', 'iell', 'iett', 'ifiq', 'igea', 'igné', 'igué', 'igés', 'iles', 'ilie', 'ilèg', 'immu', 'impl', 'impu', 'imul', 'inde', 'indr', 'inex', 'info', 'infâ', 'infé', 'ingt', 'iniè', 'inne', 'inof', 'inon', 'insc', 'inso', 'inue', 'inés', 'ion:', 'irci', 'ire!', 'iren', 'ireà', 'irmé', 'isai', 'isam', 'isat', 'iscr', 'iste', 'isés', 'itin', 'itôt', 'ivat', 'iéta', 'jalo', 'joli', 'joui', 'joué', 'joye', 'jésu', 'lamp', 'lang', 'lect', 'lenc', 'lgen', 'liai', 'lice', 'lifi', 'lige', 'ling', 'liro', 'lits', 'llar', 'llit', 'llon', 'loge', 'loin', 'lopp', 'lore', 'loue', 'loux', 'loué', 'ltan', 'lter', 'ltés', 'luin', 'lure', 'luxe', 'lyse', 'lève', 'lété', 'mabl', 'maci', 'mair', 'mala', 'mali', 'mang', 'marq', 'masc', 'mass', 'matu', 'maxi', 'meur', 'miné', 'miss', 'misè', 'mnit', 'modè', 'modé', 'moeu', 'mono', 'monu', 'mort', 'mosq', 'moui', 'mpha', 'mphé', 'mpli', 'mpré', 'musi', 'muth', 'mutu', 'mène', 'mémo', 'méti', 'mêla', 'mêle', 'naie', 'nait', 'nant', 'napo', 'naus', 'ncil', 'nciè', 'ncon', 'ndel', 'ndue', 'ndés', 'negi', 'nerf', 'neuf', 'neur', 'neut', 'nevi', 'nfor', 'nieu', 'nive', 'nnan', 'nnue', 'norv', 'nour', 'nsci', 'nsib', 'nsid', 'nsti', 'ntat', 'nthè', 'ntir', 'ntri', 'ntér', 'ntés', 'négo', 'obst', 'oché', 'océa', 'odes', 'odox', 'oeuf', 'offr', 'oidi', 'oise', 'oiso', 'olid', 'ombe', 'once', 'oncu', 'ondr', 'onie', 'opri', 'opti', 'oqué', 'ordi', 'ores', 'orgu', 'orig', 'orts', 'oson', 'osti', 'otio', 'ouss', 'ovis', 'oyag', 'paqu', 'pera', 'pert', 'peux', 'phar', 'phié', 'phon', 'phra', 'phér', 'pied', 'plés', 'pneu', 'poil', 'pole', 'pond', 'poud', 'pria', 'prie', 'priv', 'proj', 'prém', 'pseu', 'pson', 'pteu', 'pula', 'péné', 'pére', 'quef', 'quié', 'quot', 'qués', 'quêt', 'race', 'raco', 'rade', 'raje', 'rang', 'rape', 'rapi', 'rass', 'rato', 'ratr', 'ratt', 'raux', 'rbai', 'rban', 'rber', 'rcié', 'rden', 'rder', 'rdit', 'recu', 'refr', 'rele', 'relé', 'remè', 'requ', 'reta', 'reti', 'rets', 'reui', 'reva', 'reço', 'rhum', 'riai', 'rian', 'riau', 'rigo', 'rima', 'rimé', 'risi', 'riti', 'riva', 'riée', 'rmat', 'rmèd', 'rner', 'rnes', 'rona', 'roya', 'rray', 'rren', 'rrer', 'rroi', 'rrée', 'rter', 'rtun', 'rtur', 'rues', 'ruin', 'rume', 'runi', 'russ', 'rval', 'rvat', 'rvon', 'réch', 'réel', 'réfo', 'régl', 'répl', 'répè', 'rêve', 'sade', 'saie', 'sair', 'salu', 'sart', 'sauv', 'sava', 'sav£', 'scol', 'seig', 'semé', 'sere', 'sert', 'seté', 'shis', 'sidu', 'simu', 'sini', 'sist', 'sois', 'sono', 'sons', 'sors', 'souc', 'spar', 'spir', 'spoi', 'spon', "squ'", 'ssab', 'ssag', 'ssio', 'stem', 'stif', 'stou', 'suar', 'subs', 'subv', 'sugg', 'sulm', 'sult', 'surl', 'suro', 'suéd', 'séch', 'sées', 'sépa', 'tail', 'tale', 'tali', 'tané', 'tapi', 'taré', 'tata', 'taté', 'tein', 'tess', 'thès', 'tian', 'tiel', 'tige', 'tins', 'titi', 'tité', 'togé', 'tola', 'trad', 'traî', 'tref', 'trem', 'tren', 'treu', 'triq', 'trêv', 'tuer', 'tuil', 'tule', 'tulé', 'tupl', 'tées', 'télé', 'tôme', 'uant', 'ubli', 'ucti', 'uenc', 'uits', 'ulte', 'unai', 'unir', 'urel', 'uren', 'ureu', 'usur', 'utab', 'utif', 'uver', 'uvée', 'uéra', 'vaie', 'vala', 'vell', 'verd', 'vest', 'vian', 'vibr', 'vice', 'vide', 'vini', 'vins', 'viro', 'vise', 'vist', 'vive', 'voqu', 'vota', 'voto', 'voue', 'vres', 'vreu', 'vulg', 'vées', 'végè', 'véné', 'xcit', 'yens', 'zare', 'zélé', 'èden', 'èren', 'écar', 'écie', 'écli', 'éctu', 'édif', 'édio', 'édur', 'égie', 'élar', 'élud', 'élèv', 'élég', 'éman', 'émie', 'émig', 'émis', 'épar', 'épiq', 'éque', 'érai', 'éran', 'érer', 'érit', 'érés', 'évid', 'êtem']
#Number of occurrences: 2206
gt_unique_4grams = ['ABDI', 'ABLE', 'ABOR', 'ABUS', 'ACCE', 'ACHE', 'ADIE', 'ADMI', 'ADVI', 'AGAN', 'AGAR', 'AGEO', 'AGGR', 'AGIO', 'AGNA', 'AGNE', 'AGRÉ', 'AINÉ', 'AISE', 'ALIS', 'ALLA', 'ALSA', 'ALVA', 'ALZA', 'AMBU', 'AMEN', 'ANIL', 'ANNE', 'ANTE', 'ANTI', 'ANTO', 'ARAN', 'ARDU', 'ARRI', 'ASSA', 'ASSI', 'ASTE', 'ATIT', 'ATIV', 'AUDE', 'AUGU', 'AUPR', 'AURA', 'AVEC', 'AVEN', 'AVIS', 'AVri', 'AVÉE', 'Abbé', 'Abol', 'Abra', 'Acce', 'Acqu', 'Actu', 'Adjo', 'Adol', 'Aisn', 'Alan', 'Albi', 'Alca', 'Alfo', 'Anib', 'Anna', 'Anse', 'Anto', 'Anve', 'Appa', 'Appo', 'Appu', 'Argo', 'Arka', 'Arra', 'Arri', 'Arta', 'Arth', 'Arts', 'Artu', 'Assé', 'Aten', 'Atti', 'Audi', 'Auga', 'Augm', 'Auta', 'Aute', 'Avia', 'Avoc', 'Avoi', 'Ayez', 'Ayon', 'BAGD', 'BALE', 'BANQ', 'BARR', 'BART', 'BATT', 'BAUT', 'BELA', 'BELC', 'BERK', 'BESS', 'BETT', 'BIBL', 'BILI', 'BLUM', 'BONC', 'BONN', 'BOOK', 'BORD', 'BOUC', 'BOUE', 'BREN', 'BRES', 'BRIA', 'BRIE', 'BRUX', 'BUIL', 'Babe', 'Baby', 'Bach', 'Bebe', 'Berk', 'Beth', 'Bido', 'Blen', 'Boch', 'Bouc', 'Boui', 'Boët', 'Brau', 'Brit', 'Broo', 'Brow', 'Bréz', 'Brêm', 'Brûl', 'Budg', 'Bull', 'Buqu', 'Butt', 'BÉAN', 'BÉNÉ', 'Bâle', 'CALD', 'CAND', 'CANT', 'CARD', 'CASS', 'CATI', 'CAUS', 'CEPE', 'CEST', 'CHAD', 'CHAO', 'CHAS', 'CHIC', 'CHIE', 'CHIR', 'CHOA', 'CHar', 'CINE', 'CIPÉ', 'CITE', 'CKLI', 'CLAU', 'CLUB', 'COLU', 'COMT', 'COPA', 'CORD', 'CORN', 'CORR', 'COST', 'COTE', 'CRAC', 'CROI', 'CULA', 'CULT', 'Camp', 'Cand', 'Carl', 'Casa', 'Cass', 'Cell', 'Cera', 'Cerc', 'Cerf', 'Chah', 'Chan', 'Chap', 'Chev', 'Chos', 'Chur', 'Chét', 'Cili', 'Cinc', 'Civi', 'Clér', 'Coal', 'Coll', 'Conç', 'Cord', 'Corr', 'Coul', 'Curs', 'Curz', 'CÉRÉ', 'CÔTE', 'Césa', 'DANE', 'DANG', 'DAVI', 'DEBA', 'DEBO', 'DECE', 'DELE', 'DEMA', 'DEME', 'DEPU', 'DESI', 'DESS', 'DEST', 'DEVI', 'DICK', 'DIEU', 'DIFF', 'DIGN', 'DIMA', 'DION', 'DISA', 'DIVE', 'DIÉE', 'DMAI', 'DOIS', 'DOUG', 'DOUL', 'DOUR', 'DRES', 'DREY', 'DUMA', 'Dame', 'Davi', 'Dest', 'Deut', 'Devo', 'Dick', 'Dict', 'Diff', 'Dijo', 'Dipl', 'Diri', 'Disc', 'Diso', 'Docu', 'Doma', 'Domi', 'Doug', 'Doui', 'Drea', 'Dreu', 'Drey', 'Drum', 'Duch', 'Ducr', 'Dufa', 'Dunk', 'Dura', 'Dutt', 'DÉCE', 'DÉFA', 'DÉJA', 'DÉLÉ', 'DÉMI', 'DÉNO', 'DÉPO', 'DÉRÉ', 'DÉSI', 'DÉSO', 'Déci', 'Décl', 'Déma', 'Déro', 'Détr', 'ECHE', 'ECRI', 'ECTE', 'EFFE', 'EFFO', 'EILL', 'ELIN', 'ELLA', 'ELNA', 'ELYS', 'EMAI', 'EMBR', 'ENCH', 'ENDA', 'ENFO', 'ENRI', 'ENSU', 'ENTR', 'ENVA', 'ENVO', 'ERBU', 'ERGU', 'ERLÉ', 'ERNA', 'ERON', 'ERPA', 'ESPA', 'ESPO', 'ESPR', 'ESSI', 'ESTR', 'ETAI', 'ETHN', 'EXPÉ', 'EXÉC', 'EYRI', 'Eche', 'Echo', 'Ecri', 'Edou', 'Edwa', 'Eled', 'Emba', 'Ench', 'Enri', 'Ensu', 'Eric', 'Ermi', 'Etai', 'Even', 'Evid', 'Exam', 'Exec', 'Exem', 'Expl', 'Exté', 'FAIS', 'FALL', 'FAVE', 'FERM', 'FERN', 'FERR', 'FEST', 'FFIS', 'FIAS', 'FICI', 'FIGA', 'FINC', 'FIQU', 'FLÉC', 'FOCH', 'FOIS', 'FONC', 'FOND', 'FOUR', 'FREE', 'FROM', 'FRON', 'FUNE', 'FURE', 'FUTU', 'Fach', 'Fami', 'Faut', 'Faye', 'Feli', 'Flam', 'Flan', 'Fleu', 'Fore', 'Fort', 'Four', 'From', 'Fréd', 'FÉLI', 'Féli', 'Fête', 'GAIE', 'GALL', 'GANI', 'GAUL', 'GERA', 'GERI', 'GERM', 'GLÉE', 'GOUT', 'GRAV', 'GREC', 'GREV', 'GREY', 'GUEP', 'GUIR', 'Gain', 'Gand', 'Garc', 'Gass', 'Gaud', 'Gaul', 'Gens', 'Gent', 'Gera', 'Gide', 'Giro', 'Glad', 'Gree', 'Gren', 'Guis', 'Géog', 'HABE', 'HALL', 'HAVR', 'HAYE', 'HCLI', 'HEWS', 'HIES', 'HING', 'HOLL', 'HONG', 'HONN', 'HSTA', 'Habs', 'Halé', 'Hamb', 'Hatf', 'Hava', 'Heid', 'Hila', 'Hirs', 'Hist', 'Hohe', 'Holm', 'Holw', 'Hong', 'Honn', 'Hosp', 'Hugh', 'Huil', 'Hyde', 'Hyma', 'HÉCA', 'Hélo', 'IAMS', 'IATI', 'ICAN', 'ICAT', 'ICEN', 'ICUL', 'IDAT', 'IDEI', 'IELL', 'IEUS', 'IFIÉ', 'IGNO', 'IION', 'IMPR', 'INAL', 'INCE', 'INCL', 'INDÉ', 'INFI', 'INGR', 'INOP', 'INOR', 'INQU', 'INSO', 'INSU', 'INUE', 'IOTH', 'IOUE', 'IOUÉ', 'IPPI', 'IQUÉ', 'ISAT', 'ISME', 'ISOI', 'ISTA', 'ISVO', 'ITAL', 'ITEN', 'ITIN', 'ITOI', 'IXSX', 'Illi', 'Incr', 'Inde', 'Ingé', 'Intr', 'Irla', 'Iron', 'Issc', 'Isso', 'IÉTU', 'JAUR', 'JORD', 'JUIG', 'JUPI', 'JUST', 'Jacq', 'Jaud', 'Jean', 'Jeud', 'Jeun', 'Joly', 'José', 'Juan', 'Jusq', 'Juvi', 'Jéru', 'KERT', 'Krup', 'Kult', 'LACH', 'LACR', 'LADR', 'LALL', 'LANC', 'LAND', 'LARN', 'LASS', 'LATI', 'LAVA', 'LAVE', 'LAVI', 'LEAG', 'LECT', 'LEND', 'LEON', 'LESS', 'LEVE', 'LIBE', 'LIGU', 'LIMA', 'LIST', 'LIZA', 'LLEZ', 'LOIR', 'LOIS', 'LOND', 'LORR', 'LOUC', 'LSKY', 'LUXE', 'Lala', 'Laus', 'Lava', 'Ledo', 'Lens', 'Lepê', 'Libe', 'Libo', 'Libr', 'Lich', 'Lièg', 'Long', 'Loqu', 'Luch', 'Luné', 'MAGN', 'MAJO', 'MALI', 'MALL', 'MAME', 'MANI', 'MANN', 'MANZ', 'MARI', 'MARK', 'MAUD', 'MAXI', 'MAYE', 'MBIA', 'MBOU', 'MERE', 'MESS', 'MEZE', 'MIEU', 'MINI', 'MOBI', 'MODE', 'MOIN', 'MONI', 'MOUS', 'MOYE', 'MPHE', 'MPLI', 'MURR', 'MUST', 'MUTU', 'Maid', 'Makl', 'Malo', 'Matt', 'Maxi', 'Mayf', 'Mesd', 'Meze', 'Mich', 'Midi', 'Mieu', 'Mill', 'Mimb', 'Mine', 'Moch', 'Moni', 'Mora', 'Mort', 'Moul', 'Mour', 'MÉMO', 'Méli', 'NAIS', 'NCES', 'NCHE', 'NDUE', 'NEGL', 'NELL', 'NEUT', 'NIAD', 'NISM', 'NISN', 'NIST', 'NIVE', 'NNAI', 'NNEL', 'NOLL', 'NOMB', 'NORT', 'NORV', 'NOUR', 'NOVE', 'NTAI', 'NXXY', 'Naza', 'Neuf', 'Neuv', 'News', 'Nice', 'Noge', 'Noir', 'Nomm', 'NonS', 'Note', 'Noyo', 'Null', 'OCEA', 'OCTO', 'ONAY', 'ONNI', 'OOLI', 'OPIE', 'ORIG', 'OTWE', 'OURE', 'OURN', 'OUTR', 'OVER', 'Oeuv', 'Oise', 'Oiss', 'Orme', 'Osca', 'Otle', 'Otto', 'Ouen', 'PACI', 'PALA', 'PARS', 'PART', 'PASS', 'PAÏV', 'PEAC', 'PERC', 'PERR', 'PETR', 'PHIL', 'PHOT', 'PICH', 'PIED', 'PINA', 'PIRE', 'PLEN', 'PLOU', 'PRAD', 'PREC', 'PREM', 'PREV', 'PRIE', 'PRIN', 'PRIX', 'PROI', 'PRÉC', 'PRÉP', 'PUBL', 'PULA', 'PYRR', 'Pact', 'Pail', 'Pair', 'Pana', 'Pann', 'Park', 'Past', 'Patr', 'Pein', 'Penh', 'Peyl', 'Piai', 'Pica', 'Picc', 'Pill', 'Pire', 'Plei', 'Plén', 'Poli', 'Poot', 'Pren', 'Prix', 'Prob', 'Prov', 'Pryt', 'Préd', 'Prél', 'Pyré', 'PÉNÉ', 'Pâle', 'QUAT', 'QUES', 'QUEU', 'Quat', 'Quen', 'Quin', 'RACE', 'RANC', 'RATI', 'RATT', 'RATU', 'RCIE', 'RECO', 'RECU', 'REIC', 'REIM', 'REIN', 'REME', 'REND', 'RESO', 'REUN', 'REUX', 'RGAN', 'RMES', 'RONI', 'ROOT', 'ROQU', 'ROUG', 'ROUS', 'RSES', 'RUIR', 'RVIS', 'Rabe', 'Rais', 'Rass', 'Reic', 'Rela', 'Reli', 'Reno', 'Resp', 'Reve', 'Reyn', 'Rhôn', 'Rich', 'Robi', 'Rois', 'Romn', 'Rott', 'Roup', 'Roya', 'RÉAC', 'RÉFO', 'RÉGI', 'RÉSO', 'RÉUN', 'RÉVO', 'Réac', 'Rédu', 'Réfl', 'Réin', 'Rémy', 'Répa', 'Résu', 'Rôle', 'Rôti', 'SACR', 'SALL', 'SANT', 'SAVE', 'SCHE', 'SCOT', 'SEAI', 'SEAN', 'SEBE', 'SEME', 'SENL', 'SEPT', 'SERA', 'SERB', 'SIDE', 'SILL', 'SIXT', 'SOLD', 'SOTI', 'SOUL', 'SPOR', 'SSAI', 'SSAN', 'SSIO', 'SSIT', 'SSOC', 'SSÉE', 'STAN', 'STAR', 'STAT', 'STES', 'STUN', 'STÉR', 'SUED', 'SUIT', 'SXNX', 'SYMP', 'Sabl', 'Sach', 'Sala', 'Sall', 'Sava', 'Save', 'Savo', 'Schw', 'Scot', 'Seat', 'Selo', 'Sequ', 'Sera', 'Seth', 'Siam', 'Sigr', 'Sing', 'Sira', 'Sixt', 'Slav', 'Soir', 'Soit', 'Soll', 'Sorb', 'Sort', 'Souh', 'Souv', 'Soyo', 'Spen', 'Spon', 'Squa', 'Star', 'Stee', 'Stei', 'Sten', 'Stre', 'Stép', 'Sult', 'Supr', 'Suéd', 'Sydn', 'SÉPA', 'Séce', 'Sévè', 'TAFT', 'TAIR', 'TANS', 'TARI', 'TARY', 'TAUX', 'TEAU', 'TECH', 'TEES', 'TENA', 'TENO', 'TERR', 'TERY', 'TETE', 'TEXT', 'TIEL', 'TOLL', 'TOMB', 'TOME', 'TORA', 'TOUR', 'TRAT', 'TRAV', 'TRIM', 'TRIO', 'TROP', 'TURQ', 'TUÉE', 'TZAR', 'Tage', 'Talh', 'Tapl', 'Tché', 'Teno', 'Text', 'Thou', 'Tigr', 'Tome', 'Touc', 'Trib', 'Trie', 'Trip', 'Troc', 'Trés', 'Tsar', 'Tsen', 'Tsia', 'Tuck', 'Tâch', 'UDEL', 'UETE', 'UGAR', 'ULLO', 'UNDE', 'UNIT', 'UPON', 'URES', 'URSE', 'UTIF', 'UTIO', 'Ukra', 'Upto', 'UÊTE', 'VERS', 'VEUI', 'VICE', 'VIII', 'VOUS', 'Vari', 'Verg', 'Vern', 'Vezi', 'Vien', 'Vint', 'Vitr', 'Vive', 'Vlad', 'Voci', 'Voya', 'Voyo', 'WAGR', 'WALS', 'WETT', 'WHEE', 'WHIT', 'WICK', 'WILL', 'WORL', 'WYTH', 'Wagr', 'Wall', 'Wate', 'West', 'Whhe', 'Whit', 'Wiar', 'Wilh', 'XENX', 'XVII', 'XVIe', 'XXVI', 'XXXI', 'Xavi', 'YEAR', 'YLET', 'Youg', 'ZAIR', 'ZEPP', 'Zorn', 'aLET', 'abai', 'abba', 'abbé', 'abei', 'aber', 'abit', 'abné', 'abol', 'abom', 'accé', 'achè', 'acor', 'acro', 'acta', 'acun', 'adhé', 'adie', 'adée', 'adér', 'affu', 'agai', 'ageo', 'aggl', 'agin', 'agno', 'agon', 'agée', 'aida', 'aier', 'aigl', 'aira', 'airi', 'alen', 'alig', 'aloi', 'alte', 'alwa', 'amai', 'aman', 'amba', 'ambe', 'amia', 'amèr', 'amée', 'andi', 'ands', 'anec', 'anel', 'aner', 'anis', 'anom', 'ansp', 'apit', 'apos', 'appê', 'apro', 'apte', 'apès', 'ards', 'aria', 'arne', 'atai', 'ater', 'atib', 'atiq', 'atoi', 'auba', 'aubo', 'avid', 'aviv', 'avor', 'ayon', 'aéri', 'aïeu', 'baco', 'baga', 'bait', 'bare', 'bati', 'baza', 'baïo', 'bele', 'bert', 'bill', 'bilt', 'bise', 'bitr', 'bjet', 'blia', 'bole', 'bona', 'bonb', 'bouq', 'boyc', 'boît', 'brag', 'brai', 'bran', 'brat', 'brea', 'bron', 'brul', 'brum', 'brée', 'bulg', 'busé', 'buti', 'buva', 'bâti', 'béll', 'béni', 'cada', 'cadu', 'cais', 'came', 'carb', 'cate', 'caté', 'cauc', 'cave', 'ccor', 'ceLE', 'cele', 'celé', 'cerf', 'cero', 'cest', 'chao', 'chen', 'chil', 'chiq', 'chit', 'choe', 'chét', 'cide', 'cies', 'ciga', 'cill', 'cisc', 'cisi', 'citr', 'cits', 'ciée', 'ckin', 'ckli', 'clef', 'cler', 'cloc', 'club', 'coch', 'cohé', 'coiv', 'colè', 'corb', 'cors', 'cost', 'cots', 'coté', 'cous', 'coéd', 'coùp', 'cred', 'cria', 'cril', 'crir', 'crié', 'croc', 'cron', 'crou', 'crue', 'crêm', 'ctif', 'ctiq', 'ctiv', 'cuei', 'cues', 'culé', 'cupe', 'cure', 'cuté', 'cyni', 'cyue', 'cédo', 'césa', 'cœeu', 'd!un', 'd!éc', 'dais', 'dait', 'damn', 'danc', 'deAn', 'deCl', 'depr', 'dfon', 'dfor', 'dhal', 'dind', 'diro', 'disg', 'disq', 'dnou', 'doll', 'domn', 'donj', 'doti', 'doua', 'doxa', 'doye', 'dual', 'ducs', 'dues', 'duns', 'dupl', 'durs', 'dèjà', 'dèle', 'déal', 'débo', 'débr', 'déga', 'dégr', 'dénu', 'dépr', 'dépê', 'déra', 'déro', 'déçu', 'eadn', 'eaur', 'eban', 'ecoi', 'ecou', 'ecro', 'ectu', 'eful', 'eggs', 'elbe', 'elge', 'ella', 'ellé', 'eman', 'empa', 'emst', 'enab', 'enad', 'enay', 'enca', 'endi', 'eneg', 'enez', 'engr', 'enhe', 'enio', 'enli', 'enlè', 'ent?', 'entC', 'eral', 'eran', 'erda', 'eret', 'erge', 'ergé', 'erio', 'erme', 'ermo', 'erou', 'erqu', 'erré', 'erte', 'erté', 'ervi', 'esco', 'esso', 'estL', 'estl', 'etag', 'etc…', 'ethn', 'etia', 'etle', 'etre', 'etzu', 'etés', 'euls', 'euss', 'evoy', 'evée', 'evés', 'exho', 'exot', 'fCle', 'fanf', 'fast', 'fauc', 'fena', 'fere', 'fide', 'fidu', 'filt', 'fins', 'fire', 'firm', 'fixt', 'fièv', 'fiés', 'fiév', 'flag', 'flam', 'flor', 'flue', 'flân', 'flèc', 'fons', 'fore', 'foss', 'frag', 'frie', 'frin', 'from', 'frêl', 'fugi', 'fuir', 'fére', 'fêta', 'fêti', 'gabl', 'gair', 'gait', 'gala', 'gale', 'gant', 'garn', 'geab', 'gene', 'geno', 'geon', 'gerb', 'ghts', 'gibi', 'gibo', 'giga', 'gine', 'gira', 'givr', 'glai', 'gler', 'glém', 'gnem', 'gnez', 'gnol', 'gnor', 'gogn', 'gons', 'gorg', 'gori', 'gras', 'grel', 'grem', 'gres', 'grev', 'gril', 'grip', 'gron', 'guan', 'gues', 'gume', 'guré', 'guéé', 'géan', 'gémi', 'géne', 'géog', 'gére', 'hach', 'hais', 'hale', 'hall', 'halt', 'hame', 'harc', 'hari', 'haus', 'heim', 'hell', 'help', 'hema', 'herc', 'hero', 'hers', 'hful', 'hibé', 'hide', 'hiez', 'high', 'homé', 'hone', 'hopi', 'hora', 'horl', 'horo', 'hsta', 'huiP', 'huil', 'hydr', 'hyma', 'hymn', 'hâti', 'hâté', 'hèla', 'hème', 'hète', 'hées', 'hémi', 'héti', 'iars', 'icab', 'icol', 'idue', 'idyl', 'iels', 'ierr', 'ifia', 'iges', 'igré', 'igua', 'igée', 'ilLE', 'ilSÉ', 'ilat', 'ilié', 'ilss', 'imat', 'imez', 'imèt', 'imés', 'inab', 'inag', 'inav', 'indo', 'indû', 'inea', 'inez', 'ingo', 'inin', 'iniq', 'inis', 'inna', 'inoc', 'inua', 'inui', 'inuo', 'inus', 'inég', 'inén', 'inép', 'iole', 'ioré', 'iple', 'iquo', 'irag', 'irio', 'irre', 'irri', 'isay', 'isem', 'isen', 'iseu', 'isto', 'isté', 'iswi', 'itan', 'itec', 'itif', 'itiv', 'itié', 'iton', 'ivag', 'iven', 'ivez', 'ivos', 'ivée', 'iègn', 'iéte', 'iété', 'jamb', 'jeta', 'jeté', 'jeux', 'joug', 'joya', 'judi', 'jugi', 'jure', 'jury', 'juxt', 'kais', 'kfas', 'koff', 'laDé', 'lacu', 'lacé', 'lady', 'lain', 'lamé', 'land', 'lanç', 'lapi', 'lata', 'latr', 'laya', 'laça', 'lbla', 'leLE', 'leSÉ', 'leri', 'lern', 'lets', 'leté', 'leun', 'leus', 'lexe', 'lheu', 'liar', 'lica', 'lici', 'limp', 'liti', 'liés', 'llad', 'llag', 'llan', 'llis', 'lman', 'loco', 'logé', 'loir', 'lone', 'lons', 'lori', 'lote', 'lots', 'lsio', 'lson', 'lten', 'ltez', 'ltra', 'ltée', 'luan', 'luci', 'luge', 'luis', 'luli', 'lunc', 'lund', 'lvab', 'lver', 'lègè', 'lèle', 'lèvr', 'légé', 'léta', 'léza', 'mace', 'mage', 'magi', 'maie', 'mals', 'marb', 'mard', 'marm', 'maré', 'masq', 'mben', 'mber', 'mbré', 'menç', 'mené', 'mera', 'mero', 'mers', 'merç', 'mets', 'meul', 'meus', 'micr', 'mida', 'miez', 'mila', 'milé', 'mimo', 'mino', 'mins', 'misa', 'mite', 'mièr', 'mmag', 'mmit', 'mmiè', 'mnis', 'mnié', 'mocr', 'momt', 'monc', 'mori', 'mote', 'mous', 'mout', 'mpti', 'mula', 'musu', 'mâts', 'mède', 'méan', 'méda', 'méla', 'méni', 'méra', 'mêtr', 'mûre', 'mûri', 'n!es', 'nLet', 'nabl', 'nagé', 'nain', 'nanc', 'napp', 'nast', 'nate', 'nauf', 'nave', 'navi', 'naîf', 'nchi', 'nchè', 'nché', 'ncia', 'ncib', 'ncol', 'ndLe', 'ndat', 'ndeu', 'ndia', 'ndid', 'ndio', 'ndiq', 'ndus', 'nels', 'neng', 'nera', 'nerv', 'ness', 'neus', 'neux', 'news', 'ngel', 'ngen', 'ngio', 'niai', 'nids', 'nimé', 'nios', 'nira', 'nirs', 'nitu', 'nièr', 'niéc', 'niée', 'nnem', 'nniq', 'nnée', 'noir', 'nois', 'nomé', 'nora', 'nors', 'noto', 'noue', 'nova', 'nows', 'nqui', 'nqué', 'nsit', 'nsor', 'nsém', 'nsés', 'ntau', 'nthr', 'ntit', 'ntra', 'nuag', 'nuat', 'nuie', 'nume', 'nure', 'nzol', 'nâit', 'nçan', 'néga', 'obis', 'obti', 'ocat', 'ocay', 'ocha', 'ocos', 'ocre', 'odil', 'odiq', 'odys', 'oger', 'ogne', 'oint', 'oisi', 'oiss', 'oiti', 'olat', 'olds', 'ombr', 'omes', 'omin', 'omme', 'ommo', 'omph', 'omér', 'onag', 'onar', 'onfi', 'onib', 'opiq', 'opéd', 'oqua', 'orai', 'oran', 'orbi', 'orch', 'orda', 'ordo', 'ordu', 'orei', 'orna', 'oron', 'orou', 'orph', 'orté', 'osen', 'osez', 'otag', 'otro', 'otte', 'otté', 'ouet', 'ougb', 'ouie', 'ouil', 'ouko', 'ourg', 'ourn', 'outL', 'outi', 'ouvo', 'ouée', 'oyés', 'pair', 'pana', 'pang', 'panh', 'pape', 'parr', 'pate', 'pave', 'pavi', 'peau', 'pecc', 'peit', 'penc', 'peri', 'perl', 'pero', 'pese', 'phal', 'phob', 'phém', 'pilo', 'piss', 'pitr', 'plaf', 'plau', 'plon', 'plos', 'plou', 'plue', 'plât', 'plée', 'poés', 'ppol', 'ppos', 'ppte', 'prev', 'prié', 'proq', 'prox', 'ptab', 'ptez', 'pugn', 'pull', 'pâli', 'pâte', 'pâtu', 'péfi', 'pélé', 'péna', 'pénu', 'pénè', 'péra', 'pétr', 'pétu', 'pôts', 'quas', 'quet', 'quun', 'quér', 'quét', 'raba', 'rabe', 'racl', 'rafi', 'rand', 'rani', 'rans', 'ranç', 'rapé', 'rari', 'rats', 'rayo', 'rben', 'rbés', 'rcha', 'rcés', 'rdai', 'rdie', 'reSÉ', 'rebu', 'refl', 'refo', 'reje', 'renf', 'renn', 'repe', 'rero', 'rett', 'reçû', 'rgen', 'rges', 'rice', 'rick', 'rigi', 'rine', 'riqu', 'rita', 'rito', 'ritu', 'rixe', 'riés', 'rlem', 'rloo', 'rman', 'rmie', 'rnen', 'rnic', 'rnés', 'robu', 'rogu', 'ronf', 'roos', 'roté', 'rouc', 'roui', 'rous', 'rouv', 'roît', 'rpel', 'rpem', 'rrie', 'rriv', 'rron', 'rser', 'rteu', 'rtin', 'ruis', 'runt', 'rust', 'rvan', 'rvoi', 'rvés', 'râce', 'rçon', 'réar', 'récr', 'récu', 'réde', 'réfe', 'réfr', 'réin', 'réjo', 'rému', 'rétr', 'réve', 'rêta', 'rêvé', 'sacs', 'sagé', 'sail', 'sale', 'samm', 'sani', 'satl', 'satr', 'saup', 'saxo', 'sayé', 'sbor', 'scab', 'sche', 'scié', 'scré', 'scul', 'scèn', 'seLE', 'seSE', 'sect', 'secu', 'sell', 'seri', 'serr', 'sers', 'sexe', 'sfér', 'shal', 'sias', 'sibl', 'sidé', 'sieu', 'sifs', 'sige', 'sill', 'simb', 'simi', 'sinu', 'sira', 'sirè', 'site', 'sixi', 'siég', 'smou', 'soeu', 'soif', 'somb', 'some', 'sord', 'sots', 'sott', 'soyo', 'sses', 'ssiv', 'ssoi', 'ssur', 'ssèd', 'stai', 'steu', 'stil', 'stin', 'stol', 'ston', 'styl', 'stée', 'stés', 'suas', 'subt', 'suic', 'suie', 'surc', 'surs', 'svaa', 'swaa', 'syph', 'séle', 'séme', 'séni', 'sévi', 'sévé', 'tSÉN', 'tabi', 'tach', 'taci', 'taqu', 'taur', 'taxe', 'tech', 'tect', 'tels', 'tema', 'tene', 'teno', 'tens', 'tern', 'test', 'teus', 'thèm', 'théo', 'tiat', 'tica', 'ticu', 'tiem', 'tifi', 'tigr', 'tile', 'timo', 'tint', 'tira', 'tiré', 'tisa', 'tist', 'tont', 'torc', 'torr', 'touv', 'traf', 'trat', 'trei', 'trez', 'trie', 'trit', 'ttai', 'ttan', 'ttaq', 'tten', 'tton', 'ttra', 'tues', 'tuni', 'tura', 'turb', 'tuée', 'type', 'tâto', 'tère', 'téma', 'témé', 'tére', 'uabl', 'uali', 'ublé', 'udes', 'udin', 'uerr', 'ueur', 'ueus', 'uion', 'uiss', 'ulab', 'ulèd', 'umen', 'umer', 'umes', 'unte', 'unée', 'uons', 'uper', 'uple', 'upor', 'urez', 'urgi', 'urit', 'urna', 'urnè', 'urro', 'urse', 'urvu', 'urée', 'usci', 'usée', 'usém', 'utie', 'utiq', 'utis', 'utum', 'utée', 'uvea', 'uvré', 'vacc', 'vape', 'vaqu', 'vein', 'veno', 'veui', 'vial', 'vici', 'viez', 'vigu', 'vina', 'vinr', 'vion', 'virg', 'viri', 'viso', 'viss', 'visé', 'viti', 'vity', 'voca', 'vols', 'volé', 'voût', 'vran', 'vrez', 'vété', 'vœux', 'wago', 'weil', 'with', 'xiqu', 'xonn', 'xons', 'xéno', 'yCIR', 'yent', 'yion', 'ymes', 'yons', 'your', 'zair', 'zepp', 'zèle', 'zéli', 'ÉDIT', 'ÉESS', 'ÉMAN', 'ÉMIE', 'ÉMIQ', 'ÉMUL', 'ÉPIS', 'ÉRAI', 'ÉSAI', 'ÉTAP', 'ÉTAT', 'ÉVEQ', 'ÉVOL', 'àLET', 'çons', 'ècle', 'ègne', 'ègre', 'èles', 'ènen', 'ènes', 'èrer', 'èsSÉ', 'ètem', 'ètes', 'ètre', 'èvre', 'écai', 'écio', 'éclo', 'écos', 'écre', 'écro', 'écur', 'édai', 'édan', 'éder', 'édér', 'éfia', 'éger', 'égoi', 'éhon', 'élan', 'élic', 'élog', 'élév', 'émic', 'émin', 'émiq', 'émoc', 'émou', 'émue', 'énig', 'énis', 'énég', 'énér', 'épan', 'épau', 'épee', 'épen', 'épil', 'épis', 'épri', 'éral', 'érir', 'érée', 'érém', 'ésum', 'étar', 'étei', 'étin', 'étou', 'étéL', 'étéS', 'évac', 'éven', 'évol', 'évue', 'évus', 'éxéc', 'êmem', 'êten', 'îtra', 'ûete', 'ûtée', 'œill']
#Number of occurrences: 186
common_4grams = ['AINE', 'ALEX', 'AMBA', 'ANDE', 'ARIS', 'Admi', 'Arro', 'Assi', 'Auto', 'Baco', 'Berg', 'Bray', 'Buis', 'Choa', 'Cobl', 'Colu', 'Creu', 'Dard', 'Dato', 'Desc', 'Déba', 'Démo', 'ECTI', 'ENNE', 'Enqu', 'Foch', 'Fédé', 'GIDE', 'Gast', 'Grou', 'HABI', 'HOIS', 'Hell', 'Impo', 'Jone', 'Juig', 'Jupi', 'LITÉ', 'Luci', 'MUNI', 'Marg', 'Myia', 'OLAN', 'ONAL', 'ORBI', 'ORDI', 'Parc', 'Plut', 'Rigo', 'Répo', 'SAIN', 'SSAD', 'Schn', 'Solv', 'Supé', 'TORI', 'Thra', 'WALL', 'Wilb', 'Wrig', 'abdi', 'aigu', 'aiso', 'aret', 'avag', 'avoc', 'bail', 'bana', 'bani', 'bava', 'bite', 'bull', 'casi', 'cept', 'chèq', 'cian', 'clus', 'colp', 'cupa', 'doct', 'dîné', 'eide', 'ends', 'ener', 'enfl', 'enor', 'entz', 'enus', 'escl', 'espa', 'espi', 'esté', 'faim', 'fals', 'fens', 'fenê', 'fièr', 'frac', 'frei', 'fren', 'fuit', 'galv', 'gars', 'garç', 'giss', 'gles', 'gneu', 'guei', 'hane', 'heri', 'iait', 'ibut', 'icis', 'ield', 'igny', 'inap', 'inla', 'ints', 'itué', 'jaun', 'klin', 'lave', 'lavé', 'liss', 'léan', 'mate', 'mato', 'mbia', 'meut', 'mide', 'minu', 'mist', 'nglo', 'ngés', 'nici', 'nonc', 'noté', 'ntiv', 'nére', 'ocri', 'oité', 'orag', 'orth', 'osan', 'oste', 'pait', 'pani', 'pann', 'pari', 'payi', 'pitt', 'poèt', 'prit', 'pées', 'péti', 'quem', 'rdag', 'rdir', 'reha', 'rive', 'rièm', 'rrec', 'rtis', 'régn', 'seil', 'sire', 'siss', 'spos', 'sémi', 'tact', 'tamm', 'tolé', 'turp', 'uade', 'uadé', 'udem', 'uièm', 'ussé', 'veté', 'vier', 'vigi', 'vila', 'volt', 'épai', 'éphé', 'érie']
#Common vs GT
#Number of occurrences: 27
common_unique_2grams = ['AF', 'Ao', 'Bl', 'CE', 'DO', 'DU', 'EU', 'FR', 'GL', 'MB', 'PL', 'RD', 'RM', 'RU', 'RÉ', 'SU', 'ah', 'az', 'fs', 'lb', 'lp', 'my', 'nh', 'rh', 'wa', 'xé', 'âm']
#Number of occurrences: 130
gt_unique_2grams = ['AO', 'Ah', 'Bâ', 'CÉ', 'CÔ', 'Cé', 'DM', 'Dû', 'EO', 'EW', 'FL', 'FT', 'FÉ', 'Fê', 'Fû', 'GD', 'Gl', 'HC', 'HS', 'HÉ', 'IP', 'Jé', 'Km', 'Ku', 'MS', 'MT', 'NL', 'NZ', 'Nö', 'OA', 'OK', 'OO', 'Oe', 'Os', 'PY', 'Pâ', 'RB', 'RQ', 'RÈ', 'SN', 'SY', 'Sq', 'TZ', 'Tc', 'Tâ', 'UB', 'Uk', 'Up', 'UÊ', 'Vl', 'WO', 'WY', 'Wr', 'XY', 'Xa', 'Zo', 'aL', 'ae', 'aï', 'bj', 'bt', 'cq', 'c…', 'dh', 'dà', 'eo', 'fC', 'gb', 'hf', 'hs', 'ht', 'hw', 'iP', 'iâ', 'iò', 'kf', 'km', 'lw', 'mâ', 'n!', 'nL', 'nS', 'nb', 'nz', 'nâ', 'nê', 'oa', 'ok', 'qe', 'rL', 'ry', 'rz', 'sd', 'sv', 'sw', 't?', 'tC', 'tS', 'tf', 'tè', 'uq', 'vy', 'vœ', 'we', 'xa', 'yC', 'yc', 'yf', 'yn', 'yr', 'yt', 'zi', 'zu', 'zè', 'zé', 'ÉD', 'ÏV', 'àL', 'ân', 'çû', 'éL', 'éS', 'éx', 'éz', 'ët', 'îf', 'ïo', 'ùp', 'ûe', 'œi']
#Number of occurrences: 2
common_2grams = ['râ', 'ôm']
#Number of occurrences: 108
common_unique_3grams = ['AIR', 'ATI', 'Aoû', 'Ard', 'Aus', 'Cho', 'DON', 'DOT', 'EMB', 'ENT', 'FRA', 'ISE', 'Jap', 'Leu', 'MEN', 'Mex', 'Nos', 'Not', 'PAT', 'Pre', 'TRA', 'TTR', 'UNE', 'Vos', 'acq', 'afi', 'aly', 'amo', 'aqu', 'aré', 'ase', 'ben', 'blo', 'cad', 'chu', 'dea', 'enh', 'fas', 'flo', 'fri', 'frè', 'féc', 'gal', 'gle', 'gur', 'has', 'ial', 'iez', 'igu', 'ipe', 'irr', 'leq', 'lex', 'lor', 'lum', 'léc', 'mir', 'mob', 'mou', 'mwa', 'mys', 'mép', 'nab', 'ncr', 'néa', 'obt', 'oca', 'oce', 'ogn', 'oll', 'ols', 'osa', 'pho', 'pie', 'plè', 'pço', 'pée', 'pét', 'rad', 'roi', 'rop', 'rro', 'rud', 'rçu', 'rêm', 'sia', 'soc', 'spe', 'tef', 'tho', 'tip', 'tun', 'uge', 'uma', 'ura', 'urg', 'usq', 'uta', 'vid', 'vul', 'vée', 'yan', 'âme', 'çai', 'éfi', 'ége', 'éno', 'énu']
#Number of occurrences: 1088
gt_unique_3grams = ['ABD', 'ABO', 'ABU', 'ACE', 'ACH', 'ACY', 'ADI', 'ADM', 'ADV', 'AGG', 'AGN', 'AGR', 'AHI', 'AII', 'AIL', 'ALE', 'ALI', 'ALS', 'ALV', 'ALZ', 'AMO', 'ARE', 'ARI', 'ARR', 'ARÉ', 'ATS', 'ATU', 'AUD', 'AUG', 'AUN', 'AUP', 'AVr', 'AYS', 'Abb', 'Abo', 'Abr', 'Acc', 'Acq', 'Act', 'Adj', 'Adm', 'Ado', 'Ais', 'Ala', 'Alc', 'Alf', 'Ani', 'Ans', 'Anv', 'Arg', 'Ark', 'Ate', 'Aud', 'Avi', 'Aye', 'Ayo', 'BAG', 'BAN', 'BAT', 'BAU', 'BES', 'BIB', 'BLU', 'BOO', 'BOR', 'BRU', 'Bas', 'Bay', 'Beb', 'Bid', 'Ble', 'Boc', 'Boi', 'Boë', 'Brê', 'Brû', 'Bud', 'Bui', 'Buq', 'BÉA', 'BÉN', 'Bâl', 'CAC', 'CAT', 'CAU', 'CEP', 'CHS', 'CHa', 'CIN', 'CLA', 'CLU', 'CLÉ', 'COL', 'COS', 'COT', 'CRO', 'CTO', 'CUL', 'CUR', 'CUT', 'Cap', 'Chu', 'Cil', 'Cin', 'Civ', 'Coa', 'Cob', 'Coq', 'Cot', 'Cre', 'CÉR', 'CÔT', 'Cés', 'DAD', 'DAL', 'DAV', 'DAY', 'DEC', 'DEL', 'DEN', 'DEP', 'DER', 'DEV', 'DIC', 'DID', 'DIF', 'DIG', 'DIM', 'DIN', 'DIO', 'DIV', 'DOI', 'DUM', 'DUP', 'DWI', 'Dam', 'Dar', 'Dat', 'Dav', 'Dev', 'Dif', 'Dij', 'Dip', 'Doc', 'Dru', 'Duf', 'Dun', 'Dur', 'Dut', 'DÉJ', 'DÉL', 'DÉN', 'DÉR', 'Déb', 'Dér', 'Dét', 'ECR', 'EDA', 'EID', 'EIM', 'ELY', 'EME', 'ENF', 'ENN', 'ENR', 'ENX', 'EOT', 'ERC', 'ERE', 'ERV', 'ESÉ', 'ETE', 'ETH', 'ETS', 'ETÉ', 'EVE', 'EXE', 'EXP', 'EXÉ', 'Ecr', 'Edo', 'Edw', 'Ele', 'Emb', 'End', 'Enq', 'Enr', 'Ens', 'Eri', 'Erm', 'Etc', 'Eve', 'Evi', 'Exa', 'Exp', 'FAL', 'FAV', 'FEU', 'FIA', 'FIC', 'FID', 'FIE', 'FIG', 'FIT', 'FLÉ', 'FOC', 'FOI', 'FOU', 'FRE', 'FUN', 'FUR', 'FUT', 'Fam', 'Fau', 'Fay', 'Fel', 'Fle', 'Foc', 'Foy', 'Fro', 'Fré', 'FÉL', 'Féd', 'Fél', 'Fêt', 'Fût', 'GAI', 'GAL', 'GID', 'GIN', 'GIQ', 'GLA', 'GNE', 'GNI', 'GNÉ', 'GRO', 'GRÈ', 'GUI', 'Gai', 'Gan', 'Gid', 'Gla', 'Gro', 'Géo', 'HAV', 'HOT', 'HUY', 'Hab', 'Hal', 'Hat', 'Hei', 'Hel', 'Hil', 'Hir', 'His', 'Hoh', 'Hos', 'Hug', 'Hyd', 'Hym', 'HÉC', 'IAL', 'ICA', 'IEL', 'IFE', 'IFI', 'IGN', 'III', 'ILS', 'IMA', 'IMP', 'INC', 'IND', 'INE', 'INF', 'ING', 'INO', 'INQ', 'IRC', 'IRO', 'IRÉ', 'ISA', 'ISV', 'ITS', 'IVÉ', 'IXS', 'Ila', 'Ill', 'Imp', 'Inc', 'Ing', 'Irl', 'Iro', 'IÉS', 'JOR', 'JUI', 'JUP', 'JUS', 'Jac', 'Jol', 'Jon', 'Jos', 'Jua', 'Jup', 'Juv', 'Jér', 'KBe', 'KEL', 'KER', 'KIN', 'KSÉ', 'Kru', 'Kul', 'LAG', 'LAI', 'LAL', 'LCO', 'LEA', 'LEC', 'LEI', 'LEO', 'LIA', 'LIB', 'LIG', 'LIM', 'LIN', 'LIO', 'LIP', 'LIT', 'LIZ', 'LIÉ', 'LOR', 'LQU', 'LUI', 'LUS', 'LUT', 'LUX', 'Lac', 'Lal', 'Lau', 'Led', 'Len', 'Lep', 'Lic', 'Lie', 'Liè', 'Loq', 'Low', 'MAG', 'MAJ', 'MAM', 'MAX', 'MAY', 'MBE', 'MET', 'MEZ', 'MIN', 'MOD', 'MOI', 'MOU', 'MOY', 'MUO', 'MUR', 'MUS', 'MUT', 'Mak', 'Max', 'Maî', 'Mez', 'Mic', 'Mid', 'Mie', 'Mim', 'Moc', 'Mrs', 'Myi', 'MÉM', 'Mél', 'NAC', 'NAI', 'NCH', 'NCI', 'NCK', 'NCU', 'NDA', 'NDM', 'NDO', 'NDS', 'NEA', 'NED', 'NEZ', 'NIR', 'NIS', 'NIT', 'NIV', 'NOG', 'NOI', 'NOL', 'NON', 'NOP', 'NOV', 'NOW', 'NSP', 'Nes', 'Nog', 'Noi', 'Nom', 'NÉR', 'Nöé', 'OBI', 'OBR', 'OCE', 'OCT', 'OLA', 'OLS', 'OMO', 'ONC', 'ONI', 'ONN', 'OPU', 'ORB', 'ORC', 'ORD', 'ORI', 'ORM', 'OUT', 'Oeu', 'Ois', 'One', 'Osc', 'Otl', 'Ott', 'PAC', 'PAÏ', 'PEA', 'PET', 'PHI', 'PHO', 'PIC', 'PIR', 'PLI', 'PON', 'PTO', 'PUB', 'PYR', 'Pei', 'Pey', 'Pia', 'Pir', 'Ple', 'Plé', 'Poo', 'Pry', 'PÉN', 'PÉS', 'Pâl', 'QUÊ', 'RAC', 'RAL', 'RAM', 'RAV', 'RAY', 'RBO', 'REM', 'REW', 'RGA', 'RHU', 'RIA', 'RIF', 'RKA', 'RKL', 'RLA', 'RNI', 'ROG', 'ROQ', 'ROS', 'ROU', 'RRA', 'RRY', 'RUE', 'RUT', 'Rab', 'Rai', 'Ras', 'Rhô', 'Ric', 'Rig', 'Rom', 'RÉA', 'RÉE', 'RÉF', 'RÉG', 'RÉU', 'RÉV', 'Réa', 'Réd', 'Réf', 'Réi', 'Rés', 'Rôl', 'Rôt', 'SAC', 'SAG', 'SAI', 'SCH', 'SEB', 'SEQ', 'SHA', 'SHI', 'SIE', 'SIL', 'SIX', 'SNE', 'SOI', 'SOL', 'SOT', 'STI', 'STU', 'SUE', 'SUS', 'SXN', 'SYM', 'Sab', 'Sac', 'Sco', 'Sea', 'Sel', 'Seq', 'Set', 'Sia', 'Six', 'Sla', 'Slo', 'Spa', 'Spe', 'Spo', 'Squ', 'Sta', 'Sté', 'Sul', 'Sué', 'Syd', 'SÉE', 'SÉP', 'Séc', 'Sév', 'TAF', 'TAL', 'TAN', 'TAU', 'TED', 'TET', 'TEU', 'TEX', 'TEY', 'THC', 'TIC', 'TIN', 'TIQ', 'TIS', 'TJO', 'TLI', 'TOG', 'TOL', 'TOR', 'TRO', 'TUD', 'TUL', 'TUT', 'TZA', 'Tag', 'Tal', 'Tap', 'Tch', 'Ten', 'Tex', 'The', 'Thr', 'Tig', 'Tom', 'Tré', 'Tsa', 'Tse', 'Tsi', 'Tuc', 'TÉS', 'Tâc', 'UBE', 'UCO', 'UEI', 'UEL', 'UEN', 'UFF', 'UGA', 'UIT', 'UIÉ', 'UJE', 'ULL', 'ULT', 'UMB', 'UMO', 'UPO', 'USS', 'UTE', 'UZE', 'Ukr', 'Upt', 'VEA', 'VEG', 'VEU', 'VIE', 'VII', 'VIN', 'VIS', 'VOI', 'VOS', 'VOU', 'Var', 'Vez', 'Vie', 'Vit', 'Vla', 'Voc', 'WAG', 'WEL', 'WET', 'WHE', 'WHI', 'WOR', 'WYT', 'Wag', 'Wal', 'Wat', 'Wes', 'Whh', 'Whi', 'Wia', 'Wri', 'XAN', 'XEL', 'XNX', 'XXV', 'XXe', 'XYX', 'Xav', 'YEA', 'YFU', 'YLE', 'You', 'ZAN', 'ZEP', 'Zor', 'aLE', 'abd', 'abn', 'aco', 'acr', 'acu', 'adh', 'akf', 'alt', 'alw', 'ama', 'aok', 'api', 'apl', 'apt', 'apè', 'arp', 'aum', 'avu', 'ayi', 'aïe', 'bac', 'bav', 'baz', 'baï', 'bir', 'boy', 'boî', 'buv', 'bél', 'cce', 'ccl', 'cdo', 'ceL', 'chs', 'cig', 'ciè', 'clo', 'cod', 'coh', 'coé', 'coù', 'crê', 'ctu', 'cud', 'cue', 'cué', 'cyc', 'cyn', 'cèl', 'cém', 'cœe', 'd!u', 'd!é', 'dal', 'deA', 'deC', 'dol', 'doy', 'dré', 'dst', 'dua', 'dèj', 'déa', 'déà', 'déç', 'dôm', 'dûr', 'eai', 'ecr', 'ecy', 'egg', 'egr', 'eiv', 'elb', 'elm', 'enL', 'eno', 'enz', 'eot', 'epl', 'erl', 'esa', 'eth', 'etl', 'eui', 'exh', 'exo', 'ezS', 'fCl', 'fch', 'ffo', 'fiâ', 'flâ', 'flè', 'fos', 'frê', 'fug', 'gby', 'gch', 'gez', 'ghb', 'ght', 'gic', 'gil', 'gio', 'gis', 'giv', 'gme', 'gni', 'gog', 'gor', 'gua', 'gum', 'géa', 'gém', 'géo', 'hac', 'ham', 'hea', 'hez', 'hib', 'hid', 'hig', 'hil', 'hit', 'hla', 'hni', 'hno', 'hro', 'hur', 'hyd', 'hèl', 'hém', 'iag', 'ias', 'ibi', 'icy', 'ido', 'idy', 'idè', 'iet', 'igr', 'ilL', 'ilS', 'ily', 'inL', 'inl', 'iou', 'ipi', 'ipp', 'ipr', 'izé', 'ièc', 'ièm', 'ièt', 'iér', 'jau', 'jon', 'jud', 'jux', 'kai', 'ker', 'kgs', 'kin', 'laD', 'lal', 'lap', 'lax', 'lco', 'le:', 'leL', 'leX', 'lfo', 'lga', 'lge', 'lhe', 'lho', 'llè', 'lop', 'low', 'lpt', 'lté', 'luc', 'lug', 'lul', 'lèl', 'lèm', 'lèn', 'lém', 'lén', 'lér', 'lét', 'léz', 'mba', 'meL', 'meS', 'mic', 'mmo', 'mol', 'mpo', 'mpt', 'mpu', 'mte', 'mât', 'mèd', 'méa', 'mél', 'mêt', 'n!e', 'naa', 'nae', 'nas', 'nck', 'ncé', 'ndf', 'ndh', 'neS', 'nei', 'new', 'nga', 'ngr', 'nia', 'nin', 'nmo', 'nog', 'nol', 'nop', 'nsb', 'nse', 'nsv', 'nsw', 'nsé', 'ntr', 'nâi', 'nèr', 'nèt', 'nêt', 'obe', 'ody', 'okl', 'old', 'omi', 'ong', 'ony', 'orn', 'oro', 'orp', 'orq', 'orç', 'osm', 'oti', 'ott', 'oud', 'ovi', 'oyo', 'pbe', 'phè', 'piq', 'plâ', 'poè', 'poé', 'ppa', 'ppr', 'ppt', 'pâl', 'pél', 'pêt', 'pôt', 'quu', 'qûe', 'rLe', 'rSÉ', 'rdu', 'reh', 'rei', 'rin', 'rix', 'rli', 'rmi', 'rnu', 'rog', 'rol', 'roo', 'rpi', 'rsa', 'rsi', 'rtu', 'rup', 'rur', 'rut', 'rvo', 'rça', 'réi', 'réj', 'sDU', 'say', 'sbo', 'sco', 'scu', 'scè', 'seL', 'seS', 'sea', 'sex', 'sha', 'sié', 'siò', 'soe', 'ssu', 'ssè', 'sty', 'stè', 'syp', 'sél', 'tLe', 'tSÉ', 'tad', 'tax', 'teL', 'teS', 'teb', 'thf', 'thm', 'tig', 'tiè', 'tla', 'tle', 'tol', 'tsc', 'tsm', 'ttl', 'tui', 'tum', 'tup', 'tva', 'typ', 'tât', 'tèg', 'tég', 'tén', 'ual', 'uar', 'udf', 'ufa', 'ugh', 'uid', 'uin', 'uio', 'ull', 'ulm', 'ulé', 'umb', 'und', 'upo', 'uxé', 'uzo', 'vap', 'vaq', 'vay', 'vié', 'voû', 'vro', 'vyC', 'vét', 'vœu', 'wan', 'war', 'weg', 'wei', 'wil', 'wit', 'wsk', 'xal', 'xes', 'xim', 'xiq', 'xis', 'xpu', 'xtr', 'xxt', 'xxx', 'xén', 'yas', 'yer', 'yfu', 'yio', 'ylo', 'you', 'zac', 'zep', 'ziè', 'zon', 'zun', 'zèl', 'ÉAB', 'ÉES', 'ÉFI', 'ÉGU', 'ÉMA', 'ÉMO', 'ÉMU', 'ÉNI', 'ÉPE', 'ÉPI', 'ÉTR', 'ÉVE', 'ÉVO', 'àLE', 'çoi', 'èce', 'ècl', 'ègn', 'ègr', 'èvr', 'éLE', 'éal', 'écu', 'éde', 'éen', 'éer', 'ého', 'émè', 'émé', 'éon', 'ésu', 'évy', 'éxé', 'éée', 'êlé', 'êti', 'êto', 'êtu', 'îné', 'ûme', 'œil']
#Number of occurrences: 4
common_3grams = ['rgu', 'sum', 'toy', 'ués']
#Number of occurrences: 180
common_unique_4grams = ['Août', 'Arde', 'CAIL', 'CAIS', 'CIPA', 'Cana', 'Colo', 'DOTA', 'FRAN', 'Japo', 'Leur', 'MORA', 'Marq', 'Mexi', 'Natu', 'Notr', 'TTRE', 'abil', 'abst', 'acqu', 'actu', 'ador', 'afin', 'allu', 'anté', 'arée', 'asme', 'ates', 'atit', 'aîne', 'aîné', 'bass', 'blan', 'bloc', 'bont', 'born', 'bref', 'broc', 'calm', 'chés', 'cite', 'clai', 'crai', 'cées', 'célè', 'dale', 'dest', 'devr', 'dien', 'diqu', 'dres', 'déce', 'déla', 'embu', 'empi', 'enag', 'enga', 'enta', 'enth', 'epre', 'erch', 'ervé', 'esca', 'este', 'ettr', 'exio', 'fass', 'fati', 'fero', 'fine', 'forê', 'frèr', 'gara', 'grav', 'gros', 'hasa', 'hevé', 'hive', 'horr', 'huit', 'hure', 'héri', 'iabl', 'iair', 'icip', 'inci', 'inct', 'ingu', 'insu', 'inut', 'ipli', 'irai', 'irré', 'lair', 'lequ', 'leva', 'lign', 'lise', 'lisé', 'lors', 'ltat', 'lumi', 'lusi', 'lète', 'mait', 'misé', 'mpen', 'myst', 'mère', 'mépr', 'méth', 'nata', 'nnaî', 'nnen', 'nnes', 'nsiv', 'néan', 'obse', 'obte', 'offe', 'oite', 'oncé', 'onqu', 'oppr', 'ousi', 'oyab', 'pard', 'perp', 'phot', 'quic', 'raci', 'rast', 'rech', 'rial', 'rise', 'rpré', 'rrai', 'rrom', 'ruct', 'rver', 'rédu', 'saur', 'sino', 'siti', 'soci', 'soup', 'squé', 'ssan', 'ssen', 'sser', 'stri', 'supr', 'sura', 'surm', 'sécu', 'sûre', 'tire', 'tort', 'trac', 'trah', 'tram', 'uaie', 'uent', 'uets', 'uire', 'urge', 'usie', 'usio', 'uvés', 'verr', 'veut', 'vues', 'çant', 'çonn', 'échi', 'écol', 'éduc', 'énor', 'étue', 'étés']
#Number of occurrences: 2378
gt_unique_4grams = ['ABDI', 'ABLE', 'ABOR', 'ABUS', 'ACCE', 'ACHE', 'ADIE', 'ADMI', 'ADVI', 'AGAN', 'AGAR', 'AGEO', 'AGGR', 'AGIO', 'AGNA', 'AGNE', 'AGRÉ', 'AINE', 'AINÉ', 'AISE', 'ALEX', 'ALIS', 'ALLA', 'ALSA', 'ALVA', 'ALZA', 'AMBA', 'AMBU', 'AMEN', 'ANDE', 'ANIL', 'ANNE', 'ANTE', 'ANTI', 'ANTO', 'ARAN', 'ARDU', 'ARIS', 'ARRI', 'ASSA', 'ASSI', 'ASTE', 'ATIT', 'ATIV', 'AUDE', 'AUGU', 'AUPR', 'AURA', 'AVEC', 'AVEN', 'AVIS', 'AVri', 'AVÉE', 'Abbé', 'Abol', 'Abra', 'Acce', 'Acqu', 'Actu', 'Adjo', 'Admi', 'Adol', 'Aisn', 'Alan', 'Albi', 'Alca', 'Alfo', 'Anib', 'Anna', 'Anse', 'Anto', 'Anve', 'Appa', 'Appo', 'Appu', 'Argo', 'Arka', 'Arra', 'Arri', 'Arro', 'Arta', 'Arth', 'Arts', 'Artu', 'Assi', 'Assé', 'Aten', 'Atti', 'Audi', 'Auga', 'Augm', 'Auta', 'Aute', 'Auto', 'Avia', 'Avoc', 'Avoi', 'Ayez', 'Ayon', 'BAGD', 'BALE', 'BANQ', 'BARR', 'BART', 'BATT', 'BAUT', 'BELA', 'BELC', 'BERK', 'BESS', 'BETT', 'BIBL', 'BILI', 'BLUM', 'BONC', 'BONN', 'BOOK', 'BORD', 'BOUC', 'BOUE', 'BREN', 'BRES', 'BRIA', 'BRIE', 'BRUX', 'BUIL', 'Babe', 'Baby', 'Bach', 'Baco', 'Bebe', 'Berg', 'Berk', 'Beth', 'Bido', 'Blen', 'Boch', 'Bouc', 'Boui', 'Boët', 'Brau', 'Bray', 'Brit', 'Broo', 'Brow', 'Bréz', 'Brêm', 'Brûl', 'Budg', 'Buis', 'Bull', 'Buqu', 'Butt', 'BÉAN', 'BÉNÉ', 'Bâle', 'CALD', 'CAND', 'CANT', 'CARD', 'CASS', 'CATI', 'CAUS', 'CEPE', 'CEST', 'CHAD', 'CHAO', 'CHAS', 'CHIC', 'CHIE', 'CHIR', 'CHOA', 'CHar', 'CINE', 'CIPÉ', 'CITE', 'CKLI', 'CLAU', 'CLUB', 'COLU', 'COMT', 'COPA', 'CORD', 'CORN', 'CORR', 'COST', 'COTE', 'CRAC', 'CROI', 'CULA', 'CULT', 'Camp', 'Cand', 'Carl', 'Casa', 'Cass', 'Cell', 'Cera', 'Cerc', 'Cerf', 'Chah', 'Chan', 'Chap', 'Chev', 'Choa', 'Chos', 'Chur', 'Chét', 'Cili', 'Cinc', 'Civi', 'Clér', 'Coal', 'Cobl', 'Coll', 'Colu', 'Conç', 'Cord', 'Corr', 'Coul', 'Creu', 'Curs', 'Curz', 'CÉRÉ', 'CÔTE', 'Césa', 'DANE', 'DANG', 'DAVI', 'DEBA', 'DEBO', 'DECE', 'DELE', 'DEMA', 'DEME', 'DEPU', 'DESI', 'DESS', 'DEST', 'DEVI', 'DICK', 'DIEU', 'DIFF', 'DIGN', 'DIMA', 'DION', 'DISA', 'DIVE', 'DIÉE', 'DMAI', 'DOIS', 'DOUG', 'DOUL', 'DOUR', 'DRES', 'DREY', 'DUMA', 'Dame', 'Dard', 'Dato', 'Davi', 'Desc', 'Dest', 'Deut', 'Devo', 'Dick', 'Dict', 'Diff', 'Dijo', 'Dipl', 'Diri', 'Disc', 'Diso', 'Docu', 'Doma', 'Domi', 'Doug', 'Doui', 'Drea', 'Dreu', 'Drey', 'Drum', 'Duch', 'Ducr', 'Dufa', 'Dunk', 'Dura', 'Dutt', 'DÉCE', 'DÉFA', 'DÉJA', 'DÉLÉ', 'DÉMI', 'DÉNO', 'DÉPO', 'DÉRÉ', 'DÉSI', 'DÉSO', 'Déba', 'Déci', 'Décl', 'Déma', 'Démo', 'Déro', 'Détr', 'ECHE', 'ECRI', 'ECTE', 'ECTI', 'EFFE', 'EFFO', 'EILL', 'ELIN', 'ELLA', 'ELNA', 'ELYS', 'EMAI', 'EMBR', 'ENCH', 'ENDA', 'ENFO', 'ENNE', 'ENRI', 'ENSU', 'ENTR', 'ENVA', 'ENVO', 'ERBU', 'ERGU', 'ERLÉ', 'ERNA', 'ERON', 'ERPA', 'ESPA', 'ESPO', 'ESPR', 'ESSI', 'ESTR', 'ETAI', 'ETHN', 'EXPÉ', 'EXÉC', 'EYRI', 'Eche', 'Echo', 'Ecri', 'Edou', 'Edwa', 'Eled', 'Emba', 'Ench', 'Enqu', 'Enri', 'Ensu', 'Eric', 'Ermi', 'Etai', 'Even', 'Evid', 'Exam', 'Exec', 'Exem', 'Expl', 'Exté', 'FAIS', 'FALL', 'FAVE', 'FERM', 'FERN', 'FERR', 'FEST', 'FFIS', 'FIAS', 'FICI', 'FIGA', 'FINC', 'FIQU', 'FLÉC', 'FOCH', 'FOIS', 'FONC', 'FOND', 'FOUR', 'FREE', 'FROM', 'FRON', 'FUNE', 'FURE', 'FUTU', 'Fach', 'Fami', 'Faut', 'Faye', 'Feli', 'Flam', 'Flan', 'Fleu', 'Foch', 'Fore', 'Fort', 'Four', 'From', 'Fréd', 'FÉLI', 'Fédé', 'Féli', 'Fête', 'GAIE', 'GALL', 'GANI', 'GAUL', 'GERA', 'GERI', 'GERM', 'GIDE', 'GLÉE', 'GOUT', 'GRAV', 'GREC', 'GREV', 'GREY', 'GUEP', 'GUIR', 'Gain', 'Gand', 'Garc', 'Gass', 'Gast', 'Gaud', 'Gaul', 'Gens', 'Gent', 'Gera', 'Gide', 'Giro', 'Glad', 'Gree', 'Gren', 'Grou', 'Guis', 'Géog', 'HABE', 'HABI', 'HALL', 'HAVR', 'HAYE', 'HCLI', 'HEWS', 'HIES', 'HING', 'HOIS', 'HOLL', 'HONG', 'HONN', 'HSTA', 'Habs', 'Halé', 'Hamb', 'Hatf', 'Hava', 'Heid', 'Hell', 'Hila', 'Hirs', 'Hist', 'Hohe', 'Holm', 'Holw', 'Hong', 'Honn', 'Hosp', 'Hugh', 'Huil', 'Hyde', 'Hyma', 'HÉCA', 'Hélo', 'IAMS', 'IATI', 'ICAN', 'ICAT', 'ICEN', 'ICUL', 'IDAT', 'IDEI', 'IELL', 'IEUS', 'IFIÉ', 'IGNO', 'IION', 'IMPR', 'INAL', 'INCE', 'INCL', 'INDÉ', 'INFI', 'INGR', 'INOP', 'INOR', 'INQU', 'INSO', 'INSU', 'INUE', 'IOTH', 'IOUE', 'IOUÉ', 'IPPI', 'IQUÉ', 'ISAT', 'ISME', 'ISOI', 'ISTA', 'ISVO', 'ITAL', 'ITEN', 'ITIN', 'ITOI', 'IXSX', 'Illi', 'Impo', 'Incr', 'Inde', 'Ingé', 'Intr', 'Irla', 'Iron', 'Issc', 'Isso', 'IÉTU', 'JAUR', 'JORD', 'JUIG', 'JUPI', 'JUST', 'Jacq', 'Jaud', 'Jean', 'Jeud', 'Jeun', 'Joly', 'Jone', 'José', 'Juan', 'Juig', 'Jupi', 'Jusq', 'Juvi', 'Jéru', 'KERT', 'Krup', 'Kult', 'LACH', 'LACR', 'LADR', 'LALL', 'LANC', 'LAND', 'LARN', 'LASS', 'LATI', 'LAVA', 'LAVE', 'LAVI', 'LEAG', 'LECT', 'LEND', 'LEON', 'LESS', 'LEVE', 'LIBE', 'LIGU', 'LIMA', 'LIST', 'LITÉ', 'LIZA', 'LLEZ', 'LOIR', 'LOIS', 'LOND', 'LORR', 'LOUC', 'LSKY', 'LUXE', 'Lala', 'Laus', 'Lava', 'Ledo', 'Lens', 'Lepê', 'Libe', 'Libo', 'Libr', 'Lich', 'Lièg', 'Long', 'Loqu', 'Luch', 'Luci', 'Luné', 'MAGN', 'MAJO', 'MALI', 'MALL', 'MAME', 'MANI', 'MANN', 'MANZ', 'MARI', 'MARK', 'MAUD', 'MAXI', 'MAYE', 'MBIA', 'MBOU', 'MERE', 'MESS', 'MEZE', 'MIEU', 'MINI', 'MOBI', 'MODE', 'MOIN', 'MONI', 'MOUS', 'MOYE', 'MPHE', 'MPLI', 'MUNI', 'MURR', 'MUST', 'MUTU', 'Maid', 'Makl', 'Malo', 'Marg', 'Matt', 'Maxi', 'Mayf', 'Mesd', 'Meze', 'Mich', 'Midi', 'Mieu', 'Mill', 'Mimb', 'Mine', 'Moch', 'Moni', 'Mora', 'Mort', 'Moul', 'Mour', 'Myia', 'MÉMO', 'Méli', 'NAIS', 'NCES', 'NCHE', 'NDUE', 'NEGL', 'NELL', 'NEUT', 'NIAD', 'NISM', 'NISN', 'NIST', 'NIVE', 'NNAI', 'NNEL', 'NOLL', 'NOMB', 'NORT', 'NORV', 'NOUR', 'NOVE', 'NTAI', 'NXXY', 'Naza', 'Neuf', 'Neuv', 'News', 'Nice', 'Noge', 'Noir', 'Nomm', 'NonS', 'Note', 'Noyo', 'Null', 'OCEA', 'OCTO', 'OLAN', 'ONAL', 'ONAY', 'ONNI', 'OOLI', 'OPIE', 'ORBI', 'ORDI', 'ORIG', 'OTWE', 'OURE', 'OURN', 'OUTR', 'OVER', 'Oeuv', 'Oise', 'Oiss', 'Orme', 'Osca', 'Otle', 'Otto', 'Ouen', 'PACI', 'PALA', 'PARS', 'PART', 'PASS', 'PAÏV', 'PEAC', 'PERC', 'PERR', 'PETR', 'PHIL', 'PHOT', 'PICH', 'PIED', 'PINA', 'PIRE', 'PLEN', 'PLOU', 'PRAD', 'PREC', 'PREM', 'PREV', 'PRIE', 'PRIN', 'PRIX', 'PROI', 'PRÉC', 'PRÉP', 'PUBL', 'PULA', 'PYRR', 'Pact', 'Pail', 'Pair', 'Pana', 'Pann', 'Parc', 'Park', 'Past', 'Patr', 'Pein', 'Penh', 'Peyl', 'Piai', 'Pica', 'Picc', 'Pill', 'Pire', 'Plei', 'Plut', 'Plén', 'Poli', 'Poot', 'Prix', 'Prob', 'Prov', 'Pryt', 'Préd', 'Prél', 'Pyré', 'PÉNÉ', 'Pâle', 'QUAT', 'QUES', 'QUEU', 'Quat', 'Quen', 'Quin', 'RACE', 'RANC', 'RATI', 'RATT', 'RATU', 'RCIE', 'RECO', 'RECU', 'REIC', 'REIM', 'REIN', 'REME', 'REND', 'RESO', 'REUN', 'REUX', 'RGAN', 'RMES', 'RONI', 'ROOT', 'ROQU', 'ROUG', 'ROUS', 'RSES', 'RUIR', 'RVIS', 'Rabe', 'Rais', 'Rass', 'Reic', 'Rela', 'Reli', 'Reno', 'Resp', 'Reve', 'Reyn', 'Rhôn', 'Rich', 'Rigo', 'Robi', 'Rois', 'Romn', 'Rott', 'Roup', 'Roya', 'RÉAC', 'RÉFO', 'RÉGI', 'RÉSO', 'RÉUN', 'RÉVO', 'Réac', 'Rédu', 'Réfl', 'Réin', 'Rémy', 'Répa', 'Répo', 'Résu', 'Rôle', 'Rôti', 'SACR', 'SAIN', 'SALL', 'SANT', 'SAVE', 'SCHE', 'SCOT', 'SEAI', 'SEAN', 'SEBE', 'SEME', 'SENL', 'SEPT', 'SERA', 'SERB', 'SIDE', 'SILL', 'SIXT', 'SOLD', 'SOTI', 'SOUL', 'SPOR', 'SSAD', 'SSAI', 'SSAN', 'SSIO', 'SSIT', 'SSOC', 'SSÉE', 'STAN', 'STAR', 'STAT', 'STES', 'STUN', 'STÉR', 'SUED', 'SUIT', 'SXNX', 'SYMP', 'Sabl', 'Sach', 'Sala', 'Sall', 'Sava', 'Save', 'Savo', 'Schn', 'Schw', 'Scot', 'Seat', 'Selo', 'Sequ', 'Sera', 'Seth', 'Siam', 'Sigr', 'Sing', 'Sira', 'Sixt', 'Slav', 'Soir', 'Soit', 'Soll', 'Solv', 'Sorb', 'Sort', 'Souh', 'Souv', 'Soyo', 'Spen', 'Spon', 'Squa', 'Star', 'Stee', 'Stei', 'Sten', 'Stre', 'Stép', 'Sult', 'Supr', 'Supé', 'Suéd', 'Sydn', 'SÉPA', 'Séce', 'Sévè', 'TAFT', 'TAIR', 'TANS', 'TARI', 'TARY', 'TAUX', 'TEAU', 'TECH', 'TEES', 'TENA', 'TENO', 'TERR', 'TERY', 'TETE', 'TEXT', 'TIEL', 'TOLL', 'TOMB', 'TOME', 'TORA', 'TORI', 'TOUR', 'TRAT', 'TRAV', 'TRIM', 'TRIO', 'TROP', 'TURQ', 'TUÉE', 'TZAR', 'Tage', 'Talh', 'Tapl', 'Tché', 'Teno', 'Text', 'Thou', 'Thra', 'Tigr', 'Tome', 'Touc', 'Trib', 'Trie', 'Trip', 'Troc', 'Trés', 'Tsar', 'Tsen', 'Tsia', 'Tuck', 'Tâch', 'UDEL', 'UETE', 'UGAR', 'ULLO', 'UNDE', 'UNIT', 'UPON', 'URES', 'URSE', 'UTIF', 'UTIO', 'Ukra', 'Upto', 'UÊTE', 'VERS', 'VEUI', 'VICE', 'VIII', 'VOUS', 'Vari', 'Verg', 'Vern', 'Vezi', 'Vien', 'Vint', 'Vitr', 'Vive', 'Vlad', 'Voci', 'Voya', 'Voyo', 'WAGR', 'WALL', 'WALS', 'WETT', 'WHEE', 'WHIT', 'WICK', 'WILL', 'WORL', 'WYTH', 'Wagr', 'Wall', 'Wate', 'West', 'Whhe', 'Whit', 'Wiar', 'Wilb', 'Wilh', 'Wrig', 'XENX', 'XVII', 'XVIe', 'XXVI', 'XXXI', 'Xavi', 'YEAR', 'YLET', 'Youg', 'ZAIR', 'ZEPP', 'Zorn', 'aLET', 'abai', 'abba', 'abbé', 'abdi', 'abei', 'aber', 'abit', 'abné', 'abol', 'abom', 'accé', 'achè', 'acor', 'acro', 'acta', 'acun', 'adhé', 'adie', 'adée', 'adér', 'affu', 'agai', 'ageo', 'aggl', 'agin', 'agno', 'agon', 'agée', 'aida', 'aier', 'aigl', 'aigu', 'aira', 'airi', 'aiso', 'alen', 'alig', 'aloi', 'alte', 'alwa', 'amai', 'aman', 'amba', 'ambe', 'amia', 'amèr', 'amée', 'andi', 'ands', 'anec', 'anel', 'aner', 'anis', 'anom', 'ansp', 'apit', 'apos', 'appê', 'apro', 'apte', 'apès', 'ards', 'aret', 'aria', 'arne', 'atai', 'ater', 'atib', 'atiq', 'atoi', 'auba', 'aubo', 'avag', 'avid', 'aviv', 'avoc', 'avor', 'ayon', 'aéri', 'aïeu', 'baco', 'baga', 'bail', 'bait', 'bana', 'bani', 'bare', 'bati', 'bava', 'baza', 'baïo', 'bele', 'bert', 'bill', 'bilt', 'bise', 'bite', 'bitr', 'bjet', 'blia', 'bole', 'bona', 'bonb', 'bouq', 'boyc', 'boît', 'brag', 'brai', 'bran', 'brat', 'brea', 'bron', 'brul', 'brum', 'brée', 'bulg', 'bull', 'busé', 'buti', 'buva', 'bâti', 'béll', 'béni', 'cada', 'cadu', 'cais', 'came', 'carb', 'casi', 'cate', 'caté', 'cauc', 'cave', 'ccor', 'ceLE', 'cele', 'celé', 'cept', 'cerf', 'cero', 'cest', 'chao', 'chil', 'chiq', 'chit', 'choe', 'chèq', 'chét', 'cian', 'cide', 'cies', 'ciga', 'cill', 'cisc', 'cisi', 'citr', 'cits', 'ciée', 'ckin', 'ckli', 'clef', 'cler', 'cloc', 'club', 'clus', 'coch', 'cohé', 'coiv', 'colp', 'colè', 'corb', 'cors', 'cost', 'cots', 'coté', 'cous', 'coéd', 'coùp', 'cred', 'cria', 'cril', 'crir', 'crié', 'croc', 'cron', 'crou', 'crue', 'crêm', 'ctif', 'ctiq', 'ctiv', 'cuei', 'cues', 'culé', 'cupa', 'cupe', 'cure', 'cuté', 'cyni', 'cyue', 'cédo', 'césa', 'cœeu', 'd!un', 'd!éc', 'dais', 'dait', 'damn', 'danc', 'deAn', 'deCl', 'depr', 'dfon', 'dfor', 'dhal', 'dind', 'diro', 'disq', 'dnou', 'doct', 'doll', 'domn', 'donj', 'doti', 'doua', 'doxa', 'doye', 'dual', 'ducs', 'dues', 'duns', 'dupl', 'durs', 'dèjà', 'dèle', 'déal', 'débo', 'débr', 'déga', 'dégr', 'dénu', 'dépr', 'dépê', 'déra', 'déro', 'déçu', 'dîné', 'eadn', 'eaur', 'eban', 'ecoi', 'ecou', 'ecro', 'ectu', 'eful', 'eggs', 'eide', 'elbe', 'elge', 'ella', 'ellé', 'eman', 'empa', 'emst', 'enab', 'enad', 'enay', 'enca', 'endi', 'ends', 'eneg', 'ener', 'enez', 'enfl', 'enhe', 'enio', 'enli', 'enlè', 'enor', 'ent?', 'entC', 'entz', 'enus', 'eral', 'eran', 'erda', 'eret', 'erge', 'ergé', 'erio', 'erme', 'ermo', 'erou', 'erqu', 'erré', 'erte', 'erté', 'ervi', 'escl', 'esco', 'espa', 'espi', 'esso', 'estL', 'estl', 'esté', 'etag', 'etc…', 'ethn', 'etia', 'etle', 'etre', 'etzu', 'etés', 'euls', 'euss', 'evoy', 'evée', 'evés', 'exho', 'exot', 'fCle', 'faim', 'fals', 'fanf', 'fast', 'fauc', 'fena', 'fens', 'fenê', 'fere', 'fide', 'fidu', 'filt', 'fins', 'fire', 'firm', 'fixt', 'fièr', 'fièv', 'fiés', 'fiév', 'flag', 'flam', 'flor', 'flue', 'flân', 'flèc', 'fons', 'fore', 'foss', 'frac', 'frag', 'frei', 'fren', 'frie', 'frin', 'from', 'frêl', 'fugi', 'fuir', 'fuit', 'fére', 'fêta', 'fêti', 'gabl', 'gair', 'gait', 'gala', 'gale', 'galv', 'gant', 'garn', 'gars', 'garç', 'geab', 'gene', 'geno', 'geon', 'gerb', 'ghts', 'gibi', 'gibo', 'giga', 'gine', 'gira', 'giss', 'givr', 'glai', 'gler', 'gles', 'glém', 'gnem', 'gneu', 'gnez', 'gnor', 'gogn', 'gons', 'gorg', 'gori', 'gras', 'grel', 'grem', 'gres', 'grev', 'gril', 'grip', 'gron', 'guan', 'guei', 'gues', 'gume', 'guré', 'guéé', 'géan', 'gémi', 'géne', 'géog', 'gére', 'hach', 'hais', 'hale', 'hall', 'halt', 'hame', 'hane', 'harc', 'hari', 'haus', 'heim', 'hell', 'help', 'hema', 'herc', 'heri', 'hero', 'hers', 'hful', 'hibé', 'hide', 'hiez', 'high', 'homé', 'hone', 'hopi', 'hora', 'horl', 'horo', 'hsta', 'huiP', 'huil', 'hydr', 'hyma', 'hymn', 'hâti', 'hâté', 'hèla', 'hème', 'hète', 'hées', 'hémi', 'héti', 'iait', 'iars', 'ibut', 'icab', 'icis', 'icol', 'idue', 'idyl', 'ield', 'iels', 'ierr', 'ifia', 'iges', 'igny', 'igré', 'igua', 'igée', 'ilLE', 'ilSÉ', 'ilat', 'ilié', 'ilss', 'imat', 'imez', 'imèt', 'imés', 'inab', 'inag', 'inap', 'inav', 'indo', 'indû', 'inea', 'inez', 'ingo', 'inin', 'iniq', 'inis', 'inla', 'inna', 'inoc', 'ints', 'inua', 'inui', 'inuo', 'inus', 'inég', 'inén', 'inép', 'iole', 'ioré', 'iple', 'iquo', 'irag', 'irio', 'irre', 'irri', 'isay', 'isem', 'isen', 'iseu', 'isto', 'isté', 'iswi', 'itan', 'itec', 'itif', 'itiv', 'itié', 'iton', 'itué', 'ivag', 'iven', 'ivez', 'ivos', 'ivée', 'iègn', 'iéte', 'iété', 'jamb', 'jaun', 'jeta', 'jeté', 'jeux', 'joug', 'joya', 'judi', 'jugi', 'jure', 'jury', 'juxt', 'kais', 'kfas', 'klin', 'koff', 'laDé', 'lacu', 'lacé', 'lady', 'lain', 'lamé', 'land', 'lanç', 'lapi', 'lata', 'latr', 'lave', 'lavé', 'laya', 'laça', 'lbla', 'leLE', 'leSÉ', 'leri', 'lern', 'lets', 'leté', 'leun', 'leus', 'lexe', 'lheu', 'liar', 'lici', 'limp', 'liss', 'liti', 'liés', 'llad', 'llag', 'llan', 'llis', 'lman', 'loco', 'logé', 'loir', 'lone', 'lons', 'lori', 'lote', 'lots', 'lsio', 'lson', 'lten', 'ltez', 'ltra', 'ltée', 'luan', 'luci', 'luge', 'luis', 'luli', 'lunc', 'lund', 'lvab', 'lver', 'lègè', 'lèle', 'lèvr', 'léan', 'légé', 'léta', 'léza', 'mace', 'mage', 'magi', 'maie', 'mals', 'marb', 'mard', 'marm', 'maré', 'masq', 'mate', 'mato', 'mben', 'mber', 'mbia', 'mbré', 'menç', 'mené', 'mera', 'mero', 'mers', 'merç', 'mets', 'meul', 'meus', 'meut', 'micr', 'mida', 'mide', 'miez', 'mila', 'milé', 'mimo', 'mino', 'mins', 'minu', 'misa', 'mist', 'mite', 'mièr', 'mmag', 'mmit', 'mmiè', 'mnis', 'mnié', 'mocr', 'momt', 'monc', 'mori', 'mote', 'mous', 'mout', 'mpti', 'mula', 'musu', 'mâts', 'mède', 'méan', 'méda', 'méla', 'méni', 'méra', 'mêtr', 'mûre', 'mûri', 'n!es', 'nLet', 'nabl', 'nagé', 'nain', 'nanc', 'napp', 'nast', 'nate', 'nauf', 'nave', 'navi', 'naîf', 'nchi', 'nchè', 'ncia', 'ncib', 'ncol', 'ndLe', 'ndat', 'ndeu', 'ndia', 'ndid', 'ndio', 'ndiq', 'ndus', 'nels', 'neng', 'nera', 'nerv', 'ness', 'neus', 'neux', 'news', 'ngel', 'ngen', 'ngio', 'nglo', 'ngés', 'niai', 'nici', 'nids', 'nimé', 'nios', 'nira', 'nirs', 'nitu', 'nièr', 'niéc', 'niée', 'nnem', 'nniq', 'nnée', 'noir', 'nois', 'nomé', 'nonc', 'nora', 'nors', 'noto', 'noté', 'noue', 'nova', 'nows', 'nqui', 'nqué', 'nsit', 'nsor', 'nsém', 'nsés', 'ntau', 'nthr', 'ntit', 'ntiv', 'ntra', 'nuag', 'nuat', 'nuie', 'nume', 'nure', 'nzol', 'nâit', 'nçan', 'néga', 'nére', 'obis', 'obti', 'ocay', 'ocha', 'ocos', 'ocre', 'ocri', 'odil', 'odiq', 'odys', 'oger', 'ogne', 'oint', 'oisi', 'oiss', 'oiti', 'oité', 'olat', 'olds', 'ombr', 'omes', 'omin', 'omme', 'ommo', 'omph', 'omér', 'onag', 'onar', 'onfi', 'onib', 'opiq', 'opéd', 'oqua', 'orag', 'orai', 'oran', 'orbi', 'orch', 'orda', 'ordo', 'ordu', 'orei', 'orna', 'oron', 'orou', 'orph', 'orth', 'osan', 'osez', 'oste', 'otag', 'otro', 'otte', 'otté', 'ouet', 'ougb', 'ouie', 'ouil', 'ouko', 'ourg', 'ourn', 'outL', 'outi', 'ouvo', 'ouée', 'oyés', 'pair', 'pait', 'pana', 'pang', 'panh', 'pani', 'pann', 'pape', 'pari', 'parr', 'pate', 'pave', 'pavi', 'payi', 'peau', 'pecc', 'peit', 'penc', 'peri', 'perl', 'pero', 'pese', 'phal', 'phob', 'phém', 'pilo', 'piss', 'pitr', 'pitt', 'plaf', 'plau', 'plon', 'plos', 'plou', 'plue', 'plât', 'plée', 'poèt', 'poés', 'ppol', 'ppos', 'ppte', 'prev', 'prit', 'prié', 'proq', 'prox', 'ptez', 'pugn', 'pull', 'pâli', 'pâte', 'pâtu', 'pées', 'péfi', 'pélé', 'péna', 'pénu', 'pénè', 'péra', 'péti', 'pétr', 'pétu', 'pôts', 'quas', 'quem', 'quet', 'quun', 'quér', 'quét', 'raba', 'rabe', 'racl', 'rafi', 'rand', 'rani', 'rans', 'ranç', 'rapé', 'rari', 'rats', 'rayo', 'rben', 'rbés', 'rcha', 'rcés', 'rdag', 'rdai', 'rdie', 'rdir', 'reSÉ', 'rebu', 'refl', 'refo', 'reha', 'reje', 'renf', 'renn', 'repe', 'rero', 'rett', 'reçû', 'rgen', 'rges', 'rice', 'rick', 'rigi', 'rine', 'riqu', 'rita', 'rito', 'ritu', 'rive', 'rixe', 'rièm', 'riés', 'rlem', 'rloo', 'rman', 'rmie', 'rnen', 'rnic', 'rnés', 'robu', 'rogu', 'ronf', 'roos', 'roté', 'rouc', 'roui', 'rous', 'rouv', 'roît', 'rpel', 'rpem', 'rrec', 'rrie', 'rriv', 'rron', 'rser', 'rteu', 'rtin', 'rtis', 'ruis', 'runt', 'rust', 'rvan', 'rvoi', 'rvés', 'rçon', 'réar', 'récr', 'récu', 'réde', 'réfe', 'réfr', 'régn', 'réin', 'réjo', 'rému', 'rêta', 'rêvé', 'sacs', 'sagé', 'sail', 'sale', 'samm', 'sani', 'satl', 'satr', 'saup', 'saxo', 'sayé', 'sbor', 'scab', 'sche', 'scié', 'scré', 'scul', 'scèn', 'seLE', 'seSE', 'sect', 'secu', 'seil', 'sell', 'seri', 'serr', 'sers', 'sexe', 'sfér', 'shal', 'sias', 'sibl', 'sidé', 'sieu', 'sifs', 'sige', 'sill', 'simb', 'simi', 'sinu', 'sira', 'sire', 'sirè', 'siss', 'site', 'sixi', 'siég', 'smou', 'soeu', 'soif', 'somb', 'some', 'sord', 'sots', 'sott', 'soyo', 'spos', 'sses', 'ssiv', 'ssoi', 'ssur', 'ssèd', 'stai', 'steu', 'stil', 'stin', 'stol', 'ston', 'styl', 'stée', 'stés', 'suas', 'subt', 'suic', 'suie', 'surc', 'surs', 'svaa', 'swaa', 'syph', 'séle', 'séme', 'sémi', 'séni', 'sévi', 'sévé', 'tSÉN', 'tabi', 'tach', 'taci', 'tact', 'tamm', 'taqu', 'taur', 'taxe', 'tech', 'tect', 'tels', 'tema', 'tene', 'teno', 'tens', 'tern', 'test', 'teus', 'thèm', 'théo', 'tiat', 'tica', 'ticu', 'tiem', 'tifi', 'tigr', 'tile', 'timo', 'tint', 'tira', 'tiré', 'tisa', 'tist', 'tolé', 'tont', 'torc', 'torr', 'touv', 'traf', 'trat', 'trei', 'trez', 'trie', 'trit', 'ttai', 'ttan', 'ttaq', 'tten', 'tton', 'ttra', 'tues', 'tuni', 'tura', 'turb', 'turp', 'tuée', 'type', 'tâto', 'tère', 'téma', 'témé', 'tére', 'uabl', 'uade', 'uadé', 'uali', 'ublé', 'udem', 'udes', 'udin', 'uerr', 'ueur', 'ueus', 'uion', 'uiss', 'uièm', 'ulab', 'ulèd', 'umen', 'umer', 'umes', 'unte', 'unée', 'uons', 'uper', 'uple', 'upor', 'urez', 'urgi', 'urit', 'urna', 'urnè', 'urro', 'urse', 'urvu', 'urée', 'usci', 'ussé', 'usée', 'usém', 'utie', 'utiq', 'utis', 'utum', 'utée', 'uvea', 'uvré', 'vacc', 'vape', 'vaqu', 'vein', 'veno', 'veté', 'veui', 'vial', 'vici', 'vier', 'viez', 'vigi', 'vigu', 'vila', 'vina', 'vinr', 'vion', 'virg', 'viri', 'viso', 'viss', 'visé', 'viti', 'vity', 'voca', 'vols', 'volt', 'volé', 'voût', 'vran', 'vrez', 'vété', 'vœux', 'wago', 'weil', 'with', 'xiqu', 'xonn', 'xons', 'xéno', 'yCIR', 'yent', 'yion', 'ymes', 'yons', 'your', 'zair', 'zepp', 'zèle', 'zéli', 'ÉDIT', 'ÉESS', 'ÉMAN', 'ÉMIE', 'ÉMIQ', 'ÉMUL', 'ÉPIS', 'ÉRAI', 'ÉSAI', 'ÉTAP', 'ÉTAT', 'ÉVEQ', 'ÉVOL', 'àLET', 'çons', 'ècle', 'ègne', 'ègre', 'èles', 'ènen', 'ènes', 'èrer', 'èsSÉ', 'ètem', 'ètes', 'ètre', 'èvre', 'écai', 'écio', 'éclo', 'écos', 'écre', 'écro', 'écur', 'édai', 'édan', 'éder', 'édér', 'éfia', 'éger', 'égoi', 'éhon', 'élan', 'élic', 'élog', 'élév', 'émic', 'émin', 'émiq', 'émoc', 'émou', 'émue', 'énig', 'énis', 'énég', 'énér', 'épai', 'épan', 'épau', 'épee', 'épen', 'éphé', 'épil', 'épis', 'épri', 'éral', 'érie', 'érir', 'érée', 'érém', 'ésum', 'étar', 'étei', 'étin', 'étou', 'étéL', 'étéS', 'évac', 'éven', 'évol', 'évue', 'évus', 'éxéc', 'êmem', 'êten', 'îtra', 'ûete', 'ûtée', 'œill']
#Number of occurrences: 14
common_4grams = ['Pren', 'chen', 'disg', 'engr', 'gnol', 'lica', 'nché', 'ocat', 'orté', 'osen', 'ptab', 'râce', 'rétr', 'réve']