In [1]:
import matplotlib.pyplot as plt
%matplotlib inline
import os
import json
import pickle
from transformers import BertTokenizer
import torch
import numpy as np
import re

import warnings
warnings.filterwarnings("ignore")

from tqdm.notebook import tqdm

In [2]:
model_type = 'cased'

In [3]:
data_path = f"D:/Data/neural-punctuator/szeged_bert_{model_type}/"
file_path = data_path + "szeged.txt"

In [4]:
with open(file_path, 'r', encoding='utf-8') as f:
    text = f.readlines()

In [5]:
len(text), text[1]

(82100,
 ' A szállásunk egy Balaton melletti kis üdülőfaluban, Zamárdiban volt, a Postának az üdülőházában.\n')

In [6]:
from collections import OrderedDict

text = list(OrderedDict.fromkeys(text))
len(text)

80875

In [7]:
from sklearn.utils import shuffle

text = shuffle(text, random_state=0)

text[1]

' Ez jutott az eszébe önkéntelenül.\n'

In [8]:
text = [t.strip() for t in text]
text[1]

'Ez jutott az eszébe önkéntelenül.'

In [9]:
len(' '.join([t.strip() for t in text]).split(' '))

1265372

In [10]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained(f'bert-base-multilingual-{model_type}')

In [11]:
def clean_text(text):
    text = text.replace('!', '.')
    text = text.replace(':', ',')
    text = text.replace('--', ',')
    text = text.replace('-', ',')
    text = text.replace(';', '.')
    text = text.replace(' ,', ',')
    text = text.replace('♫', '')

    text = re.sub(r'--\s?--', '', text)
    text = re.sub(r'\s+', ' ', text)

    text = text.replace(' ,', ',')
    
    text = re.sub(r',\s?,', ',', text)
    
    return text.strip().lower()

In [12]:
# cleaned_text = [clean_text(t) for t in text]

# for t, tc in zip(' '.join(text).split(' ')[:100], ' '.join(cleaned_text).split(' ')):
#     print(f"{t:20}\t{tc}")

In [13]:
text = [clean_text(t) for t in text]
text[1]

'ez jutott az eszébe önkéntelenül.'

In [14]:
tokenizer.encode(".?,")

[101, 119, 136, 117, 102]

In [15]:
len(' '.join(text).split(' '))

1248861

In [16]:
tokenized = tokenizer.tokenize(' '.join(text))

In [17]:
tokenized[:5]

['az', 'egyes', '_', 'lesz', '##álló']

In [18]:
len(tokenized)

3044475

In [19]:
text2 = tokenizer.convert_tokens_to_string(tokenized)

In [20]:
text2 = [t for t in text2.split(' ') if t not in [',', '.', '?']]
len(text2)

1332371

In [21]:
for t1, t2 in zip(' '.join(text).split(' ')[:1000], text2):
    print(f'{t1:20}{t2}')         

az                  az
egyes_leszállópályánakegyes
például             _
nem                 leszállópályának
ez                  például
volt                nem
a                   ez
neve                volt
akkoriban,          a
angliának           neve
vagy                akkoriban
nagy,britanniának   angliának
nevezték,           vagy
bár                 nagy
londont,            britanniának
ebben               nevezték
meglehetősen        bár
bizonyos            londont
volt                ebben
winston,            meglehetősen
mindig              bizonyos
londonnak           volt
hívták.             winston
ez                  mindig
jutott              londonnak
az                  hívták
eszébe              ez
önkéntelenül.       jutott
könyvtár            az
megosztása          eszébe
közben              önkéntelenül
(                   könyvtár
a                   megosztása
tulajdonságlap      közben
sharing,            (
megosztás           a
fülén               tulajdonsá

gyalog              volna
jött                bele
drezdából           végső
rómába,             soron
a                   fontosnak
via_flaminián       tartom
jött                azt
be,                 hogy
azon                ne
az                  legyek
úton,               egy
amelyről            műveletlen
gimnazista          ember
korában             aki
megtanulta,         csak
hogy                a
ott                 szántáshoz
vonultak            ért
be                  aki
mindig              nem
észak               tudja
felől               hol
a                   van
győzelmes           ecuador
idegenek.           hogy
fordítási           mikor
cselekmények        voltak
jogosságát,         a
azonban             világháborúk
amennyiben          stb
az                  az
ezekből             építészet
származó            történetéről
művek               csak
valós,              annyit
tényleges           lehetett
felhasználása,      megtudni
természetesen       amennyit
az

In [22]:
id2target = {-1: 0,
              119: 1, # .
              136: 2, # ?
              117: 3,  # ,
              -2: -1, # will be masked
             }
target2id = {value: key for key, value in id2target.items()}
    
    
def create_target(encoded):
    targets = []
    text = []

    target = -2 # Always mask after [CLS] token

    text.append(encoded[0])
    idx = 1
    while idx < len(encoded):
        word = encoded[idx]
        if word in id2target.keys():
            if word in (119,117) and \
            tokenizer._convert_id_to_token(encoded[idx-1]).lstrip('▁').isnumeric() and \
            tokenizer._convert_id_to_token(encoded[idx+1]).startswith('##') and \
            tokenizer._convert_id_to_token(encoded[idx+1]).strip('#').isnumeric():
                targets.append(-2) # prev number
#                 print(-2)
#                 print(f"{tokenizer._convert_id_to_token(word):15}\t", end="")
                text.append(word)                
                target = -2 # '. or ,'
            else:
                target = word
        else:
            if tokenizer._convert_id_to_token(word).startswith('##'):
                target = -2
            targets.append(target)
#             print(target)
#             print(tokenizer._convert_id_to_token(word), '\t', end="")
            
            target = -1
            text.append(word)
            
        idx += 1

    targets.append(target)

    targets = [id2target[t] for t in targets]

    return text, targets

In [23]:
train_n = 70_000
valid_n = 8_000

train_text = ' '.join(text[:train_n])
valid_text = ' '.join(text[train_n:train_n+valid_n])
test_text = ' '.join(text[train_n+valid_n:])

len(train_text.split(' ')), len(valid_text.split(' ')), len(test_text.split(' '))

(1080644, 123975, 44242)

In [24]:
len(text) - train_n - valid_n

2875

In [25]:
train_tokens = tokenizer.encode(train_text)
valid_tokens = tokenizer.encode(valid_text)
test_tokens = tokenizer.encode(test_text)

Token indices sequence length is longer than the specified maximum sequence length for this model (2635119 > 512). Running this sequence through the model will result in indexing errors
Token indices sequence length is longer than the specified maximum sequence length for this model (301868 > 512). Running this sequence through the model will result in indexing errors
Token indices sequence length is longer than the specified maximum sequence length for this model (107494 > 512). Running this sequence through the model will result in indexing errors


In [26]:
train_tokens, train_targets = create_target(train_tokens)
valid_tokens, valid_targets = create_target(valid_tokens)
test_tokens, test_targets = create_target(test_tokens)

In [27]:
# For backward campatibility
train_tokens, train_targets = [train_tokens], [train_targets]
valid_tokens, valid_targets = [valid_tokens], [valid_targets]
test_tokens, test_targets = [test_tokens], [test_targets]

In [28]:
with open(data_path + 'train_data.pkl', 'wb') as f:
    pickle.dump((train_tokens, train_targets), f)
with open(data_path + 'valid_data.pkl', 'wb') as f:
    pickle.dump((valid_tokens, valid_targets), f)
with open(data_path + 'test_data.pkl', 'wb') as f:
    pickle.dump((test_tokens, test_targets), f)

In [29]:
(np.array(train_targets) >= 0).sum()

1153158

In [30]:
(np.array(train_targets) >= 0).sum(), (np.array(valid_targets) >= 0).sum(), (np.array(test_targets) >= 0).sum()

(1153158, 132224, 46992)

In [31]:
sum(((np.array(train_targets) >= 0).sum(), (np.array(valid_targets) >= 0).sum(), (np.array(test_targets) >= 0).sum()))

1332374

In [32]:
from collections import Counter

for tr in (train_targets, valid_targets, test_targets):
    c = Counter((t for targets in tr for t in targets))
    print('\t'.join([str(c[i]) for i in (1,2,3,0,-1)]))

81135	1681	126929	943413	1264300
9207	178	14505	108334	144828
3369	70	5141	38412	51591


In [33]:
sum((np.array(vt) != -1).sum() for vt in train_targets), \
sum((np.array(vt) != -1).sum() for vt in valid_targets), \
sum((np.array(vt) != -1).sum() for vt in test_targets)

(1153158, 132224, 46992)

In [34]:
sum((np.array(vt) == 2).sum() for vt in test_targets)

70

In [35]:
sum(len(vt) for vt in train_targets), \
sum(len(vt) for vt in valid_targets), \
sum(len(vt) for vt in test_targets)

(2417458, 277052, 98583)

In [36]:
word_idx = 0
s = []
for te, ta in zip(test_tokens[0][:], test_targets[0]):
#     print(tokenizer._convert_id_to_token(te), ta)
    if ta != -1:
        s.append(te)
        decoded = tokenizer.decode(s)
        print(f"{word_idx:3}. {decoded:20}\t{ta}\t{[tokenizer._convert_id_to_token(ss) for ss in s]}")
        word_idx += 1
        s = []
    else:
        s.append(te)

  0. [CLS] hála          	0	['[CLS]', 'há', '##la']
  1. az                  	0	['az']
  2. úrnak               	3	['úr', '##nak']
  3. nagyon              	0	['nagyon']
  4. jó                  	0	['jó']
  5. képességeim         	0	['képes', '##sége', '##im']
  6. vannak              	3	['vannak']
  7. és                  	0	['és']
  8. nagyon              	0	['nagyon']
  9. szívesen            	0	['sz', '##ív', '##esen']
 10. tanítanék           	0	['tan', '##ít', '##ané', '##k']
 11. egyetemeken         	3	['egy', '##etem', '##eken']
 12. főiskolákon         	0	['fő', '##isko', '##lá', '##kon']
 13. is                  	0	['is']
 14. teológusokat        	3	['te', '##ol', '##óg', '##usok', '##at']
 15. filozófusokat       	1	['filo', '##zó', '##fus', '##okat']
 16. ha                  	0	['ha']
 17. az                  	0	['az']
 18. ember               	0	['ember']
 19. mindig              	0	['mindig']
 20. úgy                 	0	['úgy']
 21. gondolkozna         	3	['go', '##ndo', 

697. győrött             	0	['g', '##y', '##őr', '##ött']
698. még                 	0	['még']
699. 1998                	0	['1998']
700. márciusában         	0	['március', '##ában']
701. száz                	0	['sz', '##áz']
702. százalékkal         	0	['sz', '##ázal', '##ék', '##kal']
703. megemelték          	0	['meg', '##eme', '##lték']
704. a                   	0	['a']
705. bérleti             	0	['bé', '##rle', '##ti']
706. díjakat             	1	['díj', '##akat']
707. az                  	0	['az']
708. igazgatóság         	0	['iga', '##z', '##gató', '##ság']
709. december            	0	['december']
710. 10                  	3	['10']
711. én                  	0	['én']
712. felhatalmazta       	0	['fel', '##hat', '##al', '##maz', '##ta']
713. az                  	0	['az']
714. ápv                 	0	['áp', '##v']
715. _                   	0	['_']
716. rt                  	1	['r', '##t']
717. elnök               	3	['el', '##nök']
718. vezérigazgatóját    	0	['vez', '##éri', '##ga', 

1378. kívül               	1	['kívül']
1379. a                   	0	['a']
1380. suli                	0	['sul', '##i']
1381. előtt               	0	['előtt']
1382. gyülekezett         	0	['g', '##yü', '##lek', '##ezett']
1383. az                  	0	['az']
1384. egész               	0	['egész']
1385. osztály             	3	['os', '##zt', '##ály']
1386. hogy                	0	['hogy']
1387. elinduljunk         	0	['eli', '##ndu', '##lju', '##nk']
1388. a                   	0	['a']
1389. cél                 	0	['c', '##él']
1390. felé                	1	['felé']
1391. miután              	0	['miután']
1392. a                   	0	['a']
1393. lány                	0	['lá', '##ny']
1394. kiment              	3	['kim', '##ent']
1395. egy                 	0	['egy']
1396. ideig               	0	['ideig']
1397. csend               	0	['c', '##send']
1398. volt                	1	['volt']
1399. hát                 	0	['hát']
1400. ilyen               	0	['ilyen']
1401. még                 	0	['még'

2129. a                   	0	['a']
2130. részvényárak        	3	['rész', '##vén', '##y', '##ára', '##k']
2131. a                   	0	['a']
2132. fő                  	0	['fő']
2133. húzóerőt            	0	['h', '##ú', '##zó', '##er', '##őt']
2134. a                   	0	['a']
2135. technológiai        	0	['tech', '##nol', '##ógiai']
2136. részvények          	0	['rész', '##vén', '##yek']
2137. és                  	0	['és']
2138. pénzügyi            	0	['pé', '##nz', '##ügyi']
2139. szektor             	0	['sz', '##ektor']
2140. papírjai            	0	['pa', '##pí', '##rja', '##i']
2141. adták               	1	['adták']
2142. szeretnék           	0	['sz', '##eret', '##né', '##k']
2143. önállóan            	0	['önálló', '##an']
2144. élni                	1	['él', '##ni']
2145. kétszíjas           	1	['két', '##sz', '##í', '##jas']
2146. maradj              	0	['mara', '##d', '##j']
2147. állva               	3	['áll', '##va']
2148. ott                 	3	['ott']
2149. ahol               

2767. baj                 	0	['ba', '##j']
2768. mégis               	0	['mégis']
2769. nagy                	3	['nagy']
2770. egy                 	0	['egy']
2771. belső               	0	['belső']
2772. vizsgálat           	3	['viz', '##sg', '##ála', '##t']
2773. amelyet             	0	['amelyet']
2774. az                  	0	['az']
2775. özvegy              	3	['öz', '##veg', '##y']
2776. gergely             	0	['ger', '##gel', '##y']
2777. _                   	0	['_']
2778. irén                	0	['ir', '##én']
2779. kért                	0	['k', '##ért']
2780. a                   	0	['a']
2781. p                   	1	['p']
2782. _                   	0	['_']
2783. m                   	1	['m']
2784. _                   	0	['_']
2785. s                   	1	['s']
2786. _                   	0	['_']
2787. kft                 	3	['k', '##ft']
2788. től                 	3	['től']
2789. azt                 	0	['azt']
2790. állapította         	0	['áll', '##ap', '##ította']
2791. meg          

3529. maró                	0	['mar', '##ó']
3530. volt                	3	['volt']
3531. mint                	0	['mint']
3532. a                   	0	['a']
3533. salétromsav         	3	['sal', '##ét', '##rom', '##sa', '##v']
3534. s                   	0	['s']
3535. ezenfelül           	0	['ezen', '##fel', '##ül']
3536. nyelés              	0	['nye', '##lés']
3537. közben              	0	['közben']
3538. olyan               	0	['olyan']
3539. érzése              	0	['é', '##rz', '##ése']
3540. támadt              	0	['tá', '##mad', '##t']
3541. az                  	0	['az']
3542. embernek            	3	['ember', '##nek']
3543. mintha              	0	['mint', '##ha']
3544. gumibottal          	0	['gu', '##mi', '##bot', '##tal']
3545. hátulról            	0	['hát', '##ul', '##ról']
3546. fejbe               	0	['fe', '##j', '##be']
3547. vágták              	0	['v', '##ág', '##ták']
3548. volna               	1	['volna']
3549. kedden              	0	['ke', '##dden']
3550. 24               

4275. hogy                	0	['hogy']
4276. tartozzam           	1	['tar', '##to', '##zza', '##m']
4277. s                   	0	['s']
4278. most                	0	['most']
4279. már                 	0	['már']
4280. nem                 	0	['nem']
4281. azokkal             	0	['azok', '##kal']
4282. a                   	0	['a']
4283. görcsös             	0	['gör', '##cs', '##ös']
4284. és                  	0	['és']
4285. félszeg             	0	['fél', '##sze', '##g']
4286. betűkkel            	3	['bet', '##ű', '##kkel']
4287. mint                	0	['mint']
4288. az                  	0	['az']
4289. előbb               	1	['előbb']
4290. az                  	0	['az']
4291. országgyűlés        	0	['ország', '##gy', '##ű', '##lés']
4292. e                   	0	['e']
4293. szempontokra        	0	['sz', '##em', '##pont', '##ok', '##ra']
4294. figyelemmel         	3	['fi', '##gye', '##lem', '##mel']
4295. a                   	0	['a']
4296. nemzetközi          	0	['nemzetközi']
4297. jogfejlődé

5075. reuters             	1	['re', '##uter', '##s']
5076. a                   	0	['a']
5077. virtuális           	0	['vir', '##tu', '##ális']
5078. portok              	0	['porto', '##k']
5079. nem                 	0	['nem']
5080. zavarják            	0	['zava', '##rj', '##ák']
5081. a                   	0	['a']
5082. számítógép          	0	['szám', '##ító', '##gép']
5083. fizikailag          	0	['fizika', '##ila', '##g']
5084. is                  	0	['is']
5085. létező              	0	['l', '##ét', '##ező']
5086. soros               	0	['sor', '##os']
5087. és                  	0	['és']
5088. párhuzamos          	0	['pár', '##hu', '##zam', '##os']
5089. kimeneteit          	1	['kim', '##ene', '##teit']
5090. sajnos              	0	['saj', '##nos']
5091. sokan               	0	['sok', '##an']
5092. elkövetik           	0	['elk', '##öv', '##etik']
5093. azt                 	0	['azt']
5094. a                   	0	['a']
5095. hibát               	3	['hi', '##bá', '##t']
5096. hogy       

5908. a                   	0	['a']
5909. dassault            	0	['dass', '##ault']
5910. _                   	0	['_']
5911. systemes            	0	['system', '##es']
5912. és                  	0	['és']
5913. a                   	0	['a']
5914. france              	0	['franc', '##e']
5915. _                   	0	['_']
5916. telecom             	0	['tele', '##com']
5917. drágult             	1	['dr', '##ág', '##ult']
5918. üdvhadsereg         	3	['ü', '##d', '##v', '##had', '##sere', '##g']
5919. római               	0	['római']
5920. katolikusok         	3	['katolikus', '##ok']
5921. zsidók              	3	['zsidó', '##k']
5922. indiaiak            	3	['india', '##iak']
5923. mindenfélék         	0	['minden', '##félék']
5924. voltak              	0	['voltak']
5925. ott                 	1	['ott']
5926. már                 	0	['már']
5927. egyre               	0	['egyre']
5928. inkább              	0	['inkább']
5929. csak                	0	['csak']
5930. doppingolt          	0	['do', '##pp

6809. annak               	0	['annak']
6810. ellenére            	3	['ellenére']
6811. hogy                	0	['hogy']
6812. én                  	0	['én']
6813. húsz                	0	['h', '##ús', '##z']
6814. percre              	0	['per', '##cre']
6815. számítottam         	3	['szám', '##ította', '##m']
6816. két                 	0	['két']
6817. és                  	0	['és']
6818. fél                 	0	['fél']
6819. órán                	0	['ó', '##rán']
6820. át                  	0	['át']
6821. tartott             	1	['tartott']
6822. meg                 	0	['meg']
6823. kellett             	0	['kellett']
6824. kérdeznünk          	0	['k', '##ér', '##dez', '##nün', '##k']
6825. valakit             	1	['val', '##aki', '##t']
6826. reggel              	0	['re', '##gge', '##l']
6827. 8                   	0	['8']
6828. óra                 	0	['ó', '##ra']
6829. táján               	0	['tá', '##ján']
6830. indultunk           	3	['indult', '##unk']
6831. teljes              	0	['teljes'

7600. alapító             	0	['ala', '##pí', '##tó']
7601. tagja               	3	['tagja']
7602. ezért               	0	['ezért']
7603. kimarad             	0	['kim', '##ara', '##d']
7604. a                   	0	['a']
7605. tagok               	0	['tag', '##ok']
7606. közül               	1	['közül']
7607. vagyis              	0	['vagyis']
7608. a                   	0	['a']
7609. lemezek             	0	['le', '##mez', '##ek']
7610. meghibásodása       	0	['meg', '##hib', '##ás', '##od', '##ása']
7611. vagy                	0	['vagy']
7612. megsemmisülése      	0	['meg', '##sem', '##mis', '##ül', '##ése']
7613. ellen               	0	['ellen']
7614. védekezünk          	3	['v', '##éd', '##eke', '##z', '##ünk']
7615. és                  	0	['és']
7616. nem                 	0	['nem']
7617. az                  	0	['az']
7618. illetéktelen        	0	['ill', '##eté', '##kte', '##len']
7619. hozzáférést         	0	['hozzá', '##f', '##érés', '##t']
7620. próbáljuk           	0	['pr', '##ób', '

8393. menet               	0	['men', '##et']
8394. közben              	0	['közben']
8395. beveszi             	0	['be', '##ves', '##zi']
8396. a                   	0	['a']
8397. sebességet          	1	['sebe', '##ssé', '##get']
8398. ilyenkor            	0	['ilyen', '##kor']
8399. segítek             	0	['seg', '##ít', '##ek']
8400. anyukámnak          	0	['any', '##uk', '##ám', '##nak']
8401. ebédet              	0	['e', '##bé', '##det']
8402. vagy                	0	['vagy']
8403. vacsorát            	0	['va', '##cs', '##or', '##át']
8404. készíteni           	1	['k', '##ész', '##íteni']
8405. a                   	0	['a']
8406. végleges            	0	['v', '##ég', '##leges']
8407. vagyonmérlegre      	0	['vagy', '##on', '##mé', '##rle', '##gre']
8408. és                  	0	['és']
8409. vagyonleltárra      	0	['vagy', '##on', '##le', '##lt', '##ár', '##ra']
8410. vonatkozó           	0	['von', '##at', '##kozó']
8411. részletes           	0	['rész', '##letes']
8412. szabályokat       

9255. társaság            	0	['tá', '##rsa', '##ság']
9256. végül               	0	['végül']
9257. a                   	0	['a']
9258. magyar              	0	['magyar']
9259. _                   	0	['_']
9260. hitel               	0	['hit', '##el']
9261. _                   	0	['_']
9262. bank                	0	['bank']
9263. _                   	0	['_']
9264. rt                  	3	['r', '##t']
9265. vel                 	0	['vel']
9266. szemben             	0	['szemben']
9267. 2                   	0	['2']
9268. _                   	0	['_']
9269. millió              	0	['millió']
9270. dollárnyi           	0	['do', '##ll', '##ár', '##nyi']
9271. tartozást           	0	['tar', '##to', '##zás', '##t']
9272. hagyott             	0	['hag', '##yot', '##t']
9273. hátra               	1	['hát', '##ra']
9274. a                   	0	['a']
9275. cégbejegyzést       	0	['cég', '##be', '##jeg', '##y', '##zést']
9276. követően            	0	['követően']
9277. a                   	0	['a']
9278. társa

10080. vállalat            	0	['v', '##ál', '##lala', '##t']
10081. illetékese          	0	['ill', '##eté', '##kes', '##e']
10082. csütörtökön         	0	['c', '##sü', '##tö', '##rt', '##ök', '##ön']
10083. az                  	0	['az']
10084. mti                 	3	['m', '##ti']
10085. vel                 	1	['vel']
10086. a                   	0	['a']
10087. lapolvasók          	0	['lap', '##ol', '##vas', '##ók']
10088. és                  	0	['és']
10089. egyéb               	0	['egyéb']
10090. képdigitalizáló     	0	['k', '##ép', '##dig', '##ital', '##iz', '##áló']
10091. eszközök            	0	['es', '##z', '##k', '##öz', '##ök']
10092. kezelése            	0	['kez', '##elé', '##se']
10093. gördülékenyebbé     	0	['gör', '##dü', '##lé', '##ken', '##ye', '##bb', '##é']
10094. válásának           	0	['v', '##ál', '##ásának']
10095. az                  	0	['az']
10096. az                  	0	['az']
10097. ára                 	3	['ára']
10098. hogy                	0	['hogy']
10099. a  

10876. a                   	0	['a']
10877. részvények          	3	['rész', '##vén', '##yek']
10878. főleg               	0	['főleg']
10879. a                   	0	['a']
10880. technológiai        	0	['tech', '##nol', '##ógiai']
10881. papírok             	0	['pa', '##pí', '##rok']
10882. árának              	3	['ár', '##ának']
10883. emelkedését         	0	['em', '##el', '##ked', '##ését']
10884. hozta               	1	['ho', '##zta']
10885. úgy                 	0	['úgy']
10886. látszik             	3	['lá', '##tszik']
10887. még                 	0	['még']
10888. nem                 	0	['nem']
10889. heverte             	0	['he', '##verte']
10890. ki                  	1	['ki']
10891. vagy                	0	['vagy']
10892. talán               	0	['tal', '##án']
10893. párizsban           	0	['pár', '##iz', '##s', '##ban']
10894. újabb               	0	['újabb']
10895. csalódások          	0	['c', '##sal', '##ód', '##ások']
10896. érték               	2	['ért', '##ék']
10897. de         

11754. de                  	0	['de']
11755. végül               	0	['végül']
11756. kaptunk             	0	['kap', '##tun', '##k']
11757. hatmilliót          	3	['hat', '##mill', '##ió', '##t']
11758. bár                 	0	['bár']
11759. tizenkétmillióra    	0	['ti', '##zen', '##két', '##mill', '##ió', '##ra']
11760. lett                	0	['lett']
11761. volna               	0	['volna']
11762. szükségünk          	3	['sz', '##ük', '##ség', '##ünk']
11763. és                  	0	['és']
11764. meg                 	0	['meg']
11765. tudtuk              	0	['tud', '##tuk']
11766. kezdeni             	0	['kez', '##den', '##i']
11767. legalább            	0	['legalább']
11768. az                  	0	['az']
11769. '                   	0	["'"]
11770. 56                  	0	['56']
11771. utáni               	0	['után', '##i']
11772. periratok           	0	['per', '##irat', '##ok']
11773. mikrofilmezését     	1	['mi', '##kro', '##film', '##ezés', '##ét']
11774. tehát               	0	['tehát']


12670. share               	0	['share']
12671. _                   	0	['_']
12672. permissions         	3	['permission', '##s']
12673. megosztási          	0	['meg', '##osz', '##tás', '##i']
12674. _                   	0	['_']
12675. engedélyek          	0	['eng', '##ed', '##ély', '##ek']
12676. fülön               	0	['f', '##ül', '##ön']
12677. a                   	0	['a']
12678. megosztáshoz        	0	['meg', '##osz', '##tás', '##hoz']
12679. mint                	0	['mint']
12680. védhető             	0	['v', '##éd', '##hető']
12681. erőforráshoz        	0	['er', '##ő', '##for', '##rás', '##hoz']
12682. tartozó             	0	['tartozó']
12683. hozzáférési         	0	['hozzá', '##f', '##érés', '##i']
12684. jogok               	0	['jogo', '##k']
12685. állíthatók          	0	['áll', '##ít', '##ható', '##k']
12686. be                  	1	['be']
12687. a                   	0	['a']
12688. security            	3	['security']
12689. biztonság           	0	['biz', '##tons', '##ág']
12690.

13967. vissza              	0	['vissza']
13968. kellett             	0	['kellett']
13969. fordulnia           	3	['ford', '##ul', '##nia']
13970. ön                  	0	['ön']
13971. megőrült            	3	['meg', '##őr', '##ült']
13972. jóravaló            	0	['jó', '##rava', '##ló']
13973. rendőr              	1	['rend', '##őr']
13974. de                  	0	['de']
13975. most                	0	['most']
13976. olyan               	0	['olyan']
13977. rendesnek           	0	['rende', '##sne', '##k']
13978. és                  	0	['és']
13979. erősnek             	0	['erős', '##nek']
13980. érzem               	0	['é', '##rzem']
13981. magam               	1	['maga', '##m']
13982. ezáltal             	0	['ez', '##álta', '##l']
13983. bővíteni            	0	['b', '##ő', '##ví', '##teni']
13984. akarjuk             	0	['akar', '##juk']
13985. azt                 	0	['azt']
13986. a                   	0	['a']
13987. területet           	3	['területe', '##t']
13988. amellyel            	0	[

14489. hogy                	0	['hogy']
14490. ebben               	0	['ebben']
14491. a                   	0	['a']
14492. hidegháború         	0	['hide', '##gh', '##á', '##bor', '##ú']
14493. utáni               	0	['után', '##i']
14494. korban              	0	['korban']
14495. nehéz               	0	['ne', '##hé', '##z']
14496. megfogalmazni       	3	['meg', '##fo', '##gal', '##maz', '##ni']
14497. miféle              	3	['mi', '##féle']
14498. kiféle              	0	['ki', '##féle']
14499. is                  	0	['is']
14500. az                  	0	['az']
14501. a                   	0	['a']
14502. bizonyos            	0	['bizonyos']
14503. ellenerő            	3	['ellen', '##er', '##ő']
14504. amelyet             	0	['amelyet']
14505. nem                 	0	['nem']
14506. mondanak            	0	['mond', '##anak']
14507. ellenségnek         	2	['ellen', '##ség', '##nek']
14508. a                   	0	['a']
14509. fontosabb           	0	['fontos', '##abb']
14510. internetes          	0

15317. 100                 	0	['100']
15318. /                   	0	['/']
15319. egk                 	0	['e', '##g', '##k']
15320. irányelv            	0	['irá', '##nye', '##lv']
15321. 7                   	1	['7']
15322. cikke               	0	['cikk', '##e']
15323. ezt                 	0	['ezt']
15324. úgy                 	0	['úgy']
15325. fogalmazza          	0	['fog', '##al', '##maz', '##za']
15326. meg                 	3	['meg']
15327. hogy                	0	['hogy']
15328. a                   	0	['a']
15329. tagállamok          	0	['tag', '##ál', '##lam', '##ok']
15330. biztosítják         	0	['biz', '##tos', '##ítják']
15331. a                   	0	['a']
15332. közvetlen           	0	['k', '##öz', '##vet', '##len']
15333. vagy                	0	['vagy']
15334. közvetett           	0	['k', '##öz', '##vete', '##tt']
15335. többszörözés        	0	['többször', '##öz', '##és']
15336. engedélyezésének    	0	['eng', '##ed', '##ély', '##ezés', '##ének']
15337. vagy                	0	['v

16172. biztosítani         	0	['biz', '##tos', '##ítani']
16173. a                   	0	['a']
16174. részvényesek        	0	['rész', '##vén', '##yes', '##ek']
16175. számára             	1	['számára']
16176. az                  	0	['az']
16177. ápolók              	0	['áp', '##ol', '##ók']
16178. vessék              	0	['ve', '##ssé', '##k']
16179. le                  	0	['le']
16180. az                  	0	['az']
16181. izolálóruhát        	3	['iz', '##ol', '##áló', '##ruh', '##át']
16182. és                  	0	['és']
16183. valaki              	0	['val', '##aki']
16184. hozzon              	0	['ho', '##zzo', '##n']
16185. fel                 	0	['fel']
16186. nekem               	0	['neke', '##m']
16187. öt                  	0	['öt']
16188. világos             	0	['világ', '##os']
16189. szivart             	0	['sz', '##ivar', '##t']
16190. a                   	0	['a']
16191. köpenyemből         	1	['k', '##öp', '##eny', '##em', '##ből']
16192. egy                 	0	['egy']
16193. 

17031. megjártam           	1	['meg', '##já', '##rta', '##m']
17032. eszerint            	0	['es', '##zer', '##int']
17033. a                   	0	['a']
17034. gazdasági           	0	['gazdasági']
17035. társaság            	0	['tá', '##rsa', '##ság']
17036. vagyonának          	0	['vagy', '##on', '##ának']
17037. az                  	0	['az']
17038. értékét             	0	['ért', '##ék', '##ét']
17039. a                   	0	['a']
17040. saját               	0	['saját']
17041. tőkeösszegét        	0	['t', '##ők', '##e', '##öss', '##zeg', '##ét']
17042. a                   	0	['a']
17043. könyvvizsgáló       	0	['könyv', '##vi', '##zs', '##g', '##áló']
17044. által               	0	['által']
17045. megállapított       	0	['meg', '##ál', '##lap', '##ított']
17046. értéknél            	0	['ért', '##ék', '##nél']
17047. nem                 	0	['nem']
17048. lehet               	0	['lehet']
17049. magasabb            	0	['magas', '##abb']
17050. értékben            	0	['ért', '##ékben']
17

17864. irányadó            	0	['irá', '##nya', '##dó']
17865. mutatója            	3	['mutat', '##ója']
17866. az                  	0	['az']
17867. ftse                	3	['ft', '##se']
17868. 100                 	0	['100']
17869. 1                   	3	['1']
17870. 2                   	0	['2']
17871. pontos              	0	['pontos']
17872. veszteséggel        	0	['ve', '##szt', '##es', '##ég', '##gel']
17873. nyitott             	0	['ny', '##ito', '##tt']
17874. szerdán             	3	['sz', '##erd', '##án']
17875. és                  	0	['és']
17876. néhány              	0	['néhány']
17877. pillanat            	0	['pi', '##llan', '##at']
17878. múlva               	0	['m', '##úl', '##va']
17879. 15                  	3	['15']
17880. 4                   	0	['4']
17881. pont                	0	['pont']
17882. volt                	0	['volt']
17883. a                   	0	['a']
17884. vesztesége          	1	['ve', '##szt', '##es', '##ége']
17885. összeült            	0	['össze', '##ült']


18769. sem                 	3	['sem']
18770. amelyet             	0	['amelyet']
18771. ne                  	0	['ne']
18772. lett                	0	['lett']
18773. volna               	0	['volna']
18774. képes               	0	['képes']
18775. lenyelni            	3	['len', '##yel', '##ni']
18776. ha                  	0	['ha']
18777. a                   	0	['a']
18778. párt                	0	['párt']
18779. nyújtotta           	0	['ny', '##ú', '##jtott', '##a']
18780. feléje              	1	['felé', '##je']
18781. éspedig             	1	['és', '##ped', '##ig']
18782. az                  	0	['az']
18783. első                	0	['első']
18784. oldalon             	0	['oldalon']
18785. azt                 	0	['azt']
18786. a                   	0	['a']
18787. nevet               	0	['nevet']
18788. kell                	0	['kell']
18789. megadni             	3	['meg', '##ad', '##ni']
18790. amely               	0	['amely']
18791. az                  	0	['az']
18792. általunk            	0	['

19552. banki               	0	['bank', '##i']
19553. üzletága            	1	['ü', '##zle', '##tá', '##ga']
19554. most                	0	['most']
19555. úgy                 	0	['úgy']
19556. nevezik             	0	['nevez', '##ik']
19557. őket                	3	['őket']
19558. a                   	0	['a']
19559. másik               	0	['másik']
19560. oldal               	3	['oldal']
19561. esetleg             	0	['ese', '##tle', '##g']
19562. ellenfeleink        	1	['ellen', '##fel', '##ein', '##k']
19563. először             	0	['először']
19564. az                  	0	['az']
19565. olasz               	0	['olasz']
19566. futuristák          	0	['futur', '##ist', '##ák']
19567. manifesztuma        	0	['mani', '##fes', '##ztu', '##ma']
19568. jelent              	0	['jelent']
19569. meg                 	0	['meg']
19570. a                   	0	['a']
19571. le                  	0	['le']
19572. _                   	0	['_']
19573. monde               	0	['monde']
19574. című              

20245. ezt                 	0	['ezt']
20246. különböző           	0	['különböző']
20247. sültek              	0	['s', '##ült', '##ek']
20248. követték            	3	['k', '##öv', '##ették']
20249. emlékszem           	3	['em', '##lé', '##ks', '##zem']
20250. az                  	0	['az']
20251. egyikre             	0	['egyik', '##re']
20252. citromlevet         	0	['cit', '##rom', '##leve', '##t']
20253. kellett             	0	['kellett']
20254. csepegtetni         	3	['c', '##se', '##pe', '##gte', '##tni']
20255. és                  	0	['és']
20256. irtó                	0	['ir', '##tó']
20257. rossz               	0	['ros', '##sz']
20258. ízű                 	0	['í', '##z', '##ű']
20259. salátát             	0	['sal', '##át', '##át']
20260. adtak               	0	['adta', '##k']
20261. hozzá               	1	['hozzá']
20262. két                 	0	['két']
20263. másik               	0	['másik']
20264. cég                 	0	['cég']
20265. pedig               	0	['pedig']
20266. megszű

21000. visszavonás         	0	['vissza', '##von', '##ás']
21001. joga                	0	['joga']
21002. munkaviszonyban     	0	['mun', '##ka', '##vis', '##zony', '##ban']
21003. alkotott            	0	['al', '##kot', '##ott']
21004. műnél               	3	['m', '##ű', '##nél']
21005. asz                 	0	['as', '##z']
21006. régi                	0	['régi']
21007. történet            	1	['történet']
21008. ezt                 	0	['ezt']
21009. a                   	0	['a']
21010. célt                	0	['c', '##élt']
21011. szolgálják          	0	['sz', '##ol', '##g', '##ál', '##ják']
21012. az                  	0	['az']
21013. szjt                	1	['sz', '##jt']
21014. (                   	0	['(']
21015. új                  	0	['új']
21016. )                   	0	[')']
21017. 94                  	1	['94']
21018. par                 	3	['par']
21019. ának                	0	['án', '##ak']
21020. előírásai           	3	['elő', '##ír', '##ása', '##i']
21021. de                  	0	['de'

21786. a                   	0	['a']
21787. kirakatokat         	0	['kira', '##kat', '##okat']
21788. nézegettem          	0	['né', '##zeg', '##ette', '##m']
21789. a                   	0	['a']
21790. többiekkel          	3	['többi', '##ekkel']
21791. ugyanis             	3	['ugyanis']
21792. egy                 	0	['egy']
21793. boltot              	0	['bol', '##tot']
21794. kivéve              	3	['ki', '##vé', '##ve']
21795. minden              	0	['minden']
21796. zárva               	0	['z', '##ár', '##va']
21797. volt                	1	['volt']
21798. az                  	0	['az']
21799. alaptőke            	0	['ala', '##pt', '##ők', '##e']
21800. új                  	0	['új']
21801. részvények          	0	['rész', '##vén', '##yek']
21802. forgalombahozatalával	0	['for', '##galom', '##bah', '##oza', '##tal', '##ával']
21803. történő             	0	['történő']
21804. felemelése          	0	['fel', '##eme', '##lés', '##e']
21805. a                   	0	['a']
21806. társaságot       

22559. elmosódott          	0	['el', '##mos', '##ód', '##ott']
22560. firkák              	0	['fir', '##ká', '##k']
22561. a                   	0	['a']
22562. mosdók              	0	['mos', '##dó', '##k']
22563. falán               	3	['fa', '##lán']
22564. néha                	0	['né', '##ha']
22565. talán               	3	['tal', '##án']
22566. amikor              	0	['amikor']
22567. két                 	0	['két']
22568. ember               	0	['ember']
22569. találkozott         	3	['tal', '##ál', '##kozott']
22570. egy                 	0	['egy']
22571. apró                	0	['ap', '##ró']
22572. kézmozdulat         	3	['k', '##é', '##zm', '##oz', '##dula', '##t']
22573. amely               	0	['amely']
22574. mintha              	0	['mint', '##ha']
22575. az                  	0	['az']
22576. összetartozás       	0	['össze', '##tar', '##to', '##zás']
22577. jele                	0	['je', '##le']
22578. lett                	0	['lett']
22579. volna               	1	['volna']
22580. e

23408. még                 	0	['még']
23409. nem                 	0	['nem']
23410. szeretem            	3	['sz', '##eret', '##em']
23411. az                  	0	['az']
23412. az                  	3	['az']
23413. hogy                	0	['hogy']
23414. a                   	0	['a']
23415. tanárok             	0	['tanár', '##ok']
23416. sokszor             	0	['sok', '##szor']
23417. különbséget         	0	['külön', '##bs', '##éget']
23418. tesznek             	0	['te', '##sz', '##nek']
23419. két                 	0	['két']
23420. különböző           	0	['különböző']
23421. képességű           	0	['képes', '##ségű']
23422. diák                	0	['di', '##ák']
23423. között              	1	['között']
23424. ezek                	0	['ezek']
23425. után                	0	['után']
23426. teljesen            	0	['teljesen']
23427. más                 	0	['más']
23428. volt                	0	['volt']
23429. minden              	1	['minden']
23430. (                   	0	['(']
23431. a           

24216. az                  	0	['az']
24217. állományok          	0	['áll', '##om', '##ány', '##ok']
24218. tömörítésével       	0	['t', '##ö', '##m', '##ör', '##ítés', '##ével']
24219. (                   	0	['(']
24220. ennek               	0	['ennek']
24221. leírását            	0	['le', '##ír', '##ását']
24222. lásd                	0	['lá', '##sd']
24223. a                   	0	['a']
24224. 4                   	1	['4']
24225. fejezetben          	1	['fe', '##je', '##zetben']
24226. )                   	3	[')']
24227. mert                	0	['mert']
24228. a                   	0	['a']
24229. windows             	0	['windows']
24230. mindig              	0	['mindig']
24231. az                  	0	['az']
24232. állományok          	0	['áll', '##om', '##ány', '##ok']
24233. tömörítetlen        	0	['t', '##ö', '##m', '##ör', '##ít', '##etlen']
24234. méretét             	0	['m', '##ére', '##tét']
24235. veszi               	0	['ve', '##szi']
24236. alapul              	1	['alapul']
24237

25075. a                   	0	['a']
25076. nyilvános           	0	['ny', '##il', '##váno', '##s']
25077. mappáké             	3	['map', '##pá', '##ké']
25078. most                	1	['most']
25079. ez                  	0	['ez']
25080. az                  	3	['az']
25081. mondta              	0	['mond', '##ta']
25082. mihály              	1	['mi', '##há', '##ly']
25083. 1941                	3	['1941']
25084. "                   	0	['"']
25085. az                  	3	['az']
25086. hogy                	0	['hogy']
25087. japán               	0	['japán']
25088. repülőgépek         	0	['rep', '##ülő', '##gép', '##ek']
25089. védtelen            	0	['v', '##éd', '##telen']
25090. kínai               	0	['kínai']
25091. városokat           	0	['város', '##okat']
25092. tönkre              	0	['t', '##ön', '##kre']
25093. tudtak              	0	['tudta', '##k']
25094. bombázni            	3	['bomb', '##áz', '##ni']
25095. még                 	0	['még']
25096. nem                 	0	['nem']
2509

25919. charley             	1	['char', '##ley']
25920. a                   	0	['a']
25921. végrehajtási        	0	['v', '##égre', '##ha', '##jt', '##ási']
25922. eljárás             	0	['el', '##já', '##rás']
25923. költségeinek        	0	['k', '##ölt', '##sége', '##inek']
25924. megelőlegezésére    	0	['meg', '##el', '##ől', '##ege', '##zésére']
25925. vonatkozóan         	0	['von', '##at', '##kozó', '##an']
25926. a                   	0	['a']
25927. vht                 	1	['v', '##ht']
25928. 34                  	1	['34']
25929. par                 	3	['par']
25930. a                   	0	['a']
25931. úgy                 	0	['úgy']
25932. rendelkezik         	3	['rendelkezik']
25933. hogy                	0	['hogy']
25934. a                   	0	['a']
25935. végrehajtás         	0	['v', '##égre', '##ha', '##jt', '##ás']
25936. során               	0	['során']
25937. felmerülő           	0	['fel', '##mer', '##ülő']
25938. költséget           	0	['k', '##ölt', '##séget']
25939. a       

26825. szal                	0	['sz', '##al']
26826. arról               	3	['arról']
26827. hogy                	0	['hogy']
26828. 5                   	3	['5']
26829. 6                   	0	['6']
26830. _                   	0	['_']
26831. milliárd            	0	['milli', '##árd']
26832. dollárért           	0	['do', '##ll', '##ár', '##ért']
26833. a                   	0	['a']
26834. miller              	0	['mille', '##r']
26835. _                   	0	['_']
26836. brewing             	3	['br', '##ewing']
26837. ot                  	1	['ot']
26838. a                   	0	['a']
26839. lengyel             	0	['lengyel']
26840. szejm               	0	['sz', '##ej', '##m']
26841. pénteken            	0	['pé', '##nte', '##ken']
26842. elutasította        	0	['elu', '##tas', '##ította']
26843. a                   	0	['a']
26844. lengyel             	0	['lengyel']
26845. _                   	0	['_']
26846. nemzeti             	0	['nemzeti']
26847. _                   	0	['_']
26848. bankról   

27657. és                  	0	['és']
27658. ennek               	0	['ennek']
27659. érdekében           	0	['érdekében']
27660. az                  	0	['az']
27661. elkövetkező         	0	['elk', '##öv', '##et', '##ke', '##ző']
27662. években             	0	['években']
27663. tovább              	0	['tovább']
27664. kell                	0	['kell']
27665. javítani            	0	['ja', '##ví', '##tani']
27666. a                   	0	['a']
27667. jövedelmezőséget    	3	['j', '##öv', '##ede', '##lme', '##ző', '##séget']
27668. s                   	0	['s']
27669. bővíteni            	0	['b', '##ő', '##ví', '##teni']
27670. a                   	0	['a']
27671. bankcsoport         	0	['bank', '##cs', '##op', '##ort']
27672. piaci               	0	['pia', '##ci']
27673. részesedését        	3	['része', '##sed', '##ését']
27674. mondta              	0	['mond', '##ta']
27675. csányi              	0	['c', '##s', '##ányi']
27676. _                   	0	['_']
27677. sándor              	3	['s', '##á

28444. tanulhat            	0	['tan', '##ul', '##hat']
28445. az                  	0	['az']
28446. ember               	1	['ember']
28447. szabad              	0	['szabad']
28448. ég                  	0	['é', '##g']
28449. alatt               	1	['alatt']
28450. lényegében          	0	['l', '##énye', '##gé', '##ben']
28451. azonban             	0	['azonban']
28452. szeretek            	0	['sz', '##eret', '##ek']
28453. itt                 	0	['itt']
28454. lenni               	3	['len', '##ni']
28455. mert                	0	['mert']
28456. itt                 	0	['itt']
28457. vannak              	0	['vannak']
28458. azok                	3	['azok']
28459. akik                	0	['akik']
28460. sokat               	0	['sok', '##at']
28461. adtak               	0	['adta', '##k']
28462. ahhoz               	3	['ah', '##hoz']
28463. hogy                	0	['hogy']
28464. ilyen               	0	['ilyen']
28465. lehessek            	1	['le', '##hes', '##sek']
28466. a                   	0	['

29303. dönt                	0	['d', '##önt']
29304. majd                	0	['majd']
29305. az                  	0	['az']
29306. európai             	0	['európai']
29307. tőzsde              	3	['t', '##ő', '##zs', '##de']
29308. tájkép              	0	['tá', '##jk', '##ép']
29309. alakulásáról        	3	['ala', '##kul', '##ás', '##áról']
29310. de                  	0	['de']
29311. nem                 	0	['nem']
29312. egy                 	0	['egy']
29313. európai             	0	['európai']
29314. monopol             	3	['mono', '##pol']
29315. tőzsde              	0	['t', '##ő', '##zs', '##de']
29316. jön                 	0	['j', '##ön']
29317. majd                	0	['majd']
29318. létre               	3	['létre']
29319. hanem               	0	['hanem']
29320. két                 	3	['két']
29321. három               	0	['három']
29322. tőzsdeszövetség     	3	['t', '##ő', '##zs', '##des', '##zövetség']
29323. amelyek             	0	['amelyek']
29324. között              	0	['között']


30106. makroelemzői        	0	['ma', '##kro', '##elem', '##ző', '##i']
30107. azzal               	0	['azzal']
30108. kalkulálnak         	3	['ka', '##lk', '##ul', '##álnak']
30109. hasonlóan           	0	['hasonlóan']
30110. a                   	0	['a']
30111. kormányzati         	0	['kormány', '##zati']
30112. prognózishoz        	3	['pro', '##gn', '##óz', '##ish', '##oz']
30113. hogy                	0	['hogy']
30114. 1998                	3	['1998']
30115. ban                 	0	['ban']
30116. az                  	0	['az']
30117. éves                	0	['éves']
30118. átlagos             	0	['át', '##lagos']
30119. infláció            	0	['in', '##f', '##lá', '##ció']
30120. 14                  	3	['14']
30121. 3                   	3	['3']
30122. 14                  	3	['14']
30123. 5                   	0	['5']
30124. százalék            	0	['sz', '##ázal', '##ék']
30125. között              	0	['között']
30126. alakul              	1	['ala', '##kul']
30127. majd                	0	['

30896. speciális           	0	['sp', '##eci', '##ális']
30897. szabálya            	0	['sz', '##ab', '##álya']
30898. először             	0	['először']
30899. azt                 	0	['azt']
30900. hittük              	3	['hit', '##tü', '##k']
30901. hogy                	0	['hogy']
30902. a                   	0	['a']
30903. nap                 	0	['nap']
30904. sugara              	3	['sugar', '##a']
30905. de                  	0	['de']
30906. nem                 	0	['nem']
30907. az                  	0	['az']
30908. volt                	3	['volt']
30909. ezt                 	0	['ezt']
30910. onnét               	0	['on', '##né', '##t']
30911. tudjuk              	3	['tud', '##juk']
30912. hogy                	0	['hogy']
30913. amikor              	0	['amikor']
30914. jöttünk             	0	['jött', '##ünk']
30915. haza                	0	['ha', '##za']
30916. és                  	0	['és']
30917. már                 	0	['már']
30918. sötét               	0	['sö', '##tét']
30919. volt   

31635. közöltet            	3	['k', '##öz', '##ölte', '##t']
31636. értéke              	0	['ért', '##éke']
31637. 1                   	1	['1']
31638. 388                 	3	['388']
31639. 2                   	0	['2']
31640. milliárd            	0	['milli', '##árd']
31641. forint              	0	['for', '##int']
31642. volt                	3	['volt']
31643. tette               	0	['tette']
31644. közzé               	0	['k', '##öz', '##zé']
31645. a                   	0	['a']
31646. magyar              	0	['magyar']
31647. _                   	0	['_']
31648. nemzeti             	0	['nemzeti']
31649. _                   	0	['_']
31650. bank                	0	['bank']
31651. pénteken            	1	['pé', '##nte', '##ken']
31652. ő                   	0	['ő']
31653. telefonált          	1	['telefon', '##ált']
31654. míg                 	0	['míg']
31655. nyugat              	3	['ny', '##ugat']
31656. európában           	0	['eu', '##ró', '##pá', '##ban']
31657. a                   	0	['a']


32473. meg                 	0	['meg']
32474. lehet               	0	['lehet']
32475. kérdezni            	3	['k', '##ér', '##dez', '##ni']
32476. hogy                	0	['hogy']
32477. kik                 	0	['ki', '##k']
32478. érdeklődnek         	2	['é', '##rde', '##kl', '##ő', '##dne', '##k']
32479. no                  	3	['no']
32480. de                  	0	['de']
32481. mi                  	0	['mi']
32482. leszek              	0	['lesz', '##ek']
32483. ha                  	0	['ha']
32484. útközben            	0	['út', '##közben']
32485. kiderül             	3	['ki', '##der', '##ül']
32486. mármint             	0	['már', '##mint']
32487. a                   	0	['a']
32488. szemináriumban      	3	['sz', '##emi', '##nár', '##ium', '##ban']
32489. hogy                	0	['hogy']
32490. jézus               	0	['j', '##é', '##zus']
32491. nem                 	0	['nem']
32492. a                   	0	['a']
32493. papság              	0	['pa', '##ps', '##ág']
32494. szent               	0

33255. o                   	0	['o']
33256. '                   	0	["'"]
33257. brien               	0	['br', '##ien']
33258. megértette          	3	['meg', '##érte', '##tte']
33259. hogy                	0	['hogy']
33260. erre                	0	['erre']
33261. céloz               	3	['c', '##él', '##oz']
33262. anélkül             	0	['an', '##él', '##k', '##ül']
33263. hogy                	0	['hogy']
33264. magyarázatra        	0	['magyar', '##ázat', '##ra']
33265. lett                	0	['lett']
33266. volna               	0	['volna']
33267. szüksége            	1	['sz', '##ük', '##sége']
33268. a                   	0	['a']
33269. hivatalbóli         	0	['hi', '##vata', '##lb', '##ól', '##i']
33270. törlési             	0	['t', '##ör', '##lési']
33271. eljárás             	0	['el', '##já', '##rás']
33272. szabályait          	0	['sz', '##ab', '##álya', '##it']
33273. a                   	0	['a']
33274. ctv                 	1	['c', '##t', '##v']
33275. 56                  	3	['56']
332

34022. elől                	0	['elő', '##l']
34023. eltitkolja          	0	['el', '##tit', '##kol', '##ja']
34024. jövedelmét          	1	['j', '##öv', '##ede', '##lm', '##ét']
34025. de                  	0	['de']
34026. a                   	0	['a']
34027. bíró                	0	['bí', '##ró']
34028. elhajlott           	3	['el', '##ha', '##jl', '##ott']
34029. és                  	0	['és']
34030. eltalálta           	0	['el', '##tal', '##álta']
34031. a                   	0	['a']
34032. kutyáját            	1	['ku', '##ty', '##áját']
34033. a                   	0	['a']
34034. frankfurti          	0	['fra', '##nk', '##furt', '##i']
34035. értéktőzsde         	0	['ért', '##ék', '##tő', '##zs', '##de']
34036. fő                  	0	['fő']
34037. mutatója            	3	['mutat', '##ója']
34038. a                   	0	['a']
34039. dax                 	3	['da', '##x']
34040. 30                  	0	['30']
34041. 25                  	3	['25']
34042. 75                  	0	['75']
34043. pontos

34832. kell                	0	['kell']
34833. összegyűlnie        	0	['össze', '##gy', '##ű', '##lnie']
34834. egy                 	0	['egy']
34835. ilyen               	0	['ilyen']
34836. jellegű             	0	['je', '##lle', '##gű']
34837. szolgáltatáshoz     	1	['sz', '##ol', '##g', '##álta', '##tás', '##hoz']
34838. mintegy             	0	['mintegy']
34839. 700                 	0	['700']
34840. _                   	0	['_']
34841. millió              	0	['millió']
34842. dollárral           	0	['do', '##ll', '##ár', '##ral']
34843. csökkent            	0	['c', '##sök', '##kent']
34844. márciusban          	0	['március', '##ban']
34845. a                   	0	['a']
34846. lengyel             	0	['lengyel']
34847. jegybank            	0	['jeg', '##yba', '##nk']
34848. devizatartaléka     	3	['de', '##vi', '##zata', '##rta', '##lé', '##ka']
34849. közölte             	0	['k', '##öz', '##ölte']
34850. a                   	0	['a']
34851. dow                 	0	['do', '##w']
34852. _    

35802. taxit               	1	['taxi', '##t']
35803. 1921                	3	['1921']
35804. a                   	0	['a']
35805. kanadai             	0	['kana', '##dai']
35806. frederick           	0	['fred', '##eri', '##ck']
35807. _                   	0	['_']
35808. banting             	3	['ban', '##ting']
35809. illetve             	0	['illetve']
35810. charles             	0	['char', '##les']
35811. _                   	0	['_']
35812. best                	0	['best']
35813. elsőként            	0	['első', '##ként']
35814. állítanak           	0	['áll', '##ít', '##anak']
35815. elő                 	0	['elő']
35816. klinikailag         	0	['kl', '##ini', '##kai', '##lag']
35817. hasznosítható       	0	['has', '##zno', '##sí', '##tha', '##tó']
35818. inzulint            	1	['in', '##zuli', '##nt']
35819. de                  	0	['de']
35820. akadnak             	0	['aka', '##dna', '##k']
35821. szuper              	0	['sz', '##upe', '##r']
35822. napok               	0	['nap', '##ok']
35

36562. és                  	0	['és']
36563. a                   	0	['a']
36564. talibán             	0	['tali', '##bán']
36565. közötti             	0	['közötti']
36566. feszültség          	0	['fe', '##sz', '##ült', '##ség']
36567. forrása             	0	['for', '##rás', '##a']
36568. a                   	0	['a']
36569. tálibok             	0	['tá', '##lib', '##ok']
36570. nőkkel              	0	['nő', '##kkel']
36571. való                	0	['való']
36572. bánásmódja          	3	['bán', '##ás', '##mó', '##dja']
36573. az                  	0	['az']
36574. afganisztáni        	0	['af', '##gani', '##szt', '##áni']
36575. ópiumtermelés       	0	['ó', '##pi', '##um', '##ter', '##mel', '##és']
36576. és                  	0	['és']
36577. a                   	0	['a']
36578. washington          	0	['was', '##hing', '##ton']
36579. által               	0	['által']
36580. terrorizmussal      	0	['terror', '##izmus', '##sal']
36581. vádolt              	0	['v', '##ád', '##olt']
36582. osszáma   

37337. milyen              	0	['mil', '##yen']
37338. formájú             	0	['form', '##á', '##jú']
37339. gazdasági           	0	['gazdasági']
37340. társasággá          	0	['tá', '##rsa', '##ság', '##g', '##á']
37341. alakuljon           	1	['ala', '##kul', '##jon']
37342. csörög              	0	['c', '##s', '##ör', '##ög']
37343. a                   	0	['a']
37344. telefon             	3	['telefon']
37345. de                  	0	['de']
37346. meg                 	0	['meg']
37347. sem                 	0	['sem']
37348. hallom              	3	['hall', '##om']
37349. még                 	0	['még']
37350. mindig              	0	['mindig']
37351. hatalmas            	0	['hatalmas']
37352. lelki               	0	['le', '##lki']
37353. zűrzavaromban       	0	['z', '##ű', '##rza', '##varo', '##mban']
37354. próbálom            	0	['pr', '##ób', '##ál', '##om']
37355. a                   	0	['a']
37356. helyes              	0	['hely', '##es']
37357. utat                	0	['ut', '##at']
3735

38185. (                   	0	['(']
38186. új                  	0	['új']
38187. )                   	0	[')']
38188. rendelkezésein      	0	['rende', '##lke', '##zése', '##in']
38189. túl                 	0	['túl']
38190. az                  	0	['az']
38191. 1996                	1	['1996']
38192. évi                 	0	['évi']
38193. cxi                 	1	['c', '##xi']
38194. törvény             	0	['t', '##örvény']
38195. előírásait          	0	['elő', '##ír', '##ása', '##it']
38196. is                  	0	['is']
38197. figyelembe          	0	['fi', '##gye', '##lem', '##be']
38198. kell                	0	['kell']
38199. venni               	1	['ven', '##ni']
38200. mi                  	0	['mi']
38201. hárman              	0	['há', '##rman']
38202. a                   	0	['a']
38203. leicester           	0	['lei', '##ces', '##ter']
38204. _                   	0	['_']
38205. térre               	0	['tér', '##re']
38206. mentünk             	0	['ment', '##ünk']
38207. pizzát             

39049. valószínűleg        	0	['valószínűleg']
39050. nem                 	0	['nem']
39051. tudom               	0	['tudo', '##m']
39052. neked               	0	['neke', '##d']
39053. megmagyarázni       	3	['meg', '##ma', '##gy', '##ar', '##áz', '##ni']
39054. erzsi               	3	['er', '##zs', '##i']
39055. az                  	0	['az']
39056. ilyesmit            	0	['il', '##yes', '##mit']
39057. éppúgy              	0	['é', '##pp', '##ú', '##gy']
39058. nem                 	0	['nem']
39059. lehet               	0	['lehet']
39060. megmagyarázni       	3	['meg', '##ma', '##gy', '##ar', '##áz', '##ni']
39061. mint                	0	['mint']
39062. ahogy               	0	['ahogy']
39063. a                   	0	['a']
39064. botfülűnek          	0	['bot', '##f', '##ül', '##ű', '##nek']
39065. hiába               	0	['hi', '##ába']
39066. magyarázod          	0	['magyar', '##áz', '##od']
39067. a                   	0	['a']
39068. zenét               	1	['zen', '##ét']
39069. csak      

39817. akiket              	0	['akik', '##et']
39818. nagyon              	0	['nagyon']
39819. nem                 	0	['nem']
39820. csípek              	0	['c', '##sí', '##pek']
39821. és                  	0	['és']
39822. ezt                 	0	['ezt']
39823. ők                  	0	['ő', '##k']
39824. is                  	0	['is']
39825. viszonozzák         	1	['vis', '##zono', '##zz', '##ák']
39826. kiegyensúlyozott    	0	['ki', '##eg', '##yen', '##s', '##úl', '##yo', '##zott']
39827. kereskedésről       	0	['ker', '##eske', '##dés', '##ről']
39828. számoltak           	0	['szám', '##olta', '##k']
39829. be                  	0	['be']
39830. a                   	0	['a']
39831. kereskedők          	0	['ker', '##eske', '##dő', '##k']
39832. a                   	0	['a']
39833. bankközi            	0	['bank', '##k', '##öz', '##i']
39834. deviza              	3	['de', '##vi', '##za']
39835. és                  	0	['és']
39836. forint              	0	['for', '##int']
39837. piacon          

40567. eszközzel           	0	['es', '##z', '##k', '##öz', '##zel']
40568. vagy                	0	['vagy']
40569. eljárással          	3	['el', '##já', '##rás', '##sal']
40570. tekintet            	0	['teki', '##ntet']
40571. nélkül              	0	['nélkül']
40572. arra                	3	['arra']
40573. hogy                	0	['hogy']
40574. a                   	0	['a']
40575. nagyközönség        	0	['nagy', '##k', '##öz', '##ön', '##ség']
40576. azon                	0	['azon']
40577. tagjai              	3	['tagjai']
40578. akiknek             	0	['akik', '##nek']
40579. erre                	0	['erre']
40580. lehetőségük         	0	['lehet', '##ős', '##ég', '##ük']
40581. van                 	3	['van']
40582. ugyanazon           	0	['ug', '##yana', '##zon']
40583. vagy                	0	['vagy']
40584. különböző           	0	['különböző']
40585. helyeken            	3	['hely', '##eken']
40586. illetve             	0	['illetve']
40587. ugyanazon           	0	['ug', '##yana', '##zon']


41404. szép                	0	['sz', '##ép']
41405. volt                	3	['volt']
41406. magas               	3	['magas']
41407. és                  	0	['és']
41408. minden              	0	['minden']
41409. ízében              	0	['í', '##zé', '##ben']
41410. elegáns             	3	['ele', '##g', '##áns']
41411. de                  	0	['de']
41412. egy                 	0	['egy']
41413. lángpallosú         	0	['lá', '##ng', '##pal', '##los', '##ú']
41414. angyal              	1	['ang', '##yal']
41415. örültünk            	3	['ö', '##rü', '##lt', '##ünk']
41416. hiszen              	0	['hiszen']
41417. az                  	0	['az']
41418. egész               	0	['egész']
41419. iskola              	0	['iskola']
41420. nekünk              	3	['nek', '##ünk']
41421. illetve             	0	['illetve']
41422. a                   	0	['a']
41423. fiúknak             	0	['fiú', '##kna', '##k']
41424. szurkolt            	1	['sz', '##ur', '##kol', '##t']
41425. az                  	0	['az']
41

42246. citigroup           	0	['cit', '##ig', '##rou', '##p']
42247. egyes               	0	['egyes']
42248. értesülések         	0	['érte', '##sü', '##lés', '##ek']
42249. szerint             	0	['szerint']
42250. eladja              	0	['ela', '##dja']
42251. a                   	0	['a']
42252. worldcom            	0	['world', '##com']
42253. _                   	0	['_']
42254. inc                 	1	['in', '##c']
42255. mexikói             	0	['me', '##xi', '##kói']
42256. telefonvállalatában 	0	['telefon', '##vá', '##lla', '##lat', '##ában']
42257. levő                	0	['le', '##vő']
42258. részesedését        	1	['része', '##sed', '##ését']
42259. a                   	0	['a']
42260. zenét               	0	['zen', '##ét']
42261. a                   	0	['a']
42262. beilleszthető       	3	['bei', '##lles', '##zt', '##hető']
42263. 32                  	0	['32']
42264. megabájtos          	0	['meg', '##ab', '##á', '##jt', '##os']
42265. multimediacardon    	0	['multimedia', '##card',

43024. összes              	0	['összes']
43025. betörés             	0	['bet', '##ör', '##és']
43026. [                   	0	['[']
43027. miatt               	0	['miatt']
43028. ]                   	1	[']']
43029. legfőbb             	0	['leg', '##f', '##őbb']
43030. ideje               	1	['ideje']
43031. a                   	0	['a']
43032. keddi               	0	['ke', '##ddi']
43033. korrekció           	0	['kor', '##rek', '##ció']
43034. után                	0	['után']
43035. ismét               	0	['ismét']
43036. erősödött           	0	['erős', '##öd', '##ött']
43037. szerdán             	0	['sz', '##erd', '##án']
43038. a                   	0	['a']
43039. moszkvai            	0	['mos', '##z', '##kva', '##i']
43040. tőzsde              	0	['t', '##ő', '##zs', '##de']
43041. rts                 	3	['r', '##ts']
43042. indexe              	3	['index', '##e']
43043. a                   	0	['a']
43044. mutató              	0	['mutat', '##ó']
43045. 0                   	3	['0']
43046.

43777. a                   	0	['a']
43778. jegyzési            	0	['jeg', '##y', '##zési']
43779. ív                  	0	['í', '##v']
43780. tartalmára          	0	['tar', '##tal', '##má', '##ra']
43781. vonatkozóan         	0	['von', '##at', '##kozó', '##an']
43782. is                  	0	['is']
43783. ad                  	0	['ad']
43784. útmutatatást        	0	['út', '##mut', '##ata', '##tás', '##t']
43785. a                   	0	['a']
43786. cg                  	1	['c', '##g']
43787. _                   	0	['_']
43788. törv                	1	['t', '##ör', '##v']
43789. ii                  	1	['ii']
43790. 32                  	1	['32']
43791. 968                 	0	['968']
43792. /                   	0	['/']
43793. 1991                	0	['1991']
43794. /                   	0	['/']
43795. 4                   	1	['4']
43796. számú               	0	['számú']
43797. határozat           	0	['hat', '##ár', '##oza', '##t']
43798. leszögezve          	3	['lesz', '##ög', '##ez', '##ve']
4379

44617. is                  	0	['is']
44618. csak                	0	['csak']
44619. feltétlen           	0	['felt', '##ét', '##len']
44620. lehet               	0	['lehet']
44621. és                  	0	['és']
44622. az                  	0	['az']
44623. esetleges           	0	['ese', '##tle', '##ges']
44624. feltételt           	0	['felt', '##ét', '##elt']
44625. nem                 	0	['nem']
44626. létezőnek           	0	['l', '##ét', '##ező', '##nek']
44627. kell                	0	['kell']
44628. tekinteni           	1	['teki', '##nten', '##i']
44629. persze              	0	['pers', '##ze']
44630. ezt                 	0	['ezt']
44631. csak                	0	['csak']
44632. azért               	0	['azért']
44633. sikerült            	0	['sikerült']
44634. elérnem             	3	['el', '##ér', '##nem']
44635. mert                	0	['mert']
44636. meg                 	0	['meg']
44637. kellett             	0	['kellett']
44638. állni               	0	['áll', '##ni']
44639. tankolni      

45421. azt                 	0	['azt']
45422. érhetik             	0	['é', '##r', '##het', '##ik']
45423. el                  	0	['el']
45424. vele                	3	['vele']
45425. hogy                	0	['hogy']
45426. programjuk          	0	['program', '##juk']
45427. 4                   	0	['4']
45428. gigabájt            	0	['gi', '##gab', '##á', '##jt']
45429. memóriánál          	0	['me', '##mó', '##rián', '##ál']
45430. többet              	0	['több', '##et']
45431. is                  	0	['is']
45432. elérhessen          	3	['el', '##ér', '##hessen']
45433. s                   	0	['s']
45434. ez                  	0	['ez']
45435. fontos              	0	['fontos']
45436. például             	0	['például']
45437. nagy                	0	['nagy']
45438. adatbázisok         	0	['adat', '##bá', '##zis', '##ok']
45439. esetén              	3	['esetén']
45440. mert                	0	['mert']
45441. azoknak             	3	['azok', '##nak']
45442. ha                  	0	['ha']
45443. a   

46177. eddigi              	0	['ed', '##dig', '##i']
46178. ismeretek           	0	['is', '##mere', '##tek']
46179. alapján             	0	['alapján']
46180. együttesen          	0	['együttes', '##en']
46181. csupán              	0	['csupán']
46182. 6                   	3	['6']
46183. 7                   	0	['7']
46184. ezer                	0	['ezer']
46185. részvényes          	0	['rész', '##vén', '##yes']
46186. és                  	0	['és']
46187. kötvényes           	0	['k', '##öt', '##vén', '##yes']
46188. tett                	0	['tett']
46189. így                 	0	['így']
46190. a                   	0	['a']
46191. körülbelül          	0	['körülbelül']
46192. 25                  	3	['25']
46193. 30                  	0	['30']
46194. ezerből             	3	['ezer', '##ből']
46195. a                   	0	['a']
46196. többiek             	0	['többi', '##ek']
46197. elsősorban          	0	['elsősorban']
46198. azért               	0	['azért']
46199. nem                 	3	['nem']
462

46981. az                  	0	['az']
46982. ország              	0	['ország']
46983. elindult            	0	['eli', '##ndu', '##lt']
46984. a                   	0	['a']
46985. nyugati             	0	['nyugati']
46986. modernizáció        	0	['moderni', '##zá', '##ció']
46987. felé                	1	['felé']
46988. te                  	0	['te']
46989. jó                  	0	['jó']
46990. isten               	1	['iste', '##n']
46991. [SEP]               	0	['[SEP]']
