In [36]:
from pathlib import Path
from src.tokenizer import MyTokenizer

In [37]:
def my_text_iterator(data_path: str):
    for arquivo_txt in Path(data_path).glob('**/*.txt'):
        yield arquivo_txt.read_text(encoding='utf8')

In [38]:
tokenizer = MyTokenizer(tokenizer_path='src/tokenizer', vocab_size=10)

In [39]:
tokenizer.train(text_iterator=my_text_iterator("data_tokenizer"))

[('Let', (0, 3)), ("'s", (3, 5)), ('Ġtest', (5, 10)), ('Ġpre', (10, 14)), ('-', (14, 15)), ('tokenization', (15, 27)), ('!', (27, 28))]


In [40]:
texto_exemplo = "I couldn't even create my own business, how awesome!"
texto_tokenizado = tokenizer.tokenize_text(texto_exemplo)
texto_destokenizado = tokenizer.untokenize_tokens(texto_tokenizado)
print(f'texto original: {texto_exemplo}\ntexto tokenizado: {texto_tokenizado}\ntexto destokenizado: {texto_destokenizado}')

texto original: I couldn't even create my own business, how awesome!
texto tokenizado: [39, 14, 24, 30, 21, 15, 23, 29, 39, 16, 31, 16, 23, 39, 14, 27, 16, 13, 29, 16, 39, 22, 39, 24, 23, 39, 30, 28, 19, 23, 16, 28, 28, 39, 24, 39, 13, 16, 28, 24, 22, 16, 8]
texto destokenizado:  couldnt even create m on usiness o aesome!


In [41]:
texto_exemplo = "ola mundo!"
texto_tokenizado = tokenizer.tokenize_text(texto_exemplo)
texto_destokenizado = tokenizer.untokenize_tokens(texto_tokenizado)
print(f'texto original: {texto_exemplo}\ntexto tokenizado: {texto_tokenizado}\ntexto destokenizado: {texto_destokenizado}')

texto original: ola mundo!
texto tokenizado: [24, 21, 13, 39, 22, 30, 23, 15, 24, 8]
texto destokenizado: ola mundo!


In [42]:
texto = 'Olá eu sou o Luiz Egito!'

In [43]:
texto_tokenizado = tokenizer.tokenize_text(texto)
texto_tokenizado

[12,
 21,
 37,
 34,
 39,
 16,
 30,
 39,
 28,
 24,
 30,
 39,
 24,
 39,
 11,
 30,
 19,
 33,
 39,
 10,
 18,
 19,
 29,
 24,
 8]

In [44]:
tokenizer.untokenize_tokens(texto_tokenizado)

'Olá eu sou o Luiz Egito!'

In [49]:
tokenizer.untokenize_tokens([10])

'E'

In [47]:
texto_exemplo = "hello world. Como coloar UNK e SEP?"
texto_tokenizado = tokenizer.tokenize_text(texto_exemplo)
for i in texto_tokenizado:
    print(f'{i} -> {tokenizer.untokenize_tokens(i)}')

16 -> e
21 -> l
21 -> l
24 -> o
39 ->  
24 -> o
27 -> r
21 -> l
15 -> d
39 ->  
24 -> o
22 -> m
24 -> o
39 ->  
14 -> c
24 -> o
21 -> l
24 -> o
13 -> a
27 -> r
39 ->  
39 ->  
16 -> e
39 ->  
10 -> E


In [48]:
texto_destokenizado = tokenizer.untokenize_tokens(texto_tokenizado)
print(f'texto original: {texto_exemplo}\ntexto tokenizado: {texto_tokenizado}\ntexto destokenizado: {texto_destokenizado}')

texto original: hello world. Como coloar UNK e SEP?
texto tokenizado: [16, 21, 21, 24, 39, 24, 27, 21, 15, 39, 24, 22, 24, 39, 14, 24, 21, 24, 13, 27, 39, 39, 16, 39, 10]
texto destokenizado: ello orld omo coloar  e E
