# Word tokenization
## Tokenize words without tokenization hints

In [1]:
from estnltk import Text
t = '''Aadressilt bla@bla.ee tuli 10 000 kirja aadressile foo@foo.ee 10 tunni jooksul. \
A. H. Tammsaare: 1,0 m / s = 3, 67 km/h.'''
t

'Aadressilt bla@bla.ee tuli 10 000 kirja aadressile foo@foo.ee 10 tunni jooksul. A. H. Tammsaare: 1,0 m / s = 3, 67 km/h.'

In [2]:
text = Text(t)
text.tag_layer(['words'])
text.words.text

['Aadressilt',
 'bla',
 '@',
 'bla.ee',
 'tuli',
 '10',
 '000',
 'kirja',
 'aadressile',
 'foo',
 '@',
 'foo.ee',
 '10',
 'tunni',
 'jooksul',
 '.',
 'A.',
 'H.',
 'Tammsaare',
 ':',
 '1,0',
 'm',
 '/',
 's',
 '=',
 '3',
 ',',
 '67',
 'km',
 '/',
 'h',
 '.']

## Tokenize words with tokenization hints
### Create tokenization hints layer

In [3]:
from estnltk.taggers import TokenizationHintsTagger

tokenization_hints_tagger = TokenizationHintsTagger()

text = Text(t)
tokenization_hints_tagger.tag(text)
text.tokenization_hints

SL[Span(bla@bla.ee, {'priority': 2, 'normalized': None}),
Span(10 000 , {'priority': 1, 'normalized': '10000'}),
Span(foo@foo.ee, {'priority': 2, 'normalized': None}),
Span(10 , {'priority': 1, 'normalized': '10'}),
Span(A. H. Tammsaare, {'priority': 3, 'normalized': 'A.H. Tammsaare'}),
Span( H. Tammsaare, {'priority': 4, 'normalized': 'H. Tammsaare'}),
Span(1,0 , {'priority': 1, 'normalized': '1,0'}),
Span(m / s, {'priority': 0, 'normalized': 'm/s'}),
Span(3, 67 , {'priority': 1, 'normalized': '3,67'}),
Span(km/h, {'priority': 0, 'normalized': 'km/h'})]

## Tokenize words
Word tokenizer uses tokenizaton hints layer if it is present.

In [4]:
text.tag_layer(['words'])
text.words.text

['Aadressilt',
 'bla@bla.ee',
 'tuli',
 '10 000 ',
 'kirja',
 'aadressile',
 'foo@foo.ee',
 '10 ',
 'tunni',
 'jooksul',
 '.',
 'A. H. Tammsaare',
 ' H. Tammsaare',
 ':',
 '1,0 ',
 'm / s',
 '=',
 '3, 67 ',
 'km/h',
 '.']