# Tokenization

Tokenization is the process that identifies the text boundaries of words and sentences.
We can identify the boundaries of sentences first then tokenize each sentence to identify the words that compose the sentence.
Of course, we can do word tokenization first and then segment the token sequence into sentneces.
Tokenization in polyglot relies on the [Unicode Text Segmentation](http://www.unicode.org/reports/tr29/) algorithm as implemented by the [ICU Project](http://site.icu-project.org/).

You can use C/C++ ICU library by installing the required package `libicu-dev`. For example, on ubuntu/debian systems you should use `apt-get` utility as the following:

In [None]:
#sudo apt-get install libicu-dev

In [1]:
from polyglot.text import Text

## Word Tokenization

To call our word tokenizer, first we need to construct a Text object.

In [36]:
# blob = u"""
# 两个月前遭受恐怖袭击的法国巴黎的犹太超市在装修之后周日重新开放，法国内政部长以及超市的管理者都表示，这显示了生命力要比野蛮行为更强大。
# 该超市1月9日遭受枪手袭击，导致4人死亡，据悉这起事件与法国《查理周刊》杂志社恐怖袭击案有关。
# """
#blob = """"RT @wokeup777: 'Nacktschneckengame': अखिलेश यादव के 5 वर्ष का कार्य देखे* Eine der Aufgaben: ht. Unsere Steuern The reason of my great news is ermöglichen diesen kranken Bullshit. https://t.co/SYPtpWebRw"	HOF	PRFN"""
#blob = u"""*अखिलेश यादव के 5 वर्ष का कार्य देखे* #बडी मेहनत से खोज के लिखा गया है  आग की तरह फैलादो...  मेरठ में 70 हजार करोड़ में हज हॉउस बनवाया, जो विश्व का सबसे बड़ा हज हाउस है. अलीघड में 4 मस्जिदे बनवायी, मुजफ्फरनगर में 2 मस्जिदे बनवाय्या, सुल्तान पुर में 1 आलीशान मस्जिद बनाया, लखनऊ में 7 मस्जिद बनवाय्या... 2017 में जीतेंगे तो यूपी के सभी जिलों में बनवाएंगे मदरसे मस्जिद और मौलानाओ को देंगे 25 हजार महीना. हिन्दुओ के लिए एक भी मंदिर नही बनवाय्या. ऊपर से मंदिर तुड़वाया. मेरठ में काली माता के मंदिर में घण्टा बजाना बन्द. शहरी में कई मन्दिरो को तुड़वाया. अपने साशन में 500 से अधिक मन्दिरो को तुड़वाया. इतना तो औरंगजेब भी नही किया होगा जितना ये सूअर की औलाद अखिलेसुद्दीन ने किया. 20 रामभक्तो पर गोली चलवाकर मरवाया. मुजफ्फरनगर दंगे में 2013 में 64 हिन्दुओ को गोली से मरवायl.अलीगढ़ दंगे में 73 हिन्दुओ को मरवाया. अदि आदि अत्यचार किया...अब इसे शेयर भी करो ताकि हर हिन्दू समाज जागे और जाने के ये 21 सदी का ओरंगजेब है... *उत्तर प्रदेश के बाकी जिलो की सूचि जहाँ मंदिर तुड़वाई गयी...* मेरठ : 7 मंदिर तुड़वाया बनारस : 14 मंदिर तुड़वाया गाजीपुर : 9 मंदिर तुड़वाया बलिया : 3 मंदिर तुड़वाया उन्नाव : 4 मंदिर तुड़वाया श्रावस्ती : 6 मंदिर तुड़वाया संत रविदास नगर : 4 मंदिर तुड़वाया सुलतानपुर : 34 मंदिर तुड़वाया सोनभद्र : 5 मंदिर तुड़वाया सिद्धार्थनगर : 9 मंदिर तुड़वाया संभल : 6 मंदिर तुड़वाया शामली : 4 मंदिर तुड़वाया शाहजहांपुर : 6 मंदिर तुड़वाया सीतापुर : 11 मंदिर तुड़वाया सहारनपुर : 15 मंदिर तुड़वाया राए बरेली : 4 मंदिर तुड़वाया रामपुर : 13 मंदिर तुड़वाया प्रतापगढ़ :10 मंदिर तुड़वाया पीलीभीत : 13 मंदिर तुड़वाया मुज़फ्फरनगर : 40 मंदिर तुड़वाया मथुरा : 25 मंदिर तुड़वाया मैनपुरी : 13 मंदिर तुड़वाया मोरादाबाद : 25 मंदिर तुड़वाया मिर्ज़ापुर : 9 मंदिर तुड़वाया महोबा : 20 मंदिर तुड़वाया महाराजगंज : 20 मंदिर तुड़वाय लखीमपुर खेरी : 15 मंदिर तुड़वाया ललितपुर : 7 मंदिर तुड़वाया घज़ाबाद : 5 मंदिर तुड़वाया गोर्काखपुर : 5 मंदिर तुड़वाया पडरौना : 30 मंदिर तुड़वाया मंझनपुर : 30 मंदिर तुड़वाया कासगंज : 30 मंदिर तुड़वाया कानपूर : 29 मंदिर तुड़वाया कन्नौज : 20 मंदिर तुड़वाया अकबरपुर : 10 मंदिर तुड़वाया जौनपुर : 60 मंदिर तुड़वाया अमरोहा : 30 मंदिर तुड़वाया झाँसी : 30 मंदिर तुड़वाया हाथरस : 23 मंदिर तुड़वाया हरदोई : 33 मंदिर तुड़वाया हमीरपुर : 8 मंदिर तुड़वाया हापुर : 45 मंदिर तुड़वाया घज़ाबाद : 45 मंदिर तुड़वाया गोर्काखपुर : 34 मंदिर तुड़वाया घज़िपुर : 23 मंदिर तुड़वाया गोंडा : 50 मंदिर तुड़वाया नोइडा : 20 मंदिर तुड़वाया फैजाबाद : 30 मंदिर तुड़वाया फतेहपुर : 20 मंदिर तुड़वाया फर्रुखाबाद : 20 मंदिर तुड़वाया फिरोजाबाद : 40 मंदिर तुड़वाया इतावाह : 15 मंदिर तुड़वाया एत : 5 मंदिर तुड़वाया डोरिया : 30 मंदिर तुड़वाया चित्रकूट : 10 मंदिर तुड़वाया चंदौली : 20 मंदिर तुड़वाया बुलंदशहर : 17 मंदिर तुड़वाया बस्ती : 7 मंदिर तुड़वाया बरेइल्ली : 3 मंदिर तुड़वाया बलरामपुर : 13 मंदिर तुड़वाया बाँदा : 12 मंदिर तुड़वाया बल्लिया : 13 मंदिर तुड़वाया बिजनोर : 10 मंदिर तुड़वाया बहरैच : 3 मंदिर तुड़वाया बडों : 3 मंदिर तुड़वाया बाराबंकी : 12 मंदिर तुड़वाया आजमगढ़ : 30 मंदिर तुड़वाया औरैया : 23 मंदिर तुड़वाया आगरा : 15 मंदिर तुड़वाया अकबरपुर : 34 मंदिर तुड़वाया अलीगढ : 4 मंदिर तुड़वाया अलाहाबाद : 22 मंदिर तुड़वाया *500 से अधिक मंदिर तोड़ा गया...*  है हिम्मत शेयर करने की ??"""
blob = """*अखिलेश यादव के :,5 वर्ष LLL कार्य देखे* #बडी मेहनत The result of multiple"""
text = Text(blob)

The property words will call the word tokenizer.

In [38]:
list(text.words)

['*',
 'अखिलेश',
 'यादव',
 'के',
 ':',
 ',',
 '5',
 'वर्ष',
 'LLL',
 'कार्य',
 'देखे',
 '*',
 '#',
 'बडी',
 'मेहनत',
 'The',
 'result',
 'of',
 'multiple']

Since ICU boundary break algorithms are language aware, polyglot will detect the language used first before calling the tokenizer

In [27]:
print(text.language)

name: Hindi       code: hi       confidence:  82.0 read bytes:   547


## Sentence Segmentation

If we are interested in segmenting the text first into sentences, we can query the `sentences` property

In [5]:
text.sentences

[Sentence("两个月前遭受恐怖袭击的法国巴黎的犹太超市在装修之后周日重新开放，法国内政部长以及超市的管理者都表示，这显示了生命力要比野蛮行为更强大。"),
 Sentence("该超市1月9日遭受枪手袭击，导致4人死亡，据悉这起事件与法国《查理周刊》杂志社恐怖袭击案有关。")]

`Sentence` class inherits `Text`, therefore, we can tokenize each sentence into words using the same property `words`

In [6]:
first_sentence = text.sentences[0]
first_sentence.words

WordList(['两', '个', '月', '前', '遭受', '恐怖', '袭击', '的', '法国', '巴黎', '的', '犹太', '超市', '在', '装修', '之后', '周日', '重新', '开放', '，', '法国', '内政', '部长', '以及', '超市', '的', '管理者', '都', '表示', '，', '这', '显示', '了', '生命力', '要', '比', '野蛮', '行为', '更', '强大', '。'])

## Command Line

The subcommand tokenize does by default sentence segmentation and word tokenization.

In [7]:
! polyglot tokenize --help

usage: polyglot tokenize [-h] [--only-sent | --only-word]
                         [--input [INPUT [INPUT ...]]]

optional arguments:
  -h, --help            show this help message and exit
  --only-sent           Segment sentences without word tokenization
  --only-word           Tokenize words without sentence segmentation
  --input [INPUT [INPUT ...]]


Each line represents a sentence where the words are split by spaces.

In [25]:
!polyglot --lang en tokenize --input testdata/cricket.txt

Australia posted a World Cup record total of 417 - 6 as they beat Afghanistan by 275 runs .
David Warner hit 178 off 133 balls , Steve Smith scored 95 while Glenn Maxwell struck 88 in 39 deliveries in the Pool A encounter in Perth .
Afghanistan were then dismissed for 142 , with Mitchell Johnson and Mitchell Starc taking six wickets between them .
Australia's score surpassed the 413 - 5 India made against Bermuda in 2007 .
It continues the pattern of bat dominating ball in this tournament as the third 400 plus score achieved in the pool stages , following South Africa's 408 - 5 and 411 - 4 against West Indies and Ireland respectively .
The winning margin beats the 257 - run amount by which India beat Bermuda in Port of Spain in 2007 , which was equalled five days ago by South Africa in their victory over West Indies in Sydney .


### References

- [Unicode Text Segmentation Algorithm](http://www.unicode.org/reports/tr29/)
- [Unicode Line Breaking Algorithm](http://www.unicode.org/reports/tr14/)
- [Boundary Analysis](http://userguide.icu-project.org/boundaryanalysis)
- [ICU Homepage](http://site.icu-project.org/)
- [Python Wrapper for libicu](https://pypi.python.org/pypi/PyICU)