# Text normalization
## **Tokenization**

Given a character sequence and a defined document unit, tokenization is the task of chopping it up into pieces, called tokens, perhaps at the same time throwing away certain characters, such as punctuation.

> Source: https://nlp.stanford.edu/IR-book/html/htmledition/tokenization-1.html

In [1]:
print('This is a \n test')
print(r'This is a \n test') # raw text

This is a 
 test
This is a \n test


In [23]:
text = """  Cuando sea el rey del mundo (imaginaba él en su cabeza) no tendré que  preocuparme por estas bobadas. 
            Era solo un niño de 7 años, pero pensaba que podría ser cualquier cosa que su imaginación le permitiera 
            visualizar en su cabeza ... """ 

In [30]:
# Case 1: tokenize by empty spaces
print(re.split(r' ', text))

['', '', 'Cuando', 'sea', 'el', 'rey', 'del', 'mundo', '(imaginaba', 'él', 'en', 'su', 'cabeza)', 'no', 'tendré', 'que', '', 'preocuparme', 'por', 'estas', 'bobadas.', '\n', '', '', '', '', '', '', '', '', '', '', '', 'Era', 'solo', 'un', 'niño', 'de', '7', 'años,', 'pero', 'pensaba', 'que', 'podría', 'ser', 'cualquier', 'cosa', 'que', 'su', 'imaginación', 'le', 'permitiera', '\n', '', '', '', '', '', '', '', '', '', '', '', 'visualizar', 'en', 'su', 'cabeza', '...', '']


In [31]:
# Case 2: tokenize by using regular expressions (regex)
print(re.split(r'[ \t\n]+', text)) # instead of using this range, we can use the metacharacter \s, as follows
print(re.split(r'[\s]+', text))

['', 'Cuando', 'sea', 'el', 'rey', 'del', 'mundo', '(imaginaba', 'él', 'en', 'su', 'cabeza)', 'no', 'tendré', 'que', 'preocuparme', 'por', 'estas', 'bobadas.', 'Era', 'solo', 'un', 'niño', 'de', '7', 'años,', 'pero', 'pensaba', 'que', 'podría', 'ser', 'cualquier', 'cosa', 'que', 'su', 'imaginación', 'le', 'permitiera', 'visualizar', 'en', 'su', 'cabeza', '...', '']
['', 'Cuando', 'sea', 'el', 'rey', 'del', 'mundo', '(imaginaba', 'él', 'en', 'su', 'cabeza)', 'no', 'tendré', 'que', 'preocuparme', 'por', 'estas', 'bobadas.', 'Era', 'solo', 'un', 'niño', 'de', '7', 'años,', 'pero', 'pensaba', 'que', 'podría', 'ser', 'cualquier', 'cosa', 'que', 'su', 'imaginación', 'le', 'permitiera', 'visualizar', 'en', 'su', 'cabeza', '...', '']


In [32]:
# Case 3: we add the metacharacter \W, which matches with anything that is not a word (e.g. parentheses)
print(re.split(r'[ \W\t\n]+', text))

['', 'Cuando', 'sea', 'el', 'rey', 'del', 'mundo', 'imaginaba', 'él', 'en', 'su', 'cabeza', 'no', 'tendré', 'que', 'preocuparme', 'por', 'estas', 'bobadas', 'Era', 'solo', 'un', 'niño', 'de', '7', 'años', 'pero', 'pensaba', 'que', 'podría', 'ser', 'cualquier', 'cosa', 'que', 'su', 'imaginación', 'le', 'permitiera', 'visualizar', 'en', 'su', 'cabeza', '']


In [33]:
import nltk

text = 'In the U.S.A. this postcard costs $15.50 USD ...'

# a more sophisticated regex
pattern = r'''(?x)                  # set flag to allow verbose regexps
              (?:[A-Z]\.)+          # abbreviations, e.g. U.S.A.
              | \w+(?:-\w+)*        # words with optional internal hyphens
              | \$?\d+(?:\.\d+)?%?  # currency and percentages, e.g. $15.50, 82%
              | \.\.\.              # ellipsis
              | [][.,;"'?():-_`]    # these are separate tokens; includes ], [
          '''
nltk.regexp_tokenize(text, pattern)

['In', 'the', 'U.S.A.', 'this', 'postcard', 'costs', '$15.50', 'USD', '...']