More complex content using regex for text normalization.

In [1]:
# Core imports
import nltk
import re

**Tokenization**

The process of sub dividing text into smaller linguistic units called tokens. Words, numbers, punctuation marks, and others can be tokens.

In [6]:
# The corpus from NLTK are already tokenized, so we are going to use a sample text instead
raw_text = """ Cuando sea el rey del mundo  (imaginaba él en su cabeza) no tendré que  preocuparme por estas bobadas. 
            Era solo un niño de 7 años, pero pensaba que podría ser cualquier cosa que su imaginación le permitiera
            visualizar en su cabeza ..."""

In [7]:
# Case 1: Tokenize only using blank spaces
print(re.split(r' ', raw_text))

['', 'Cuando', 'sea', 'el', 'rey', 'del', 'mundo', '', '(imaginaba', 'él', 'en', 'su', 'cabeza)', 'no', 'tendré', 'que', '', 'preocuparme', 'por', 'estas', 'bobadas.', '\n', '', '', '', '', '', '', '', '', '', '', '', 'Era', 'solo', 'un', 'niño', 'de', '7', 'años,', 'pero', 'pensaba', 'que', 'podría', 'ser', 'cualquier', 'cosa', 'que', 'su', 'imaginación', 'le', 'permitiera\n', '', '', '', '', '', '', '', '', '', '', '', 'visualizar', 'en', 'su', 'cabeza', '...']


In [8]:
# Case 2: Tokenize using regular expressions
print(re.split(r'[ \t\n]+', raw_text))

['', 'Cuando', 'sea', 'el', 'rey', 'del', 'mundo', '(imaginaba', 'él', 'en', 'su', 'cabeza)', 'no', 'tendré', 'que', 'preocuparme', 'por', 'estas', 'bobadas.', 'Era', 'solo', 'un', 'niño', 'de', '7', 'años,', 'pero', 'pensaba', 'que', 'podría', 'ser', 'cualquier', 'cosa', 'que', 'su', 'imaginación', 'le', 'permitiera', 'visualizar', 'en', 'su', 'cabeza', '...']


In [9]:
print(re.split(r'[ \W\t\n]+', raw_text))

['', 'Cuando', 'sea', 'el', 'rey', 'del', 'mundo', 'imaginaba', 'él', 'en', 'su', 'cabeza', 'no', 'tendré', 'que', 'preocuparme', 'por', 'estas', 'bobadas', 'Era', 'solo', 'un', 'niño', 'de', '7', 'años', 'pero', 'pensaba', 'que', 'podría', 'ser', 'cualquier', 'cosa', 'que', 'su', 'imaginación', 'le', 'permitiera', 'visualizar', 'en', 'su', 'cabeza', '']


Tokenize using NLTK for more complex regex patterns.

In [10]:
sample_text = 'En los E.U. esa postal vale $15.50 ...'

In [11]:
# Just using the split method
print(re.split(r'[ \W\t\n]+', sample_text))

['En', 'los', 'E', 'U', 'esa', 'postal', 'vale', '15', '50', '']


We are missing some units like money and abbreviations.

In [12]:
complex_regex_pattern = r'''(?x)                    # Flag to allow comments and whitespace in the regex
                            (?:[A-Z]\.)+            # Matches one or more occurrences of an uppercase letter followed by a period
                            | \w+(?:-\w+)*          # Matches words that may have a hyphen
                            | \$?\d+(?:\.\d+)?%?    # Matches dollar amounts and percentages
                            | \.\.\.                # Matches an ellipsis
                            | [][.,;"'?():-_`]      # Matches punctuation
'''

In [16]:
nltk.regexp_tokenize(sample_text, complex_regex_pattern)

['En', 'los', 'E.U.', 'esa', 'postal', 'vale', '$15.50', '...']