### Introduction to NLTK library

In [5]:
# !pip install nltk
import nltk
# Download corpus in Spanish
nltk.download('cess_esp')
import re

[nltk_data] Downloading package cess_esp to /home/fxr/nltk_data...
[nltk_data]   Package cess_esp is already up-to-date!


In [4]:
# Create an object with the corpus  
corpus = nltk.corpus.cess_esp.sents()
print(corpus)
print(len( corpus))

[['El', 'grupo', 'estatal', 'Electricité_de_France', '-Fpa-', 'EDF', '-Fpt-', 'anunció', 'hoy', ',', 'jueves', ',', 'la', 'compra', 'del', '51_por_ciento', 'de', 'la', 'empresa', 'mexicana', 'Electricidad_Águila_de_Altamira', '-Fpa-', 'EAA', '-Fpt-', ',', 'creada', 'por', 'el', 'japonés', 'Mitsubishi_Corporation', 'para', 'poner_en_marcha', 'una', 'central', 'de', 'gas', 'de', '495', 'megavatios', '.'], ['Una', 'portavoz', 'de', 'EDF', 'explicó', 'a', 'EFE', 'que', 'el', 'proyecto', 'para', 'la', 'construcción', 'de', 'Altamira_2', ',', 'al', 'norte', 'de', 'Tampico', ',', 'prevé', 'la', 'utilización', 'de', 'gas', 'natural', 'como', 'combustible', 'principal', 'en', 'una', 'central', 'de', 'ciclo', 'combinado', 'que', 'debe', 'empezar', 'a', 'funcionar', 'en', 'mayo_del_2002', '.'], ...]
6030


In [5]:
# Double iteration for words in lists
flatten = [w for l in corpus for w in l]
print(flatten[:20])
print(len(flatten))

['El', 'grupo', 'estatal', 'Electricité_de_France', '-Fpa-', 'EDF', '-Fpt-', 'anunció', 'hoy', ',', 'jueves', ',', 'la', 'compra', 'del', '51_por_ciento', 'de', 'la', 'empresa', 'mexicana']
192686


### Regular Expressions:
Function `re.search()`

In [8]:
# Match 'es' sequence
arr = [w for w in flatten if re.search('es', w)]
print(arr[:5])
len(arr)

['estatal', 'jueves', 'empresa', 'centrales', 'francesa']


14814

In [9]:
# Match 'es' sequence at the end
arr = [w for w in flatten if re.search('es$', w)]
print(arr[:5])
len(arr)

['jueves', 'centrales', 'millones', 'millones', 'dólares']


6995

In [11]:
# Match 'es' sequence at the beginning
arr = [w for w in flatten if re.search('^es', w)]
print(arr[:5])
len(arr)

['estatal', 'es', 'esta', 'esta', 'eso']


3900

### Ranges match from a list of sequential characters by using the dash to indicate a character range into bracket notation
- [a-z]
- [A-Z]
- [0-9]

In [20]:
# Range [ghi]
arr = [w for w in flatten if re.search('^[ghi]', w)]
print(arr[:10])
len(arr)

['grupo', 'hoy', 'gas', 'gas', 'intervendrá', 'invertir', 'gas', 'hoy', 'insulto', 'intervención']


8468

### Closures match the pattern they follow zero or more times:
- `*` repeat 0 or more times
- `+` repeat 1 or more times

In [19]:
# Repeat 0 or more times
arr = [w for w in flatten if re.search('^(no)*', w)]
print(arr[:10])
len(arr)

# Repeat 1 or more times
arr = [w for w in flatten if re.search('^(no)+', w)]
print(arr[:10])
len(arr)

['El', 'grupo', 'estatal', 'Electricité_de_France', '-Fpa-', 'EDF', '-Fpt-', 'anunció', 'hoy', ',']
['norte', 'no', 'no', 'noche', 'no', 'no', 'notificación', 'no', 'no', 'no']


1767

### *Tokenization* is a way of separating a piece of text into smaller units called tokens

In [2]:
print('Esta es \n una prueba')
# Raw text
print(r'Esta es \n una prueba')

Esta es 
 una prueba
Esta es \n una prueba


In [3]:
texto = """ Cuando sea el rey del mundo  (imaginaba él en su cabeza) no tendré que  preocuparme por estas bobadas. 
            Era solo un niño de 7 años, pero pensaba que podría ser cualquier cosa que su imaginación le permitiera visualizar en su cabeza ..."""
print(texto)

 Cuando sea el rey del mundo  (imaginaba él en su cabeza) no tendré que  preocuparme por estas bobadas. 
            Era solo un niño de 7 años, pero pensaba que podría ser cualquier cosa que su imaginación le permitiera visualizar en su cabeza ...


In [6]:
# Tokenize with whitespaces
print(re.split(r' ', texto))

['', 'Cuando', 'sea', 'el', 'rey', 'del', 'mundo', '', '(imaginaba', 'él', 'en', 'su', 'cabeza)', 'no', 'tendré', 'que', '', 'preocuparme', 'por', 'estas', 'bobadas.', '\n', '', '', '', '', '', '', '', '', '', '', '', 'Era', 'solo', 'un', 'niño', 'de', '7', 'años,', 'pero', 'pensaba', 'que', 'podría', 'ser', 'cualquier', 'cosa', 'que', 'su', 'imaginación', 'le', 'permitiera', 'visualizar', 'en', 'su', 'cabeza', '...']


In [8]:
# Tokenize with regex
print(re.split(r'[ \t\n]+', texto))

['', 'Cuando', 'sea', 'el', 'rey', 'del', 'mundo', '(imaginaba', 'él', 'en', 'su', 'cabeza)', 'no', 'tendré', 'que', 'preocuparme', 'por', 'estas', 'bobadas.', 'Era', 'solo', 'un', 'niño', 'de', '7', 'años,', 'pero', 'pensaba', 'que', 'podría', 'ser', 'cualquier', 'cosa', 'que', 'su', 'imaginación', 'le', 'permitiera', 'visualizar', 'en', 'su', 'cabeza', '...']


In [9]:
# Tokenize with more complex regex
print(re.split(r'[ \W\t\n]+', texto))

['', 'Cuando', 'sea', 'el', 'rey', 'del', 'mundo', 'imaginaba', 'él', 'en', 'su', 'cabeza', 'no', 'tendré', 'que', 'preocuparme', 'por', 'estas', 'bobadas', 'Era', 'solo', 'un', 'niño', 'de', '7', 'años', 'pero', 'pensaba', 'que', 'podría', 'ser', 'cualquier', 'cosa', 'que', 'su', 'imaginación', 'le', 'permitiera', 'visualizar', 'en', 'su', 'cabeza', '']


In [11]:
# The previous tokenizer doesn't work with this example
texto = 'En los E.U. esa postal vale $15.50 ...'
print(re.split(r'[ \W\t\n]+', texto))

['En', 'los', 'E', 'U', 'esa', 'postal', 'vale', '15', '50', '']


### Tokenization with regular expressions

In [12]:
# Build a new tokenizer with regex patterns
pattern = r'''(?x)                 # set flag to allow verbose regexps
              (?:[A-Z]\.)+         # abbreviations, e.g. U.S.A.
              | \w+(?:-\w+)*       # words with optional internal hyphens
              | \$?\d+(?:\.\d+)?%? # currency and percentages, e.g. $12.40, 82%
              | \.\.\.             # ellipsis
              | [][.,;"'?():-_`]   # these are separate tokens; includes ], [
'''
nltk.regexp_tokenize(texto, pattern)

['En', 'los', 'E.U.', 'esa', 'postal', 'vale', '$15.50', '...']

### *Lemmatization* is a method responsible for grouping different inflected forms of words into the root form

In [20]:
from nltk.stem.snowball import SnowballStemmer
SnowballStemmer.languages

('arabic',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'hungarian',
 'italian',
 'norwegian',
 'porter',
 'portuguese',
 'romanian',
 'russian',
 'spanish',
 'swedish')

In [14]:
stem = SnowballStemmer('spanish')
stem.stem('trabajando')

'trabaj'

In [22]:
# Lemmatization
from nltk.stem import WordNetLemmatizer
lemm = WordNetLemmatizer()
nltk.download('omw-1.4')

[nltk_data] Downloading package omw-1.4 to /home/fxr/nltk_data...
[nltk_data]   Unzipping corpora/omw-1.4.zip.


True

In [23]:
lemm.lemmatize('trabajando')

'trabajando'