# Work Environment Set-Up

### NLTK

---
*   select download [d], then download the resource name "book"
*   Import library



In [2]:
# !pip install nltk==3.8.1

In [3]:
# Natural Language Processing Library
import nltk
# Retrieving Text Dataset 
nltk.download('cess_esp')

[nltk_data] Downloading package cess_esp to /root/nltk_data...
[nltk_data]   Package cess_esp is already up-to-date!


True

### Regular expressions

---
*   They are a standardized language for defining text search strings.
*   Python regular expression operations library [re](https://docs.python.org/3/library/re.html)
*   Rules for writing regular expressions [Wiki](https://es.wikipedia.org/wiki/Regular_Expression)

In [4]:
# spanish Corpus: https://mailman.uib.no/public/corpora/2007-October/005448.html

# RE Library
import re
# Setting corpus
corpus = nltk.corpus.cess_esp.sents() 
# Getting Output
print(corpus)
print(len(corpus))

[['El', 'grupo', 'estatal', 'Electricité_de_France', '-Fpa-', 'EDF', '-Fpt-', 'anunció', 'hoy', ',', 'jueves', ',', 'la', 'compra', 'del', '51_por_ciento', 'de', 'la', 'empresa', 'mexicana', 'Electricidad_Águila_de_Altamira', '-Fpa-', 'EAA', '-Fpt-', ',', 'creada', 'por', 'el', 'japonés', 'Mitsubishi_Corporation', 'para', 'poner_en_marcha', 'una', 'central', 'de', 'gas', 'de', '495', 'megavatios', '.'], ['Una', 'portavoz', 'de', 'EDF', 'explicó', 'a', 'EFE', 'que', 'el', 'proyecto', 'para', 'la', 'construcción', 'de', 'Altamira_2', ',', 'al', 'norte', 'de', 'Tampico', ',', 'prevé', 'la', 'utilización', 'de', 'gas', 'natural', 'como', 'combustible', 'principal', 'en', 'una', 'central', 'de', 'ciclo', 'combinado', 'que', 'debe', 'empezar', 'a', 'funcionar', 'en', 'mayo_del_2002', '.'], ...]
6030


In [5]:
# Flatten Procedure
flatten = [w for l in corpus for w in l]
# Getting Flatten Outputs
print(flatten[:20])
print(len(flatten))

['El', 'grupo', 'estatal', 'Electricité_de_France', '-Fpa-', 'EDF', '-Fpt-', 'anunció', 'hoy', ',', 'jueves', ',', 'la', 'compra', 'del', '51_por_ciento', 'de', 'la', 'empresa', 'mexicana']
192686


# Function Structure re.search() 

---
*   Determine if the search pattern p is contained in the string s
re.seach(p, s)

In [6]:
# Basic Meta-Characters 
arr = [w for w in flatten if re.search('es', w)]
arr[:5]

['estatal', 'jueves', 'empresa', 'centrales', 'francesa']

In [7]:
arr = [w for w in flatten if re.search('es$', w)]
arr[:5]

['jueves', 'centrales', 'millones', 'millones', 'dólares']

In [8]:
arr = [w for w in flatten if re.search('^..j..t..$', w)]
arr

['tajantes']

In [9]:
# Range onto [a-z], [A-Z], [0-9]
arr = [w for w in flatten if re.search('^[ghi][mno][jlk][def]$', w)]
arr

['golf', 'golf']

In [11]:
# Closures Procedure *, * (Kleene closures)
arr = [w for w in flatten if re.search('^(no)*', w)]
arr[:20]

['El',
 'grupo',
 'estatal',
 'Electricité_de_France',
 '-Fpa-',
 'EDF',
 '-Fpt-',
 'anunció',
 'hoy',
 ',',
 'jueves',
 ',',
 'la',
 'compra',
 'del',
 '51_por_ciento',
 'de',
 'la',
 'empresa',
 'mexicana']

In [12]:
arr = [w for w in flatten if re.search('(no)+', w)]
arr[:10]

['norte',
 'no',
 'no',
 'noche',
 'no',
 'no',
 'gobierno',
 'notificación',
 'Unión_Fenosa_Inversiones',
 'italiano']

# Text Normalization** (as application of regular expressions)

---

*   Tokenization: It is the process by which a text string is sub-divided into minimal linguistic units (words).

In [13]:
texto = """ Cuando sea el rey del mundo  (imaginaba él en su cabeza) no tendré que  preocuparme por estas bobadas. 
            Era solo un niño de 7 años, pero pensaba que podría ser cualquier cosa que su imaginación le permitiera visualizar en su cabeza ..."""
print(texto)

 Cuando sea el rey del mundo  (imaginaba él en su cabeza) no tendré que  preocuparme por estas bobadas. 
            Era solo un niño de 7 años, pero pensaba que podría ser cualquier cosa que su imaginación le permitiera visualizar en su cabeza ...


In [14]:
# Scenario 1: Simple tokenization - by void spaces!
print(re.split(r' ', texto))

['', 'Cuando', 'sea', 'el', 'rey', 'del', 'mundo', '', '(imaginaba', 'él', 'en', 'su', 'cabeza)', 'no', 'tendré', 'que', '', 'preocuparme', 'por', 'estas', 'bobadas.', '\n', '', '', '', '', '', '', '', '', '', '', '', 'Era', 'solo', 'un', 'niño', 'de', '7', 'años,', 'pero', 'pensaba', 'que', 'podría', 'ser', 'cualquier', 'cosa', 'que', 'su', 'imaginación', 'le', 'permitiera', 'visualizar', 'en', 'su', 'cabeza', '...']


#### Improve Tokenization

In [15]:
# Scenario 2: tokenization using Regular Expressions
print(re.split(r'[ \t\n]+', texto))

['', 'Cuando', 'sea', 'el', 'rey', 'del', 'mundo', '(imaginaba', 'él', 'en', 'su', 'cabeza)', 'no', 'tendré', 'que', 'preocuparme', 'por', 'estas', 'bobadas.', 'Era', 'solo', 'un', 'niño', 'de', '7', 'años,', 'pero', 'pensaba', 'que', 'podría', 'ser', 'cualquier', 'cosa', 'que', 'su', 'imaginación', 'le', 'permitiera', 'visualizar', 'en', 'su', 'cabeza', '...']


In [16]:
# RegEx reference: \W -> all characters other than letters, digits or underscore
print(re.split(r'[ \W\t\n]+', texto))

['', 'Cuando', 'sea', 'el', 'rey', 'del', 'mundo', 'imaginaba', 'él', 'en', 'su', 'cabeza', 'no', 'tendré', 'que', 'preocuparme', 'por', 'estas', 'bobadas', 'Era', 'solo', 'un', 'niño', 'de', '7', 'años', 'pero', 'pensaba', 'que', 'podría', 'ser', 'cualquier', 'cosa', 'que', 'su', 'imaginación', 'le', 'permitiera', 'visualizar', 'en', 'su', 'cabeza', '']


# NLTK Tokenizer

In [17]:
# ReGex does not work on this instance
text = 'En los E.U. esa postal vale $15.50 ...'
print(re.split(r'[ \W\t\n]+', text))

['En', 'los', 'E', 'U', 'esa', 'postal', 'vale', '15', '50', '']


In [18]:
pattern = r'''(?x)                 # set flag to allow verbose regexps
              (?:[A-Z]\.)+         # abbreviations, e.g. U.S.A.
              | \w+(?:-\w+)*       # words with optional internal hyphens
              | \$?\d+(?:\.\d+)?%? # currency and percentages, e.g. $12.40, 82%
              | \.\.\.             # ellipsis
              | [][.,;"'?():-_`]   # these are separate tokens; includes ], [
'''
nltk.regexp_tokenize(text, pattern)

['En', 'los', 'E.U.', 'esa', 'postal', 'vale', '$15.50', '...']