# **Como usar NLTK en Google Colab**

In [2]:
import nltk

nltk.download('cess_esp')

[nltk_data] Downloading package cess_esp to /root/nltk_data...
[nltk_data]   Unzipping corpora/cess_esp.zip.


True

# **Expresiones Regulares**


*   Constituyen un lenguaje estandarizado para definir cadenas de búsqueda de texto.
*   Libreria de operaciones con  expresiones regulares de Python [re](https://docs.python.org/3/library/re.html)
*   Reglas para escribir expresiones regulares [Wiki](https://es.wikipedia.org/wiki/Expresión_regular)

In [3]:
import re

corpus = nltk.corpus.cess_esp.sents()
print(corpus)

[['El', 'grupo', 'estatal', 'Electricité_de_France', '-Fpa-', 'EDF', '-Fpt-', 'anunció', 'hoy', ',', 'jueves', ',', 'la', 'compra', 'del', '51_por_ciento', 'de', 'la', 'empresa', 'mexicana', 'Electricidad_Águila_de_Altamira', '-Fpa-', 'EAA', '-Fpt-', ',', 'creada', 'por', 'el', 'japonés', 'Mitsubishi_Corporation', 'para', 'poner_en_marcha', 'una', 'central', 'de', 'gas', 'de', '495', 'megavatios', '.'], ['Una', 'portavoz', 'de', 'EDF', 'explicó', 'a', 'EFE', 'que', 'el', 'proyecto', 'para', 'la', 'construcción', 'de', 'Altamira_2', ',', 'al', 'norte', 'de', 'Tampico', ',', 'prevé', 'la', 'utilización', 'de', 'gas', 'natural', 'como', 'combustible', 'principal', 'en', 'una', 'central', 'de', 'ciclo', 'combinado', 'que', 'debe', 'empezar', 'a', 'funcionar', 'en', 'mayo_del_2002', '.'], ...]


In [4]:
len(corpus)

6030

In [5]:
flatten = [w for l in corpus for w in l]
print(len(flatten))

192686


In [8]:
print(flatten[:100])

['El', 'grupo', 'estatal', 'Electricité_de_France', '-Fpa-', 'EDF', '-Fpt-', 'anunció', 'hoy', ',', 'jueves', ',', 'la', 'compra', 'del', '51_por_ciento', 'de', 'la', 'empresa', 'mexicana', 'Electricidad_Águila_de_Altamira', '-Fpa-', 'EAA', '-Fpt-', ',', 'creada', 'por', 'el', 'japonés', 'Mitsubishi_Corporation', 'para', 'poner_en_marcha', 'una', 'central', 'de', 'gas', 'de', '495', 'megavatios', '.', 'Una', 'portavoz', 'de', 'EDF', 'explicó', 'a', 'EFE', 'que', 'el', 'proyecto', 'para', 'la', 'construcción', 'de', 'Altamira_2', ',', 'al', 'norte', 'de', 'Tampico', ',', 'prevé', 'la', 'utilización', 'de', 'gas', 'natural', 'como', 'combustible', 'principal', 'en', 'una', 'central', 'de', 'ciclo', 'combinado', 'que', 'debe', 'empezar', 'a', 'funcionar', 'en', 'mayo_del_2002', '.', 'La', 'electricidad', 'producida', 'pasará', 'a', 'la', 'red', 'eléctrica', 'pública', 'de', 'México', 'en_virtud_de', 'un', 'acuerdo', 'de', 'venta']


## **Estructura de la función re.search()**

Determina si el patron de búsqueda p está contenido en la cadena s

re.search(p, s)

In [14]:
arr = [w for w in flatten if re.search('es', w)]
print(arr[:5])

['estatal', 'jueves', 'empresa', 'centrales', 'francesa']


In [15]:
arr = [w for w in flatten if re.search('es$', w)]
print(arr[:5])

['jueves', 'centrales', 'millones', 'millones', 'dólares']


In [16]:
arr = [w for w in flatten if re.search('^es', w)]
print(arr[:5])

['estatal', 'es', 'esta', 'esta', 'eso']


In [18]:
# Rango [a-z] [ghi]

arr = [w for w in flatten if re.search('^[hgi]', w)]
print(arr[:10])

['grupo', 'hoy', 'gas', 'gas', 'intervendrá', 'invertir', 'gas', 'hoy', 'insulto', 'intervención']


In [19]:
# Clausura
# * la cadena de texto se puede repetir cero o más veces
# + repetir 1 ó más veces

arr = [w for w in flatten if re.search('^(no)*', w)]
print(arr[:20])


['El', 'grupo', 'estatal', 'Electricité_de_France', '-Fpa-', 'EDF', '-Fpt-', 'anunció', 'hoy', ',', 'jueves', ',', 'la', 'compra', 'del', '51_por_ciento', 'de', 'la', 'empresa', 'mexicana']


In [21]:
arr = [w for w in flatten if re.search('^(no)+', w)]
print(arr[:20])

['norte', 'no', 'no', 'noche', 'no', 'no', 'notificación', 'no', 'no', 'no', 'no_obstante', 'no', 'no', 'no', 'norte', 'no', 'no', 'no', 'no', 'norteamericano']


# **Normalización de Texto** (como aplicación de las expresiones regulares)

In [23]:
# raw (texto plano)
print('esta es \n una prueba\n')
print(r'esta es \n una prueba\n')


esta es 
 una prueba

esta es \n una prueba\n


## **Tokenización:** Es el proceso mediante el cual se sub-divide una cadena de texto en unidades linguísticas mínimas (palabras)

In [26]:
texto = """ Cuando sea el rey del mundo (imaginaba él en su cabeza) no tendré que preocuparme por estas bobadas. 
            Era sol un niño de 7 años, pero pensaba que podría ser cualquier cosa que su imaginación le permitiera
            visualizar en su cabeza ..."""

In [27]:
texto

' Cuando sea el rey del mundo (imaginaba él en su cabeza) no tendré que preocuparme por estas bobadas. \n            Era sol un niño de 7 años, pero pensaba que podría ser cualquier cosa que su imaginación le permitiera\n            visualizar en su cabeza ...'

In [28]:
print(texto)

 Cuando sea el rey del mundo (imaginaba él en su cabeza) no tendré que preocuparme por estas bobadas. 
            Era sol un niño de 7 años, pero pensaba que podría ser cualquier cosa que su imaginación le permitiera
            visualizar en su cabeza ...


In [30]:
# Caso 1: tokenizar por espacios vacíos

print(re.split(r' ',texto))

['', 'Cuando', 'sea', 'el', 'rey', 'del', 'mundo', '(imaginaba', 'él', 'en', 'su', 'cabeza)', 'no', 'tendré', 'que', 'preocuparme', 'por', 'estas', 'bobadas.', '\n', '', '', '', '', '', '', '', '', '', '', '', 'Era', 'sol', 'un', 'niño', 'de', '7', 'años,', 'pero', 'pensaba', 'que', 'podría', 'ser', 'cualquier', 'cosa', 'que', 'su', 'imaginación', 'le', 'permitiera\n', '', '', '', '', '', '', '', '', '', '', '', 'visualizar', 'en', 'su', 'cabeza', '...']


In [31]:
# Caso 2: tokenización usando regex

print(re.split(r'[ \t\n]+',texto))

['', 'Cuando', 'sea', 'el', 'rey', 'del', 'mundo', '(imaginaba', 'él', 'en', 'su', 'cabeza)', 'no', 'tendré', 'que', 'preocuparme', 'por', 'estas', 'bobadas.', 'Era', 'sol', 'un', 'niño', 'de', '7', 'años,', 'pero', 'pensaba', 'que', 'podría', 'ser', 'cualquier', 'cosa', 'que', 'su', 'imaginación', 'le', 'permitiera', 'visualizar', 'en', 'su', 'cabeza', '...']


In [32]:
# Caso 3: 
print(re.split(r'[ \W\t\n]+',texto))

['', 'Cuando', 'sea', 'el', 'rey', 'del', 'mundo', 'imaginaba', 'él', 'en', 'su', 'cabeza', 'no', 'tendré', 'que', 'preocuparme', 'por', 'estas', 'bobadas', 'Era', 'sol', 'un', 'niño', 'de', '7', 'años', 'pero', 'pensaba', 'que', 'podría', 'ser', 'cualquier', 'cosa', 'que', 'su', 'imaginación', 'le', 'permitiera', 'visualizar', 'en', 'su', 'cabeza', '']


## **Tokenizador de NLTK**

In [33]:
texto = 'En los E.U. esa postal vale $15.50 ...'
print(re.split(r'[ \W\t\n]+',texto))

['En', 'los', 'E', 'U', 'esa', 'postal', 'vale', '15', '50', '']


In [34]:
pattern = r'''(?x)                 # set flag to allow verbose regexps
              (?:[A-Z]\.)+         # abbreviations, e.g. U.S.A.
              | \w+(?:-\w+)*       # words with optional internal hyphens
              | \$?\d+(?:\.\d+)?%? # currency and percentages, e.g. $12.40, 82%
              | \.\.\.             # ellipsis
              | [][.,;"'?():-_`]   # these are separate tokens; includes ], [
'''
nltk.regexp_tokenize(texto, pattern)

['En', 'los', 'E.U.', 'esa', 'postal', 'vale', '$15.50', '...']

## **Lematización:** Proceso para encontrar la raíz linguística de una palabra

*   Derivación (stemming) : lematización simple

In [35]:
# Derivación simple
from nltk import word_tokenize
from nltk.stem.snowball import SnowballStemmer

SnowballStemmer.languages

('arabic',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'hungarian',
 'italian',
 'norwegian',
 'porter',
 'portuguese',
 'romanian',
 'russian',
 'spanish',
 'swedish')

In [36]:
stem = SnowballStemmer('spanish')
stem.stem('trabajando')

'trabaj'

In [40]:
# Lematización
from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('wordnet')
import nltk
nltk.download('omw-1.4')

lemm = WordNetLemmatizer()
lemm.lemmatize('trabajando')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


'trabajando'