# Cómo usar NLTK en Google Colab

In [2]:
import nltk

# Importamos las bases de datos de text (Corpus, corpora)
nltk.download('cess_esp')  # Corpues de textos en español

[nltk_data] Downloading package cess_esp to /root/nltk_data...
[nltk_data]   Unzipping corpora/cess_esp.zip.


True

# Expresiones Regulares


*   Constituyen un lenguaje estandarizado para definir cadenas de búsqueda de texto
*   Librría de operaciones con expresiones regulares de python [`re`](https://docs.python.org/3/library/re.html)
*   Reglas para escibir expresiones regulares [Wiki](https://es.wikipedia.org/wiki/Expresión_regular)



In [5]:
import re
corpus = nltk.corpus.cess_esp.sents()
print(corpus)
print(len(corpus))

[['El', 'grupo', 'estatal', 'Electricité_de_France', '-Fpa-', 'EDF', '-Fpt-', 'anunció', 'hoy', ',', 'jueves', ',', 'la', 'compra', 'del', '51_por_ciento', 'de', 'la', 'empresa', 'mexicana', 'Electricidad_Águila_de_Altamira', '-Fpa-', 'EAA', '-Fpt-', ',', 'creada', 'por', 'el', 'japonés', 'Mitsubishi_Corporation', 'para', 'poner_en_marcha', 'una', 'central', 'de', 'gas', 'de', '495', 'megavatios', '.'], ['Una', 'portavoz', 'de', 'EDF', 'explicó', 'a', 'EFE', 'que', 'el', 'proyecto', 'para', 'la', 'construcción', 'de', 'Altamira_2', ',', 'al', 'norte', 'de', 'Tampico', ',', 'prevé', 'la', 'utilización', 'de', 'gas', 'natural', 'como', 'combustible', 'principal', 'en', 'una', 'central', 'de', 'ciclo', 'combinado', 'que', 'debe', 'empezar', 'a', 'funcionar', 'en', 'mayo_del_2002', '.'], ...]
6030


In [8]:
# Aplanar la lista (Flatten)
flatten = [words for lista in corpus for words in lista]
print(len(flatten))
print(flatten[:10])

192685
['El', 'grupo', 'estatal', 'Electricité_de_France', '-Fpa-', 'EDF', '-Fpt-', 'anunció', 'hoy', ',']


## Estructura de la función `re.search()`

Determina si el patrón de búsqueda p está contenido en la casena s `re.search(pattern, string)`

In [0]:
arr = [w for w in flatten if re.search('es', w)]

In [11]:
print(arr[:5])  # Imprimimos los primeros 5 elementos

['estatal', 'jueves', 'empresa', 'centrales', 'francesa']


In [12]:
arr = [w for w in flatten if re.search('es$', w)]  # Con ($) La subcadena 'es' debe estar sólo al final
print(arr[:5])

['jueves', 'centrales', 'millones', 'millones', 'dólares']


In [13]:
arr = [w for w in flatten if re.search('^es', w)]  # Con (^) La subcadena 'es' debe estar sólo al comienzo
print(arr[:5])

['estatal', 'es', 'esta', 'esta', 'eso']


In [14]:
# Rango [a-z]:  El caracter debe ser minuscula y estar entre la a y z
# arr = [w for w in flatten if re.search('[a-z]', w)] 

# [ghi]: El caracter en esta posición pueder ser cualquier letra entre la g h i (Cualquiera de ellas)
arr = [w for w in flatten if re.search('^[ghi]', w)] 
print(arr[:10])

['grupo', 'hoy', 'gas', 'gas', 'intervendrá', 'invertir', 'gas', 'hoy', 'insulto', 'intervención']


In [16]:
# Clausura
"""
* Repetir 0 o más veces
+ Repetir una cadena 1 o más veces 
"""
arr = [w for w in flatten if re.search('^(no)*', w)]  # Busca la secuencia 'no' al principio, que debe aparecer 0 o más veces
print(arr[:5])

arr = [w for w in flatten if re.search('^(no)+', w)]  # Busca la secuencia 'no' al comienzo, que debe aparecer al menos una vez
print(arr[:5])

['El', 'grupo', 'estatal', 'Electricité_de_France', '-Fpa-']
['norte', 'no', 'no', 'noche', 'no']


## **Normalización de Texto** (Como aplicación de las expresiones regulares)

In [18]:
# raw  => texto plano
print('Ésta es \n una prueba')  # Sin texto plano
print(r'Ésta es \n una prueba')  # Con texto plano (r)

Ésta es 
 una prueba
Ésta es \n una prueba


**Tokenización**: Es el proceso mediante el cual se sub-divide una cadena de texto en unidades lingüísticas mínimas (palabras)

In [0]:
texto = """ Cuando sea el rey del mundo (imaginaba élensu cabeza) no tendré que  preocuparme por estas bobadas. 
            Era solo un niño de 7 años, pero pensaba que podría ser cualquier cosa quesu imaginación le permitiera 
            visualizar ensu cabeza ...""" 

In [20]:
# Caso 1: Tokenizar por espacios vacíos
print(re.split(r' ', texto))

['', 'Cuando', 'sea', 'el', 'rey', 'del', 'mundo', '(imaginaba', 'élensu', 'cabeza)', 'no', 'tendré', 'que', '', 'preocuparme', 'por', 'estas', 'bobadas.', '\n', '', '', '', '', '', '', '', '', '', '', '', 'Era', 'solo', 'un', 'niño', 'de', '7', 'años,', 'pero', 'pensaba', 'que', 'podría', 'ser', 'cualquier', 'cosa', 'quesu', 'imaginación', 'le', 'permitiera', '\n', '', '', '', '', '', '', '', '', '', '', '', 'visualizar', 'ensu', 'cabeza', '...']


In [21]:
# Caso 2: Tokenización usando regex  (El rango en regex se usa con [])
print(re.split(r'[ \t\n]+', texto))

['', 'Cuando', 'sea', 'el', 'rey', 'del', 'mundo', '(imaginaba', 'élensu', 'cabeza)', 'no', 'tendré', 'que', 'preocuparme', 'por', 'estas', 'bobadas.', 'Era', 'solo', 'un', 'niño', 'de', '7', 'años,', 'pero', 'pensaba', 'que', 'podría', 'ser', 'cualquier', 'cosa', 'quesu', 'imaginación', 'le', 'permitiera', 'visualizar', 'ensu', 'cabeza', '...']


In [24]:
# Caso 3: 
"""
El metacaracter \W lo que hace es hacer match con todo lo que no sea un caracter alfanumérico 
(como paréntesis, símbolos raros, etc.)
"""
print(re.split(r'[ \W\t\n]+', texto))

['', 'Cuando', 'sea', 'el', 'rey', 'del', 'mundo', 'imaginaba', 'élensu', 'cabeza', 'no', 'tendré', 'que', 'preocuparme', 'por', 'estas', 'bobadas', 'Era', 'solo', 'un', 'niño', 'de', '7', 'años', 'pero', 'pensaba', 'que', 'podría', 'ser', 'cualquier', 'cosa', 'quesu', 'imaginación', 'le', 'permitiera', 'visualizar', 'ensu', 'cabeza', '']


## **Tokenización de NLTK** (La mejor de todas)

In [25]:
texto = 'En los E.U. esa postal vale $15.50 ...'
print(re.split(r'[ \W\t\n]+', texto))  # El Regex falla al tokenizar E.U. y $15.50

['En', 'los', 'E', 'U', 'esa', 'postal', 'vale', '15', '50', '']


In [26]:
pattern = r'''(?x)                  # Flag para iniciar el modo verbose
              (?:[A-Z]\.)+          # Hace match con abreviaciones como U.S.A.
              | \w+(?:-\w+)*        # Hace match con palabras que pueden tener un guión interno
              | \$?\d+(?:\.\d+)?%?  # Hace match con dinero o porcentajes como $15.5 o 100%
              | \.\.\.              # Hace match con puntos suspensivos
              | [][.,;"'?():-_`]    # Hace match con signos de puntuación
'''
nltk.regexp_tokenize(texto, pattern)

['En', 'los', 'E.U.', 'esa', 'postal', 'vale', '$15.50', '...']