# **Como usar NLTK en Google Colab**


In [1]:
import nltk
nltk.download('cess_esp')

[nltk_data] Downloading package cess_esp to /home/luis/nltk_data...
[nltk_data]   Package cess_esp is already up-to-date!


True

# **Expresiones Regulares**


*   Constituyen un lenguaje estandarizado para definir cadenas de búsqueda de texto.
*   Libreria de operaciones con  expresiones regulares de Python [re](https://docs.python.org/3/library/re.html)
*   Reglas para escribir expresiones regulares [Wiki](https://es.wikipedia.org/wiki/Expresión_regular)



In [2]:
# spanish Corpus: https://mailman.uib.no/public/corpora/2007-October/005448.html
import re

corpus = nltk.corpus.cess_esp.sents()

print(corpus)


[['El', 'grupo', 'estatal', 'Electricité_de_France', '-Fpa-', 'EDF', '-Fpt-', 'anunció', 'hoy', ',', 'jueves', ',', 'la', 'compra', 'del', '51_por_ciento', 'de', 'la', 'empresa', 'mexicana', 'Electricidad_Águila_de_Altamira', '-Fpa-', 'EAA', '-Fpt-', ',', 'creada', 'por', 'el', 'japonés', 'Mitsubishi_Corporation', 'para', 'poner_en_marcha', 'una', 'central', 'de', 'gas', 'de', '495', 'megavatios', '.'], ['Una', 'portavoz', 'de', 'EDF', 'explicó', 'a', 'EFE', 'que', 'el', 'proyecto', 'para', 'la', 'construcción', 'de', 'Altamira_2', ',', 'al', 'norte', 'de', 'Tampico', ',', 'prevé', 'la', 'utilización', 'de', 'gas', 'natural', 'como', 'combustible', 'principal', 'en', 'una', 'central', 'de', 'ciclo', 'combinado', 'que', 'debe', 'empezar', 'a', 'funcionar', 'en', 'mayo_del_2002', '.'], ...]


In [3]:
print(len(corpus))
# 6030 titulares

6030


In [4]:
# aplanar la lista equivalente a:

# flatten = []
# for l in corpus:
#     for word in l:
#         flatten.append(word)


In [5]:
# aplanar la lista
flatten = [word for l in corpus for word in l]
len(flatten)


192686

In [6]:
flatten[:20]

['El',
 'grupo',
 'estatal',
 'Electricité_de_France',
 '-Fpa-',
 'EDF',
 '-Fpt-',
 'anunció',
 'hoy',
 ',',
 'jueves',
 ',',
 'la',
 'compra',
 'del',
 '51_por_ciento',
 'de',
 'la',
 'empresa',
 'mexicana']

### **Estructura de la funcion re.search()**

```python
# Determina si el patron de búsqueda p esta contenido en la cadena s
re.search(pattern, string)
```



In [12]:
arr = [w for w in flatten if re.search('es', w)]
# esta expresion regular sencilla es un meta caracter basico
arr[:5]

['estatal', 'jueves', 'empresa', 'centrales', 'francesa']

In [14]:
arr = [w for w in flatten if re.search('es$', w)]
arr[:5]


['jueves', 'centrales', 'millones', 'millones', 'dólares']

In [17]:
arr = [w for w in flatten if re.search('^es', w)]
arr[:5]


['estatal', 'es', 'esta', 'esta', 'eso']

In [22]:
# Rango [a-z] [ghi]

# la cadena inicia con una letra del rango g h i
arr = [w for w in flatten if re.search('^[ghi]', w)]
arr[:8]


['grupo', 'hoy', 'gas', 'gas', 'intervendrá', 'invertir', 'gas', 'hoy']

In [24]:
# Clausura
# * repetir 0 o mas veces
# + repetir 1 o mas veces
# ? repetir 0 o 1 vez

# la cadena de texto "no" aparece 1 o mas veces
arr = [w for w in flatten if re.search('^(no)+', w)]
arr[:8]


['norte', 'no', 'no', 'noche', 'no', 'no', 'notificación', 'no']

# **Normalización de Texto** (como aplicación de las expresiones regulares)


In [31]:
# raw
print('esta es \n una prueba')


esta es 
 una prueba


In [29]:

print(r'esta es \n una prueba')


esta es \n una prueba


## **Tokenización:** Es el proceso mediante el cual se sub-divide una cadena de texto en unidades linguísticas minimas (palabras)


In [32]:
texto = """ Cuando sea el rey del mundo  (imaginaba él en su cabeza) no tendré que  preocuparme por estas bobadas. 
            Era solo un niño de 7 años, pero pensaba que podría ser cualquier cosa que su imaginación le permitiera visualizar en su cabeza ..."""
print(texto)


 Cuando sea el rey del mundo  (imaginaba él en su cabeza) no tendré que  preocuparme por estas bobadas. 
            Era solo un niño de 7 años, pero pensaba que podría ser cualquier cosa que su imaginación le permitiera visualizar en su cabeza ...


In [34]:
# Caso 1 Tokenizando la cadena de texto mediante los espacios en blanco
print(re.split(r' ', texto))

['', 'Cuando', 'sea', 'el', 'rey', 'del', 'mundo', '', '(imaginaba', 'él', 'en', 'su', 'cabeza)', 'no', 'tendré', 'que', '', 'preocuparme', 'por', 'estas', 'bobadas.', '\n', '', '', '', '', '', '', '', '', '', '', '', 'Era', 'solo', 'un', 'niño', 'de', '7', 'años,', 'pero', 'pensaba', 'que', 'podría', 'ser', 'cualquier', 'cosa', 'que', 'su', 'imaginación', 'le', 'permitiera', 'visualizar', 'en', 'su', 'cabeza', '...']


el tokenizar deberia contener solo las palabras que son importantes para mi, por lo cual cambos vacios, y palabras como "(imagina" no son utiles

In [42]:
# Caso 2 tokenizador usando regex
# \t matches tab characters
re.split(r'[\n\s\t]+', texto)[:20]


['',
 'Cuando',
 'sea',
 'el',
 'rey',
 'del',
 'mundo',
 '(imaginaba',
 'él',
 'en',
 'su',
 'cabeza)',
 'no',
 'tendré',
 'que',
 'preocuparme',
 'por',
 'estas',
 'bobadas.',
 'Era']

In [46]:
# Caso 3 tokenizador usando regex
re.split(r'[\n\s\t\W]+', texto)[:20]


['',
 'Cuando',
 'sea',
 'el',
 'rey',
 'del',
 'mundo',
 'imaginaba',
 'él',
 'en',
 'su',
 'cabeza',
 'no',
 'tendré',
 'que',
 'preocuparme',
 'por',
 'estas',
 'bobadas',
 'Era']

## **Tokenizador de NLTK**

In [48]:
# nuestra antigua regex no funciona en este caso:
texto = 'En los E.U. esa postal vale $15.50 ...'
print(re.split(r'[ \W\t\n]+', texto))


['En', 'los', 'E', 'U', 'esa', 'postal', 'vale', '15', '50', '']


In [None]:
pattern = r'''(?x)                  # Flag para iniciar el modo verbose
              (?:[A-Z]\.)+            # Hace match con abreviaciones como U.S.A.
              | \w+(?:-\w+)*         # Hace match con palabras que pueden tener un guión interno
              | \$?\d+(?:\.\d+)?%?  # Hace match con dinero o porcentajes como $15.5 o 100%
              | \.\.\.              # Hace match con puntos suspensivos
              | [][.,;"'?():-_`]    # Hace match con signos de puntuación
'''


In [50]:
pattern = r'''(?x)                 # set flag to allow verbose regexps
              (?:[A-Z]\.)+         # abbreviations, e.g. U.S.A.
              | \w+(?:-\w+)*       # words with optional internal hyphens
              | \$?\d+(?:\.\d+)?%? # currency and percentages, e.g. $12.40, 82%
              | \.\.\.             # ellipsis
              | [][.,;"'?():-_`]   # these are separate tokens; includes ], [
'''
nltk.regexp_tokenize(texto, pattern)


['En', 'los', 'E.U.', 'esa', 'postal', 'vale', '$15.50', '...']

## **Lematización:** Proceso para encontrar la raíz linguística de una palabra

*   Derivación (stemming) : lematización simple

