# **Como usar NLTK en Google Colab**

In [1]:
#seleccionar download [d], luego descargar el recurso de nombre "book"
import nltk
nltk.download('cess_esp')

[nltk_data] Downloading package cess_esp to
[nltk_data]     C:\Users\Tarto\AppData\Roaming\nltk_data...
[nltk_data]   Package cess_esp is already up-to-date!


True

# **Expresiones Regulares**


*   Constituyen un lenguaje estandarizado para definir cadenas de búsqueda de texto.
*   Libreria de operaciones con  expresiones regulares de Python [re](https://docs.python.org/3/library/re.html)
*   Reglas para escribir expresiones regulares [Wiki](https://es.wikipedia.org/wiki/Expresión_regular)



In [2]:
# Corpus en español: https://mailman.uib.no/public/corpora/2007-October/005448.html
import re
corpus = nltk.corpus.cess_esp.sents() 
print(corpus)
print(len(corpus))
# Con esto se puede visualizar la estructura, como es con [[]] son "Listas de lista", y contiene 6030 palabras

[['El', 'grupo', 'estatal', 'Electricité_de_France', '-Fpa-', 'EDF', '-Fpt-', 'anunció', 'hoy', ',', 'jueves', ',', 'la', 'compra', 'del', '51_por_ciento', 'de', 'la', 'empresa', 'mexicana', 'Electricidad_Águila_de_Altamira', '-Fpa-', 'EAA', '-Fpt-', ',', 'creada', 'por', 'el', 'japonés', 'Mitsubishi_Corporation', 'para', 'poner_en_marcha', 'una', 'central', 'de', 'gas', 'de', '495', 'megavatios', '.'], ['Una', 'portavoz', 'de', 'EDF', 'explicó', 'a', 'EFE', 'que', 'el', 'proyecto', 'para', 'la', 'construcción', 'de', 'Altamira_2', ',', 'al', 'norte', 'de', 'Tampico', ',', 'prevé', 'la', 'utilización', 'de', 'gas', 'natural', 'como', 'combustible', 'principal', 'en', 'una', 'central', 'de', 'ciclo', 'combinado', 'que', 'debe', 'empezar', 'a', 'funcionar', 'en', 'mayo_del_2002', '.'], ...]
6030


In [3]:
flatten = [w for l in corpus for w in l]
# for l in corpus:
    # for w in l:

print(flatten[:20])  # Para conocer la Sintaxis
print(len(flatten))
# Se transforma la lista de lista para crear UNA SOLA LISTA con todas las palabras

['El', 'grupo', 'estatal', 'Electricité_de_France', '-Fpa-', 'EDF', '-Fpt-', 'anunció', 'hoy', ',', 'jueves', ',', 'la', 'compra', 'del', '51_por_ciento', 'de', 'la', 'empresa', 'mexicana']
192686


### **Estructura de la funcion re.search()**
```
# Determina si el patron de búsqueda p esta contenido en la cadena s
re.seach(p, s)
```



In [4]:
# Meta-caracteres básicos
# w = Objeto Palabra,  Flatten = Objeto lista con palabras     re.search(p, s) p = Patros busqueda    s = Cadena de Texto
arr = [w for w in flatten if re.search('es', w)]
# Obtiene todas las palabras que contrangan 'es' en cualquier ubicacion
print(arr[:5])
print(len(arr))

['estatal', 'jueves', 'empresa', 'centrales', 'francesa']
14814


In [5]:
# Los signos son "Expresiones regulares", cada una tiene su regla.
# en este caso, terminar con "$" habla de la terminacion "e s"
# Para el inicio? Como se hace? Simple, con "^" al comienzo, ej: '^es'
arr = [w for w in flatten if re.search('es$', w)]
arr[:5]

['jueves', 'centrales', 'millones', 'millones', 'dólares']

In [6]:
# Tambien se puede complejizar, como el inicio con 3 letras diferentes.
arr = [w for w in flatten if re.search('^[ghi]', w)]
arr[:5]
# (): secuencias
# * : repetir 0 o más veces
# + : repetir 1 o más veces     ex: '^(no)*'
#

['grupo', 'hoy', 'gas', 'gas', 'intervendrá']

In [7]:
arr = [w for w in flatten if re.search('^..j..t..$', w)]
arr

['tajantes']

In [8]:
#Rangos [a-z], [A-Z], [0-9]
arr = [w for w in flatten if re.search('^[ghi][mno][jlk][def]$', w)]
arr

['golf', 'golf']

In [9]:
#Clausuras *, * (Kleene closures)
arr = [w for w in flatten if re.search('^(no)*', w)]
arr[:10]

['El',
 'grupo',
 'estatal',
 'Electricité_de_France',
 '-Fpa-',
 'EDF',
 '-Fpt-',
 'anunció',
 'hoy',
 ',']

In [10]:
arr = [w for w in flatten if re.search('(no)+', w)]
arr[:10]

['norte',
 'no',
 'no',
 'noche',
 'no',
 'no',
 'gobierno',
 'notificación',
 'Unión_Fenosa_Inversiones',
 'italiano']

# **Normalización de Texto** (como aplicación de las expresiones regulares)


## **Tokenización:** Es el proceso mediante el cual se sub-divide una cadena de texto en unidades linguísticas minimas (palabras)


In [11]:
texto = """ Cuando sea el rey del mundo  (imaginaba él en su cabeza) no tendré que  preocuparme por estas bobadas. 
            Era solo un niño de 7 años, pero pensaba que podría ser cualquier cosa que su imaginación le permitiera visualizar en su cabeza ..."""
print(texto)

 Cuando sea el rey del mundo  (imaginaba él en su cabeza) no tendré que  preocuparme por estas bobadas. 
            Era solo un niño de 7 años, pero pensaba que podría ser cualquier cosa que su imaginación le permitiera visualizar en su cabeza ...


In [12]:
# Caso 1: tokenizacion más simple: por espacios vacios!
# r = RAW       texto = variable a estudiar
print(re.split(r' ', texto))
# Separa todo utilizando los espacios(' ') como "separador"
# Pero aun no esta refinado, hay mucho ruido, como ', ' o '(imaginaba'

['', 'Cuando', 'sea', 'el', 'rey', 'del', 'mundo', '', '(imaginaba', 'él', 'en', 'su', 'cabeza)', 'no', 'tendré', 'que', '', 'preocuparme', 'por', 'estas', 'bobadas.', '\n', '', '', '', '', '', '', '', '', '', '', '', 'Era', 'solo', 'un', 'niño', 'de', '7', 'años,', 'pero', 'pensaba', 'que', 'podría', 'ser', 'cualquier', 'cosa', 'que', 'su', 'imaginación', 'le', 'permitiera', 'visualizar', 'en', 'su', 'cabeza', '...']


In [13]:
# Caso 2: tokenización usando expresiones regulares (regex)
print(re.split(r'[ \t\n]+', texto))

['', 'Cuando', 'sea', 'el', 'rey', 'del', 'mundo', '(imaginaba', 'él', 'en', 'su', 'cabeza)', 'no', 'tendré', 'que', 'preocuparme', 'por', 'estas', 'bobadas.', 'Era', 'solo', 'un', 'niño', 'de', '7', 'años,', 'pero', 'pensaba', 'que', 'podría', 'ser', 'cualquier', 'cosa', 'que', 'su', 'imaginación', 'le', 'permitiera', 'visualizar', 'en', 'su', 'cabeza', '...']


In [14]:
# RegEx reference: \W -> all characters other than letters, digits or underscore
print(re.split(r'[ \W\t\n]+', texto))

['', 'Cuando', 'sea', 'el', 'rey', 'del', 'mundo', 'imaginaba', 'él', 'en', 'su', 'cabeza', 'no', 'tendré', 'que', 'preocuparme', 'por', 'estas', 'bobadas', 'Era', 'solo', 'un', 'niño', 'de', '7', 'años', 'pero', 'pensaba', 'que', 'podría', 'ser', 'cualquier', 'cosa', 'que', 'su', 'imaginación', 'le', 'permitiera', 'visualizar', 'en', 'su', 'cabeza', '']


## **Tokenizador de NLTK**

In [15]:
# nuestra antigua regex no funciona en este caso: 
texto = 'En los E.U. esa postal vale $15.50 ...'
print(re.split(r'[ \W\t\n]+', texto))
# Aqui se puede observar que separa de manera incorrecta.

['En', 'los', 'E', 'U', 'esa', 'postal', 'vale', '15', '50', '']


In [16]:
pattern = r'''(?x)                 # Forma de iniciar "Modo verbos"
              (?:[A-Z]\.)+         # Incluye abreviaciones como por ejemplo: U.S.A.
              | \w+(?:-\w+)*       # Incluye a las palabras con un guion [-] interno
              | \$?\d+(?:\.\d+)?%? # Incluye dinero y porcentajes, e.g. $12.40, 82%
              | \.\.\.             # Agrega los puntos suspensivos
              | [][.,;"'?():-_`]   # Tokens de separacion; como por ejemplo: ], [
'''
nltk.regexp_tokenize(texto, pattern)  # Funcion Tokenizador

['En', 'los', 'E.U.', 'esa', 'postal', 'vale', '$15.50', '...']

## **Lematización:** Proceso para encontrar la raíz linguística de una palabra

*   Derivación (stemming) : lematización simple



In [17]:
# Derivación simple
from nltk import word_tokenize
from nltk.stem.snowball import SnowballStemmer
SnowballStemmer.languages

('arabic',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'hungarian',
 'italian',
 'norwegian',
 'porter',
 'portuguese',
 'romanian',
 'russian',
 'spanish',
 'swedish')

In [18]:
stem = SnowballStemmer('spanish')
stem.stem('trabajando')

'trabaj'

In [19]:
# Lematización
from nltk.stem import WordNetLemmatizer
lemm = WordNetLemmatizer()

In [20]:
lemm.lemmatize('trabajando')

LookupError: 
**********************************************************************
  Resource [93mwordnet[0m not found.
  Please use the NLTK Downloader to obtain the resource:

  [31m>>> import nltk
  >>> nltk.download('wordnet')
  [0m
  For more information see: https://www.nltk.org/data.html

  Attempted to load [93mcorpora/wordnet[0m

  Searched in:
    - 'C:\\Users\\Tarto/nltk_data'
    - 'C:\\Users\\Tarto\\anaconda3\\envs\\ml\\nltk_data'
    - 'C:\\Users\\Tarto\\anaconda3\\envs\\ml\\share\\nltk_data'
    - 'C:\\Users\\Tarto\\anaconda3\\envs\\ml\\lib\\nltk_data'
    - 'C:\\Users\\Tarto\\AppData\\Roaming\\nltk_data'
    - 'C:\\nltk_data'
    - 'D:\\nltk_data'
    - 'E:\\nltk_data'
**********************************************************************
