# **Como usar NLTK en Google Colab**

In [1]:
#seleccionar download [d], luego descargar el recurso de nombre "book"
import nltk
nltk.download('cess_esp')  #descarga corpous contenido en la libreria NLTK. El texto con el cual vamos a trabajar

[nltk_data] Downloading package cess_esp to /root/nltk_data...
[nltk_data]   Unzipping corpora/cess_esp.zip.


True

# **Expresiones Regulares**


*   Constituyen un lenguaje estandarizado para definir cadenas de búsqueda de texto.
*   Libreria de operaciones con  expresiones regulares de Python [re](https://docs.python.org/3/library/re.html)
*   Reglas para escribir expresiones regulares [Wiki](https://es.wikipedia.org/wiki/Expresión_regular)



In [2]:
# spanish Corpus: https://mailman.uib.no/public/corpora/2007-October/005448.html
import re                                                                         #Libreria de expresiones Regulares
corpus = nltk.corpus.cess_esp.sents()                                             #Definios un objeto corpus
print(corpus)
print(len(corpus))                                                                #len() comando de python que calcula la longitud de una lista

[['El', 'grupo', 'estatal', 'Electricité_de_France', '-Fpa-', 'EDF', '-Fpt-', 'anunció', 'hoy', ',', 'jueves', ',', 'la', 'compra', 'del', '51_por_ciento', 'de', 'la', 'empresa', 'mexicana', 'Electricidad_Águila_de_Altamira', '-Fpa-', 'EAA', '-Fpt-', ',', 'creada', 'por', 'el', 'japonés', 'Mitsubishi_Corporation', 'para', 'poner_en_marcha', 'una', 'central', 'de', 'gas', 'de', '495', 'megavatios', '.'], ['Una', 'portavoz', 'de', 'EDF', 'explicó', 'a', 'EFE', 'que', 'el', 'proyecto', 'para', 'la', 'construcción', 'de', 'Altamira_2', ',', 'al', 'norte', 'de', 'Tampico', ',', 'prevé', 'la', 'utilización', 'de', 'gas', 'natural', 'como', 'combustible', 'principal', 'en', 'una', 'central', 'de', 'ciclo', 'combinado', 'que', 'debe', 'empezar', 'a', 'funcionar', 'en', 'mayo_del_2002', '.'], ...]
6030


En python los [] implican Listas. Como tengo dobles corchetes tengo una Lista que contiene varias Listas.

**Este corpus cada lista pertenece a titulares de Noticias en español y ya esta TOKENIZADO.**

El corpus esta compuesto por 6030 titulares de noticias en español

###Flatten

Flatten o aplanado implica que al tener una lista de listas, aplanamos todo en una sola Lista.

Es decir que originalmente tenemos una lista que contiene otras listas donde c/u de estas es un titular. Con Flaten obtenemos una sola lista donde estan todos los titulares aplanados

In [None]:
flatten = [w for l in corpus for w in l]   #ciclo de ciclo, por cada sublista hago una iteracion sobre las palabras (w) que estan en esa lista
print(flatten[:20])                        # [:20] primero 20 elementos
print(len(flatten))

['El', 'grupo', 'estatal', 'Electricité_de_France', '-Fpa-', 'EDF', '-Fpt-', 'anunció', 'hoy', ',', 'jueves', ',', 'la', 'compra', 'del', '51_por_ciento', 'de', 'la', 'empresa', 'mexicana']
192686


En vez de hacerlo con un ciclo de ciclo (flatten = [w for l in corpus for w in l]) podria realizar el flatten con el siguiente codigo

In [None]:
flatten = []  # Inicializar una lista vacía

for l in corpus:  # Iterar sobre cada sublista en corpus
    for w in l:  # Iterar sobre cada elemento en la sublista l
        flatten.append(w)  # Agregar el elemento a la lista flatten

### **Estructura de la funcion re.search()**
```
# Determina si el patron de búsqueda p esta contenido en la cadena s
re.seach(p, s)
```



In [None]:
# Meta-caracteres básicos
arr = [w for w in flatten if re.search('es', w)]  #Para cada objeto w (palabra) en flatten busca la expresion regular "es" y devuelve true si la encuentra, false en caso contrario
arr[:5]

['estatal', 'jueves', 'empresa', 'centrales', 'francesa']

In [None]:
arr = [w for w in flatten if re.search('es$', w)]   # "es$" el $ indica que el patron tiene que estar al final de la palabra
arr[:5]

['jueves', 'centrales', 'millones', 'millones', 'dólares']

In [None]:
arr = [w for w in flatten if re.search('^es', w)]   # "^es" el ^ indica que el patron tiene que estar al principio de la palabra
arr[:5]

['estatal', 'es', 'esta', 'esta', 'eso']

In [None]:
arr = [w for w in flatten if re.search('^..j..t..$', w)] # 3ra letra j, 5ta letra t contando desde el principio
arr

['tajantes']

##Rangos

Con corchetes en expresiones regulares indicamos un rango.
Por ejemplo  **^[ghi]**  indica que busque tokens o palabras (w) que empiezen con g, h o i

In [None]:
arr = [w for w in flatten if re.search('^[ghi]', w)]
arr[:5]

['grupo', 'hoy', 'gas', 'gas', 'intervendrá']

In [None]:
#Rangos [a-z], [A-Z], [0-9]
arr = [w for w in flatten if re.search('^[ghi][mno][jlk][def]$', w)] # Palabras cuya primera letra sea g, h o i [ghi], segunada letra [mno], 3ra letra [jlk] y cuarta [def]
arr

['golf', 'golf']

### Clausuras

*  "*" se repite 0 o mas veces
+  "+" se repite 1 o mas veces

In [None]:
#Clausuras *, * (Kleene closures)
arr = [w for w in flatten if re.search('^(no)*', w)]
arr[:10]

['El',
 'grupo',
 'estatal',
 'Electricité_de_France',
 '-Fpa-',
 'EDF',
 '-Fpt-',
 'anunció',
 'hoy',
 ',']

In [None]:
arr = [w for w in flatten if re.search('(no)+', w)]
arr[:10]

['norte',
 'no',
 'no',
 'noche',
 'no',
 'no',
 'gobierno',
 'notificación',
 'Unión_Fenosa_Inversiones',
 'italiano']

# **Normalización de Texto** (como aplicación de las expresiones regulares)


**Texto plano o Raw**

en python "\n" es un salto de linea

In [16]:
print("Esto es \n una prueba")

Esto es 
 una prueba


Para que interprete toda la cadena como texto plano debo agregar "r" ante de iniciar la cadena

In [17]:
#raw
print(r"Esto es \n una prueba")

Esto es \n una prueba


## **Tokenización:** Es el proceso mediante el cual se sub-divide una cadena de texto en unidades linguísticas minimas (palabras)


In [13]:
texto = """ Cuando sea el rey del mundo  (imaginaba él en su cabeza) no tendré que  preocuparme por estas bobadas.
            Era solo un niño de 7 años, pero pensaba que podría ser cualquier cosa que su imaginación le permitiera visualizar en su cabeza ..."""
print(texto)

 Cuando sea el rey del mundo  (imaginaba él en su cabeza) no tendré que  preocuparme por estas bobadas.
            Era solo un niño de 7 años, pero pensaba que podría ser cualquier cosa que su imaginación le permitiera visualizar en su cabeza ...


## **Funcion re.split**

### **Caso 1:** tokenizacion más simple: por espacios vacios !

In [18]:
#colocamos "r" porque usaremos caracteres especiales que queremos que interprete como texto plano
print(re.split(r' ', texto))

['', 'Cuando', 'sea', 'el', 'rey', 'del', 'mundo', '', '(imaginaba', 'él', 'en', 'su', 'cabeza)', 'no', 'tendré', 'que', '', 'preocuparme', 'por', 'estas', 'bobadas.\n', '', '', '', '', '', '', '', '', '', '', '', 'Era', 'solo', 'un', 'niño', 'de', '7', 'años,', 'pero', 'pensaba', 'que', 'podría', 'ser', 'cualquier', 'cosa', 'que', 'su', 'imaginación', 'le', 'permitiera', 'visualizar', 'en', 'su', 'cabeza', '...']


r' ': Esta es la expresión regular que se utiliza como delimitador para dividir la cadena de texto. En este caso, se utiliza un espacio en blanco como delimitador. La r antes de la cadena indica que es una cadena de texto "cruda" o "raw", lo que significa que se interpretará literalmente.

### **Caso 2:** tokenización usando expresiones regulares

In [21]:
print(re.split(r'[ \t\n]+', texto))

['', 'Cuando', 'sea', 'el', 'rey', 'del', 'mundo', '(imaginaba', 'él', 'en', 'su', 'cabeza)', 'no', 'tendré', 'que', 'preocuparme', 'por', 'estas', 'bobadas.', 'Era', 'solo', 'un', 'niño', 'de', '7', 'años,', 'pero', 'pensaba', 'que', 'podría', 'ser', 'cualquier', 'cosa', 'que', 'su', 'imaginación', 'le', 'permitiera', 'visualizar', 'en', 'su', 'cabeza', '...']


**r'[ esp\t\n]+':** Esta es la expresión regular que se utiliza como delimitador para dividir la cadena de texto. Veamos qué significa:

*     r: El prefijo r se coloca antes de la cadena de texto para indicar que es una cadena de texto "cruda" o "raw". Esto significa que se interpretará literalmente y los caracteres escapados, como \n , no serán tratados de manera especial.
*   [ esp\t\n]+: Esta es una clase de caracteres que define los caracteres de separación. En este caso, se especifican tres caracteres: un espacio en blanco, un tabulador (\t) y un salto de línea (\n). El + después de la clase de caracteres indica que uno o más de estos caracteres pueden estar presentes en la cadena.


  
  
  


  

### **Caso 3:** tokenizacion con regex agregando \W

In [None]:
# RegEx reference: \W -> all characters other than letters, digits or underscore
print(re.split(r'[ \W\t\n]+', texto))

**r'[esp.\W\t\n]+':**   Esta es la expresión regular utilizada como delimitador para dividir la cadena de texto. Veamos qué significa cada parte:



*   r: El prefijo r indica que la cadena de texto es cruda o raw, lo que significa que se interpretará literalmente y los caracteres escapados, como \n, no serán tratados de manera especial.
*   [ esp \W\t\n]+: Esta es una clase de caracteres que define los caracteres de separación. En este caso, se especifican tres tipos de caracter

*     (espacio en blanco): Indica que se utilizará un espacio en blanco como delimitador.
*   \W: Representa cualquier carácter que no sea una letra, un número o un guion bajo. Es decir, cualquier carácter que no sea alfanumérico. Esto incluye caracteres especiales como signos de puntuación, símbolos, espacios en blanco, etc.

*  \t\n: Representa un tabulador (\t) y un salto de línea (\n), que también se utilizarán como delimitadores.
*  El + después de la clase de caracteres indica que uno o más de estos caracteres pueden estar presentes en la cadena de texto de entrada como delimitadores.








## **Tokenizador de NLTK**

In [7]:
# nuestra antigua regex no funciona en este caso:
texto = 'En los E.U. esa postal vale $15.50 (quince con cincuenta del B.C.R.A, ...'
print(re.split(r'[ \W\t\n]+', texto))

['En', 'los', 'E', 'U', 'esa', 'postal', 'vale', '15', '50', 'quince', 'con', 'cincuenta', 'del', 'B', 'C', 'R', 'A', '']


Notar com \W interpreta $ y . como match.

En el contexto de las expresiones regulares, el término "match" se refiere a la acción de encontrar coincidencias entre una expresión regular y una cadena de texto

In [8]:
pattern = r'''(?x)                 # set flag to allow verbose regexps
              (?:[A-Z]\.)+         # abbreviations, e.g. U.S.A.
              | \w+(?:-\w+)*       # words with optional internal hyphens
              | \$?\d+(?:\.\d+)?%? # currency and percentages, e.g. $12.40, 82%
              | \.\.\.             # ellipsis
              | [][.,;"'?():-_`]   # these are separate tokens; includes ], [
'''
nltk.regexp_tokenize(texto, pattern)

['En',
 'los',
 'E.U.',
 'esa',
 'postal',
 'vale',
 '$15.50',
 '(',
 'quince',
 'con',
 'cincuenta',
 'del',
 'B.C.R.',
 'A',
 ',',
 '...']

pattern = r'''(?x): Aquí se define la variable pattern y se utiliza el prefijo r para indicar que es una cadena de texto cruda. Además, (?x) es una bandera o flag que se establece para permitir expresiones regulares verbosas. Esto significa que los espacios en blanco y los comentarios dentro de la expresión regular serán ignorados.

(?:[A-Z]\.)+: Esta parte de la expresión regular busca abreviaciones en forma de letras mayúsculas seguidas de un punto, como "U.S.A.". El uso de (?:...) crea un grupo de no captura, lo que significa que no se capturará como un grupo separado en la tokenización.

\w+(?:-\w+)*: Esta parte de la expresión regular busca palabras que pueden incluir guiones internos opcionales. La secuencia \w coincide con cualquier carácter alfanumérico (letras y números) y el símbolo _. El + indica que debe haber uno o más caracteres alfanuméricos, y (?:-\w+)* permite la aparición opcional de guiones seguidos de caracteres alfanuméricos.

\$?\d+(?:\.\d+)?%?: Esta parte de la expresión regular busca patrones de moneda y porcentaje, como "$12.40" o "82%". El \ se utiliza para escapar el símbolo $. La secuencia \d coincide con cualquier dígito. \.\d+ busca un punto seguido de uno o más dígitos decimales. (?:\.\d+)? permite la aparición opcional de la parte decimal. El %? permite la aparición opcional del símbolo de porcentaje.

\.\.\.: Esta parte de la expresión regular busca el patrón de puntos suspensivos o ellipsis.

[][.,;"'?():-_]: Esta parte de la expresión regular busca una serie de caracteres individuales que se considerarán como tokens separados. Los corchetes []` indican una clase de caracteres, lo que significa que cualquier carácter dentro de los corchetes puede ser considerado como un token separado. En este caso, se incluyen varios caracteres de puntuación y símbolos.

## **Lematización:** Proceso para encontrar la raíz linguística de una palabra

*   Derivación (stemming) : lematización simple



In [None]:
# Derivación simple
from nltk import word_tokenize
from nltk.stem.snowball import SnowballStemmer
SnowballStemmer.languages

In [None]:
stem = SnowballStemmer('spanish')
stem.stem('trabajando')

In [None]:
# Lematización
from nltk.stem import WordNetLemmatizer
lemm = WordNetLemmatizer()

In [None]:
lemm.lemmatize('trabajando')