In [1]:
#Habilitar intellisense
%config IPCompleter.greedy=True

# Vocabulario del problema
En un proyecto de *NLP* se trabajan con colecciones de "documentos". Cada documento en un fragmento de texto que se debe procesar de manera individual (clasificar, representar, etc). Algunos ejemplos de documentos son: tweets, revisiones, artículos, libros, etc. El conjunto de todas la palabras que aparecen en todos los documentos constituye el **vocabulario del problema**. En muchos casos el tamaño del problema puede reducir el desempeño de la solución y es necesario reducirlo. 

Los elementos en el vocabulario se conocen como *tokens*; dependiendo del problema y las decisiones de diseño podrian no ser necesariamente una palabra. Por ejemplo, podrían ser emoticones, lemas o palabras compuestas.

En este *notebook* se muestra como realizar una de las tareas más comunes que ayudan a reducir el tamaño del vocabulario: la eliminación de palabras de parada (*stop words*).


1. [Tokenización](#1)
2. [Quitar palabras de parada](#2)
3. [Otras tareas de limpieza que se puedan considerar](#3)

<a id="1"></a>
## Tokenización
[Tokenización](https://nlp.stanford.edu/IR-book/html/htmledition/tokenization-1.html) es el proceso de separar el texto en piezas llamadas *tokens*. Es la primera tarea/proceso en cualquier proyecto *NLP*. Es fundamental realizarla bien para no afectar la calidad de los datos de entrada en las etapas siguientes. Se recomienda usar un *tokenizer* reconocido y evitar intentar programar uno desde cero.

A continuación, se muestra un ejemplo de tokenización sobre esta [noticia](https://www.lostiempos.com/deportes/multideportivo/20200115/olympic-albert-einstein-ucb-lpz-van-paso-firme-liga-superior). Primero debes cargar la noticia.


In [None]:
texto = """Los clubes cochabambinos de Olympic, Albert Einstein y el paceño Universidad Católica Boliviana (UCB) avanzan a paso firme y constante rumbo a la corona en la Liga Superior de voleibol, rama femenina, que se desarrolla en el coliseo Julio Borelli Vitterito de La Paz, luego de cosechar sendas victorias la noche de este martes. El ganador será representante de Bolivia en la Liga Sudamericana de Clubes 2020.

El campeón defensor del título, Olympic, superó 3-0  a su verdugo de la final de la edición 2017, el también cochabambino San Simón. La victoria para las olympiquistas fue con sets de 25-14, 25-13 y 25-18."""
texto

### Tokenización a nivel oraciones
La función sent_tokenize(...) de nltk.tokenize es el tokenizador a nivel de oraciones. Si tienes problemas importanto la librería [*nltk*](https://www.nltk.org/api/nltk.tokenize.html), ejecuta nltk.download('punkt') desde la consola de python para descargar la librería.

In [None]:
import nltk
oracionesNoticia = nltk.tokenize.sent_tokenize(text=texto, language='spanish')
print("Número total de oraciones de la noticia: {}".format(len(oracionesNoticia)))
print("Texto de la oracion 1: {}".format(oracionesNoticia[0]))

### Tokenización de a nivel de palabras.
La función nltk.word_tokenize(...) es el tokenizador a nivel de palabras recomendado por NLTK. El resultado de esta función es una lista con todas las palabras de la noticia. Internamente usa una instancia de la clase TreebankWordTokenizer (en la versión más reciente)


In [None]:
palabrasNoticia = nltk.word_tokenize(texto)
palabrasNoticia

Debes saber que word_tokenize, no es la única función que permite realizar este trabajo. Puedes utilizar también casual_tokenize. Encuentra la diferencia =)

In [45]:
nltk.tokenize.casual.casual_tokenize("Que buena pelicula. Gracias por invitarme :)")

['Que', 'buena', 'pelicula', '.', 'Gracias', 'por', 'invitarme', ':)']

In [46]:
nltk.word_tokenize("Que buena pelicula. Gracias por invitarme :)")

['Que', 'buena', 'pelicula', '.', 'Gracias', 'por', 'invitarme', ':', ')']

<a id="2"></a>
## Quitar palabras de parada

Dependiendo del lenguaje existen palabras que tienden a repetirse mucho más que otras, estas generalmente son los articulos, las preposiciones, y las conjunciones. Estas palabras suelen ser perjudiciales al momento de analizar el texto, es por eso que se debe quitar las palabras de parada del vocabulario del problema. Tener en cuenta que NO hay una lista universal y exhaustiva de estas palabras. Cada lenguage e incluso tipo de problema puede tener su propia lista de palabras de parada.

Puesto que estas listas pueden variar dependiendo de la librería o incluso entre versiones de la misma librería, incluir este paso puede dificultar la reproducción de los resultados en otros entornos. Veremos más adelante que hay otros mecanismos para lidiar con este tipo de palabras (TF, IDF).

Finalmente, quitar alguna palabra de parada como los artículos podría cambiar completamente el significado de algunas palabras compuestas. Por ejemplo: "La Paz" -> "Paz".

Si tienes problemas importando la libreria nltk, ejecuta este comando nltk.download('stopwords'). En el ejemplo se puede ver la  lista de palabras de parada que nos ofrece la libreria nltk.corpus

In [None]:
import nltk
nltk.corpus.stopwords.words('spanish')

Otra lista de palabras de parada que podrías tomar en cuenta son las puntiaciones

In [None]:
import string
list(string.punctuation)

Puedes unir ambas listas para tener todo mejor organizado

In [None]:
palabrasParada = set( nltk.corpus.stopwords.words('spanish') + list(string.punctuation))
palabrasParada

Finalmente solo queda eliminar las palabras de parada del texto de la noticia y listo.

In [None]:
palabrasNoticiaSinPalabrasDeParada = [palabra for palabra in palabrasNoticia if palabra not in palabrasParada]
palabrasNoticiaSinPalabrasDeParada

<a id="3"></a>
## Otras tareas de limpieza que se pueden considerar

- Unificar el case - string.lower().
- Quitar acentos? probablemente no es buena idea si el contenido está en castellano
- Procesar contracciones? I'm -> I am 
- Quitar caracteres expeciales - #@!
- Quitar markup - Ej contenido HTML
- Corregir texto -typos, noooo por favoooorrr

Algunos enlaces de utilidad:
- http://norvig.com/spell-correct.html
- https://github.com/fsondej/autocorrect
- https://github.com/MajorTal/DeepSpell