In [1]:
#Habilitar intellisense
%config IPCompleter.greedy=True

# Vocabulario del problema
En un proyecto de NLP se trabajan con colecciones de "documentos". Cada documento en un fragmento de texto que se debe procesar de manera individual (clasificar, representar, etc). Ejemplos de documentos: tweets, revisiones, artículos, libros, etc.

El conjunto de todas la palabras que aparecen en todos los documentos constituye el vocabulario del problema. En muchos casos el tamaño del problema puede reducir el desempeño de la solución y es necesario reducirlo. En este notebook se muestra como realizar una de las tareas más comunes que ayudan a reducir el tamaño del vocabulario: la eliminación de palabras de parada (stop words).

Los elementos en el vocabulario se conocen como "tokens"; dependiendo del problema y las decisiones de diseño podrian no ser necesariamente una palabra. (podrían ser emoticos, lemas o palabras compuestas, por ejemplo.)

## Tokenización
Es la primera tarea/proceso en cualquier proyecto NLP. Es fundamental realizarla bien para no afectar la calidad de los datos de entrada en las etapas siguientes. Se recomienda usar un tokenizer reconocido y evitar intentar programar uno desde cero.

In [2]:
#Tokenización de a nivel de oraciones.
# https://www.lostiempos.com/deportes/multideportivo/20200115/olympic-albert-einstein-ucb-lpz-van-paso-firme-liga-superior
texto = """Los clubes cochabambinos de Olympic, Albert Einstein y el paceño Universidad Católica Boliviana (UCB) avanzan a paso firme y constante rumbo a la corona en la Liga Superior de voleibol, rama femenina, que se desarrolla en el coliseo Julio Borelli Vitterito de La Paz, luego de cosechar sendas victorias la noche de este martes. El ganador será representante de Bolivia en la Liga Sudamericana de Clubes 2020.

El campeón defensor del título, Olympic, superó 3-0  a su verdugo de la final de la edición 2017, el también cochabambino San Simón. La victoria para las olympiquistas fue con sets de 25-14, 25-13 y 25-18."""

In [3]:
#https://www.nltk.org/api/nltk.tokenize.html
#Return a sentence-tokenized copy of text, using NLTK’s recommended sentence tokenizer 
#(currently PunktSentenceTokenizer for the specified language).
#Descargar 'punkt' desde la consola (REPL) de python
#>>> import nltk
#>>> nltk.download('punkt')
import nltk
#from nltk.tokenize import sent_tokenize
oraciones = nltk.tokenize.sent_tokenize(text=texto, language='spanish')
len(oraciones)
oraciones[0]

'Los clubes cochabambinos de Olympic, Albert Einstein y el paceño Universidad Católica Boliviana (UCB) avanzan a paso firme y constante rumbo a la corona en la Liga Superior de voleibol, rama femenina, que se desarrolla en el coliseo Julio Borelli Vitterito de La Paz, luego de cosechar sendas victorias la noche de este martes.'

### Tokenización de a nivel de palabras.
La función nltk.word_tokenize(...) es el tokenizador a nivel de palabras recomendado por NLTK. Internamente usa una instancia de la clase TreebankWordTokenizer (en la versión más reciente)


In [4]:
palabras = nltk.word_tokenize(texto)
#type(palabras)
palabras

['Los',
 'clubes',
 'cochabambinos',
 'de',
 'Olympic',
 ',',
 'Albert',
 'Einstein',
 'y',
 'el',
 'paceño',
 'Universidad',
 'Católica',
 'Boliviana',
 '(',
 'UCB',
 ')',
 'avanzan',
 'a',
 'paso',
 'firme',
 'y',
 'constante',
 'rumbo',
 'a',
 'la',
 'corona',
 'en',
 'la',
 'Liga',
 'Superior',
 'de',
 'voleibol',
 ',',
 'rama',
 'femenina',
 ',',
 'que',
 'se',
 'desarrolla',
 'en',
 'el',
 'coliseo',
 'Julio',
 'Borelli',
 'Vitterito',
 'de',
 'La',
 'Paz',
 ',',
 'luego',
 'de',
 'cosechar',
 'sendas',
 'victorias',
 'la',
 'noche',
 'de',
 'este',
 'martes',
 '.',
 'El',
 'ganador',
 'será',
 'representante',
 'de',
 'Bolivia',
 'en',
 'la',
 'Liga',
 'Sudamericana',
 'de',
 'Clubes',
 '2020',
 '.',
 'El',
 'campeón',
 'defensor',
 'del',
 'título',
 ',',
 'Olympic',
 ',',
 'superó',
 '3-0',
 'a',
 'su',
 'verdugo',
 'de',
 'la',
 'final',
 'de',
 'la',
 'edición',
 '2017',
 ',',
 'el',
 'también',
 'cochabambino',
 'San',
 'Simón',
 '.',
 'La',
 'victoria',
 'para',
 'las',
 '

In [7]:
#Encuentre la diferencia :)
nltk.tokenize.casual.casual_tokenize("Que buena pelicula. Gracias por la invitación :)")

['Que', 'buena', 'pelicula', '.', 'Gracias', 'por', 'la', 'invitación', ':)']

In [8]:
nltk.word_tokenize("Que buena pelicula. Gracias por la invitación :)")

['Que',
 'buena',
 'pelicula',
 '.',
 'Gracias',
 'por',
 'la',
 'invitación',
 ':',
 ')']

## Quitar palabras de parada

Tener en cuenta que NO hay una lista universal y exhaustiva de estas palabras; cada  lenguage e incluso tipo de problema puede tener su propia lista de palabras de parada.

Puesto que estas listas pueden variar dependiendo de la librería o incluso entre versiones de la misma librería, incluir este paso puede dificultar la reproducción de los resultados en otros entornos. Veremos más adelante que hay otros mecanismos para lidiar con este tipo de palabras (TF, IDF).

Finalmente, quitar alguna palabra de parada como los artículos podría cambiar completamente el significado de algunas palabras compuestas. "La Paz" -> "Paz".

In [5]:
# Ejecutar en la consola REPL de python
#>>> import nltk
#>>> nltk.download('stopwords')
nltk.corpus.stopwords.words('spanish')

['de',
 'la',
 'que',
 'el',
 'en',
 'y',
 'a',
 'los',
 'del',
 'se',
 'las',
 'por',
 'un',
 'para',
 'con',
 'no',
 'una',
 'su',
 'al',
 'lo',
 'como',
 'más',
 'pero',
 'sus',
 'le',
 'ya',
 'o',
 'este',
 'sí',
 'porque',
 'esta',
 'entre',
 'cuando',
 'muy',
 'sin',
 'sobre',
 'también',
 'me',
 'hasta',
 'hay',
 'donde',
 'quien',
 'desde',
 'todo',
 'nos',
 'durante',
 'todos',
 'uno',
 'les',
 'ni',
 'contra',
 'otros',
 'ese',
 'eso',
 'ante',
 'ellos',
 'e',
 'esto',
 'mí',
 'antes',
 'algunos',
 'qué',
 'unos',
 'yo',
 'otro',
 'otras',
 'otra',
 'él',
 'tanto',
 'esa',
 'estos',
 'mucho',
 'quienes',
 'nada',
 'muchos',
 'cual',
 'poco',
 'ella',
 'estar',
 'estas',
 'algunas',
 'algo',
 'nosotros',
 'mi',
 'mis',
 'tú',
 'te',
 'ti',
 'tu',
 'tus',
 'ellas',
 'nosotras',
 'vosotros',
 'vosotras',
 'os',
 'mío',
 'mía',
 'míos',
 'mías',
 'tuyo',
 'tuya',
 'tuyos',
 'tuyas',
 'suyo',
 'suya',
 'suyos',
 'suyas',
 'nuestro',
 'nuestra',
 'nuestros',
 'nuestras',
 'vuestro'

In [6]:
import string
#string.punctuation
list(string.punctuation)

['!',
 '"',
 '#',
 '$',
 '%',
 '&',
 "'",
 '(',
 ')',
 '*',
 '+',
 ',',
 '-',
 '.',
 '/',
 ':',
 ';',
 '<',
 '=',
 '>',
 '?',
 '@',
 '[',
 '\\',
 ']',
 '^',
 '_',
 '`',
 '{',
 '|',
 '}',
 '~']

In [7]:
palabrasParada = set( nltk.corpus.stopwords.words('spanish') + list(string.punctuation))
palabrasParada

{'!',
 '"',
 '#',
 '$',
 '%',
 '&',
 "'",
 '(',
 ')',
 '*',
 '+',
 ',',
 '-',
 '.',
 '/',
 ':',
 ';',
 '<',
 '=',
 '>',
 '?',
 '@',
 '[',
 '\\',
 ']',
 '^',
 '_',
 '`',
 'a',
 'al',
 'algo',
 'algunas',
 'algunos',
 'ante',
 'antes',
 'como',
 'con',
 'contra',
 'cual',
 'cuando',
 'de',
 'del',
 'desde',
 'donde',
 'durante',
 'e',
 'el',
 'ella',
 'ellas',
 'ellos',
 'en',
 'entre',
 'era',
 'erais',
 'eran',
 'eras',
 'eres',
 'es',
 'esa',
 'esas',
 'ese',
 'eso',
 'esos',
 'esta',
 'estaba',
 'estabais',
 'estaban',
 'estabas',
 'estad',
 'estada',
 'estadas',
 'estado',
 'estados',
 'estamos',
 'estando',
 'estar',
 'estaremos',
 'estará',
 'estarán',
 'estarás',
 'estaré',
 'estaréis',
 'estaría',
 'estaríais',
 'estaríamos',
 'estarían',
 'estarías',
 'estas',
 'este',
 'estemos',
 'esto',
 'estos',
 'estoy',
 'estuve',
 'estuviera',
 'estuvierais',
 'estuvieran',
 'estuvieras',
 'estuvieron',
 'estuviese',
 'estuvieseis',
 'estuviesen',
 'estuvieses',
 'estuvimos',
 'estuviste

In [8]:
palabrasSinPalabrasDeParada = [palabra for palabra in palabras if palabra not in palabrasParada]
palabrasSinPalabrasDeParada

['Los',
 'clubes',
 'cochabambinos',
 'Olympic',
 'Albert',
 'Einstein',
 'paceño',
 'Universidad',
 'Católica',
 'Boliviana',
 'UCB',
 'avanzan',
 'paso',
 'firme',
 'constante',
 'rumbo',
 'corona',
 'Liga',
 'Superior',
 'voleibol',
 'rama',
 'femenina',
 'desarrolla',
 'coliseo',
 'Julio',
 'Borelli',
 'Vitterito',
 'La',
 'Paz',
 'luego',
 'cosechar',
 'sendas',
 'victorias',
 'noche',
 'martes',
 'El',
 'ganador',
 'representante',
 'Bolivia',
 'Liga',
 'Sudamericana',
 'Clubes',
 '2020',
 'El',
 'campeón',
 'defensor',
 'título',
 'Olympic',
 'superó',
 '3-0',
 'verdugo',
 'final',
 'edición',
 '2017',
 'cochabambino',
 'San',
 'Simón',
 'La',
 'victoria',
 'olympiquistas',
 'sets',
 '25-14',
 '25-13',
 '25-18']

# Otras tareas de limpieza que se pueden considerar

- Unificar el case - string.lower().
- Quitar acentos? probablemente no es buena idea si el contenido está en castellano
- Procesar contracciones? I'm -> I am 
- Quitar caracteres expeciales - #@!
- Quitar markup - Ej contenido HTML
- Corregir texto -typos, noooo por favoooorrr

http://norvig.com/spell-correct.html

https://github.com/fsondej/autocorrect

https://github.com/MajorTal/DeepSpell