![Texto alternativo](https://laserud.co/wp-content/uploads/2020/05/cropped-LOGOLASER-1.jpg "Grupo LASER")
# Preprocesamiento de Lenguaje Natural
El Procesamiento de Lenguaje Natural (NLP) es un área de estudio de las ciencias de la computación, la inteligencia artificial y la lingüística que se interesa por las interacciones entre las maquinas y el lenguaje humano. Se ocupa de la formulación e investigación de mecanismos eficaces computacionalmente para la comunicación entre personas y máquinas por medio del lenguaje natural (inglés, español, francés, etc.). 

El NLP ayuda a las maquinas a entender e interpretar diferentes idiomas, que sean capaces de descifrar las relaciones entre palabras, su significado y todos los elementos que componen un mensaje. Dentro de sus aplicaciones se pueden destacar: Asistentes virtuales, traducción automática de texto, recuperación de información, clasificación de textos, detección de sentimientos, etc.

Hay muchos retos que afrontar haciendo uso de NLP pues nuestros lenguajes naturales tienen una gran riqueza, ya que pasan de generación en generación, y son difíciles de precisar con reglas explícitas. Por ejemplo, usamos palabras que dependiendo del contexto pueden significar una cosa u otra, podemos usar abreviaciones, ser sarcásticos, etc. Todos estos componentes implican retos en la aplicación de NLP.

En este pequeño tutorial vamos a aprender algunas técnicas para el preprocesamiento de lenguaje natural, específicamente texto. Tenemos dos aproximaciones, la primera con un procesamiento manual y la segunda, haciendo uso de la librería para Python NLTK y Keras. Se debe tener en cuenta que el preprocesamiento aplicado a un texto depende básicamente de las necesidades del problema tratado y de las herramientas de Machine Learning utilizadas para el desarrollo.

Una actividad necesaria antes de entrenar modelos de Machine Learning para Procesamiento de Lenguaje Natural (NLP) es el preprocesamiento al texto crudo. Esto puede implicar dividir el texto en palabras, darle manejo a la puntuación, a las mayúsculas y minúsculas, etc.

Claramente, existe un conjunto de métodos de preparación de texto que se utilizarán dependiendo de la tarea de NLP que se desarrolle.

El primer paso para la limpieza del texto es tener una idea clara de lo que se quiere conseguir, en este contexto es necesario revisar el texto para comprobar que podría ayudar.

Para este ejercicio elegimos un texto simple escrito por el poeta Español Juan Ramón Jiménez en 1914. Hemos decidido utilizar esta obra para el ejemplo de hoy, pues es una obra simple, corta y el texto crudo puede ser descargado gratis desde el proyecto Gutenberg en: https://www.gutenberg.org/ebooks/39209.

Al descargar el archivo de texto, podemos darnos cuenta que el archivo elegido contiene encabezado y pie de página, y no estamos interesados en esta información. Así que abrimos el archivo y borramos esta pequeña sección del archivo.

Antes de empezar con la tarea de limpiado del texto, debemos tener claro lo que queremos conseguir, así que debemos revisar el texto para conocer exactamente que podría ayudar.

Tomemos un momento para revisar el texto y sacar nota de algunas de las observaciones importantes:
-	Es un texto sin formato, así que no hay marcas que analizar
-	Las líneas son divididas sin un formato específico.
-	Se utiliza el guion (-) para indicar aclaraciones del autor o conversaciones.
-	Se utiliza gran variedad de signos de puntuación.
-	Dentro del texto no se utilizan números.
-	Hay marcadores de sección (I, II, III, etc.)


### Lectura del Texto

Vamos a empezar cargando el texto para poder a trabajar con él. El texto que hemos elegido para este ejercicio es pequeño y no tendremos problemas para cargarlo en memoria. El proceso de lectura del archivo se realiza a continuación:

In [4]:
import requests

url = "https://github.com/LASER-UD/machinelearning/blob/main/NLP/CleanTextNLP/platero.txt?raw=true"
text = requests.get(url).text

### Tokenización Manual
Limpiar el texto generalmente conlleva a una lista de palabras o tokens con las cuales podemos trabajar en nuestros modelos de Machine Learning. Esto significa convertir el texto plano en una lista de palabras que guardaremos.

Para realizar el proceso de división podemos basarnos en los espacios en blanco del texto original, nuevas líneas, tabulaciones. Utilizando la función Split() en Python podemos obtener el resultado esperado.

In [5]:
#dividir por espacios en blanco
words = text.split()
print(words[:50])

['\ufeffADVERTENCIA', 'Á', 'LOS', 'HOMBRES', 'QUE', 'LEAN', 'ESTE', 'LIBRO', 'PARA', 'NIÑOS', 'Este', 'breve', 'libro,', 'en', 'donde', 'la', 'alegría', 'y', 'la', 'pena', 'son', 'gemelas,', 'cual', 'las', 'orejas', 'de', 'Platero,', 'estaba', 'escrito', 'para...', '¡qué', 'sé', 'yo', 'para', 'quién!...', 'para', 'quien', 'escribimos', 'los', 'poetas', 'líricos...', 'Ahora', 'que', 'va', 'á', 'los', 'niños,', 'no', 'le', 'quito']


Podemos observar que la puntuación al final de las palabras se mantiene. Por ejemplo “gemelas,”. Algunas veces queremos solo las palabras, sin signos de puntuación. Una forma de dar solución a este problema es reemplazar toda la puntuación con nada ('').

Dentro de la librería string de Python tenemos una constante con una lista de caracteres de puntuación.

Obsrvmos que dentro de la lista no hay símbolos de apertura de interrogación o admiración. Esto se presenta ya que en el idioma inglés no se usan estos símbolos. Fácilmente podemos agregarlos concatenando la lista de strings.

In [3]:
import string

print(string.punctuation)
puntuacion = string.punctuation + '¿¡'
print(puntuacion)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~¿¡


### Eliminando la Puntuación
Para realizar el reemplazo de las puntuación podemos usar dos funciones, la primera translate() con la cual podemos mapear un conjunto de caracteres a otro. La segunda función es maketrans() con la cual inicialmente crearemos una tabla de mapeo.

Crearemos una tabla de mapeo vacía, pero el tercer argumento de esta función corresponde a la lista de caracteres que queremos eliminar durante el proceso de traducción.

In [4]:
table = str.maketrans('', '', puntuacion)
stripped = [w.translate(table) for w in words]
print(stripped[:50])

['\ufeffADVERTENCIA', 'Á', 'LOS', 'HOMBRES', 'QUE', 'LEAN', 'ESTE', 'LIBRO', 'PARA', 'NIÑOS', 'Este', 'breve', 'libro', 'en', 'donde', 'la', 'alegría', 'y', 'la', 'pena', 'son', 'gemelas', 'cual', 'las', 'orejas', 'de', 'Platero', 'estaba', 'escrito', 'para', 'qué', 'sé', 'yo', 'para', 'quién', 'para', 'quien', 'escribimos', 'los', 'poetas', 'líricos', 'Ahora', 'que', 'va', 'á', 'los', 'niños', 'no', 'le', 'quito']


Obtuvimos los resultados esperados. Se eliminaron los signos de puntuación. Pero ahora podemos ver que hay palabras con mayúsculas y otras en minúscula. El siguiente paso es normalizar las palabras dejándolas todas en minúscula, esto con el objetivo principal de reducir el vocabulario.

### Normalizando a Minúsculas

Con este proceso se reduce el tamaño del vocabulario, sin embargo se pierden algunas distinciones de nombres propios. Podemos convertir todas las palabras a minúscula utilizamos la función lower() para cada palabra, como se muestra a continuación:

In [5]:
words = [word.lower() for word in words]
print(words[:20])

['\ufeffadvertencia', 'á', 'los', 'hombres', 'que', 'lean', 'este', 'libro', 'para', 'niños', 'este', 'breve', 'libro,', 'en', 'donde', 'la', 'alegría', 'y', 'la', 'pena']


Hemos realizado un proceso básico manual de preparación de texto, sin embargo, hay disponibles librerías para Python que pueden hacer el proceso de preparación un poco más sencillo. A continuación, vamos a trabajar con la librería NLTK (Natural Language Toolkit).

# NLTK
NLTK es una librería de código abierto para Python, cuyo principal objetivo es trabajar con datos de lenguaje humano. Está destinado a apoyar la investigación y la enseñanza del NLP o áreas relacionadas que incluyen lingüística, recuperación de información, etc.

La página web del proyecto es: https://www.nltk.org/. Allí podemos encontrar información sobre la librería, un libro guía escrito por los desarrolladores de NLTK, donde se explican categorización de textos, análisis de estructura lingüística, etc.

### Dividiendo en Oraciones
Un buen primer paso es dividir el texto en oraciones. En NLTK encontramos una función que nos ayuda con esta tarea: sent_tokenize(). Al ejecutar esta función con nuestro texto de ejemplo, podemos observar como este es dividido en párrafos, incluso se mantienen los saltos de línea del texto.

Esta función es útil, ya que en algunos casos podemos necesitar dividir el texto en oraciones y luego cada una de ellas dividirla en palabras y guardar esta lista en archivos independientes por cada oración.


In [6]:
from nltk import sent_tokenize

sentences = sent_tokenize(text)
print(sentences[0])

﻿ADVERTENCIA Á LOS HOMBRES

QUE LEAN ESTE LIBRO PARA NIÑOS


Este breve libro, en donde la alegría y la pena
son gemelas, cual las orejas de Platero, estaba
escrito para... ¡qué sé yo para quién!...


### Dividiendo en Tokens

La librería NLTK también nos brinda una función que divide el texto en palabras o tokens: word_tokenize(). Esta función utiliza los espacios en blanco y la puntuación para hacer la división.

In [7]:
from nltk.tokenize import word_tokenize
tokens = word_tokenize(text)
print(tokens[:50])

['\ufeffADVERTENCIA', 'Á', 'LOS', 'HOMBRES', 'QUE', 'LEAN', 'ESTE', 'LIBRO', 'PARA', 'NIÑOS', 'Este', 'breve', 'libro', ',', 'en', 'donde', 'la', 'alegría', 'y', 'la', 'pena', 'son', 'gemelas', ',', 'cual', 'las', 'orejas', 'de', 'Platero', ',', 'estaba', 'escrito', 'para', '...', '¡qué', 'sé', 'yo', 'para', 'quién', '!', '...', 'para', 'quien', 'escribimos', 'los', 'poetas', 'líricos', '...', 'Ahora', 'que']


Al ejecutar el código, podemos observar que además de las palabras, los signos de puntuación también son tokens. Dependiendo de la necesidad podemos decidir filtrarlos. Un caso particular a destacar se da con los signos de admiración o pregunta al inicio de una palabra, estos no son tomados como tokens sino como parte de la palabra como tal. Esto se debe a que en inglés no se usan estos símbolos. Primero debemos eliminarlos de nuestras palabras, ejecutando la traducción que aprendimos antes en el tutorial.

Podemos filtrar tokens en los cuales no estamos interesados, tales como signos de puntuación aislados. Tenemos que iterar sobre todos los tokens y mantener solo aquellos que son alfabéticos. Para esto utilizamos la función de Python isalpha().

Ejecutamos el código y podemos observar como la puntuación ya está filtrada y tenemos solo la lista de palabras que queremos.

In [8]:
puntuacion = string.punctuation + '¿¡'
table = str.maketrans('', '', puntuacion)
stripped = [w.translate(table) for w in tokens]

words = [word for word in stripped if word.isalpha()]
print(words[:50])

['Á', 'LOS', 'HOMBRES', 'QUE', 'LEAN', 'ESTE', 'LIBRO', 'PARA', 'NIÑOS', 'Este', 'breve', 'libro', 'en', 'donde', 'la', 'alegría', 'y', 'la', 'pena', 'son', 'gemelas', 'cual', 'las', 'orejas', 'de', 'Platero', 'estaba', 'escrito', 'para', 'qué', 'sé', 'yo', 'para', 'quién', 'para', 'quien', 'escribimos', 'los', 'poetas', 'líricos', 'Ahora', 'que', 'va', 'á', 'los', 'niños', 'no', 'le', 'quito', 'ni']


### Filtrando Palabras Vacias
Las palabras comunes o palabras vacías (stop words) son aquellas palabras que no contribuyen en gran medida a las ideas de una oración. Son palabras comunes como: “el”, “la”, “es”, etc.

Para algunas aplicaciones puede tener sentido eliminar las palabras vacías. Así que NLTK cuenta con una lista de palabras vacías en diversos idiomas, en este caso nos interesa el español. Podemos ver la lista de palabras como sigue:

In [9]:
from nltk.corpus import stopwords
stop_words = stopwords.words('spanish')
print(stop_words)

['de', 'la', 'que', 'el', 'en', 'y', 'a', 'los', 'del', 'se', 'las', 'por', 'un', 'para', 'con', 'no', 'una', 'su', 'al', 'lo', 'como', 'más', 'pero', 'sus', 'le', 'ya', 'o', 'este', 'sí', 'porque', 'esta', 'entre', 'cuando', 'muy', 'sin', 'sobre', 'también', 'me', 'hasta', 'hay', 'donde', 'quien', 'desde', 'todo', 'nos', 'durante', 'todos', 'uno', 'les', 'ni', 'contra', 'otros', 'ese', 'eso', 'ante', 'ellos', 'e', 'esto', 'mí', 'antes', 'algunos', 'qué', 'unos', 'yo', 'otro', 'otras', 'otra', 'él', 'tanto', 'esa', 'estos', 'mucho', 'quienes', 'nada', 'muchos', 'cual', 'poco', 'ella', 'estar', 'estas', 'algunas', 'algo', 'nosotros', 'mi', 'mis', 'tú', 'te', 'ti', 'tu', 'tus', 'ellas', 'nosotras', 'vosotros', 'vosotras', 'os', 'mío', 'mía', 'míos', 'mías', 'tuyo', 'tuya', 'tuyos', 'tuyas', 'suyo', 'suya', 'suyos', 'suyas', 'nuestro', 'nuestra', 'nuestros', 'nuestras', 'vuestro', 'vuestra', 'vuestros', 'vuestras', 'esos', 'esas', 'estoy', 'estás', 'está', 'estamos', 'estáis', 'están', 'e

Como podemos observar la lista es extensa. Todas las palabras están en minúscula y claramente sin puntuación. Podemos comparar estas palabras con los tokens y eliminarlas, pero debemos asegurar que nuestro texto está preparado en el mismo sentido.

Vamos a hacer una pequeña lista de tareas que nos indicará los pasos para la preparación del texto:
1.	Cargar el texto “crudo”
2.	Dividirlo en tokens
3.	Convertirlo a minúsculas
4.	Eliminar los signos de puntuación
5.	Eliminar tokens que son palabras vacías


In [10]:
#Convertimos las palabras a minusculas
words = [w.lower() for w in words]

#Filtramos las palabras comunes
words = [w for w in words if not w in stop_words]
print(words[:50])

['á', 'hombres', 'lean', 'libro', 'niños', 'breve', 'libro', 'alegría', 'pena', 'gemelas', 'orejas', 'platero', 'escrito', 'sé', 'quién', 'escribimos', 'poetas', 'líricos', 'ahora', 'va', 'á', 'niños', 'quito', 'pongo', 'coma', 'bien', 'dondequiera', 'niños', 'dice', 'nóvalis', 'existe', 'edad', 'oro', 'pues', 'edad', 'oro', 'isla', 'espiritual', 'caída', 'cielo', 'anda', 'corazón', 'poeta', 'encuentra', 'allí', 'tan', 'á', 'gusto', 'mejor', 'deseo']


### Palabras Raíz

El steamming es un proceso para reducir una palabra a su raíz o base. Algunas aplicaciones, como la clasificación de documentos, se pueden beneficiar de la aplicación del steamming. Por una parte, se reduce el vocabulario, mientras que se enfoca en la idea o sentimiento de un texto más que un significado profundo.

Hay diversos algoritmos de stemming, aunque un método popular y confiable es el algoritmo Porter Stemming. Este algoritmo está disponible en la librería NLTK mediante la clase PorterSteammer.


In [11]:
from nltk.stem.porter import PorterStemmer
porter = PorterStemmer()
stemmed = [porter.stem(word) for word in tokens]
print(stemmed[:50])

['\ufeffadvertencia', 'á', 'lo', 'hombr', 'que', 'lean', 'est', 'libro', 'para', 'niño', 'est', 'breve', 'libro', ',', 'en', 'dond', 'la', 'alegría', 'y', 'la', 'pena', 'son', 'gemela', ',', 'cual', 'la', 'oreja', 'de', 'platero', ',', 'estaba', 'escrito', 'para', '...', '¡qué', 'sé', 'yo', 'para', 'quién', '!', '...', 'para', 'quien', 'escribimo', 'lo', 'poeta', 'lírico', '...', 'ahora', 'que']


Al ejecutar el ejemplo podemos observar que las palabras se han reducido a su base; además, las palabras quedaron normalizadas en minúscula.

## Preprocesamiento con Keras
Usando la librería Keras podemos realizar la preparación de los datos crudos para poder usarlos con topologías de Machine Learning.

### Función text_to_word_sequence

Primero observaremos como podemos dividir texto en palabras o tokens usando la función text_to_word_sequence(). Esta función realiza automáticamente tres procesos:
-	Divide el texto basándose en los espacios
-	Filtra la puntuación, pero nuevamente los signos “¿¡” no son considerados en el idioma inglés
-	Convierte el texto a minúsculas

Podemos ver un ejemplo de funcionamiento a continuación, con una cadena de texto simple:


In [12]:
from keras.preprocessing.text import text_to_word_sequence
import string

filters = string.punctuation+ '¿¡'
text = "¡Esto es una prueba!¿Cómo vas?"
result = text_to_word_sequence(text, filters=filters, lower=True, split=' ')
print(result)

Using TensorFlow backend.


['esto', 'es', 'una', 'prueba', 'cómo', 'vas']


Como se mencionó anteriormente, algunos signos de puntuación no son tomados en cuenta para el filtrado originalmente. Por lo que realizamos un proceso adicional para eliminar estos signos que no nos interesan, especificando nosotros mismos los caracteres a filtrar.

### Codificación con one_hot
Keras nos brinda una función que podemos utilizar para tokenizar y codificar con enteros un documento en un solo paso. Esta función retorna una versión codificada con enteros del documento. El uso de una función hash significa que pueden presentarse colisiones y que no se asignarán valores enteros únicos a todas las palabras.

Esta función convertirá el texto a minúsculas, filtrará la puntuación y dividirá el texto basándose en los espacios.
Para utilizar esta función, debemos especificar además del texto, el tamaño del vocabulario o el total de palabras. Este debe ser igual al número total de palabras en el documento o mayor si tu pretendes codificar otros documentos que puedan contener palabras adicionales. El tamaño del vocabulario define el espacio de hashing desde las cuales las palabras son divididas. Idealmente, este debe ser más grande que el vocabulario por algún porcentaje (tal vez 25%) para minimizar el número de colisiones. Por defecto, se utiliza la función hash aunque podemos alternar funciones hash cuando llamamos la función hashing_trick() directamente.

Para conocer el número total de palabras en el texto, podemos usar la función text_to_word_sequence(), y luego localizar solo las palabras únicas en el documento. El número de palabras totales puede ser usado para estimar el tamaño del vocabulario para un documento.

Vamos a ver un ejemplo, donde aumentamos el tamaño del vocabulario en un 30% para minimizar colisiones cuando se codifiquen las palabras.

In [13]:
from keras.preprocessing.text import one_hot

filters = string.punctuation+ '¿¡'
text = "¡Esto es una prueba!¿Cómo vas?"

vocab_size = len(set(text_to_word_sequence(text, filters=filters)))

print(vocab_size)

result = one_hot(text, round(vocab_size*1.3), filters=filters)
print(result)

6
[3, 6, 4, 7, 6, 4]


### Codificación Con hashing_trick

Una limitación de las codificaciones en base entera y de conteo es que se debe mantener un vocabulario de palabras y su asignación a enteros.

Una alternativa a este enfoque es utilizar una función hash unidireccional para convertir las palabras a enteros. Esto evita la necesidad de seguir un vocabulario, lo cual es más rápido y requiere menos memoria.

Keras nos brinda la función hashing_trick() que toqueniza y posteriormente codifica con enteros el documento, tal como la función one_hot(). Esta función proporciona mayor flexibilidad, permitiéndote especificar la función de hash. Por defecto la función de hash es “hash”, sin embargo, se puede elegir la función “md5” o incluso una función propia.

A continuación, se muestra un ejemplo del uso de la función hashing_trick().

In [14]:
from keras.preprocessing.text import hashing_trick

filters = string.punctuation+ '¿¡'
text = "¡Esto es una prueba!¿Cómo vas?"

vocab_size = len(set(text_to_word_sequence(text, filters=filters)))
result = hashing_trick(text, round(vocab_size*1.3), hash_function='md5')
print(result)

#si no especificamos el parámetro hash_function, por defecto toma "hash"
result = hashing_trick(text, round(vocab_size*1.3))
print(result)

[5, 7, 7, 5, 4, 2]
[2, 6, 4, 7, 1, 4]


Los desarrolladores nos advierten que 'hash' no es una función hash estable, por lo que no es consistente a través de diferentes ejecuciones, mientras que 'md5' es una función hash estable.

### Tokenizer API

Adicional a las funciones que hemos tratado anteriormente, Keras nos brinda una API más sofisticada para procesar texto que puede ser ajustada y reusada para preparar múltiples documentos. Esta puede ser la aproximación preferida para proyectos grandes.

Keras proporciona la clase Tokenizer para preparar documentos de texto para proyectos de Deep Learning. El tokenizer debe ser construido y entonces ser ajustado en documentos de texto crudo o documentos de texto codificado con enteros.
Una vez se ajusta el Tokenizer, este tiene cuatro atributos que podemos utilizar para conocer que se ha aprendido del documento.
-	Word_counts: un diccionario de palabras y sus conteos.
-	Word_docs: un diccionario de palabras y en cuantos documentos aparece cada una.
-	Word_index: un diccionario de palabras y sus enteros únicos asignados.
-	Document_count: un recuento del número total de documentos que se utilizaron para ajustar el Tokenizer.
Una vez el Tokenizer es ajustado a los datos de entrenamiento, este puede ser utilizado para codificar documentos en los conjuntos de prueba o validación.

La función text_to_matrix() en el Tokenizer, puede ser utilizada para crear un vector por documento proporcionado por entrada. La longitud del vector es el tamaño total del vocabulario.

Esta función proporciona un conjunto de esquemas de codificación de texto del modelo Bag of Words estándar que puede proporcionarse mediante un argumento a la función.

Los modos disponibles son:
-	‘binary’: donde se presenta o no cada palabra en el documento. Esta es el modo por defecto.
-	‘count’: El conteo de cada palabra en el documento.
-	‘tfidf’: La puntuación Text Frequency-Inverse Document Frequency (TF-IDF) de cada palabra del documento.
-	‘freq’: La frecuencia de cada palabra como proporción de palabras dentro de cada documento.


In [15]:
from keras.preprocessing.text import Tokenizer

filters = string.punctuation+ '¿¡'

#definimos el texto como lista
text = ["¡Esto es una prueba!¿Cómo es una prueba?"]
t = Tokenizer(char_level=False, filters=filters)
t.fit_on_texts(text)

print(t.word_counts)
print(t.document_count)
print(t.word_index)
print(t.word_docs)

encoded_docs = t.texts_to_matrix(text, mode='count')
print(encoded_docs)

OrderedDict([('esto', 1), ('es', 2), ('una', 2), ('prueba', 2), ('cómo', 1)])
1
{'es': 1, 'una': 2, 'prueba': 3, 'esto': 4, 'cómo': 5}
defaultdict(<class 'int'>, {'prueba': 1, 'esto': 1, 'cómo': 1, 'una': 1, 'es': 1})
[[0. 2. 2. 2. 1. 1.]]


## Conclusión
En este tutorial aprendimos algunos métodos básicos importantes para la preparación de datos para aplicaciones de NLP. En las próximas entradas vamos a aplicar estos métodos de preprocesamiento para ejemplificar mejor el funcionamiento del NLP usando Machine Learning. Por el momento, sabemos que dependiendo de las necesidades específicas del problema aplicaremos unas u otras técnicas de preprocesamiento, también entendemos que empezamos explicando técnicas sencillas, pero de mucha utilidad práctica. En el tutorial se fue avanzando desde el procesamiento manual, hasta el procesamiento con librerías importantes en el área de NLP y Machine Learning, como NLTK y Keras.