# Procesamiento de Lenguaje Natural


**Vanessa Gómez Verdejo, Emilio Parrado Hernández,  Pablo Martínez Olmos**

Departamento de Teoría de la Señal y Comunicaciones

**Universidad Carlos III de Madrid**

<img src='http://www.tsc.uc3m.es/~emipar/BBVA/INTRO/img/logo_uc3m_foot.jpg' width=400 />


In [None]:
%matplotlib inline  
# Figures plotted inside the notebook
%config InlineBackend.figure_format = 'svg'  
# High quality figures
import matplotlib.pyplot as plt
import numpy as np

# Introducción

Hasta ahora hemos estado trabajando con datos de tipo  numérico o categórico. En esta sesión vamos a ver cómo trabajar con nuestros datos cuando éstos son cadenas de texto. A diferencia de los datos categóricos, en los que tenemos cadenas de texto asociadas a diferentes categorías y que podemos codificar fácilmente (por ejemplo, con un one-hot-encoding), cuando hablamos aquí de información textual nos referimos a frases, documentos y/o corpus de datos con estructura mucho más compleja. Idealmente, a partir de estos datos textuales tenemos que extraer la información necesaria (a poder ser incluyendo contenido semántico) y vectorizarla adecuadamente para poder utilizar o usar modelos de aprendizaje a partir de ella.

En general, gran parte de la forma en que nos comunicamos hoy en día es a través de texto escrito, ya sea en servicios de mensajería, medios sociales y/o correo electrónico. Así, por ejemplo, en servicios/aplicaciones como TripAdvisor, Booking, Amazon, etc., los usuarios escriben reseñas de restaurantes/negocios, hoteles, productos para compartir sus opiniones sobre su experiencia. Estas reseñas, todas escritas en formato de texto, contienen una gran cantidad de información que sería útil responder preguntas relevantes para el negocio usando métodos de aprendizaje automático, por ejemplo, para predecir el mejor restaurante en una determinada zona. 

Este tipo de tarea (preprocesado) se denomina **procesamiento del lenguaje natural** (Natural Language Processing, NLP).
El NLP es un subcampo de la lingüística, la informática y la inteligencia artificial que se ocupa de las interacciones entre los ordenadores (o procesadores) y el lenguaje humano; en particular engloba un conjunto de técnicas para permitir que los ordenadores procesen y analicen grandes cantidades de texto.



# Pipeline para el procesado de texto 

Como sabemos, los algoritmos de ML procesan números, no palabras, por lo que necesitamos transformar el texto en números significativos que contengan la información relevante de los documentos. Este proceso de convesión de texto a números es lo que llamaremos **vectorización**. 

No obstante, para tener una representación útil, se requieren normalmente algunos pasos de **preprocesamiento** previo que limpien y homogenizen los documentos: tokenización, eliminación de *stop-words*, lematización, etc.
La siguiente figura muestra los diferentes pasos que debemos seguir para procesar nuestros documentos hasta poder ser utilizados por nuestro modelo de aprendizaje:

<img src="http://www.tsc.uc3m.es/~vanessa/Figs_notebooks/BBVA/NLP/PipelineNLP.png" width="80%"> 

A lo largo de este notebook, veremos las herramientas que tenemos disponibles en Python para llevar a cabo todos estos pasos. Concretamente, nos centraremos en el uso de dos librerias:
* [NLTK, Natural Language ToolKit](https://www.nltk.org/). Esta libreria es una excelente biblioteca de NLP escrita en Python por expertos tanto del mundo académico como de la industria. NLTK Permite crear aplicaciones con datos textuales rápidamente, ya que proporciona un conjunto de clases básicas para trabajar con corpus de datos, incluyendo colecciones de textos (corpus), listas de palabras clave, clases para representar y operar con datos de tipo texto (documentos, frases, palabras, ...) y funciones para realizar tareas comunes de NLP (conversión a token, conteo de palabras, ...). Por lo que va a ser de gran ayuda para el preprocesado de los documentos.
* [Gensim](https://pypi.org/project/gensim/) es otra librería de Python para el modelado por temáticas (*topic modeling*), la indexación de documentos y tareas de recuperación de la información para documentos. Está diseñada para operar con grandes cantidades de información (con implementaciones eficientes y paralelizables/distribuidas) y nos va a ser de gran ayuda para la vectorización de nuestros corpus de datos una vez preprocesados.

Empecemos este notebook cargando la librería NLTK y algunas de sus funcionalidades. A continuación, elegiremos un corpus de datos con el que empezar a analizar las funcionalidades básicas que aportan NLTK y Gensim y sobre el que veremos, uno por uno, en qué consisten los diferentes pasos de nuestro pipeline y cómo podemos implementarlos.

In [None]:
import nltk
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')

# 1. Cargando nuestro corpus de datos

NLTK incluye diferentes corpus de datos  con los que podemos probar nuestras herramientas. Podemos encontrar información de todos ellos en [NLTK corpus](https://www.nltk.org/book/ch02.html).



## El objeto CorpusReader
Para empezar a trabajar vamos a usar el corpus **inaugural**, uno de los corpus de datos incluidos en NLTK y que consiste en 58 documentos de texto con los discursos presidenciales de los presidentes de EEUU.

La siguiente celda de código nos muestra cómo cargar el corpus...

In [None]:
from nltk.corpus import inaugural
nltk.download('inaugural')
inaugural

Al cargar el corpus, se genera un objeto de tipo `CorpusReader`, llamado `inaugural`, con el contenido del mismo. Dado que un corpus es una colección de documentos/textos, podemos ver que documentos componen este corpus usando la función `.fileids()`.

In [None]:
print(inaugural.fileids())

Una característica de este corpus es que los documentos que lo forman tienen información sobre el año de cada documento. Podemos crear una lista de los años de cada discurso usando [list comprenhension](https://www.pythonforbeginners.com/basics/list-comprehensions-in-python):


In [None]:
years = [fileid[:4] for fileid in inaugural.fileids()]
print(years)

También podemos usar la función `.words()` de `inaugural` para acceder a las palabras que componen los documentos del corpus.

In [None]:
print(inaugural.words())
print(len(inaugural.words()))

Si queremos podemos acceder a un **documento** concreto del corpus y extraer su contenido en crudo con la función `.raw()`. 

In [None]:
trump_text = inaugural.raw('2017-Trump.txt')
trump_text

La varaible `trump_text` que obtenemos es un único string (con todas las funciones de los tipos string) que contiene todas las palabras del documento que hemos especificado. Por ejemplo, podemos ver los primeros 20 caracteres de este documento como:

In [None]:
print(type(trump_text))

print(trump_text[:20])

print('\n The total number of characters in the document is %d' %(len(trump_text)))

El CorpusReader también nos permite cargar documentos estructurados por **frases**. Para ello tenemos que usar la función `.sents()`.

In [None]:
trump_sents = inaugural.sents('2017-Trump.txt')
print('\n The total number of sentences in the document is %d' %(len(trump_sents)))
print(trump_sents[:5])

O, directamente, cargarlo a nivel de **palabras** (o **tokens**) usando el método `.words()`. Nótese que cuando hablamos de palabra o token no sólo son palabras con significado, sino que pueden ser números o signos de puntuación.

In [None]:
trump_words = inaugural.words('2017-Trump.txt')
print('\n The total number of words in the document is %d' %(len(trump_words)))
print(trump_words[:5])

# 2. Preprocesado del corpus

Antes de transformar los datos de entrada de texto en una representación vectorial, necesitamos estructurar y limpiar el texto, y conservar toda la información que permita capturar el contenido semántico del corpus.

Para ello, el procesado típico de NLP aplica los siguientes pasos:

1. Tokenización
2. Homogeneización
3. Limpieza

## 2.1. Tokenization

**Tokenización** es el proceso de dividir el texto dado en piezas más pequeñas llamadas tokens. Las palabras, los números, los signos de puntuación y otros pueden ser considerados como tokens.

Ya hemos visto que el objeto `CorpusReader` incluye funciones para dividir el corpus en frases o palabras. Pero NLTK incluye también funciones genéricas para hacer estas operaciones sobre cualquier cadena de texto. En concreto, tiene dos funciones:
- `sent_tokenize`: es un tokenizador de frases. Este tokenizador divide un texto en una lista de oraciones. Para decidir dónde empieza o acaba una frase NLTK tiene un modelo pre-entrenado para el idioma específico en el que estemos trabajando. Este modelo lo hemos cargado al principio con `nltk.download('punkt')`.
- `word_tokenize`/`wordpunct_tokenize`:  Divide un texto en palabras u otros caracteres individuales cómo pueden ser signos de puntuación.

Veamos como funcionan estas funciones con el siguiente texto:

In [None]:
texto = 'I\'m a dog and it\'s great! You\'re cool and Sandy\'s book is big. Don\'t tell her, you\'ll regret it! "Hey", she\'ll say!'

In [None]:
sent=nltk.sent_tokenize(texto)
print(sent)

In [None]:
sent_tokens1=nltk.wordpunct_tokenize(texto)
print(sent_tokens1)

In [None]:
sent_tokens2=nltk.word_tokenize(texto)
print(sent_tokens2)

Aunque puede parecer que las funciones `wordpunct_tokenize` y `word_tokenize` hacen lo mismo, con este ejemplo vemos que `wordpunct_tokenize` permite separar los signos de puntuación mientras que `word_tokenize` no.  Nótese la diferencia al dividir `I'm` entre ambas funciones.

También podemos combinar `sent_tokenize` y `word_tokenize` para tener frases y cada frase divida en tokens:

In [None]:
for sent in nltk.sent_tokenize(texto):
    print(nltk.wordpunct_tokenize(sent))
    print("**************")

#### Ejercicio 1: Tokenización del texto



Seleccionemos ahora uno de los textos de nuestro corpus y veamos cómo aplicar estas funciones:

In [None]:
# Get a text
trump_text = inaugural.raw('2017-Trump.txt')

Complete la siguiente celda de código para dividir el texto en frases e imprima las 5 primeras frases.

In [None]:
#<SOL>
#</SOL>

Complete las siguientes celdas de código para dividir el texto en tokens (considerando y sin considerar la puntuación) e imprima los primeros 5 tokens

In [None]:
#<SOL>
#</SOL>

In [None]:
#<SOL>
#</SOL>

## 2.2. Homogeneización

Al observar los tokens del corpus podemos ver que hay muchos tokens con algunas letras en mayúsculas y otras en minúsculas, el mismo token unas veces aparece en singular y otras en plural, o el mismo verbo que aparece en diferentes tiempos verbales. Para analizar semánticamente el texto, nos interesa  **homogeneizar** las palabras que formalmente son diferentes pero tienen el mismo significado.

Para ello podemos usar las herramientas de lematización de NLTK. El proceso habitual de homogeneización consiste en los siguientes pasos:

1. Eliminación de las mayúsculas y caracteres no alfanuméricos: de este modo los caracteres alfabéticos en mayúsculas se transformarán en sus correspondientes caracteres en minúsculas y  se eliminarán los caracteres no alfanuméricos, por ejemplo, los signos de puntuación.

2. Stemming/Lematización: eliminar las terminaciones de las palabras para preservar su raíz de las palabras e ignorar la información gramatical (eliminamos marcas de plurales, género, conjugaciones verbales, ...).

Veamos como ir aplicando uno a uno cada uno de estos pasos sobre el texto anterior una vez tokenizado por palabras.

In [None]:
# Get and tokenize the text
trump_text = inaugural.raw('2017-Trump.txt')
trump_tokens=nltk.wordpunct_tokenize(trump_text)
print(trump_tokens)


#### **Ejercicio 2**: eliminación de mayúsculas y caracteres no alfanuméricos

Convierte todos los tokens de `trump_tokens` a minúsculas (usando el método `.lower()`) y elimina los tokens no alfanuméricos (que puedes detectar con el método `.isalnum()`). Este procesado puedes codificarlo una sola línea de código usando list comprehension.

In [None]:
#<SOL>
#</SOL>

**Stemming and Lemmatización**

En el lenguaje común, las palabras pueden tomar diferentes formas indicando género, cantidad, tiempo (en el caso de los verbos), formas concretas para nombres/adjetivos o adverbios, ... Para muchas aplicaciones, es útil normalizar estas formas en alguna palabra canónica que facilite su análisis. Hay dos maneras de realizar este proceso:

1. El proceso de **stemming** reduce las palabras a su base o raíz 

      running --> run

      flowers --> flower

  Para poder hacer esta transformación necesitamos librerías específicas que tienen almacenadas para el vocabulario de cada idioma las raices de dicho vocabulario y hacen esta conversión. En NLTK hay varios stemmers disponibles:
  * Lancaster (inglés, es más reciente y bastante agresivo)
  * Porter (inglés, es el stemmer original)
  * Snowball  (incluye muchos idiomas y es el más nuevo)

    
2. El objetivo de la **lematización**, al igual que el stemmer, es reducir las formas inflexionales a una forma base común. A diferencia del steming, la lematización no se limita a cortar las inflexiones. En su lugar, utiliza bases de conocimiento léxico para obtener las formas básicas correctas de las palabras. 

    women   --> woman

    foxes   --> fox
    
  La lematización en NLTK se basa en el léxico de [WordNet](https://wordnet.princeton.edu/). WordNet es un diccionario de inglés de orientación semántica, incluye el inglés WordNet con 155.287 palabras y 117.659 conjuntos de sinónimos. 

Veamos cómo funcionan el stemming y la lematización con un ejemplo:   

In [None]:
from nltk.stem.snowball import SnowballStemmer
from nltk.stem.lancaster import LancasterStemmer
from nltk.stem.porter import PorterStemmer

text = list(nltk.word_tokenize("The women running in the fog passed bunnies working as computer scientists."))

# Load several stemmers 
snowball = SnowballStemmer('english')
lancaster = LancasterStemmer()
porter = PorterStemmer()

for stemmer in (snowball, lancaster, porter):
    stemmed_text = [stemmer.stem(t) for t in text]
    print(" ".join(stemmed_text))

In [None]:
from nltk.stem.wordnet import WordNetLemmatizer

# Try lemmatizer
lemmatizer = WordNetLemmatizer()
lemmas = [lemmatizer.lemmatize(t) for t in text]
print(" ".join(lemmas))

Compara cómo los diferentes procesos transforman palabras como `women`, `running` o `computer`.

Una de las ventajas de la lematización es que el resultado sigue siendo una palabra, lo que es más aconsejable para la presentación de los resultados del procesado de textos.

Sin embargo, sin utilizar información contextual, `lemmatize()` no elimina las diferencias gramaticales. Por esta razón, "running" o "passed" se conservan y no se sustituyen por el infinitivo "run" o "pass".

Como alternativa, podemos aplicar `.lemmatize(word, pos)`, donde `pos` es un código de cadena que especifica función gramatical de las palabras en su oración. Por ejemplo, se puede comprobar la diferencia entre `wnl.lemmatize('running')` y `wnl.lemmatize('running', pos='v')`.


In [None]:
print(lemmatizer.lemmatize('running'))
print(lemmatizer.lemmatize('running', pos='v'))

Notese que ninguno de los dos da una solución perfecta... al final este proceso requiere de supervisión manual que nos permita afinar esta homogeneización lo mejor posible. En ocasiones lo que se hace es que se aplica un primer lematizado y sobre un stemming:

In [None]:
lemmas_text = [lemmatizer.lemmatize(t) for t in text]
stemmed_text = [snowball.stem(t) for t in lemmas_text]

print(stemmed_text)

#### **Ejercicio 3**: Stemming/Lematización

Aplique el proceso de stemming y lematización sobre el texto del discurso inaugural de Trump resultantes del proceso de filtrado anterior (salida del Ejercicio 2).

In [None]:
#<SOL>
#</SOL>

## 2.3. Limpieza

El último paso del preprocesado consiste en eliminar las palabras irrelevantes o **stop words** de los documentos. Las **stop words** son las palabras más comunes en un idioma como "el", "a", "sobre", "es", "todo". Estas palabras no tienen un significado importante y normalmente se eliminan de los textos. Para aplicar este proceso, se cargan librerías específicas que contienen este listado de palabras por cada idioma.

Además, este paso suele utilizarse para eliminar las marcas de puntaución (',', '.', '?', ....), para lo que también tenemos que cargar otro módulo con los signos de puntuación. 


In [None]:
from nltk.corpus import stopwords
stopwords_en = stopwords.words('english')
print(stopwords_en[:100])

In [None]:
import string
punctuation = string.punctuation
print(punctuation)


Veamos como aplicarlo con un ejemplo:

In [None]:
text = nltk.word_tokenize('I\'m a dog and it\'s great! You\'re cool and Sandy\'s book is big. Don\'t tell her, you\'ll regret it! "Hey", she\'ll say!')
print(text)

In [None]:
clean_text1 = [token for token in text if (token not in stopwords_en)] 
print(clean_text1)   

In [None]:
clean_text2 = [token for token in text if (token not in punctuation)] 
print(clean_text2)   

#### **Ejercicio 4**: Eliminación de stop-words y puntuación

Aplique conjuntamente el proceso de eliminación de stop-words y puntuación sobre el texto del discurso inaugural de Trump resultantes del proceso de filtrado y lematización anterior (salida Ejercicio 3).

In [None]:
print('Texto filtrado y lematizado:')
print(trump_tokens_stem)
#<SOL>
#</SOL>

Nota: En el primer paso ya eliminamos las marcas de puntuación con la función es `.isalnum()`; por lo que no sería necesario eliminar de nuevo la puntuación. 

## 2.4 Pipeline de preprocesado o normalización del texto

Por último, y para facilitar su uso posterior, vamos a juntar estos tres pasos en una única función que nos permita realizar la tokenización, homogeneización y limpieza con una única llamada a una función.

#### **Ejercicio 5**: Función para la normalización de textos

Complete el código de la siguiente función para poder hacer todos los pasos anteriores en una única función y luego pruebe a utilizarla sobre el texto del discurso inaugural de Trump

In [None]:
## Load Modules
lemmatizer  = WordNetLemmatizer()
snowball = SnowballStemmer('english')
stopwords   = set(nltk.corpus.stopwords.words('english'))
punctuation = string.punctuation

def normalize(text):
    normalized_text = []
    for token in nltk.word_tokenize(text):
        #<SOL>
#</SOL>

In [None]:
trump_text = inaugural.raw('2017-Trump.txt')
print('Texto original (primeros 200 caracteres...):')
print(trump_text[:200])
trump_text_preproc = normalize(trump_text)
print('*******************')
print('Texto preprocesado:')
print(trump_text_preproc)

#### **Ejercicio 6**: Preprocesando el corpus de datos

Para poder trabajar de ahora en adelante con todos los documentos del corpus de datos preprocesados, aplique el pipeline de preprocesado a todos los documentos del corpus de datos `inaugural`. Guarde el resultado en una variable de tipo lista, llamada `corpus_prec`, donde cada elemento de la lista será un texto preprocesado.

In [None]:
#<SOL>
#</SOL>

In [None]:
print('Número de documentos en el corpus preprocesado:')
print(len(corpus_prec))
print('**********')
print('Algunos de los elementos del primer documento preprocesado')
print(corpus_prec[0][:20])
print('**********')
print('Algunos de los elementos del segundo documento preprocesado')
print(corpus_prec[1][:20])
print('**********')
print('Algunos de los elementos del tercer documento preprocesado')
print(corpus_prec[3][:20])

# 3. Vectorización

Hasta este punto, hemos transformado la colección de textos en bruto en una lista de textos, en la que cada texto es una colección de las raíces de las palabras más relevantes para el análisis semántico. Ahora, necesitamos convertir estos datos (una lista de listas de tokens) en una representación numérica (una lista de vectores, o una matriz). 

Antes de pasar a hacer esta vectorización, documento a documento, vamos a hacer un **análisis frecuencial** del contenido del corpus preprocesado. Para ello vamos a obtener:
- Un recuento de palabras: número de veces que aparece cada palabra en el corpus.
- El vocabulario: conjunto de palabras únicas dentro del corpus.
- La diversidad léxica: la relación entre el número de palabras y el vocabulario.

Y para ello vamos a usar la dos clases muy útiles de NLTK que nos permiten hacer estos análisis de frecuencia:

- `FreqDist`
- `ConditionalFreqDist` 


## 3.1 Análisis de frecuencias del corpus

Para empezar a hacer este análisis, vamos a convertir nuestra lista de documentos, donde cada documento tiene una lista de tokens, en una única lista con todos los tokens del corpus. Una vez hecha esta conversión, utilizamos `FreqDist` y algunos de sus métodos para analizar frecuencialmente el contenido del corpus.

In [None]:
tokens_corpus = [token for doc in corpus_prec for token in doc]
counts  = nltk.FreqDist(tokens_corpus)

Podemos comprobar que `counts` es un diccionario que contiene el número de veces que cada palabra aparece en el corpus

In [None]:
counts # counts is a FreqDist object, a dictionary data type with additional methods

In [None]:
counts['citizen']  

Simplemente operando sobre `counts` podemos calcular fácilmente el tamaño del vocabulario y la diversidad léxica:

In [None]:
vocab   = len(counts.keys()) 
words   = sum(counts.values())
lexdiv  = float(words) / float(vocab)

print("El corpus tiene %i palabras únicas y un total de %i palabras con una diversidad léxica de %0.3f" % (vocab, words, lexdiv))

Con el método  `most_common(n)` obtenemos una lista de las palabras más comunes. Haciendo `counts.plot(n,cumulative=True)` podemos tener una idea de cuánto dominan las palabras más comunes en el corpus:

In [None]:
counts.most_common(20)

In [None]:
counts.plot(40, cumulative=False)

Otra forma de analizar la frecuencia de aparición de las palabras en el corpus es dibujando una nube llena de muchas palabras de diferentes tamaños, que representan la frecuencia o la importancia de cada palabra. Esto es lo que se conoce como **word cloud** o **nube de palabras**.

In [None]:
from wordcloud import WordCloud

# Create and generate a word cloud image:
wordcloud = WordCloud(max_font_size=50, max_words=40, background_color="white").generate(' '.join(tokens_corpus))

# Display the generated image:
plt.figure(figsize=(10,10))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()