<center>

<div>
<img src="images/statdatahub.png" width="200"/>
</div>

# Explorando el Lenguaje: Introducción a la Minería de Textos y NLP

Este Workshop sobre Procesamiento del Lenguaje Natural explicará cómo construir sistemas que aprenden y se adaptan utilizando aplicaciones del mundo real. Algunos de los temas a cubrir incluyen preprocesamiento de texto, representación de texto, similitud, modelos recurrentes, así como incrustaciones (embeddings) de palabras


## Requerimientos 
* [Python](http://www.python.org) versión >= 3.7;
* [Numpy](http://www.numpy.org), Las extensiones numéricas básicas para el álgebra lineal y las matrices multidimensionales;
* [Scipy](http://www.scipy.org), Bibliotecas adicionales para programación científica.;
* [Matplotlib](http://matplotlib.sf.net), Excelentes bibliotecas de gráficos;
* [IPython](http://ipython.org), con las bibliotecas adicionales necesarias para la interfaz del notebook.
* [Pandas](http://pandas.pydata.org/), es una herramienta de análisis y manipulación de datos de código abierto rápida, potente, flexible y fácil de usar.
* [Seaborn](stanford.edu/~mwaskom/software/seaborn/), Utilizado principalmente para el estilo de gráficos
* [scikit-learn](http://scikit-learn.org), Librería para aprendizaje automático(Machine learning)
* [nltk](https://www.nltk.org/), Una herramienta maravillosa para enseñar y trabajar en lingüística computacional usando Python.

Una buena opción, fácil de instalar y compatible con Mac, Windows y Linux, y que tiene todos estos paquetes (y mucho más) es [Anaconda](https://www.continuum.io/).

# Procesamiento de Lenguaje Natural

El procesamiento del lenguaje natural es el área que busca dotar a las computadoras con la capacidad de comprender el lenguaje natural del ser humano (escrito y hablado).

![alt text](images/intro_nlp.png "Title")

![alt text](images/concurso.png "Title")

Dentro de los usos que tenemos actualmente de esta herramienta están las siguientes:

+ Buscadores: Recuperación de información de corpus gigantescos.
+ Generación de texto usando modelos de lenguaje: ¿Del conjunto de palabras de mi vocabulario cuál es la palabra más probable?

![alt text](images/capital.png "Title")

+ Generación de texto usando modelos de lenguaje: Chat GPT (Chat Generative Pre-Trained Transformer) por ejemplo

![alt text](images/LLM-timeline.png "Title")

# ¿Por qué el entendimiento del lenguaje es una tarea compleja?

## Ambigüedad

![alt text](images/ambig.png "Title")

## Correferencia

![alt text](images/corref.png "Title")

## Sarcasmo/Ironía

![alt text](images/sarcasmo.png "Title")

## Otros

+ Lenguaje no estándar (como los Tweets en X)
+ Modismos (Camello, guayabo, entre otros)
+ Neologismos (Textear, escanear, clickear, entre otros)
+ Nombres de entidades (**De Música Ligera** fue grabado en ..., **Luisito Comunica** no ha dado declaraciones ... )

# Problemas abordados en NLP

+ Detección de Spam
+ Análisis de polaridad
+ Identificación de partes de la oración (POS)
+ Identificación de entidades nombradas (NER)
+ Recuperación de información
+ Preguntas y respuestas
+ Sistemas de diálogo
+ Resúmenes automáticos

![alt text](images/desafios.png "Title")

# Práctica de NLP

### Tokenización

En NLP el proceso de convertir nuestras secuencias de caracteres, palabras o párrafos en inputs para la computadora se llama **tokenización**. Se puede pensar al token como la unidad para procesamiento semántico.

In [None]:
from nltk.tokenize import WhitespaceTokenizer
tk = WhitespaceTokenizer()
texto = "¿Cuánto tiempo pasó desde que comí una manzana?"
texto_tokenizado = tk.tokenize(texto)
print(texto_tokenizado)

como vemos *manzana* y *cuánto* figuran con el signo de pregunta. Y si tuvieramos la palabra manzana mencionada otra vez saldría nuevamente como un token diferente. Lo mismo nos sucedería si aparece una coma o un punto ¿Cómo hacemos para evitarlo?

Podemos utilizar `TreebankWordTokenizer` en lugar de `WhitespaceTokenizer`. También podemos preprocesar el texto quitando comas y signos de puntuación y separar por espacios, o bien utilizar opciones como `WordPunctTokenizer` que separa por palabras tomando como separadores todo lo que no sea un caracter alfabetico.

In [None]:
from nltk.tokenize import WordPunctTokenizer
from nltk.tokenize import TreebankWordTokenizer
texto = "¿Cuánto tiempo pasó desde que comí una manzana?"
texto_tokenizado1 = WordPunctTokenizer().tokenize(texto)
texto_tokenizado2 = TreebankWordTokenizer().tokenize(texto)

In [None]:
print(texto_tokenizado1)

In [None]:
print(texto_tokenizado2)

Como evidenciamos la opción de `TreebankWordTokenizer` es la más popular en inglés el signo de apertura de pregunta "¿" fue un problema para ella. Mientras que la opción de WordPunctTokenizer no tuvo ningún problema.

## One Hot Encoding de texto

Vamos a revisar cómo obtener la representación de codificación one hot para nuestro corpus.

In [None]:
documents = ["Dog bites man.", "Man bites dog.", "Dog eats meat.", "Man eats food."]
processed_docs = [doc.lower().replace(".","") for doc in documents]
processed_docs

In [None]:
#Build the vocabulary
vocab = {}
count = 0
for doc in processed_docs:
    for word in doc.split():
        if word not in vocab:
            count = count +1
            vocab[word] = count
print(vocab)

In [None]:
#Get one hot representation for any string based on this vocabulary.
#If the word exists in the vocabulary, its representation is returned.
#If not, a list of zeroes is returned for that word.
def get_onehot_vector(somestring):
    onehot_encoded = []
    for word in somestring.split():
        temp = [0]*len(vocab)
        if word in vocab:
            temp[vocab[word]-1] = 1 # -1 is to take care of the fact indexing in array starts from 0 and not 1
        onehot_encoded.append(temp)
    return onehot_encoded

In [None]:
print(processed_docs[1])
get_onehot_vector(processed_docs[1]) #one hot representation for a text from our corpus.

In [None]:
get_onehot_vector("man and dog are good")
#one hot representation for a random text, using the above vocabulary

In [None]:
get_onehot_vector("man and man are good")

## One-hot encoding usando scikit -learn
##### Codificamos nuestro corpus como una matriz numérica one-hot usando OneHotEncoder de scikit-learn.
##### Mostraremos que:

*   Codificación One-Hot: en la codificación One-Hot, a cada palabra w del vocabulario del corpus se le asigna un identificador entero único wid que está entre 1 y |V|, donde V es el conjunto del vocabulario del corpus. Cada palabra se representa entonces mediante un vector binario de dimensión V de 0 y 1.

*   Codificación de etiquetas: en la codificación de etiquetas, cada palabra w en nuestro corpus se convierte en un valor numérico entre 0 y n-1 (donde n se refiere al número de palabras únicas en nuestro corpus).

##### Se puede encontrar el enlace a la documentación oficial de ambos [aquí](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html) y [aquí](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html) respectivamente.

In [None]:
S1 = 'dog bites man'
S2 = 'man bites dog'
S3 = 'dog eats meat'
S4 = 'man eats food'

In [None]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

data = [S1.split(), S2.split(), S3.split(), S4.split()]
values = data[0]+data[1]+data[2]+data[3]
print("The data: ",values)

#Label Encoding
label_encoder = LabelEncoder()
integer_encoded = label_encoder.fit_transform(values)
print("Label Encoded:",integer_encoded)

#One-Hot Encoding
onehot_encoder = OneHotEncoder()
onehot_encoded = onehot_encoder.fit_transform(data).toarray()
print("Onehot Encoded Matrix:\n",onehot_encoded)

In [None]:
# Vocabulary
list(label_encoder.classes_)

In [None]:
# Vocabulary
onehot_encoder.categories_

Esta representación es intuitiva y fácil de implementar, sin embargo, tiene algunas desventajas comos las siguientes:

+ El tamaño del vector es proporcional al tamaño del vocabulario
+ No proporciona una longitud fija entre documentos
+ Las palabras son tomadas como unidades atómicas y no hay una noción de similitud (disimilitud)
+ No maneja un esquema fuera del vocabulario.

## Bag of Words (Bolsa de palabras)

Ahora, veremos cómo utilizar la representación de bolsa de palabras para los mismos datos.

In [None]:
documents = ["Dog bites man.", "Man bites dog.", "Dog eats meat.", "Man eats food."] #Same as the earlier notebook
processed_docs = [doc.lower().replace(".","") for doc in documents]

In [None]:
#look at the documents list
print("Our corpus: ", processed_docs)

Ahora, realicemos la tarea principal de encontrar la representación de la bolsa de palabras. Usaremos CountVectorizer de sklearn.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

count_vect = CountVectorizer()
#Build a BOW representation for the corpus
bow_rep = count_vect.fit_transform(processed_docs)

#Look at the vocabulary mapping
print("Our vocabulary: ", count_vect.vocabulary_)

In [None]:
#see the BOW rep for first 2 documents
print("BoW representation for 'dog bites man': ", bow_rep[0].toarray())
print("BoW representation for 'man bites dog: ",bow_rep[1].toarray())

In [None]:
#Get the representation using this vocabulary, for a new text
temp = count_vect.transform(["dog and dog are friends"])
print("Bow representation for 'dog and dog are friends':", temp.toarray())

En el código anterior, representamos el texto teniendo en cuenta la frecuencia de las palabras. Sin embargo, a veces no nos importa mucho la frecuencia, sino que solo queremos saber si una palabra apareció en un texto o no. Es decir, cada documento se representa como un vector de 0 y 1. Para ello, utilizaremos la opción binary=True en CountVectorizer.

In [None]:
#BoW with binary vectors
count_vect = CountVectorizer(binary=True)
count_vect.fit(processed_docs)
temp = count_vect.transform(["dog and dog are friends"])
print("Bow representation for 'dog and dog are friends':", temp.toarray())

Algunas ventajas de esta estrategia son las siguientes:

+ Intuitiva y fácil de implementar
+ Captura la similitud semántica de los documentos
+ Codificación de longitud fija para cualquier oración arbitraria

Sin embargo, tambien tiene algunas desventajas:

+ El tamaño del vector aumenta con el tamaño del vocabulario
+ No captura la similitud semántica de palabras que significan lo mismo
+ No tiene forma de manejar palabras fuera del vocabulario
+ El orden de las palabras se pierde.

## Bolsa de N-Gramas

Una codificación tipo One-Hot, BoW y TF-IDF tratan las palabras como unidades independientes. No existe la noción de frases ni ordenamiento de palabras. El enfoque de la Bolsa de N-Gramas (BoN) intenta remediar esto. Lo hace dividiendo el texto en fragmentos de n palabras o tokens contiguos. Esto puede ayudarnos a capturar algo de contexto, algo que los enfoques anteriores no podían hacer. Veamos cómo funciona utilizando el mismo corpus que usamos en los ejemplos anteriores.

CountVectorizer, que usamos para BoW, también se puede usar para obtener una representación de bolsa de N-gramas, usando su argumento ngram_range. El fragmento de código a continuación muestra cómo:

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

#Ngram vectorization example with count vectorizer and uni, bi, trigrams
count_vect = CountVectorizer(ngram_range=(1,3))

#Build a BOW representation for the corpus
bow_rep = count_vect.fit_transform(processed_docs)

#Look at the vocabulary mapping
print("Our vocabulary: ", count_vect.vocabulary_)

In [None]:
#see the BOW rep for 1 term
term_rep = count_vect.transform(["dog"])
print("BoW representation for 'dog': ", term_rep.toarray())

In [None]:
#see the BOW rep for 1 term
term_rep = count_vect.transform(["bites"])
print("BoW representation for 'bites': ", term_rep.toarray())

In [None]:
#see the BOW rep for 1 term
term_rep = count_vect.transform(["dog bites"])
print("BoW representation for 'dog bites': ", term_rep.toarray())

In [None]:
#see the BOW rep for first 2 documents
print("BoW representation for 'dog bites man': ", bow_rep[0].toarray())
print("BoW representation for 'man bites dog: ",bow_rep[1].toarray())

In [None]:
#Get the representation using this vocabulary, for a new text
temp = count_vect.transform(["dog and dog are friends"])

print("Bow representation for 'dog and dog are friends':", temp.toarray())

Tenga en cuenta que el número de características (y, por lo tanto, el tamaño del vector de características) aumentó mucho para los mismos datos, en comparación con las otras representaciones basadas en una sola palabra.

Algunos pro que tiene esta estrategia son:

+ Captura alguna información del contexto y orden de las palabras
+ El espacio captura similitud semántica

Y algunos contra que tiene esta estrategia son:

+ A medida que aumenta el número de palabras contiguas (n) la dimensionalidad aumenta
+ Aún no hay una estrategia para abordar el problema de palabras fuera del vocabulario.

## TF-IDF

Término de frecuencia - frecuencia de documento inversa, cuantifica la importancia de una palabra en relación con otras palabras en el documento y en el corpus.

El TF cuantifica la frecuencia de un término o una palabra en un documento.

$TF(t, d) = \frac{\text{# de ocurrencias del término } t \text{ en el documento }d}{\text{# de términos en el documento } d}$

El IDF cuantifica la importancia del término o palabra en todo el corpus.

$IDF(t) = \ln\left(\frac{\text{Número total de documentos en el corpus}}{\text{Número de documentos con el término } t \text{en ellos}}\right)$

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer()
bow_rep_tfidf = tfidf.fit_transform(processed_docs)

In [None]:
#IDF for all words in the vocabulary
print("IDF for all words in the vocabulary",tfidf.idf_)
print("-"*10)

In [None]:
#All words in the vocabulary.
print("All words in the vocabulary",tfidf.vocabulary_)
print("-"*10)

In [None]:
#TFIDF representation for all documents in our corpus
print("TFIDF representation for all documents in our corpus\n",bow_rep_tfidf.toarray())
print("-"*10)

In [None]:
temp = tfidf.transform(["dog and man are friends"])
print("Tfidf representation for 'dog and man are friends':\n", temp.toarray())