### María Sofía Álvarez - Brenda Barahona - Álvaro Plata
<h1 align='center'>Proyecto 1: Analítica de textos - LSTM</h1>

In [30]:
import keras
import datetime
import sent2vec
import numpy as np
import pandas as pd
import tensorflow as tf
import matplotlib.pyplot as plt
from keras.layers import Dropout
from keras.layers import LSTM, Dense
from sklearn.pipeline import Pipeline
from sklearn.utils import class_weight
from tensorflow.keras.models import Sequential
from keras.callbacks import EarlyStopping, ModelCheckpoint, TensorBoard

In [2]:
%matplotlib inline

## Algoritmo elegido: LSTM

El tercer algoritmo que usaremos para este problema será LSTM.

La LSTM (Long-Short Term Memory) es un tipo de red neuronal recurrente (RNN, por sus siglas en inglés) que se desempeña mejor que las RNN tradicionales en términos de memoria [1]. Una RNN es un tipo de red neuronal que permite a las salidas de capas previas ser utilizadas como entradas, teniendo estados ocultos [2].

Las LSTM tienen múltiples capas ocultas. A medida que se pasa a través de una capa, la información relevante se mantiene y la irrelevante se desecha en cada neurona (celda) individual [1]. Asimismo, las LSTM solucionan el problema de desvanecimiento de gradientes que las RNN enfrentan a menudo.

Las LSTM cuentan principalmente con 3 compuertas:
+ **FORGET Gate:** Esta compuerta es la responsable de decidir qué información se queda y cuál es irrelevante y debe descartarse. Para ello, utiliza la información que viene de la neurona anterior $h_{t-1}$ y la información de la celda actual, $x_t$. Sobre ellas, se corre una función sigmoide, $$S(x) = \frac{1}{1 + e^{-x}},$$ tal que los datos que tiendan a 0 son descartados por la red [1].
+ **INPUT Gate:** Esta compuerta actualiza el estado de la neurona y decide qué información es importante. Como la compuerta FORGET ayuda a descartar la información, la compuerta INPUT ayuda a encontrar la información importante y a almacenar ciertos datos relevantes en memoria. En este caso, la información de la neurona anterior, $h_{t-1}$ es pasada por una función de activación sigmoide, mientras que la información de la neurona actual $x_t$ se pasa por una función de activación de tangete hiperbólica: $$\tanh(x) = \frac{1 - e^{-2x}}{1 + e^{-2x}}.$$ Es importante resaltar que la función $\tanh$ ayuda a regular la red y a reducir el sesgo de la misma [1].
+ **OUTPUT Gate:** Tras multiplicar el estado actual de la neurona con lo que se obtiene de la compuerta FORGET, lo cual permite eliminar cierta información si la compuerta FORGET arroja pesos de 0, debe decidirse cual será el estado de la siguiente celda. La información de $h_{t-1}$ y $x_t$ se pasa a través de una función sigmoide, el cual es a su vez pasado por una función de tangente hiperbólica, y ambos resultados se mltiplican para decidir la información que llevará el estado oculto [1]. 

A continuación, puede verse la gráfica de las funciones $\tanh$ y sigmoide:

<img src="https://www.researchgate.net/profile/Muhammad-Hamdan-8/publication/327435257/figure/fig4/AS:742898131812354@1554132125449/Activation-Functions-ReLU-Tanh-Sigmoid.ppm" />

Note que también se encuentra la función de activación ReLU (Regularized Linear Unit), muy popular en las aplicaciones de Machine y Deep Learning.

Asimismo, puede verse una representación esquemática (obtenida de [3]) de la estructura de cada una de las compuertas:

<img src="https://www.researchgate.net/profile/Xuan_Hien_Le2/publication/334268507/figure/fig8/AS:788364231987201@1564972088814/The-structure-of-the-Long-Short-Term-Memory-LSTM-neural-network-Reproduced-from-Yan.png" width=50% />

En la imagen podemos ver las funciones de activación usadas en cada celda LSTM (sigmoide y tangente hiperbólica), así como sus entradas, salidas y compuertas.

---
Leamos los datos traidos de la fase anterior:

In [3]:
datos_train = pd.read_csv('train_Data.csv')
datos_test = pd.read_csv('test_Data.csv')

## Vectorización

Una vez elegido el modelo, procedemos a hacer la vectorización de los datos que obtuvimos en la fase de preprocesamiento. Como dijimos, el preprocesamiento para los algoritmos basados en secuencias, como las redes neuronales, es diferente. En este caso, optaré por usar dos opciones de embedding.

* **BioSentVec:** Módulo basado en las investigaciones de Zhang et. al [4]. Similar a Sent2Vec (algoritmo de embedding de Google), está basado en la librería ```fast_text```de Facebook para embeddings y clasificación de textos. La librería utiliza las base de datos de PubMed y las notas clínicas de MIMIC-III Clinical Database como corpus para entrenar una red que genera vectores de 700 dimensiones. El procedimiento para usar este modelo es largo y tedioso, pero puede encontrarse anexo a este laboratorio. Debido a que la dimensionalidad sigue siendo elevada, para evitar overfitting, solamente se usará sobre los abstracts y no sobre las entities.
* **Keras Embedding:** Al usar redes neuronales con la librería Keras, existe una capa propia de ```Embedding```. Podemos probar esta técnica de vectorización también. Se probará sobre ambos, los abstracts y las entities.

Cargamos la librería de BioWordVec:

In [4]:
model_path = 'BioSentVec_PubMed_MIMICIII-bigram_d700.bin'
model = sent2vec.Sent2vecModel()
try:
    model.load_model(model_path)
except Exception as e:
    print(e)
print('model successfully loaded')

model successfully loaded


Por la forma en la que funciona la librería, no podemos poner este paso en una Pipeline. Por lo tanto, lo que hacemos es generar los embeddings

In [5]:
embedded_abstracts = model.embed_sentences(datos_train['non_tokenized_abstracts'])

In [6]:
%store embedded_abstracts

Stored 'embedded_abstracts' (ndarray)


¡Note que la dimensionalidad de estos datos es de 700! Como vimos en el preprocesamiento, esto puede ser mucho para las entidades. Por lo tanto, para ellas, usaremos el embedding de ```sk-learn```.

## Manejo de desbalanceo de las clases

Ahora, uno de los mayores problemas de la clasificación es el contexto desbalanceado. Una opción sería reducir el conjunto de datos hasta que todas las clases queden con un número de abstracts igual al tamaño de la clase de menor cantidad de abstracts. No obstante, por lo general la idea es no reducir el conjunto de datos. Otra opción, como en los algoritmos anteriores, sería usar SMOTE. No obstante, esto es computacionalmente muy costoso para la red.

Lo que sí podemos hacer es considerar pesos. Así, el modelo podrá prestar mayor atención a las clases minoritarias. Para ello, usaremos la librería de <code>sk-learn</code> y lo pasaremos como un objeto al modelo que construiremos más adelante:

In [7]:
class_weights = class_weight.compute_class_weight(
                class_weight = 'balanced',
                classes = np.unique(datos_train['problems_described']), 
                y = datos_train['problems_described'])
train_class_weights_ = dict(enumerate(class_weights, start=1))
train_class_weights = dict(enumerate(class_weights))

Podemos ver los pesos asociados a cada una de las clases, en orden ascendente:

In [8]:
train_class_weights_

{1: 0.912981455064194,
 2: 1.93158953722334,
 3: 1.5,
 4: 0.9462789551503203,
 5: 0.6011271133375078}

Como era de esperarse, recordando la gráfica del perfilamiento (mostrada más abajo), la clase con mayor peso es la 2, seguida de la clase 3. La clase mayoritaria (la 5) es la que presenta menores pesos.

<img src="images/img_preproc.png" width=40% />

Con esto, ya podemos proceder a realizar el modelamiento. 
## Modelo LSTM
Es importante mencionar que no hay un método estándar para la búsqueda de hiperparámetros en redes neuronales. Para ello, debemos hacer algunos *workarounds*. 

No obstante, antes de hacer el tuneo de hiperparámetros, en este tipo de modelos resulta más sencillo hacer un modelo base primero. Hagamos un modelo base usando el WordEmbedding de BioSentVec. 
### Modelo base: Usando BioSentVec
Consideremos un modelo base de dos capas LSTM, acompañadas de su capa de dropout (i.e. de pérdida). De acuerdo con [1], es importante que estos modelos estén acompañados de esta capa para evitar overfitting. Finalmente, consideramos una capa densa con función de activación <code>softmax</code>, que es la función de activación que se utiliza en contextos de clasificación.

Antes de eso, es importante mencionar que Keras requiere que el input esté en la forma (batch_size, timesteps, input_dim). Por lo tanto, hacemos un reshape a los arreglos:

In [42]:
embedded_abstracts_ = embedded_abstracts.reshape(-1, 1, embedded_abstracts.shape[1])
embedded_abstracts_.shape

(9600, 1, 700)

In [50]:
output = 5 # Cantidad de clases del problema
# ------------------LSTM-----------------------
# Inicializamos el modelo
lstm_base = Sequential(name='LSTM_basico') 
# Agregamos una capa LSTM con el tamanio de entrada de los embedded abstracts y 16 neuronas en la capa
lstm_base.add(LSTM(units=16, return_sequences=True, 
                    input_shape=(1, embedded_abstracts.shape[1])))
# Agregamos la primera capa de dropout
lstm_base.add(Dropout(0.2))
# Agregamos una segunda capa LSTM con 16 neuronas
lstm_base.add(LSTM(units=16, return_sequences=False))
# Con su respectiva capa de dropout
lstm_base.add(Dropout(0.2))
# Definimos la capa de salida
lstm_base.add(Dense(output, activation='softmax'))

Antes de ver nuestro modelo totalmente construido, conviene discutir un poco lo que acabamos de hacer. Inicializamos el modelo creando un modelo secuencial. Posteriormente, agregamos una capa LSTM con su respectiva capa de dropout. Esta es una capa de regularización, que hace que se aprenda una fracción de los pesos en la red. Para redes grandes, se recomienda un dropout $p=0.5$ , la cual corresponde a la máxima regularización. Esto también lo ajustaremos como hiperparámetro, pero es un buen punto de partida para nuestro primer modelo [5]. Agregamos otra capa de LSTM con su respectiva capa de dropout y, finalmente, diseñamos la capa de salida con 5 neuronas: pues tenemos 5 clases.

Revisando la documentación de <a href="https://www.tensorflow.org/api_docs/python/tf/keras/layers/LSTM"/> la capa LSTM</a>, es posible ver que hay muchos posibles hiperparámetros a configurar. No obstante, hay algunos que NO deben ser modificados, de acuerdo con la revisión teórica realizada más arriba, como la función de activación (que debe ser $\tanh$) y la función de activación recurrente (que debe ser sigmoide). Asimismo, hay otros parámetros que están ajustados para la mayoría de aplicaciones de ML, como el inicializador del kernel (que es globot) y del kernel recurrente (que es ortogonal), por defecto. Asimismo, hay otros hiperparámetros que permiten hacer modificaciones sobre el modelo, como ```go_backwards```. Este puede ser útil para la construcción de redes recurrentes bidireccionales. Así las cosas, vemos que, dados los hiperparámetros de esta capa, en realidad los más fundamentales a determinar (y para no tener un gran costo computacional) son: 
* **units:** Indica el número de neuronas de la capa. En el modelo inicial, usamos 16. Pero puede ser cualquier número entero positivo.
* **use_bias:** Booleano que indica si la capa usará un vector de sesgos o no.
Estos hiperparámetros, junto con la tasa de dropout, serán tuneados más adelante. Veamos el resumen del modelo:

In [51]:
lstm_base.summary()

Model: "LSTM_basico"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 lstm_11 (LSTM)              (None, 1, 16)             45888     
                                                                 
 dropout_10 (Dropout)        (None, 1, 16)             0         
                                                                 
 lstm_12 (LSTM)              (None, 16)                2112      
                                                                 
 dropout_11 (Dropout)        (None, 16)                0         
                                                                 
 dense_5 (Dense)             (None, 5)                 85        
                                                                 
Total params: 48,085
Trainable params: 48,085
Non-trainable params: 0
_________________________________________________________________


Ahora, debemos elegir una métrica, una función de pérdida y un optimizador. En cuanto a la función de pérdida, la que se usa con frecuencia en problemas de clasificación es la de entropía cruzada. De hecho, se recomienda no cambiarla, a menos de que se tenga una razón lo suficientemente fuerte para hacerlo, pues es la función de pérdida preferida en el marco de la máxima verosimilitud. Para problemas multiclase, se utiliza entropía cruzada categórica: sparse_categorical_crossentropy [6].

En el caso del optimizador, elegimos adam. Por lo general, este es el que mejores resultados presenta, de acuerdo con la literatura. Asimismo, nos quitamos de encima el ajustar un hiperparámetro extra (la tasa de aprendizaje), pues los algoritmos adaptativos como Adam van ajustando esta tasa a medida que entrenan [7]. Últimamente se ha visto que SGD, acompañado de un buen learning rate, puede arrojar resultados excelentes también. No obstante, esto implica el ajuste de un hiperparámetro que, dada la complejidad del problema, puede ser muy costosa computacionalmente.

Asimismo, debemos definir la métrica que informa el éxito del modelo. En este caso elegimos la precisión como métrica, pues el usuario médico quiere clasificar tan bien como se pueda los abstracts en las enfermedades.

In [52]:
lstm_base.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['precision'])

### Control de la complejidad y los tiempos de procesamiento
Una forma de controlar la complejidad y los tiempos de procesamiento es mediante el uso de callbacks. Estas son acciones durante las etapas del entrenamiento.

De acuerdo con la documentación de Tensorflow, encontramos tres callbacks que consideramos útiles para este laboratorio. Primero, consideramos EarlyStopping. En este caso, ponemos la cantidad monitoreada como la medida que tomamos a la pérdida (val_loss) tal que, si después de 3 épocas no ha mejorado, entonces pare el entrenamiento y la actualización de los pesos. En este caso, monitoreamos sobre el error de validación.

El otro callback que utilizaremos es TensorBoard. Este permite visualizar un reporte del entrenamiento, el cual nos será útil para concluir sobre el avance del modelo en función de los diferentes ciclos de aprendizaje.

Finalmente, ModelCheckpoint permite guardar el modelo con mejor desempeño sobre validación.

In [53]:
early_stopping = EarlyStopping(monitor='loss', patience=3, verbose=1, mode='auto', baseline=None)
tensorboard_callback = TensorBoard(log_dir="logs/fit/" + datetime.datetime.now().strftime("%Y%m%d-%H%M%S"), histogram_freq=0, write_graph=True, write_images=False, update_freq='epoch', profile_batch=2, embeddings_freq=0, embeddings_metadata=None,)
model_checkpoint = ModelCheckpoint('base_model.h5', monitor='loss', mode='min', verbose=1, save_best_only=True)
callbacks = [early_stopping,tensorboard_callback, model_checkpoint]

2022-03-28 02:57:57.095415: I tensorflow/core/profiler/lib/profiler_session.cc:110] Profiler session initializing.
2022-03-28 02:57:57.095424: I tensorflow/core/profiler/lib/profiler_session.cc:125] Profiler session started.
2022-03-28 02:57:57.095888: I tensorflow/core/profiler/lib/profiler_session.cc:143] Profiler session tear down.


In [54]:
Y_train = datos_train['problems_described']

Finalmente, hacemos fit al modelo:

In [55]:
history_base = lstm_base.fit(embedded_abstracts_, Y_train, epochs= 20, callbacks=callbacks, class_weight=train_class_weights)

Epoch 1/20


ValueError: in user code:

    File "/usr/local/lib/python3.9/site-packages/keras/engine/training.py", line 1021, in train_function  *
        return step_function(self, iterator)
    File "/usr/local/lib/python3.9/site-packages/keras/engine/training.py", line 1010, in step_function  **
        outputs = model.distribute_strategy.run(run_step, args=(data,))
    File "/usr/local/lib/python3.9/site-packages/keras/engine/training.py", line 1000, in run_step  **
        outputs = model.train_step(data)
    File "/usr/local/lib/python3.9/site-packages/keras/engine/training.py", line 864, in train_step
        return self.compute_metrics(x, y, y_pred, sample_weight)
    File "/usr/local/lib/python3.9/site-packages/keras/engine/training.py", line 957, in compute_metrics
        self.compiled_metrics.update_state(y, y_pred, sample_weight)
    File "/usr/local/lib/python3.9/site-packages/keras/engine/compile_utils.py", line 438, in update_state
        self.build(y_pred, y_true)
    File "/usr/local/lib/python3.9/site-packages/keras/engine/compile_utils.py", line 358, in build
        self._metrics = tf.__internal__.nest.map_structure_up_to(y_pred, self._get_metric_objects,
    File "/usr/local/lib/python3.9/site-packages/keras/engine/compile_utils.py", line 484, in _get_metric_objects
        return [self._get_metric_object(m, y_t, y_p) for m in metrics]
    File "/usr/local/lib/python3.9/site-packages/keras/engine/compile_utils.py", line 484, in <listcomp>
        return [self._get_metric_object(m, y_t, y_p) for m in metrics]
    File "/usr/local/lib/python3.9/site-packages/keras/engine/compile_utils.py", line 503, in _get_metric_object
        metric_obj = metrics_mod.get(metric)
    File "/usr/local/lib/python3.9/site-packages/keras/metrics.py", line 4262, in get
        return deserialize(str(identifier))
    File "/usr/local/lib/python3.9/site-packages/keras/metrics.py", line 4218, in deserialize
        return deserialize_keras_object(
    File "/usr/local/lib/python3.9/site-packages/keras/utils/generic_utils.py", line 709, in deserialize_keras_object
        raise ValueError(

    ValueError: Unknown metric function: precision. Please ensure this object is passed to the `custom_objects` argument. See https://www.tensorflow.org/guide/keras/save_and_serialize#registering_the_custom_object for details.


## Bibliografía
---
[1] https://www.analyticsvidhya.com/blog/2021/06/lstm-for-text-classification/

[2] https://stanford.edu/~shervine/teaching/cs-230/cheatsheet-recurrent-neural-networks

[3] Application of Long Short-Term Memory (LSTM) Neural Network for Flood Forecasting - Scientific Figure on ResearchGate. Available from: https://www.researchgate.net/figure/The-structure-of-the-Long-Short-Term-Memory-LSTM-neural-network-Reproduced-from-Yan_fig8_334268507 [accessed 28 Mar, 2022]

[4] Zhang Y, Chen Q, Yang Z, Lin H, Lu Z. BioWordVec, improving biomedical word embeddings with subword information and MeSH. Scientific Data. 2019.

[5] https://towardsdatascience.com/simplified-math-behind-dropout-in-deep-learning-6d50f3f47275

[6] https://machinelearningmastery.com/how-to-choose-loss-functions-when-training-deep-learning-neural-networks/

[7] https://towardsdatascience.com/7-tips-to-choose-the-best-optimizer-47bb9c1219e