<a href="https://colab.research.google.com/github/nferrucho/NPL/blob/main/curso2/ciclo4/M5U4_Taller_4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src = "https://drive.google.com/uc?export=view&id=1VV2e_u46fNm_ewns8QW2HGRZAPHh-e2t" alt = "Encabezado MLDS" width = "100%">  </img>

# **Taller 4 - *Transformers***
---

En este taller usted tendrá que usar un modelo de Transformer de [Hugginface](https://huggingface.co/) para hacer un proceso de *Fine Tunning*. El modelo final será un clasificador de sarcasmo. Usaremos un conjunto de datos que consiste en encabezados de periódicos (textos en inglés).

Importemos las librerías requeridas para solucionar la tarea:

> **Importante:  Recomendamos utilizar GPU para la ejecución de este notebook, ya que puede tomar mucho tiempo la ejeución de algunos casos de prueba en caso de que no se utilice.**

In [None]:
!pip install rlxcrypt

In [None]:
!wget --no-cache -O session.pye -q https://raw.githubusercontent.com/JuezUN/INGInious/master/external%20libs/session.pye

In [None]:
import rlxcrypt
import session

grader = session.LoginSequence("DLIAAPCP-GroupMLDS-5-2024-2@4aab2a5b-740f-4fb9-94d4-163161c86a1e")

In [None]:
!pip install --upgrade transformers
!pip install tf-keras

In [None]:
import os
os.environ['TF_USE_LEGACY_KERAS'] = '1' # Establece la versión legacy

In [None]:
import numpy as np
import json
import tensorflow as tf
import keras
import transformers
from transformers import DistilBertTokenizerFast
from transformers import TFDistilBertForSequenceClassification

In [None]:
# Versiones de las librerías usadas.
!python --version
print('Numpy', np.__version__)
print('Transformers', transformers.__version__)
print('Tensorflow', tf.__version__)

Esta actividad se realizó con las siguientes versiones:
*  Python 3.9.16
*  Numpy 1.22.4
*  Transformers 4.28.1
*  Tensorflow 2.12.0

## **Cargar Datos**
---

El conjunto de datos esta compuesto por titulares de periódicos. Los datos fueron preparados por _Laurence Moroney_ (código fuente disponible en [GitHub](https://github.com/lmoroney/dlaicourse/blob/master/TensorFlow%20In%20Practice/Course%203%20-%20NLP/Course%203%20-%20Week%203%20-%20Lesson%202c.ipynb)).

In [None]:
!wget -O sarcasm.json https://raw.githubusercontent.com/mindlab-unal/mlds5-dataset-unit4-Tarea4-Transformers/main/sarcasm.json?raw=true
with open("sarcasm.json", 'r') as f:
    datastore = json.load(f)
sentences = []
labels = []
for item in datastore:
    sentences.append(item['headline'])
    labels.append(item['is_sarcastic'])
print(len(sentences))

Tenemos 26709 muestras. Démosle un vistazo a los datos:

In [None]:
print('label','\t','sentence','\n','----\t----------')
for i in np.random.choice(26709, 10, replace=False):
  print(labels[i],'\t',sentences[i],'\n')

La etiqueta `0` corresponde a _no sarcasmo_ y la `1` a _sarcasmo_. Es decir, _sarcasmo_ es la clase positiva.

## **Particiones de entrenamiento y prueba**
---
Como siempre, es importante separar una parte de los datos que no serán usados en el entrenamiento para evaluar el desempeño del modelo.

In [None]:
from sklearn.model_selection import train_test_split
X_temp, X_test, y_temp, y_test = train_test_split(sentences, labels, test_size=0.2, stratify = labels, random_state = 30)
X_train, X_val,  y_train, y_val = train_test_split(X_temp, y_temp, test_size=0.25, stratify = y_temp, random_state = 30)

Hacemos una codificación _one hot_ de las etiquetas de entrenamiento y validación:

In [None]:
y_train = tf.keras.utils.to_categorical(y_train)
y_val = tf.keras.utils.to_categorical(y_val)

Y contamos cuántos textos hay en cada partición:

In [None]:
len(X_train), len(X_val), len(X_test)

Tenemos entonces 16025 muestras para entrenamiento, 5342 para validación y la misma cantidad para prueba.

# **DistilBERT**
----
[DistilBERT](https://huggingface.co/docs/transformers/model_doc/distilbert) es un modelo Transformer pequeño, rápido, poco costoso y ligero, entrenado a partir BERT, con una técnica llamada [_Destilación de conocimiento_](https://en.wikipedia.org/wiki/Knowledge_distillation).

La destilación de conocimiento es el proceso de transferencia de conocimiento de un modelo grande a otro más pequeño. Aunque los modelos grandes (como BERT) tienen mayor capacidad de aprendizaje que los modelos pequeños, es posible que esta capacidad no se utilice plenamente. Evaluar un modelo puede ser igual de costoso desde el punto de vista computacional aunque utilice muy poco de su capacidad de conocimiento. La destilación de conocimiento transfiere conocimientos de un modelo grande a otro más pequeño sin pérdida de validez. Como los modelos más pequeños son menos costosos de evaluar, se pueden implantar en hardware menos potente (como un dispositivo móvil, o en este caso, un entorno de Colab)

<center><img src="https://drive.google.com/uc?export=view&id=15uxvIrnqiJJmkqhet_eLGud7CKlQ-145" alt ="DistilBERT" width="80%" /></center>

DistilBERT tiene un 40% menos de parámetros que el modelo BERT, se ejecuta un 60% más rápido y conserva más del 95% del rendimiento de BERT. Originalmente se propuso en el artículo: [_DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter_](https://arxiv.org/abs/1910.01108). Para nuestra fortuna, el modelo se encuentra implementado y disponible en HuggingFace: https://huggingface.co/docs/transformers/model_doc/distilbert.

Vamos entonces a aplicar lo aprendido en la unidad. Recordemos cuál es el pipeline estandar de ejecución de un Transformer:

<center><img src="https://drive.google.com/uc?export=view&id=1yaxcm5ceXkGuMZ5u6iQaZ0sGyYXGU3Pu" alt ="Gráfico ilustrativo de la pipeline de ejecución" width="80%" /></center>



> **La tarea es incremental, por lo tanto es recomendable resolver los puntos en orden.**

# **1. Tokenización**
---
Aplique el preprocesamiento requerido para usar una arquitectura DistilBERT sobre los conjuntos definidos de entrenamiento, validación y prueba. Complete la función `tokenize`, que recibe como argumentos un conjnuto de datos y los parámetros necesarios para tokenizarlos. La función debe retornar un objeto tipo `BatchEncoding` como lo vimos en el taller guiado. Utilice `AutoTokenizer` y la tokenización del modelo `"distilbert-base-uncased"`.

**Entradas**:

* **`model_name`**: un `str` que representa el nombre del tokenizer del modelo pre-entrenado a definir.
* **`X`**, `list`, una lista de secuencuas de texto.
* **`truncate`**, `boolean`, variable booleana para definir si los textos se truncan o no.  
* **`padd`**, `boolean`, variable booleana para definir si los textos se rellenan o no.
* **`tensor`**, un `str` que puede ser `np`, `tf` o `pt` para indicar el tipo de tensor que debe devolver el tokenizador.

**Salida**:

* **`encodings`**: un objeto tipo `BatchEncoding` para tokenizar textos para `DistilBERT`.

In [None]:
# FUNCION CALIFICADA tokenize
from transformers import AutoTokenizer
def tokenize(model_name, X, truncate, padd, tensor):
    encodings = -1
    return encodings

In [None]:
# TEST_CELL
train_encodings = tokenize(model_name='distilbert-base-uncased',
                           X = X_train,
                           truncate=True,
                           padd=True,
                           tensor= "np")
val_encodings = tokenize(model_name='distilbert-base-uncased',
                         X = X_val,
                         truncate=True,
                         padd=True,
                         tensor= "np")
test_encodings = tokenize(model_name='distilbert-base-uncased',
                          X = X_test,
                          truncate=True,
                          padd=True,
                          tensor= "np")

print("Encoding tipo:", type(train_encodings))
print("Primeros cinco tokens de test:", test_encodings['input_ids'][0][:5])

**Salida esperada:**
```
Encoding tipo: <class 'transformers.tokenization_utils_base.BatchEncoding'>
Primeros cinco tokens de test: [ 101 5712 2022 4974 2075]
```

### **Evaluar código**

In [None]:
grader.run_test("Test 1_1_1", globals())

In [None]:
grader.run_test("Test 1_1_2", globals())

# **2. _Fine Tuning_ con _DistilBERT_**
---
Vamos a llevar a cabo el flujo de trabajo neesario para hacer _Fine Tuning_ con un modelo preentrenado.

## **2.1 Definir el modelo**
---
Primero vamos a definir el modelo. Implemente una función llamada `pretrained_model` que reciba como entrada un nombre de modelo y retorne una instancia de ese modelo pre-entrenado utilizando la biblioteca Transformers de HuggingFace. La función debe utilizar `TFAutoModelForSequenceClassification` para cargar el modelo y devolverlo.

**Entradas**:

* **`model_name`**: un `str` que representa el nombre del modelo pre-entrenado a cargar.

**Salida**:

* **`model`**: una instancia del modelo pre-entrenado cargado utilizando `TFAutoModelForSequenceClassification`.

In [None]:
# FUNCION CALIFICADA pretrained_model
from transformers import TFAutoModelForSequenceClassification
def pretrained_model(model_name):
    model = -1
    return model

In [None]:
# TEST_CELL
model = pretrained_model('distilbert-base-uncased')
print(type(model))
print(model.summary())

**Salida esperada:**
```
<class 'transformers.models.distilbert.modeling_tf_distilbert.TFDistilBertForSequenceClassification'>
Model: "tf_distil_bert_for_sequence_classification"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
=================================================================
 distilbert (TFDistilBertMai  multiple                 66362880  
 nLayer)                                                         
                                                                 
 pre_classifier (Dense)      multiple                  590592    
                                                                 
 classifier (Dense)          multiple                  1538      
                                                                 
 dropout_19 (Dropout)        multiple                  0         
                                                                 
=================================================================
Total params: 66,955,010
Trainable params: 66,955,010
Non-trainable params: 0
_________________________________________________________________
None
```

### **Nota importante**
---
Veamos detalladamente la arquitectura del modelo anterior. Tenemos 66,955,010 de parámetros repartidos en cuatro bloques. El primer bloque es el modelo base `distilbert`. Los parámetros de ese bloque (66,362,880) son los que se deben congelar al momento de hacer el calentamiento o _warming up_.

### **Evaluar código**

In [None]:
grader.run_test("Test 2_1_1", globals())

In [None]:
grader.run_test("Test 2_1_2", globals())

## **2.2 Compilar**
---

Igual que con BERT, DistilBERT se define por defecto con dos neuronas de salida con activación linea. Complete entonces la función `compile` que prepara el modelo para el entrenamiento. La función debe recibir como entrada un modelo, un optimizador y una tasa de aprendizaje, y luego compila el modelo con una función de pérdida `CategoricalCrossentropy`.

**Entradas:**

*    **`model`**: una instancia del modelo a entrenar tipo `TFAutoModelForSequenceClassification`.
*    **`optimizer`**: una instancia del optimizador de tipo `keras.optimizers` a utilizar durante el entrenamiento.
*    **`l_r`**: `float`, un número flotante que representa la tasa de aprendizaje.

**Salida:**

* **`model`**: una instancia compilada del modelo tipo `TFAutoModelForSequenceClassification`.

> **Notas:**
  * Utilice el método `.assign()` para ajustar la tasa de aprendizaje del optimizador al valor proporcionado.
  * Recuerde definir `from_logits=True` dentro de la función de pérdida.

In [None]:
# FUNCIÓN CALIFICADA compile_model

def compile_model(model, optimizer, l_r):

    return model

In [None]:
# TEST_CELL
model = compile_model(model=model,
                   optimizer=tf.keras.optimizers.Adam(),
                   l_r=1e-3
                   )
model.get_compile_config()

**Salida esperada:**
```
{'optimizer': {'module': 'keras.optimizers',
  'class_name': 'Adam',
  'config': {'name': 'Adam',
   'weight_decay': None,
   'clipnorm': None,
   'global_clipnorm': None,
   'clipvalue': None,
   'use_ema': False,
   'ema_momentum': 0.99,
   'ema_overwrite_frequency': None,
   'jit_compile': True,
   'is_legacy_optimizer': False,
   'learning_rate': 0.0010000000474974513,
   'beta_1': 0.9,
   'beta_2': 0.999,
   'epsilon': 1e-07,
   'amsgrad': False},
  'registered_name': None},
 'loss': {'module': 'keras.losses',
  'class_name': 'CategoricalCrossentropy',
  'config': {'reduction': 'auto',
   'name': 'categorical_crossentropy',
   'from_logits': True,
   'label_smoothing': 0.0,
   'axis': -1},
  'registered_name': None},
 'metrics': None,
 'loss_weights': None,
 'weighted_metrics': None,
 'run_eagerly': None,
 'steps_per_execution': None,
 'jit_compile': None}
```

### **Evaluar código**

In [None]:
grader.run_test("Test 2_2_1", globals())

In [None]:
grader.run_test("Test 2_2_2", globals())

## **2.3 Función de entrenamiento**
---
Complete la función llamada `train_model` que entrena un modelo utilizando un conjunto de datos de entrenamiento. La función debe recibir como un modelo, los datos de entrenamiento, el número de épocas y el tamaño del _batch, y devolver el modelo entrenado.

**Entradas**:

*    **`model`**: una instancia del modelo a entrenar tipo `TFAutoModelForSequenceClassification`
*    **`X_train`**: un objeto tipo `BatchEncoding` para tokenizar textos.
*    **`y_train`**: un arreglo de numpy `np.array` que representa las etiquetas de los datos de entrenamiento.
*    **`X_val`**: un objeto tipo `BatchEncoding` para tokenizar textos.
*    **`y_val`**: un arreglo de numpy `np.array` que representa las etiquetas de los datos de validación.
*    **`epochs`**: `int`, un número entero que representa el número de épocas de entrenamiento.
*    **`batch_size`**: `int`, un número entero que representa el tamaño del _batch_.
*    **`train_base`**: `boolean`, una variable booleana para definir si se congelan o no las capas del modelo base (dependiendo si se quiere hacer _warming up_ o _fine tuning_).

**Salida**:

*  **`history`**: un objeto tipo `History` de tensorflow con la información del entrenamiento del modelo.
*    **`model`**: una instancia del modelo entrenado tipo `TFAutoModelForSequenceClassification`

Para implementar la función, utilice un ciclo `for` para controlar el atributo `trainable` de las capas del modelo, excepto la capa de salida.

In [None]:
# FUNCION CALIFICADA train_model
def train_model(model,
                    X_train, y_train,
                    X_val, y_val,
                    epochs,
                    batch_size,
                    train_base):
    history = -1
    return history, model

In [None]:
# TEST_CELL
history, model = train_model(model=model,
                             X_train=train_encodings,
                             y_train=y_train,
                             X_val=val_encodings,
                             y_val=y_val,
                             epochs=1,
                             batch_size=32,
                             train_base = False)
print(model.summary())
print(history.history.keys())
print('El modelo se ha entrenado durante',len(history.history['val_loss']),'epoch')

**Salida esperada:**
```
Model: "tf_distil_bert_for_sequence_classification"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
=================================================================
 distilbert (TFDistilBertMai  multiple                 66362880  
 nLayer)                                                         
                                                                 
 pre_classifier (Dense)      multiple                  590592    
                                                                 
 classifier (Dense)          multiple                  1538      
                                                                 
 dropout_19 (Dropout)        multiple                  0         
                                                                 
=================================================================
Total params: 66,955,010
Trainable params: 592,130
Non-trainable params: 66,362,880
_________________________________________________________________
None
dict_keys(['loss', 'val_loss'])
El modelo se ha entrenado durante 1 epoch
```

### **Evaluar código**

> Tiempo estimado: 2:10:00 h sin GPU, 02:35 m con GPU

In [None]:
grader.run_test("Test 2_3_1", globals())

## **2.4 _Fine Tuning_**
---
Ahora vamos a usar las funciones que definió anteriormente para hacer todo el proceso de ajuste fino, comenzando por hacer un calentamiento o _warming up_ entranando solo la capa final del modelo, y luego entrenando el modelo completo.

Complete la función `fine_tuning`. Esta función recible los datos de entrenamiento y valdación, la tasa de aprendizaje del _warming up_ y la tasa de aprendizaje del _fine tuning_, así como las epochs dedicadas a cada etapa del entrenamiento. La función debe crear un modelo, compilarlo para _warming up_, realizar el _warming up_, y luego compilar el modelo de nuevo para _fine tuning_ (liberando los pesos de todas las capas), y entrenar de nuevo.

**Entrada**:

*    **`X_train`**: un objeto tipo `BatchEncoding` para tokenizar textos.
*    **`y_train`**: un arreglo de numpy `np.array` que representa las etiquetas de los datos de entrenamiento.
*    **`X_val`**: un objeto tipo `BatchEncoding` para tokenizar textos.
*    **`y_val`**: un arreglo de numpy `np.array` que representa las etiquetas de los datos de validación.
*    **`l_r_warming_up`**: `float`, la tasa de aprendizaje a usar durante el calentamiento.
*    **`epochs_warming_up`**: `int`, un número entero que representa el número de épocas de entrenamiento usadas en el calentamiento.
*    **`l_r_fine_tuning`**: `float`, la tasa de aprendizaje a usar durante el _fine tuning_.
*    **`epochs_fine_tuning`**: `int`, un número entero que representa el número de épocas de entrenamiento usadas en el _fine tuning_.

**Salida**:

*  **`history`**: un objeto tipo `History` de tensorflow con la información del entrenamiento del modelo.
*    **`model`**: una instancia del modelo entrenado tipo `TFAutoModelForSequenceClassification`

> **Notas**:
  * Debe definir el modelo usando la función `pretrained_model`, cargando `'distilbert-base-uncased'`.
  * Debe compilar el modelo dos veces usando la función `compile_model`. La primera vez será para configurar el modelo para el _warming up_. La seguda vez que compile será después de haber hecho el _warming up_, para habilitar el entrenamiento de todas las capas y cambiar la tasa de aprendizaje.
  * Analogamente, debe usar dos veces la función `train_model`, una vez para _warming up_, y la segunda vez para _fine tuning_.
  * `tf.keras.optimizers.Adam()` debe ser el optimizador de todos los entrenamientos.
  * La función debe usar un `batch_size` de 32 en todos los entrenamientos.

In [None]:
# FUNCION CALIFICADA fine_tuning
def fine_tuning(X_train, y_train,
                    X_val, y_val,
                    l_r_warming_up,
                    epochs_warming_up,
                    l_r_fine_tuning,
                    epochs_fine_tuning):

    history, model = -1, -1

    return history, model

In [None]:
# TEST_CELL
history, model = fine_tuning(X_train=train_encodings,
                              y_train=np.asarray(y_train),
                              X_val=val_encodings,
                              y_val=np.asarray(y_val),
                              l_r_warming_up=1e-3,
                              epochs_warming_up=1,
                              l_r_fine_tuning=5e-5,
                              epochs_fine_tuning=1)
print(model.summary())
print('learnign_rate =',model.get_compile_config()['optimizer']['config']['learning_rate'])
print(history.history.keys())
print('El modelo se ha entrenado durante',len(history.history['val_loss']),'epoch')

**Salida esperada:**
> **Nota**: los valores de `loss` y `val_loss` pueden cambiar.

```
501/501 [==============================] - 147s 226ms/step - loss: 0.6918 - val_loss: 0.6861
501/501 [==============================] - 54s 95ms/step - loss: 0.6859 - val_loss: 0.6859
Model: "tf_distil_bert_for_sequence_classification_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
=================================================================
 distilbert (TFDistilBertMai  multiple                 66362880  
 nLayer)                                                         
                                                                 
 pre_classifier (Dense)      multiple                  590592    
                                                                 
 classifier (Dense)          multiple                  1538      
                                                                 
 dropout_39 (Dropout)        multiple                  0         
                                                                 
=================================================================
Total params: 66,955,010
Trainable params: 66,955,010
Non-trainable params: 0
_________________________________________________________________
None
learnign_rate = 4.999999873689376e-05
dict_keys(['loss', 'val_loss'])
El modelo se ha entrenado durante 1 epoch

```

### **Evaluar código**

In [None]:
## TEACHEAR
history.history

> Tiempo estimado: 4:10:00 h sin GPU, 04:00 m con GPU

In [None]:
grader.run_test("Test 2_4_1", globals())

## **2.5 Evaluar**
---
Complete la función `evaluate_model` que recible un modelo entrenado y lo evalua en un conjunto de prueba.

**Entrada**:

*  **`model`**: una instancia del modelo entrenado tipo `TFAutoModelForSequenceClassification`
*    **`X_test`**: un objeto tipo `BatchEncoding` para tokenizar textos.
*    **`y_test`**: un arreglo de numpy `np.array` que representa las etiquetas de los datos de entrenamiento.

**Salida**:
* **`report`**: un `str` dado por la función `classification_report` de Scikit-Learn.

> Nota: recuerde aplicar `tf.math.softmax` a las predicciones del modelo.

In [None]:
# FUNCIÓN CALIFICADA evaluate
from sklearn.metrics import *
def evaluate(model, X_test, y_test):
    report = -1
    return report

In [None]:
# TEST_CELL
print(evaluate(model=model,
               X_test=test_encodings,
               y_test=y_test))

**Salida esperada**:

```
167/167 [==============================] - 13s 65ms/step
              precision    recall  f1-score   support

           0       0.56      1.00      0.72      2997
           1       0.00      0.00      0.00      2345

    accuracy                           0.56      5342
   macro avg       0.28      0.50      0.36      5342
weighted avg       0.31      0.56      0.40      5342
```

### **Evaluar código**

> Tiempo estimado: 1:00 m sin GPU, 00:29 m con GPU

In [None]:
grader.run_test("Test 2_5_1", globals())

## **Entrenando durante más _epochs_**
----
En este punto usted ha debido programar con éxito todos los pasos necesairios para hacer _Fine Tuning_ con _DistilBERT_ en usando _HuggingFace_, pero no hemos entrenado lo suficiente el modelo. A continuación use su código para el entrenar el modelo durante algunas epochs de calentamiento y otras más de _fine tuning_, cambiando en cada caso las tasas de aprendizaje y evaluando los resultados.

> **Nota: este código no es calificable.**

In [None]:
history, model = fine_tuning(X_train=train_encodings,
                              y_train=np.asarray(y_train),
                              X_val=val_encodings,
                              y_val=np.asarray(y_val),
                              l_r_warming_up=5e-3,
                              epochs_warming_up=5,
                              l_r_fine_tuning=5e-5,
                              epochs_fine_tuning=20)
print(evaluate(model=model,
               X_test=test_encodings,
               y_test=np.array(y_test)))

# **Evaluación**


> Tiempo estimado: 06:00:00 h sin GPU, 10:30 m con GPU

In [None]:
grader.submit_task(globals())

# **Referencias**
---
* [*Fine-tuning with custom datasets*](https://huggingface.co/transformers/v3.2.0/custom_datasets.html)

* [*Transformer Models For Custom Text Classification Through Fine-Tuning*](https://towardsdatascience.com/transformer-models-for-custom-text-classification-through-fine-tuning-3b065cc08da1)

* [*Fine-Tuning Hugging Face Model with Custom Dataset*](https://towardsdatascience.com/fine-tuning-hugging-face-model-with-custom-dataset-82b8092f5333)

* [*Fine-Tuning Bert for Tweets Classification ft. Hugging Face*](https://medium.com/mlearning-ai/fine-tuning-bert-for-tweets-classification-ft-hugging-face-8afebadd5dbf)

* [*Coronavirus tweets NLP - Text Classification*](https://www.kaggle.com/datasets/datatattle/covid-19-nlp-text-classification?resource=download&select=Corona_NLP_test.csv)

* [*covid_tweet_classification.ipynb*](https://colab.research.google.com/github/codistro/Articles/blob/main/covid_tweet_classification.ipynb#scrollTo=bmeDURiI7Q6M)


* _Origen de imágenes_

  - Swatimeena. (2021, 16 diciembre). DistilBERT Text classification using Keras - Swatimeena - Medium. Medium. [Imagen] https://miro.medium.com/v2/resize:fit:720/format:webp/1*e5G4Vdt6gSFkRjs3fD36Pg.png

  - Davaadorj,M. (2022, 19 marzo).
Huggingface-course: Documentation-images - Full Nlp Pipeline [Imagen] https://huggingface.co/datasets/huggingface-course/documentation-images/blob/main/en/chapter2/full_nlp_pipeline.svg


# **Créditos**
---

* **Profesor:** [Fabio Augusto Gonzalez](https://dis.unal.edu.co/~fgonza/)
* **Asistentes docentes :**
  * [Santiago Toledo Cortés](https://sites.google.com/unal.edu.co/santiagotoledo-cortes/)
* **Diseño de imágenes:**
    - [Mario Andres Rodriguez Triana](mailto:mrodrigueztr@unal.edu.co).
* **Coordinador de virtualización:**
    - [Edder Hernández Forero](https://www.linkedin.com/in/edder-hernandez-forero-28aa8b207/).

**Universidad Nacional de Colombia** - *Facultad de Ingeniería*