<a href="https://colab.research.google.com/github/nferrucho/NPL/blob/main/curso1/ciclo4/3_hugginface_supervisado.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://drive.google.com/uc?export=view&id=1Q6vQcIWFPY27isBepABpJ7nroUNKox_Z" width="100%">

# **Introducción al Análisis Supervisado con Transformers**
---

En este notebook veremos una introducción práctica a la librería `transformers` de [HuggingFace](https://huggingface.co/).

<img src="https://drive.google.com/uc?export=view&id=1joVUiGIgNZSfygmPrOr-U3_TvnEm3ccQ" width="60%">

Se trata de una de las librerías más populares para procesamiento de lenguaje natural que utiliza modelos basados en redes neuronales de tipo transformers para realizar distintos tipos de tareas.

Importamos las librerías necesarias:

In [None]:
from IPython.display import display

## **1. Descripción General**
---

Los `transformers` son una familia de modelos basados en redes neuronales que pueden ser utilizados en distintos tipos de aplicaciones.

<img src="https://drive.google.com/uc?export=view&id=1hIDeviRokZPLeSXyp9rLCuFMgCWU3Gn2" width="80%">

Estos modelos fueron originalmente usados en aplicaciones de procesamiento de lenguaje natural. Dado que demostraron tener un gran desempeño, comenzaron a ser usados en otros tipos de aplicaciones como visión por computador, procesamiento de señales, análisis de videos, entre otras.

En un principio, estos modelos se implementaban a bajo nivel con librerías como `tensorflow` o `pytorch` (para _Deep Learning_). No obstante, la compañía [HuggingFace](https://huggingface.co/) se ha encargado de crear un ecosistema de librerías para usar varios modelos pre-entrenados de una forma sencilla y más dirigida al usuario.

En especial, vamos a instalar la librería `transformers` y a ver su uso para procesamiento de lenguaje natural. También instalamos `sentencepiece` y `sacremoses` (módulos con muchas funciones de preprocesamiento para los modelos).

In [None]:
!pip install transformers[torch] sentencepiece sacremoses

Comenzamos importando `pipeline` (similar a `spacy`) de `transformers`:

In [None]:
from transformers import pipeline

## **2. Búsqueda de Modelos**
---

Para comenzar a usar `transformers` primero debemos seleccionar el tipo de aplicación que vamos a desarrollar, y filtrar dentro de los distintos tipos de modelos disponibles en los repositorios de [HuggingFace](https://huggingface.co/).

A continuación se presenta un video acerca de cómo podemos seleccionar un modelo de acuerdo a las posibles tareas, idiomas, y tipo de modelo:

In [None]:
#@markdown ##**Ejecute esta celda para ver el video.**
from IPython.display import IFrame
IFrame(
        src="https://drive.google.com/file/d/1bgNE8oz4joKp0Amx1j7OBxYJYbwQ7Ldm/preview",
        width="768px",
        height="432px"
        )

Como veremos más adelante, es suficiente con tener el nombre del modelo para comenzar a descargar, instanciar y realizar inferencia sobre estos modelos.

Veamos algunas tareas con `transformers`:

## **3. Clasificación de Tokens**
---

La tarea de clasificación de tokens busca clasificar palabras u oraciones dentro de un texto en alguna categoría.

<img src="https://drive.google.com/uc?export=view&id=1tgzuToinJmOsPHEMr2NMIfMn4ADZftkm" width="80%">

Para ello, se utilizan modelos de `transformers` para clasificación multiclase. Veamos un ejemplo con un modelo para reconocimiento de entidades nombradas en español.

Primero cargamos el modelo, para ello debemos especificar el tipo de tarea y el modelo:

In [None]:
model = pipeline("ner", "mrm8488/bert-spanish-cased-finetuned-ner")

Para aplicar el modelo, lo podemos usar como si se tratara de una función. Tomemos como base el siguiente texto de ejemplo:

In [None]:
text = "Argentina se consagró campeón del mundo al derrotar por penales a Francia 4 a 2. La final de Qatar se disputó en el estadio de Doha."

Extraemos las entidades:

In [None]:
res = model(text)
display(res)

Como podemos ver, obtenemos distintos metadatos de la entidad:

- `entity`: tipo de entidad encontrada, en este caso, países y ubicaciones.
- `score`: probabilidad predicha por el modelo.
- `index`: índice del token.
- `word`: texto de la entidad.
- `start`: carácter inicial dentro de la secuencia.
- `end`: carácter final dentro de la secuencia.

## **4. Clasificación de Textos**
---

Desde `transformers` también podemos realizar clasificación a nivel de documentos.

Por ejemplo, podemos usar un modelo para análisis de sentimientos en español:

<img src="https://drive.google.com/uc?export=view&id=1QCEsPK7ganFQ0SEt8Cn9B3gi2diQwx-F" width="80%">


In [None]:
model = pipeline("text-classification", "finiteautomata/beto-sentiment-analysis")

Definimos un texto:

In [None]:
text = "me encanta como la gente dona regalos para navidad"

Veamos las predicciones:

In [None]:
res = model(text)
display(res)

En este caso, el modelo nos da dos resultados:

- `label`: sentimiento encontrado.
- `score`: probabilidad predicha por el modelo.

Veamos otro ejemplo con un texto con una polaridad negativa:

In [None]:
text = "me siento muy mal, estoy un poco enfermo"
res = model(text)
display(res)

## **5. Traducción Automática**
---

Los modelos para traducción automática son modelos supervisados de tipo secuencia a secuencia.

In [None]:
#@markdown ##**Ejecute esta celda para ver el video.**
from IPython.display import IFrame
IFrame(
        src="https://drive.google.com/file/d/1Ezcp94fLKLJM_o_z-cLyJN7HUIUrb-KO/preview",
        width="768px",
        height="432px"
        )

Muchas de las herramientas para traducción más populares hoy en día, como [DeepL](https://www.deepl.com/es/translator) o [Google Translate](https://translate.google.com/?hl=es), hacen uso de este tipo de modelos.

Estos modelos se entrenan tomando como entrada el texto en un idioma, y tienen como salida el mismo texto, pero en idioma objetivo.

Veamos un modelo para traducción de español a inglés:

In [None]:
model = pipeline("translation", "Helsinki-NLP/opus-mt-es-en")

Definimos un texto para traducir:

In [None]:
text = "estamos aprendiendo sobre transformers en el curso de procesamiento de lenguaje natural"

Veamos la traducción:

In [None]:
res = model(text)
display(res)

El resultado tiene un único campo:

- `translation_text`: texto traducido.

## **6. Llenado de Máscaras**
---

El llenado de máscaras o _mask filling_ es otra tarea supervisada donde el modelo trata de predecir un token de acuerdo a su contexto:

<img src="https://drive.google.com/uc?export=view&id=1UB0-dIMIp85DEFowqZD5OI9GFWn7oUTe" width="80%">

Normalmente, los modelos de llenado de máscaras tratan de reemplazar un token específico por una predicción dentro del vocabulario, similar al juego del ahorcado. Por ejemplo, el siguiente texto:

> `"ayer compramos ____ en la panadería"`

Hay múltiples tokens que podrían reemplazarse acá, por ejemplo: `"pan", "panes", "galletas"`.

Podemos cargar un modelo para llenado de máscaras en español:

In [None]:
model = pipeline("fill-mask", "xlm-roberta-base")

Para este modelo, las máscaras se representan por medio del token `<mask>`. Veamos un ejemplo:

In [None]:
text = "ayer viajé desde <mask> hacia Colombia"

Veamos la predicción del modelo:

In [None]:
res = model(text)
display(res)

Las predicciones corresponden a una lista de las palabras más probables que puede autocompletar el modelo. Estas tienen los siguientes campos:

- `score`: probabilidad predicha por el modelo.
- `token`: identificador de token dentro del vocabulario.
- `token_str`: texto del token.
- `sequence`: texto resultante.

## **7. Resumen Abstractivo**
---

El resumen abstractivo es una aplicación donde se realiza síntesis de un texto para obtener una versión más corta del mismo.

<img src="https://drive.google.com/uc?export=view&id=1PGqgH9OixCyTeTThL0ob9ZFFCzmQmMWl" width="80%">

Es una tarea donde el resultado puede contener palabras que ni siquiera se encuentran en el vocabulario del texto original. Es decir, el modelo debe generar un texto completamente nuevo que contenga la mayor cantidad de información posible del texto original pero con menos palabras.

Veamos un modelo en español:

In [None]:
model = pipeline("summarization", "josmunpen/mt5-small-spanish-summarization")

Definimos un texto a resumir:

El contenido es el siguiente

>La Guardia Civil ha desarticulado un grupo organizado dedicado a copiar en los examenes teoricos para la obtencion del permiso de conducir. Para ello, empleaban receptores y camaras de alta tecnologia y operaban desde la misma sede del Centro de examenes de la Direccion General de Trafico (DGT) en Mostoles. Es lo que han llamado la Operacion pinga. El grupo desarticulado ofrecia el servicio de transporte y tecnologia para copiar y poder aprobar. Por dicho servicio cobraban 1.000 euros. Los investigadores sorprendieron in fraganti a una mujer intentando copiar en el examen. Portaba una chaqueta con dispositivos electronicos ocultos, concretamente un telefono movil al que estaba conectada una camara que habia sido insertada en la parte frontal de la chaqueta para transmitir online el examen y que orientada al ordenador del Centro de Examenes en el que aparecen las preguntas, permitia visualizar las imagenes en otro ordenador alojado en el interior de un vehiculo estacionado en las inmediaciones del centro. En este vehiculo, se encontraban el resto del grupo desarticulado con varios ordenadores portatiles y tablets abiertos y conectados a paginas de test de la DGT para consultar las respuestas. Estos, comunicaban con la mujer que estaba en el aula haciendo el examen a traves de un diminuto receptor bluetooth que portaba en el interior de su oido.  Luis de Lama, portavoz de la Guardia Civil de Trafico destaca que los ciudadanos, eran de origen chino, y copiaban en el examen utilizando la tecnologia facilitada por una organizacion. Destaca que, ademas de parte del fraude que supone copiar en un examen muchos de estos ciudadanos desconocian el idioma, no hablan ni entienden el español lo que supone un grave riesgo para la seguridad vial por desconocer las señales y letreros que avisan en carretera de muchas incidencias.

In [None]:
text = """La Guardia Civil ha desarticulado un grupo organizado dedicado a copiar en los examenes teoricos para la obtencion del permiso de conducir. Para ello, empleaban receptores y camaras de alta tecnologia y operaban desde la misma sede del Centro de examenes de la Direccion General de Trafico (DGT) en Mostoles. Es lo que han llamado la Operacion pinga. El grupo desarticulado ofrecia el servicio de transporte y tecnologia para copiar y poder aprobar. Por dicho servicio cobraban 1.000 euros. Los investigadores sorprendieron in fraganti a una mujer intentando copiar en el examen. Portaba una chaqueta con dispositivos electronicos ocultos, concretamente un telefono movil al que estaba conectada una camara que habia sido insertada en la parte frontal de la chaqueta para transmitir online el examen y que orientada al ordenador del Centro de Examenes en el que aparecen las preguntas, permitia visualizar las imagenes en otro ordenador alojado en el interior de un vehiculo estacionado en las inmediaciones del centro. En este vehiculo, se encontraban el resto del grupo desarticulado con varios ordenadores portatiles y tablets abiertos y conectados a paginas de test de la DGT para consultar las respuestas. Estos, comunicaban con la mujer que estaba en el aula haciendo el examen a traves de un diminuto receptor bluetooth que portaba en el interior de su oido.  Luis de Lama, portavoz de la Guardia Civil de Trafico destaca que los ciudadanos, eran de origen chino, y copiaban en el examen utilizando la tecnologia facilitada por una organizacion. Destaca que, ademas de parte del fraude que supone copiar en un examen muchos de estos ciudadanos desconocian el idioma, no hablan ni entienden el español lo que supone un grave riesgo para la seguridad vial por desconocer las señales y letreros que avisan en carretera de muchas incidencias. """

Veamos el resumen del texto:

In [None]:
res = model(text)
display(res)

El resultado contiene un único campo:

- `summary_text`: texto resumido.

## **8. Question Answering**
---

Los modelos de pregunta-respuesta son modelos supervisados que buscan generar una respuesta a una pregunta dada.

In [None]:
#@markdown ##**Ejecute esta celda para ver el video.**
from IPython.display import IFrame
IFrame(
        src="https://drive.google.com/file/d/1Dtppx-D2suNZuo3owGHXdRo0ZRf1kEPE/preview",
        width="768px",
        height="432px"
        )

El ejemplo anterior muestra uno de los modelos más recientes de transformers aplicado como agente conversacional (una aplicación bastante similar a pregunta-respuesta).

Veamos un ejemplo en español:

In [None]:
model = pipeline(
    "question-answering",
    "PlanTL-GOB-ES/roberta-base-bne-sqac"
)

Bajo el siguiente contexto:

El contenido es el siguiente
> Alan Mathison Turing (Paddington, Londres; 23 de junio de 1912-Wilmslow, Cheshire; 7 de junio de 1954) fue un matemático, lógico, informático teórico, criptógrafo, filósofo y biólogo teórico británico. Está considerado uno de los padres de la ciencia de la computación y precursor de la informática moderna. Proporcionó una influyente formalización de los conceptos de algoritmo y computación: la máquina de Turing. Formuló su propia versión que hoy es ampliamente aceptada como la tesis de Church-Turing (1936).

In [None]:
context = """Alan Mathison Turing (Paddington, Londres; 23 de junio de 1912-Wilmslow, Cheshire; 7 de junio de 1954) fue un matemático, lógico, informático teórico, criptógrafo, filósofo y biólogo teórico británico. Está considerado uno de los padres de la ciencia de la computación y precursor de la informática moderna. Proporcionó una influyente formalización de los conceptos de algoritmo y computación: la máquina de Turing. Formuló su propia versión que hoy es ampliamente aceptada como la tesis de Church-Turing (1936)."""

Vamos a plantear la siguiente pregunta:

In [None]:
text = "¿Quién es el padre de la computación?"

Veamos la respuesta del modelo:

In [None]:
res = model(
        question=text,
        context=context
        )
display(res)

Podemos formular otra pregunta:

In [None]:
text = "¿Qué profesión tenía Alan Turing?"

Veamos la respuesta del modelo:

In [None]:
res = model(
        question=text,
        context=context
        )
display(res)

## Recursos Adicionales
---

Los siguientes enlaces corresponden a sitios donde encontrará información muy útil para profundizar en los temas vistos en este notebook:

- [HuggingFace](https://huggingface.co/).
- [ChatGPT](https://openai.com/blog/chatgpt/).
- _Fuente de los íconos_
     - Flaticon. Text free icon [PNG]. https://www.flaticon.com/free-icon/text_8356088
     - Flaticon. Machine Learning free icon [PNG]. https://www.flaticon.com/free-icon/machine-learning_3806229
     - Flaticon. Neural Network free icon [PNG]. https://www.flaticon.com/free-icon/neural-network_6461771
     - Flaticon. Question free icon [PNG]. https://www.flaticon.com/free-icon/question_3464867
     - Flaticon. Screwdriver free icon [PNG]. https://www.flaticon.com/free-icon/screwdriver_698728
     - Flaticon. Abstract free icon [PNG]. https://www.flaticon.com/free-icon/abstract_7444340
     - Flaticon. Hangman free icon [PNG]. https://www.flaticon.com/free-icon/hangman_7399647
     - Flaticon. Hierarchy free icon [PNG]. https://www.flaticon.com/free-icon/hierarchy_6261577
     - Flaticon. Loupe free icon [PNG]. https://www.flaticon.com/free-icon/loupe_4336376
     - Flaticon. Virtual Reality free icon [PNG]. https://www.flaticon.com/free-icon/virtual-reality_8055545
     - Flaticon. Sports free icon [PNG]. https://www.flaticon.com/free-icon/sports_3311567
     - Flaticon. Add file free icon [PNG]. https://www.flaticon.com/free-icon/add-file_3979404
     - Flaticon. Document free icon [PNG]. https://www.flaticon.com/free-icon/document_888071
     - Flaticon. Happy face free icon [PNG]. https://www.flaticon.com/free-icon/happy-face_5624232
     - Flaticon. Review free icon [PNG]. https://www.flaticon.com/free-icon/review_5624236
     - Flaticon. Neutral free icon [PNG]. https://www.flaticon.com/free-icon/neutral_3688054
     - Flaticon. Process free icon [PNG]. https://www.flaticon.com/free-icon/process_4149680
     - Flaticon. Languages free icon [PNG]. https://www.flaticon.com/free-icon/languages_3898150

## Créditos
---

* **Profesor:** [Felipe Restrepo Calle](https://dis.unal.edu.co/~ferestrepoca/)
* **Asistentes docentes:**
    - [Juan Sebastián Lara Ramírez](https://www.linkedin.com/in/juan-sebastian-lara-ramirez-43570a214/).
* **Diseño de imágenes:**
    - [Rosa Alejandra Superlano Esquibel](mailto:rsuperlano@unal.edu.co).
* **Coordinador de virtualización:**
    - [Edder Hernández Forero](https://www.linkedin.com/in/edder-hernandez-forero-28aa8b207/).

**Universidad Nacional de Colombia** - *Facultad de Ingeniería*