# 24 - Explotación de Modelos Pre-Entrenados en Hugging Face - Transformers



## ¿Qué es Hugging Face?


* Hugging Face (https://huggingface.co/) es una web con una grandisima comunidad, que permite la los usuarios compartir y consumir modelos pre-entrenados (con técnicas de Deep Learning) dirigidos principalmente al campo del NLP.


* Su principal modo de operación gira entorno al uso de transformers; un nuevo modelo de Deep Learning presentado por google en 2017.


* También es utilizado para compartir datasets (corpus) entre otras cosas.


* En la siguiente imagen podemos ver la forma que tiene la web para la selección de modelos:

<img src="./imgs/036_Hugging_Face_WEB.png"/>


* En el siguiente enlace "https://huggingface.co/course/chapter1/1" esta disponible un curso introductorio de Hugging Face.



## ¿Qué son los Transformers?


* Los ***Transformers son modelos de deep learning***, diseñados para ***manejar datos secuenciales*** principalmente en el campo del procesamiento de lenguaje natural (NLP): traducción, clasificación, sumarización (resumenes) de textos, o bien en el campo de las series temporales como el forecasting o trading.


* Los transformers fueron presentados en 2017 en el Paper ***'Attention Is All You Need'*** por el equipo de Google: https://papers.nips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf

<img src="./imgs/035_Transformers_Arquitectura.png"/>

<center><h5>Imagen obtenida del paper 'Attention Is All You Need'</h5></center>


* ***La arquitectura de los Transformers*** contienen ***un sistema de encoding y decoding por capas***, acompañadas por un modelo de "self-attention".


* A diferencia de las redes neuronales recurrentes (las mejores redes hasta ese momento para el NLP), los Transformers no requieren que los datos estén ordenados; es decir, que si el input del modelo es una oración (una secuencia de palabras), el Transformer no necesita partir desde la primera palabra hasta la última secuencialmente para ofrecer la predicción. Esto le permite a los Transformers una mayor paralelización que las redes neuronales recurrentes lo que se traduce en menores tiempos de entrenamiento.


## ¿Cómo funcionan los transformers?


1. El Transformer recibe una oración de entrada y la convierte en dos secuencias: 

    1.1. una **secuencia de vectores de palabras**: cada palabra del diccionario la representa como un vector
    
    1.2. una **secuencia de codificaciones posicionales**: representación vectorial de la posición de la palabra en la oración
    

2. El transformer junta ambas secuencias y pasa el resultado a través de una serie de codificadores, seguidos de una serie de decodificadores. Se puede observar en este punto como la oración de entrada se puede procesar toda a la vez y no de manera secuencial como se haría con las redes neuronales recurrentes.

3. Cada uno de los codificadores convierte su entrada en otra secuencia de vectores llamados codificaciones.

4. Los decodificadores hacen lo contrario; convertir las codificaciones en una secuencia de probabilidades de diferentes palabras de salida.

5.  Cada codificador y decodificador contiene un componente llamado mecanismo de atención, que le permite generar un contexto a cada palabra que procesa

6. Finalmente las probabilidades numéricas en la capa de salida se pueden convertir en otra oración en lenguaje natural usando la función softmax.


* Enlace de interes para comprender el detalle de los Transformers: https://deepai.org/machine-learning-glossary-and-terms/transformer-neural-network


## Modelos Pre-entrenados con Transformers:


* Existen una serie de modelos pre-entrenados (principalmente en inglés) que tiene como objetivo servir como base para posteriormento resolver tareas concretas como la clasifiación de textos, traducción, resumenes de textos, etc.


* Podemos decir que estos modelos que se muestran en la siguiente imagen (ELMo, Bert, GPT3, etc.) serian modelos que han aprendido la tarea de "saber leer" y que posteriormente son usados en los entrenamientos para resolver tareas más específicas como las antes mencionadas de clasifiación de textos, traducción, resumenes de textos, etc.

<img src="./imgs/037_Modelos_Pre-Entrenados_NLP3.png"/>

<center><h5>Imagen obtenida de: https://spyro-soft.com/blog/tomasz-smolarczyk-the-future-of-ai</h5></center>


* Existen modelos en Español como ***BETO, MarIA y BERTIN":

<img src="./imgs/038_Modelos_Pre-Entrenados_NLP_espaniol.png"/>

<center><h5>Imagen obtenida del video: 'Entrenando un modelo de lenguaje del español del estado del arte - Hackathon de PLN en Español': https://youtu.be/3OhArr1R2Lw</h5></center>


* En el video 'Entrenando un modelo de lenguaje del español del estado del arte - Hackathon de PLN en Español' ( https://youtu.be/3OhArr1R2Lw) un equipo del Instituto de Ingeniería del Conocimiento muestra el proceso por el cual han construido el modelo ***RigoBERTa*** para posteriormente resolver diferentes tareas.


## ¿Cómo explotamos los Modelos Pre-entrenados de Hugging Face?


* A continuación vamos a ver cómo importar y explotar los modelos disponibles en Hugging Face, para resolver las tareas de:

    1. [Clasificación](#M1)
    2. [Traducción](#M2)
    3. [Resumenes de Textos](#M3)
    4. [NER (Reconocimiento de Entidades Nombradas)](#M4)

In [1]:
import warnings
warnings.filterwarnings(action='ignore')

<hr>


# <a name="M1">1.- Clasificación</a>


In [2]:
from transformers import pipeline

classifier = pipeline("sentiment-analysis")
classifier("I love this car")

No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english)


[{'label': 'POSITIVE', 'score': 0.9998812675476074}]

* Podemos pasar una lista de frases para su predicción:

In [3]:
classifier(["I love this car",
            "I do not like this car"])

[{'label': 'POSITIVE', 'score': 0.9998812675476074},
 {'label': 'NEGATIVE', 'score': 0.994215190410614}]

* A continuación un ejemplo más completo

In [4]:
test = [('I feel happy this morning', 'POSITIVE'),
        ('Larry is my friend', 'POSITIVE'),
        ('I do not like that man', 'NEGATIVE'),
        ('My house is not great', 'NEGATIVE'),
        ('Your song is annoying', 'NEGATIVE'),
        ('The beer was good.', 'POSITIVE'),
        ('I do not enjoy my job', 'NEGATIVE'),
        ("I feel amazing!", 'POSITIVE'),
        ('Gary is a friend of mine.', 'POSITIVE'),
        ("I can't believe I'm doing this.", 'NEGATIVE')]

# Obtenemos las predicciones
pred = classifier([t[0] for t in test])

# Imprimimos la predicción, la realidad, el score y la frase
for index, prediction in enumerate(pred):
    print("Prediction: {} - Real: {} - ACIERTO: {} - Score: {} - Frase: {}"
          .format(prediction['label'], 
                  test[index][1], 
                  prediction['label'] == test[index][1], 
                  prediction['score'], 
                  test[index][0]))

Prediction: POSITIVE - Real: POSITIVE - ACIERTO: True - Score: 0.999884843826294 - Frase: I feel happy this morning
Prediction: POSITIVE - Real: POSITIVE - ACIERTO: True - Score: 0.9995887875556946 - Frase: Larry is my friend
Prediction: NEGATIVE - Real: NEGATIVE - ACIERTO: True - Score: 0.9950820207595825 - Frase: I do not like that man
Prediction: NEGATIVE - Real: NEGATIVE - ACIERTO: True - Score: 0.9997738003730774 - Frase: My house is not great
Prediction: NEGATIVE - Real: NEGATIVE - ACIERTO: True - Score: 0.9997772574424744 - Frase: Your song is annoying
Prediction: POSITIVE - Real: POSITIVE - ACIERTO: True - Score: 0.9998492002487183 - Frase: The beer was good.
Prediction: NEGATIVE - Real: NEGATIVE - ACIERTO: True - Score: 0.9997217059135437 - Frase: I do not enjoy my job
Prediction: POSITIVE - Real: POSITIVE - ACIERTO: True - Score: 0.9998800754547119 - Frase: I feel amazing!
Prediction: POSITIVE - Real: POSITIVE - ACIERTO: True - Score: 0.9997559189796448 - Frase: Gary is a fri


<hr>


## 1.1.- Selección y Explotación de modelos de clasificación ya entrenados (En Español)

* Dentro de la web de Hugging Face (https://huggingface.co/) podemos visualizar y seleccionar mediante filtros, aquellos modelos ya entrenados que puedan satisfacer las necesidades de nuestro problema.


* En el siguiente ejemplo vamos a ***seleccionar un modelo con las siguientes características***:

    1.- Modelo para la ***clasificación de textos (Análisis de Sentimientos)***
    
    2.- Que sepa clasificar textos ***en Español***.
    

* Para ello aplicamos los siguientes filtro y nos muestra la lista de modelos que sirven para clasificar textos en Español.

<img src="./imgs/031_Modelos_Clsificacion_HgF.png"/>


* Una vez filtrados estos modelos, tenemos que ver cuales nos permiten realizar ***clasificación de textos***, asignando; por ejemplo, una ***polaridad Positiva, Negativa o Neutra***.


* Podemos hacer uso del modelo "https://huggingface.co/finiteautomata/beto-sentiment-analysis":


<img src="./imgs/032_Modelo_Clasificacion_HF.png"/>


* Explotar este modelo, sería tan sencillo como indicar en el *pipeline* el modelo seleccionado (finiteautomata/beto-sentiment-analysis) y pasarle unos textos para su predicción:


In [5]:
from transformers import pipeline

clasificador = pipeline("text-classification", model="finiteautomata/beto-sentiment-analysis")

clasificador(["Este ejemplo muy malo",
              "Este ejemplo es maravilloso"],
             return_all_scores=True)

[[{'label': 'NEG', 'score': 0.9991390705108643},
  {'label': 'NEU', 'score': 0.00025609711883589625},
  {'label': 'POS', 'score': 0.0006048274226486683}],
 [{'label': 'NEG', 'score': 0.0008638024446554482},
  {'label': 'NEU', 'score': 0.0005001439130865037},
  {'label': 'POS', 'score': 0.9986360669136047}]]

<hr>


## 1.2.- Ejemplo: Cálculo de nivel de "Toxicidad" de Tweets escritos por políticos.


* La conocida empresa *Newtral* ha creado un modelo (basado en RoBERTa) capaz de asignar a un tweet una puntuación de "toxicidad".


* Este modelo asigna una puntuación de "Toxic" (LABEL_0) y "Very Toxic" (LABEL_1) a un tweet.


* Para construir este modelo han usado un conjunto de tweets escritos por miembros del Congreso de los Diputados, etiquetados cada uno de los tweets con una puntuación de toxicidad.


* Los detalles de este modelo están en: https://huggingface.co/Newtral/xlm-r-finetuned-toxic-political-tweets-es


<img src="./imgs/033_Modelo_toxicidad_tweets_politica_newtral.png"/>

In [6]:
from transformers import pipeline

clasificador = pipeline("text-classification", 
                        model="Newtral/xlm-r-finetuned-toxic-political-tweets-es")

clasificador(["Es usted un auténtico impresentable, su señoría.", 
              "Es usted un excelente parlamentario, su señoría"], 
             return_all_scores=True)

[[{'label': 'LABEL_0', 'score': 0.021804844960570335},
  {'label': 'LABEL_1', 'score': 0.006606480106711388}],
 [{'label': 'LABEL_0', 'score': 0.005288134794682264},
  {'label': 'LABEL_1', 'score': 0.0036774096079170704}]]

<hr>


# <a name="M2">2.- Traducción</a>


* Enlaces de interés para ver el funcionamiento de los transformers en las tareas de traducción: 

    1. https://towardsdatascience.com/transformers-141e32e69591

    2. https://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq-models-with-attention/


* Modelo de traducción: https://huggingface.co/Helsinki-NLP/opus-mt-es-en

In [7]:
import pandas as pd

from transformers import pipeline

# Obtenemos un artículo de dataset del "Mundo Today"
df = pd.read_table('./data/corpus_mundo_today.csv', sep='\|\|', header=0, engine='python')
text = df.iloc[0]['título'] + ': ' + df.iloc[0]['texto']

# Instanciamos el pipeline para la traducción
translator = pipeline("translation",
                      model="Helsinki-NLP/opus-mt-es-en")

# El modelo devuelve la traducción
traduction = translator(text)

# Imprimimos el texto original y su traducción
print('TEXTO EN ESPAÑOL: \n{}'.format(text))
print('\nTEXTO TRADUCIDO: \n{}'.format(traduction))

TEXTO EN ESPAÑOL: 
El Gobierno español sumará a Junqueras las condenas que no vaya a cumplir Puigdemont: Después del revés recibido por el Gobierno de España tras la puesta en libertad de Carles Puigdemont por parte de la justicia alemana, el juez Pablo Llarena ha decidido esta semana, a instancias del Ejecutivo, que sumará a Oriol Junqueras las condenas que no vaya a cumplir el líder del PDeCAT. El exvicepresidente de Cataluña, que permanece en la prisión madrileña de Estremera desde el pasado dos de noviembre, asumiría por tanto todos los delitos atribuidos a Carles Puigdemont y, de esta manera, el Tribunal Supremo se asegura de que los actos del expresidente catalán durante la última legislatura no quedan impunes, ya que “Junqueras pagará por todos y cada uno de ellos”. Con esta maniobra ideada para burlar la justicia alemana, el líder de Esquerra Republicana se enfrenta a 50 años más de prisión. “Seguiremos adelante aunque a Junqueras le caigan cien años más, nadie nos va a parar”,

<hr>


# <a name="M3">3.- Resumenes de Textos</a>


* Modelo para resumenes de textos: https://huggingface.co/csebuetnlp/mT5_multilingual_XLSum

In [8]:
import pandas as pd

from transformers import pipeline

# Obtenemos un artículo de dataset del "Mundo Today"
df = pd.read_table('./data/corpus_mundo_today.csv', sep='\|\|', header=0, engine='python')
text = df.iloc[0]['título'] + ': ' + df.iloc[0]['texto']

# Instanciamos el pipeline para el resumen
summarizer = pipeline("summarization",
                   model="csebuetnlp/mT5_multilingual_XLSum")
resumen = summarizer(text)

# Imprimimos el texto original y su resumen
print('TEXTO ORIGINAL: \n{}'.format(text))
print('\nTEXTO RESUMIDO: \n{}'.format(resumen))

TEXTO ORIGINAL: 
El Gobierno español sumará a Junqueras las condenas que no vaya a cumplir Puigdemont: Después del revés recibido por el Gobierno de España tras la puesta en libertad de Carles Puigdemont por parte de la justicia alemana, el juez Pablo Llarena ha decidido esta semana, a instancias del Ejecutivo, que sumará a Oriol Junqueras las condenas que no vaya a cumplir el líder del PDeCAT. El exvicepresidente de Cataluña, que permanece en la prisión madrileña de Estremera desde el pasado dos de noviembre, asumiría por tanto todos los delitos atribuidos a Carles Puigdemont y, de esta manera, el Tribunal Supremo se asegura de que los actos del expresidente catalán durante la última legislatura no quedan impunes, ya que “Junqueras pagará por todos y cada uno de ellos”. Con esta maniobra ideada para burlar la justicia alemana, el líder de Esquerra Republicana se enfrenta a 50 años más de prisión. “Seguiremos adelante aunque a Junqueras le caigan cien años más, nadie nos va a parar”, h

* Modelo para resumenes de textos: https://huggingface.co/mrm8488/bert2bert_shared-spanish-finetuned-summarization

In [9]:
import pandas as pd
import torch

from transformers import BertTokenizerFast, EncoderDecoderModel

# Obtenemos un artículo de dataset del "Mundo Today"
df = pd.read_table('./data/corpus_mundo_today.csv', sep='\|\|', header=0, engine='python')
text = df.iloc[0]['título'] + ': ' + df.iloc[0]['texto']

device = 'cuda' if torch.cuda.is_available() else 'cpu'
tokenizer = BertTokenizerFast.from_pretrained('mrm8488/bert2bert_shared-spanish-finetuned-summarization')
model = EncoderDecoderModel.from_pretrained('mrm8488/bert2bert_shared-spanish-finetuned-summarization').to(device)

def generate_summary(text):
    inputs = tokenizer([text], padding="max_length", truncation=True, max_length=512, return_tensors="pt")
    input_ids = inputs.input_ids.to(device)
    attention_mask = inputs.attention_mask.to(device)
    output = model.generate(input_ids, attention_mask=attention_mask)
    return tokenizer.decode(output[0], skip_special_tokens=True)
   

generate_summary(text)

The following encoder weights were not tied to the decoder ['bert/pooler']
The following encoder weights were not tied to the decoder ['bert/pooler']


'El exvicepresidente de Cataluña, que permanece en la prisión madrileña de Estremera desde el pasado dos de noviembre, se enfrenta a 50 años más de cárcel'

<hr>


# <a name="M4">4.- NER (Named Entity Recognition)</a>


* Los Modelos de "Reconocimiento de Entidades Nombradas" (Token Classification) también se encuentran en Hugging Face.


* Veamos a continuación un ejemplo:

In [10]:
from transformers import pipeline

ner = pipeline("ner", grouped_entities=True)
ner("Leo Messi (Rosario, Santa Fe; 24 de junio de 1987); ex-jugador del FC Barcelona,"\
    " esta metiendo pocos goles en su nuevo equipo, el Paris Saint-Germain")

No model was supplied, defaulted to dbmdz/bert-large-cased-finetuned-conll03-english (https://huggingface.co/dbmdz/bert-large-cased-finetuned-conll03-english)


[{'entity_group': 'PER',
  'score': 0.99906236,
  'word': 'Leo Messi',
  'start': 0,
  'end': 9},
 {'entity_group': 'LOC',
  'score': 0.997633,
  'word': 'Rosario',
  'start': 11,
  'end': 18},
 {'entity_group': 'LOC',
  'score': 0.9976757,
  'word': 'Santa Fe',
  'start': 20,
  'end': 28},
 {'entity_group': 'ORG',
  'score': 0.99919605,
  'word': 'FC Barcelona',
  'start': 67,
  'end': 79},
 {'entity_group': 'ORG',
  'score': 0.9945101,
  'word': 'Paris Saint - Germain',
  'start': 130,
  'end': 149}]

* Un ejemplo de Modelo de NER en Español lo encontramos en: https://huggingface.co/flair/ner-spanish-large.


In [11]:
from flair.data import Sentence
from flair.models import SequenceTagger

# load tagger
tagger = SequenceTagger.load("flair/ner-spanish-large")

# make example sentence
sentence = Sentence("Leo Messi (Rosario, Santa Fe; 24 de junio de 1987); ex-jugador del FC Barcelona,"\
                    " esta metiendo pocos goles en su nuevo equipo, el Paris Saint-Germain")

# predict NER tags
tagger.predict(sentence)

# print sentence
print(sentence)

# print predicted NER spans
print('\nThe following NER tags are found:\n')
# iterate over entities and print
for entity in sentence.get_spans('ner'):
    print(entity)

2022-04-01 17:57:41,626 loading file C:\Users\Usuario\.flair\models\ner-spanish-large\045ad6c7dc21e0eb85935dce0544eec65f8c63c58412154df4dee7ff5f11665b.d4d3456316d2951bc100d060bd63a690b33af6d273adffa1b90df32328ed3257
Sentence: "Leo Messi ( Rosario , Santa Fe ; 24 de junio de 1987 ) ; ex-jugador del FC Barcelona , esta metiendo pocos goles en su nuevo equipo , el Paris Saint-Germain"   [− Tokens: 32  − Token-Labels: "Leo <B-PER> Messi <E-PER> ( Rosario <S-LOC> , Santa <B-LOC> Fe <E-LOC> ; 24 de junio de 1987 ) ; ex-jugador del FC <B-ORG> Barcelona <E-ORG> , esta metiendo pocos goles en su nuevo equipo , el Paris <B-ORG> Saint-Germain <E-ORG>"]

The following NER tags are found:

Span [1,2]: "Leo Messi"   [− Labels: PER (0.9999)]
Span [4]: "Rosario"   [− Labels: LOC (0.9999)]
Span [6,7]: "Santa Fe"   [− Labels: LOC (0.9999)]
Span [18,19]: "FC Barcelona"   [− Labels: ORG (0.9999)]
Span [31,32]: "Paris Saint-Germain"   [− Labels: ORG (0.9999)]
