# Aplicaciones de Transformers en Procesamiento de Lenguaje Natural

Este cuaderno explora distintas aplicaciones de los modelos Transformers en tareas de procesamiento de lenguaje natural (PLN), utilizando ejemplos prácticos y explicaciones teóricas.

## 1. Definir el texto de ejemplo

A continuación, se presenta un texto de ejemplo que será utilizado en las distintas aplicaciones de modelos Transformers. Este texto simula una queja de un cliente sobre un pedido equivocado, lo que nos permitirá explorar tareas como clasificación, reconocimiento de entidades, respuesta a preguntas, resumen, traducción y generación de texto.

In [4]:
texto = """En el Mundial de Clubes, el Manchester City de Inglaterra se enfrentó al Fluminense de Brasil en una final emocionante.
Julián Álvarez fue figura clave para los ingleses, marcando un gol decisivo.
Por otro lado, Marcelo, exjugador del Real Madrid, lideró la defensa del equipo brasileño.
Desde Arabia Saudita, sede del torneo, también destacaron clubes como el Urawa Red Diamonds de Japón y el Al Ahly de Egipto.
Cada partido mostró el talento internacional reunido en esta prestigiosa competencia."""

## 2. Clasificación de texto con Transformers

La **clasificación de texto** es una tarea fundamental en PLN que consiste en asignar una o varias etiquetas a un texto, como por ejemplo identificar el sentimiento (positivo, negativo, neutro) o la intención del mensaje. Los modelos Transformers, gracias a su capacidad para comprender el contexto, han demostrado un rendimiento sobresaliente en esta tarea.

Utilizaremos el pipeline `text-classification` de la librería 🤗 Transformers para analizar el texto de ejemplo y visualizar el resultado de la clasificación.

In [1]:
from transformers import pipeline

In [2]:
# Modelo de clasificación de texto (sentimiento) en español
# pysentimiento/robertuito-sentiment-analysis es robusto para el analisis de sentimiento en español.
classifier = pipeline("text-classification", model="pysentimiento/robertuito-sentiment-analysis")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/925 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/435M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/384 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.31M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/167 [00:00<?, ?B/s]

Device set to use cuda:0


In [5]:
import pandas as pd

outputs = classifier(texto)
pd.DataFrame(outputs)

Unnamed: 0,label,score
0,POS,0.832592


## 3. Reconocimiento de entidades nombradas (NER)

El **Reconocimiento de Entidades Nombradas** (NER, por sus siglas en inglés) es la tarea de identificar y clasificar automáticamente nombres propios, lugares, organizaciones y otras entidades relevantes dentro de un texto. Los Transformers permiten realizar NER de manera eficiente y precisa.

A continuación, aplicamos el pipeline `ner` al texto de ejemplo para extraer las entidades nombradas presentes.

In [6]:
# Modelo de reconocimiento de entidades nombradas (NER) en español
# mrm8488/bert-spanish-cased-finetuned-ner está basado en BETO y finetunado para español.
ner_tagger = pipeline("ner", model="mrm8488/bert-spanish-cased-finetuned-ner", aggregation_strategy="simple")

config.json:   0%|          | 0.00/829 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/439M [00:00<?, ?B/s]

Some weights of the model checkpoint at mrm8488/bert-spanish-cased-finetuned-ner were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


tokenizer_config.json:   0%|          | 0.00/136 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/439M [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/242k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Device set to use cuda:0


In [7]:
outputs = ner_tagger(texto)
pd.DataFrame(outputs)

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Unnamed: 0,entity_group,score,word,start,end
0,MISC,0.994692,Mundial de Clubes,6,23
1,ORG,0.997943,Manchester City,28,43
2,LOC,0.987523,Inglaterra,47,57
3,ORG,0.999739,Flu,73,76
4,ORG,0.994381,##minense de Brasil,76,93
5,PER,0.993421,Julián Álvarez,121,135
6,PER,0.999407,Marcelo,214,221
7,ORG,0.999607,Real Madrid,237,248
8,LOC,0.998775,Arabia Saudita,297,311
9,ORG,0.924689,Urawa Red Diamonds de,364,385


In [8]:
texto_2 = """En el Mundial de Clubes, el Manchester City de Inglaterra se enfrentó al Fluminense de Brasil en una final emocionante.
Julián Álvarez fue figura clave para los ingleses, marcando un gol decisivo.
Por otro lado, Marcelo, exjugador del Real Madrid, lideró la defensa del equipo brasileño.
Desde Arabia Saudita, sede del torneo, también destacaron clubes como el Urawa Red Diamonds de Japón y el Al Ahly de Egipto.
Cada partido mostró el talento internacional reunido en esta prestigiosa competencia."""

resultado = ner_tagger(texto_2)
pd.DataFrame(resultado)

Unnamed: 0,entity_group,score,word,start,end
0,MISC,0.994692,Mundial de Clubes,6,23
1,ORG,0.997943,Manchester City,28,43
2,LOC,0.987523,Inglaterra,47,57
3,ORG,0.999739,Flu,73,76
4,ORG,0.994381,##minense de Brasil,76,93
5,PER,0.993421,Julián Álvarez,121,135
6,PER,0.999407,Marcelo,214,221
7,ORG,0.999607,Real Madrid,237,248
8,LOC,0.998775,Arabia Saudita,297,311
9,ORG,0.924689,Urawa Red Diamonds de,364,385


## 4. Respuesta a preguntas basada en contexto

La tarea de **respuesta a preguntas** (Question Answering) consiste en responder preguntas específicas utilizando un contexto dado. Los modelos Transformers pueden comprender el texto y extraer la información relevante para responder de manera precisa.

En el siguiente ejemplo, preguntamos al modelo qué desea el cliente, utilizando el pipeline `question-answering`.

In [9]:
# Modelo de respuesta a preguntas en español
# PlanTL-GOB-ES/roberta-large-bne-sqac es de PlanTL-GOB-ES, entrenado en SQAC.
reader = pipeline("question-answering", model="PlanTL-GOB-ES/roberta-large-bne-sqac")

config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.42G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/1.07k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.42G [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/858k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/516k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.48M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/772 [00:00<?, ?B/s]

Device set to use cuda:0


In [10]:
question = "¿Que primera impresion generó el Mundial de Clubes?"
outputs = reader(question=question, context=texto)
pd.DataFrame([outputs])

Unnamed: 0,score,start,end,answer
0,0.036928,28,57,Manchester City de Inglaterra


In [11]:
lector = pipeline("question-answering", model="mrm8488/bert-base-spanish-wwm-cased-finetuned-spa-squad2-es")

contexto = """En el Mundial de Clubes, el Manchester City de Inglaterra se enfrentó al Fluminense de Brasil en una final emocionante.
Julián Álvarez fue figura clave para los ingleses, marcando un gol decisivo.
Por otro lado, Marcelo, exjugador del Real Madrid, lideró la defensa del equipo brasileño.
Desde Arabia Saudita, sede del torneo, también destacaron clubes como el Urawa Red Diamonds de Japón y el Al Ahly de Egipto.
Cada partido mostró el talento internacional reunido en esta prestigiosa competencia."""

pregunta = "¿Que primera impresion genero el Mundial de Clubes?"

respuesta = lector(question=pregunta, context=contexto)
pd.DataFrame([respuesta])

config.json:   0%|          | 0.00/465 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/439M [00:00<?, ?B/s]

Some weights of the model checkpoint at mrm8488/bert-base-spanish-wwm-cased-finetuned-spa-squad2-es were not used when initializing BertForQuestionAnswering: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForQuestionAnswering from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForQuestionAnswering from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


model.safetensors:   0%|          | 0.00/439M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/135 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/242k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Device set to use cuda:0


Unnamed: 0,score,start,end,answer
0,0.079358,121,135,Julián Álvarez


## 5. Resumen automático de texto

El **resumen automático** permite condensar la información principal de un texto extenso en una versión más corta, manteniendo el significado esencial. Los Transformers han revolucionado esta tarea gracias a su capacidad de comprensión contextual.

A continuación, utilizamos el pipeline `summarization` para obtener un resumen del texto de ejemplo.

In [12]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

In [13]:
# Cargar modelo y tokenizer
model_name = "csebuetnlp/mT5_multilingual_XLSum"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

tokenizer_config.json:   0%|          | 0.00/375 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/730 [00:00<?, ?B/s]

spiece.model:   0%|          | 0.00/4.31M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/65.0 [00:00<?, ?B/s]

You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565


pytorch_model.bin:   0%|          | 0.00/2.33G [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.33G [00:00<?, ?B/s]

In [14]:
# Crear el pipeline
resumidor = pipeline("summarization", model=model, tokenizer=tokenizer)

Device set to use cuda:0


In [15]:
# Texto para resumir
texto = """En el Mundial de Clubes, el Manchester City de Inglaterra se enfrentó al Fluminense de Brasil en una final emocionante.
Julián Álvarez fue figura clave para los ingleses, marcando un gol decisivo.
Por otro lado, Marcelo, exjugador del Real Madrid, lideró la defensa del equipo brasileño.
Desde Arabia Saudita, sede del torneo, también destacaron clubes como el Urawa Red Diamonds de Japón y el Al Ahly de Egipto.
Cada partido mostró el talento internacional reunido en esta prestigiosa competencia."""

In [16]:
# Generar resumen
resumen = resumidor(texto, max_length=80, min_length=20, do_sample=False)
print(resumen[0]['summary_text'])

El Manchester City de Inglaterra se enfrentó al Fluminense de Brasil en una final emocionante en el Mundial de Clubes.


## 6. Traducción automática del español a inglés

La **traducción automática** es una de las aplicaciones más destacadas de los Transformers, permitiendo traducir textos entre diferentes idiomas con alta calidad. Utilizaremos el pipeline `translation_es_to_en` para traducir el texto de ejemplo del inglés al alemán.

In [17]:
# Modelo de traducción de español a inglés
# Helsinki-NLP/opus-mt-es-en es un modelo estándar y confiable para esta tarea.
translator = pipeline("translation_es_to_en",
                      model="Helsinki-NLP/opus-mt-es-en")

config.json:   0%|          | 0.00/1.44k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/312M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/293 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/312M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/44.0 [00:00<?, ?B/s]

source.spm:   0%|          | 0.00/826k [00:00<?, ?B/s]

target.spm:   0%|          | 0.00/802k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.59M [00:00<?, ?B/s]

Device set to use cuda:0


In [18]:
outputs = translator(texto, clean_up_tokenization_spaces=True, min_length=130)
print(outputs[0]['translation_text'])

At the Club World Cup, England’s Manchester City faced Brazil’s Fluminense in an exciting final. Julián Álvarez was a key figure for the English, setting a decisive goal. On the other hand, Marcelo, a former player of Real Madrid, led the defense of the Brazilian team. From Saudi Arabia, where the tournament was hosted, clubs such as the Urawa Red Diamonds of Japan and Al Ahly of Egypt also stood out. Each match showed the international talent gathered in this prestigious competition..........................................................................................................................................................................................................


In [19]:
traductor = pipeline("translation", model="Helsinki-NLP/opus-mt-es-de")

config.json:   0%|          | 0.00/1.38k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/304M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/293 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/42.0 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/304M [00:00<?, ?B/s]

source.spm:   0%|          | 0.00/818k [00:00<?, ?B/s]

target.spm:   0%|          | 0.00/829k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.47M [00:00<?, ?B/s]

Device set to use cuda:0


In [21]:
texto = """En el Mundial de Clubes, el Manchester City de Inglaterra se enfrentó al Fluminense de Brasil en una final emocionante.
Julián Álvarez fue figura clave para los ingleses, marcando un gol decisivo.
Por otro lado, Marcelo, exjugador del Real Madrid, lideró la defensa del equipo brasileño.
Desde Arabia Saudita, sede del torneo, también destacaron clubes como el Urawa Red Diamonds de Japón y el Al Ahly de Egipto.
Cada partido mostró el talento internacional reunido en esta prestigiosa competencia."""

traduccion = traductor(texto)
print(traduccion[0]['translation_text'])

In der Clubwelt war Manchester City in England auf einem spannenden Finale gegen den brasilianischen Fluminense. Julián Álvarez war ein Schlüsselfigur für die Engländer und markierte ein entscheidendes Tor. Marcelo, ein ehemaliger Spieler des Real Madrids, führte die Verteidigung des brasilianischen Teams an. Aus Saudi-Arabien, dem Sitz des Turniers, wiesen auch Clubs wie das japanische Urawa Red Diamonds und das ägyptische Al Ahly hervor. Jede Partei zeigte das internationale Talent, das in diesem renommierten Wettbewerb gesammelt wurde.


## 7. Generación automática de texto (respuesta de servicio al cliente)

La **generación automática de texto** permite crear o continuar textos de manera coherente a partir de un prompt inicial. Esta capacidad es útil, por ejemplo, para redactar respuestas automáticas en atención al cliente.

En el siguiente ejemplo, generamos una posible respuesta de servicio al cliente utilizando el pipeline `text-generation`.

In [22]:
# Modelo de generación de texto en español
# DeepESP/gpt2-spanish es un GPT-2 entrenado desde cero con texto y un tokenizer en español.
generator = pipeline("text-generation", model="DeepESP/gpt2-spanish")

config.json:   0%|          | 0.00/914 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/261M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/261M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/115 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/840k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/499k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/262 [00:00<?, ?B/s]

Device set to use cuda:0


In [23]:
response = "Estimado Bumblebee, lamento mucho saber que su pedido se mezcló."
prompt = texto + "\n\nRespuesta del servicio al cliente:\n" + response
outputs = generator(prompt, max_length=100, do_sample=True, temperature=1.0) # Añadir parámetros para mejor generación
print(outputs[0]['generated_text'])

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
Both `max_new_tokens` (=256) and `max_length`(=100) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


En el Mundial de Clubes, el Manchester City de Inglaterra se enfrentó al Fluminense de Brasil en una final emocionante. 
Julián Álvarez fue figura clave para los ingleses, marcando un gol decisivo. 
Por otro lado, Marcelo, exjugador del Real Madrid, lideró la defensa del equipo brasileño. 
Desde Arabia Saudita, sede del torneo, también destacaron clubes como el Urawa Red Diamonds de Japón y el Al Ahly de Egipto. 
Cada partido mostró el talento internacional reunido en esta prestigiosa competencia.

Respuesta del servicio al cliente:
Estimado Bumblebee, lamento mucho saber que su pedido se mezcló. el Mundial de Bulls 2014. 

El triunfo del Sudamericano de Brasil no representó ninguna diferencia en la segunda Copa del mundo. Sólo faltaba la clasificación, siempre en el Brasil para jugar. Este partido tuvo un fuerte componente internacional, ya que el resto no iba a ser fácil para Brasil. 

Por el contrario, la final de la Copa del Brasil estuvo marcada por el impacto del empate de Italia

In [24]:
from transformers import pipeline

# Modelo en español
generador = pipeline("text-generation", model="datificate/gpt2-small-spanish")

# Texto del cliente
texto = """En el Mundial de Clubes, el Manchester City de Inglaterra se enfrentó al Fluminense de Brasil en una final emocionante.
Julián Álvarez fue figura clave para los ingleses, marcando un gol decisivo.
Por otro lado, Marcelo, exjugador del Real Madrid, lideró la defensa del equipo brasileño.
Desde Arabia Saudita, sede del torneo, también destacaron clubes como el Urawa Red Diamonds de Japón y el Al Ahly de Egipto.
Cada partido mostró el talento internacional reunido en esta prestigiosa competencia."""

# Primer renglón de la respuesta
respuesta_inicial = "Estimado Bumblebee, lamentamos mucho lo ocurrido con su pedido. "

# Prompt claro, sin repetir encabezado
prompt = texto + "\n\nRespuesta del servicio al cliente:\n" + respuesta_inicial

# Generación
outputs = generador(
    prompt,
    max_new_tokens=150,
    do_sample=True,
    temperature=1.0,
    top_k=50,
    top_p=0.9,
    repetition_penalty=1.3,
    eos_token_id=50256  # token de final en GPT-2
)

# Mostrar resultado
print(outputs[0]['generated_text'])

config.json:   0%|          | 0.00/817 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/510M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/510M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/620 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/850k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/508k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/387 [00:00<?, ?B/s]

Device set to use cuda:0


En el Mundial de Clubes, el Manchester City de Inglaterra se enfrentó al Fluminense de Brasil en una final emocionante. 
Julián Álvarez fue figura clave para los ingleses, marcando un gol decisivo. 
Por otro lado, Marcelo, exjugador del Real Madrid, lideró la defensa del equipo brasileño. 
Desde Arabia Saudita, sede del torneo, también destacaron clubes como el Urawa Red Diamonds de Japón y el Al Ahly de Egipto. 
Cada partido mostró el talento internacional reunido en esta prestigiosa competencia.

Respuesta del servicio al cliente:
Estimado Bumblebee, lamentamos mucho lo ocurrido con su pedido.  Muerto no pudo salir adelante a la calle después que éste pudiera ser atacado por las tropas británicas durante el terremoto (aunque eso ya había sido considerado posible gracias a la participación británica).
Se le devolvió con buenos términos algunos documentos relativos pero ahora está desintoxicada debido sus presuntos delitos... Su muerte es motivo central; no hay acuerdo sobre si murió a