# Aplicaciones de Transformers en Procesamiento de Lenguaje Natural

Este cuaderno explora distintas aplicaciones de los modelos Transformers en tareas de procesamiento de lenguaje natural (PLN), utilizando ejemplos prácticos y explicaciones teóricas.

## 1. Definir el texto de ejemplo

A continuación, se presenta un texto de ejemplo que será utilizado en las distintas aplicaciones de modelos Transformers. Este texto simula una queja de un cliente sobre un pedido equivocado, lo que nos permitirá explorar tareas como clasificación, reconocimiento de entidades, respuesta a preguntas, resumen, traducción y generación de texto.

In [1]:
texto = """Querido MercadoLibre, la semana pasada pedí una figura de acción de Optimus Prime desde su tienda online.
Para mi sorpresa, cuando abrí el paquete, descubrí horrorizado que me habían enviado una figura de Megatron.
Como fan de los Autobots, espero que entiendan mi decepción. Solicito un cambio urgente del producto."""

## 2. Clasificación de texto con Transformers

La **clasificación de texto** es una tarea fundamental en PLN que consiste en asignar una o varias etiquetas a un texto, como por ejemplo identificar el sentimiento (positivo, negativo, neutro) o la intención del mensaje. Los modelos Transformers, gracias a su capacidad para comprender el contexto, han demostrado un rendimiento sobresaliente en esta tarea.

Utilizaremos el pipeline `text-classification` de la librería 🤗 Transformers para analizar el texto de ejemplo y visualizar el resultado de la clasificación.

In [2]:
from transformers import pipeline

In [3]:
# Modelo de clasificación de texto (sentimiento) en español
# pysentimiento/robertuito-sentiment-analysis es robusto para el analisis de sentimiento en español.
classifier = pipeline("text-classification", model="pysentimiento/robertuito-sentiment-analysis")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/925 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/435M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/384 [00:00<?, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/167 [00:00<?, ?B/s]

Device set to use cuda:0


In [4]:
import pandas as pd

outputs = classifier(texto)
pd.DataFrame(outputs)

Unnamed: 0,label,score
0,NEG,0.913063


## 3. Reconocimiento de entidades nombradas (NER)

El **Reconocimiento de Entidades Nombradas** (NER, por sus siglas en inglés) es la tarea de identificar y clasificar automáticamente nombres propios, lugares, organizaciones y otras entidades relevantes dentro de un texto. Los Transformers permiten realizar NER de manera eficiente y precisa.

A continuación, aplicamos el pipeline `ner` al texto de ejemplo para extraer las entidades nombradas presentes.

In [5]:
# Modelo de reconocimiento de entidades nombradas (NER) en español
# mrm8488/bert-spanish-cased-finetuned-ner está basado en BETO y finetunado para español.
ner_tagger = pipeline("ner", model="mrm8488/bert-spanish-cased-finetuned-ner", aggregation_strategy="simple")

config.json:   0%|          | 0.00/829 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/439M [00:00<?, ?B/s]

Some weights of the model checkpoint at mrm8488/bert-spanish-cased-finetuned-ner were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


tokenizer_config.json:   0%|          | 0.00/136 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/439M [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Device set to use cuda:0


In [6]:
outputs = ner_tagger(texto)
pd.DataFrame(outputs)

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Unnamed: 0,entity_group,score,word,start,end
0,ORG,0.756584,MercadoLibre,8,20
1,MISC,0.829108,Optimus Prime,68,81
2,MISC,0.763648,Megatron,205,213
3,MISC,0.954693,Autobot,231,238


In [7]:
texto_2 = "Lionel Messi nació en Rosario, jugó en el FC Barcelona y ahora vive en Miami."

resultado = ner_tagger(texto_2)
pd.DataFrame(resultado)

Unnamed: 0,entity_group,score,word,start,end
0,PER,0.999702,Lionel Messi,0,12
1,LOC,0.999857,Rosario,22,29
2,ORG,0.999151,FC Barcelona,42,54
3,LOC,0.999841,Miami,71,76


## 4. Respuesta a preguntas basada en contexto

La tarea de **respuesta a preguntas** (Question Answering) consiste en responder preguntas específicas utilizando un contexto dado. Los modelos Transformers pueden comprender el texto y extraer la información relevante para responder de manera precisa.

En el siguiente ejemplo, preguntamos al modelo qué desea el cliente, utilizando el pipeline `question-answering`.

In [8]:
# Modelo de respuesta a preguntas en español
# PlanTL-GOB-ES/roberta-large-bne-sqac es de PlanTL-GOB-ES, entrenado en SQAC.
reader = pipeline("question-answering", model="PlanTL-GOB-ES/roberta-large-bne-sqac")

config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.42G [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.42G [00:00<?, ?B/s]

tokenizer_config.json: 0.00B [00:00, ?B/s]

vocab.json: 0.00B [00:00, ?B/s]

merges.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/772 [00:00<?, ?B/s]

Device set to use cuda:0


In [9]:
question = "¿Qué quiere el cliente?"
outputs = reader(question=question, context=texto)
pd.DataFrame([outputs])

Unnamed: 0,score,start,end,answer
0,0.999948,285,315,un cambio urgente del producto


In [10]:
lector = pipeline("question-answering", model="mrm8488/bert-base-spanish-wwm-cased-finetuned-spa-squad2-es")

contexto = """Querido MercadoLibre, la semana pasada pedí una figura de acción de Optimus Prime desde su tienda online.
Para mi sorpresa, cuando abrí el paquete, descubrí horrorizado que me habían enviado una figura de Megatron.
Como fan de los Autobots, espero que entiendan mi decepción. Solicito un cambio urgente del producto."""
pregunta = "¿Qué quiere el cliente?"

respuesta = lector(question=pregunta, context=contexto)
pd.DataFrame([respuesta])

config.json:   0%|          | 0.00/465 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/439M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/439M [00:00<?, ?B/s]

Some weights of the model checkpoint at mrm8488/bert-base-spanish-wwm-cased-finetuned-spa-squad2-es were not used when initializing BertForQuestionAnswering: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForQuestionAnswering from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForQuestionAnswering from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


tokenizer_config.json:   0%|          | 0.00/135 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Device set to use cuda:0


Unnamed: 0,score,start,end,answer
0,0.194556,285,315,un cambio urgente del producto


## 5. Resumen automático de texto

El **resumen automático** permite condensar la información principal de un texto extenso en una versión más corta, manteniendo el significado esencial. Los Transformers han revolucionado esta tarea gracias a su capacidad de comprensión contextual.

A continuación, utilizamos el pipeline `summarization` para obtener un resumen del texto de ejemplo.

In [11]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

In [12]:
# Cargar modelo y tokenizer
model_name = "csebuetnlp/mT5_multilingual_XLSum"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

tokenizer_config.json:   0%|          | 0.00/375 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/730 [00:00<?, ?B/s]

spiece.model:   0%|          | 0.00/4.31M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/65.0 [00:00<?, ?B/s]

You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565


pytorch_model.bin:   0%|          | 0.00/2.33G [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.33G [00:00<?, ?B/s]

In [13]:
# Crear el pipeline
resumidor = pipeline("summarization", model=model, tokenizer=tokenizer)

Device set to use cuda:0


In [14]:
# Texto para resumir
texto = """Querido MercadoLibre, la semana pasada pedí una figura de acción de Optimus Prime desde su tienda online.
Para mi sorpresa, cuando abrí el paquete, descubrí horrorizado que me habían enviado una figura de Megatron.
Como fan de los Autobots, espero que entiendan mi decepción. Solicito un cambio urgente del producto"""

In [15]:
# Generar resumen
resumen = resumidor(texto, max_length=80, min_length=20, do_sample=False)
print(resumen[0]['summary_text'])

Hace unos meses, mi esposa y yo me enviaron una figura de acción de Megatron desde su tienda online.


## 6. Traducción automática del español a inglés

La **traducción automática** es una de las aplicaciones más destacadas de los Transformers, permitiendo traducir textos entre diferentes idiomas con alta calidad. Utilizaremos el pipeline `translation_es_to_en` para traducir el texto de ejemplo del inglés al alemán.

In [16]:
# Modelo de traducción de español a inglés
# Helsinki-NLP/opus-mt-es-en es un modelo estándar y confiable para esta tarea.
translator = pipeline("translation_es_to_en",
                      model="Helsinki-NLP/opus-mt-es-en")

config.json: 0.00B [00:00, ?B/s]

pytorch_model.bin:   0%|          | 0.00/312M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/293 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/44.0 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/312M [00:00<?, ?B/s]

source.spm:   0%|          | 0.00/826k [00:00<?, ?B/s]

target.spm:   0%|          | 0.00/802k [00:00<?, ?B/s]

vocab.json: 0.00B [00:00, ?B/s]

Device set to use cuda:0


In [17]:
outputs = translator(texto, clean_up_tokenization_spaces=True, min_length=130)
print(outputs[0]['translation_text'])

Dear MarketFree, last week I asked for an action figure of Optimus Prime from his online store. To my surprise, when I opened the package, I discovered horrified that I had been sent a figure of Megatron. As a fan of the Autobots, I hope you understand my disappointment. I request an urgent change of product. I ask for an urgent change of product. I hope that you will understand my disappointment as a fan of the Autobots. I hope that you will understand my disappointment. I ask for an urgent change of product. I hope that you will be able to do so. I hope that you will be able to do so.


In [18]:
traductor = pipeline("translation", model="Helsinki-NLP/opus-mt-es-de")

config.json: 0.00B [00:00, ?B/s]

pytorch_model.bin:   0%|          | 0.00/304M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/293 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/304M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/42.0 [00:00<?, ?B/s]

source.spm:   0%|          | 0.00/818k [00:00<?, ?B/s]

target.spm:   0%|          | 0.00/829k [00:00<?, ?B/s]

vocab.json: 0.00B [00:00, ?B/s]

Device set to use cuda:0


In [19]:
texto = "La inteligencia artificial está transformando la forma en que vivimos y trabajamos."
traduccion = traductor(texto)
print(traduccion[0]['translation_text'])

Künstliche Intelligenz verwandelt die Art und Weise, wie wir leben und arbeiten.


## 7. Generación automática de texto (respuesta de servicio al cliente)

La **generación automática de texto** permite crear o continuar textos de manera coherente a partir de un prompt inicial. Esta capacidad es útil, por ejemplo, para redactar respuestas automáticas en atención al cliente.

En el siguiente ejemplo, generamos una posible respuesta de servicio al cliente utilizando el pipeline `text-generation`.

In [20]:
# Modelo de generación de texto en español
# DeepESP/gpt2-spanish es un GPT-2 entrenado desde cero con texto y un tokenizer en español.
generator = pipeline("text-generation", model="DeepESP/gpt2-spanish")

config.json:   0%|          | 0.00/914 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/261M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/261M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/115 [00:00<?, ?B/s]

vocab.json: 0.00B [00:00, ?B/s]

merges.txt: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/262 [00:00<?, ?B/s]

Device set to use cuda:0


In [21]:
response = "Estimado Bumblebee, lamento mucho saber que su pedido se mezcló."
prompt = texto + "\n\nRespuesta del servicio al cliente:\n" + response
outputs = generator(prompt, max_length=100, do_sample=True, temperature=1.0) # Añadir parámetros para mejor generación
print(outputs[0]['generated_text'])

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
Both `max_new_tokens` (=256) and `max_length`(=100) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


La inteligencia artificial está transformando la forma en que vivimos y trabajamos.

Respuesta del servicio al cliente:
Estimado Bumblebee, lamento mucho saber que su pedido se mezcló. Si, a causa de algún desafortunado desfalco, una de las dos personas no fue la persona que más tarde se convertiría en nuestro agente y socio. Por otra parte, si no es eso, la persona que más tarde será nuestra esposa y a la que esperamos que haga honor nuestro matrimonio con el actual. 

—Si usted no fue el asesino de la joven Joanna, ¿cómo lo averiguó? 

—Lo mismo que si no fuera por el caso. 

—Con mucho gusto. 

Tardamos mucho tiempo en responder. No recuerdo lo que sucedió aquella primera noche, pero me pregunto si alguien me dará algún dato que me sirva de respuesta: no voy a perder el tiempo pensando en ello, cuando me doy cuenta de que no tengo tiempo para analizar los acontecimientos que quiero. 

—Bien. Se lo diré a usted con el tiempo que se lo pida —insisto—: ¿Puede decirme por qué fue asesin

In [22]:
from transformers import pipeline

# Modelo en español
generador = pipeline("text-generation", model="datificate/gpt2-small-spanish")

# Texto del cliente
texto = """Querido MercadoLibre, la semana pasada pedí una figura de acción de Optimus Prime desde su tienda online.
Para mi sorpresa, cuando abrí el paquete, descubrí horrorizado que me habían enviado una figura de Megatron.
Como fan de los Autobots, espero que entiendan mi decepción. Solicito un cambio urgente del producto."""

# Primer renglón de la respuesta
respuesta_inicial = "Estimado Bumblebee, lamentamos mucho lo ocurrido con su pedido. "

# Prompt claro, sin repetir encabezado
prompt = texto + "\n\nRespuesta del servicio al cliente:\n" + respuesta_inicial

# Generación
outputs = generador(
    prompt,
    max_new_tokens=150,
    do_sample=True,
    temperature=1.0,
    top_k=50,
    top_p=0.9,
    repetition_penalty=1.3,
    eos_token_id=50256  # token de final en GPT-2
)

# Mostrar resultado
print(outputs[0]['generated_text'])

config.json:   0%|          | 0.00/817 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/510M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/510M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/620 [00:00<?, ?B/s]

vocab.json: 0.00B [00:00, ?B/s]

merges.txt: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/387 [00:00<?, ?B/s]

Device set to use cuda:0


Querido MercadoLibre, la semana pasada pedí una figura de acción de Optimus Prime desde su tienda online.
Para mi sorpresa, cuando abrí el paquete, descubrí horrorizado que me habían enviado una figura de Megatron.
Como fan de los Autobots, espero que entiendan mi decepción. Solicito un cambio urgente del producto.

Respuesta del servicio al cliente:
Estimado Bumblebee, lamentamos mucho lo ocurrido con su pedido.  Despierto, pero el primero que nos dijera es que a través de este nuevo aspecto, Cybertron llegó para ayudar a otros Autobots y liberar a las tropas. La segunda vez que le dimite, entonces vuelve a aparecer ante nosotros y les dice "Muerte a tu enemigo".
Reunidos de vuelta en Transformers 2 #1, esto fue algo bueno ya que se ve muy claro que estaba jugando poco con eso. Ahora está haciendo cosas bien por jugar, aunque ahora no se puede hacer nada malo porque todavía está pensando qué tipo sería divertido hacer esto como él.El término ha pasado casi a desaparecer debido más ade