<a href="https://colab.research.google.com/github/FacuML/NLP/blob/main/002_Parte/010/001_EJERCICIOS.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Aplicaciones de Transformers en Procesamiento de Lenguaje Natural

Este cuaderno explora distintas aplicaciones de los modelos Transformers en tareas de procesamiento de lenguaje natural (PLN), utilizando ejemplos pr√°cticos y explicaciones te√≥ricas.

---

## ¬øQu√© es la arquitectura Transformer?

La **arquitectura Transformer** es un tipo de red neuronal propuesta por Vaswani et al. en 2017. Su principal innovaci√≥n es el mecanismo de *atenci√≥n*, que permite al modelo enfocarse en diferentes partes de la entrada para procesar informaci√≥n contextual de manera eficiente. Los Transformers reemplazaron a modelos anteriores como LSTM y GRU en muchas tareas de PLN debido a su capacidad para manejar secuencias largas y aprender dependencias complejas.

---

## ¬øQu√© es la librer√≠a Transformers de Hugging Face?

La **librer√≠a Transformers de Hugging Face** es una biblioteca de Python que proporciona implementaciones preentrenadas de modelos basados en la arquitectura Transformer (como BERT, GPT, T5, etc.) para tareas de PLN. Permite cargar modelos f√°cilmente y utilizarlos en tareas como clasificaci√≥n, traducci√≥n, resumen, etc., sin necesidad de entrenarlos desde cero. Podes explorar los modelos disponibles en la [p√°gina de modelos de Hugging Face](https://huggingface.co/models).

---

## ¬øQu√© es un pipeline en Hugging Face?

Un **pipeline** en Hugging Face es una interfaz de alto nivel que simplifica el uso de modelos preentrenados para tareas espec√≠ficas. Permite ejecutar tareas como clasificaci√≥n de texto, reconocimiento de entidades, traducci√≥n, etc., con solo unas pocas l√≠neas de c√≥digo, ocultando detalles complejos de preprocesamiento y postprocesamiento.


## 1. Definir el texto de ejemplo

A continuaci√≥n, se presenta un texto de ejemplo que ser√° utilizado en las distintas aplicaciones de modelos Transformers. Este texto simula una queja de un cliente sobre un pedido equivocado, lo que nos permitir√° explorar tareas como clasificaci√≥n, reconocimiento de entidades, respuesta a preguntas, resumen, traducci√≥n y generaci√≥n de texto.

In [None]:
texto = """Querido MercadoLibre, la semana pasada ped√≠ una figura de acci√≥n de Optimus Prime desde su tienda online.
Para mi sorpresa, cuando abr√≠ el paquete, descubr√≠ horrorizado que me hab√≠an enviado una figura de Megatron.
Como fan de los Autobots, espero que entiendan mi decepci√≥n. Solicito un cambio urgente del producto."""

## 2. Clasificaci√≥n de texto con Transformers

La **clasificaci√≥n de texto** es una tarea fundamental en PLN que consiste en asignar una o varias etiquetas a un texto, como por ejemplo identificar el sentimiento (positivo, negativo, neutro) o la intenci√≥n del mensaje. Los modelos Transformers, gracias a su capacidad para comprender el contexto, demostraron un rendimiento sobresaliente en esta tarea.

Utilizaremos el pipeline `text-classification` de la librer√≠a ü§ó Transformers para analizar el texto de ejemplo y visualizar el resultado de la clasificaci√≥n.

In [None]:
from transformers import pipeline
# Modelo de clasificaci√≥n de texto (sentimiento) en espa√±ol
# Puedes buscar otros modelos en https://huggingface.co/models
classifier = pipeline("text-classification", model="pysentimiento/robertuito-sentiment-analysis")
import pandas as pd
outputs = classifier(texto)
pd.DataFrame(outputs)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/925 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/435M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/384 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.31M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/167 [00:00<?, ?B/s]

Device set to use cpu


Unnamed: 0,label,score
0,NEG,0.913063


## 3. Reconocimiento de entidades nombradas (NER)

El **Reconocimiento de Entidades Nombradas** (NER, por sus siglas en ingl√©s) es la tarea de identificar y clasificar autom√°ticamente nombres propios, lugares, organizaciones y otras entidades relevantes dentro de un texto. Los Transformers permiten realizar NER de manera eficiente y precisa.

A continuaci√≥n, aplicamos el pipeline `ner` al texto de ejemplo para extraer las entidades nombradas presentes.

In [None]:
# Modelo de reconocimiento de entidades nombradas (NER) en espa√±ol
# Puedes buscar otros modelos en https://huggingface.co/models
ner_tagger = pipeline("ner", model="mrm8488/bert-spanish-cased-finetuned-ner", aggregation_strategy="simple")
outputs = ner_tagger(texto)
pd.DataFrame(outputs)

## 4. Respuesta a preguntas basada en contexto

La tarea de **respuesta a preguntas** (Question Answering) consiste en responder preguntas espec√≠ficas utilizando un contexto dado. Los modelos Transformers pueden comprender el texto y extraer la informaci√≥n relevante para responder de manera precisa.

En el siguiente ejemplo, preguntamos al modelo qu√© desea el cliente, utilizando el pipeline `question-answering`.

In [None]:
# Modelo de respuesta a preguntas en espa√±ol
# Puedes buscar otros modelos en https://huggingface.co/models
reader = pipeline("question-answering", model="PlanTL-GOB-ES/roberta-large-bne-sqac")
question = "¬øQu√© quiere el cliente?"
outputs = reader(question=question, context=texto)
pd.DataFrame([outputs])

## 5. Resumen autom√°tico de texto

El **resumen autom√°tico** permite condensar la informaci√≥n principal de un texto extenso en una versi√≥n m√°s corta, manteniendo el significado esencial. Los Transformers han revolucionado esta tarea gracias a su capacidad de comprensi√≥n contextual.

A continuaci√≥n, utilizamos el pipeline `summarization` para obtener un resumen del texto de ejemplo.

In [None]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
# Puedes buscar otros modelos en https://huggingface.co/models
model_name = "csebuetnlp/mT5_multilingual_XLSum"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
resumidor = pipeline("summarization", model=model, tokenizer=tokenizer)
resumen = resumidor(texto, max_length=80, min_length=20, do_sample=False)
print(resumen[0]['summary_text'])

## 6. Traducci√≥n autom√°tica del espa√±ol a ingl√©s

La **traducci√≥n autom√°tica** es una de las aplicaciones m√°s destacadas de los Transformers, permitiendo traducir textos entre diferentes idiomas con alta calidad. Utilizaremos el pipeline `translation_es_to_en` para traducir el texto de ejemplo del espa√±ol al ingl√©s.

In [None]:
# Modelo de traducci√≥n de espa√±ol a ingl√©s
# Puedes buscar otros modelos en https://huggingface.co/models
translator = pipeline("translation_es_to_en", model="Helsinki-NLP/opus-mt-es-en")
outputs = translator(texto)
print(outputs[0]['translation_text'])

## 7. Generaci√≥n autom√°tica de texto (respuesta de servicio al cliente)

La **generaci√≥n autom√°tica de texto** permite crear o continuar textos de manera coherente a partir de un prompt inicial. Esta capacidad es √∫til, por ejemplo, para redactar respuestas autom√°ticas en atenci√≥n al cliente.

En el siguiente ejemplo, generamos una posible respuesta de servicio al cliente utilizando el pipeline `text-generation`.

In [None]:
# Modelo de generaci√≥n de texto en espa√±ol
# Puedes buscar otros modelos en https://huggingface.co/models
generator = pipeline("text-generation", model="datificate/gpt2-small-spanish")
respuesta_inicial = "Estimado cliente, lamentamos mucho lo ocurrido con su pedido. "
prompt = texto + "\n\nRespuesta del servicio al cliente:\n" + respuesta_inicial
outputs = generator(
    prompt,
    max_new_tokens=150,
    do_sample=True,
    temperature=0.7,
    top_k=50,
    top_p=0.9,
    repetition_penalty=1.3,
    eos_token_id=50256
)
print(outputs[0]['generated_text'])

---

## Ejercicios aut√≥nomos (40 minutos)

A continuaci√≥n, te proponemos ejercicios pr√°cticos para que pongas en pr√°ctica lo aprendido sobre la arquitectura Transformer, la librer√≠a Transformers de Hugging Face y el uso de pipelines en tareas de PLN.

**Recorda:** Para cada ejercicio, explora la [p√°gina de modelos de Hugging Face](https://huggingface.co/models) y busca modelos que sean apropiados para espa√±ol, o incluso para el contexto argentino si los encontras.

### 1. Clasificaci√≥n de textos propios
- Escribi dos textos breves (pueden ser opiniones, quejas o comentarios sobre servicios o productos en Argentina, por ejemplo sobre colectivos, supermercados, bancos, etc.).
- Busca en Hugging Face un modelo de clasificaci√≥n de texto en espa√±ol y usalo con el pipeline `text-classification` para analizar el sentimiento de cada texto.
- ¬øEl resultado coincide con tu expectativa? Explica brevemente.

### 2. Reconocimiento de entidades en noticias argentinas
- Busca un p√°rrafo de una noticia reciente de un medio argentino (por ejemplo, Clar√≠n, La Naci√≥n, P√°gina/12).
- Busca en Hugging Face un modelo de NER para espa√±ol y apl√≠calo para identificar entidades nombradas.
- Enumera las entidades encontradas y clasif√≠calas (persona, organizaci√≥n, lugar, etc.).

### 3. Respuesta a preguntas personalizada
- Escribi un peque√±o texto narrativo (4-5 l√≠neas) sobre una situaci√≥n cotidiana en Buenos Aires (por ejemplo, un reclamo en una oficina p√∫blica, una experiencia en el subte, etc.).
- Formula dos preguntas sobre el texto y utiliza un modelo de `question-answering` de Hugging Face para responderlas.
- ¬øLas respuestas son correctas y precisas? ¬øPor qu√©?

### 4. Resumen de un texto propio
- Eleg√≠ un texto m√°s largo (puede ser un fragmento de Wikipedia sobre Argentina, una noticia, etc.).
- Busca un modelo de resumen en espa√±ol en Hugging Face y √∫salo con el pipeline `summarization`.
- Compara el resumen generado con el texto original: ¬øqu√© informaci√≥n se perdi√≥ y cu√°l se mantuvo?

### 5. Traducci√≥n y an√°lisis
- Escribi un texto breve en espa√±ol rioplatense y trad√∫cilo al ingl√©s usando un modelo de traducci√≥n de Hugging Face.
- Luego, traduci el resultado nuevamente al espa√±ol (podes usar otro pipeline o Google Translate).
- ¬øEl texto final es igual al original? ¬øQu√© diferencias encontras?

### 6. Generaci√≥n creativa de texto
- Escribe el inicio de una historia o una pregunta abierta relacionada con Buenos Aires.
- Busca un modelo de generaci√≥n de texto en espa√±ol en Hugging Face y √∫salo con el pipeline `text-generation` para continuar el texto.
- Analiza la coherencia y creatividad de la respuesta generada.

---

**Tip:** Para cada ejercicio, explora la [p√°gina de modelos de Hugging Face](https://huggingface.co/models) y lee la descripci√≥n de los modelos antes de usarlos. Si tienes dudas, consulta la documentaci√≥n oficial de [Transformers](https://huggingface.co/docs/transformers/index).