---

## Ejercicios autónomos (40 minutos)

A continuación, te proponemos ejercicios prácticos para que pongas en práctica lo aprendido sobre la arquitectura Transformer, la librería Transformers de Hugging Face y el uso de pipelines en tareas de PLN.

**Recorda:** Para cada ejercicio, explora la [página de modelos de Hugging Face](https://huggingface.co/models) y busca modelos que sean apropiados para español, o incluso para el contexto argentino si los encontras.

### 1. Clasificación de textos propios
- Escribi dos textos breves (pueden ser opiniones, quejas o comentarios sobre servicios o productos en Argentina, por ejemplo sobre colectivos, supermercados, bancos, etc.).
- Busca en Hugging Face un modelo de clasificación de texto en español y usalo con el pipeline `text-classification` para analizar el sentimiento de cada texto.
- ¿El resultado coincide con tu expectativa? Explica brevemente.



In [5]:
texto1 = """En Argentina, cada vez es más difícil viajar en colectivo. Las frecuencias no se respetan, muchas unidades están en mal estado y/o sucias. Uno paga por un servicio que
es un desastre y el problema es que no hay donde reclamar. Esto se nota mucho en Capital Federal y Provincia de Buenos Aires. Fuente: Diario Popular"""

texto2= """Hablando con mi almacenero Antonio me dice: Los precios en el supermercado estan bajando. Nunca creí poder vivir esto que estamos viviendo ahora.
Cada dia todo esta mas a nuestro alcance. Baja el precio del petroleo y baja el precio del transporte, bajan los precios de los alimentos y cada vez se crean mayores puestos
laborales. Que linda es Argentina!. Estoy feliz de poder vivir este gran momento."""


In [2]:
from transformers import pipeline
# Modelo de clasificación de texto (sentimiento) en español
# Puedes buscar otros modelos en https://huggingface.co/models
classifier_robertuito = pipeline("text-classification", model="pysentimiento/robertuito-sentiment-analysis")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/925 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/435M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/384 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.31M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/167 [00:00<?, ?B/s]

Device set to use cpu


In [7]:
import pandas as pd

In [54]:
outputs = classifier_robertuito(texto1)
pd.DataFrame(outputs)

Unnamed: 0,label,score
0,NEG,0.982863


In [55]:
outputs = classifier_robertuito(texto2)
pd.DataFrame(outputs)

Unnamed: 0,label,score
0,POS,0.855712


**pysentimiento/robertuito-base-cased**

Qué es: Un modelo RoBERTa entrenado específicamente en texto de redes sociales en español (tweets).

Por qué elegirlo: Excelente para análisis de sentimiento, detección de odio, ironía y emociones en lenguaje informal

In [60]:
from transformers import pipeline
# Modelo de clasificación de texto (sentimiento) en español
# Puedes buscar otros modelos en https://huggingface.co/models
classifier_rbc = pipeline("text-classification", model="pysentimiento/robertuito-base-cased", tokenizer="pysentimiento/robertuito-base-cased")

config.json:   0%|          | 0.00/677 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/435M [00:00<?, ?B/s]

Some weights of RobertaForSequenceClassification were not initialized from the model checkpoint at pysentimiento/robertuito-base-cased and are newly initialized: ['classifier.dense.bias', 'classifier.dense.weight', 'classifier.out_proj.bias', 'classifier.out_proj.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


tokenizer_config.json:   0%|          | 0.00/319 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/828k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/435M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/150 [00:00<?, ?B/s]

Device set to use cuda:0


In [61]:
outputs = classifier_rbc(texto1)
pd.DataFrame(outputs)

Unnamed: 0,label,score
0,LABEL_0,0.61484


In [62]:
outputs = classifier_rbc(texto2)
pd.DataFrame(outputs)

Unnamed: 0,label,score
0,LABEL_0,0.635544


**M47Labs/spanish_news_classification_headlines**

Qué es: Modelo BERT (BETO) fine-tuned para clasificar titulares de noticias en categorías como política, deportes, cultura o medioambiente

Ideal para: Aplicaciones de clasificación de temas (news categorization).

In [63]:
from transformers import pipeline
# Modelo de clasificación de texto (sentimiento) en español
# Puedes buscar otros modelos en https://huggingface.co/models
classifier_m47 = pipeline("text-classification", model="M47Labs/spanish_news_classification_headlines", tokenizer="M47Labs/spanish_news_classification_headlines")

config.json:   0%|          | 0.00/1.13k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/440M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/569 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/242k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/439M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/480k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Device set to use cuda:0


In [64]:
outputs = classifier_m47(texto1)
pd.DataFrame(outputs)

Unnamed: 0,label,score
0,sociedad,0.538466


In [65]:
outputs = classifier_m47(texto2)
pd.DataFrame(outputs)

Unnamed: 0,label,score
0,economia,0.439914


### 2. Reconocimiento de entidades en noticias argentinas
- Busca un párrafo de una noticia reciente de un medio argentino (por ejemplo, Clarín, La Nación, Página/12).
- Busca en Hugging Face un modelo de NER para español y aplícalo para identificar entidades nombradas.
- Enumera las entidades encontradas y clasifícalas (persona, organización, lugar, etc.).



In [3]:
# Modelo de reconocimiento de entidades nombradas (NER) en español
# Puedes buscar otros modelos en https://huggingface.co/models
ner_tagger = pipeline("ner", model="mrm8488/bert-spanish-cased-finetuned-ner", aggregation_strategy="simple")

config.json:   0%|          | 0.00/829 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/439M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/439M [00:00<?, ?B/s]

Some weights of the model checkpoint at mrm8488/bert-spanish-cased-finetuned-ner were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


tokenizer_config.json:   0%|          | 0.00/136 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/242k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Device set to use cpu


In [8]:
outputs = ner_tagger(texto1)
pd.DataFrame(outputs)

Unnamed: 0,entity_group,score,word,start,end
0,LOC,0.999715,Argentina,3,12
1,LOC,0.997574,Capital Federal,249,264
2,LOC,0.994177,Provincia de Buenos Aires,267,292
3,ORG,0.999573,Diario Popular,302,316


In [9]:
outputs = ner_tagger(texto2)
pd.DataFrame(outputs)

Unnamed: 0,entity_group,score,word,start,end
0,PER,0.999534,Antonio,27,34
1,LOC,0.999276,Argentina,346,355


### 3. Respuesta a preguntas personalizada
- Escribi un pequeño texto narrativo (4-5 líneas) sobre una situación cotidiana en Buenos Aires (por ejemplo, un reclamo en una oficina pública, una experiencia en el subte, etc.).
- Formula dos preguntas sobre el texto y utiliza un modelo de `question-answering` de Hugging Face para responderlas.
- ¿Las respuestas son correctas y precisas? ¿Por qué?



In [10]:
# Modelo de respuesta a preguntas en español
# Puedes buscar otros modelos en https://huggingface.co/models
reader = pipeline("question-answering", model="PlanTL-GOB-ES/roberta-large-bne-sqac")
question = "¿Qué describe el usuario de transporte publico?"
outputs = reader(question=question, context=texto1)
pd.DataFrame([outputs])

config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.42G [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.42G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/1.07k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/858k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/516k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.48M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/772 [00:00<?, ?B/s]

Device set to use cpu


Unnamed: 0,score,start,end,answer
0,0.999765,171,182,un desastre


In [11]:
# Modelo de respuesta a preguntas en español
# Puedes buscar otros modelos en https://huggingface.co/models
reader = pipeline("question-answering", model="PlanTL-GOB-ES/roberta-large-bne-sqac")
question = "¿Qué sensación tiene el cliente de la situación actual?"
outputs = reader(question=question, context=texto2)
pd.DataFrame([outputs])

Device set to use cpu


Unnamed: 0,score,start,end,answer
0,0.407997,364,369,feliz


### 4. Resumen de un texto propio
- Elegí un texto más largo (puede ser un fragmento de Wikipedia sobre Argentina, una noticia, etc.).
- Busca un modelo de resumen en español en Hugging Face y úsalo con el pipeline `summarization`.
- Compara el resumen generado con el texto original: ¿qué información se perdió y cuál se mantuvo?



In [12]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
# Puedes buscar otros modelos en https://huggingface.co/models
model_name = "csebuetnlp/mT5_multilingual_XLSum"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
resumidor = pipeline("summarization", model=model, tokenizer=tokenizer)
resumen = resumidor(texto1, max_length=120, min_length=20, do_sample=False)
print(resumen[0]['summary_text'])

tokenizer_config.json:   0%|          | 0.00/375 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/730 [00:00<?, ?B/s]

spiece.model:   0%|          | 0.00/4.31M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/65.0 [00:00<?, ?B/s]

You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565


pytorch_model.bin:   0%|          | 0.00/2.33G [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.33G [00:00<?, ?B/s]

Device set to use cpu
Your max_length is set to 120, but your input_length is only 86. Since this is a summarization task, where outputs shorter than the input are typically wanted, you might consider decreasing max_length manually, e.g. summarizer('...', max_length=43)


En Argentina, cada vez es más difícil viajar en colectivo a través de transporte público.


In [13]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
# Puedes buscar otros modelos en https://huggingface.co/models
model_name = "csebuetnlp/mT5_multilingual_XLSum"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
resumidor = pipeline("summarization", model=model, tokenizer=tokenizer)
resumen = resumidor(texto2, max_length=120, min_length=20, do_sample=False)
print(resumen[0]['summary_text'])

Device set to use cpu
Your max_length is set to 120, but your input_length is only 107. Since this is a summarization task, where outputs shorter than the input are typically wanted, you might consider decreasing max_length manually, e.g. summarizer('...', max_length=53)


Hace unos meses fui trabajando en un supermercado en Buenos Aires.


### 5. Traducción y análisis
- Escribi un texto breve en español rioplatense y tradúcilo al inglés usando un modelo de traducción de Hugging Face.
- Luego, traduci el resultado nuevamente al español (podes usar otro pipeline o Google Translate).
- ¿El texto final es igual al original? ¿Qué diferencias encontras?




In [14]:
# Modelo de traducción de español a inglés
# Puedes buscar otros modelos en https://huggingface.co/models
translator = pipeline("translation_es_to_en", model="Helsinki-NLP/opus-mt-es-en")
outputs = translator(texto1)
print(outputs[0]['translation_text'])

config.json:   0%|          | 0.00/1.44k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/312M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/293 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/312M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/44.0 [00:00<?, ?B/s]

source.spm:   0%|          | 0.00/826k [00:00<?, ?B/s]

target.spm:   0%|          | 0.00/802k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.59M [00:00<?, ?B/s]

Device set to use cpu


In Argentina, it is increasingly difficult to travel collectively. Frequencies are not respected, many units are in poor condition and/or dirty. One pays for a service that is a disaster and the problem is that there is no place to claim. This is very noticeable in the Federal Capital and Province of Buenos Aires. Source: Diario Popular


In [16]:
# Modelo de traducción de español a inglés
# Puedes buscar otros modelos en https://huggingface.co/models
translator = pipeline("translation_es_to_en", model="Helsinki-NLP/opus-mt-es-en")
outputs = translator(texto2)
print(outputs[0]['translation_text'])

Device set to use cpu


Talking to my storekeeper Antonio tells me: Prices in the supermarket are going down. I never thought I could live this thing we are living now. Every day everything is more within our reach. Lower the price of oil and lower the price of transport, lower the prices of food and more and more jobs are created. How beautiful is Argentina!. I am happy to be able to live this great moment.


### 6. Generación creativa de texto
- Escribe el inicio de una historia o una pregunta abierta relacionada con Buenos Aires.
- Busca un modelo de generación de texto en español en Hugging Face y úsalo con el pipeline `text-generation` para continuar el texto.
- Analiza la coherencia y creatividad de la respuesta generada.

In [17]:
# Modelo de generación de texto en español
# Puedes buscar otros modelos en https://huggingface.co/models
generator = pipeline("text-generation", model="datificate/gpt2-small-spanish")
respuesta_inicial = "Estimado usuario, lamentamos mucho que tenga esta opinión de nuestro servicio."
prompt = texto1 + "\n\nRespuesta del servicio al cliente:\n" + respuesta_inicial
outputs = generator(
    prompt,
    max_new_tokens=150,
    do_sample=True,
    temperature=0.7,
    top_k=50,
    top_p=0.9,
    repetition_penalty=1.3,
    eos_token_id=50256
)
print(outputs[0]['generated_text'])

config.json:   0%|          | 0.00/817 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/510M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/510M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/620 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/850k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/508k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/387 [00:00<?, ?B/s]

Device set to use cpu


En Argentina, cada vez es más difícil viajar en colectivo. Las frecuencias no se respetan, muchas unidades están en mal estado y/o sucias. Uno paga por un servicio que
es un desastre y el problema es que no hay donde reclamar. Esto se nota mucho en Capital Federal y Provincia de Buenos Aires. Fuente: Diario Popular

Respuesta del servicio al cliente:
Estimado usuario, lamentamos mucho que tenga esta opinión de nuestro servicio.
La solución a este problema ha sido la de dejar pasar tiempo sin pagar ya sea para poder viajar con frecuencia o bien simplemente comprar una unidad reducida (por ejemplo, 3 o 4 unidades). Para esto, se tiene como objetivo que los usuarios obtengan información sobre las tarifas reales e históricas actuales utilizando datos personales guardados dentro de sus propios documentos digitales. En otras palabras, los clientes pueden utilizar la información suministrada durante estos viajes mediante mensajes ocultos, entre otros métodos. 

Un usuario puede ir directament

In [18]:
# Modelo de generación de texto en español
# Puedes buscar otros modelos en https://huggingface.co/models
generator = pipeline("text-generation", model="datificate/gpt2-small-spanish")
respuesta_inicial = "Estimado cliente, lamentamos mucho que tenga esta opinión de nuestro servicio."
prompt = texto2 + "\n\nRespuesta del servicio al cliente:\n" + respuesta_inicial
outputs = generator(
    prompt,
    max_new_tokens=150,
    do_sample=True,
    temperature=0.7,
    top_k=50,
    top_p=0.9,
    repetition_penalty=1.3,
    eos_token_id=50256
)
print(outputs[0]['generated_text'])

Device set to use cpu


Hablando con mi almacenero Antonio me dice: Los precios en el supermercado estan bajando. Nunca creí poder vivir esto que estamos viviendo ahora. 
Cada dia todo esta mas a nuestro alcance. Baja el precio del petroleo y baja el precio del transporte, bajan los precios de los alimentos y cada vez se crean mayores puestos 
laborales. Que linda es Argentina!. Estoy feliz de poder vivir este gran momento.

Respuesta del servicio al cliente:
Estimado cliente, lamentamos mucho que tenga esta opinión de nuestro servicio.
Referencia final :
Con la llegada del nuevo milenio, la calidad de nuestros servicios sigue aumentando por encima debido principalmente hacia las personas de bajos recursos económicos (sujetos). De hecho, gracias tanto al aumento económico como cultural han aumentado notablemente sus ingresos fiscales.
La administración del mercado está muy ligada al sector privado; además de la gestión administrativa existen otros sectores dedicados exclusivamente o bienalmente también para l