# ü§ó Aplicaciones pr√°cticas de Transformers con Hugging Face

En esta clase vamos a usar modelos preentrenados en espa√±ol para resolver tareas reales de Procesamiento del Lenguaje Natural (PLN), sin necesidad de entrenar modelos desde cero.

Trabajaremos con la librer√≠a `transformers` de Hugging Face, que permite usar modelos de tipo BERT, GPT y similares en muy pocas l√≠neas de c√≥digo.

---


In [45]:
# Instalaci√≥n de Hugging Face Transformers (solo una vez)
!pip install -q transformers

## 1. Cargando el pipeline de Hugging Face

Hugging Face proporciona "pipelines" que encapsulan todo el proceso: tokenizaci√≥n, modelo y decodificaci√≥n. Solo ten√©s que indicar qu√© tarea quer√©s hacer.


In [46]:
from transformers import pipeline

## 2. An√°lisis de sentimiento en espa√±ol

Vamos a usar un modelo entrenado para identificar si una frase expresa un **sentimiento positivo o negativo**. Este modelo fue entrenado con tweets en espa√±ol.

In [47]:
sentiment = pipeline("sentiment-analysis", model="finiteautomata/beto-sentiment-analysis")

Device set to use cuda:0


In [48]:
frases = [
    "La verdad, este lugar est√° increible! Me encant√≥!",
    "Una porquer√≠a de servicio, nunca m√°s vengo",
    "Me encantan las mesas, lastima el ba√±o que es un desastre",
    "Me enviaron un producto lleg√≥ da√±ado. Qu√© bajon",
    "Todo impecable. De primera",
    "Qu√© afano, me cuentearon con el producto",
    "Muy conforme con el resultado final",
    "No me gust√≥ para nada la experiencia",
    "Super√≥ mis expectativas, ¬°gracias!",
    "No lo recomiendo, mala calidad",
    "Me vino todo roto, exijo una devolucion",
    "Muy buen servicio, lo recomiendo",
    "Todo impecable, llego en tiempo y forma"
]

In [49]:
for frase in frases:
    print(f"{frase} ‚Üí {sentiment(frase)}")

La verdad, este lugar est√° increible! Me encant√≥! ‚Üí [{'label': 'POS', 'score': 0.998566210269928}]
Una porquer√≠a de servicio, nunca m√°s vengo ‚Üí [{'label': 'NEG', 'score': 0.9994451403617859}]
Me encantan las mesas, lastima el ba√±o que es un desastre ‚Üí [{'label': 'NEG', 'score': 0.9644700884819031}]
Me enviaron un producto lleg√≥ da√±ado. Qu√© bajon ‚Üí [{'label': 'NEG', 'score': 0.9993813037872314}]
Todo impecable. De primera ‚Üí [{'label': 'POS', 'score': 0.9977364540100098}]
Qu√© afano, me cuentearon con el producto ‚Üí [{'label': 'NEU', 'score': 0.544805645942688}]
Muy conforme con el resultado final ‚Üí [{'label': 'POS', 'score': 0.9939767122268677}]
No me gust√≥ para nada la experiencia ‚Üí [{'label': 'NEG', 'score': 0.9992014765739441}]
Super√≥ mis expectativas, ¬°gracias! ‚Üí [{'label': 'POS', 'score': 0.9984914064407349}]
No lo recomiendo, mala calidad ‚Üí [{'label': 'NEG', 'score': 0.9143223762512207}]
Me vino todo roto, exijo una devolucion ‚Üí [{'label': 'NEG', 's

## 3. Clasificaci√≥n de texto por tema (*zero-shot*)

¬øQuer√©s clasificar frases por categor√≠as sin entrenar un modelo? ¬°Esto es posible gracias al aprendizaje **zero-shot**!

El modelo puede asociar un texto con una o m√°s **etiquetas** sugeridas por vos, aunque nunca fue entrenado espec√≠ficamente para esas clases.

In [50]:
classifier = pipeline("zero-shot-classification", model="Recognai/bert-base-spanish-wwm-cased-xnli")

Device set to use cuda:0


In [51]:
texto = "Tralalero tralala se hizo famoso por ser una rima particular de italia que trascendio por todo el mundo"

etiquetas = ["animales", "personajes", "ni√±os", "espect√°culos"]

print(classifier(texto, candidate_labels=etiquetas))

{'sequence': 'Tralalero tralala se hizo famoso por ser una rima particular de italia que trascendio por todo el mundo', 'labels': ['personajes', 'espect√°culos', 'ni√±os', 'animales'], 'scores': [0.7077112197875977, 0.2328801304101944, 0.031039604917168617, 0.02836904115974903]}


## 4. Resumen autom√°tico de textos

Este pipeline toma un texto largo y genera un resumen breve en espa√±ol. Ideal para noticias, informes o textos descriptivos.

Usamos un modelo BERT2BERT adaptado al espa√±ol.

In [52]:
summarizer = pipeline(
    "summarization",
    model="csebuetnlp/mT5_multilingual_XLSum",
    tokenizer="csebuetnlp/mT5_multilingual_XLSum"
)

Device set to use cuda:0


In [53]:
parrafo = """
El Ministerio de Salud confirm√≥ hoy que se ha logrado una reducci√≥n sostenida de casos de dengue en las √∫ltimas semanas.
Las campa√±as de prevenci√≥n, sumadas a la llegada del fr√≠o, habr√≠an contribuido a esta baja. Sin embargo, se pide a la poblaci√≥n mantener las precauciones.
"""

resumen = summarizer(parrafo, max_length=50, min_length=20, do_sample=False)
print(resumen[0]['summary_text'])


El n√∫mero de casos de dengue en Estados Unidos alcanz√≥ un nuevo r√©cord.


In [54]:
texto = """
La inflaci√≥n en Argentina ha mostrado una leve desaceleraci√≥n en el √∫ltimo mes, seg√∫n el informe del INDEC.
Sin embargo, los analistas advierten que la tendencia a√∫n no se revierte, y que podr√≠an esperarse aumentos para el pr√≥ximo trimestre.
"""

resumen = summarizer(texto, max_length=60, min_length=25, do_sample=False)
print(resumen[0]['summary_text'])


El Fondo Monetario Internacional (INDEC) dijo que la inflaci√≥n en Argentina se ha recuperado de una desaceleraci√≥n en el √∫ltimo mes.


## 5. Traducci√≥n autom√°tica (Espa√±ol ‚Üí Ingl√©s)

Tambi√©n podemos usar modelos preentrenados para **traducir textos**. En este caso, usaremos uno especializado para traducir del espa√±ol al ingl√©s.


In [55]:
translator = pipeline("translation", model="Helsinki-NLP/opus-mt-es-en")

Device set to use cuda:0


In [56]:
texto = "La familia es lo mas importante en este mundo."

print(translator(texto)[0]['translation_text'])


Family is the most important thing in this world.


## 6. Generaci√≥n de texto en espa√±ol (GPT)

Con un modelo tipo GPT entrenado en espa√±ol, podemos **generar texto a partir de un inicio dado**. Ideal para escribir contenido creativo, continuar frases, etc.


In [57]:
generator = pipeline("text-generation", model="PlanTL-GOB-ES/gpt2-base-bne")

Device set to use cuda:0


In [58]:
prompt = "Un dinosaurio es"

resultado = generator(prompt, max_length=100, num_return_sequences=1)
print(resultado[0]['generated_text'])


Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
Both `max_new_tokens` (=256) and `max_length`(=101) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Un dinosaurio es un ser vivo que est√° en el medio rural, pero es un dinosaurio. 


## 7. Reflexi√≥n y discusi√≥n

- ¬øCu√°l de estos pipelines te pareci√≥ m√°s sorprendente o √∫til?
- ¬øCre√©s que estas herramientas podr√≠an usarse en un proyecto real? ¬øEn cu√°l?
- ¬øNotaste errores o sesgos? ¬øPor qu√© cre√©s que aparecen?



## 8. Actividad libre (opcional si hay tiempo)

Explor√° uno de los pipelines y dise√±√° tu propio experimento:

- Prob√° frases con sarcasmo o jergas locales.
- Resum√≠ un art√≠culo de Wikipedia.
- Traduc√≠ algo complejo (tecnol√≥gico, po√©tico, etc.).
- Complet√° una frase usando estilo formal o informal.

Al final compartimos los hallazgos m√°s interesantes con el grupo üëÄ



a) Probando frases random

In [59]:
frase_practica = [
    "Si te paras de manos, te paro el carro",
    "Estan mansas las semitas ni√±o, mas buenas que la no se que",
    "Quien sos vo, que te haces el mas importante",
    "Estas mas linda que una patada en la nuca",
    "Hablando de Roma, llego Roman",
    "Que talca? quien pudiera irse temprano a la choza",
    "Me pedi una milanga que estaban como ojota en el desierto"
]

for frase in frase_practica:
    print(f"{frase} ‚Üí {sentiment(frase)}")

Si te paras de manos, te paro el carro ‚Üí [{'label': 'NEU', 'score': 0.9961426854133606}]
Estan mansas las semitas ni√±o, mas buenas que la no se que ‚Üí [{'label': 'POS', 'score': 0.9983853101730347}]
Quien sos vo, que te haces el mas importante ‚Üí [{'label': 'POS', 'score': 0.9013652801513672}]
Estas mas linda que una patada en la nuca ‚Üí [{'label': 'POS', 'score': 0.9959981441497803}]
Hablando de Roma, llego Roman ‚Üí [{'label': 'NEU', 'score': 0.9949650168418884}]
Que talca? quien pudiera irse temprano a la choza ‚Üí [{'label': 'NEU', 'score': 0.9930123686790466}]
Me pedi una milanga que estaban como ojota en el desierto ‚Üí [{'label': 'NEU', 'score': 0.9813180565834045}]


b) Resumir una pagina de wikipedia

In [60]:
texto_wiki = "El hornero com√∫n (Furnarius rufus) es una especie de ave paseriforme de la familia de los furn√°ridos end√©mica de Am√©rica del Sur. Es un p√°jaro peque√±o que mide entre 16 y 23 cm de longitud y no presenta dimorfismo sexual aparente. Es un ave insect√≠vora que consigue su alimento mientras camina por el suelo. Su dieta consiste principalmente en peque√±os invertebrados como cole√≥pteros, grillos, mariposas y otros insectos. Se trata de una especie mon√≥gina que construye un caracter√≠stico nido de barro en √°rboles, construcciones y otras estructuras. La hembra deposita de tres a cuatro huevos, que ambos sexos ayudan a incubar. Al ser un ave de h√°bitos no migratorios, vive y se reproduce en su √°rea de residencia. Debido a su amplia √°rea de distribuci√≥n y su abundancia en incremento, el hornero com√∫n es clasificado como de preocupaci√≥n menor por la Uni√≥n Internacional para la Conservaci√≥n de la Naturaleza. Esta ave se favoreci√≥ con la presencia del ser humano, convirti√©ndose en el centro de muchas leyendas y canciones pertenecientes al folclore de Am√©rica del Sur. Adem√°s, los agricultores admiten al hornero com√∫n ya que este protege el sembrado de insectos da√±inos. Es el ave nacional de Argentina.[4]‚Äã Apareci√≥ en la moneda argentina de medio centavo de austral, acu√±ada en 1985, y a partir de 2017 en el billete de mil pesos."

resumen = summarizer(texto_wiki, max_length=100, min_length=50, do_sample=False)
print(resumen[0]['summary_text'])

El hornero com√∫n (Furnarius rufus) es un p√°jaro paseriforme de la familia de los furn√°ridos end√©mica de Am√©rica del Sur, que vive y se reproduce en su √°rea de residencia.


c) Traduccion

In [61]:
Transcript = "Durante el entrenamiento, la red neuronal utiliza un bucle de retroalimentaci√≥n que funciona de la siguiente manera: Cada nodo intenta adivinar el siguiente nodo de la ruta. Se comprueba si la suposici√≥n es correcta. Los nodos asignan valores de peso m√°s altos a las rutas que conducen a m√°s suposiciones correctas y valores de peso m√°s bajos a las rutas de los nodos que conducen a suposiciones incorrectas."
print(translator(Transcript)[0]['translation_text'])

During training, the neural network uses a feedback loop that works as follows: Each node tries to guess the next node of the path. It checks if the assumption is correct. The nodes assign higher weight values to the routes that lead to more correct assumptions and lower weight values to the routes of the nodes that lead to incorrect assumptions.


d) Completar una frase

In [63]:
prompt_2 = "El amor es un sentimiento"

resultado = generator(prompt_2, max_length=100, num_return_sequences=1)
print(resultado[0]['generated_text'])

Both `max_new_tokens` (=256) and `max_length`(=101) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


El amor es un sentimiento que merece ser respetado, que no puede ser compartido, pero que es un sentimiento de amor que se debe hacer presente, que debe estar en el mundo de los ciudadanos, de los ciudadanos, de los ciudadanos... 
