# ü§ó Aplicaciones pr√°cticas de Transformers con Hugging Face

En esta clase vamos a usar modelos preentrenados en espa√±ol para resolver tareas reales de Procesamiento del Lenguaje Natural (PLN), sin necesidad de entrenar modelos desde cero.

Trabajaremos con la librer√≠a `transformers` de Hugging Face, que permite usar modelos de tipo BERT, GPT y similares en muy pocas l√≠neas de c√≥digo.

---


In [None]:
# Instalaci√≥n de Hugging Face Transformers (solo una vez)
!pip install -q transformers

## 1. Cargando el pipeline de Hugging Face

Hugging Face proporciona "pipelines" que encapsulan todo el proceso: tokenizaci√≥n, modelo y decodificaci√≥n. Solo ten√©s que indicar qu√© tarea quer√©s hacer.


In [None]:
from transformers import pipeline

## 2. An√°lisis de sentimiento en espa√±ol

Vamos a usar un modelo entrenado para identificar si una frase expresa un **sentimiento positivo o negativo**. Este modelo fue entrenado con tweets en espa√±ol.

In [None]:
sentiment = pipeline("sentiment-analysis", model="finiteautomata/beto-sentiment-analysis")

In [None]:
frases = [
    "Este lugar est√° buen√≠simo, la atenci√≥n de diez",
    "Una experiencia horrible, me quiero ir",
    "Zafa, pero esperaba m√°s",
    "Recomiendo totalmente este producto",
    "Nunca m√°s compro ac√°"
]

In [None]:
for frase in frases:
    print(f"{frase} ‚Üí {sentiment(frase)}")

Este lugar est√° buen√≠simo, la atenci√≥n de diez ‚Üí [{'label': 'POS', 'score': 0.9988070726394653}]
Una experiencia horrible, me quiero ir ‚Üí [{'label': 'NEG', 'score': 0.9991808533668518}]
Zafa, pero esperaba m√°s ‚Üí [{'label': 'NEG', 'score': 0.9256047010421753}]
Recomiendo totalmente este producto ‚Üí [{'label': 'POS', 'score': 0.9985804557800293}]
Nunca m√°s compro ac√° ‚Üí [{'label': 'NEG', 'score': 0.9992826581001282}]


## 3. Clasificaci√≥n de texto por tema (*zero-shot*)

¬øQuer√©s clasificar frases por categor√≠as sin entrenar un modelo? ¬°Esto es posible gracias al aprendizaje **zero-shot**!

El modelo puede asociar un texto con una o m√°s **etiquetas** sugeridas por vos, aunque nunca fue entrenado espec√≠ficamente para esas clases.

In [None]:
classifier = pipeline("zero-shot-classification", model="Recognai/bert-base-spanish-wwm-cased-xnli")

In [None]:
texto = "Lionel Messi firm√≥ contrato con el Inter Miami y debutar√° esta semana."

etiquetas = ["deportes", "econom√≠a", "pol√≠tica", "espect√°culos"]

print(classifier(texto, candidate_labels=etiquetas))

{'sequence': 'Lionel Messi firm√≥ contrato con el Inter Miami y debutar√° esta semana.', 'labels': ['deportes', 'espect√°culos', 'pol√≠tica', 'econom√≠a'], 'scores': [0.516789436340332, 0.2758041322231293, 0.1318969577550888, 0.0755094587802887]}


## 4. Resumen autom√°tico de textos

Este pipeline toma un texto largo y genera un resumen breve en espa√±ol. Ideal para noticias, informes o textos descriptivos.

Usamos un modelo BERT2BERT adaptado al espa√±ol.

In [None]:
summarizer = pipeline(
    "summarization",
    model="csebuetnlp/mT5_multilingual_XLSum",
    tokenizer="csebuetnlp/mT5_multilingual_XLSum"
)

In [None]:
parrafo = """
El Ministerio de Salud confirm√≥ hoy que se ha logrado una reducci√≥n sostenida de casos de dengue en las √∫ltimas semanas.
Las campa√±as de prevenci√≥n, sumadas a la llegada del fr√≠o, habr√≠an contribuido a esta baja. Sin embargo, se pide a la poblaci√≥n mantener las precauciones.
"""

resumen = summarizer(parrafo, max_length=50, min_length=20, do_sample=False)
print(resumen[0]['summary_text'])


El n√∫mero de casos de dengue en Estados Unidos alcanz√≥ un nuevo r√©cord.


In [None]:
texto = """
La inflaci√≥n en Argentina ha mostrado una leve desaceleraci√≥n en el √∫ltimo mes, seg√∫n el informe del INDEC.
Sin embargo, los analistas advierten que la tendencia a√∫n no se revierte, y que podr√≠an esperarse aumentos para el pr√≥ximo trimestre.
"""

resumen = summarizer(texto, max_length=60, min_length=25, do_sample=False)
print(resumen[0]['summary_text'])


El Fondo Monetario Internacional (INDEC) dijo que la inflaci√≥n en Argentina se ha recuperado de una desaceleraci√≥n en el √∫ltimo mes.


## 5. Traducci√≥n autom√°tica (Espa√±ol ‚Üí Ingl√©s)

Tambi√©n podemos usar modelos preentrenados para **traducir textos**. En este caso, usaremos uno especializado para traducir del espa√±ol al ingl√©s.


In [None]:
translator = pipeline("translation", model="Helsinki-NLP/opus-mt-es-en")

In [None]:
texto = "La inteligencia artificial est√° cambiando el mundo."

print(translator(texto)[0]['translation_text'])


Artificial intelligence is changing the world.


## 6. Generaci√≥n de texto en espa√±ol (GPT)

Con un modelo tipo GPT entrenado en espa√±ol, podemos **generar texto a partir de un inicio dado**. Ideal para escribir contenido creativo, continuar frases, etc.


In [None]:
generator = pipeline("text-generation", model="PlanTL-GOB-ES/gpt2-base-bne")

In [None]:
prompt = "Un dinosaurio est√°"

resultado = generator(prompt, max_length=50, num_return_sequences=1)
print(resultado[0]['generated_text'])


Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
Both `max_new_tokens` (=256) and `max_length`(=51) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Un dinosaurio est√° hecho de un sistema de construcci√≥n en el que el coraz√≥n se divide en dos partes, una que puede... 


## 7. Reflexi√≥n y discusi√≥n

- ¬øCu√°l de estos pipelines te pareci√≥ m√°s sorprendente o √∫til?
    El pipeline de clasificaci√≥n de texto por tema (zero-shot) me parece muy interesante. El resumen autom√°tico tambi√©n es muy √∫til para procesar r√°pidamente grandes cantidades de texto.
- ¬øCre√©s que estas herramientas podr√≠an usarse en un proyecto real? ¬øEn cu√°l?
    Estoy seguro que lo puedo aplicar en alguno de mis proyectos como podrian ser:

    *1)Traducci√≥n autom√°tica*: Localizaci√≥n de contenido, comunicaci√≥n multiling√ºe b√°sica, traducci√≥n r√°pida de documentos.
    
    *2)Generaci√≥n de texto*: Creaci√≥n de contenido creativo, asistencia en la redacci√≥n de correos electr√≥nicos o art√≠culos, generaci√≥n de descripciones de productos (con revisi√≥n humana).
- ¬øNotaste errores o sesgos? ¬øPor qu√© cre√©s que aparecen?
    S√≠, se pueden notar posibles "errores" o comportamientos inesperados, especialmente en el resumen autom√°tico. Por ejemplo, en el resumen del p√°rrafo sobre el dengue, el modelo gener√≥ un resumen sobre casos de dengue en Estados Unidos, lo cual no estaba en el texto original. En el resumen sobre la inflaci√≥n, mencion√≥ al FMI en lugar del INDEC.

    Estos errores o sesgos pueden aparecer por varias razones:

    **Datos de entrenamiento**: Los modelos aprenden de los datos con los que fueron entrenados. Si esos datos contienen sesgos (por ejemplo, ciertos estereotipos, o informaci√≥n desactualizada/incorrecta), el modelo puede reflejarlos. En el caso de la generaci√≥n de texto o resumen, si el modelo fue entrenado con datos de diferentes fuentes o regiones, puede generar informaci√≥n que no se alinea exactamente con el texto de entrada si hay informaci√≥n contradictoria o si el modelo prioriza cierta informaci√≥n de su entrenamiento general.

    **Limitaciones del modelo**: Aunque son muy potentes, los modelos no "entienden" el texto de la misma manera que un humano. Operan bas√°ndose en patrones estad√≠sticos y la probabilidad de secuencias de palabras. Esto puede llevar a res√∫menes que no capturan el significado exacto o a traducciones que no son perfectamente idiom√°ticas.

    **Naturaleza de la tarea**: Tareas como el resumen son intr√≠nsecamente complejas y subjetivas. Lo que es un "buen" resumen puede variar. Los modelos generan un resumen basado en lo que es estad√≠sticamente probable que sea relevante, pero no siempre aciertan.

    **Configuraci√≥n de los par√°metros**: Par√°metros como max_length o min_length en el resumen pueden influir en la calidad y coherencia del resultado.
    Es crucial recordar que, si bien estos modelos son herramientas poderosas, a menudo requieren supervisi√≥n humana, especialmente en aplicaciones donde la precisi√≥n y la ausencia de sesgos son cr√≠ticas.



## 8. Actividad libre (opcional si hay tiempo)

Explor√° uno de los pipelines y dise√±√° tu propio experimento:

- Prob√° frases con sarcasmo o jergas locales.
- Resum√≠ un art√≠culo de Wikipedia.
- Traduc√≠ algo complejo (tecnol√≥gico, po√©tico, etc.).
- Complet√° una frase usando estilo formal o informal.

Al final compartimos los hallazgos m√°s interesantes con el grupo üëÄ



# An√°lisis de sentimiento en espa√±ol

  Pruebo frases con sarcasmo o jergas locales estilo Pepe Mujica.

In [None]:
frases2 = [
    "Pa' serte franco, esto est√° de novela, che",
    "Mir√°, esto es un desastre, ni al peor enemigo se lo recomiendo",
    "No est√° ni tan mal ni tan bien... como pa' zafar",
    "Una joyita, lo digo con el coraz√≥n en la mano",
    "Esto no tiene vuelta, fue un clavo tremendo",
    "Le ponen garra, se nota, eso vale m√°s que mil estrellas",
    "Una decepci√≥n b√°rbara, esperaba otra cosa",
    "Est√° bueno, sencillo pero cumplidor, como tiene que ser",
    "Nunca m√°s caigo en esta, me sali√≥ el tiro por la culata",
    "Si quer√©s algo bueno de verdad, esto es por donde va la cosa"
]

In [None]:
for frase in frases2:
    print(f"{frase} ‚Üí {sentiment(frase)}")

You seem to be using the pipelines sequentially on GPU. In order to maximize efficiency please use a dataset


Pa' serte franco, esto est√° de novela, che ‚Üí [{'label': 'NEU', 'score': 0.8798360228538513}]
Mir√°, esto es un desastre, ni al peor enemigo se lo recomiendo ‚Üí [{'label': 'NEG', 'score': 0.9989790916442871}]
No est√° ni tan mal ni tan bien... como pa' zafar ‚Üí [{'label': 'POS', 'score': 0.9973741769790649}]
Una joyita, lo digo con el coraz√≥n en la mano ‚Üí [{'label': 'POS', 'score': 0.9930917024612427}]
Esto no tiene vuelta, fue un clavo tremendo ‚Üí [{'label': 'NEG', 'score': 0.9992641806602478}]
Le ponen garra, se nota, eso vale m√°s que mil estrellas ‚Üí [{'label': 'NEG', 'score': 0.9731284976005554}]
Una decepci√≥n b√°rbara, esperaba otra cosa ‚Üí [{'label': 'NEG', 'score': 0.998916745185852}]
Est√° bueno, sencillo pero cumplidor, como tiene que ser ‚Üí [{'label': 'NEU', 'score': 0.9683693647384644}]
Nunca m√°s caigo en esta, me sali√≥ el tiro por la culata ‚Üí [{'label': 'NEG', 'score': 0.999354898929596}]
Si quer√©s algo bueno de verdad, esto es por donde va la cosa ‚Üí [{'