# **Introducción a los transformers con hugginface**
---

En este cuaderno, exploraremos la revolucionaria arquitectura Transformer, fundamental en el estado del arte actual del procesamiento del lenguaje natural y más allá, desglosando algunos de sus componentes clave  y examinando su impacto en modelos de lenguaje a gran escala como GPT-3, BERT y Gemini; luego, nos centraremos en el uso práctico de la biblioteca Transformers de [HuggingFace](https://huggingface.co/), aprendiendo a cargar y ajustar modelos pre-entrenados para diversas tareas de NLP, y explorando las herramientas disponibles para facilitar su aplicación en proyectos propios.

<img src="https://drive.google.com/uc?export=view&id=1joVUiGIgNZSfygmPrOr-U3_TvnEm3ccQ" width="60%">


Instalamos e importamos las librerías necesarias:

In [None]:
%%capture
!pip install -q -U google-genai
!pip install transformers[torch] sentencepiece sacremoses sentence-transformers

# **¿Qué es un _Transformer_?** ("Attention is all you need")
----

Los _Transformers_ son **arquitecturas diseñadas para el procesamiento secuencial de información**. Son redes neuronales profundas que sustituyen a las CNN y RNN usando mecanismos de auto-atención.

La idea detrás de la auto-atención es que cada elemento en la secuencia de entrada puede afectar a cualquier otro elemento en la secuencia, lo permite aprender la dependencia entre los elementos.

Si bien, los _Transformers_ nacieron como una alternativa para solucionar el problema de memoria sostenida, hoy en día han revolucionado el campo del NLP y se han convertido en la base para muchos modelos de vanguardia como BERT, GPT, T5, entre otros.

<center><img src="https://www.iic.uam.es/wp-content/uploads/2020/05/arquitectura-transformers.jpg" alt ="Gráfico ilustrativo de la arquitectura de un Transformer" width="33%"></center>


Esta arquitectura fue propuesta por **Ashish Vaswani**, en su publicación *_attention is all you need_*, la cual pueden consultar en el siguiente enlace : [**_Attention is all you need_**](https://arxiv.org/abs/1706.03762)


* Al igual que todos los modelos de aprendizaje profundo, una buena parte de los modelos basados en _Transformers_ busca **aprender una buena representación de las entradas** (textos en este caso) dependiendo de cuál sea la tarea final.

El mecanismo de auto-atención codifica no solo los caracteres y palabras de los textos, sino además **la posición** de estos en el texto, y de esta forma puede rastrear en qué parte del texto suceden cosas importantes e  identificar cuales necesitan más atención. Se obtendrán más detalles del funcionamiento de esta arquitectura a lo largo del **módulo 5**. No obstante, implementaremos esta arquitectura por medio de las API de los grandes modelos de lenguaje.


# Usando API de gemini
----

Ahora, vamos a explorar cómo interactuar con las potentes capacidades de los transformers a través del API de Gemini. Este proceso te permitirá integrar las funcionalidades de Gemini en tus propias aplicaciones y flujos de trabajo. Para comenzar, es esencial obtener un token de acceso seguro, que actúa como tu credencial para acceder a la API, para obtenerla debes ingresar al siguiente [**enlace**](https://aistudio.google.com/app/apikey?hl=es-419).

<center>
  <img src = "https://drive.google.com/uc?export=view&id=1b5WkzbggaVfohKSSmksl3TyL5rwT5v1o" width = "60%">  
</center>

<center>
  <img src = "https://drive.google.com/uc?export=view&id=1HkNIU9KWKFqvilRI0zErFmlOteGN9as_" width = "60%">  
</center>

<center>
  <img src = "https://drive.google.com/uc?export=view&id=1sXxsEb1GZsga0RrAUVe83MumJLfS3tNC" width = "60%">  
</center>

<center>
  <img src = "https://drive.google.com/uc?export=view&id=1d2-A_CjLEK3NW3P8IAw2ScTq0i6JJTGT" width = "60%">  
</center>

<center>
  <img src = "https://drive.google.com/uc?export=view&id=1yhYFM2FT7ubmhzwdSz1NKfndlqdDnqPO" width = "60%">  
</center>



Recomendamos usar la funcionalidad de **Secrets** de Google Colab, la cual te permite tener un mejor manejo de *api keys* dentro de los notebooks, quitando la necesidad de ingresar directamente el texto de las llaves.

<center>
  <img src = "https://drive.google.com/uc?export=view&id=1TrFS-Ii_isVNGQfpxnFVnaIiDEHjuigc" width = "60%">  
</center>

In [None]:
from google import genai
from google.colab import userdata

client = genai.Client(api_key=userdata.get('apiKey')) #Recuerde intorducir su token.
response = client.models.generate_content(
    model="gemini-2.0-flash", contents="Explica de forma simple como funciona los transformers"
)
print(response.text)

¡Claro! Aquí te explico cómo funcionan los Transformers de manera sencilla:

**Imagina que tienes un traductor que entiende el contexto de las palabras y no solo las traduce palabra por palabra.** Eso es esencialmente lo que hace un Transformer.

**En lugar de traducir palabra por palabra, un Transformer mira toda la frase junta para entender el significado de cada palabra en relación con las demás.**

Aquí te lo explico en pasos:

1.  **Entrada:**
    *   Recibe una frase, como "El gato se sienta en la alfombra".

2.  **Codificación (Encoding):**
    *   **Convierte cada palabra en un número:** Imagina que asignamos un número a cada palabra en nuestro vocabulario. Así, "El" podría ser 5, "gato" podría ser 12, etc.
    *   **Añade contexto:** El Transformer no solo usa el número de la palabra, sino que también le agrega información sobre su posición en la frase y otras características. Esto ayuda a que entienda que "gato" en esta frase se refiere al animal y no a otra cosa.
    *   **C

Como puede observar, Gemini le permite estimar un texto a partir de secuencia de entrada. Gemini aprovecha la potencia de la arquitectura Transformer y la extiende con innovaciones que le permiten procesar y razonar sobre múltiples modalidades de datos de manera integrada y eficiente. Esto, combinado con la inversión de Google en escalabilidad y optimización, ha dado como resultado un modelo de IA altamente capaz y versátil. No obstante, existen múltiples opciones de código abierto y muchas veces especializadas en un contexto específico, estas alternativas suelen estar desplegadas en [Hugginface](https://huggingface.co/).

# Usando Hugginface
----

HuggingFace es una empresa y una comunidad en línea que se ha convertido en un centro neurálgico para el desarrollo y la implementación de modelos de aprendizaje automático, especialmente en el campo del procesamiento del lenguaje natural (NLP). Su plataforma ofrece una amplia gama de recursos, incluyendo: Modelos pre-entrenados, bibliotecas,  herramientas, datasets y foros de ayuda.

Una de las herramientas más populares de HuggingFace es su librería Transformers. Si bien,  esta tiene un uso amplio que permite diseñar, entrenar y desplegar este tipo de modelos; no obstante, haremos uso de los modelos preentrenados tanto desde un punto de visita supervisado y no supervisado.

Desde `transformers` podemos realizar clasificación a nivel de documentos.

Por ejemplo, podemos usar un modelo para análisis de sentimientos en español:

<img src="https://drive.google.com/uc?export=view&id=1QCEsPK7ganFQ0SEt8Cn9B3gi2diQwx-F" width="80%">


In [None]:
from transformers import pipeline

model = pipeline("text-classification", "finiteautomata/beto-sentiment-analysis")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/841 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/440M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/528 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/242k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/439M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/481k [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/67.0 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Device set to use cpu


Definimos un texto:



In [None]:
text = "me encanta trabajar en inteligencia artificial"

Veamos las predicciones:



In [None]:
res = model(text)
display(res)

[{'label': 'POS', 'score': 0.9985840320587158}]

En este caso, el modelo nos da dos resultados:

- `label`: sentimiento encontrado.
- `score`: probabilidad predicha por el modelo.

Veamos otro ejemplo con un texto con una polaridad negativa:

In [None]:
text = "me siento muy mal, estoy un poco enfermo"
res = model(text)
display(res)

[{'label': 'NEG', 'score': 0.999270498752594}]

Otra de las tareas que podemos realizar por medio de la libreria trasnformers es la clasificación zero-shot. en procesamiento de lenguaje natural esta es una técnica de aprendizaje automático que permite a un modelo clasificar una entrada en una categoría para la cual no se proporcionó ningún ejemplo de entrenamiento.

<img src="https://drive.google.com/uc?export=view&id=1hDhi_w8qQqHI0-GTQrPLP5GnikMWyGEg" width="80%">

En otras palabras, el modelo se entrena con un conjunto de categorías o de forma no supervisada (_AutoEncoders_ o _embeddings_), y luego se le presentan entradas desconocidas para las que se espera que el modelo asigne una categoría. Es una técnica utilizada para clasificar entidades desconocidas, utilizando información semántica previamente aprendida.

Esto se logra mediante el uso de representaciones semánticas de las palabras o frases, que se aprenden a través de técnicas como la codificación de contexto automática o el aprendizaje de embeddings de palabras. Estas representaciones se utilizan para encontrar relaciones semánticas entre las palabras de las entradas desconocidas y las categorías conocidas, permitiendo al modelo asignar una categoría a la entrada.

En resumen, la clasificación zero-shot en procesamiento de lenguaje natural es una técnica avanzada que permite a los modelos clasificar entradas en categorías para las cuales no se proporcionó ningún ejemplo de entrenamiento, utilizando información semántica previamente aprendida.

Veamos un ejemplo, instanciamos un modelo:

In [None]:
model = pipeline("zero-shot-classification", "Recognai/bert-base-spanish-wwm-cased-xnli")

config.json:   0%|          | 0.00/834 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/439M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/528 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/242k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Device set to use cpu


Definimos un texto que deseamos clasificar:

In [None]:
text = "el algoritmo markov chain monte carlo nos permite obtener muestras de cualquier distribución de probabilidad"

Definimos las posibles etiquetas en las que deseamos clasificarlo:

In [None]:
labels = ["política", "computación", "estadística", "gastronomía", "automóviles"]

Veamos las predicciones del modelo:

In [None]:
res = model(text, candidate_labels=labels)
display(res)

{'sequence': 'el algoritmo markov chain monte carlo nos permite obtener muestras de cualquier distribución de probabilidad',
 'labels': ['estadística',
  'computación',
  'política',
  'automóviles',
  'gastronomía'],
 'scores': [0.3281760811805725,
  0.29603826999664307,
  0.14498460292816162,
  0.14285452663898468,
  0.08794646710157394]}

El resultado contiene los siguientes campos:

- `sequence`: texto utilizado.
- `labels`: etiquetas ordenadas de mayor a menor coincidencia.
- `scores`: predicción de cada una de las etiquetas obtenidas.

En este caso podemos ver que las dos categorías más probables son `estadística` y `computación`.

La biblioteca Transformers de Hugging Face y la API de Gemini son herramientas poderosas y versátiles que permiten la implementación de una amplia gama de tareas de aprendizaje automático, tanto supervisadas como no supervisadas, facilitando la integración de modelos de lenguaje de última generación en diversos proyectos y aplicaciones, adaptándose a las necesidades específicas de cada tarea y ofreciendo flexibilidad para explorar y desarrollar soluciones innovadoras en el campo de la inteligencia artificial.