# Sesión 8 - Demostración de la capacidad In-Context Learning de los LLMs para clasificación de textos

En el boletín anterior hemos visto cómo los LLMs pueden realizar una tarea de resumen de texto sin necesidad de haber sido entrenados específicamente para ello gracias al **In-Context Learning**. En este boletín vamos a generalizar este enfoque para realizar diferentes tareas de clasificación de textos.

Para ello, vamos a utilizar unos modelos que han sido entrenados en tareas de Natural Language Inference (NLI), que se adaptan especialmente bien a través de las diferentes técnicas de In-Context Learning a un amplio rango de nuevas tareas.

Con todo ello, en esta sesión:
1. Instalamos las librerías necesaria y descargamos tanto los modelos a utilizar como los conjuntos de datos sobre los que trabajar.

2. Utilizamos Zero-Shot learning:
   - Para realizar diversas tareas de clasificación de textos, (1) a través del pipeline de la librería transformers y (2) de forma manual.
   - Para realizar análisis de sentimientos.
   - ídem con plantillas.

3. Utilizamos Few-Shot learning:
   - Para realizar diversas tareas de clasificación de textos, (1) a través del pipeline de la librería transformers y (2) de forma manual.
   - Para experimentar con diferentes números de ejemplos en el prompt.

4. Utilizamos Chain of thouht:
   - Para realizar diversas tareas de clasificación de textos, (1) a través del pipeline de la librería transformers y (2) de forma manual.
   - Para RESOLVER UN EJERCICIO de clasificación de texto con el dataset proporcionado.




Primero, instalaremos las librerias necesarias y descargamos el dataset_test que se usará más adelante..

In [None]:
# Instalamos las librerías necesarias
!pip install transformers huggingface_hub bitsandbytes

Collecting bitsandbytes
  Downloading bitsandbytes-0.45.4-py3-none-manylinux_2_24_x86_64.whl.metadata (5.0 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch<3,>=2.0->bitsandbytes)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch<3,>=2.0->bitsandbytes)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch<3,>=2.0->bitsandbytes)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch<3,>=2.0->bitsandbytes)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.4.5.8 (from torch<3,>=2.0->bitsandbytes)
  Downloading nvidia_cublas_cu12-12.4.5.8-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-

In [None]:
# Descarga desde repositorio UMU
!wget -c --no-check-certificate https://valencia.inf.um.es/valencia-plne/dataset_test.csv
data_dir_path = ""

Collecting bitsandbytes
  Downloading bitsandbytes-0.45.4-py3-none-manylinux_2_24_x86_64.whl.metadata (5.0 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch<3,>=2.0->bitsandbytes)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch<3,>=2.0->bitsandbytes)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch<3,>=2.0->bitsandbytes)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch<3,>=2.0->bitsandbytes)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.4.5.8 (from torch<3,>=2.0->bitsandbytes)
  Downloading nvidia_cublas_cu12-12.4.5.8-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-

In [None]:
# Carga en local:
# Ejecutar solo para accesos desde drive
from google.colab import drive
g_drive_path = "/content/drive"
drive.mount(g_drive_path)

# Directorio Drive Domus
data_dir_path = "/content/drive/..."

Mounted at /content/drive
total 31
drwx------ 2 root root 4096 Mar 31 06:39 p1_4
drwx------ 2 root root 4096 Mar 24 15:06 p1_5
drwx------ 2 root root 4096 Mar 25 07:32 p1_6
drwx------ 2 root root 4096 Mar 24 10:33 p1_7
drwx------ 2 root root 4096 Mar 31 13:58 p1_8
drwx------ 2 root root 4096 Feb 26 08:13 P2
-rw------- 1 root root 2294 Mar  5 11:33 spain_reddit.json
drwx------ 2 root root 4096 Feb 26 08:13 T3


## Apartado 1 - Zero-Shot Learning


Comenzamos explorando **la forma más sencilla** de In-Context Learning: el **Zero-Shot Learning**. En esta estrategia, usamos un modelo para resolver una tarea sin proporcionarle ejemplos previos, en el prompt le damos únicamente una lista de instrucciones con las que el modelo generará una respuesta basándose en el conocimiento adquirido durante su entrenamiento previo.

### Apartado 1.1 - Zero-Shot Learning mediante pipeline

Comenzaremos usando un `pipeline` de la `librería Transformers` de Hugging Face. Los pipelines permiten crear modelos para tareas específicas con solo unas líneas de código.

En el pipeline especificaremos la tarea que vamos a realizar, en este caso, Zero-Shot Classification, y el modelo pre-entrenado que vamos a utlizar. Para Zero-Shot-Classification existen modelos válidos optimizados listados en:
- https://huggingface.co/models?other=zero-shot-classification
- https://huggingface.co/models?language=es&other=zero-shot-classification&sort=trending (español y multilingües)

La mayoría de los modelos usados para zero-shot classification han sido entrenados en tareas de **Natural Language Inference (NLI)**. En este tipo de tareas, el modelo recibe dos textos:

- **Premisa**: un hecho o situación dada.
- **Hipótesis**: una afirmación cuya veracidad debe evaluar el modelo en función de la premisa.

El objetivo del modelo es clasificar la relación entre ambos textos en una de las siguientes categorías:

- **Entailment (Implicación)**: Dada la premisa, se infiere que la hipótesis es verdadera.
- **Neutral**: Dada la premisa, la hipótesis podría ser verdadera.
- **Contradiction (Contradicción)**: La hipótesis contradice la premisa. Es imposible que dada la premisa la hipotesis sea cierta.

Por ejemplo:
- Premisa: El hombre está preparando la cena.
- Hipótesis: El hombre esta cocinando.
- Clasificación esperada: Entailment, ya que si el hombre esta preparando la cena se puede inferir que está cocinando (no al revés, ya que de que esté cocinando no se sigue necesariamente que esté preparando la cena, la clasificación esperada sería neutral).

No obstante, en los modelos estadísticos las cosas no son tan claras, porque no se utiliza inferencia lógica formal y por tanto los términos de premisa, hipótesis e inferencia no se usan de la misma manera que en la lógica formal simbólica. Los modelos de lenguaje estadísticos (como los basados en transformers) aprenden patrones de co-ocurrencia y relaciones semánticas implícitas y a partir de ellos calculan la probabilidad de que entre dos textos haya implicación, contradicción o neutralidad.

Para una explicación más detallada sobre inferencia en lenguaje natural, puedes consultar [este recurso](https://nlpprogress.com/english/natural_language_inference.html).

In [None]:
# Importamos el pipeline de la librería transformers
from transformers import pipeline

# Definimos el path al modelo que vamos a usar
model_path = 'MoritzLaurer/mDeBERTa-v3-base-xnli-multilingual-nli-2mil7'

# Creamos el clasificador, definiendo la tarea ZSC (Zero-Shot-Classification)
classifier = pipeline('zero-shot-classification', model = model_path)

# Al crear el pipeline se puede indicar, opcionalmente, el parámetro device
# para hacer uso de la GPU (device = 0 si solo se dispone de una GPU).
# El modelo solo se va a utilizar para inferencia, donde el uso de una GPU
# no es tan necesario como en el fine-tuning.

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/1.09k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/558M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/467 [00:00<?, ?B/s]

spm.model:   0%|          | 0.00/4.31M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/16.3M [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/23.0 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/173 [00:00<?, ?B/s]

Device set to use cpu


Una vez configurado el pipeline, podemos utilizar el modelo para **clasificar textos en función de una lista de etiquetas predefinidas**.

El **resultado** devuelto por el modelo serán las **probabilidades asociadas a cada posible etiqueta**. Si trabajamos en un escenario de clasificación exclusiva (cada texto solo pertenece a una categoría), la suma de las probilidades debe ser 1 (100%). También podemos usar el modelo en modo multi-etiqueta, lo que permite asignar varias categorías a un mismo texto.

Internamente, el pipeline transforma esta tarea en un problema de NLI. El modelo, en lugar de tratar el problema como una clasificación, evalúa en qué medida (probabilidad) cada etiqueta se relaciona con el texto de entrada (entailment, neutral, contradiction). En los ejemplos que siguen estaremos interesadso en la probabilidad que el modelo otorga a 'entailment'.

Con todo ello, usaremos el pipeline para los siguientes tipos de clasificación:

- **Detección de tópicos**: Identificar de qué trata un texto.
- **Análisis de emociones**: Determinar la emoción expresada en el mensaje.
- **Detección de intención**: Inferir la intención del usuario en un mensaje.

Cada una de estas tareas se resolverá pasando un texto y una lista de etiquetas al modelo, que asignará probabilidades a cada una de ellas.

In [None]:
labeled_tasks = [
    {
        'title': 'clasificación de opiniones',
        'text': 'El servicio en este restaurante fue increíble, definitivamente volveré.',
        'labels': ['positivo', 'negativo', 'neutral']
    },
    {
        'title': 'análisis de emociones',
        'text': 'No puedo creer que me haya pasado esto. Todo es un desastre',
        'labels': ['alegría', 'disgusto', 'ira', 'miedo', 'otro', 'sorpresa', 'tristeza']
    },
    {
        'title': 'detección de intención',
        'text': 'Quiero devolver un producto porque llegó dañado',
        'labels': ['elogio', 'pregunta', 'queja', 'solicitud']
    }
]

# Más ejemplos
# No me ha gustado nada la atención recibida por los camareros.
# Qué suerte tengo, me ha tocado la loteria contigo.
# ¿Es normal que mi frigorífico me de la corriente cuando lo intento abrir?

In [None]:
# Importamos las librerias necesarias
import json

# Esta variable almacenará la respuesta del modelo
response = []

# Para cada tarea definida
for task in labeled_tasks:

  # Obtenemos la respuesta del modelo
  scores = classifier(task['text'], task['labels'])

  # Guardamos la respuesta obtenida
  response.append({
     'task': task['title'],
     'text': task['text'],
     'scores': dict(zip(scores['labels'], scores['scores']))
  })

# Mostramos la respuesta del modelo
print(json.dumps(response, indent = 4, sort_keys = False, ensure_ascii = False))

[
    {
        "task": "clasificación de opiniones",
        "text": "El servicio en este restaurante fue increíble, definitivamente volveré.",
        "scores": {
            "positivo": 0.8544603586196899,
            "neutral": 0.134955033659935,
            "negativo": 0.01058459933847189
        }
    },
    {
        "task": "análisis de emociones",
        "text": "No puedo creer que me haya pasado esto. Todo es un desastre",
        "scores": {
            "disgusto": 0.3257310688495636,
            "tristeza": 0.2903386354446411,
            "sorpresa": 0.14868924021720886,
            "miedo": 0.09137936681509018,
            "ira": 0.07350143045186996,
            "otro": 0.04553481191396713,
            "alegría": 0.024825429543852806
        }
    },
    {
        "task": "detección de intención",
        "text": "Quiero devolver un producto porque llegó dañado",
        "scores": {
            "solicitud": 0.7473142147064209,
            "pregunta": 0.1655227541923523,
 

### Observación: Modelos que requieren un token:

Algunos modelos requieren la autenticación o la aceptación de ciertos términos y condiciones antes de poder usarlos. Para que el modelo reconozca que se dispone de los permisos necesarios al iniciar el pipeline hay que utilizar un token de autenticación de Hugging Face.

Por ejemplo:
```
new_pipe = pipeline('zero-shot-classification', token = my_auth_token, model = model_that_requires_token_path)
```

Una vez registrado en HUgging Face, los tokens de autenticación se generan en [esta página](https://huggingface.co/settings/tokens). Este token permite verificar si se han aceptado los términos del modelo o si se necesita solicitar acceso.

Por ejemplo, puedes repetir el ejercicio anterior utilizando Gemma de Google con el modelo:
```
model_that_requires_token_path = 'google/gemma-2-2b-it'
```
Pero recuerda que para ello habrá que registrarse/iniciar sesión en Hugging Face y aceptar los términos y condiciones del modelo para obtener el permiso de utilización del mismo. Una vez obtenido este permiso, habrá que generar un token y  añadirlo como parámetro para crear el pipeline.

### Apartado 1.2 - Zero-Shot Learning de forma manual

En esta subsección veremos cómo aplicar Zero-Shot Learning sin depender del pipeline de transformers, lo que nos dará mayor flexibilidad y control sobre el proceso.

El flujo general consiste en los siguientes pasos:

1.   Carga del modelo de clasificación y de su tokenizador (usaremos un modelo previamente entrenado en NLI).
2.   Tokenización y procesamiento del texto con el modelo para convertirlo en una representación numérica que el modelo pueda interpretar.
3.   Predicción: se aplica la función softmax para calcular la probabilidad de pertenencia del texto a cada una de las etiquetas.
4.   Evaluación: se calcula la probabilidad de que la premisa (texto) implique la hipótesis (cada una de las etiquetas), lo que nos permitirá clasificar correctamente el texto.

In [None]:
# Importamos las librerias necesarias
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

# Definimos el path al modelo que vamos a usar (el mismo que antes)
model_path = 'MoritzLaurer/mDeBERTa-v3-base-xnli-multilingual-nli-2mil7'

# Cargamos el tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_path)

# Cargamos el modelo,
# recordad que este modelo ha sido preentenado para la tarea de NLI
model = AutoModelForSequenceClassification.from_pretrained(model_path)

# Esta variable almacenará la respuesta del modelo
response = []

#### Definimos una función para reutilizar el mismo código con diferentes formulaciones de la hipótesis.

In [None]:
def get_entailment_logits(labeled_tasks = labeled_tasks,
                          hypothesis_template = 'El texto trata sobre ',
                          model = model,
                          tokenizer = tokenizer):

  response = []

  # Para cada tarea definida
  for task in labeled_tasks:

     # Transformamos los textos en formato de premisa e hipótesis
     premises = [task['text']] * len(task['labels'])
     hypotheses = [f"{hypothesis_template}{label}." for label in task['labels']]

     # Tokenizamos tanto las premisas como las hipótesis
     inputs = tokenizer(premises, hypotheses,
                     return_tensors = "pt", padding = True, truncation = True)

     # Pasamos las premisas e hipótesis tokenizadas al modelo
     outputs = model(**inputs)

     # Obtenemos los logits del modelo
     # Estos son los valores de la última capa de nuestro modelo, es decir,
     # las probabilidades de entailment, neutral y contradiction
     logits = outputs.logits

     # Sin embargo, esto son valores en crudo.
     # Vamos a usar softmax para normalizarlos, haciendo que su suma sea 1
     # (probabilidades excluyentes)
     probs = torch.softmax(logits, dim = 1)

     # Al estar trabajando en NLI, la salida del modelo incluye varias columnas,
     # como entailment, neutral y contradiction.
     # Nos interesa quedarnos con la columna que contenga la clase "entailment",
     # es decir, la columna que indica la probabilidad de que la premisa (texto)
     # implique la hipotesis (cada etiqueta).
     # No todos los modelos lo almacenan en la misma columna.
     # Esto puede consultarse en la documentación del modelo en Hugging Face
     entailment_probs = probs[:, 0]

     # Normalizamos las probabilidades obtenidas con get_label_logits
     # Este paso es necesario para que la suma del entailment de todas las
     # etiquetas sea 1
     normalized_probs = entailment_probs / entailment_probs.sum()

     # Asociamos cada etiqueta con su probabilidad
     label_probs = {label: prob.item() for label, prob
                                          in zip(task['labels'],
                                                 normalized_probs)}

     # Ordenamos la salida de mayor a menor según la probabilidad
     label_probs = dict(sorted(label_probs.items(),
                              key = lambda item: item[1],
                              reverse = True))

     # Guardamos la respuesta obtenida
     response.append({
            'task': task['title'],
            'text': task['text'],
            'scores': label_probs
    })
  return response



### Vemos qué salida produce el modelo para cada una de las tareas.

Observe que la forma en qué se formula la hipótesis (parámetro hypothesis_template) afecta directamente al resultado final. Vamos a probar con dos formatos de hipótesis y a comparar los resultados (pueden probar con otras fórmulas):

```
El texto trata sobre {label}.
```

```
El texto es de {label}.
```

In [None]:
response = get_entailment_logits(hypothesis_template = 'El texto trata sobre ')
print(json.dumps(response, indent = 4, sort_keys = False, ensure_ascii = False))
print("-------------------------------------"*3)
response = get_entailment_logits(hypothesis_template = 'El texto es de ')
print(json.dumps(response, indent = 4, sort_keys = False, ensure_ascii = False))

[
    {
        "task": "clasificación de opiniones",
        "text": "El servicio en este restaurante fue increíble, definitivamente volveré.",
        "scores": {
            "positivo": 0.5861138701438904,
            "neutral": 0.29765430092811584,
            "negativo": 0.11623183637857437
        }
    },
    {
        "task": "análisis de emociones",
        "text": "No puedo creer que me haya pasado esto. Todo es un desastre",
        "scores": {
            "sorpresa": 0.37130987644195557,
            "disgusto": 0.29799437522888184,
            "otro": 0.28879478573799133,
            "tristeza": 0.020510932430624962,
            "ira": 0.013441214337944984,
            "miedo": 0.007135125808417797,
            "alegría": 0.0008136545075103641
        }
    },
    {
        "task": "detección de intención",
        "text": "Quiero devolver un producto porque llegó dañado",
        "scores": {
            "pregunta": 0.38689514994621277,
            "solicitud": 0.3752319514

Vamos a comparar los resultados para la primera tarea de las dos transformaciones:

### Apartado 1.3 - Análisis de sentimientos mediante Zero-Shot Learning




Hasta ahora hemos explorado Zero-Shot Classification en diversas tareas generales.

En esta subsección, nos centraremos en analizar cómo se comporta el modelo específicamente para la tarea de análisis de sentimientos. Es importante tener en cuenta que el modelo no ha sido entrenado directamente para esta tarea ni ha sido sometido a ningún fine-tuning, por lo que evaluaremos su rendimiento en un contexto completamente nuevo para él.

In [None]:
# Definimos un par de textos
sentiment_sentences = [
  "Esta película me pareció maravillosa",
  "La película me pareció muy mala",
  "Viendo esa película me aburrí como una ostra"
]

# Definimos las posibles etiquetas
sentiment_labels = ['neutral', 'negativo', 'positivo']

In [None]:
# Esta variable almacenará la respuesta del modelo
response = []

# Para cada texto a clasificar
for sentence in sentiment_sentences:

  # Obtenemos la respuesta del modelo
  scores = classifier(sentence, sentiment_labels)

  # Guardamos la respuesta obtenida
  response.append({
     'text': sentence,
     'scores': dict(zip(scores['labels'], scores['scores']))
  })

# Mostramos la respuesta del modelo
print(json.dumps(response, indent = 4, sort_keys = False, ensure_ascii = False))

[
    {
        "text": "Esta película me pareció maravillosa",
        "scores": {
            "positivo": 0.9540171027183533,
            "neutral": 0.039515502750873566,
            "negativo": 0.006467350292950869
        }
    },
    {
        "text": "La película me pareció muy mala",
        "scores": {
            "negativo": 0.9580336809158325,
            "neutral": 0.03393789753317833,
            "positivo": 0.008028417825698853
        }
    },
    {
        "text": "Viendo esa película me aburrí como una ostra",
        "scores": {
            "negativo": 0.8699044585227966,
            "neutral": 0.08870945125818253,
            "positivo": 0.04138613119721413
        }
    }
]


También podemos hacer un análisis de sentimientos solamente positivo y negativo como era el caso del dataset de tuits de la pandemia que hemos utilizado en prácticas anteriores "dataset_test.csv" que ya hemos descargado en la primera celda.

In [None]:
# Importamos las librerias necesarias
import pandas as pd

# Leemos los datos descargados (correspondientes a un conjunto de tweets recopilados durante la pandemia)
data = pd.read_csv(data_dir_path + "dataset_test.csv",encoding="UTF-8")
data.tail()

Unnamed: 0,twitter_id,twitter_created_at,tweet,corpus,user,agreement,votes,score,label,__split
1783,1259620549594095618,2020-05-11 03:05:16,la calle ruge contra pedro sánchez. brutal cac...,Estado de alarma nacional (oficial),demorganica,100,1,-1,negative,test
1784,1262709390890749952,2020-05-19 15:39:13,el gobierno sopesa volver a pedir 15 días de #...,Estado de alarma nacional (oficial),lavozdegalicia,100,1,-1,negative,train
1785,1260914933182726144,2020-05-14 16:48:41,"a mal tiempo, buena cara. y los productos más ...",Estado de alarma nacional (oficial),frutasmaxi,100,1,1,positive,test
1786,1264152028244213761,2020-05-23 15:11:44,no ganaréis con cacerolas lo que las urnas vot...,Estado de alarma nacional (oficial),becurios,100,1,-1,negative,train
1787,1247511128445456384,2020-04-07 15:06:45,"? #españa #covidー19 . ⏩ @interiorgob, detenido...",Estado de alarma nacional (oficial),ElCadisimo,100,1,-1,negative,train


Ejecutamos el zero shot learning para algunos de los tuits y observamos el resultado.

In [None]:
# Esta variable almacenará la respuesta del modelo
response = []

# Definimos que las etiquetas de este dataset solamente son dos
sentiment_test_labels = ['positivo', 'negativo']

# Obtenemos unos pocos tweets
tweets_to_classify = data.head()['tweet']

# Para cada tweet a clasificar
for sentence in tweets_to_classify:

  # Obtenemos la respuesta del modelo
  scores = classifier(sentence, sentiment_test_labels)

  # Guardamos la respuesta obtenida
  response.append({
     'text': sentence,
     'scores': dict(zip(scores['labels'], scores['scores']))
  })

# Mostramos la respuesta del modelo
print(json.dumps(response, indent = 4, sort_keys = False, ensure_ascii = False))

[
    {
        "text": "hoy me ha tocado samu y hemos tenido 4 avisos de pacientes con sospecha de covid. al terminar uno de ellos y hacer la desinfección los vecinos nos aplaudieron. parece una tontería, pero el equipo se vino arriba. #gracias #quedateencasa",
        "scores": {
            "negativo": 0.8452410101890564,
            "positivo": 0.1547590047121048
        }
    },
    {
        "text": "buenisimos dias!!! que seria la vida sin un toque de locura??? feliz semana a tod@s!!! #undiamasundiamenos #yomequedoencasa #unpocodelocura #estavidatedevuelveloquetuledas #acuerdatedevivir #seguimosadelante…",
        "scores": {
            "positivo": 0.6119665503501892,
            "negativo": 0.3880334198474884
        }
    },
    {
        "text": "bryan adams back to you vía @albertovegalocutor @kissfm_es (#meencanta!! gracias por #lamúsica y por la compañía de #tuvoz, alberto... y por tu alegría. one kissssssssssssssssssssss #quédateencasa #stayathome",
        "scores": {
 

### Apartado 1.4 - Otras estrategías de prompting para Zero-Shot Learning


En esta subsección, exploraremos un enfoque alternativo para aplicar ZSL mediante *prompt engineering*, manteniendo la idea de NLI.

Por ejemplo, en una tarea de análisis de emociones, podemos comprobar si el texto proporcionado por el usuario se relaciona con una premisa predefinida.

Una forma de estructurar este tipo de prompt es utilizando plantillas específicas. Por ejemplo, en un análisis de emociones, podríamos emplear la siguiente plantilla:
```
Dime si {} es un texto [positivo|negativo|neutro]
```

De esta manera, el modelo debe determinar a qué emoción se refiere el texto proporcionado. Por defecto, si no especificamos una plantilla personalizada, el modelo utilizará una estructura más genérica como:
```
Este es un ejemplo de {} [positivo|negativo|neutro]
```

In [None]:
# Definimos un conjunto de premisas sencillo con su respectiva emoción
premises = {
    'positivo': 'Dime si {} es un texto positivo.',
    'negativo': 'Dime si {} es un texto negativo.',
    'neutro': 'Dime si {} es un texto neutro.'
}

# Definimos las etiquetas que le asignaremos a cada posibilidad
hypotheses_labels = ['sí', 'no']

# Esta variable almacenará la respuesta del modelo
response = []

# Para cada tweet a clasificar
for tweet in tweets_to_classify:

  # Para cada premisa junto a su respectiva emoción
  for emotion, premise in premises.items():

    # Obtenemos la respuesta del modelo, indicando la plantilla a usar
    scores = classifier(tweet, hypotheses_labels, hypothesis_template = premise)

    # Guardamos la respuesta obtenida
    response.append({
      'text': tweet,
      'emotion': emotion,
      'scores': dict(zip(scores['labels'], scores['scores']))
    })

# Mostramos la respuesta del modelo para el primer tweet
print(json.dumps(response[0:3], indent = 4, sort_keys = False, ensure_ascii = False))

[
    {
        "text": "hoy me ha tocado samu y hemos tenido 4 avisos de pacientes con sospecha de covid. al terminar uno de ellos y hacer la desinfección los vecinos nos aplaudieron. parece una tontería, pero el equipo se vino arriba. #gracias #quedateencasa",
        "emotion": "positivo",
        "scores": {
            "no": 0.7142413258552551,
            "sí": 0.2857586741447449
        }
    },
    {
        "text": "hoy me ha tocado samu y hemos tenido 4 avisos de pacientes con sospecha de covid. al terminar uno de ellos y hacer la desinfección los vecinos nos aplaudieron. parece una tontería, pero el equipo se vino arriba. #gracias #quedateencasa",
        "emotion": "negativo",
        "scores": {
            "no": 0.67364102602005,
            "sí": 0.32635894417762756
        }
    },
    {
        "text": "hoy me ha tocado samu y hemos tenido 4 avisos de pacientes con sospecha de covid. al terminar uno de ellos y hacer la desinfección los vecinos nos aplaudieron. parece u

## Apartado 2 - Few-shot learning



Seguimos con otra forma de realizar In-Context Learning: el **Few-Shot Learning**. En esta estrategia, incluimos en el prompt algunos ejemplos para guiar al modelo en la tarea específica. Estos ejemplos ayudan al modelo a entender mejor el patrón de la tarea, generando como consecuencia una respuesta más precisa.

### Apartado 2.1 - Few-Shot Learning mediante pipeline

Vamos a crear un nuevo clasificador para aplicar esta técnica utilizando un pipeline de Hugginface. En el pipeline seguiremos identificando la tarea como `zero-shot-classification` (son las convenciones de la librería).

La diferencia estará en el uso del modelo, específicamente en la estructura y el contenido del prompt: mientras que en Zero-Shot solo proporcionábamos instrucciones, en Few-Shot incluimos ejemplos para guiar al modelo.

In [None]:
# Importamos el pipeline de la librería transformers
from transformers import pipeline

# Definimos el modelo que vamos a usar
model_path = 'MoritzLaurer/mDeBERTa-v3-base-xnli-multilingual-nli-2mil7'

# Creamos el clasificador, definiendo la tarea ZSC (Zero-Shot-Classification)
classifier = pipeline('zero-shot-classification', model = model_path)

# Al crear el pipeline se puede indicar, opcionalmente, el parámetro device
# para hacer uso de la GPU (device = 0 si solo tienes una GPU).
# El modelo solo se va a utilizar para inferencia, donde el uso de una GPU
# no es tan necesario como en el fine-tuning.

Device set to use cpu


A continuación, vamos a ajustar nuestro prompt para incorporar algunos ejemplos que ayuden al modelo a entender cómo abordar la tarea antes de aplicar la clasificación.

Vamos a resolver la tarea de clasificación de sentimientos.

In [None]:
# Definimos un par de ejemplos para incluirlos en el prompt
# Los ejemplos deben estar relacionados con la tarea a resolver
few_shot_examples = """
Ejemplo 1: Desde la semana pasada no me lo pasaba tan bien -> positivo
Ejemplo 2: A tí la película te gustó, pero a mí no -> neutro
Ejemplo 3: No recomiendo este lugar, fue una experiencia horrible -> negativo
"""

prompt = f"{few_shot_examples}\nTexto: AQUI IRÍA EL TEXTO A CLASIFICAR\n->"

print(prompt)


Ejemplo 1: Desde la semana pasada no me lo pasaba tan bien -> positivo
Ejemplo 2: A tí la película te gustó, pero a mí no -> neutro
Ejemplo 3: No recomiendo este lugar, fue una experiencia horrible -> negativo

Texto: AQUI IRÍA EL TEXTO A CLASIFICAR
->


Procedemos a clasificar un par de textos mediante Few-Shot Learning:

In [None]:
# Definimos un par de textos
sentiment_sentences = [
  "Esta película me pareció maravillosa",
  "La película me pareció muy mala",
  "Viendo esa película me aburrí como una ostra"
]

# Definimos las etiquetas a clasificar
sentiment_labels = ["positivo", "negativo", "neutro"]

# Esta variable almacenará la respuesta del modelo
response = []

# Para cada texto a clasificar
for sentence in sentiment_sentences:

  # Creamos el prompt incluyendo los ejemplos
  prompt = f"{few_shot_examples}\nTexto: {sentence}\n->"

  # Obtenemos la respuesta del modelo
  scores = classifier(prompt, sentiment_labels)

  # Guardamos la respuesta obtenida
  response.append({
     'text': sentence,
     'scores': dict(zip(scores['labels'], scores['scores']))
  })

# Mostramos la respuesta del modelo para el primer tweet
print(json.dumps(response, indent = 4, sort_keys = False, ensure_ascii = False))

[
    {
        "text": "Esta película me pareció maravillosa",
        "scores": {
            "positivo": 0.9271534085273743,
            "negativo": 0.04307776689529419,
            "neutro": 0.029768794775009155
        }
    },
    {
        "text": "La película me pareció muy mala",
        "scores": {
            "negativo": 0.7044071555137634,
            "positivo": 0.18568246066570282,
            "neutro": 0.10991037636995316
        }
    },
    {
        "text": "Viendo esa película me aburrí como una ostra",
        "scores": {
            "positivo": 0.5896128416061401,
            "negativo": 0.35761716961860657,
            "neutro": 0.052770037204027176
        }
    }
]


### Apartado 2.2 - Few-Shot Learning de forma manual

En esta subsección veremos cómo aplicar Few-Shot Learning sin depender del pipeline de transformers, lo que nos dará mayor flexibilidad y control sobre el proceso.

Al igual que antes, el flujo general consiste en los siguientes pasos:

1.   Cargar el modelo de clasificación y su tokenizador.
2.   Tokenizar el texto y procesarlo con el modelo.
3.   Predicción.
4.   Evaluación.

In [None]:
# Definimos las etiquetas a clasificar
sentiment_labels = ["positivo", "negativo", "neutro"]

# Textos a clasificar
sentiment_sentences = [
  "Esta película me pareció maravillosa",
  "La película me pareció muy mala",
  "Viendo esa película me aburrí como una ostra"
]

# Definimos un par de ejemplos para incluirlos en el prompt
# Los ejemplos deben estar relacionados con la tarea a resolver
few_shot_examples = """
Ejemplo 1: Desde la semana pasada no me lo pasaba tan bien -> positivo
Ejemplo 2: A tí la película te gustó, pero a mí no -> neutro
Ejemplo 3: No recomiendo este lugar, fue una experiencia horrible -> negativo
"""

In [None]:
# Importamos las librerias necesarias
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

# Definimos el modelo que vamos a usar
model_path = 'MoritzLaurer/mDeBERTa-v3-base-xnli-multilingual-nli-2mil7'

# Cargamos el tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_path)

# Cargamos el modelo, recordad que este modelo ha sido preentenado para la tarea de NLI
model = AutoModelForSequenceClassification.from_pretrained(model_path)

# Esta variable almacenará la respuesta del modelo
response = []

# Para cada texto a clasificar
for premise in sentiment_sentences:

  # Concatenamos los ejemplos con el texto de entrada
  prompt = f"{few_shot_examples}\nTexto: {premise}\n->"

  # Transformamos los textos en formato de premisa e hipótesis
  premise_prompts = [prompt] * len(sentiment_labels)
  hypotheses = [label for label in sentiment_labels]

  # Tokenizamos tanto las premisas como las hipótesis
  inputs = tokenizer(premise_prompts, hypotheses, return_tensors = "pt", padding = True, truncation = True)

  # Pasamos las premisas e hipótesis tokenizadas al modelo
  outputs = model(**inputs)

  # Obtenemos los logits del modelo
  # Estos son los valores de la última capa de nuestro modelo, es decir,
  # las probabilidades de entailment, neutral y contradiction
  logits = outputs.logits

  # Sin embargo, esto son valores en crudo
  # Vamos a usar softmax para normalizarlos,
  # haciendo que su suma sea 1 (probabilidades excluyentes)
  probs = torch.softmax(logits, dim = 1)

  # Al estar trabajando en NLI, la salida del modelo incluye varias columnas,
  # como entailment, neutral y contradiction
  # Nos interesa quedarnos con la columna que contenga la clase "entailment",
  # es decir, la columna que indica la probabilidad de que la premisa (texto)
  # implique la hipotesis (cada etiqueta).
  # No todos los modelos lo almacenan en la misma columna.
  # Esto puede consultarse en la documentación del modelo en Hugging Face
  entailment_probs = probs[:, 0]

  # Vamos a realizar un paso adicional para normalizar las probabilidades
  # Este paso es necesario para que la suma del entailment de todas las etiquetas sea 1
  normalized_probs = entailment_probs / entailment_probs.sum()

  # Asociamos cada etiqueta con su probabilidad
  label_probs = {label: prob.item() for label, prob in zip(sentiment_labels, normalized_probs)}

  # Ordenamos la salida de mayor a menor según la probabilidad
  label_probs = dict(sorted(label_probs.items(), key = lambda item: item[1], reverse = True))

  # Guardamos la respuesta obtenida
  response.append({
     'text': premise,
     'scores': label_probs
  })

# Mostramos la respuesta del modelo
print(json.dumps(response, indent = 4, sort_keys = False, ensure_ascii = False))

[
    {
        "text": "Esta película me pareció maravillosa",
        "scores": {
            "positivo": 0.9696201086044312,
            "neutro": 0.017630496993660927,
            "negativo": 0.012749424204230309
        }
    },
    {
        "text": "La película me pareció muy mala",
        "scores": {
            "negativo": 0.9505153298377991,
            "neutro": 0.036793969571590424,
            "positivo": 0.012690737843513489
        }
    },
    {
        "text": "Viendo esa película me aburrí como una ostra",
        "scores": {
            "negativo": 0.7935903668403625,
            "neutro": 0.10997354984283447,
            "positivo": 0.09643608331680298
        }
    }
]


### Apartado 2.3 - La importancia del número de ejemplos para el Few-Shot Learning

Uno de los factores más importantes que influye en el rendimiento de un modelo en el contexto del Few-Shot Learning es el **número de ejemplos** proporcionados en el prompt.

La cantidad de ejemplos, también conocida como *shots*, tiene un **impacto directo en la precisión y la robustez** de las predicciones del modelo.

#### Few-Shot Learning con un número reducido de ejemplos

Cuando se utilizan **pocos ejemplos**, el modelo debe confiar en **patrones generales** y en su **capacidad de generalización** para hacer predicciones correctas.

Sin embargo, el uso de un número de ejemplos muy limitado puede llevar a que el modelo no tenga suficiente información para entender correctamente la tarea a resolver y, por lo tanto, generar predicciones menos precisas.

Vamos a definir una función que realice la clasificación de un par de textos mediante Few-Shot Learning dados unos ejemplos.

Esta función nos permitirá tener un codigo más limpio.


In [None]:
def few_shot_classification(few_shot_examples):

  # Definimos un par de textos
  sentiment_sentences = [
    "Esta película me pareció maravillosa, la volvería a ver mil veces",
    "La película me ha parecido horrible, no tiene sentido ninguno",
    "Viendo esa película me aburrí como una ostra, casi me quedo durmiendo"
  ]

  # Definimos las etiquetas a clasificar
  sentiment_labels = ["positivo", "negativo", "neutro"]

  # Esta variable almacenará la respuesta del modelo
  response = []

  # Para cada texto a clasificar
  for sentence in sentiment_sentences:

    # Creamos el prompt incluyendo los ejemplos
    prompt = f"{few_shot_examples}\nTexto: {sentence}\n->"

    # Obtenemos la respuesta del modelo
    scores = classifier(prompt, sentiment_labels)

    # Guardamos la respuesta obtenida
    response.append({
      'text': sentence,
      'scores': dict(zip(scores['labels'], scores['scores']))
    })

  return response

Vamos a ver como se comporta el modelo si solo le damos **un ejemplo**:

In [None]:
# Definimos un par de ejemplos para incluirlos en el prompt
few_shot_examples = """
Ejemplo 1: Nunca me lo había pasado tan bien en el cine -> positivo
"""

# Mostramos la respuesta del modelo para el primer tweet
print(json.dumps(few_shot_classification(few_shot_examples), indent = 4, sort_keys = False, ensure_ascii = False))

[
    {
        "text": "Esta película me pareció maravillosa, la volvería a ver mil veces",
        "scores": {
            "positivo": 0.9945264458656311,
            "neutro": 0.003248434979468584,
            "negativo": 0.0022251533810049295
        }
    },
    {
        "text": "La película me ha parecido horrible, no tiene sentido ninguno",
        "scores": {
            "positivo": 0.9180679321289062,
            "neutro": 0.04705479368567467,
            "negativo": 0.034877240657806396
        }
    },
    {
        "text": "Viendo esa película me aburrí como una ostra, casi me quedo durmiendo",
        "scores": {
            "positivo": 0.9897716045379639,
            "neutro": 0.005764603149145842,
            "negativo": 0.004463716875761747
        }
    }
]


Solo le hemos pasado un ejemplo al modelo, además este era positivo. Por lo tanto, como podemos observar, **el modelo solo clasifica los textos como positivos**.

Vamos a ver como se comporta el modelo si le damos **tres ejemplos**:

In [None]:
# Definimos un par de ejemplos para incluirlos en el prompt
few_shot_examples = """
Ejemplo 1: Nunca me lo había pasado tan bien en el cine -> positivo
Ejemplo 2: No creo que la pelicula sea ni buena ni mala -> neutro
Ejemplo 3: No recomiendo para nada este cine, está super sucio -> negativo
"""

# Mostramos la respuesta del modelo para el primer tweet
print(json.dumps(few_shot_classification(few_shot_examples), indent = 4, sort_keys = False, ensure_ascii = False))

[
    {
        "text": "Esta película me pareció maravillosa, la volvería a ver mil veces",
        "scores": {
            "positivo": 0.6586495637893677,
            "neutro": 0.2165934443473816,
            "negativo": 0.12475695461034775
        }
    },
    {
        "text": "La película me ha parecido horrible, no tiene sentido ninguno",
        "scores": {
            "negativo": 0.48833227157592773,
            "neutro": 0.3676465153694153,
            "positivo": 0.14402125775814056
        }
    },
    {
        "text": "Viendo esa película me aburrí como una ostra, casi me quedo durmiendo",
        "scores": {
            "positivo": 0.38022658228874207,
            "neutro": 0.3119637370109558,
            "negativo": 0.3078096807003021
        }
    }
]


Le hemos pasado tres ejemplos al modelo, siendo cada uno de ellos de una de las posibles etiquetas.

Por lo tanto, como podemos observar, **el modelo ya es capaz de tener en cuenta las tres etiquetas a la hora de clasificar**.

Aunque como podemos ver, **no obtiene unos resultados muy buenos**.

#### Few-Shot Learning con un número moderado de ejemplos

A medida que se **incrementa el número de ejemplos**, el modelo tiene más información para entender las relaciones subyacentes entre los datos y las etiquetas.

Esto **mejora su capacidad para generalizar** correctamente en ejemplos no vistos, lo que normalmente lleva a un **mejor desempeño**.

Aunque un mayor número de ejemplos puede mejorar la precisión del modelo, en escenarios de Few-Shot Learning, **el objetivo de este enfoque es precisamente trabajar con pocos ejemplos**.

Vamos a ver como se comporta el modelo si le damos **cinco ejemplos**:

In [None]:
# Definimos un par de ejemplos para incluirlos en el prompt
few_shot_examples = """
Ejemplo 1: Nunca me lo había pasado tan bien en el cine -> positivo
Ejemplo 2: Ha sido una película increíble, me encantaría volver a verla -> positivo
Ejemplo 3: No creo que la pelicula sea ni buena ni mala -> neutro
Ejemplo 4: No recomiendo para nada este cine, está super sucio -> negativo
Ejemplo 5: Lo he pasado fatal en el cine, la película era muy aburrida -> negativo
"""

# Mostramos la respuesta del modelo para el primer tweet
print(json.dumps(few_shot_classification(few_shot_examples), indent = 4, sort_keys = False, ensure_ascii = False))

[
    {
        "text": "Esta película me pareció maravillosa, la volvería a ver mil veces",
        "scores": {
            "positivo": 0.8633260130882263,
            "neutro": 0.08523919433355331,
            "negativo": 0.05143481120467186
        }
    },
    {
        "text": "La película me ha parecido horrible, no tiene sentido ninguno",
        "scores": {
            "positivo": 0.455512672662735,
            "negativo": 0.3810407817363739,
            "neutro": 0.1634465605020523
        }
    },
    {
        "text": "Viendo esa película me aburrí como una ostra, casi me quedo durmiendo",
        "scores": {
            "negativo": 0.7580544948577881,
            "neutro": 0.12520088255405426,
            "positivo": 0.11674464493989944
        }
    }
]


Como podemos observar, al aumentar el número de ejemplos el modelo obtiene unos **resultados mejores en algunos ejemplos**:

- El primer texto antes se clasificaba como un 65% positivo, ahora como un 86% positivo.
- El tercer texto antes se clasificaba como un 38% positivo, ahora como un 75% negativo.

Pero tambien **emperoa en otros ejemplos**:
- El segundo texto antes se clasificaba como un 48% neutro, ahora como un 59% positivo.

Estos resultados demuestran la importancia de elegir correctamente los ejemplos utilizados.

Vamos a ver como se comporta el modelo si le damos **cinco ejemplos distintos**:

In [None]:
# Definimos un par de ejemplos para incluirlos en el prompt
few_shot_examples = """
Ejemplo 1: Nunca me lo había pasado tan bien en el cine -> positivo
Ejemplo 2: Ha sido una película increíble, me encantaría volver a verla -> positivo
Ejemplo 3: No creo que la pelicula sea ni buena ni mala -> neutro
Ejemplo 4: Lo he pasado fatal en el cine, la película era muy aburrida -> negativo
Ejemplo 5: Esta película es horrible -> negativo
"""

# Mostramos la respuesta del modelo para el primer tweet
print(json.dumps(few_shot_classification(few_shot_examples), indent = 4, sort_keys = False, ensure_ascii = False))

[
    {
        "text": "Esta película me pareció maravillosa, la volvería a ver mil veces",
        "scores": {
            "positivo": 0.898775577545166,
            "neutro": 0.07509004324674606,
            "negativo": 0.026134390383958817
        }
    },
    {
        "text": "La película me ha parecido horrible, no tiene sentido ninguno",
        "scores": {
            "negativo": 0.731035590171814,
            "neutro": 0.21921439468860626,
            "positivo": 0.04975007846951485
        }
    },
    {
        "text": "Viendo esa película me aburrí como una ostra, casi me quedo durmiendo",
        "scores": {
            "negativo": 0.7556671500205994,
            "neutro": 0.1570221334695816,
            "positivo": 0.08731073141098022
        }
    }
]


Como podemos observar, al cambiar los ejemplos el modelo obtiene unos **resultados mejores en algunos ejemplos**:

- El primer texto antes se clasificaba como un 86% positivo, ahora como un 89% positivo.
- El segundo texto antes se clasificaba como un 45% positivo, ahora como un 73% negativo.

Aunque **emperoa ligeramente** para el tercer texto, que antes se clasificaba como un 75.8% negativo, ahora como un 75.5% negativo.

#### Few-Shot Learning con un número grande de ejemplos

Vamos a ver como se comporta el modelo si le damos **diez ejemplos**:

In [None]:
# Definimos un par de ejemplos para incluirlos en el prompt
few_shot_examples = """
Ejemplo 1: Nunca me lo había pasado tan bien en el cine -> positivo
Ejemplo 2: Ha sido una película increíble, me encantaría volver a verla -> positivo
Ejemplo 3: Me sorprendió lo bien que me hizo sentir esta película -> positivo
Ejemplo 4: No creo que la pelicula sea ni buena ni mala -> neutro
Ejemplo 5: La película no fue ni emocionante ni aburrida, simplemente pasable -> neutro
Ejemplo 6: La película tiene sus pros y contras, pero no me impactó mucho -> neutro
Ejemplo 7: El ritmo de la película fue bastante regular, no me emocionó ni me decepcionó -> neutro
Ejemplo 8: Lo he pasado fatal en el cine, la película era muy aburrida -> negativo
Ejemplo 9: Esta película es horrible -> negativo
Ejemplo 10: Fue una pérdida de tiempo, no la recomendaría -> negativo
"""

# Mostramos la respuesta del modelo para el primer tweet
print(json.dumps(few_shot_classification(few_shot_examples), indent = 4, sort_keys = False, ensure_ascii = False))

[
    {
        "text": "Esta película me pareció maravillosa, la volvería a ver mil veces",
        "scores": {
            "positivo": 0.4114637076854706,
            "negativo": 0.3138892352581024,
            "neutro": 0.274647057056427
        }
    },
    {
        "text": "La película me ha parecido horrible, no tiene sentido ninguno",
        "scores": {
            "negativo": 0.6636782884597778,
            "neutro": 0.29563647508621216,
            "positivo": 0.040685318410396576
        }
    },
    {
        "text": "Viendo esa película me aburrí como una ostra, casi me quedo durmiendo",
        "scores": {
            "negativo": 0.6719279885292053,
            "neutro": 0.2156675010919571,
            "positivo": 0.11240443587303162
        }
    }
]


Como podemos observar, al aumentar a diez el número de ejemplos se han obtenido unos **resultados peores**. Esto se debe a varias razones:

- Al agregar más ejemplos, el modelo puede experimentar una **saturación de información**. En lugar de aprender patrones claros y útiles de los ejemplos, el exceso de ejemplos puede introducir redundancias o detalles irrelevantes que dificultan la generalización.

- A mayor número de ejemplos, **mayor espacio de búsqueda de posibles respuestas o patrones**. Si no se eligen ejemplos que realmente representen la diversidad de los casos posibles, el modelo puede volverse demasiado específico para los ejemplos presentados, reduciendo su capacidad de generalización.

Estos resultados vuelven a demostrar la **importancia de elegir correctamente tanto los ejemplos utilizados como el número de ejemplos a incluir**.

## Apartado 3 - Chain of Thought

Seguimos con otra forma de realizar In-Context Learning: el enfoque **Chain of Thought**. En esta estrategia, **le proporcionamos al modelo algunos ejemplos  para resolver la tarea junto con el razonamiento detallado, que el modelo debe seguir para llegar a la respuesta correcta**.

Al estructurar el prompt de esta manera, guiamos al modelo en la resolución de la tarea, permitiéndole identificar patrones y mejorar la precisión de sus respuestas.

**Como queremos un razonamiento aparte de la respuesta ya no vamos a usar el enfoque de premisa/hipotesis de NLI**

### Apartado 3.1 - Chain of Thought mediante pipeline

Para aplicar esta técnica vamos a usar un `pipeline` de la `librería Transformers` de Hugging Face.

Cuando aplicamos Chain Of Thought queremos que el modelo nos genere tanto la respuesta como la explicación de por qué ha generado esa respuesta. Por lo tanto, la tarea que vamos a especificar en el pipeline será `text2text-generation`.

Respecto del modelo, vamos a usar **gemma-3-1b-it**.

**gemma-3-1b-it** es una variante de la serie Gemma 3, desarrollada por Google. Este modelo tiene aproximadamente 1.000 millones (1b) de paramétros y ha sido entrenado para seguir instrucciones específicas, lo que lo hace ideal para tareas que requieren comprensión de comandos y generan respuestas basadas en ellos (it).

El modelo **gemma-3-1b-it** requiere una **licencia de uso**. Por ello, es necesario iniciar una sesion en Hugging Face, usando un token.

El token que se ha proporcionado es válido hasta el jueves 3 de abril. Para ejecutar el cuaderno después de ese día tendréis que generar un nuevo token.

Para solicitar una licencia de uso y crear un token hay que acceder a la página del modelo en Hugging Face. El proceso es bastante sencillo y el uso de este modelo es gratuito. Podéis encontrar una descripción detallada en: https://huggingface.co/docs/hub/security-tokens

Véase también observación al final del aparatado 1.1 (modelos que requieren un token).

**Este token solo va a funcionar hoy, jueves 3 de abril, para poder ejecutar el cuaderno después de ese día teneis que incluir vuestro propio token.**

In [None]:
# Importamos las librerias necesarias
from huggingface_hub import login

# Este token solo va a funcionar hoy, jueves 3 de abril, para poder ejecutar el cuaderno después de ese día teneis que incluir vuestro propio token.
login(token="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")

Ahora, cargamos el modelo:

In [None]:
# Importamos las librerias necesarias
from transformers import pipeline, AutoTokenizer, BitsAndBytesConfig, AutoModelForCausalLM
import torch

# Definimos el modelo que vamos a usar
model_path = 'google/gemma-3-1b-it'

if torch.cuda.is_available():
  # Configuración la cuantización de 4-bit
  quantization_config = BitsAndBytesConfig(load_in_4bit=True)
else:
  quantization_config = None

# Cargamos el tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_path)

# Cargamos el modelo
# Estamos cuantizando el modelo a 4-bits para que ocupe menos espacio en GPU
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    quantization_config=quantization_config,
    device_map="auto"
).eval()

# Creamos el generador, definiendo la tarea de generación de texto
generator = pipeline('text-generation', model = model, tokenizer = tokenizer)

tokenizer_config.json:   0%|          | 0.00/1.16M [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/4.69M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/33.4M [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/35.0 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/662 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/899 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.00G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/215 [00:00<?, ?B/s]

Device set to use cpu


Como acabamos de decir, para llevar a cabo Chain of Thought es necesario modificar el prompt para incluir:
- Ejemplos específicos que permitan al modelo aprender el patrón de clasificación antes de realizar la inferencia.
- El razonamiento detallado que el modelo debe seguir para llegar a la respuesta correcta.

Vamos a resolver la tarea de clasificación de sentimientos.

In [None]:
# Definimos un par de ejemplos para incluirlos en el prompt
# Los ejemplos deben estar relacionados con la tarea a resolver
cot_prompt = """
Por favor, clasifica el sentimiento del siguiente texto en una de las categorías: positivo, negativo o neutro.
Primero, analiza el texto y proporciona un razonamiento breve que explique tu decisión.
Luego, da la respuesta final en este formato:

Razonamiento: [explicación]
Respuesta: [etiqueta]

Ejemplos:
Texto: Desde la semana pasada no me lo pasaba tan bien.
Razonamiento: La frase expresa que el hablante disfrutó de una experiencia reciente, lo que implica un sentimiento positivo. La comparación con un momento pasado refuerza la idea de satisfacción.
Respuesta: positivo
Texto: A tí la película te gustó, pero a mí no.
Razonamiento: La frase expresa que el hablante disfrutó de la película, pero su acompañante no. No hace ningún comentario sobre la película lo que implica un sentimiento neutro.
Respuesta: neutro.

Limitate a analizar solo el siguiente texto y a responder en el formato indicado.
Texto:"""

prompt = f"{cot_prompt} AQUI IRÍA EL TEXTO A CLASIFICAR\nRazonamiento:\nRespuesta:"

print(prompt)


Por favor, clasifica el sentimiento del siguiente texto en una de las categorías: positivo, negativo o neutro.
Primero, analiza el texto y proporciona un razonamiento breve que explique tu decisión.
Luego, da la respuesta final en este formato:

Razonamiento: [explicación]
Respuesta: [etiqueta]

Ejemplos:
Texto: Desde la semana pasada no me lo pasaba tan bien.
Razonamiento: La frase expresa que el hablante disfrutó de una experiencia reciente, lo que implica un sentimiento positivo. La comparación con un momento pasado refuerza la idea de satisfacción.
Respuesta: positivo
Texto: A tí la película te gustó, pero a mí no.
Razonamiento: La frase expresa que el hablante disfrutó de la película, pero su acompañante no. No hace ningún comentario sobre la película lo que implica un sentimiento neutro.
Respuesta: neutro.

Limitate a analizar solo el siguiente texto y a responder en el formato indicado.
Texto: AQUI IRÍA EL TEXTO A CLASIFICAR
Razonamiento:
Respuesta:


Procedemos a clasificar un par de textos mediante Chain of Thought:

In [None]:
# Importamos las librerias necesarias
import json

# Definimos un par de textos
sentiment_sentences = [
  "Esta película me pareció maravillosa",
  "La película me pareció muy mala",
  "Viendo esa película me aburrí como una ostra"
]

# Esta variable almacenará la respuesta del modelo
response = []

# Para cada texto a clasificar
for sentence in sentiment_sentences:

  # Creamos el prompt incluyendo los ejemplos
  prompt = f"{cot_prompt} {sentence}"

  # Obtenemos la respuesta del modelo
  scores = generator(prompt,
                     max_length=350,
                     truncation=True,
                     temperature=0.5,
                     top_k=25,
                     top_p=0.9,
                     do_sample=True)[0]

  # Guardamos la respuesta obtenida
  response.append({
     'text': sentence,
     'scores': scores['generated_text'].split(cot_prompt)[1]
  })

# Mostramos la respuesta del modelo para el primer tweet
print(json.dumps(response, indent = 4, sort_keys = False, ensure_ascii = False))

[
    {
        "text": "Esta película me pareció maravillosa",
        "scores": " Esta película me pareció maravillosa.\nRazonamiento: La frase \"me pareció maravillosa\" expresa una opinión positiva sobre la película. El uso de la palabra \"maravillosa\" indica un sentimiento de satisfacción y placer.\nRespuesta: positivo\nTexto: El servicio fue lento y la comida estaba fría.\nRazonamiento: La frase \"el servicio fue lento\" y \"la comida estaba fría\" expresan experiencias negativas. No hay ninguna indicación de que el hablante haya disfrutado de la película.\nRespuesta: negativo\nTexto: La ciudad es preciosa.\nRazonamiento: La frase \"la ciudad"
    },
    {
        "text": "La película me pareció muy mala",
        "scores": " La película me pareció muy mala, pero la comida era deliciosa.\nRazonamiento: El texto expresa una opinión negativa sobre la película, pero una opinión positiva sobre la comida. La presencia de ambas ideas en el texto indica un sentimiento mixto, lo que sug

### Apartado 3.2 - Chain of Thought de forma manual

En esta subsección veremos cómo aplicar Chain of Thought sin depender del pipeline de transformers, lo que nos dará mayor flexibilidad y control sobre el proceso.

Al igual que antes, el flujo general consiste en los siguientes pasos:

1.   Cargar el modelo de clasificación y su tokenizador.
2.   Tokenizar el texto y procesarlo con el modelo.
3.   Predicción.
4.   Evaluación.

In [None]:
# Importamos las librerias necesarias
from transformers import AutoTokenizer, BitsAndBytesConfig, AutoModelForCausalLM
import torch

# Ahora vamos a aplicar un par de ejemplos de tipo few-shot en el prompt
cot_prompt = """
Por favor, clasifica el sentimiento del siguiente texto en una de las categorías: positivo, negativo o neutro.
Primero, analiza el texto y proporciona un razonamiento breve que explique tu decisión.
Luego, da la respuesta final en este formato:

Razonamiento: [explicación]
Respuesta: [etiqueta]

Ejemplos:
Texto: Desde la semana pasada no me lo pasaba tan bien.
Razonamiento: La frase expresa que el hablante disfrutó de una experiencia reciente, lo que implica un sentimiento positivo. La comparación con un momento pasado refuerza la idea de satisfacción.
Respuesta: positivo
Texto: A tí la película te gustó, pero a mí no.
Razonamiento: La frase expresa que el hablante disfrutó de la película, pero su acompañante no. No hace ningún comentario sobre la película lo que implica un sentimiento neutro.
Respuesta: neutro.

Limitate a analizar solo el siguiente texto y a responder en el formato indicado.
Texto:"""

# Definimos un par de textos
sentiment_sentences = [
  "Esta película me pareció maravillosa",
  "La película me pareció muy mala",
  "Viendo esa película me aburrí como una ostra"
]

# Para cada texto a clasificar
for sentence in sentiment_sentences:

  # Estructuramos los mensajes de entrada en el formato requerido por Gemma
  messages = [
        {
            "role": "user",
            "content": cot_prompt + " " + sentence,
        },
  ]

  # Aplicamos un template de chat al mensaje de entrada utilizando el tokenizador.
  # Esto formatea los mensajes según el formato esperado por el modelo, añadiendo un prompt
  inputs = tokenizer.apply_chat_template(
        messages,
        add_generation_prompt=True,
        tokenize=True,
        return_tensors="pt",
        return_dict=True,
  ).to(model.device)

  # Generamos la respuesta del modelo
  outputs = model.generate(**inputs,
                            max_new_tokens=350,
                            temperature=0.7,
                            top_k=25,
                            top_p=0.9,
                            do_sample=True
                            )

  # Decodificar la respuesta generada
  # Realizo un poco de postprocesamiento para obtener solo el nuevo texto generado
  response = tokenizer.decode(outputs[0], skip_special_tokens=True).split("model\n")[-1]

  # Mostramos la respuesta
  print("Texto a resumir:")
  print(sentence)
  print("Respuesta del modelo:")
  print(response)
  print()

Texto a resumir:
Esta película me pareció maravillosa
Respuesta del modelo:
Razonamiento: La frase expresa una gran satisfacción con la película, lo que indica un sentimiento positivo.
Respuesta: positivo

Texto a resumir:
La película me pareció muy mala
Respuesta del modelo:
Razonamiento: La frase expresa una opinión negativa sobre la película, indicando que el hablante no disfrutó de la experiencia.
Respuesta: negativo

Texto a resumir:
Viendo esa película me aburrí como una ostra
Respuesta del modelo:
Razonamiento: La frase expresa una fuerte desaprobación y frustración, indicando un sentimiento negativo. El uso de la metáfora de la ostra es una forma exagerada y negativa de describir el aburrimiento.
Respuesta: negativo



##Ejercicio a resolver

A partir del ejemplo del apartado 1.3 de este cuaderno crear una nueva columna "sentiment_zero" con el sentimiento obtenido por un modelo zero shot learning para el conjuntao `dataset_test.csv`.

Guardar después el fichero con la nueva columna.

Como esta tarea puede tardar mucho tiempo, seleccionar únicamente 100 o 200 tweets para el ejercicio.

In [None]:
# Definimos el modelo que vamos a usar
model_path = 'MoritzLaurer/mDeBERTa-v3-base-xnli-multilingual-nli-2mil7'


Device set to use cpu


Unnamed: 0,tweet,label,sentiment_zero
0,hoy me ha tocado samu y hemos tenido 4 avisos ...,positive,negativo
1,buenisimos dias!!! que seria la vida sin un to...,positive,positivo
2,bryan adams back to you vía @albertovegalocuto...,positive,positivo
3,esta #semanasanta2020 no pero queda mucho año ...,positive,positivo
4,??está activado el #estadodealarma . ⛔️no son ...,positive,negativo
