# 7 - Clasificación Zero Shot (Etiquetar)

<br>
<br>

<img src="https://raw.githubusercontent.com/Hack-io-AI/ai_images/main/zero_shot.webp" style="width:400px;"/>

<h1>Tabla de Contenidos<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#1---Modelos-de-clasificación-Zero-Shot" data-toc-modified-id="1---Modelos-de-clasificación-Zero-Shot-1">1 - Modelos de clasificación Zero Shot</a></span></li><li><span><a href="#2---Pipeline-de-Transformers-para-Zero-Shot" data-toc-modified-id="2---Pipeline-de-Transformers-para-Zero-Shot-2">2 - Pipeline de Transformers para Zero Shot</a></span></li><li><span><a href="#3---Usando-el-modelo-Zero-Shot" data-toc-modified-id="3---Usando-el-modelo-Zero-Shot-3">3 - Usando el modelo Zero Shot</a></span><ul class="toc-item"><li><span><a href="#3.1-Tokenizador" data-toc-modified-id="3.1-Tokenizador-3.1">3.1 Tokenizador</a></span></li><li><span><a href="#3.2---Modelo-Zero-Shot" data-toc-modified-id="3.2---Modelo-Zero-Shot-3.2">3.2 - Modelo Zero Shot</a></span></li><li><span><a href="#3.3-Resumen-funcional" data-toc-modified-id="3.3-Resumen-funcional-3.3">3.3 Resumen funcional</a></span></li></ul></li><li><span><a href="#4---Otro-Modelo-Zero-Shot" data-toc-modified-id="4---Otro-Modelo-Zero-Shot-4">4 - Otro Modelo Zero Shot</a></span></li></ul></div>

## 1 - Modelos de clasificación Zero Shot

Los modelos de clasificación zero-shot son una técnica avanzada en NLP que permiten a un modelo clasificar datos en categorías que no se han visto durante el entrenamiento. Esto es especialmente útil en situaciones donde es poco práctico o imposible etiquetar manualmente datos para todas las categorías posibles. La clasificación zero-shot se basa en la capacidad de un modelo para generalizar a partir de conocimientos previos sin necesidad de ejemplos específicos durante el entrenamiento. Esto se logra generalmente mediante el uso de representaciones semánticas ricas y la transferencia de conocimiento.

[Yin et al.](https://arxiv.org/abs/1909.00161) propusieron un método para usar modelos NLI (Natural Language Inference) preentrenados como clasificadores de secuencias zero-shot. El método funciona planteando la secuencia que se va a clasificar construyendo una hipótesis a partir de cada etiqueta candidata. Por ejemplo, si queremos evaluar si una secuencia pertenece a la clase "urgente" u otra etiqueta. Luego se calculan las probabilidades de pertenencia a la etiqueta.

Este método es sorprendentemente efectivo en muchos casos, especialmente cuando se usa con modelos preentrenados más grandes como BART y RoBERTa. 

Técnicas comunes en zero-shot:

1. **Embeddings Semánticos**:

Los modelos zero-shot comúnmente utilizan embeddings de palabras o frases, como los generados por modelos como BERT o GPT, que capturan el significado de los textos en un espacio vectorial. El modelo aprende a asociar estos embeddings con sus correspondientes etiquetas durante el entrenamiento, aunque esas etiquetas específicas no se presenten en los datos de entrenamiento.


2. **Aprendizaje por Transferencia**:

Los modelos preentrenados en grandes corpus de datos y en múltiples tareas pueden adaptarse a la clasificación zero-shot aprovechando su conocimiento previo. Este enfoque permite que el modelo haga inferencias sobre categorías no vistas utilizando la similitud semántica entre las categorías conocidas y desconocidas.


3. **Modelos Generativos**:

Algunos enfoques de zero-shot involucran modelos generativos que pueden simular cómo se vería un ejemplo de una clase no vista, basándose en su descripción o en ejemplos de clases similares.

Vamos a usar un modelo de Facebook zero-shot basado en BART para nuestro primer ejemplo. Aquí el [link](https://huggingface.co/facebook/bart-large-mnli).

## 2 - Pipeline de Transformers para Zero Shot

In [1]:
from transformers import pipeline

In [2]:
tarea = 'zero-shot-classification'

modelo = 'facebook/bart-large-mnli'

In [4]:
zero_pipe = pipeline(task=tarea, model=modelo)

Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


In [5]:
etiquetas = ['urgente', 'no urgente', 'reparacion', 'revision']

In [6]:
pregunta = 'Tengo un problema con mi computadora que necesita ser resuelto lo antes posible. De ello depende mi trabajo'

pregunta

'Tengo un problema con mi computadora que necesita ser resuelto lo antes posible. De ello depende mi trabajo'

In [9]:
zero_pipe(sequences=pregunta, candidate_labels=etiquetas, multi_label=True)

{'sequence': 'Tengo un problema con mi computadora que necesita ser resuelto lo antes posible. De ello depende mi trabajo',
 'labels': ['urgente', 'reparacion', 'revision', 'no urgente'],
 'scores': [0.9995989799499512,
  0.775673508644104,
  0.42463093996047974,
  0.0005951290368102491]}

In [10]:
prompt = {'sequences': pregunta, 'candidate_labels': etiquetas}

zero_pipe(**prompt)

{'sequence': 'Tengo un problema con mi computadora que necesita ser resuelto lo antes posible. De ello depende mi trabajo',
 'labels': ['urgente', 'reparacion', 'revision', 'no urgente'],
 'scores': [0.9559415578842163,
  0.03261444345116615,
  0.00963128637522459,
  0.0018127404619008303]}

In [12]:
respuesta = zero_pipe(**prompt)

respuesta['labels'][0]

'urgente'

In [13]:
prompt = {'sequences': 'Hola, mi coche funciona pero hace un ruido', 
          'candidate_labels': etiquetas}

respuesta = zero_pipe(**prompt)

respuesta['labels'][0]

'revision'

In [14]:
prompt = {'sequences': 'Hola, mi telefono no suena', 
          'candidate_labels': etiquetas}

respuesta = zero_pipe(**prompt)

respuesta['labels'][0]

'no urgente'

## 3 - Usando el modelo Zero Shot

In [15]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification

### 3.1 Tokenizador

El tokenizador vuelve a ser el BartTokenizerFast que ya hemos visto anteriormente.

In [16]:
tokenizador = AutoTokenizer.from_pretrained(modelo)

In [17]:
tokenizador

BartTokenizerFast(name_or_path='facebook/bart-large-mnli', vocab_size=50265, model_max_length=1024, is_fast=True, padding_side='right', truncation_side='right', special_tokens={'bos_token': '<s>', 'eos_token': '</s>', 'unk_token': '<unk>', 'sep_token': '</s>', 'pad_token': '<pad>', 'cls_token': '<s>', 'mask_token': '<mask>'}, clean_up_tokenization_spaces=True),  added_tokens_decoder={
	0: AddedToken("<s>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=True),
	1: AddedToken("<pad>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=True),
	2: AddedToken("</s>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=True),
	3: AddedToken("<unk>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=True),
	50264: AddedToken("<mask>", rstrip=False, lstrip=True, single_word=False, normalized=True, special=True),
}

In [18]:
vector = tokenizador.encode(pregunta, etiquetas[0], return_tensors='pt')

In [19]:
vector

tensor([[    0,   565,  3314,   139,   542,   936,   102,  2764, 11163, 44316,
           625,  4330,  1192,  3087,  4643,  3119,  6821,  5032,  8129,   560,
          4600,  9876,   293,  8593,  4748,     4,   926,   364,  9905,  6723,
           242, 11163,  2664,   873, 13745,     2,     2,  7150,  8530,     2]])

In [20]:
vector.shape

torch.Size([1, 40])

Podemos usar el propio tokenizador para ver el texto que representa dicho vector:

In [22]:
tokenizador.decode(vector[0])

'<s>Tengo un problema con mi computadora que necesita ser resuelto lo antes posible. De ello depende mi trabajo</s></s>urgente</s>'

### 3.2 - Modelo Zero Shot

Carguemos ahora el modelo de zero shot para extraer la probabilidad de pertenencia a una clase de un texto.

In [23]:
zero_modelo = AutoModelForSequenceClassification.from_pretrained(modelo)

In [24]:
zero_modelo

BartForSequenceClassification(
  (model): BartModel(
    (shared): BartScaledWordEmbedding(50265, 1024, padding_idx=1)
    (encoder): BartEncoder(
      (embed_tokens): BartScaledWordEmbedding(50265, 1024, padding_idx=1)
      (embed_positions): BartLearnedPositionalEmbedding(1026, 1024)
      (layers): ModuleList(
        (0-11): 12 x BartEncoderLayer(
          (self_attn): BartAttention(
            (k_proj): Linear(in_features=1024, out_features=1024, bias=True)
            (v_proj): Linear(in_features=1024, out_features=1024, bias=True)
            (q_proj): Linear(in_features=1024, out_features=1024, bias=True)
            (out_proj): Linear(in_features=1024, out_features=1024, bias=True)
          )
          (self_attn_layer_norm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
          (activation_fn): GELUActivation()
          (fc1): Linear(in_features=1024, out_features=4096, bias=True)
          (fc2): Linear(in_features=4096, out_features=1024, bias=True)
       

BartForSequenceClassification es una variante del modelo BART (Bidirectional and Auto-Regressive Transformers) diseñado para tareas de clasificación de secuencias. 

Sus componentes principales son:

1. BartModel:

+ shared: Una capa de embedding compartida para los tokens de entrada, que transforma los tokens (palabras) en vectores de 1024 dimensiones.


+ encoder: Encargado de procesar la secuencia de entrada.
    + embed_tokens: Utiliza el mismo embedding compartido para codificar los tokens.
    + embed_positions: Embeddings posicionales para entender el orden de los tokens dentro de la secuencia.
    + layers: Una serie de 12 capas de encoder (BartEncoderLayer), cada una con componentes de atención y normalización:
        + self_attn: Atención auto-dirigida que ayuda al modelo a enfocarse en diferentes partes de la entrada.
        + fc1 y fc2: Transformaciones lineales para procesar la salida de la atención.
        + final_layer_norm y self_attn_layer_norm: Capas de normalización para estabilizar el aprendizaje.


+ layernorm_embedding: Normalización adicional aplicada a los embeddings de entrada.


2. decoder: Similar al encoder, pero diseñado para generar salida a partir de la representación codificada.

+ embed_tokens y embed_positions: Análogos a los del encoder.

+ layers: Cada capa del decoder (BartDecoderLayer) tiene funcionalidades similares a las del encoder, además de una atención adicional dirigida hacia la salida del encoder.


3. classification_head: Una cabeza de clasificación específica para tareas de clasificación.

+ dense: Una capa densa que transforma las características del decoder.

+ dropout: Capa de Dropout para reducir el sobreajuste.

+ out_proj: Capa lineal final que mapea la salida a las categorías de clasificación deseadas (en este caso, parece ser 3 categorías).




Funcionalidad general:

+ BartForSequenceClassification toma una secuencia de entrada, procesa a través de su arquitectura de encoder y decoder para entender y generar una representación interna, y luego utiliza la cabeza de clasificación para determinar la categoría a la que pertenece la secuencia.

+ Este modelo es capaz de manejar relaciones complejas y largas distancias dentro de textos, haciéndolo ideal para tareas como análisis de sentimientos, identificación de temas, y más, donde la secuencia completa de texto necesita ser entendida para hacer una clasificación efectiva.


In [25]:
respuesta = zero_modelo(vector)

In [27]:
respuesta.logits

tensor([[-1.9446,  1.8553, -0.7670]], grad_fn=<AddmmBackward0>)

Con `softmax`, un clasificador multietiqueta, podemos extraer la probabilidad de pertenencia a la clase. La probabilidad de ser cierta la etiqueta es el segundo elemento de este tensor. 

In [28]:
respuesta.logits.softmax(dim=1)

tensor([[0.0204, 0.9132, 0.0663]], grad_fn=<SoftmaxBackward0>)

In [31]:
respuesta.logits.softmax(dim=1)[0][1].item()

0.913235604763031

### 3.3 Resumen funcional

Vamos a poner todo el código junto en una sola función:

In [32]:
# librerias 

from transformers import AutoModelForSequenceClassification, AutoTokenizer



def zero_shot(pregunta: str, etiqueta: str, modelo: str) -> float:
    
    """
    Función para zero shot
    """
    
    
    # con este objeto vectorizamos las palabras
    tokenizador = AutoTokenizer.from_pretrained(modelo)
    
    
    # creación del vector
    vector = tokenizador.encode(pregunta, etiqueta, return_tensors='pt')
    
    
    # inicializacion del modelo Zero Shot
    zero_modelo = AutoModelForSequenceClassification.from_pretrained(modelo)
    
    
    # respuesta del modelo al pasarle el vector
    respuesta = zero_modelo(vector)
    
    
    # probabilidad de pertenencia
    probabilidad = respuesta.logits.softmax(dim=1)[0, 1].item()
    
    
    return probabilidad

In [37]:
# definimos pregunta, etiqueta y modelo

pregunta = 'Tengo un problema con mi computadora que necesita ser resuelto lo antes posible. De ello depende mi trabajo'

etiqueta = 'revision'

modelo = 'facebook/bart-large-mnli'

In [38]:
zero_shot(pregunta, etiqueta, modelo)

0.9071726202964783

In [40]:
for et in etiquetas:
    
    res = zero_shot(pregunta, et, modelo)
    
    print(et, res)

urgente 0.913235604763031
no urgente 0.058300167322158813
reparacion 0.8391153812408447
revision 0.9071726202964783


## 4 - Otro Modelo Zero Shot

Probemos ahora otro [modelo](https://huggingface.co/MoritzLaurer/deberta-v3-large-zeroshot-v2.0), que según su ficha en el hub de Hugging Face, tiene un 15% de mejora en rendimiento, a pesar de que pesa un 50% menos. Veamos como usarlo:

In [41]:
pipe = pipeline(task = "zero-shot-classification", 
                model="MoritzLaurer/deberta-v3-large-zeroshot-v2.0")     

Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


In [42]:
etiquetas

['urgente', 'no urgente', 'reparacion', 'revision']

In [44]:
pregunta

'Tengo un problema con mi computadora que necesita ser resuelto lo antes posible. De ello depende mi trabajo'

In [51]:
%%time

pipe(sequences=pregunta, candidate_labels=etiquetas, multi_label=True)

CPU times: user 787 ms, sys: 384 ms, total: 1.17 s
Wall time: 846 ms


{'sequence': 'Tengo un problema con mi computadora que necesita ser resuelto lo antes posible. De ello depende mi trabajo',
 'labels': ['urgente', 'reparacion', 'revision', 'no urgente'],
 'scores': [0.9465862512588501,
  0.6432700157165527,
  0.00859528873115778,
  0.0009899158030748367]}

In [52]:
%%time

zero_pipe(sequences=pregunta, candidate_labels=etiquetas, multi_label=True)

CPU times: user 447 ms, sys: 204 ms, total: 651 ms
Wall time: 488 ms


{'sequence': 'Tengo un problema con mi computadora que necesita ser resuelto lo antes posible. De ello depende mi trabajo',
 'labels': ['urgente', 'reparacion', 'revision', 'no urgente'],
 'scores': [0.9995989799499512,
  0.775673508644104,
  0.42463093996047974,
  0.0005951290368102491]}