<a href="https://colab.research.google.com/github/fer-aguirre/hackathon-somos-nlp-2023/blob/main/colab/sentimiento_tweets_gpt3_fewshot.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üí° **Introducci√≥n a Argilla**


> Argilla es una plataforma de c√≥digo abierto para la anotaci√≥n de datos e incorporaci√≥n de feedback humano en proyectos de PLN.


Est√° compuesta de dos partes:

1. **Librer√≠a Python para manejar datos y integrar con procesos de ML** (predicci√≥n, evaluaci√≥n, active learning, reentrenamiento, etc).

2. **Interfaz de usuario** para analizar y etiquetar datos.


Demo: https://huggingface.co/spaces/argilla/live-demo

AutoTrain, No-code data manager y m√°s: https://huggingface.co/spaces/argilla/argilla-streamlit-customs 

Documentaci√≥n: https://docs.argilla.io/en/latest/



## **Desplegar Argilla**

For this tutorial, you will need to have an Argilla server running. There are two main options for deploying and running Argilla:


**Deploy Argilla on Hugging Face Spaces**: If you want to run tutorials with external notebooks (e.g., Google Colab) and you have an account on Hugging Face, you can deploy Argilla on Spaces with a few clicks:

[![deploy on spaces](https://huggingface.co/datasets/huggingface/badges/raw/main/deploy-to-spaces-lg.svg)](https://huggingface.co/new-space?template=argilla/argilla-template-space)

For details about configuring your deployment, check the [official Hugging Face Hub guide](https://huggingface.co/docs/hub/spaces-sdks-docker-argilla).


**Launch Argilla using Argilla's quickstart Docker image**: This is the recommended option if you want [Argilla running on your local machine](../../getting_started/quickstart.ipynb). Note that this option will only let you run the tutorial locally and not with an external notebook service.

For more information on deployment options, please check the Deployment section of the documentation.

<div class="alert alert-info">

Tip
    
This tutorial is a Jupyter Notebook. There are two options to run it:

- Use the Open in Colab button at the top of this page. This option allows you to run the notebook directly on Google Colab. Don't forget to change the runtime type to GPU for faster model training and inference.
- Download the .ipynb file by clicking on the View source link at the top of the page. This option allows you to download the notebook and run it on your local machine or on a Jupyter notebook tool of your choice.
</div>

## **Setup**


In [None]:
%pip install openai datasets argilla sentence-transformers==2.2.2 setfit==0.6.0 -qqq

Importamos `argilla` para manejar datos, predicciones y anotaciones desde Python.

In [None]:
import argilla as rg

Si estamos usando una instancia remota, en Hugging Face por ejemplo, debemos configurar `API_URL` y `API_KEY` para comunicarnos con la instancia de Argilla:

In [None]:
# Replace api_url with the url to your HF Spaces URL if using Spaces
# Replace api_key if you configured a custom API key
rg.init(
    api_url="https://dvilasuero-taller-somosnlp.hf.space", 
    api_key="team.apikey"
)

Ahora incluimos todos los m√≥dulos y m√©todos que necesitamos:

In [None]:
import os
from json import loads

import openai

from datasets import load_dataset

import pandas as pd

from argilla.metrics.text_classification import f1
from argilla.metrics.commons import text_length

from setfit import get_templated_dataset
from setfit import SetFitModel, SetFitTrainer

from sentence_transformers import SentenceTransformer
from sentence_transformers.losses import CosineSimilarityLoss

## **Leer el dataset**

Vamos a utilizar un dataset del Hub de Hugging Face con tweets

In [None]:
dataset = load_dataset("pysentimiento/es_sentiment")



  0%|          | 0/3 [00:00<?, ?it/s]

In [None]:
# preview dataset content
dataset["train"].to_pandas().head(15)

Unnamed: 0,text,lang,label
0,@morbosaborealis jajajaja... eso es verdad... ...,es,0
1,@Adriansoler espero y deseo que el interior te...,es,1
2,"comprendo que te molen mis tattoos, pero no te...",es,1
3,"Mi √∫ltima partida jugada, con Sona support. La...",es,2
4,Tranquilos que con el.dinero de Camacho seguro...,es,2
5,"@daniacal a√∫n no, pero si estar√° jugable en el...",es,2
6,@ragnomuelle Yo a veces hecho de menos mi pelo...,es,0
7,A m√≠ nunca me podr√°n hacer una broma porque no...,es,1
8,#feliz septiembre..es bonito retarse..es incre...,es,2
9,Este a√±o el Madrid har√° triplete y si lo hace ...,es,2


## **Clasificador de sentimiento con GPT-3**

En esta secci√≥n, vamos a utilizar el modelo `text-davinci-003` para clasificar el sentimiento de tweets en Espa√±ol.



![Screenshot of Argilla UI](https://github.com/argilla-io/argilla/blob/main/docs/_source/_static/tutorials/labelling-textclassification-gpt3-fewshot/labelling-textclassification-gpt3-fewshot-2.png?raw=1)

La estructura principal de nuestro prompt es:

1. Definir la tarea: clasificaci√≥n de sentimientos de las solicitudes de los clientes
2. Definir el formato y las etiquetas: queremos tres etiquetas y un formato JSON (hasta ahora, este formato solo funcion√≥ para text-davinci-003)
3. Definir el texto a clasificar: esta parte la agregaremos para cada ejemplo en nuestro conjunto de datos.

Probablemente lo m√°s interesante de este prompt es que **pedimos al modelo que explique su predicci√≥n y la a√±ada a la respuesta**. Ver√°s m√°s adelante que este es un mecanismo poderoso para entender las decisiones del modelo, la tarea e incluso revisar nuestra verdad b√°sica etiquetada manualmente.

Como queremos probar las capacidades de zero-shot, no proporcionaremos ning√∫n ejemplo. En futuros tutoriales, ampliaremos esto con N-shot proporcionando ejemplos en el mensaje en s√≠, y tambi√©n mostraremos c√≥mo se puede ajustar GPT-3 con ejemplos etiquetados. Si est√°s interesado, ¬°√∫nete a nuestra comunidad y hablemos!

A continuaci√≥n, definimos la plantilla de mensaje, a la cual agregaremos el texto a clasificar antes de llamar a la funci√≥n openai.Completion.create.

In [None]:
PROMPT_TEMPLATE = """
Classify the sentiment of the tweet in Spanish using the following JSON format. Use positive, negative, and neutral in lowercase:

{"prediction": sentiment label string, "explanation": sentence string describing in Spanish why you think is the sentiment}

Tweet: 

"""

Ahora, definamos nuestra funci√≥n de clasificaci√≥n. Esta funci√≥n agrega el texto de entrada a la plantilla de mensaje, llama a la API de OpenAI e intenta analizar la respuesta JSON. En algunos de nuestros experimentos, a veces el JSON devuelto no es v√°lido. Tenemos esto en cuenta y marcamos esas predicciones como None y agregamos la respuesta JSON en el campo de explicaci√≥n.

In [None]:
# set your api key as ENV, for example with Python: os.environ["OPENAI_API_KEY"] = "your api key"
openai.api_key = os.getenv("OPENAI_API_KEY") 

def classify(text):
    # build prompt with template and input
    prompt = f"{PROMPT_TEMPLATE}\n{text}\n"
    # use create completion template
    completion = openai.Completion.create(
      model="text-davinci-003",
      prompt=prompt,
      temperature=0,
      max_tokens=256
    )
    # get first choice text
    json_response = completion["choices"][0]["text"].strip()
    try:
        prediction = loads(json_response)
    except:
        # for some examples, json is not correctly formatted
        return {"prediction": None, "explanation": f"Wrong JSON format: {json_response}" }
    return prediction  

Ahora llamemos a este m√©todo para cada ejemplo en nuestro conjunto de prueba de sentimiento bancario para que podamos compararlo con otros m√©todos (SetFit, GPT-3 de pocos disparos y otros).

Usamos el m√©todo map de la biblioteca datasets y mostramos los resultados en una tabla de la siguiente manera:

In [None]:
# let's predict over the test set to eval our zero-shot classifier
test_ds_with_preds = dataset["test"].select(range(1000)).map(lambda example: classify(example["text"]))

pd.set_option('display.max_colwidth', None)
test_ds_with_preds.to_pandas().head(15)

### Evaluando el clasificador


In [None]:
# estas son las labels del dataset original
dataset["test"].features["label"].names

Ahora simplemente creamos el dataset en Argilla con las predicciones y las etiquetas del dataset original.

In [None]:
import argilla as rg

# alineamos las labels con las que devuelve la API de OpenAI
labels = ['negative', 'neutral', 'positive']

records = []
for example in test_ds_with_preds:
    # create a record with ground-truth annotations and gpt-3 predictions
    record = rg.TextClassificationRecord(
        inputs={"text": example["text"], "explanation": example["explanation"]},
        annotation=labels[example["label"]],
        prediction=[(example["prediction"].lower(), 1.0)],
        metadata={"lang": example["lang"]}
    )
    records.append(record)

# create a dataset in Argilla
rg.log(records, "sentimiento_zs_gpt3")

### M√©tricas

Usando el m√≥dulo `metrics` de Argilla podemos analizar calidad de las predicciones:


In [None]:
f1("sentimiento-zs-gpt3").visualize()

Y la distribuci√≥n por longitud de texto:

In [None]:
text_length("sentimiento-zs-gpt3").visualize()

Podemos analizar las m√©tricas con respecto a la longitud del texto.

In [None]:
f1("sentimiento-zs-gpt3", query="metrics.text_length:[0 TO 150]").visualize()

In [None]:
f1("sentimiento-zs-gpt3", query="metrics.text_length:[150 TO *]").visualize()

## Clasificador zero-shot con SetFit


In [None]:
labels = ["positivo", "negativo", "neutro"]

train_dataset = get_templated_dataset(
    candidate_labels=labels,
    sample_size=8,
    template="El tweet expresa un sentimiento {}"
)

model = SetFitModel.from_pretrained("hackathon-pln-es/paraphrase-spanish-distilroberta")
trainer = SetFitTrainer(
    model=model,
    train_dataset=train_dataset
)
trainer.train()

Downloading (‚Ä¶)lve/main/config.json:   0%|          | 0.00/731 [00:00<?, ?B/s]

Downloading (‚Ä¶)66d6a/.gitattributes:   0%|          | 0.00/1.18k [00:00<?, ?B/s]

Downloading (‚Ä¶)_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Downloading (‚Ä¶)397a666d6a/README.md:   0%|          | 0.00/6.16k [00:00<?, ?B/s]

Downloading (‚Ä¶)7a666d6a/config.json:   0%|          | 0.00/731 [00:00<?, ?B/s]

Downloading (‚Ä¶)ce_transformers.json:   0%|          | 0.00/123 [00:00<?, ?B/s]

Downloading (‚Ä¶)97a666d6a/merges.txt:   0%|          | 0.00/514k [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/499M [00:00<?, ?B/s]

Downloading (‚Ä¶)nce_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

Downloading (‚Ä¶)cial_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

Downloading (‚Ä¶)66d6a/tokenizer.json:   0%|          | 0.00/2.22M [00:00<?, ?B/s]

Downloading (‚Ä¶)okenizer_config.json:   0%|          | 0.00/354 [00:00<?, ?B/s]

Downloading (‚Ä¶)97a666d6a/vocab.json:   0%|          | 0.00/855k [00:00<?, ?B/s]

Downloading (‚Ä¶)a666d6a/modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

model_head.pkl not found on HuggingFace Hub, initialising classification head with random weights. You should TRAIN this model on a downstream task to use it for predictions and inference.
***** Running training *****
  Num examples = 960
  Num epochs = 1
  Total optimization steps = 60
  Total train batch size = 16


Epoch:   0%|          | 0/1 [00:00<?, ?it/s]

Iteration:   0%|          | 0/60 [00:00<?, ?it/s]

### Evaluando el clasificador


In [None]:
ds =  dataset["test"].select(range(1000))

def get_predictions(texts):
    mapping = {"negativo": "negative", "positivo": "positive", "neutro": "neutral"}
    probas = model.predict_proba(texts, as_numpy=True)
    for pred in probas:
        yield [{"label": mapping[label], "score": score} for label, score in zip(labels, pred)]

def get_annotation(labels):
  mapping = ['negative', 'neutral', 'positive']
  return [mapping[l] for l in labels]


dataset2 = ds.map(
    lambda batch: {
        "prediction": list(get_predictions(batch["text"])),
        "annotation": get_annotation(batch["label"])
    }, 
    batched=True,
    batch_size=10
)

Map:   0%|          | 0/1000 [00:00<?, ? examples/s]

In [None]:
rg_ds = rg.DatasetForTextClassification.from_datasets(dataset2)

rg.log(
    name="sentimiento-zs-setfit",
    records=rg_ds
)



Output()

BulkResponse(dataset='sentimiento-zs-setfit', processed=1000, failed=0)

### M√©tricas

In [None]:
f1("sentimiento-zs-setfit").visualize()

In [None]:
f1("sentimiento-zs-setfit", query="score:[0.5 TO *]").visualize()

## Clasificador few-shot con SetFit

In [None]:
small_ds = dataset["train"].shuffle()

In [None]:
# Use cuda if available, if not, change cpu
encoder = SentenceTransformer("hackathon-pln-es/paraphrase-spanish-distilroberta", device="cuda")

# Encode text field using batched computation
small_ds = small_ds.map(
    lambda batch: {"vectors": encoder.encode(batch["text"])},
    batch_size=32,
    batched=True
)

# Removes the original labels because you'll be labelling from scratch
small_ds = small_ds.remove_columns("label")

# Turn vectors into a dictionary
small_ds = small_ds.map(
    lambda r: {"vectors": {"tweet_embedding": r["vectors"]}}
)

In [None]:
small_ds

In [None]:
settings = rg.TextClassificationSettings(
    label_schema=["positive", "negative", "neutral"]
)
rg.configure_dataset(name="tweets_for_labelling", settings=settings)

In [None]:
rg_ds = rg.DatasetForTextClassification.from_datasets(small_ds, metadata="lang")

rg.log(
    name="tweets_for_labelling",
    records=rg_ds,
    chunk_size=100,
)

### Etiquetar!



In [None]:
%%html
<iframe
	src="https://dvilasuero-taller-somosnlp.hf.space"
	frameborder="0"
	width="100%"
	height="700"
></iframe>

### Entrenar SetFit

In [None]:
# Load the hand-labelled dataset from Argilla
ds = rg.load("tweets_for_labelling").prepare_for_training(train_size=0.8)

print(ds)

# Load SetFit model from Hub
model = SetFitModel.from_pretrained("hackathon-pln-es/paraphrase-spanish-distilroberta")

# Create trainer
trainer = SetFitTrainer(
    model=model,
    train_dataset=ds["train"],
    eval_dataset=ds["test"],
    loss_class=CosineSimilarityLoss,
    batch_size=8,
    num_iterations=20,
)

# Train and evaluate
trainer.train()
metrics = trainer.evaluate()
print(metrics)

### Evaluar

In [None]:
ds =  dataset["test"].select(range(1000))

def get_predictions(texts):
    labels = ['negative', 'neutral', 'positive']
    probas = model.predict_proba(texts, as_numpy=True)
    for pred in probas:
        yield [{"label": label, "score": score} for label, score in zip(labels, pred)]

def get_annotation(labels):
  mapping = ['negative', 'neutral', 'positive']
  return [mapping[l] for l in labels]


dataset2 = ds.map(
    lambda batch: {
        "prediction": list(get_predictions(batch["text"])),
        "annotation": get_annotation(batch["label"])
    }, 
    batched=True,
    batch_size=10
)

In [None]:
rg_ds = rg.DatasetForTextClassification.from_datasets(dataset2)

rg.log(
    name="sentimiento-fewshot-setfit",
    records=rg_ds
)

In [None]:
f1("sentimiento-fewshot-setfit").visualize()

In [None]:
f1("sentimiento-zs-setfit", query="score:[0.6 TO *]").visualize()

## Siguientes pasos

* Participa en el Hackathon creando tu propio dataset o al menos evaluando tus modelos con un dataset etiquetado. Por mucha excitaci√≥n que haya con todos los nuevos modelos, la calidad de los datos y la verificaci√≥n humana sigue siendo clave!

* √önete a la comunidad de Slack de Argilla y comparte tus preguntas, feedback y casos de uso!

* Si quieres apoyar el proyecto, contribuye y dejanos una estrella en GitHub: https://github.com/argilla-io/argilla

* El jueves Natalia Elvira estar√° resolviendo dudas y preguntas sobre proyectos de anotaci√≥n como parte del hackathon, no te lo pierdas!



## Ideas de mejora



Para GPT models:

1. Hacer few-shot con `text-davinci-003` a√±adiendo ejemplos en el siguiente prompt:


In [None]:
PROMPT_TEMPLATE = """
Classify the sentiment of the tweet in Spanish using the following JSON format. Use positive, negative, and neutral in lowercase:

{"prediction": sentiment label string, "explanation": sentence string describing in Spanish why you think is the sentiment}

Tweet:

"""

2. Usar `gpt3.5-turbo`, para ello hay que utilizar el endpoint chat
3. Usar `langchain` y/o `guardrails` para estructurar mejor el input y output del modelo.


Para SetFit:

1. Usar active learning para etiquetar m√°s ejemplos, la librer√≠a `small-text` soporta modelos setfit.