<a href="https://colab.research.google.com/github/menpente/somosnlp_reescritura_textos_administrativos/blob/main/hackathon_2024/creacion_de_datasets_sinteticos_con_distilabel.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Agradecimientos

Muchas gracias al equipo de Argilla por preparar este notebook de ejemplo, en especial a Daniel Vila Suero (CEO y fundador) y Agustín Piqueres (MLE).

Muchas gracias también a Hugging Face por darnos la oportunidad de disfrutar de la PRO API durante el hackathon. Pedimos a todos los equipos responsabilidad, por favor utilizad esta API para el desarrollo de proyectos del hackathon. Así seguiremos pudiendo organizar estos maravillosos eventos gratuitos. ¡Gracias!

# Instalar requisitos

In [3]:
%pip install -U distilabel[hf-inference-endpoints,argilla] -qqq

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/132.4 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m132.4/132.4 kB[0m [31m3.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m510.5/510.5 kB[0m [31m10.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m134.8/134.8 kB[0m [31m8.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m415.1/415.1 kB[0m [31m13.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m156.5/156.5 kB[0m [31m10.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m254.3/254.3 kB[0m [31m13.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m75.9/75.9 kB[0m [31m10.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━

In [4]:
from distilabel.llm.huggingface.inference_endpoints import InferenceEndpointsLLM
from distilabel.tasks import TextGenerationTask
from distilabel.tasks import SelfInstructTask
from distilabel.pipeline import Pipeline

In [5]:
import distilabel
distilabel.__version__

'0.6.0'

# Introducción

En este tutorial se muestra como generar conjuntos de datos sintéticos en Español para entrenar y mejorar modelos del lenguaje en Español.

Para ello se utiliza `distilabel` de Argilla, una librería escalable para generar datasets para LLMs.

Este cuaderno provee una breve guía de introducción pero se recomienda leer la [documentación](https://distilabel.argilla.io/latest/) y explorar opciones más avanzadas así como casos de uso interesantes, más allá del ejemplo utilizado aquí.

En este cuaderno:

- Se muestra como generar instrucciones y respuestas para SFT (supervised fine tuning) utilizando Hugging Face Inference for PRO (gracias al sponsorship de Hugging Face).

- Se muestra como generar instrucciones y respuestas para SFT (supervised fine tuning) utilizando la GPU de Colab y modelos locales.


# Generación de instrucciones con HF Inference endpoints

Con este apartado, los equipos pueden generar instrucciones en Español sobre distintos temas y para distintas aplicaciones. Aquí se muestra solo un ejemplo muy básico.

Para ejecutar este apartado es necesario formar parte de la organización SomosNLP en Hugging Face y configurar el token personal (nivel write) para poder hacer uso de la cuenta PRO.


Se ruega no sobrecargar la API de inferencia y hacer pruebas con pequeñas muestras hasta tener claro el caso de uso y en cualquier caso no generar datasets de más de 5000 ejemplos.

## Comprobar acceso a Inference Endpoints

In [6]:
from google.colab import userdata


hf_token = userdata.get('HF_TOKEN')

# change endpoint name and namespace once deployed
ENDPOINT_NAME = "mistralai/Mixtral-8x7B-Instruct-v0.1"


llm = InferenceEndpointsLLM(
    endpoint_name_or_model_id=ENDPOINT_NAME,
    task=TextGenerationTask(),
    token=hf_token,
    prompt_format="llama2"
)

INFO:distilabel:Using Serverless Inference Endpoint


In [7]:
llm.generate([{"input": "Generate a random joke in Spanish, just the joke, no greetings"}])

[[{'model_name': 'mistralai/Mixtral-8x7B-Instruct-v0.1',
   'prompt_used': "<s>[INST] <<SYS>>\nYou are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature.\nIf a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don't know the answer to a question, please don't share false information.<</SYS>>\n\nGenerate a random joke in Spanish, just the joke, no greetings [/INST]",
   'raw_output': ' ¿Por qué el pollo siempre cruza la calle?\nPorque quiere llegar al otro lado y decir: "¡Adivinen quién acaba de cruzar la calle!" (Why does the chicken always cross the road? Because it wants to get to the other side and say: "Guess who just crossed the road!")',
   'parsed_output': {'generati

## Generar dataset de instrucciones por temas

Esto es solo un ejemplo y configurando la lista de `topics` y la `application_description` se pueden generar instrucciones de mucho tipos y dominios, sé creativ@!

In [None]:
from datasets import Dataset

topics = [
  "La APP-AEAT permite la presentación de la declaración de Renta con un solo clic a los contribuyentes de los que la AEAT dispone de todos los datos. En este caso, una vez identificado en la aplicación, accede a Renta, Renta 2022 y haz clic en Tramitación de borrador / declaración",
  "No obstante, tratándose de rendimientos obtenidos por el contribuyente procedentes de una entidad en cuyo capital participe derivados de la realización de actividades incluidas en la Sección Segunda de las Tarifas del Impuesto sobre Actividades Económicas, aprobadas por el Real Decreto Legislativo 1175/1990, de 28 de septiembre, tendrán esta consideración cuando el contribuyente esté incluido, a tal efecto, en el régimen especial de la Seguridad Social de los trabajadores por cuenta propia o autónomos, o en una mutualidad de previsión social que actúe como alternativa al citado régimen especial conforme a lo previsto en la disposición adicional decimoquinta de la Ley 30/1995, de 8 de noviembre, de ordenación y supervisión de los seguros privados."
]


dataset = Dataset.from_dict({
    "input": topics
})

Te invitamos a probar diferentes prompts y ver cuál da mejores resultados:

In [9]:
application_description = (
    "An AI assistant specialized in plain language in Spanish."
    "Users of this assistant will submit texts to be assessed and have corrections to make them more readable and understandable."
    "Highly important!! You can only generate text in SPANISH"
)

# Por defecto, `SelfInstructTask` generará 5 instrucciones pero se puede modificar este comportamiento con el argumento `num_instructions`.
instruction_task = SelfInstructTask(
    application_description=application_description
)

print(f"`SelfInstructTask`\n   - Input arguments: {instruction_task.input_args_names}\n   - Output arguments: {instruction_task.output_args_names}")

`SelfInstructTask`
   - Input arguments: ['input']
   - Output arguments: ['instructions']


In [19]:
llm = InferenceEndpointsLLM(
    endpoint_name_or_model_id=ENDPOINT_NAME,
    task=instruction_task,
    token=hf_token,
    prompt_format="llama2",
    num_threads=4
)

pipeline = Pipeline(generator=llm)
distiset = pipeline.generate(
    dataset=dataset,
    num_generations=200,
    batch_size=4,
    display_progress_bar=True
)

INFO:distilabel:Using Serverless Inference Endpoint
INFO:distilabel:Executing dry-run...
INFO:distilabel:Processing batch 1 of 1...
INFO:distilabel:Calling generator for batch 1...


Flattening the indices:   0%|          | 0/1 [00:00<?, ? examples/s]

INFO:distilabel:Dry-run executed with no issues. Starting the actual generation...
INFO:distilabel:Processing batch 1 of 6...
INFO:distilabel:Calling generator for batch 1...
INFO:distilabel:Processing batch 2 of 6...
INFO:distilabel:Calling generator for batch 2...
INFO:distilabel:Processing batch 3 of 6...
INFO:distilabel:Calling generator for batch 3...
INFO:distilabel:Processing batch 4 of 6...
INFO:distilabel:Calling generator for batch 4...
INFO:distilabel:Processing batch 5 of 6...
INFO:distilabel:Calling generator for batch 5...
INFO:distilabel:Processing batch 6 of 6...
INFO:distilabel:Calling generator for batch 6...


Flattening the indices:   0%|          | 0/24 [00:00<?, ? examples/s]

Saving the dataset (0/1 shards):   0%|          | 0/24 [00:00<?, ? examples/s]

INFO:distilabel:Checkpoint saved to disk: /content/ckpt.
INFO:distilabel:Final dataset saved at /content/ckpt


In [20]:
distiset.to_pandas().generation_prompt.head(5)

Unnamed: 0,input,generation_model,generation_prompt,raw_generation_responses,instructions
0,Matemáticas,"[mistralai/Mixtral-8x7B-Instruct-v0.1, mistral...",[<s>[INST] <<SYS>>\nYou are an expert prompt w...,[ 1. ¿Podrías explicarme cómo simplificar una ...,[[¿Podrías explicarme cómo simplificar una fra...
1,Física,"[mistralai/Mixtral-8x7B-Instruct-v0.1, mistral...",[<s>[INST] <<SYS>>\nYou are an expert prompt w...,[ 1. ¿Podrías explicar en términos sencillos q...,[[¿Podrías explicar en términos sencillos qué ...
2,Química,"[mistralai/Mixtral-8x7B-Instruct-v0.1, mistral...",[<s>[INST] <<SYS>>\nYou are an expert prompt w...,[ 1. ¿Podrías explicarme brevemente qué es la ...,[[¿Podrías explicarme brevemente qué es la quí...
3,Biología,"[mistralai/Mixtral-8x7B-Instruct-v0.1, mistral...",[<s>[INST] <<SYS>>\nYou are an expert prompt w...,[ 1. ¿Podrías explicarme brevemente qué es la ...,[[¿Podrías explicarme brevemente qué es la fot...
4,Informática,"[mistralai/Mixtral-8x7B-Instruct-v0.1, mistral...",[<s>[INST] <<SYS>>\nYou are an expert prompt w...,[ 1. ¿Podrías explicarme cómo mejorar la redac...,[[¿Podrías explicarme cómo mejorar la redacció...


### Inspeccionar el dataset en argilla

A continuación vamos a crear un espacio en argilla para poder inspeccionar las instrucciones generadas en nuestra pipeline. Podemos crear una instancia de argilla como un espacio de HuggingFace. A continuación se ofrece un ejemplo para hacerlo utilizando la librería de `huggingface_hub`.

In [21]:
rg_distiset = distiset.to_argilla(vector_strategy=False, metric_strategy=False)

In [23]:
from huggingface_hub import duplicate_space

# Crea un HF Space de argilla programáticamente
from_id = "argilla/argilla-template-space"
# Recuerda actualizar esta variable con el nombre del dataset
dataset_name = "lenguaje-claro-admon"
to_id = f"{dataset_name}-distiset"
new_space = duplicate_space(from_id, to_id=to_id)
new_space

RepoUrl('https://huggingface.co/spaces/rdlf/lenguaje-claro-admon-distiset', endpoint='https://huggingface.co', repo_type='space', repo_id='rdlf/lenguaje-claro-admon-distiset')

Esto puede llevar unos minutos, puedes visitar el espacio accediendo a `new_space.url`. Una vez que esté listo, el usuario para acceder y contraseña son los que vienen por defecto

- usuario: `argilla`
- contraseña: `12345678`

A continuación nos conectamos a nuestra instancia para poder subir el dataset:

In [24]:
import argilla as rg

argilla_api_key = "admin.apikey"
argilla_space_url = f"https://{new_space.namespace}-{to_id}.hf.space"

workspace = "admin"

rg.init(
    api_key=argilla_api_key,
    api_url=argilla_space_url,
    workspace=workspace
)

Y estamos listos para subir nuestro dataset con las instrucciones para revisarlas antes de avanzar al siguiente paso. Para ello transformamos nuestro dataset al formato necesario de argilla utilizando `to_argilla`, y subimos el dataset a la instancia de argilla utilizando `push_to_argilla`.

In [25]:
rg_distiset = distiset.to_argilla(vector_strategy=False, metric_strategy=False)

In [26]:
rg_distiset.push_to_argilla(name="instrucciones-distiset", workspace=workspace)

Output()

INFO:argilla.client.feedback.dataset.local.mixins:✓ Dataset succesfully pushed to Argilla
INFO:argilla.client.feedback.dataset.local.mixins:RemoteFeedbackDataset(
   id=2ef34f7b-b0ee-409f-a245-402b5381bc6d
   name=instrucciones-distiset
   workspace=Workspace(id=168500c1-f55d-4def-86be-92ef92dbe6f0, name=admin, inserted_at=2024-03-16 20:02:55.934815, updated_at=2024-03-16 20:02:55.934815)
   url=https://rdlf-lenguaje-claro-admon-distiset.hf.space/dataset/2ef34f7b-b0ee-409f-a245-402b5381bc6d/annotation-mode
   fields=[RemoteTextField(id=UUID('39bc0b9d-e957-4712-ae21-14408050b4cf'), client=None, name='input', title='input', required=True, type='text', use_markdown=True), RemoteTextField(id=UUID('01aeda7c-f07d-452a-becc-220245717951'), client=None, name='instructions', title='instructions', required=True, type='text', use_markdown=False)]
   questions=[RemoteRatingQuestion(id=UUID('a1b5ac11-e9be-41a8-9ac0-82ee26019904'), client=None, name='instruction-rating', title='How would you rate th

RemoteFeedbackDataset(
   id=2ef34f7b-b0ee-409f-a245-402b5381bc6d
   name=instrucciones-distiset
   workspace=Workspace(id=168500c1-f55d-4def-86be-92ef92dbe6f0, name=admin, inserted_at=2024-03-16 20:02:55.934815, updated_at=2024-03-16 20:02:55.934815)
   url=https://rdlf-lenguaje-claro-admon-distiset.hf.space/dataset/2ef34f7b-b0ee-409f-a245-402b5381bc6d/annotation-mode
   fields=[RemoteTextField(id=UUID('39bc0b9d-e957-4712-ae21-14408050b4cf'), client=None, name='input', title='input', required=True, type='text', use_markdown=True), RemoteTextField(id=UUID('01aeda7c-f07d-452a-becc-220245717951'), client=None, name='instructions', title='instructions', required=True, type='text', use_markdown=False)]
   questions=[RemoteRatingQuestion(id=UUID('a1b5ac11-e9be-41a8-9ac0-82ee26019904'), client=None, name='instruction-rating', title='How would you rate the generated instruction?', description=None, required=True, type='rating', values=[1, 2, 3, 4, 5, 6, 7, 8, 9, 10])]
   guidelines=None
   me

### Transformar a un dataset para generación de respuestas

A continuación vamos a transformar nuestro dataset con instrucciones al formato esperado por `distilabel` para la generación, extrayendo todas las instrucciones anidadas, y poniendo la columna "input".

In [27]:
rows = []
from datasets import Dataset

generations = []
for row in distiset:
    for instructions in row["instructions"]:
        for generation in instructions:
            generations.append(generation)

generation_dataset = Dataset.from_dict({"input": generations})

In [28]:
generation_dataset

Dataset({
    features: ['input'],
    num_rows: 18000
})

# Generación de respuestas con HF Inference endpoints

En esta sección vamos a utilizar el dataset previo `generation_dataset` para generar conjuntos de instrucciones y problemas sintéticos para poder poder ajustar nuestro propio modelo utilizando Supervised Fine Tuning (SFT):

Vamos a crear una tarea genérica para generación de texto, reutilizando la misma descripción que pasamos a nuestra tarea previa a modo de *system_prompt*, para guiar al modelo:

In [29]:
text_generation_task = TextGenerationTask(system_prompt=application_description)
text_generation_task

TextGenerationTask(system_prompt='An AI assistant specialized in plain language in Spanish.Users of this assistant will submit texts to be assessed and have corrections to make them more readable and understandable.Highly important!! You can only generate text in SPANISH', principles_distribution=None)

La forma de llamar a nuestra `pipeline` va a ser muy similar en este caso, tendremos una nueva `Task`, y dado que los problemas pueden requerir mayor cantidad de texto, vamos a modificar `max_new_tokens` a 1024.

In [None]:
llm = InferenceEndpointsLLM(
    endpoint_name_or_model_id=ENDPOINT_NAME,
    task=text_generation_task,
    token=hf_token,
    prompt_format="llama2",
    max_new_tokens=1024,
    num_threads=4
)

pipeline = Pipeline(generator=llm)
distiset_generations = pipeline.generate(
    dataset=generation_dataset,
    num_generations=1,
    batch_size=8,
)

Igual que hicimos con nuestras instrucciones, vamos a subir ahora nuestro dataset junto con las respuestas generadas para ver lo que ha generado nuestro modelo.

In [None]:
rg_distiset_generations = distiset_generations.to_argilla(vector_strategy=False, metric_strategy=False)

In [None]:
rg_distiset_generations.push_to_argilla(name="sciency-distiset", workspace=workspace)

# Push al hub

Una vez esté el dataset listo, súbelo a la organización de [SomosNLP](https://huggingface.co/organizations/somosnlp/share/qgytUhPKvxVxsbZWTzVUAUSUnZmVXNPmjc) del hub de Hugging Face. ¡Este paso es imprescindible para participar en el hackathon!