# Creating a Response Dataset using Argilla Distilabel and Hugging Face Spaces

This notebook walks through the process of collecting translated prompts from one or many completed or in progress [MPEP datasets](https://huggingface.co/datasets?sort=trending&search=mpep), querying a configurable jury of open source LLM models, collecting their responses, synthesizing data using [Distilabel](https://distilabel.argilla.io/latest/)

In [2]:
# Import required libraries

from datasets import Dataset, DatasetDict, load_dataset
from dotenv import load_dotenv
from huggingface_hub import HfApi, HfFolder, login
# import markdown
import os
import pandas as pd
import json
# import requests
# import subprocess
# import transformers

# Need to pip install the below

from distilabel.llms import InferenceEndpointsLLM
from distilabel.pipeline import Pipeline
from distilabel.steps import LoadDataFromHub
from distilabel.steps.tasks import TextGeneration
from distilabel.steps import LoadDataFromDicts

  from .autonotebook import tqdm as notebook_tqdm


In [3]:
# HF Login

load_dotenv()

hf_token = os.getenv('HF_TOKEN')
HfFolder.save_token(hf_token)

if hf_token is None:
    raise ValueError("HF_TOKEN environment variable not set.")

login(token=hf_token)

The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: write).
Your token has been saved to /Users/kenneth.hamilton/.cache/huggingface/token
Login successful


In [6]:
# Collect and print MPEP datasets
api = HfApi()

def search_datasets_by_label(label):
    datasets = api.list_datasets(search=label)
    return list(datasets)  # Convert generator to list

mpep_datasets = search_datasets_by_label('MPEP')

# Print the datasets found
print(f"Found {len(mpep_datasets)} MPEP datasets")

Found 11 MPEP datasets


In [7]:
# Directories to save responses and cache
os.makedirs('./responses', exist_ok=True)
os.makedirs('./id_cache', exist_ok=True)

# Load existing cache files
processed_external_ids = {}
for cache_file in os.listdir('./cache'):
    if cache_file.endswith('.txt'):
        language = cache_file.replace('.txt', '')
        with open(f'./id_cache/{cache_file}', 'r') as f:
            processed_external_ids[language] = set(f.read().splitlines())

# Load models configuration
with open('models.json', 'r') as f:
    models_config = json.load(f)

In [9]:
for dataset in mpep_datasets:
    print(f"Processing dataset: {dataset.id}")

    dataset_loc = load_dataset(dataset.id, split="train")

    def get_values(prompt):
        prompt["target"] = " ".join([d["value"] for d in prompt["target"]])
        return prompt

    ds = dataset_loc.map(get_values)
    
    if len(ds) < 500:
        print(f"Skipping dataset {dataset.id} as it has less than 500 prompts.")
        continue

    target_entries = ds['target'][:5]
    external_ids = ds['external_id'][:5]

    language = dataset.id.split('_')[-1].lower()

    if language not in processed_external_ids:
        processed_external_ids[language] = set()

    response_path = f'./responses/{language}.md'
    os.makedirs(os.path.dirname(response_path), exist_ok=True)

    all_responses = []

    with open(response_path, 'w') as file:
        for model_config in models_config['models']:
            model_endpoint = model_config['endpoint_name']
            generation_params = model_config['params']

            print(f"Using model: {model_endpoint} with params: {generation_params}")

            with Pipeline(name='mpe_pipeline', cache_dir="./.cache") as pipeline:
                load_dataset_step = LoadDataFromDicts(
                    name='load_dataset',
                    data=ds,
                    output_mappings={'target': 'instruction'},
                )

                text_generation_step = TextGeneration(
                    name="text_generation",
                    llm=InferenceEndpointsLLM(
                        model_id="meta-llama/Meta-Llama-3-8B-Instruct",
                        api_key=os.getenv("HF_TOKEN"),
                        generation_kwargs={"temperature": 0.6, "max_new_tokens": 256},
                    ),
                input_mappings={"instruction": "instruction"},
                output_mappings={"generation": "response"},
                input_batch_size=5,
                )

                load_dataset_step >> text_generation_step

                distiset = pipeline.run()
                print(f"Pipeline run completed!")
                
                for entry in target_entries:
                    # Print entry to check its structure
                    print(f"Entry: {entry}")
                    
                    # Ensure entry is a dictionary
                    if isinstance(entry, dict) and 'source' in entry:
                        prompt = entry['source']
                        response_text = pipeline.execute({'prompt': prompt})['response']
                        file.write(f"### Prompt:\n{prompt}\n\n### Response:\n{response_text}\n\n")
                        file.flush()
                    else:
                        print(f"Skipping invalid entry: {entry}")

    cache_path = f'./id_cache/{language}.txt'
    os.makedirs(os.path.dirname(cache_path), exist_ok=True)
    
    with open(cache_path, 'w') as f:
        f.write('\n'.join(processed_external_ids[language]))

    response_dataset = Dataset.from_pandas(pd.DataFrame(all_responses))
    dataset_name = f"mpe_{language}_jury_responses"
    response_dataset.push_to_hub(dataset_name, split="train")

Processing dataset: DIBT/MPEP_GERMAN
Skipping dataset DIBT/MPEP_GERMAN as it has less than 500 prompts.
Processing dataset: DIBT/MPEP_DUTCH
Using model: google/gemma-2-27b-it with params: {'temperature': 0.7, 'max_new_tokens': 512}


  return [self.format_input(input) for input in inputs]


Generating train split: 500 examples [00:00, 24604.06 examples/s]

Pipeline run completed!
Entry: Als een AI-enthousiasteling, houd je ervan om programma's te maken die de menselijke taal begrijpen. Je nieuwste project is een programma dat woorden kan herkennen en vervangen door hun antoniemen in een stuk tekst.
Om de effectiviteit van je programma aan te tonen, besluit je het te testen op een nieuwsartikel over een recent politiek evenement. Om het uitdagender te maken, wil je ook dat je programma onderscheid maakt tussen homoniemen, en daarnaast contextuele aanwijzingen gebruikt woorden correct te vervangen.
Hier is een stapsgewijze uitleg van hoe je programma werkt:
1. Het programma leest de inputtekst en identificeert alle woorden die antoniemen hebben.
2. Voor elk van deze woorden identificeert het programma de context waarin het verschijnt om het juiste antoniem te bepalen.
3. Het programma vervangt vervolgens het originele woord door zijn antoniem in de tekst.
4. Als het originele woord meerdere betekenissen heeft, gebruikt het programma de con




Pipeline run completed!
Entry: Als een AI-enthousiasteling, houd je ervan om programma's te maken die de menselijke taal begrijpen. Je nieuwste project is een programma dat woorden kan herkennen en vervangen door hun antoniemen in een stuk tekst.
Om de effectiviteit van je programma aan te tonen, besluit je het te testen op een nieuwsartikel over een recent politiek evenement. Om het uitdagender te maken, wil je ook dat je programma onderscheid maakt tussen homoniemen, en daarnaast contextuele aanwijzingen gebruikt woorden correct te vervangen.
Hier is een stapsgewijze uitleg van hoe je programma werkt:
1. Het programma leest de inputtekst en identificeert alle woorden die antoniemen hebben.
2. Voor elk van deze woorden identificeert het programma de context waarin het verschijnt om het juiste antoniem te bepalen.
3. Het programma vervangt vervolgens het originele woord door zijn antoniem in de tekst.
4. Als het originele woord meerdere betekenissen heeft, gebruikt het programma de con

Pipeline run completed!
Entry: Als een AI-enthousiasteling, houd je ervan om programma's te maken die de menselijke taal begrijpen. Je nieuwste project is een programma dat woorden kan herkennen en vervangen door hun antoniemen in een stuk tekst.
Om de effectiviteit van je programma aan te tonen, besluit je het te testen op een nieuwsartikel over een recent politiek evenement. Om het uitdagender te maken, wil je ook dat je programma onderscheid maakt tussen homoniemen, en daarnaast contextuele aanwijzingen gebruikt woorden correct te vervangen.
Hier is een stapsgewijze uitleg van hoe je programma werkt:
1. Het programma leest de inputtekst en identificeert alle woorden die antoniemen hebben.
2. Voor elk van deze woorden identificeert het programma de context waarin het verschijnt om het juiste antoniem te bepalen.
3. Het programma vervangt vervolgens het originele woord door zijn antoniem in de tekst.
4. Als het originele woord meerdere betekenissen heeft, gebruikt het programma de con

Pipeline run completed!
Entry: Als een AI-enthousiasteling, houd je ervan om programma's te maken die de menselijke taal begrijpen. Je nieuwste project is een programma dat woorden kan herkennen en vervangen door hun antoniemen in een stuk tekst.
Om de effectiviteit van je programma aan te tonen, besluit je het te testen op een nieuwsartikel over een recent politiek evenement. Om het uitdagender te maken, wil je ook dat je programma onderscheid maakt tussen homoniemen, en daarnaast contextuele aanwijzingen gebruikt woorden correct te vervangen.
Hier is een stapsgewijze uitleg van hoe je programma werkt:
1. Het programma leest de inputtekst en identificeert alle woorden die antoniemen hebben.
2. Voor elk van deze woorden identificeert het programma de context waarin het verschijnt om het juiste antoniem te bepalen.
3. Het programma vervangt vervolgens het originele woord door zijn antoniem in de tekst.
4. Als het originele woord meerdere betekenissen heeft, gebruikt het programma de con

Creating parquet from Arrow format: 0ba [00:00, ?ba/s]:00<?, ?it/s]
Uploading the dataset shards: 100%|██████████| 1/1 [00:00<00:00,  2.81it/s]


Processing dataset: DIBT/MPEP_SPANISH
Skipping dataset DIBT/MPEP_SPANISH as it has less than 500 prompts.
Processing dataset: DIBT/MPEP_MALAGASY


Downloading readme: 100%|██████████| 23.5k/23.5k [00:00<00:00, 2.38MB/s]
Downloading data: 100%|██████████| 26.6k/26.6k [00:00<00:00, 59.0kB/s]
Generating train split: 26 examples [00:00, 12790.51 examples/s]
Map: 100%|██████████| 26/26 [00:00<00:00, 3598.72 examples/s]


Skipping dataset DIBT/MPEP_MALAGASY as it has less than 500 prompts.
Processing dataset: DIBT/MPEP_SWAHILI
Skipping dataset DIBT/MPEP_SWAHILI as it has less than 500 prompts.
Processing dataset: DIBT/MPEP_FILIPINO
Skipping dataset DIBT/MPEP_FILIPINO as it has less than 500 prompts.
Processing dataset: DIBT/MPEP_ARABIC
Skipping dataset DIBT/MPEP_ARABIC as it has less than 500 prompts.
Processing dataset: DIBT/MPEP_CZECH
Skipping dataset DIBT/MPEP_CZECH as it has less than 500 prompts.
Processing dataset: DIBT/MPEP_HUNGARIAN
Skipping dataset DIBT/MPEP_HUNGARIAN as it has less than 500 prompts.
Processing dataset: DIBT/MPEP_RUSSIAN
Using model: google/gemma-2-27b-it with params: {'temperature': 0.7, 'max_new_tokens': 512}


  return [self.format_input(input) for input in inputs]


Generating train split: 501 examples [00:00, 25221.40 examples/s]

Pipeline run completed!
Entry: Учитывая текст: Опытный и энтузиастичный новатор... вы хотите в своей команде. Маргарет Хайнс является основателем и главным консультантом Inspire Marketing, LLC, инвестирующей в местные предприятия, обслуживающей сообщество бизнес-брокером и маркетинговым консультированием. Она имеет степень бакалавра в Вашингтонском университете в Сент-Луисе, штат Москва, и MBA из Университета Висконсинка-Милваки. Маргарет предлагает консультации в области маркетинга, продаж бизнеса и поворотов и франчайзинга. В тексте указано: Опытный и увлеченный новатор...вы хотите, чтобы он был в вашей команде.

Маргарет Хайнс - основатель и главный консультант Inspire Marketing, LLC, инвестирующая в местные предприятия, предоставляющая обществу услуги бизнес-брокера и маркетингового консалтинга. Она получила степень бакалавра в Вашингтонском университете в Сент-Луисе, штат Миссури, и степень магистра делового администрирования в Университете Висконсин-Милуоки.

Маргарет занимается 




Pipeline run completed!
Entry: Учитывая текст: Опытный и энтузиастичный новатор... вы хотите в своей команде. Маргарет Хайнс является основателем и главным консультантом Inspire Marketing, LLC, инвестирующей в местные предприятия, обслуживающей сообщество бизнес-брокером и маркетинговым консультированием. Она имеет степень бакалавра в Вашингтонском университете в Сент-Луисе, штат Москва, и MBA из Университета Висконсинка-Милваки. Маргарет предлагает консультации в области маркетинга, продаж бизнеса и поворотов и франчайзинга. В тексте указано: Опытный и увлеченный новатор...вы хотите, чтобы он был в вашей команде.

Маргарет Хайнс - основатель и главный консультант Inspire Marketing, LLC, инвестирующая в местные предприятия, предоставляющая обществу услуги бизнес-брокера и маркетингового консалтинга. Она получила степень бакалавра в Вашингтонском университете в Сент-Луисе, штат Миссури, и степень магистра делового администрирования в Университете Висконсин-Милуоки.

Маргарет занимается 

Pipeline run completed!
Entry: Учитывая текст: Опытный и энтузиастичный новатор... вы хотите в своей команде. Маргарет Хайнс является основателем и главным консультантом Inspire Marketing, LLC, инвестирующей в местные предприятия, обслуживающей сообщество бизнес-брокером и маркетинговым консультированием. Она имеет степень бакалавра в Вашингтонском университете в Сент-Луисе, штат Москва, и MBA из Университета Висконсинка-Милваки. Маргарет предлагает консультации в области маркетинга, продаж бизнеса и поворотов и франчайзинга. В тексте указано: Опытный и увлеченный новатор...вы хотите, чтобы он был в вашей команде.

Маргарет Хайнс - основатель и главный консультант Inspire Marketing, LLC, инвестирующая в местные предприятия, предоставляющая обществу услуги бизнес-брокера и маркетингового консалтинга. Она получила степень бакалавра в Вашингтонском университете в Сент-Луисе, штат Миссури, и степень магистра делового администрирования в Университете Висконсин-Милуоки.

Маргарет занимается 

Pipeline run completed!
Entry: Учитывая текст: Опытный и энтузиастичный новатор... вы хотите в своей команде. Маргарет Хайнс является основателем и главным консультантом Inspire Marketing, LLC, инвестирующей в местные предприятия, обслуживающей сообщество бизнес-брокером и маркетинговым консультированием. Она имеет степень бакалавра в Вашингтонском университете в Сент-Луисе, штат Москва, и MBA из Университета Висконсинка-Милваки. Маргарет предлагает консультации в области маркетинга, продаж бизнеса и поворотов и франчайзинга. В тексте указано: Опытный и увлеченный новатор...вы хотите, чтобы он был в вашей команде.

Маргарет Хайнс - основатель и главный консультант Inspire Marketing, LLC, инвестирующая в местные предприятия, предоставляющая обществу услуги бизнес-брокера и маркетингового консалтинга. Она получила степень бакалавра в Вашингтонском университете в Сент-Луисе, штат Миссури, и степень магистра делового администрирования в Университете Висконсин-Милуоки.

Маргарет занимается 

Creating parquet from Arrow format: 0ba [00:00, ?ba/s]:00<?, ?it/s]
Uploading the dataset shards: 100%|██████████| 1/1 [00:00<00:00,  2.75it/s]


Processing dataset: DIBT/MPEP_GREEK
Using model: google/gemma-2-27b-it with params: {'temperature': 0.7, 'max_new_tokens': 512}


  return [self.format_input(input) for input in inputs]


Generating train split: 501 examples [00:00, 23738.13 examples/s]

Pipeline run completed!
Entry: Βάσει του κειμένου: Μία έμπειρη και ενθουσιώδης καινοτόμος... που θέλετε στην ομάδα σας.
Η Margaret Hines είναι η ιδρύτρια και η κύρια σύμβουλος της Inspire Marketing, LLC, έχοντας επενδύσει σε τοπικές επιχειρήσεις, εξυπηρετώντας την κοινότητα μέσω επιχειρηματικής μεσιτείας και συμβουλών μάρκετινγκ. Έχει πτυχίο από το Πανεπιστήμιο της Ουάσιγκτον στο St. Louis, MO, και MBA από το Πανεπιστήμιο του Wisconsin-Milwaukee.
Η Margaret προσφέρει συμβουλές σε θέματα μάρκετινγκ, επιχειρηματικών πωλήσεων και ανακατασκευών και franchising. Είναι επίσης επενδύτρια σε τοπικές επιχειρήσεις.
Πριν από την ίδρυση της Inspire Marketing το 2003, η Margaret απέκτησε την επιχειρηματική της οξυδέρκεια, και την τεχνογνωσία της στις πωλήσεις και το μάρκετινγκ όσο εργαζόταν σε αναγνωρισμένες εταιρείες του Fortune 1000.
Συνόψισε το ιστορικό και την τεχνογνωσία της Margaret Hines, της ιδρύτριας του Inspire Marketing.
Skipping invalid entry: Βάσει του κειμένου: Μία έμπειρη και ενθουσι




Pipeline run completed!
Entry: Βάσει του κειμένου: Μία έμπειρη και ενθουσιώδης καινοτόμος... που θέλετε στην ομάδα σας.
Η Margaret Hines είναι η ιδρύτρια και η κύρια σύμβουλος της Inspire Marketing, LLC, έχοντας επενδύσει σε τοπικές επιχειρήσεις, εξυπηρετώντας την κοινότητα μέσω επιχειρηματικής μεσιτείας και συμβουλών μάρκετινγκ. Έχει πτυχίο από το Πανεπιστήμιο της Ουάσιγκτον στο St. Louis, MO, και MBA από το Πανεπιστήμιο του Wisconsin-Milwaukee.
Η Margaret προσφέρει συμβουλές σε θέματα μάρκετινγκ, επιχειρηματικών πωλήσεων και ανακατασκευών και franchising. Είναι επίσης επενδύτρια σε τοπικές επιχειρήσεις.
Πριν από την ίδρυση της Inspire Marketing το 2003, η Margaret απέκτησε την επιχειρηματική της οξυδέρκεια, και την τεχνογνωσία της στις πωλήσεις και το μάρκετινγκ όσο εργαζόταν σε αναγνωρισμένες εταιρείες του Fortune 1000.
Συνόψισε το ιστορικό και την τεχνογνωσία της Margaret Hines, της ιδρύτριας του Inspire Marketing.
Skipping invalid entry: Βάσει του κειμένου: Μία έμπειρη και ενθουσι

Pipeline run completed!
Entry: Βάσει του κειμένου: Μία έμπειρη και ενθουσιώδης καινοτόμος... που θέλετε στην ομάδα σας.
Η Margaret Hines είναι η ιδρύτρια και η κύρια σύμβουλος της Inspire Marketing, LLC, έχοντας επενδύσει σε τοπικές επιχειρήσεις, εξυπηρετώντας την κοινότητα μέσω επιχειρηματικής μεσιτείας και συμβουλών μάρκετινγκ. Έχει πτυχίο από το Πανεπιστήμιο της Ουάσιγκτον στο St. Louis, MO, και MBA από το Πανεπιστήμιο του Wisconsin-Milwaukee.
Η Margaret προσφέρει συμβουλές σε θέματα μάρκετινγκ, επιχειρηματικών πωλήσεων και ανακατασκευών και franchising. Είναι επίσης επενδύτρια σε τοπικές επιχειρήσεις.
Πριν από την ίδρυση της Inspire Marketing το 2003, η Margaret απέκτησε την επιχειρηματική της οξυδέρκεια, και την τεχνογνωσία της στις πωλήσεις και το μάρκετινγκ όσο εργαζόταν σε αναγνωρισμένες εταιρείες του Fortune 1000.
Συνόψισε το ιστορικό και την τεχνογνωσία της Margaret Hines, της ιδρύτριας του Inspire Marketing.
Skipping invalid entry: Βάσει του κειμένου: Μία έμπειρη και ενθουσι

Pipeline run completed!
Entry: Βάσει του κειμένου: Μία έμπειρη και ενθουσιώδης καινοτόμος... που θέλετε στην ομάδα σας.
Η Margaret Hines είναι η ιδρύτρια και η κύρια σύμβουλος της Inspire Marketing, LLC, έχοντας επενδύσει σε τοπικές επιχειρήσεις, εξυπηρετώντας την κοινότητα μέσω επιχειρηματικής μεσιτείας και συμβουλών μάρκετινγκ. Έχει πτυχίο από το Πανεπιστήμιο της Ουάσιγκτον στο St. Louis, MO, και MBA από το Πανεπιστήμιο του Wisconsin-Milwaukee.
Η Margaret προσφέρει συμβουλές σε θέματα μάρκετινγκ, επιχειρηματικών πωλήσεων και ανακατασκευών και franchising. Είναι επίσης επενδύτρια σε τοπικές επιχειρήσεις.
Πριν από την ίδρυση της Inspire Marketing το 2003, η Margaret απέκτησε την επιχειρηματική της οξυδέρκεια, και την τεχνογνωσία της στις πωλήσεις και το μάρκετινγκ όσο εργαζόταν σε αναγνωρισμένες εταιρείες του Fortune 1000.
Συνόψισε το ιστορικό και την τεχνογνωσία της Margaret Hines, της ιδρύτριας του Inspire Marketing.
Skipping invalid entry: Βάσει του κειμένου: Μία έμπειρη και ενθουσι