# Install Dependencies

In [None]:
!pip install datasets

# Load Dataset

In [None]:
from datasets import load_dataset

# Load the main dataset
dataset = load_dataset("rcds/swiss_law_area_prediction")

# Create and format Dataset

In [None]:
import random

# Define the instruction mapping for different languages
instruction_mapping = {
    "de": [
        "Schreibe einen Bundesgerichtsentscheid anhand des folgenden Sachverhalts",
        "Verfasse einen Bundesgerichtsentscheid basierend auf den folgenden Fakten",
        "Erstelle einen Entscheid des Bundesgerichts auf Grundlage der folgenden Sachlage",
    ],
    "fr": [
        "Rédige une décision du Tribunal fédéral sur la base des faits suivants",
        "Écris un arrêt du Tribunal fédéral en te basant sur les faits suivants",
        "Compose une décision du Tribunal fédéral en fonction des faits ci-dessous",
        "Écrire un arrêt du Tribunal fédéral en se basant sur les faits suivants",
    ],
    "it": [
        "Scrivi una decisione del Tribunale federale sulla base dei seguenti fatti",
        "Redigi una sentenza del Tribunale federale in base ai fatti seguenti",
        "Stila un provvedimento del Tribunale federale tenendo conto dei seguenti elementi",
    ],
}

# Create a function to format the dataset
def format_dataset(dataset):
    new_dataset = []
    for entry in dataset:
        instruction = random.choice(instruction_mapping[entry["language"]])
        new_entry = {
            "instruction": instruction,
            "input": entry["facts"],
            "output": entry["considerations"],
        }
        new_dataset.append(new_entry)
    return new_dataset

# Format the dataset
formatted_dataset = {}
for split in dataset.keys():
    formatted_dataset[split] = format_dataset(dataset[split])

# Preview Data

In [None]:
from pprint import pprint

# Display an excerpt of the dataset
pprint(formatted_dataset["train"][:5])  # Adjust the number of samples to display if needed


[{'input': 'Sachverhalt:\n'
           'A.\n'
           'A._, geboren 1954, war ab November 2002 als Pflegehilfe im '
           'Altersheim C._ angestellt. Am 23. Dezember 2002 meldete sie sich '
           'erstmals unter Hinweis auf Depressionen bei der '
           'Invalidenversicherung zum Leistungsbezug an. Mit Verfügung vom 5. '
           'Februar 2003 verneinte die IV-Stelle des Kantons Zürich einen '
           'Rentenanspruch. Im Januar 2011 meldete sich A._ erneut zum '
           'Leistungsbezug an. Die IV-Stelle holte verschiedene medizinische '
           'Einschätzungen ein, führte eine Haushaltsabklärung durch und '
           'auferlegte ihr mit Schreiben vom 4. Januar 2012 Massnahmen im '
           'Rahmen der Schadenminderungspflicht. Am 30. Juli 2012 sprach die '
           'IV-Stelle ab 1. August 2011 eine halbe Invalidenrente zu. Im '
           'Rahmen einer im Februar 2013 eingeleiteten Rentenrevision '
           'bestätigte die IV-Stelle am 25. Juni 2013 d

# Save Data

In [None]:
import json

# Save the dataset in the JSON format
with open("formatted_dataset.json", "w") as json_file:
    json.dump(formatted_dataset, json_file)