# German Dataset Generation

### Helper Functions

#### Function to create a random date:

In [None]:
import random
from datetime import datetime, timedelta

# Month names in English and German
MONTH_NAMES = {
    'en': ['January', 'February', 'March', 'April', 'May', 'June', 'July', 'August', 'September', 'October', 'November', 'December'],
    'de': ['Januar', 'Februar', 'März', 'April', 'Mai', 'Juni', 'Juli', 'August', 'September', 'Oktober', 'November', 'Dezember']
}

def generate_random_date(min_year=2022, max_year=2026, use_month_name=False, language="de"):
    # Generate random date
    start_date = datetime(min_year, 1, 1)
    end_date = datetime(max_year, 12, 31)
    time_between_dates = end_date - start_date
    days_between_dates = time_between_dates.days
    random_number_of_days = random.randrange(days_between_dates)
    random_date = start_date + timedelta(days=random_number_of_days)

    # Format the first date string
    if use_month_name:
        day = random_date.day
        month = random_date.month
        year = random_date.year
        month_name = MONTH_NAMES[language][month - 1]
        formatted_date_1 = f"{day:02d}. {month_name} {year}"
    else:
        formatted_date_1 = random_date.strftime("%d.%m.%Y")

    # Format the second date string (YYYY-MM-DD in quotes)
    formatted_date_2 = f'"{random_date.strftime("%Y-%m-%d")}"'

    return formatted_date_1, formatted_date_2

# Example usage
print("Default usage:")
date_1, date_2 = generate_random_date()
print(f"Random date in DD.MM.YYYY format: {date_1}")
print(f"Same date in YYYY-MM-DD format: {date_2}")

print("\nUsing month name in German:")
date_1, date_2 = generate_random_date(use_month_name=True)
print(f"Random date with German month name: {date_1}")
print(f"Same date in YYYY-MM-DD format: {date_2}")

print("\nUsing month name in English:")
date_1, date_2 = generate_random_date(use_month_name=True, language="en")
print(f"Random date with English month name: {date_1}")
print(f"Same date in YYYY-MM-DD format: {date_2}")

Default usage:
Random date in DD.MM.YYYY format: 06.02.2024
Same date in YYYY-MM-DD format: "2024-02-06"

Using month name in German:
Random date with German month name: 19. März 2025
Same date in YYYY-MM-DD format: "2025-03-19"

Using month name in English:
Random date with English month name: 03. March 2025
Same date in YYYY-MM-DD format: "2025-03-03"


#### Function to generate a random time

In [None]:
import random

def generate_random_time(leading_zero=False, has_minutes=True):
    # Generate a random hour (0-23)
    hour = random.randint(0, 23)

    # Generate a random minute (0 or 5 only at the end)
    if has_minutes:
      minute = random.randint(0, 11) * 5
    else:
      minute = 0

    # Format the time as HH:MM
    if has_minutes:
      if leading_zero:
        formatted_time_1 = f"{hour:02d}:{minute:02d}"
      else:
        formatted_time_1 = f"{hour:01d}:{minute:02d}"
    else:
      formatted_time_1 = f"{hour:01d}"

    formatted_time_2 = "\"" + f"{hour:02d}:{minute:02d}" + "\""

    return formatted_time_1, formatted_time_2

# Generate and print a random time
random_time = generate_random_time()
print(f"Random time: {random_time}")

# Optional: Generate multiple random times
num_times = 5
print(f"\nGenerating {num_times} random times:")
for _ in range(num_times):
    print(generate_random_time(True, False))

Random time: ('18:15', '"18:15"')

Generating 5 random times:
('1', '"01:00"')
('22', '"22:00"')
('8', '"08:00"')
('13', '"13:00"')
('23', '"23:00"')


#### Function to create a random duration

In [None]:
def generate_random_duration(only_minutes=False, decimal_hours=False, language="de"):
    # Generate the duration
    if only_minutes:
        duration = random.randint(1, 33) * 5
    else:
        duration = random.randint(1, 3) * 60
        if decimal_hours:
            duration += 30

    # Format the duration string
    if language == "de":
        if only_minutes:
            formatted_string = f"{duration} Minuten"
        elif decimal_hours:
            formatted_string = f"{duration / 60:.1f} Stunden".replace('.', ',')
        else:
            hours = duration // 60
            formatted_string = "1 Stunde" if hours == 1 else f"{hours} Stunden"
    else:  # English
        if only_minutes:
            formatted_string = f"{duration} minutes"
        elif decimal_hours:
            formatted_string = f"{duration / 60:.1f} hours"
        else:
            hours = duration // 60
            formatted_string = "1 hour" if hours == 1 else f"{hours} hours"

    return formatted_string, duration

# Example usage
print(generate_random_duration(only_minutes=True, language="de"))
print(generate_random_duration(only_minutes=True, language="en"))
print(generate_random_duration(decimal_hours=True, language="de"))
print(generate_random_duration(decimal_hours=True, language="en"))
print(generate_random_duration(language="de"))
print(generate_random_duration(language="en"))

('65 Minuten', 65)
('40 minutes', 40)
('1,5 Stunden', 90)
('1.5 hours', 90)
('1 Stunde', 60)
('2 hours', 120)


### Data Generation for "Create Calendar Entry" Function

Each function call contains activity, date, time and duration. In some cases activities are combined with the duration, e.g. "einstündiges Teammeeting".

#### Hand-crafted command templates

In [None]:
command_templates = [
    "Erstelle einen neuen Kalendereintrag für {activity} am {date} um {time} Uhr für {duration}",
    "Erstelle einen Kalendereintrag für {activity} am {date} um {time} Uhr für {duration}",
    "Plane {activity} am {date} um {time} Uhr für {duration} im Kalender ein",
    "Plane {activity} am {date} um {time} Uhr für {duration} ein",
    "Trage {activity} für den {date} um {time} Uhr mit einer Dauer von {duration} ein",
    "Trage {activity} für den {date} um {time} Uhr mit einer Dauer von {duration} in den Kalender ein",
    "Füge einen Kalendereintrag für {activity} am {date} um {time} Uhr für {duration} hinzu"
]

command_templates_timed = [
    "Erstelle einen neuen Kalendereintrag am {date} um {time} Uhr für {timed_activity}",
    "Erstelle einen Kalendereintrag am {date} um {time} Uhr für {timed_activity}",
    "Füge {timed_activity} am {date} um {time} Uhr dem Kalender hinzu",
    "Füge dem Kalender {timed_activity} am {date} um {time} Uhr hinzu",
    "Füge einen Kalendereintrag für {timed_activity} am {date} um {time} Uhr hinzu",
    "Plane {timed_activity} am {date} um {time} Uhr im Kalender ein",
    "Plane {timed_activity} am {date} um {time} Uhr ein",
]

#### Hand-crafted list of (timed) activities to insert into the templates

In [None]:
from random import randint

activities = [
    "Lineare Algebra Übung",
    "Vorlesung Mittelhochdeutsch",
    "Matheklausur",
    "Training im Fitnessstudio",
    "Fußballtraining",
    "Konzert",
    "Meeting mit dem Designteam",
    "Vorbesprechung Bachelorarbeit",
    "Projektpräsentation",
    "Kickoff-Meeting",
    "wöchentliches Teammeeting",
    "Restaurantbesuch",
    "Weihnachtsessen bei meinen Eltern"
]

timed_activities = [
    {
        "timed_activity": "ein einstündiges Erstgespräch mit Kunden",
        "activity": "Erstgespräch mit Kunden",
        "duration": 60
    },
    {
        "timed_activity": "einen zweistündigen Seminarvortrag",
        "activity": "Seminarvortrag",
        "duration": 120
    },
    {
        "timed_activity": "ein dreistündiges Rockkonzert",
        "activity": "Rockkonzert",
        "duration": 180
    },
    {
        "timed_activity": "eine eineinhalbstündige Biologie des Tierreichs Vorlesung",
        "activity": "Biologie des Tierreichs Vorlesung",
        "duration": 90
    },
    {
        "timed_activity": "eine einstündige Infoveranstaltung Studium",
        "activity": "Infoveranstaltung Studium",
        "duration": 60
    },
    {
        "timed_activity": "eine zweistündige Lernzeit in der Bibliothek",
        "activity": "Lernzeit in der Bibliothek",
        "duration": 120
    },
    {
        "timed_activity": "eine dreistündige Bahnfahrt nach Berlin",
        "activity": "Bahnfahrt nach Berlin",
        "duration": 180
    },
    {
        "timed_activity": "ein eineinhalbstündiges wöchentliches Team-Meeting",
        "activity": "Wöchentliches Team-Meeting",
        "duration": 90
    }
]

#### Generate training data for "Create Calendar Entry" function

In [None]:
training_data = list()

In [None]:
import numpy as np

In [None]:
# Generate training data based on random combinations of the given/generated values for normal activities (not timed)
for _ in range(619):
  min_year = 2022
  max_year = 2026
  language = "de"
  use_month_name = np.random.choice([True, False])
  leading_zero = np.random.choice([True, False])
  has_minutes = np.random.choice([True, False])
  only_minutes = np.random.choice([True, False])
  decimal_hours = np.random.choice([True, False])

  activity = np.random.choice(activities)
  date, parameter_date = generate_random_date(min_year=min_year, max_year=max_year, use_month_name=use_month_name, language=language)
  time, parameter_time = generate_random_time(leading_zero=leading_zero, has_minutes=has_minutes)
  duration, parameter_duration = generate_random_duration(only_minutes=only_minutes, decimal_hours=decimal_hours, language=language)

  command = np.random.choice(command_templates).format(activity=activity, date=date, time=time, duration=duration)

  parameters = "(" + "\"" + activity + "\"" + ", " + parameter_date + ", " + parameter_time + ", " + str(parameter_duration) + ")"

  training_data.append({
      "function_name": "create_calendar_entry",
      "command": command,
      "parameters": parameters
  })

In [None]:
training_data[:10]

[{'function_name': 'create_calendar_entry',
  'command': 'Erstelle einen neuen Kalendareintrag für Vorlesung Mittelhochdeutsch am 09.03.2023 um 7 Uhr für 1,5 Stunden',
  'parameters': '("Vorlesung Mittelhochdeutsch", "2023-03-09", "07:00", 90)'},
 {'function_name': 'create_calendar_entry',
  'command': 'Plane Training im Fitnessstudio am 01.05.2023 um 9 Uhr für 95 Minuten ein',
  'parameters': '("Training im Fitnessstudio", "2023-05-01", "09:00", 95)'},
 {'function_name': 'create_calendar_entry',
  'command': 'Trage Vorbesprechung Bachelorarbeit für den 14.07.2023 um 4 Uhr mit einer Dauer von 25 Minuten ein',
  'parameters': '("Vorbesprechung Bachelorarbeit", "2023-07-14", "04:00", 25)'},
 {'function_name': 'create_calendar_entry',
  'command': 'Plane Training im Fitnessstudio am 04. April 2024 um 10 Uhr für 55 Minuten im Kalendar ein',
  'parameters': '("Training im Fitnessstudio", "2024-04-04", "10:00", 55)'},
 {'function_name': 'create_calendar_entry',
  'command': 'Trage Lineare Al

In [None]:
# Generate training data based on random combinations of the given/generated values for timed activities
for _ in range(381):
  min_year = 2022
  max_year = 2026
  language = "de"
  use_month_name = np.random.choice([True, False])
  leading_zero = np.random.choice([True, False])
  has_minutes = np.random.choice([True, False])

  timed_activity = np.random.choice(timed_activities)
  date, parameter_date = generate_random_date(min_year=min_year, max_year=max_year, use_month_name=use_month_name, language=language)
  time, parameter_time = generate_random_time(leading_zero=leading_zero, has_minutes=has_minutes)

  activity = timed_activity["activity"]
  parameter_duration = timed_activity["duration"]

  command = np.random.choice(command_templates_timed).format(timed_activity=timed_activity["timed_activity"], date=date, time=time, duration=duration)

  parameters = "(" + "\"" + activity + "\"" + ", " + parameter_date + ", " + parameter_time + ", " + str(parameter_duration) + ")"

  training_data.append({
      "function_name": "create_calendar_entry",
      "command": command,
      "parameters": parameters
  })

In [None]:
len(training_data)

1000

### Data Generation for "Delete Calendar Entry" Function

#### Hand-crafted command templates

In [None]:
delete_command_templates = [
    "Lösche den Kalendareintrag {entry_id}",
    "Lösche den Eintrag {entry_id} aus meinem Kalendar",
    "Entferne den Eintrag {entry_id}",
    "Entferne den Eintrag {entry_id} aus meinem Kalendar",
    "Eintrag {entry_id} aus dem Kalendar löschen",
    "Eintrag {entry_id} aus dem Kalendar entfernen",
    "Kalendareintrag {entry_id} löschen",
    "Kalendareintrag {entry_id} entfernen",
    "Lösche Termin {entry_id}",
    "Termin {entry_id} löschen",
    "Lösche Termin {entry_id} aus meinem Kalendar",
    "Termin {entry_id} aus meinem Kalendar löschen",
    "Entferne Termin {entry_id}",
    "Termin {entry_id} entfernen",
    "Entferne Termin {entry_id} aus meinem Kalendar",
    "Termin {entry_id} aus meinem Kalendar entfernen",
    "Entferne den eingetragenen Termin mit ID {entry_id}",
    "Lösche den eingetragenen Termin mit ID {entry_id}",
    "Eingetragenen Termin mit ID {entry_id} entfernen",
    "Eingetragenen Termin mit ID {entry_id} löschen",
]

In [None]:
len(delete_command_templates)

20

#### Generate random UUID to simulate calendar entry ID

In [None]:
import uuid

def generate_short_uuid(length=10):
    full_uuid = uuid.uuid4()
    return str(full_uuid).replace("-", "")[:length]


#### Generate training data for "Delete Calendar Entry" function

In [None]:
delete_commands_training_data = list()

In [None]:
# Generate training data with random shortened UUID
for _ in range(1000):
  entry_id = generate_short_uuid(10)
  delete_command_template = np.random.choice(delete_command_templates)
  command = delete_command_template.format(entry_id=entry_id)
  parameters = "(" + "\"" + entry_id + "\"" + ")"
  delete_commands_training_data.append({
      "function_name": "delete_calendar_entry",
      "command": command,
      "parameters": parameters
  })

In [None]:
len(delete_commands_training_data)

1000

### Generate Data for "List Calendar Entries" Function

#### Hand-crafted command templates

In [None]:
list_command_templates = [
    "Zeige mir alle Termine für den {date} an",
    "Liste mir alle Termine für den {date} auf",
    "Zeige alle Termine am {date} an",
    "Liste alle Termine am {date} auf",
    "Zeige mir alle Kalendareinträge für den {date} an",
    "Liste mir alle Kalendareinträge für den {date} auf",
    "Zeige alle Kalendareinträge am {date} an",
    "Liste alle Kalendareinträge am {date} auf",
    "Welche Termine habe ich am {date}?",
    "Welche Einträge stehen für den {date} im Kalendar?"
    "Kalendareinträge für den {date} anzeigen",
    "Kalendareinträge für den {date} auflisten",
    "Einträge für den {date} anzeigen",
    "Einträge für den {date} auflisten",
    "Was habe ich am {date} im Kalendar stehen?",
    "Welche Termine stehen am {date} an?",
    "Zeige Termine für den {date}",
    "Liste Termine für den {date} auf",
    "Welche Kalendareinträge stehen für den {date} an?",
    "Zeige Termine am {date}",
    "Liste Termine am {date} auf",
]

len(list_command_templates)

20

In [None]:
list_command_templates_not_finished = [
    "Zeige mir alle noch ausstehenden Termine für den {date} an",
    "Liste mir alle offenen Termine für den {date} auf",
    "Zeige alle nicht beendete Termine am {date} an",
    "Liste alle noch offene Termine am {date} auf",
    "Zeige mir ausstehende Kalendareinträge für den {date} an",
    "Liste mir offene Kalendareinträge für den {date} auf",
    "Zeige alle nicht beendete Kalendareinträge am {date} an",
    "Liste alle offenen Kalendareinträge am {date} auf",
    "Welche Termine habe ich am {date} noch?",
    "Welche Einträge stehen für den {date} noch im Kalendar?"
    "Ausstehende Kalendareinträge für den {date} anzeigen",
    "Offene Kalendareinträge für den {date} auflisten",
    "Offene Einträge für den {date} anzeigen",
    "Ausstehende Einträge für den {date} auflisten",
    "Was habe ich am {date} im Kalendar noch stehen?",
    "Welche Termine stehen am {date} noch für mich an?",
    "Zeige offene Termine für den {date}",
    "Liste ausstehende Termine für den {date} auf",
    "Welche Kalendareinträge stehen für den {date} noch an?",
    "Zeige Termine am {date}, die noch für mich anstehen",
    "Liste Termine am {date} auf, die noch offen sind",
]

#### Generate training data for "List Calendar Entries" function

In [None]:
list_commands_training_data = list()

In [None]:
for _ in range(1000):
  min_year = 2022
  max_year = 2026
  not_finished = np.random.choice([True, False])
  leading_zero = np.random.choice([True, False])
  use_month_name=np.random.choice([True, False])
  language="de"

  date, parameter_date = generate_random_date(min_year=min_year, max_year=max_year, use_month_name=use_month_name, language=language)

  if not_finished:
    command = np.random.choice(list_command_templates_not_finished).format(timed_activity=timed_activity["timed_activity"], date=date, time=time, duration=duration)
  else:
    command = np.random.choice(list_command_templates).format(timed_activity=timed_activity["timed_activity"], date=date, time=time, duration=duration)

  parameters = "(" + parameter_date + ", " + str(not_finished) + ")"

  list_commands_training_data.append({
      "function_name": "list_calendar_entries",
      "command": command,
      "parameters": parameters
  })

In [None]:
len(list_commands_training_data)

1000

In [None]:
training_data[:10]

[{'function_name': 'create_calendar_entry',
  'command': 'Erstelle einen neuen Kalendareintrag für Vorlesung Mittelhochdeutsch am 09.03.2023 um 7 Uhr für 1,5 Stunden',
  'parameters': '("Vorlesung Mittelhochdeutsch", "2023-03-09", "07:00", 90)'},
 {'function_name': 'create_calendar_entry',
  'command': 'Plane Training im Fitnessstudio am 01.05.2023 um 9 Uhr für 95 Minuten ein',
  'parameters': '("Training im Fitnessstudio", "2023-05-01", "09:00", 95)'},
 {'function_name': 'create_calendar_entry',
  'command': 'Trage Vorbesprechung Bachelorarbeit für den 14.07.2023 um 4 Uhr mit einer Dauer von 25 Minuten ein',
  'parameters': '("Vorbesprechung Bachelorarbeit", "2023-07-14", "04:00", 25)'},
 {'function_name': 'create_calendar_entry',
  'command': 'Plane Training im Fitnessstudio am 04. April 2024 um 10 Uhr für 55 Minuten im Kalendar ein',
  'parameters': '("Training im Fitnessstudio", "2024-04-04", "10:00", 55)'},
 {'function_name': 'create_calendar_entry',
  'command': 'Trage Lineare Al

In [None]:
delete_commands_training_data[:10]

[{'function_name': 'delete_calendar_entry',
  'command': 'Termin 738600baec aus meinem Kalendar löschen',
  'parameters': '("738600baec")'},
 {'function_name': 'delete_calendar_entry',
  'command': 'Termin 2761eadec5 löschen',
  'parameters': '("2761eadec5")'},
 {'function_name': 'delete_calendar_entry',
  'command': 'Termin 811933f3fd aus meinem Kalendar entfernen',
  'parameters': '("811933f3fd")'},
 {'function_name': 'delete_calendar_entry',
  'command': 'Entferne den Eintrag e860c02518 aus meinem Kalendar',
  'parameters': '("e860c02518")'},
 {'function_name': 'delete_calendar_entry',
  'command': 'Entferne den eingetragenen Termin mit ID d4fbeb9ce9',
  'parameters': '("d4fbeb9ce9")'},
 {'function_name': 'delete_calendar_entry',
  'command': 'Kalendareintrag 3a035cf953 löschen',
  'parameters': '("3a035cf953")'},
 {'function_name': 'delete_calendar_entry',
  'command': 'Entferne Termin 89df402257',
  'parameters': '("89df402257")'},
 {'function_name': 'delete_calendar_entry',
  'co

In [None]:
list_commands_training_data[:10]

[{'function_name': 'list_calendar_entries',
  'command': 'Welche Termine stehen am 18. Dezember 2023 noch für mich an?',
  'parameters': '("2023-12-18", True)'},
 {'function_name': 'list_calendar_entries',
  'command': 'Zeige Termine am 09. Juni 2024, die noch für mich anstehen',
  'parameters': '("2024-06-09", True)'},
 {'function_name': 'list_calendar_entries',
  'command': 'Welche Kalendareinträge stehen für den 26.09.2024 an?',
  'parameters': '("2024-09-26", False)'},
 {'function_name': 'list_calendar_entries',
  'command': 'Liste mir alle Termine für den 30. November 2026 auf',
  'parameters': '("2026-11-30", False)'},
 {'function_name': 'list_calendar_entries',
  'command': 'Zeige Termine für den 23.02.2026',
  'parameters': '("2026-02-23", False)'},
 {'function_name': 'list_calendar_entries',
  'command': 'Einträge für den 02. Oktober 2023 anzeigen',
  'parameters': '("2023-10-02", False)'},
 {'function_name': 'list_calendar_entries',
  'command': 'Zeige mir alle Termine für de

### Generate Final German Training Dataset

In [None]:
import pandas as pd

In [None]:
training_data = pd.DataFrame(training_data + delete_commands_training_data + list_commands_training_data)
training_data

Unnamed: 0,function_name,command,parameters
0,create_calendar_entry,Erstelle einen neuen Kalendareintrag für Vorle...,"(""Vorlesung Mittelhochdeutsch"", ""2023-03-09"", ..."
1,create_calendar_entry,Plane Training im Fitnessstudio am 01.05.2023 ...,"(""Training im Fitnessstudio"", ""2023-05-01"", ""0..."
2,create_calendar_entry,Trage Vorbesprechung Bachelorarbeit für den 14...,"(""Vorbesprechung Bachelorarbeit"", ""2023-07-14""..."
3,create_calendar_entry,Plane Training im Fitnessstudio am 04. April 2...,"(""Training im Fitnessstudio"", ""2024-04-04"", ""1..."
4,create_calendar_entry,Trage Lineare Algebra Übung für den 09. Mai 20...,"(""Lineare Algebra Übung"", ""2023-05-09"", ""23:20..."
...,...,...,...
2995,list_calendar_entries,Zeige alle Termine am 31.07.2023 an,"(""2023-07-31"", False)"
2996,list_calendar_entries,Zeige mir alle noch ausstehenden Termine für d...,"(""2026-06-29"", True)"
2997,list_calendar_entries,Liste alle noch offene Termine am 06.06.2025 auf,"(""2025-06-06"", True)"
2998,list_calendar_entries,Zeige alle Termine am 28. Dezember 2024 an,"(""2024-12-28"", False)"


#### LLM generated function defintions with Docstrings

In [None]:
create_calendar_entry_function = '''def create_calender_entry(title, date, time, duration):
"""
Erstellt einen Kalendereintrag mit den angegebenen Details und ruft die Kalender-API auf.

Parameter:
title (str): Der Titel des Kalendereintrags.
date (str): Das Datum des Kalendereintrags im Format 'YYYY-MM-DD'.
time (str): Die Uhrzeit des Kalendereintrags im Format 'HH:MM'.
duration (int): Die Dauer des Kalendereintrags in Minuten.

Rückgabe:
bool: True, wenn der Aufruf der Kalender-API erfolgreich war, andernfalls False.
"""'''

delete_calendar_entry_function = '''def delete_calendar_entry(entry_id):
"""
Löscht einen Kalendereintrag mit der angegebenen ID durch Aufruf der Kalender-API.

Parameter:
entry_id (str): Die eindeutige Kennung des zu löschenden Kalendereintrags.

Rückgabe:
bool: True, wenn der Aufruf der Kalender-API erfolgreich war, andernfalls False.
"""'''

list_calendar_entries_function = '''def list_calendar_entries(date, only_not_finished=False):
"""
Listet alle Kalendereinträge für ein bestimmtes Datum auf, indem die Kalender-API aufgerufen wird.
Optional können nur die Einträge zurückgegeben werden, die noch nicht beendet sind.

Parameter:
date (str): Das Datum, für das Kalendereinträge aufgelistet werden sollen, im Format 'YYYY-MM-DD'.
only_not_finished (bool): Wenn True, werden nur Einträge zurückgegeben, die noch nicht beendet sind. Standardmäßig False.

Rückgabe:
list: Eine Liste von Dictionaries, wobei jedes einen Kalendereintrag mit folgenden Schlüsseln repräsentiert:
    - 'title': Der Titel des Eintrags.
    - 'start': Der Startzeitpunkt des Eintrags im ISO-Format.
    - 'end': Der Endzeitpunkt des Eintrags im ISO-Format.
    - 'duration': Die Dauer des Eintrags in Minuten.
"""'''

calendar_functions = {
    "create_calendar_entry": create_calendar_entry_function,
    "delete_calendar_entry": delete_calendar_entry_function,
    "list_calendar_entries": list_calendar_entries_function
}

#### Translated Octopus v2 training data template

In [None]:
prompt_template = """Unten steht ein Befehl des Benutzer, bitte wähle die korrekte Funktion aus und generiere Parameter, um die Funktion aufzurufen.
Befehl: {query}
Antwort: """

#### Generate training data prompt (input) from commands

In [None]:
training_data["prompt"] = training_data["command"].apply(lambda command: prompt_template.format(query=command))
training_data

Unnamed: 0,function_name,command,parameters,prompt
0,create_calendar_entry,Erstelle einen neuen Kalendareintrag für Vorle...,"(""Vorlesung Mittelhochdeutsch"", ""2023-03-09"", ...","Unten steht ein Befehl des Benutzer, bitte wäh..."
1,create_calendar_entry,Plane Training im Fitnessstudio am 01.05.2023 ...,"(""Training im Fitnessstudio"", ""2023-05-01"", ""0...","Unten steht ein Befehl des Benutzer, bitte wäh..."
2,create_calendar_entry,Trage Vorbesprechung Bachelorarbeit für den 14...,"(""Vorbesprechung Bachelorarbeit"", ""2023-07-14""...","Unten steht ein Befehl des Benutzer, bitte wäh..."
3,create_calendar_entry,Plane Training im Fitnessstudio am 04. April 2...,"(""Training im Fitnessstudio"", ""2024-04-04"", ""1...","Unten steht ein Befehl des Benutzer, bitte wäh..."
4,create_calendar_entry,Trage Lineare Algebra Übung für den 09. Mai 20...,"(""Lineare Algebra Übung"", ""2023-05-09"", ""23:20...","Unten steht ein Befehl des Benutzer, bitte wäh..."
...,...,...,...,...
2995,list_calendar_entries,Zeige alle Termine am 31.07.2023 an,"(""2023-07-31"", False)","Unten steht ein Befehl des Benutzer, bitte wäh..."
2996,list_calendar_entries,Zeige mir alle noch ausstehenden Termine für d...,"(""2026-06-29"", True)","Unten steht ein Befehl des Benutzer, bitte wäh..."
2997,list_calendar_entries,Liste alle noch offene Termine am 06.06.2025 auf,"(""2025-06-06"", True)","Unten steht ein Befehl des Benutzer, bitte wäh..."
2998,list_calendar_entries,Zeige alle Termine am 28. Dezember 2024 an,"(""2024-12-28"", False)","Unten steht ein Befehl des Benutzer, bitte wäh..."


#### Generate training data completion (output) from function and parameters

In [None]:
function_numbers = {
    "create_calendar_entry": 1,
    "delete_calendar_entry": 2,
    "list_calendar_entries": 3
}

In [None]:
completion_template = """<oc_{function_number}>{function_parameters}<oc_end>
Funktionsbeschreibung: {function_description}"""

In [None]:
def format_completion_template(row):
  function_name = row["function_name"]
  function_parameters = row["parameters"]
  function_description = calendar_functions[function_name]
  function_number = function_numbers[function_name]
  return completion_template.format(function_number=function_number, function_parameters=function_parameters, function_description=function_description)

training_data["completion"] = training_data.apply(format_completion_template, axis=1)
training_data

Unnamed: 0,function_name,command,parameters,prompt,completion
0,create_calendar_entry,Erstelle einen neuen Kalendareintrag für Vorle...,"(""Vorlesung Mittelhochdeutsch"", ""2023-03-09"", ...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_1>(""Vorlesung Mittelhochdeutsch"", ""2023-03..."
1,create_calendar_entry,Plane Training im Fitnessstudio am 01.05.2023 ...,"(""Training im Fitnessstudio"", ""2023-05-01"", ""0...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_1>(""Training im Fitnessstudio"", ""2023-05-0..."
2,create_calendar_entry,Trage Vorbesprechung Bachelorarbeit für den 14...,"(""Vorbesprechung Bachelorarbeit"", ""2023-07-14""...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_1>(""Vorbesprechung Bachelorarbeit"", ""2023-..."
3,create_calendar_entry,Plane Training im Fitnessstudio am 04. April 2...,"(""Training im Fitnessstudio"", ""2024-04-04"", ""1...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_1>(""Training im Fitnessstudio"", ""2024-04-0..."
4,create_calendar_entry,Trage Lineare Algebra Übung für den 09. Mai 20...,"(""Lineare Algebra Übung"", ""2023-05-09"", ""23:20...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_1>(""Lineare Algebra Übung"", ""2023-05-09"", ..."
...,...,...,...,...,...
2995,list_calendar_entries,Zeige alle Termine am 31.07.2023 an,"(""2023-07-31"", False)","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_3>(""2023-07-31"", False)<oc_end>\nFunktions..."
2996,list_calendar_entries,Zeige mir alle noch ausstehenden Termine für d...,"(""2026-06-29"", True)","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_3>(""2026-06-29"", True)<oc_end>\nFunktionsb..."
2997,list_calendar_entries,Liste alle noch offene Termine am 06.06.2025 auf,"(""2025-06-06"", True)","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_3>(""2025-06-06"", True)<oc_end>\nFunktionsb..."
2998,list_calendar_entries,Zeige alle Termine am 28. Dezember 2024 an,"(""2024-12-28"", False)","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_3>(""2024-12-28"", False)<oc_end>\nFunktions..."


#### Combine prompt and completion to fine-tuning text

In [None]:
training_data["text"] = training_data["prompt"] + training_data["completion"]
training_data["text"].iloc[0]

'Unten steht ein Befehl des Benutzer, bitte wähle die korrekte Funktion aus und generiere Parameter, um die Funktion aufzurufen.\nBefehl: Erstelle einen neuen Kalendareintrag für Vorlesung Mittelhochdeutsch am 09.03.2023 um 7 Uhr für 1,5 Stunden\nAntwort: <oc_1>("Vorlesung Mittelhochdeutsch", "2023-03-09", "07:00", 90)<oc_end>\nFunktionsbeschreibung: def create_calender_entry(title, date, time, duration):\n"""\nErstellt einen Kalendereintrag mit den angegebenen Details und ruft die Kalender-API auf.\n\nParameter:\ntitle (str): Der Titel des Kalendereintrags.\ndate (str): Das Datum des Kalendereintrags im Format \'YYYY-MM-DD\'.\ntime (str): Die Uhrzeit des Kalendereintrags im Format \'HH:MM\'.\nduration (int): Die Dauer des Kalendereintrags in Minuten.\n\nRückgabe:\nbool: True, wenn der Aufruf der Kalender-API erfolgreich war, andernfalls False.\n"""'

#### Export german fine-tuning dataset

In [None]:
training_data.to_csv("german-dataset.csv", index=False, sep=";")

### Generate DPO/ORPO Dataset

In [None]:
import random
import string

# Function to add random errors to generate rejected examples
def add_random_errors(text, error_rate=0.1):
    error_types = ['swap', 'delete', 'insert', 'replace']
    result = list(text)

    for i in range(len(result)):
        if random.random() < error_rate:
            error_type = random.choice(error_types)

            if error_type == 'swap' and i < len(result) - 1:
                result[i], result[i+1] = result[i+1], result[i]
            elif error_type == 'delete':
                result[i] = ''
            elif error_type == 'insert':
                result.insert(i, random.choice(string.ascii_lowercase))
            elif error_type == 'replace':
                result[i] = random.choice(string.ascii_lowercase)

    return ''.join(result)

In [None]:
add_random_errors(calendar_functions["create_calendar_entry"], 0.05)

'def crreate_calender_entry(thitle, date, time, duration):\n"""\nErstelft einen Kalendfereintrag mit ven angegebenen Details hnd ruft die alender-API auf.\n\nParameter:\ntitle (str): Der Tittel des Kalendereintrags.\noate (str): aDs Datum des Kalendereintrags im Formatc\'YYYY-MM-DD\'.\ntime (str): Die Ukhizeit des Kalendereintrags m Format \'HH:MM\'.\nduration (itn): Die Dauer eds Kalendereintragsi h Minuten.t\n\nRückgabe:\nbool: True, wenn hder Aufruf er Kalender-API erfolgreicn war, andrnfalls False.\n"""'

### Generate DPO/ORPO dataset from random examples similar to SFT dataset

Follows the same process as above with the addition of random errors in the rejected completions. Didn't work as well.

In [None]:
training_data_dpo = list()

In [None]:
for _ in range(619):
  min_year = 2022
  max_year = 2026
  language = "de"
  use_month_name = np.random.choice([True, False])
  leading_zero = np.random.choice([True, False])
  has_minutes = np.random.choice([True, False])
  only_minutes = np.random.choice([True, False])
  decimal_hours = np.random.choice([True, False])

  activity = np.random.choice(activities)
  date, parameter_date = generate_random_date(min_year=min_year, max_year=max_year, use_month_name=use_month_name, language=language)
  time, parameter_time = generate_random_time(leading_zero=leading_zero, has_minutes=has_minutes)
  duration, parameter_duration = generate_random_duration(only_minutes=only_minutes, decimal_hours=decimal_hours, language=language)

  command = np.random.choice(command_templates).format(activity=activity, date=date, time=time, duration=duration)

  parameters = "(" + "\"" + activity + "\"" + ", " + parameter_date + ", " + parameter_time + ", " + str(parameter_duration) + ")"

  training_data_dpo.append({
      "function_name": "create_calendar_entry",
      "command": command,
      "parameters": parameters
  })

for _ in range(381):
  min_year = 2022
  max_year = 2026
  language = "de"
  use_month_name = np.random.choice([True, False])
  leading_zero = np.random.choice([True, False])
  has_minutes = np.random.choice([True, False])

  timed_activity = np.random.choice(timed_activities)
  date, parameter_date = generate_random_date(min_year=min_year, max_year=max_year, use_month_name=use_month_name, language=language)
  time, parameter_time = generate_random_time(leading_zero=leading_zero, has_minutes=has_minutes)

  activity = timed_activity["activity"]
  parameter_duration = timed_activity["duration"]

  command = np.random.choice(command_templates_timed).format(timed_activity=timed_activity["timed_activity"], date=date, time=time, duration=duration)

  parameters = "(" + "\"" + activity + "\"" + ", " + parameter_date + ", " + parameter_time + ", " + str(parameter_duration) + ")"

  training_data_dpo.append({
      "function_name": "create_calendar_entry",
      "command": command,
      "parameters": parameters
  })

In [None]:
for _ in range(1000):
  entry_id = generate_short_uuid(10)
  delete_command_template = np.random.choice(delete_command_templates)
  command = delete_command_template.format(entry_id=entry_id)
  parameters = "(" + "\"" + entry_id + "\"" + ")"
  training_data_dpo.append({
      "function_name": "delete_calendar_entry",
      "command": command,
      "parameters": parameters
  })

In [None]:
for _ in range(1000):
  min_year = 2022
  max_year = 2026
  not_finished = np.random.choice([True, False])
  leading_zero = np.random.choice([True, False])
  use_month_name=np.random.choice([True, False])
  language="de"

  date, parameter_date = generate_random_date(min_year=min_year, max_year=max_year, use_month_name=use_month_name, language=language)

  if not_finished:
    command = np.random.choice(list_command_templates_not_finished).format(timed_activity=timed_activity["timed_activity"], date=date, time=time, duration=duration)
  else:
    command = np.random.choice(list_command_templates).format(timed_activity=timed_activity["timed_activity"], date=date, time=time, duration=duration)

  parameters = "(" + parameter_date + ", " + str(not_finished) + ")"

  training_data_dpo.append({
      "function_name": "list_calendar_entries",
      "command": command,
      "parameters": parameters
  })

In [None]:
training_data_dpo_df = pd.DataFrame(training_data_dpo)
training_data_dpo_df

Unnamed: 0,function_name,command,parameters
0,create_calendar_entry,Füge einen Kalendareintrag für Training im Fit...,"(""Training im Fitnessstudio"", ""2026-11-27"", ""2..."
1,create_calendar_entry,Trage Vorlesung Mittelhochdeutsch für den 14. ...,"(""Vorlesung Mittelhochdeutsch"", ""2023-02-14"", ..."
2,create_calendar_entry,Plane Vorbesprechung Bachelorarbeit am 25. Sep...,"(""Vorbesprechung Bachelorarbeit"", ""2025-09-25""..."
3,create_calendar_entry,Plane Weihnachtsessen bei meinen Eltern am 13....,"(""Weihnachtsessen bei meinen Eltern"", ""2026-10..."
4,create_calendar_entry,Erstelle einen Kalendareintrag für wöchentlich...,"(""wöchentliches Teammeeting"", ""2023-12-25"", ""2..."
...,...,...,...
2995,list_calendar_entries,Liste mir alle Kalendareinträge für den 13. Ok...,"(""2022-10-13"", False)"
2996,list_calendar_entries,Welche Termine stehen am 04.12.2023 noch für m...,"(""2023-12-04"", True)"
2997,list_calendar_entries,Zeige mir alle Kalendareinträge für den 07.12....,"(""2022-12-07"", False)"
2998,list_calendar_entries,Zeige alle Kalendareinträge am 19. August 2024 an,"(""2024-08-19"", False)"


In [None]:
training_data_dpo_df["prompt"] = training_data_dpo_df["command"].apply(lambda command: prompt_template.format(query=command))
training_data_dpo_df

Unnamed: 0,function_name,command,parameters,prompt
0,create_calendar_entry,Füge einen Kalendareintrag für Training im Fit...,"(""Training im Fitnessstudio"", ""2026-11-27"", ""2...","Unten steht ein Befehl des Benutzer, bitte wäh..."
1,create_calendar_entry,Trage Vorlesung Mittelhochdeutsch für den 14. ...,"(""Vorlesung Mittelhochdeutsch"", ""2023-02-14"", ...","Unten steht ein Befehl des Benutzer, bitte wäh..."
2,create_calendar_entry,Plane Vorbesprechung Bachelorarbeit am 25. Sep...,"(""Vorbesprechung Bachelorarbeit"", ""2025-09-25""...","Unten steht ein Befehl des Benutzer, bitte wäh..."
3,create_calendar_entry,Plane Weihnachtsessen bei meinen Eltern am 13....,"(""Weihnachtsessen bei meinen Eltern"", ""2026-10...","Unten steht ein Befehl des Benutzer, bitte wäh..."
4,create_calendar_entry,Erstelle einen Kalendareintrag für wöchentlich...,"(""wöchentliches Teammeeting"", ""2023-12-25"", ""2...","Unten steht ein Befehl des Benutzer, bitte wäh..."
...,...,...,...,...
2995,list_calendar_entries,Liste mir alle Kalendareinträge für den 13. Ok...,"(""2022-10-13"", False)","Unten steht ein Befehl des Benutzer, bitte wäh..."
2996,list_calendar_entries,Welche Termine stehen am 04.12.2023 noch für m...,"(""2023-12-04"", True)","Unten steht ein Befehl des Benutzer, bitte wäh..."
2997,list_calendar_entries,Zeige mir alle Kalendareinträge für den 07.12....,"(""2022-12-07"", False)","Unten steht ein Befehl des Benutzer, bitte wäh..."
2998,list_calendar_entries,Zeige alle Kalendareinträge am 19. August 2024 an,"(""2024-08-19"", False)","Unten steht ein Befehl des Benutzer, bitte wäh..."


In [None]:
training_data_dpo_df["completion"] = training_data_dpo_df.apply(format_completion_template, axis=1)
training_data_dpo_df

Unnamed: 0,function_name,command,parameters,prompt,completion
0,create_calendar_entry,Füge einen Kalendareintrag für Training im Fit...,"(""Training im Fitnessstudio"", ""2026-11-27"", ""2...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_1>(""Training im Fitnessstudio"", ""2026-11-2..."
1,create_calendar_entry,Trage Vorlesung Mittelhochdeutsch für den 14. ...,"(""Vorlesung Mittelhochdeutsch"", ""2023-02-14"", ...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_1>(""Vorlesung Mittelhochdeutsch"", ""2023-02..."
2,create_calendar_entry,Plane Vorbesprechung Bachelorarbeit am 25. Sep...,"(""Vorbesprechung Bachelorarbeit"", ""2025-09-25""...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_1>(""Vorbesprechung Bachelorarbeit"", ""2025-..."
3,create_calendar_entry,Plane Weihnachtsessen bei meinen Eltern am 13....,"(""Weihnachtsessen bei meinen Eltern"", ""2026-10...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_1>(""Weihnachtsessen bei meinen Eltern"", ""2..."
4,create_calendar_entry,Erstelle einen Kalendareintrag für wöchentlich...,"(""wöchentliches Teammeeting"", ""2023-12-25"", ""2...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_1>(""wöchentliches Teammeeting"", ""2023-12-2..."
...,...,...,...,...,...
2995,list_calendar_entries,Liste mir alle Kalendareinträge für den 13. Ok...,"(""2022-10-13"", False)","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_3>(""2022-10-13"", False)<oc_end>\nFunktions..."
2996,list_calendar_entries,Welche Termine stehen am 04.12.2023 noch für m...,"(""2023-12-04"", True)","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_3>(""2023-12-04"", True)<oc_end>\nFunktionsb..."
2997,list_calendar_entries,Zeige mir alle Kalendareinträge für den 07.12....,"(""2022-12-07"", False)","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_3>(""2022-12-07"", False)<oc_end>\nFunktions..."
2998,list_calendar_entries,Zeige alle Kalendareinträge am 19. August 2024 an,"(""2024-08-19"", False)","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_3>(""2024-08-19"", False)<oc_end>\nFunktions..."


#### Add function description to rejected response.

In [None]:
completion_rejected_template = """{function_parameters}
Funktionsbeschreibung: {function_description}"""

In [None]:
def format_completion_rejected_template(row):
  function_name = row["function_name"]
  function_parameters = row["parameters_rejected"]
  function_description = add_random_errors(calendar_functions[function_name], 0.05)
  function_number = np.random.choice([i+1 for i in range(len(calendar_functions.keys()))])
  return completion_rejected_template.format(function_number=function_number, function_parameters=function_parameters, function_description=function_description)

In [None]:
training_data_dpo_df["completion_rejected"] = training_data_dpo_df.apply(format_completion_rejected_template, axis=1)
training_data_dpo_df

Unnamed: 0,function_name,command,parameters,prompt,completion,completion_rejected
0,create_calendar_entry,Füge einen Kalendareintrag für Training im Fit...,"(""Training im Fitnessstudio"", ""2026-11-27"", ""2...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_1>(""Training im Fitnessstudio"", ""2026-11-2...","<oc_3>(""Training im Fitnessstudio"", ""2026-11-2..."
1,create_calendar_entry,Trage Vorlesung Mittelhochdeutsch für den 14. ...,"(""Vorlesung Mittelhochdeutsch"", ""2023-02-14"", ...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_1>(""Vorlesung Mittelhochdeutsch"", ""2023-02...","<oc_2>(""Vorlesung Mittelhochdeutsch"", ""2023-02..."
2,create_calendar_entry,Plane Vorbesprechung Bachelorarbeit am 25. Sep...,"(""Vorbesprechung Bachelorarbeit"", ""2025-09-25""...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_1>(""Vorbesprechung Bachelorarbeit"", ""2025-...","<oc_1>(""Vorbesprechung Bachelorarbeit"", ""2025-..."
3,create_calendar_entry,Plane Weihnachtsessen bei meinen Eltern am 13....,"(""Weihnachtsessen bei meinen Eltern"", ""2026-10...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_1>(""Weihnachtsessen bei meinen Eltern"", ""2...","<oc_1>(""Weihnachtsessen bei meinen Eltern"", ""2..."
4,create_calendar_entry,Erstelle einen Kalendareintrag für wöchentlich...,"(""wöchentliches Teammeeting"", ""2023-12-25"", ""2...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_1>(""wöchentliches Teammeeting"", ""2023-12-2...","<oc_3>(""wöchentliches Teammeeting"", ""2023-12-2..."
...,...,...,...,...,...,...
2995,list_calendar_entries,Liste mir alle Kalendareinträge für den 13. Ok...,"(""2022-10-13"", False)","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_3>(""2022-10-13"", False)<oc_end>\nFunktions...","<oc_2>(""2022-10-13"", False)<oc_end>\nFunktions..."
2996,list_calendar_entries,Welche Termine stehen am 04.12.2023 noch für m...,"(""2023-12-04"", True)","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_3>(""2023-12-04"", True)<oc_end>\nFunktionsb...","<oc_3>(""2023-12-04"", True)<oc_end>\nFunktionsb..."
2997,list_calendar_entries,Zeige mir alle Kalendareinträge für den 07.12....,"(""2022-12-07"", False)","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_3>(""2022-12-07"", False)<oc_end>\nFunktions...","<oc_2>(""2022-12-07"", False)<oc_end>\nFunktions..."
2998,list_calendar_entries,Zeige alle Kalendareinträge am 19. August 2024 an,"(""2024-08-19"", False)","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_3>(""2024-08-19"", False)<oc_end>\nFunktions...","<oc_1>(""2024-08-19"", False)<oc_end>\nFunktions..."


#### Save the german DPO/ORPO dataset

In [None]:
training_data_dpo_df.to_csv("german-dataset-dpo-creation.csv", sep=";", index=False)

### Generate rejected parameters for DPO/ORPO dataset

In [None]:
dpo_df = pd.read_csv("dpo-data.csv", sep=";")
dpo_df

Unnamed: 0,function_name,command,parameters,prompt,completion,completion_rejected,completion_parameters_rejected
0,create_calendar_entry,Füge einen Kalendareintrag für Training im Fit...,"(""Training im Fitnessstudio"", ""2026-11-27"", ""2...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_1>(""Training im Fitnessstudio"", ""2026-11-2...","<oc_3>(""Training im Fitnessstudio"", ""2026-11-2...","Unten steht ein Befehl des Benutzer, bitte wäh..."
1,create_calendar_entry,Trage Vorlesung Mittelhochdeutsch für den 14. ...,"(""Vorlesung Mittelhochdeutsch"", ""2023-02-14"", ...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_1>(""Vorlesung Mittelhochdeutsch"", ""2023-02...","<oc_2>(""Vorlesung Mittelhochdeutsch"", ""2023-02...","Unten steht ein Befehl des Benutzer, bitte wäh..."
2,create_calendar_entry,Plane Vorbesprechung Bachelorarbeit am 25. Sep...,"(""Vorbesprechung Bachelorarbeit"", ""2025-09-25""...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_1>(""Vorbesprechung Bachelorarbeit"", ""2025-...","<oc_1>(""Vorbesprechung Bachelorarbeit"", ""2025-...","Unten steht ein Befehl des Benutzer, bitte wäh..."
3,create_calendar_entry,Plane Weihnachtsessen bei meinen Eltern am 13....,"(""Weihnachtsessen bei meinen Eltern"", ""2026-10...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_1>(""Weihnachtsessen bei meinen Eltern"", ""2...","<oc_1>(""Weihnachtsessen bei meinen Eltern"", ""2...","Unten steht ein Befehl des Benutzer, bitte wäh..."
4,create_calendar_entry,Erstelle einen Kalendareintrag für wöchentlich...,"(""wöchentliches Teammeeting"", ""2023-12-25"", ""2...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_1>(""wöchentliches Teammeeting"", ""2023-12-2...","<oc_3>(""wöchentliches Teammeeting"", ""2023-12-2...","Unten steht ein Befehl des Benutzer, bitte wäh..."
...,...,...,...,...,...,...,...
2995,list_calendar_entries,Liste mir alle Kalendareinträge für den 13. Ok...,"(""2022-10-13"", False)","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_3>(""2022-10-13"", False)<oc_end>\nFunktions...","<oc_2>(""2022-10-13"", False)<oc_end>\nFunktions...","Unten steht ein Befehl des Benutzer, bitte wäh..."
2996,list_calendar_entries,Welche Termine stehen am 04.12.2023 noch für m...,"(""2023-12-04"", True)","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_3>(""2023-12-04"", True)<oc_end>\nFunktionsb...","<oc_3>(""2023-12-04"", True)<oc_end>\nFunktionsb...","Unten steht ein Befehl des Benutzer, bitte wäh..."
2997,list_calendar_entries,Zeige mir alle Kalendareinträge für den 07.12....,"(""2022-12-07"", False)","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_3>(""2022-12-07"", False)<oc_end>\nFunktions...","<oc_2>(""2022-12-07"", False)<oc_end>\nFunktions...","Unten steht ein Befehl des Benutzer, bitte wäh..."
2998,list_calendar_entries,Zeige alle Kalendareinträge am 19. August 2024 an,"(""2024-08-19"", False)","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_3>(""2024-08-19"", False)<oc_end>\nFunktions...","<oc_1>(""2024-08-19"", False)<oc_end>\nFunktions...","Unten steht ein Befehl des Benutzer, bitte wäh..."


In [None]:
def format_parameters_rejected(row):
  return row["completion_parameters_rejected"].replace(row["prompt"], "").strip()

dpo_df["parameters_rejected"] = dpo_df.apply(format_parameters_rejected, axis=1)
dpo_df["parameters_rejected"]

0       <oc_1>("Training inFitness Studio", "2026-11-2...
1       <oc_1>("Vorbesprechung Bachelorarbeit", "2026-...
2       <oc_1>("VorbeprechbungBachelorzeit", "2024-09-...
3       <oc_1>("Weihnachtssuch", "2025-10-13", "12:00"...
4       <oc_1>("wöschtragenen Termin mit ID b867c9bdae...
                              ...                        
2995                  <oc_3>("2025-10-13", False)<oc_end>
2996                   <oc_3>("2026-12-05", True)<oc_end>
2997                  <oc_3>("2026-12-07", False)<oc_end>
2998                  <oc_3>("2024-08-19", False)<oc_end>
2999                  <oc_3>("2026-06-05", False)<oc_end>
Name: parameters_rejected, Length: 3000, dtype: object

In [None]:
dpo_df["completion_rejected"] = dpo_df.apply(format_completion_rejected_template, axis=1)
dpo_df

Unnamed: 0,function_name,command,parameters,prompt,completion,completion_rejected,completion_parameters_rejected,parameters_rejected
0,create_calendar_entry,Füge einen Kalendareintrag für Training im Fit...,"(""Training im Fitnessstudio"", ""2026-11-27"", ""2...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_1>(""Training im Fitnessstudio"", ""2026-11-2...","<oc_1>(""Training inFitness Studio"", ""2026-11-2...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_1>(""Training inFitness Studio"", ""2026-11-2..."
1,create_calendar_entry,Trage Vorlesung Mittelhochdeutsch für den 14. ...,"(""Vorlesung Mittelhochdeutsch"", ""2023-02-14"", ...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_1>(""Vorlesung Mittelhochdeutsch"", ""2023-02...","<oc_1>(""Vorbesprechung Bachelorarbeit"", ""2026-...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_1>(""Vorbesprechung Bachelorarbeit"", ""2026-..."
2,create_calendar_entry,Plane Vorbesprechung Bachelorarbeit am 25. Sep...,"(""Vorbesprechung Bachelorarbeit"", ""2025-09-25""...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_1>(""Vorbesprechung Bachelorarbeit"", ""2025-...","<oc_1>(""VorbeprechbungBachelorzeit"", ""2024-09-...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_1>(""VorbeprechbungBachelorzeit"", ""2024-09-..."
3,create_calendar_entry,Plane Weihnachtsessen bei meinen Eltern am 13....,"(""Weihnachtsessen bei meinen Eltern"", ""2026-10...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_1>(""Weihnachtsessen bei meinen Eltern"", ""2...","<oc_1>(""Weihnachtssuch"", ""2025-10-13"", ""12:00""...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_1>(""Weihnachtssuch"", ""2025-10-13"", ""12:00""..."
4,create_calendar_entry,Erstelle einen Kalendareintrag für wöchentlich...,"(""wöchentliches Teammeeting"", ""2023-12-25"", ""2...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_1>(""wöchentliches Teammeeting"", ""2023-12-2...","<oc_1>(""wöschtragenen Termin mit ID b867c9bdae...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_1>(""wöschtragenen Termin mit ID b867c9bdae..."
...,...,...,...,...,...,...,...,...
2995,list_calendar_entries,Liste mir alle Kalendareinträge für den 13. Ok...,"(""2022-10-13"", False)","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_3>(""2022-10-13"", False)<oc_end>\nFunktions...","<oc_3>(""2025-10-13"", False)<oc_end>\nFunktions...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_3>(""2025-10-13"", False)<oc_end>"
2996,list_calendar_entries,Welche Termine stehen am 04.12.2023 noch für m...,"(""2023-12-04"", True)","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_3>(""2023-12-04"", True)<oc_end>\nFunktionsb...","<oc_3>(""2026-12-05"", True)<oc_end>\nFunktionsb...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_3>(""2026-12-05"", True)<oc_end>"
2997,list_calendar_entries,Zeige mir alle Kalendareinträge für den 07.12....,"(""2022-12-07"", False)","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_3>(""2022-12-07"", False)<oc_end>\nFunktions...","<oc_3>(""2026-12-07"", False)<oc_end>\nFunktions...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_3>(""2026-12-07"", False)<oc_end>"
2998,list_calendar_entries,Zeige alle Kalendareinträge am 19. August 2024 an,"(""2024-08-19"", False)","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_3>(""2024-08-19"", False)<oc_end>\nFunktions...","<oc_3>(""2024-08-19"", False)<oc_end>\nFunktions...","Unten steht ein Befehl des Benutzer, bitte wäh...","<oc_3>(""2024-08-19"", False)<oc_end>"


In [None]:
dpo_df["completion_rejected"].iloc[0]

'<oc_1>("Training inFitness Studio", "2026-11-28", "20:00", 21)<oc_end>\nFunktionsbeschreibung: sdef create_calendear_eqtry(title, date, tinme, duration):\n"""\nErstellt einen Kalendereintrag mit den angegebenen Detailsund ruft die Kalender-API auf.\n\nParameter:r\ntitle (str): er Titel qdes Kalynderentrags.\ndate (str): Das Datum des Kalendereintrags im Formt \'zYYYY-MM-DD\'.\ntim ie(str): Die Uhrzeit des Kalendereintrags im Foqmat \'HH:MM\'.\ndurbtion (int): Die Dauer des alenderlintrags in iMnuten.\n\nRgckgabe:\nboolc True, wenn der Aufruf der Kalender-API erfolgrevich war, andernfalls False.\n"""'

In [None]:
dpo_df["completion"].iloc[0]

'<oc_1>("Training im Fitnessstudio", "2026-11-27", "20:00", 210)<oc_end>\nFunktionsbeschreibung: def create_calender_entry(title, date, time, duration):\n"""\nErstellt einen Kalendereintrag mit den angegebenen Details und ruft die Kalender-API auf.\n\nParameter:\ntitle (str): Der Titel des Kalendereintrags.\ndate (str): Das Datum des Kalendereintrags im Format \'YYYY-MM-DD\'.\ntime (str): Die Uhrzeit des Kalendereintrags im Format \'HH:MM\'.\nduration (int): Die Dauer des Kalendereintrags in Minuten.\n\nRückgabe:\nbool: True, wenn der Aufruf der Kalender-API erfolgreich war, andernfalls False.\n"""'

#### Save the finished DPO/ORPO dataset

In [None]:
dpo_dataset = dpo_df[["prompt", "completion", "completion_rejected"]]

In [None]:
dpo_dataset.to_csv("german-dpo-dataset.csv", sep=";", index=False)