In [1]:
import json

with open("emotion_synthetic_dataset.json", "r") as f:
    whole_samples = json.load(fp=f)

In [9]:
import re
from typing import Dict, List

def convert_to_tokenized_format(text):
    text = re.sub(r"\n+", "\n", text)
    example: List[Dict[str, str]] = []
    for line in text.split("\n"):
        line = line.strip()

        if len(line) == 0:
            continue
        
        if not line.lower().startswith("a:") and not line.lower().startswith("b:"):
            raise ValueError(line)
        
        utterance: List[str] = re.findall(
                pattern=r"^[ab]:(.*)",
                string=line,
                flags=re.IGNORECASE
            )[0]
        
        speaker: str = "user" if line.lower() == "a" else "assistant"
        example.append({
            "role": speaker,
            "content": utterance.strip()
        })
    
    
    return {
        "messages": example
    }

In [4]:
joy_set: List[str] = list(set([x["Translated"] for x in whole_samples if x["Emotion"] == "joy"]))
joy_set[:2]

["A: È incredibile! Non posso credere che abbia funzionato davvero!\nB: Oh, lo so, vero?! Sembra che tutto il nostro duro lavoro abbia finalmente dato i suoi frutti! \nA: Mi sento così felice ed eccitato per questo, è incredibile!\nB: Anche io! Sono praticamente incollato al soffitto di gioia!\nA: Questo sarà così divertente! Immagina tutte le possibilità!\nB: Esatto! Possiamo finalmente fare tutto ciò che abbiamo sempre sognato. \nA: Non vedo l'ora di iniziare questo nuovo capitolo!\nB: Neanche io! Sarà fantastico!\nA: Questa è davvero la giornata migliore di sempre!\nB: Totalmente d'accordo, sembra che sia successo qualcosa di straordinario!  \n",
 "A: Mmm, questo tempo è semplicemente perfetto, vero?\nB: Mmm, sì! Così soleggiato e caldo, mi fa venire voglia di ballare.\nA: Mmm, lo so, giusto? Tutto sembra così leggero e felice.\nB: Mmm, come un mondo nuovo che aspetta di essere esplorato.\nA: Mmm, andiamo a fare una passeggiata nel parco, mi va.\nB: Mmm, idea perfetta! L'aria fresca

In [5]:
fear_set: List[str] = list(set([x["Translated"] for x in whole_samples if x["Emotion"] == "fear"]))
fear_set[:2]

["A: Ma noi... non abbiamo fatto sesso, no? Uh, giusto?\nB: No! Io voglio dire, non quel tipo di...\nA: Sei sicura? Perché mi sembra che... come se fosse successo tutto. \nB: È solo un sogno, vero? Un sogno molto realistico.\nA: Forse. Ma e se non lo fosse? E se... cosa succederebbe se fosse reale?\nB: Non parlarne! Non pensarci!\nA: Non posso evitarlo! Questa sensazione... è così terrificante.\nB: Anche io. È come se stesse per accadere qualcosa di terribile.\nA: Lo sento, B. C'è qualcosa che non va.\nB: So bene. Dobbiamo uscire da qui. Adesso!   \n",
 'A: No-no-no-no-no! Non puoi!\nB: Hai visto quello? Si è appena... mosso.\nA: Ti avevo detto, non dovremmo essere qui.\nB: Cosa succede se torna? Cosa succede se ci vede?\nA: Dobbiamo uscire da qui, subito. \nB: Le mie gambe tremano. A malapena riesco a muovermi.\nA: Corri! Per favore, corri con me!\nB: Non lo so... cosa succederebbe se fosse più veloce di noi?\nA: Non pensarci. Continua a correre!\nB: Il mio cuore batte così forte.  \n

In [7]:
anger_set: List[str] = list(set([x["Translated"] for x in whole_samples if x["Emotion"] == "anger"]))
anger_set[:2]

['A: Non stare lì immobile, fai qualcosa! Ha bisogno di spazio! \nB: Scherzi? Pensi che possa tirare da qui?\nA: Certo che può! Sposta semplicemente la ciotola, è patetico!\nB: Patetico? Questa non è una partita per principianti!\nA: Non essere ridicolo, metti da parte!  \nB: Forse dovrebbe allenarsi di più, questo è impossibile.\nA: Stai dicendo cose incredibili! Aiutalo per una volta! \nB: Non ci credo, mi stai incolpando a me? È il suo tiro!\nA: Tutto questo è un disastro a causa della tua incompetenza!\nB: Bene, almeno io non ho sprecato tempo in questa tentativa patetica.  \n',
 'A: Non osare parlarmi così!\nB: Non mi scuserò per quello che ho detto!\nA: Pensi che questo sia una battuta? Questo è serio!\nB: Quindi stai lì a lamentarti o fai qualcosa?\nA: Fare qualcosa?! Cosa potrei mai fare?!\nB: Inizia prendendoti in mano!\nA: Beh, forse se non fossi così irritante tutto il tempo le cose non sarebbero come adesso! \nB: Tu vuoi semplicemente dare la colpa a me, giusto?\nA: Almeno 

In [11]:
with open("joy_synthetic_dataset.jsonl", "w") as f:
    f.writelines([json.dumps(convert_to_tokenized_format(x)) + "\n" for x in joy_set])

In [12]:
with open("fear_synthetic_dataset.jsonl", "w") as f:
    f.writelines([json.dumps(convert_to_tokenized_format(x)) + "\n" for x in fear_set])

In [13]:
with open("anger_synthetic_dataset.jsonl", "w") as f:
    f.writelines([json.dumps(convert_to_tokenized_format(x)) + "\n" for x in anger_set])

In [14]:
[json.dumps(convert_to_tokenized_format(x)) + "\n" for x in anger_set][0]

'{"messages": [{"role": "assistant", "content": "Non stare l\\u00ec immobile, fai qualcosa! Ha bisogno di spazio!"}, {"role": "assistant", "content": "Scherzi? Pensi che possa tirare da qui?"}, {"role": "assistant", "content": "Certo che pu\\u00f2! Sposta semplicemente la ciotola, \\u00e8 patetico!"}, {"role": "assistant", "content": "Patetico? Questa non \\u00e8 una partita per principianti!"}, {"role": "assistant", "content": "Non essere ridicolo, metti da parte!"}, {"role": "assistant", "content": "Forse dovrebbe allenarsi di pi\\u00f9, questo \\u00e8 impossibile."}, {"role": "assistant", "content": "Stai dicendo cose incredibili! Aiutalo per una volta!"}, {"role": "assistant", "content": "Non ci credo, mi stai incolpando a me? \\u00c8 il suo tiro!"}, {"role": "assistant", "content": "Tutto questo \\u00e8 un disastro a causa della tua incompetenza!"}, {"role": "assistant", "content": "Bene, almeno io non ho sprecato tempo in questa tentativa patetica."}]}\n'