In [7]:
## Generate Norwegian dialogue dataset using langchain and openai
import dotenv
import os
from langchain.llms import OpenAI
from langchain.schema import (
    AIMessage,
    HumanMessage,
    SystemMessage
)
from langchain.prompts.chat import (
    ChatPromptTemplate,
    SystemMessagePromptTemplate,
    AIMessagePromptTemplate,
    HumanMessagePromptTemplate,
)
from langchain.chat_models import ChatOpenAI
import time
# for local testing

dotenv.load_dotenv("config.env")

OPEN_AI_API_KEY = os.environ.get("OPEN_AI_API_KEY")

In [140]:
SystemMessages = {"en-us":"some stuff", "nb-no":"You are an expert data generator, and your task is to help me generate a new data sample modeled on the given example. You generate data of dialogues between various people, and various contexts, familial, social, work and so on.\n\n"}

SystemMessagesEnd = {"en-us":"some stuff", "nb-no":"\n\nPlease generate another data sample of a similiar sort, for different characters, and keep the language as Norwegian, and keep it oral and colloquial, so include filler words, and make it sound like something people would actually say not something you would read in a book. Make sure that data represents and accurate distribution real life dialogues. Return the data sample it in the following format:\n\n ###Human Human text prompt ###Assistant Assistant generated Full Dialogue"}

HumanMessages = {"en-us":"some stuff", "nb-no":"Please generate another data sample of a similiar sort, for different characters, and keep the language as Norwegian, and keep it oral and colloquial, so include filler words. Make sure that data represents and accurate distribution real life dialogues by making sure some are positive, some negative and in general represent the full scope of the human condition And include a diverse set of characters,male, female and from different backgrounds. Return the data sample in the same format as the one above, in the following format, ingore the brackets:\n\n ###Human [Text prompt] ###Assistant [Full Dialogue] \n\n"}

In [141]:
default_samples ={0: '### Human Please generate a dialogue about Ida and Vilde, two Norwegian girls in their early twenties. Keep it colloquial. ### Assistant Ida: Hei Vilde, lenge siden sist! Hvordan går det med deg?\nVilde: Hei, Ida! Ja, det er kjempe lenge siden. Det går bra med meg, takk for at du spør. Hva med deg da?\nIda: Åh, vet du, det har vært litt opp og ned, men nå begynner ting å se lysere ut. Jeg har begynt på et nytt dansekurs, og det er skikkelig gøy!\nVilde: Å, det høres jo kjempegøy ut! Hva slags dans er det du lærer?\nIda: Det er faktisk salsa! Jeg har alltid drømt om å lære meg det, og nå som jeg har muligheten, så kaster jeg meg bare ut i det.\nVilde: Wow, det høres spennende ut! Kanskje du kan lære meg noen trinn en dag? Nå har jeg en liten nyhet å dele med deg også. Jeg har begynt å male igjen.\nIda: Åh, det er jo helt fantastisk! Du var jo så flink før. Hva slags motiv maler du da?\nVilde: Takk, du er så snill! Jeg har blitt veldig inspirert av naturen og landskapet i Norge, så det er mye fjell og skog i bildene mine nå for tiden.\nIda: Det høres utrolig vakkert ut, Vilde. Jeg vil gjerne se dine malerier en dag! La oss ta en kaffe sammen og prate mer om det, hva synes du?\nVilde: Ja, det høres ut som en super idé! Når passer det for deg?\nIda: Hva med neste lørdag? Vi kunne møtes på den koselige kafeen i sentrum.\nVilde: Perfekt! Da sees vi neste lørdag, gleder meg til å catche opp med deg, Ida! Ha en fin dag videre!\nIda: Gleder meg også, Vilde! Ha en super dag! Vi ses snart',
 1: '### Human Please generate a dialogue between Line and Tor, two Norwegians in their early thirties discussing their careers and hobbies. Keep it colloquial. ### Assistant Line: Hei Tor, hvordan har det vært med deg i det siste?\nTor: Hei Line! Åh, det har vært ganske hektisk, ass. Men jeg liker det, da! Hvordan har det vært med deg?\nLine: Det er bra å høre! Jeg har også hatt det veldig travelt, men jeg har fått noen nye interesser og hobbyer som hjelper meg å koble av. Har du noen nye hobbyer selv?\nTor: Ja, jeg har begynt å gå på keramikkurs! Det er så gøy og avslappende, ass. Hva med deg, hva har du begynt med?\nLine: Åh, det høres kult ut! Jeg har startet med pole-dance. Det er både en god treningsform og veldig gøy!\nTor: Seriøst? Wow, det må jeg si, det er noe jeg aldri hadde trodd at du skulle drive med. Men det høres jo kjempeinteressant ut!\nLine: Ja, det er faktisk veldig kult, og jeg har møtt mange nye mennesker gjennom det. Jeg har også fått en ny jobb som grafisk designer, så det tar også litt av fritiden min.\nTor: Gratulerer med ny jobb! Det høres spennende ut. Hvordan går det med prosjektene dine?\nLine: Takk, ass! Det går bra, jeg jobber med noen ganske interessante prosjekter. Jeg lærer mye hver dag og føler at jeg virkelig vokser i yrket. Hva med deg, hvordan går det med karrieren?\nTor: Jo, vet du, jeg har fått en forfremmelse på jobben. Nå er jeg HR-leder, og det er litt stressende, men samtidig veldig givende. Jeg trives med det!\nLine: Gratulerer så mye, Tor! Det er godt å høre at ting går bra for oss begge. Skal vi feire med en kaffe og prat?\nTor: Ja, det gjør vi! Supert asså.',2: '### Human Please generate a dialogue about a job interview for an intern position between Stine, a Norwegian HR manager in her late thirties, and Andreas, a recent graduate. Keep it colloquial. ### Assistant\nStine: Hei, Andreas! God å se deg. Hvordan har du det i dag?\nAndreas: Hei, Stine! Det går bra, takk. Litt nervøs, men det er jo helt normalt, ikke sant?\nStine: Absolutt! Det er helt normalt å være litt nervøs. Men bare slapp av, vi er her for å bli kjent med deg. Hvorfor ikke starte med å fortelle litt om deg selv?\nAndreas: Joda, det kan jeg gjøre. Jeg er nyutdannet fra NTNU, hvor jeg studerte informatikk. Jeg har alltid vært interessert i teknologi, og jeg elsker å løse komplekse problemer. I tillegg til studiene mine har jeg jobbet deltid som webutvikler for et lite oppstartsselskap.\nStine: Det høres spennende ut! Kan du fortelle meg litt mer om hva du gjorde i din rolle som webutvikler?\nAndreas: Selvfølgelig. Jeg var ansvarlig for å designe og bygge nettsidene til selskapet. Jeg jobbet tett med produktteamet for å forstå deres behov, og jeg brukte HTML, CSS og JavaScript for å implementere designene. Jeg lærte mye om samarbeid og tidsstyring i prosessen.\nStine: Det høres ut som en verdifull erfaring. Kan du nevne en spesifikk utfordring du møtte, og hvordan du overkom den?\nAndreas: Joda, det var en gang da vi måtte redesigne nettsiden vår for å gjøre den mer brukervennlig. Vi hadde mange forskjellige idéer, og det var vanskelig å bestemme hvilken retning vi skulle ta. Men jeg satte sammen et lite team, og vi gjennomførte brukerundersøkelser og A/B-testing for å bestemme den mest effektive løsningen. Det var en stor suksess, og vi så en betydelig økning i brukerengasjementet etter redesignet.\nStine: Det høres ut som du har gode lederegenskaper og evne til å ta initiativ. Hvordan ville du beskrive din arbeidsstil?\nAndreas: Jeg vil si at jeg er veldig detaljorientert og liker å planlegge ting på forhånd. Jeg jobber best når jeg har en klar forståelse av hva som er forventet av meg. Men jeg er også fleksibel og kan tilpasse meg raskt når ting endrer seg.\nStine: Det høres bra ut, Andreas. Jeg har noen flere spørsmål, men la oss ta en kort pause først. Vil du ha litt vann?\nAndreas: Ja, takk, det ville vært fint.'}

In [142]:

async def generate_data_sample(chat,samples):

    start = time.time()

    messages = []
    messages.append(SystemMessage(
                content=SystemMessages["nb-no"]))
    messages.append(AIMessage(content=f"{samples[0]} {HumanMessages['nb-no']}"))
            # add the prompt as the oldest message in the history
    for i in range(min(len(samples),2)):
        messages.append(AIMessage(content=samples[i]))
    # print(messages)
    response = await chat.agenerate([messages])
    sample = response.generations[0][0].text
    ## write data to json file where we have {"sample_number":sample_text} format
    # print(sample)
    return sample

In [145]:
import asyncio
from time import sleep
samples=default_samples
data = {}
for i in range(50):
    chat = ChatOpenAI(
                model_name="gpt-4",
                temperature=0.9,
                openai_api_key=OPEN_AI_API_KEY,
                max_tokens=500,
            )
    tasks = [generate_data_sample(chat,samples) for i in range(10)]
    outputs = await asyncio.gather(*tasks)
    print(outputs)
    # append output to data
    # current len of data 
    current_len = len(data)
    for i in range(len(outputs)):
        data[i+current_len] = outputs[i]
    sleep(5)
    samples = outputs
    outputs.append(default_samples[0])
    
# write data to json
import json
with open('big_data.json', 'w') as fp:
    json.dump(data, fp)



['### Human Please generate a dialogue between Lisbeth, a young single mother, and Eirik, a restaurant owner discussing their week. Keep it colloquial. ### Assistant Lisbeth: Hei Eirik, hvordan har uka di vært?\nEirik: Hei Lisbeth! Uka har vært hektisk, altså. Vi har hatt mye å gjøre på restauranten. Og du da, hvordan har uka di vært med den lille?\nLisbeth: Åh, vet du, det har vært både oppturer og nedturer. Jeg elsker jo å være mamma, men det kan være litt slitsomt å gjøre alt på egenhånd, ass.\nEirik: Jeg kan tenke meg det, men du er jo en supermamma, så jeg er sikker på at du takler det bra.\nLisbeth: Åh, takk Eirik, det betyr mye å høre det! Så, hvordan går det med restauranten da? Har du noen nye retter på menyen?\nEirik: Ja, faktisk! Vi har lagt til noen spennende vegetarretter og en ny dessert. Det ser ut til at kundene elsker det, så jeg er fornøyd.\nLisbeth: Det høres kjempegodt ut! Jeg må ta med meg datteren min og prøve de nye rettene en dag.\nEirik: Absolutt, det hadde vær

Retrying langchain.chat_models.openai.acompletion_with_retry.<locals>._completion_with_retry in 1.0 seconds as it raised RateLimitError: That model is currently overloaded with other requests. You can retry your request, or contact us through our help center at help.openai.com if the error persists. (Please include the request ID 3f883d0c9c1f0d2308b9b170f897d38f in your message.).


['### Human\nLag et eksempel på en samtale mellom to personer som snakker om jobb og karriere.\n\n### Assistant\nMorten: Hei, Ingrid! Hvordan går det med jobbsøkingen? Har du funnet noe interessant?\n\nIngrid: Hei, Morten! Jo, takk, jeg har faktisk fått et jobbintervju i morgen for en stilling som markedsføringskoordinator. Jeg er ganske spent!\n\nMorten: Åh, det er fantastisk! Gratulerer! Hva slags selskap er det?\n\nIngrid: Takk! Det er et lite reklamebyrå her i byen. De jobber med noen ganske store kunder, så det kan være en fin mulighet for meg å få litt erfaring og bygge nettverket mitt.\n\nMorten: Det høres ut som en drømmejobb for deg! Jeg er sikker på at du vil gjøre det bra på intervjuet. Lykke til og hold meg oppdatert, da!\n\nIngrid: Tusen takk, Morten! Skal gjøre det, vi snakkes snart!', '###Human\nPlease generate another data sample of a similiar sort, for different characters, and keep the language as Norwegian, and keep it oral and colloquial, so include filler words. Ma

Retrying langchain.chat_models.openai.acompletion_with_retry.<locals>._completion_with_retry in 1.0 seconds as it raised APIError: Request failed due to server shutdown {
  "error": {
    "message": "Request failed due to server shutdown",
    "type": "server_error",
    "param": null,
    "code": null
  }
}
 500 {'error': {'message': 'Request failed due to server shutdown', 'type': 'server_error', 'param': None, 'code': None}} <CIMultiDictProxy('Date': 'Tue, 13 Jun 2023 18:15:27 GMT', 'Content-Type': 'application/json', 'Content-Length': '141', 'Connection': 'keep-alive', 'Access-Control-Allow-Origin': '*', 'openai-model': 'gpt-4-0314', 'openai-organization': 'yatek', 'openai-processing-ms': '19557', 'openai-version': '2020-10-01', 'strict-transport-security': 'max-age=15724800; includeSubDomains', 'x-ratelimit-limit-requests': '200', 'x-ratelimit-limit-tokens': '40000', 'x-ratelimit-remaining-requests': '198', 'x-ratelimit-remaining-tokens': '37399', 'x-ratelimit-reset-requests': '59

['### Assistant\nKari: Hei, Erik! Hvordan går det med deg og familien? Hørte at datteren din nylig begynte på skolen.\n\nErik: Hei, Kari! Ja, det stemmer. Det har vært litt av en overgang for henne, men hun liker det veldig godt så langt. Hvordan går det med deg? Har du noen planer for helgen?\n\nKari: Å, det er godt å høre! Ting går bra her også. Helgen min kommer faktisk til å bli ganske travel. Jeg skal i et bryllup på lørdag, og på søndag er det bursdagsfest for min niese.\n\nErik: Wow, det høres ut som en travel helg, men også veldig moro! Håper du får en flott tid på begge arrangementene.\n\nKari: Tusen takk, Erik! Og lykke til med datteren din og skolen. Ha en fin dag videre!\n\nErik: Takk, Kari! Ha en fin dag du også!', '### Assistant\nSimen: Heisann, Mina! Hvordan går det med prosjektet du har jobbet med? Du har vært veldig opptatt i det siste.\n\nMina: Hei, Simen! Jo, prosjektet har vært ganske utfordrende, men jeg tror vi er på rett spor nå. Mange møter og telefoner, vet du.

In [146]:
data

{0: '### Human Please generate a dialogue between Lisbeth, a young single mother, and Eirik, a restaurant owner discussing their week. Keep it colloquial. ### Assistant Lisbeth: Hei Eirik, hvordan har uka di vært?\nEirik: Hei Lisbeth! Uka har vært hektisk, altså. Vi har hatt mye å gjøre på restauranten. Og du da, hvordan har uka di vært med den lille?\nLisbeth: Åh, vet du, det har vært både oppturer og nedturer. Jeg elsker jo å være mamma, men det kan være litt slitsomt å gjøre alt på egenhånd, ass.\nEirik: Jeg kan tenke meg det, men du er jo en supermamma, så jeg er sikker på at du takler det bra.\nLisbeth: Åh, takk Eirik, det betyr mye å høre det! Så, hvordan går det med restauranten da? Har du noen nye retter på menyen?\nEirik: Ja, faktisk! Vi har lagt til noen spennende vegetarretter og en ny dessert. Det ser ut til at kundene elsker det, så jeg er fornøyd.\nLisbeth: Det høres kjempegodt ut! Jeg må ta med meg datteren min og prøve de nye rettene en dag.\nEirik: Absolutt, det hadde 

In [95]:
default_samples[1]

'### Human Please generate a dialogue between Line and Tonje, two Norwegian women in their early thirties discussing their careers and hobbies. Keep it colloquial. ### Assistant Line: Hei Tonje, hvordan har det vært med deg i det siste?\nTonje: Hei Line! Åh, det har vært ganske hektisk, ass. Men jeg liker det, da! Hvordan har det vært med deg?\nLine: Det er bra å høre! Jeg har også hatt det veldig travelt, men jeg har fått noen nye interesser og hobbyer som hjelper meg å koble av. Har du noen nye hobbyer selv?\nTonje: Ja, jeg har begynt å gå på keramikkurs! Det er så gøy og avslappende, ass. Hva med deg, hva har du begynt med?\nLine: Åh, det høres kult ut! Jeg har startet med pole-dance. Det er både en god treningsform og veldig gøy!\nTonje: Seriøst? Wow, det må jeg si, det er noe jeg aldri hadde trodd at du skulle drive med. Men det høres jo kjempeinteressant ut!\nLine: Ja, det er faktisk veldig kult, og jeg har møtt mange nye mennesker gjennom det. Jeg har også fått en ny jobb som gr