### **0. Set-up**

In [1]:
# Import libraries and utils
%run '../../utils.ipynb'

In [2]:
#  Get api key
load_dotenv()
OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')

# Set client
client = OpenAI()

In [3]:
# Load dataframe
cleaned_nl_simlex = pd.read_csv("../../../data/dataset/cleaned-nl-simlex-999.csv")

# Select subset
# cleaned_nl_simlex = cleaned_nl_simlex.head(160)

# Convert to tuple
tuples_list = list(zip(cleaned_nl_simlex['word1'], cleaned_nl_simlex['word2']))

In [4]:
# Show results
cleaned_nl_simlex

Unnamed: 0,word1,word2,SimLex999,POS
0,oud,nieuw,1.94,A
1,slim,intelligent,8.19,A
2,hard,moeilijk,4.46,A
3,gelukkig,vrolijk,6.49,A
4,hard,stoer,5.69,A
...,...,...,...,...
992,samenvoegen,verwerven,3.89,V
993,sturen,bijwonen,1.85,V
994,verzamelen,bijwonen,1.06,V
995,opnemen,intrekken,2.29,V


### **1. Define and Evaluate Parameters**

In [5]:
# Define the prompt
prompt = ("Classificeer de semantische gelijkenis van elk woordpaar in de hiërarchische categorieën: "
          "'zeer ongelijk', 'ongelijk', 'neutraal', 'gelijk' en 'zeer gelijk'. "
          "Het antwoord moet strikt voldoen aan de structuur: "
          "[('woord1', 'woord2', <classificatie>), ('woord3', 'woord4', <classificatie>), ...] "
          " Geef geen extra uitleg of context.")

In [6]:
# Define model
model = "gpt-3.5-turbo-0125"

# Set sample size
sample_size = 15

# Delay between individual API calls
delay = 10.0

# Define number of sublists
n_sublists = 24

In [7]:
# Split the list
chunks = split_into_n_lists(tuples_list, n_sublists)

# Count the number of lists
print(len(chunks))

24


In [8]:
# chunks = [
# [('oud', 'nieuw'),
#  ('slim', 'intelligent'),
#  ('hard', 'moeilijk'),],

# [('slecht', 'vreselijk'),
#  ('moeilijk', 'gemakkelijk'),
#  ('slim', 'dom'),],
  
# [('gelukkig', 'vrolijk'),
#   ('hard', 'stoer'),
#   ('gelukkig', 'blij'),],
# ]

In [9]:
# Set the size of chunks
# chunk_size = 90

# Chunk the data
# chunks = chunk_data(tuples_list, chunk_size)

# Count chunks
# print("Count of chunks:", len(chunks))

In [10]:
# Print the prompts for each chunk
print_prompts(chunks, prompt)

Classificeer de semantische gelijkenis van elk woordpaar in de hiërarchische categorieën: 'zeer ongelijk', 'ongelijk', 'neutraal', 'gelijk' en 'zeer gelijk'. Het antwoord moet strikt voldoen aan de structuur: [('woord1', 'woord2', <classificatie>), ('woord3', 'woord4', <classificatie>), ...]  Geef geen extra uitleg of context. --- ('oud', 'nieuw'), ('slim', 'intelligent'), ('hard', 'moeilijk'), ('gelukkig', 'vrolijk'), ('hard', 'stoer'), ('snel', 'razendsnel'), ('gelukkig', 'blij'), ('kort', 'lang'), ('dom', 'stom'), ('vreemd', 'eigenaardig'), ('breed', 'smal'), ('makkelijk', 'moeilijk'), ('moeilijk', 'gemakkelijk'), ('slim', 'dom'), ('krankzinnig', 'gek'), ('gelukkig', 'kwaad'), ('uitgebreid', 'groot'), ('moeilijk', 'simpel'), ('nieuw', 'vers'), ('scherp', 'saai'), ('vlug', 'snel'), ('dom', 'dwaas'), ('prachtig', 'fantastisch'), ('eigenaardig', 'vreemd'), ('gelukkig', 'boos'), ('smal', 'breed'), ('eenvoudig', 'gemakkelijk'), ('oud', 'vers'), ('kennelijk', 'duidelijk'), ('betaalbaar', 

In [11]:
# Load the encoding
encoding = tiktoken.get_encoding("cl100k_base")  # Common encoding for GPT models

# Count the tokens per chunk
token_counts = count_tokens_with_tiktoken(chunks, prompt)
print("Token counts for each formatted prompt:", token_counts)

Token counts for each formatted prompt: [497, 492, 484, 448, 462, 449, 469, 452, 478, 459, 465, 470, 486, 485, 456, 444, 462, 483, 472, 494, 492, 517, 503, 506]


### **2. Extract and Process Data**

In [12]:
# Process each chunk and get results using the OpenAI API
# response = get_responses(chunks, prompt, model, sample_size, delay)

Processing:   0%|          | 0/360 [00:00<?, ?chunk/s]

Processing: 100%|██████████| 360/360 [2:05:23<00:00, 20.90s/chunk]  

Total time taken: 7523.89 seconds





In [13]:
# Define filepath
file_path = '../../../data/response/nl/gpt-3.5-turbo-0125/f5.json'

# Check if the file already exists
if not os.path.exists(file_path):
    with open(file_path, 'w') as f:
        json.dump(response, f)
        print("File saved successfully.")
else:
    print("File already exists. JSON was not saved to prevent overwriting.")

File saved successfully.


In [18]:
response

["[('oud', 'nieuw', 'zeer ongelijk'), ('slim', 'intelligent', 'zeer gelijk'), ('hard', 'moeilijk', 'ongelijk'), ('gelukkig', 'vrolijk', 'neutraal'), ('hard', 'stoer', 'gelijk'), ('snel', 'razendsnel', 'neutraal'), ('gelukkig', 'blij', 'neutraal'), ('kort', 'lang', 'ongelijk'), ('dom', 'stom', 'gelijk'), ('vreemd', 'eigenaardig', 'zeer gelijk'), ('breed', 'smal', 'zeer ongelijk'), ('makkelijk', 'moeilijk', 'zeer ongelijk'), ('moeilijk', 'gemakkelijk', 'ongelijk'), ('slim', 'dom', 'zeer gelijk'), ('krankzinnig', 'gek', 'neutraal'), ('gelukkig', 'kwaad', 'zeer ongelijk'), ('uitgebreid', 'groot', 'neutraal'), ('moeilijk', 'simpel', 'ongelijk'), ('nieuw', 'vers', 'gelijk'), ('scherp', 'saai', 'zeer ongelijk'), ('vlug', 'snel', 'neutraal'), ('dom', 'dwaas', 'gelijk'), ('prachtig', 'fantastisch', 'zeer gelijk'), ('eigenaardig', 'vreemd', 'zeer gelijk'), ('gelukkig', 'boos', 'zeer ongelijk'), ('smal', 'breed', 'zeer ongelijk'), ('eenvoudig', 'gemakkelijk', 'ongelijk'), ('oud', 'vers', 'ongelij

In [14]:
# Extract data with regular expressions into dictionary
data_dict = process_responses_categorical(response)

# Check for values higher/lower then sample size
higher_lower_samples = {key: value for key, value in data_dict.items() if len(value) < sample_size or len(value) > sample_size}
print(higher_lower_samples)

{('werkelijkheid', 'verbeelding'): ['ongelijk', 'zeer ongelijk', 'zeer ongelijk', 'zeer ongelijk', 'zeer ongelijk', 'ongelijk', 'zeer ongelijk', 'ongelijk'], ('deur', 'poort'): ['neutral', 'gelijk', 'gelijk', 'gelijk', 'ongelijk', 'neutraal', 'neutraal', 'neutraal'], ('kat', 'huisdier'): ['gelijk', 'zeer gelijk', 'gelijk', 'gelijk', 'gelijk', 'gelijk', 'zeer gelijk', 'zeer gelijk'], ('blik', 'aluminium'): ['ongelijk', 'ongelijk', 'ongelijk', 'ongelijk', 'zeer ongelijk', 'zeer ongelijk', 'ongelijk', 'zeer ongelijk'], ('botten', 'kaak'): ['gelijk', 'zeer gelijk', 'gelijk', 'gelijk', 'ongelijk', 'gelijk', 'zeer gelijk', 'neutraal'], ('graan', 'tarwe'): ['zeer gelijk', 'zeer gelijk', 'gelijk', 'ongelijk', 'gelijk', 'zeer gelijk', 'zeer gelijk', 'zeer gelijk'], ('huis', 'sleutel'): ['zeer ongelijk', 'zeer ongelijk', 'ongelijk', 'ongelijk', 'ongelijk', 'ongelijk', 'ongelijk', 'zeer ongelijk'], ('bloed', 'vlees'): ['ongelijk', 'ongelijk', 'gelijk', 'ongelijk', 'ongelijk', 'gelijk', 'zeer geli

In [16]:
# Process data and print duplicate word pairs
print_duplicate_word_pairs(cleaned_nl_simlex, data_dict)

           Combined_Columns
628         klaslokaal_gang
629             berg_richel
630               auto_lift
631                bed_bank
632           kleding_knoop
633             kleding_jas
634             nier_orgaan
635              appel_saus
636               kip_steak
637              auto_slang
638           tabak_sigaret
639       student_professor
640            baby_dochter
641             pijp_sigaar
642                melk_sap
643             doos_sigaar
644       appartement_hotel
645             beker_wafel
646                paard_os
647               keel_neus
648           botten_tanden
649         botten_elleboog
650               spek_boon
651               beker_pot
652             bewijs_feit
653   overeenkomst_afspraak
654         verjaardag_jaar
655        woord_referentie
656            auteur_maker
657          atoom_koolstof
658  aartsbisschop_bisschop
659         brief_paragraaf
660        pagina_paragraaf
661         kerktoren_kapel
662            spier

In [17]:
# Convert dict to Pandas DataFrame
df = create_dataframe(data_dict)

# Show results
df

Unnamed: 0,word1,word2,similarity_score_1,similarity_score_2,similarity_score_3,similarity_score_4,similarity_score_5,similarity_score_6,similarity_score_7,similarity_score_8,similarity_score_9,similarity_score_10,similarity_score_11,similarity_score_12,similarity_score_13,similarity_score_14,similarity_score_15
0,oud,nieuw,zeer ongelijk,zeer ongelijk,zeer ongelijk,zeer ongelijk,zeer ongelijk,zeer ongelijk,zeer ongelijk,zeer ongelijk,zeer ongelijk,zeer ongelijk,zeer ongelijk,zeer ongelijk,zeer ongelijk,zeer ongelijk,zeer ongelijk
1,slim,intelligent,zeer gelijk,gelijk,gelijk,gelijk,gelijk,zeer gelijk,gelijk,zeer gelijk,zeer gelijk,zeer gelijk,zeer gelijk,gelijk,gelijk,gelijk,gelijk
2,hard,moeilijk,ongelijk,ongelijk,gelijk,ongelijk,neutraal,ongelijk,ongelijk,zeer ongelijk,ongelijk,neutraal,ongelijk,gelijk,neutraal,neutraal,neutraal
3,gelukkig,vrolijk,neutraal,neutraal,ongelijk,gelijk,neutraal,gelijk,gelijk,ongelijk,gelijk,gelijk,gelijk,gelijk,gelijk,gelijk,ongelijk
4,hard,stoer,gelijk,ongelijk,neutraal,neutraal,zeer ongelijk,neutraal,neutraal,neutraal,neutraal,ongelijk,neutraal,neutraal,ongelijk,neutraal,neutraal
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
951,samenvoegen,verwerven,neutraal,ongelijk,ongelijk,ongelijk,gelijk,ongelijk,gelijk,ongelijk,zeer ongelijk,neutraal,ongelijk,ongelijk,ongelijk,gelijk,ongelijk
952,sturen,bijwonen,ongelijk,ongelijk,ongelijk,ongelijk,ongelijk,ongelijk,ongelijk,ongelijk,ongelijk,ongelijk,zeer ongelijk,ongelijk,ongelijk,ongelijk,ongelijk
953,verzamelen,bijwonen,ongelijk,ongelijk,ongelijk,ongelijk,ongelijk,ongelijk,ongelijk,ongelijk,ongelijk,ongelijk,zeer ongelijk,ongelijk,ongelijk,ongelijk,ongelijk
954,opnemen,intrekken,ongelijk,ongelijk,ongelijk,ongelijk,ongelijk,ongelijk,neutraal,ongelijk,ongelijk,ongelijk,ongelijk,ongelijk,ongelijk,gelijk,ongelijk


In [19]:
# Count null values
count_null_values = df.isnull().sum()
print("Null value counts per column:", count_null_values)

Null value counts per column: word1                    0
word2                    0
similarity_score_1       0
similarity_score_2       0
similarity_score_3       0
similarity_score_4      41
similarity_score_5      41
similarity_score_6      41
similarity_score_7      82
similarity_score_8      82
similarity_score_9     124
similarity_score_10    124
similarity_score_11    166
similarity_score_12    166
similarity_score_13    166
similarity_score_14    166
similarity_score_15    210
dtype: int64


In [24]:
response

["[('oud', 'nieuw', 'zeer ongelijk'), ('slim', 'intelligent', 'zeer gelijk'), ('hard', 'moeilijk', 'ongelijk'), ('gelukkig', 'vrolijk', 'neutraal'), ('hard', 'stoer', 'gelijk'), ('snel', 'razendsnel', 'neutraal'), ('gelukkig', 'blij', 'neutraal'), ('kort', 'lang', 'ongelijk'), ('dom', 'stom', 'gelijk'), ('vreemd', 'eigenaardig', 'zeer gelijk'), ('breed', 'smal', 'zeer ongelijk'), ('makkelijk', 'moeilijk', 'zeer ongelijk'), ('moeilijk', 'gemakkelijk', 'ongelijk'), ('slim', 'dom', 'zeer gelijk'), ('krankzinnig', 'gek', 'neutraal'), ('gelukkig', 'kwaad', 'zeer ongelijk'), ('uitgebreid', 'groot', 'neutraal'), ('moeilijk', 'simpel', 'ongelijk'), ('nieuw', 'vers', 'gelijk'), ('scherp', 'saai', 'zeer ongelijk'), ('vlug', 'snel', 'neutraal'), ('dom', 'dwaas', 'gelijk'), ('prachtig', 'fantastisch', 'zeer gelijk'), ('eigenaardig', 'vreemd', 'zeer gelijk'), ('gelukkig', 'boos', 'zeer ongelijk'), ('smal', 'breed', 'zeer ongelijk'), ('eenvoudig', 'gemakkelijk', 'ongelijk'), ('oud', 'vers', 'ongelij

In [20]:
# Check for rows with at least one null value
rows_with_null = df[df.isnull().any(axis=1)]
rows_with_null

Unnamed: 0,word1,word2,similarity_score_1,similarity_score_2,similarity_score_3,similarity_score_4,similarity_score_5,similarity_score_6,similarity_score_7,similarity_score_8,similarity_score_9,similarity_score_10,similarity_score_11,similarity_score_12,similarity_score_13,similarity_score_14,similarity_score_15
252,werkelijkheid,verbeelding,ongelijk,zeer ongelijk,zeer ongelijk,zeer ongelijk,zeer ongelijk,ongelijk,zeer ongelijk,ongelijk,,,,,,,
253,deur,poort,neutral,gelijk,gelijk,gelijk,ongelijk,neutraal,neutraal,neutraal,,,,,,,
254,kat,huisdier,gelijk,zeer gelijk,gelijk,gelijk,gelijk,gelijk,zeer gelijk,zeer gelijk,,,,,,,
255,blik,aluminium,ongelijk,ongelijk,ongelijk,ongelijk,zeer ongelijk,zeer ongelijk,ongelijk,zeer ongelijk,,,,,,,
256,botten,kaak,gelijk,zeer gelijk,gelijk,gelijk,ongelijk,gelijk,zeer gelijk,neutraal,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
748,dragen,brengen,ongelijk,zeer gelijk,gelijk,,,,,,,,,,,,
749,vertrekken,binnenkomen,ongelijk,ongelijk,neutraal,,,,,,,,,,,,
750,kiezen,stemmenop,zeer ongelijk,ongelijk,zeer gelijk,,,,,,,,,,,,
856,argumenteren,rechtvaardigen,ongelijk,ongelijk,ongelijk,zeer gelijk,ongelijk,ongelijk,ongelijk,ongelijk,ongelijk,ongelijk,ongelijk,ongelijk,ongelijk,ongelijk,


In [21]:
# Extract missing word pairs
missing_word_pair_list = list(zip(rows_with_null['word1'], rows_with_null['word2']))
missing_word_pair_list

[('werkelijkheid', 'verbeelding'),
 ('deur', 'poort'),
 ('kat', 'huisdier'),
 ('blik', 'aluminium'),
 ('botten', 'kaak'),
 ('graan', 'tarwe'),
 ('huis', 'sleutel'),
 ('bloed', 'vlees'),
 ('deur', 'gang'),
 ('god', 'geest'),
 ('vermogen', 'competentie'),
 ('uitbundigheid', 'overvloed'),
 ('bank', 'stoel'),
 ('muur', 'baksteen'),
 ('hoorn', 'trommel'),
 ('orgaan', 'lever'),
 ('kracht', 'macht'),
 ('zin', 'woord'),
 ('muziekgroep', 'parade'),
 ('buik', 'taille'),
 ('wolk', 'storm'),
 ('vreugde', 'trots'),
 ('lawaai', 'gerammel'),
 ('regen', 'mist'),
 ('bier', 'drank'),
 ('man', 'oom'),
 ('appel', 'sap'),
 ('intelligentie', 'logica'),
 ('communicatie', 'taal'),
 ('nerts', 'bont'),
 ('bende', 'menigte'),
 ('oever', 'kust'),
 ('pijpleiding', 'kabel'),
 ('vogel', 'kalkoen'),
 ('bed', 'wieg'),
 ('competentie', 'vermogen'),
 ('wolk', 'nevel'),
 ('avondeten', 'maaltijd'),
 ('balk', 'kooi'),
 ('water', 'zout'),
 ('gevoel', 'intuïtie'),
 ('situatie', 'omstandigheid'),
 ('hogeschool', 'beroep'),
 (

In [348]:
# Make extra API call
formatted_prompt = format_prompt(missing_word_pair_list, prompt)
messages = [{"role": "user", "content": formatted_prompt}]

# Call the OpenAI API
# completion = client.chat.completions.create(
#     model=model,
#     messages=messages,
#     n=1)

# Store the response content
missing_word_pairs_response = [completion.choices[0].message.content]

In [351]:
# Extract data with regular expressions into dictionary
missing_word_pairs_dict = process_responses(missing_word_pairs_response)
missing_word_pairs_dict

{('rondzwerven', 'dwalen'): [8.0],
 ('slagen', 'falen'): [7.0],
 ('besteden', 'redden'): [2.0],
 ('vertrekken', 'gaan'): [5.0],
 ('komen', 'bijwonen'): [3.0],
 ('weten', 'geloven'): [4.0],
 ('verzamelen', 'ontmoeten'): [3.0],
 ('maken', 'verdienen'): [1.0],
 ('vergeten', 'negeren'): [7.0],
 ('vermenigvuldigen', 'toevoegen'): [3.0],
 ('krimpen', 'groeien'): [5.0],
 ('aankomen', 'komen'): [7.0],
 ('slagen', 'proberen'): [2.0],
 ('accepteren', 'ontkennen'): [2.0],
 ('aankomen', 'vertrekken'): [3.0],
 ('akkoord gaan', 'afwijken'): [3.0],
 ('sturen', 'ontvangen'): [2.0],
 ('winnen', 'domineren'): [6.0],
 ('toevoegen', 'verdelen'): [1.0],
 ('doden', 'wurgen'): [4.0],
 ('verwerven', 'krijgen'): [7.0]}

In [359]:
# Iterate over the DataFrame and replace missing values
for index, row in df.iterrows():
    word_pair = (row['word1'], row['word2'])
    # Check if the current value is NaN
    if pd.isna(row['similarity_score_15']):
        if word_pair in missing_word_pairs_dict:
            # Extract the first element from the list to get the scalar value
            df.at[index, 'similarity_score_15'] = missing_word_pairs_dict[word_pair][0]

# Print to check if there are any NaN values left in 'similarity_score_15'
print(df[df['similarity_score_15'].isna()])

Empty DataFrame
Columns: [word1, word2, similarity_score_1, similarity_score_2, similarity_score_3, similarity_score_4, similarity_score_5, similarity_score_6, similarity_score_7, similarity_score_8, similarity_score_9, similarity_score_10, similarity_score_11, similarity_score_12, similarity_score_13, similarity_score_14, similarity_score_15]
Index: []


In [366]:
# Filter the DataFrame based on pairs
filtered_df = df[df.apply(lambda row: (row['word1'], row['word2']) in missing_word_pair_list, axis=1)]

# Select only the similarity_score_15 column
result = filtered_df[['word1', 'word2', 'similarity_score_15']]

# Print or output the result
print(result)

                word1       word2  similarity_score_15
817       rondzwerven      dwalen                  8.0
818            slagen       falen                  7.0
819          besteden      redden                  2.0
820        vertrekken        gaan                  5.0
821             komen    bijwonen                  3.0
822             weten     geloven                  4.0
823        verzamelen   ontmoeten                  3.0
824             maken   verdienen                  1.0
825          vergeten     negeren                  7.0
826  vermenigvuldigen   toevoegen                  3.0
827           krimpen     groeien                  5.0
828          aankomen       komen                  7.0
829            slagen    proberen                  2.0
830        accepteren   ontkennen                  2.0
831          aankomen  vertrekken                  3.0
832      akkoord gaan    afwijken                  3.0
833            sturen   ontvangen                  2.0
834       

In [None]:
# Manually fix inconsistencies
# df.loc[(df['word1'] == 'weten') & (df['word2'] == 'begrijpen'), 'similarity_score_10'] = 8.00

# Check value
# df.loc[(df['word1'] == 'weten') & (df['word2'] == 'begrijpen')]

Unnamed: 0,word1,word2,similarity_score_1,similarity_score_2,similarity_score_3,similarity_score_4,similarity_score_5,similarity_score_6,similarity_score_7,similarity_score_8,similarity_score_9,similarity_score_10
870,weten,begrijpen,6.0,6.0,7.0,8.0,7.0,7.5,7.0,8.0,7.5,8.0


In [367]:
# Check for rows with at least one null value
rows_with_null = df[df.isnull().any(axis=1)]
rows_with_null

Unnamed: 0,word1,word2,similarity_score_1,similarity_score_2,similarity_score_3,similarity_score_4,similarity_score_5,similarity_score_6,similarity_score_7,similarity_score_8,similarity_score_9,similarity_score_10,similarity_score_11,similarity_score_12,similarity_score_13,similarity_score_14,similarity_score_15


In [368]:
df

Unnamed: 0,word1,word2,similarity_score_1,similarity_score_2,similarity_score_3,similarity_score_4,similarity_score_5,similarity_score_6,similarity_score_7,similarity_score_8,similarity_score_9,similarity_score_10,similarity_score_11,similarity_score_12,similarity_score_13,similarity_score_14,similarity_score_15
0,oud,nieuw,0.1,0.10,0.01,0.00,0.05,0.2,0.10,0.10,0.0,0.05,0.0,2.0,0.03,0.10,0.18
1,slim,intelligent,0.9,0.95,0.95,8.00,9.50,0.9,0.95,0.95,0.4,0.95,9.0,9.0,0.97,0.95,0.79
2,hard,moeilijk,0.4,0.20,0.10,2.00,2.00,0.1,0.05,0.20,0.1,0.10,2.0,3.0,0.00,0.05,0.39
3,gelukkig,vrolijk,0.8,0.80,0.80,6.00,8.50,0.7,0.85,0.85,0.6,0.80,8.0,8.0,0.83,0.80,0.76
4,hard,stoer,0.7,0.40,0.45,2.00,6.00,0.5,0.05,0.65,0.4,0.20,4.0,6.0,0.61,0.50,0.44
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
992,samenvoegen,verwerven,3.0,1.50,2.11,2.06,4.00,3.0,3.00,4.00,3.0,2.00,4.8,1.0,1.00,5.50,4.00
993,sturen,bijwonen,0.0,1.00,1.56,0.00,1.00,0.0,0.00,1.00,1.0,1.00,0.0,1.0,1.00,0.00,1.00
994,verzamelen,bijwonen,1.0,1.00,1.56,0.00,5.00,0.0,3.00,3.00,1.0,2.00,0.0,1.0,4.00,2.50,1.33
995,opnemen,intrekken,1.0,2.00,1.11,0.00,1.00,0.0,1.00,2.00,2.0,1.00,0.0,1.0,2.00,0.00,1.00


In [369]:
# Define file_path
file_path = '../../../data/prompts/nl/gpt-3.5-turbo-0125/f5.csv'

# Check if the file already exists
if not os.path.exists(file_path):
    df.to_csv(file_path, index=False)
    print("File saved successfully.")
else:
    print("File already exists. Dataframe was not saved to prevent overwriting.")

File saved successfully.
