In [3]:
import os
import pandas as pd

# Define the paths to the directories containing the CSV files
dir_2_steps_rag = "results 2-steps RAG"
dir_common_rag = "results Common RAG"

# Function to read CSV files from a directory and add a 'rag_type' column
def read_and_label_csvs(directory, rag_type):
    dfs = []
    for filename in os.listdir(directory):
        if filename.endswith(".csv"):
            filepath = os.path.join(directory, filename)
            try:
                df = pd.read_csv(filepath, encoding='utf-8')
                df['rag_type'] = rag_type
                columns_to_remove = ['score', 'prompt_tokens', 'augmented_prompt_tokens', 'results_tokens', 'prompt_cost', 'results_cost', 'total_cost']
                df = df.drop(columns=[col for col in columns_to_remove if col in df.columns])
                dfs.append(df)
            except Exception as e:
                print(f"Error reading {filename}: {e}")
    return dfs

# Read and label CSV files from both directories
dfs_2_steps = read_and_label_csvs(dir_2_steps_rag, "2-steps RAG")
dfs_common = read_and_label_csvs(dir_common_rag, "Common RAG")

# Concatenate all DataFrames into a single DataFrame
all_dfs = dfs_2_steps + dfs_common

if all_dfs:
    final_df = pd.concat(all_dfs, ignore_index=True)
    
    # Reorder columns
    desired_order = ['model', 'attempt', 'temperature', 'top_p', 'rag_type', 'prompt', 'augmented_prompt', 'baseline', 'results']
    existing_columns = [col for col in desired_order if col in final_df.columns]
    final_df = final_df[existing_columns]

    print(final_df.head())  # Print the first few rows of the combined DataFrame
    print(final_df.rag_type.value_counts()) #Verificando a distribuição das classes
else:
    print("No CSV files found in the specified directories.")


                    model  attempt  temperature  top_p     rag_type  \
0  gpt-4o-mini-2024-07-18        1          0.1    0.1  2-steps RAG   
1  gpt-4o-mini-2024-07-18        1          0.1    0.5  2-steps RAG   
2  gpt-4o-mini-2024-07-18        1          0.1    0.9  2-steps RAG   
3  gpt-4o-mini-2024-07-18        1          1.0    0.1  2-steps RAG   
4  gpt-4o-mini-2024-07-18        1          1.0    0.5  2-steps RAG   

                                              prompt  \
0  Qual a descrição oficial do código NCM para a ...   
1  Qual a descrição oficial do código NCM para a ...   
2  Qual a descrição oficial do código NCM para a ...   
3  Qual a descrição oficial do código NCM para a ...   
4  Qual a descrição oficial do código NCM para a ...   

                                    augmented_prompt  \
0  \n    Você é um assistente especializado em re...   
1  \n    Você é um assistente especializado em re...   
2  \n    Você é um assistente especializado em re...   
3  \n    Voc