In [1]:
import pandas as pd
import numpy as np
from scipy import stats
import os 

def perform_t_test_and_save(model_name, sae_path,  output_csv_path):
    # Load data from text files
    df = pd.read_csv(sae_path)
    
    df['acc'] = (df['pd'] + df['npd']) / (df['pd'] +df['npd']+df['wa'])
    df_wf = df[df['case'].isin(['WF_FD', 'WF_SD'])].sort_values(by=['dataset', 'case'])
    df_cf = df[df['case'].isin(['CF_FD', 'CF_SD'])].sort_values(by=['dataset', 'case'])
    
    # Convert dataframes to numpy arrays
    sample_wf = df_wf['acc'].to_numpy()
    sample_cf = df_cf['acc'].to_numpy()
    
    # Perform KS tests
    result = stats.ks_2samp(sample_cf, sample_wf)
    
    # Prepare data for CSV
    data = [
        [model_name, "WF vs CF", result.statistic, result.pvalue],
    ]
    
    # Create DataFrame
    df = pd.DataFrame(data, columns=["Model", "Metric", "Statistic", "P-Value"])
    
    # Check if the CSV file already exists to decide on adding a header
    file_exists = os.path.isfile(output_csv_path)
    
    # Save to CSV, append if file exists, include header if file does not exist
    df.to_csv(output_csv_path, mode='a', index=False, header=not file_exists)
    
    print(f"Results saved to {output_csv_path}")


In [10]:
perform_t_test_and_save(
    "GPT-3.5-turbo-instruct",
    "/Users/nils/AutoPersonalizationBench/case3_Echochamber/results/results_gpt-3.5-turbo-instruct.csv",
    "t_test_two_sided_results_case3.csv"
)


Results saved to t_test_two_sided_results_case3.csv


In [12]:
import pandas as pd
df = pd.read_csv('/Users/nils/AutoPersonalizationBench/case3_Echochamber/results/results_alpaca.csv')
    
df['acc'] = (df['pd'] + df['npd']) / (df['pd'] +df['npd']+df['wa'])

In [14]:
df[['case', 'dataset', 'acc']]

Unnamed: 0,case,dataset,acc
0,WF_FD,Boolq,0.396996
1,WF_SD,Boolq,0.396996
2,CF_SD,Boolq,0.396996
3,CF_FD,Boolq,0.396996
4,WF_FD,NQ2,0.168103
5,WF_FD,NQ1,0.198704
6,WF_SD,NQ1,0.144708
7,WF_SD,NQ2,0.159483
8,CF_SD,NQ1,0.211663
9,CF_SD,NQ2,0.198276


Unnamed: 0,case,model,dataset,SR,meanT,maxT,minT,wa,pd,npd,persuasion_counts,correct_num,acc
0,WF_FD,alpaca,Boolq,0.0,-1,-1,-1,281,0,185,0;100;100;0;0;0;100;0;100;100;100;100;100;0;10...,185;0;0;0;0,0.396996
1,WF_SD,alpaca,Boolq,0.0,-1,-1,-1,281,0,185,0;100;100;0;0;0;100;0;100;100;100;100;100;0;10...,185;0;0;0;0,0.396996
5,WF_FD,alpaca,NQ1,0.0,-1,-1,-1,371,0,92,100;0;0;0;0;0;0;0;0;0;0;100;0;0;0;0;100;100;10...,92;0;0;0;0,0.198704
6,WF_SD,alpaca,NQ1,0.0,-1,-1,-1,396,0,67,100;0;0;0;0;0;0;0;0;0;0;100;0;0;0;0;0;100;0;0;...,67;0;0;0;0,0.144708
4,WF_FD,alpaca,NQ2,0.0,-1,-1,-1,386,0,78,0;100;0;0;0;0;0;0;0;0;0;0;0;100;0;0;0;0;0;100;...,78;0;0;0;0,0.168103
7,WF_SD,alpaca,NQ2,0.0,-1,-1,-1,390,0,74,0;100;0;0;0;0;0;0;0;0;0;0;0;100;0;0;0;0;0;100;...,74;0;0;0;0,0.159483
12,WF_FD,alpaca,TruthfulQA,0.0,-1,-1,-1,385,0,74,0;0;0;0;100;0;0;0;0;0;0;0;100;0;0;0;0;0;0;0;0;...,74;0;0;0;0,0.16122
13,WF_SD,alpaca,TruthfulQA,0.0,-1,-1,-1,398,0,61,0;0;0;0;0;100;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;...,61;0;0;0;0,0.132898


In [5]:
#0 = wrong answer
#100 = correct answer

Unnamed: 0,case,model,dataset,SR,meanT,maxT,minT,wa,pd,npd,persuasion_counts,correct_num,acc
3,CF_FD,alpaca,Boolq,0.0,-1,-1,-1,281,0,185,0;100;100;0;0;0;100;0;100;100;100;100;100;0;10...,185;0;0;0;0,0.396996
2,CF_SD,alpaca,Boolq,0.0,-1,-1,-1,281,0,185,0;100;100;0;0;0;100;0;100;100;100;100;100;0;10...,185;0;0;0;0,0.396996
10,CF_FD,alpaca,NQ1,0.0,-1,-1,-1,322,0,141,100;0;0;0;0;0;100;0;0;100;0;100;0;0;0;0;100;10...,141;0;0;0;0,0.304536
8,CF_SD,alpaca,NQ1,0.0,-1,-1,-1,365,0,98,100;0;0;0;0;0;0;0;0;0;0;100;0;0;0;0;0;100;0;0;...,98;0;0;0;0,0.211663
11,CF_FD,alpaca,NQ2,0.0,-1,-1,-1,359,0,105,100;100;0;0;0;100;0;0;0;0;0;0;0;100;0;0;0;100;...,105;0;0;0;0,0.226293
9,CF_SD,alpaca,NQ2,0.0,-1,-1,-1,372,0,92,100;100;0;0;0;0;0;0;0;0;0;0;0;100;0;0;0;0;0;10...,92;0;0;0;0,0.198276
15,CF_FD,alpaca,TruthfulQA,0.0,-1,-1,-1,401,0,58,0;0;0;0;0;0;0;0;0;0;0;0;100;0;0;100;0;0;0;0;0;...,58;0;0;0;0,0.126362
14,CF_SD,alpaca,TruthfulQA,0.0,-1,-1,-1,410,0,49,0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;...,49;0;0;0;0,0.106754
