In [2]:
# 프리드먼 테스트
import os
from scipy import stats
import pandas as pd
from scipy.stats import friedmanchisquare

In [2]:
###########################################################################
##################### 전체 데이터셋 Friedman test ##########################
###########################################################################

from scipy.stats import chi2

# 데이터셋 준비 (25개의 샘플을 가진 5개의 그룹)
f_data = [
    [0.5641, 0.3699, 0.2146, 0.2786, 0.261, 0.5095,0.4574, 0.5403, 0.2783, 0.1475, 0.1748, 0.2621, 0.2543, 0.2884, 0.2698, 0.1641,
            0.1724, 0.3368, 0.4654, 0.1613, 0.2222, 0.3853, 0.3885, 0.2227, 0.2602],   # DataWig
    [0.7109, 0.4442, 0.2582, 0.2589, 0.3243, 0.5531, 0.4302, 0.7072, 0.3055, 0.1693, 0.1883, 0.3186, 0.2397, 0.3589, 0.2819, 0.1637,
            0.2448, 0.3905, 0.4182, 0.1726, 0.3045, 0.403, 0.5307, 0.267, 0.3151],   # Knn
    [0.6371, 0.7026, 0.5803, 0.683, 0.246, 0.6562, 0.7228, 0.6469, 0.4986, 0.6622, 0.7074, 0.3842, 0.6346, 0.6943, 0.4786, 0.6207,
        0.3185, 0.7025, 0.9933, 1.2148, 1.2584, 0.5213, 0.6863, 0.5643, 1.2588],   # SE
    [0.3897, 0.3094, 0.1894, 0.2339, 0.1793, 0.2007, 0.4645, 0.3267, 0.1784, 0.1316, 0.1755, 0.2209, 0.3013, 0.2815, 0.238,
        0.1228, 0.1658, 0.2836, 0.3547, 0.0722, 0.1892, 0.3054, 0.3885, 0.1573, 0.2238]   # Proposed
]

# Friedman 검정 수행
statistic, p_value = friedmanchisquare(*f_data)

# 결과 출력
print("Friedman 검정 통계량:", statistic)
print("p-value:", p_value)
print("P-value:", "{:.20f}".format(p_value))


# 유의수준(alpha) 설정
alpha = 0.05

# 자유도(degree of freedom) 설정
k = len(f_data)  # 그룹의 수
N = len(f_data[0])  # 샘플의 수
df = k - 1

# 카이 제곱 분포의 임계값 구하기
critical_value = chi2.ppf(1 - alpha, df)

print("Critical value(임계값):", critical_value)


Friedman 검정 통계량: 55.867469879518076
p-value: 4.483607223575429e-12
P-value: 0.00000000000448360722
임계값: 7.814727903251179


In [26]:
###########################################################################
########################### 데이터셋별 확인 ################################
###########################################################################
# 데이터 로드
df = pd.read_csv('./res/0_final/11_iris_ensemble_method_res_final.csv')
# ± 표기 제거
df['RMSE'] = df['RMSE'].str.split(' ±').str[0].astype(float)

# 4개의 메서드 선택
methods_of_interest = ['datawig', 'knn', 'multi', 'chain01_datawig']
df_selected_methods = df[df['method'].isin(methods_of_interest)]

In [27]:
# 프리드먼 검정을 위한 데이터 구성
data = []
for method in methods_of_interest:
    method_data = df_selected_methods[df_selected_methods['method'] == method]['RMSE'].values
    data.append(method_data)

print(data)

[array([0.4289, 0.4311, 0.4419, 0.4457, 0.4534, 0.4528, 0.4538, 0.4655,
       0.4649, 0.4599, 0.4575, 0.4581, 0.4678, 0.4657, 0.4631, 0.4612,
       0.4605, 0.4576, 0.4563, 0.4589, 0.4588, 0.463 , 0.4619, 0.4612,
       0.4649, 0.4623, 0.4608, 0.462 , 0.4604, 0.4624]), array([0.3626, 0.4219, 0.4188, 0.4162, 0.4284, 0.4391, 0.4394, 0.4322,
       0.4337, 0.4314, 0.4246, 0.4242, 0.4373, 0.4379, 0.4378, 0.432 ,
       0.4352, 0.4374, 0.4349, 0.4368, 0.4355, 0.4368, 0.4339, 0.4342,
       0.4356, 0.4348, 0.4326, 0.4353, 0.4331, 0.4339]), array([0.7071, 0.7409, 0.7373, 0.7176, 0.7246, 0.7329, 0.7147, 0.7108,
       0.713 , 0.7212, 0.728 , 0.7337, 0.7351, 0.7364, 0.736 , 0.7311,
       0.7269, 0.7258, 0.7222, 0.719 , 0.7195, 0.719 , 0.7241, 0.7203,
       0.7188, 0.7174, 0.7122, 0.7112, 0.7155, 0.7128]), array([0.3973, 0.3822, 0.407 , 0.4732, 0.45  , 0.396 , 0.3927, 0.3916,
       0.3774, 0.492 , 0.4745, 0.4307, 0.4336, 0.5047, 0.4568, 0.4995,
       0.3944, 0.5528, 0.3815, 0.3701, 0.395 , 

In [5]:
# 프리드먼 검정 수행
statistic, p_value = friedmanchisquare(*data)
# 결과 출력
print("Friedman Test Statistic:", statistic)
print("P-value:", p_value)

# print p_value to decimal not exponential
print("P-value:", "{:.20f}".format(p_value))


NameError: name 'data' is not defined

In [4]:
import os
import pandas as pd
from scipy.stats import friedmanchisquare
from scipy.stats import chi2

# 데이터셋 결과 파일이 있는 디렉토리 경로
directory = './res/0_final/'

# 모든 데이터셋 파일 목록 가져오기
dataset_files = [file for file in os.listdir(directory) if file.endswith('.csv')]

# 각 데이터셋 파일을 읽어와서 DataFrame으로 저장하고 데이터셋별로 Friedman 검정을 수행하기 위한 준비
all_data = []
for file in dataset_files:
    # 파일 경로
    file_path = os.path.join(directory, file)
    
    # 데이터 불러오기
    df = pd.read_csv(file_path)
    
    # ± 표기 제거
    df['RMSE'] = df['RMSE'].str.split(' ±').str[0].astype(float)
    
    # 데이터셋별 RMSE 데이터 수집
    data_dataset = []
    for method in df['method'].unique():
        method_data = df[df['method'] == method]['RMSE'].values
        data_dataset.append(method_data)
    
    # 데이터셋별 RMSE 데이터를 전체 데이터 리스트에 추가
    all_data.append(data_dataset)

# Friedman 검정 수행
statistic, p_value = friedmanchisquare(*all_data)

# 결과 출력
print("Friedman Test Statistic:", statistic)
print("P-value:", p_value)

# p-value를 소수점으로 출력 (지수 표기법 대신)
print("P-value (Decimal):", "{:.20f}".format(p_value))

# 5% 유의 수준에서의 임계값
k = len(df['method'].unique())
N = len(df) // k
critical_value = chi2.ppf(0.95, k - 1)

print("Critical Value:", critical_value)

# 통계적 유의성 검정
if p_value < 0.05:
    print("통계적으로 유의미한 차이가 있습니다.")
else:
    print("통계적으로 유의미한 차이가 없습니다.")


Friedman Test Statistic: 1402847.7362128808
P-value: 0.0
P-value (Decimal): 0.00000000000000000000
Critical Value: 7.814727903251179
통계적으로 유의미한 차이가 있습니다.


In [6]:
# 10_lympho 데이터셋만 해당함.
# 데이터 로드
df = pd.read_csv('./res/0_final/10_lymphography_ensemble_method_res_final.csv')
# ± 표기 제거
df['Accuracy'] = df['Accuracy'].str.split(' ±').str[0].astype(float)

# 5개의 메서드 선택
methods_of_interest = ['8_dynamic + datawig + knn', 'datawig', 'dynamic', 'knn', 'zero']
df_selected_methods = df[df['method'].isin(methods_of_interest)]

# 프리드먼 검정을 위한 데이터 구성
data = []
for method in methods_of_interest:
    method_data = df_selected_methods[df_selected_methods['method'] == method]['Accuracy'].values
    if len(method_data) > 0:  # 빈 데이터가 아닌 경우에만 추가
        data.append(method_data)

print(data)

# 프리드먼 검정 수행
if len(data) > 1:  # 최소 2개 이상의 그룹이 필요
    statistic, p_value = friedmanchisquare(*data)
    # 결과 출력
    print("Friedman Test Statistic:", statistic)
    print("P-value:", p_value)

    # print p_value to decimal not exponential
    print("P-value:", "{:.20f}".format(p_value))
else:
    print("Not enough data for Friedman test.")

KeyError: 'Accuracy'