In [1]:
import os;
os.chdir(os.path.dirname(os.getcwd()))
import pandas as pd
import numpy as np
import scikit_posthocs as sp
from scipy.stats import friedmanchisquare

Definicja progu p-value

In [2]:
P_VALUE_THRESHOLD = 0.05

Wczytanie danych

In [3]:
df = pd.read_csv('results/all_inverted_estimators.csv', header=0)
df = df[df.dataset != 'load_dermatology']
df = df[df.dataset != 'load_lenses']
df['weighted'].fillna('none', inplace=True)
df['categorical'].fillna('none', inplace=True)
df['numerical'].fillna('none', inplace=True)
df['density'].fillna(0.0, inplace=True)

### density 0.075

df_pivoted = df[df['density'].isin([0.0, 0.075])]
df_pivoted = df_pivoted.pivot_table(index=['dataset', 'estimator', 'metric'], columns=['weighted', 'categorical', 'numerical'],
                                    values='score', aggfunc=np.sum).reset_index()

In [8]:
df

Unnamed: 0,dataset,estimator,weighted,density,categorical,numerical,metric,t_interval_lower,t_interval_upper,score
0,load_balance_scale,AdaBoostClassifier,none,0.000,none,none,accuracy_score,0.873750,0.940484,0.907117
1,load_balance_scale,AdaBoostClassifier,none,0.000,none,none,cohen_kappa_score,0.788042,0.897355,0.842699
2,load_balance_scale,AdaBoostClassifier,none,0.000,none,none,f1_weighted,0.892888,0.945689,0.919288
3,load_balance_scale,AdaBoostClassifier,none,0.000,none,none,precision_weighted,0.922114,0.958483,0.940299
4,load_balance_scale,AdaBoostClassifier,none,0.000,none,none,recall_weighted,0.873750,0.940484,0.907117
5,load_balance_scale,AdaBoostClassifier,weight_by_entropy,0.075,goodall_3,euclidean,accuracy_score,0.838376,0.918409,0.878392
6,load_balance_scale,AdaBoostClassifier,weight_by_entropy,0.075,goodall_3,euclidean,cohen_kappa_score,0.741723,0.865584,0.803653
7,load_balance_scale,AdaBoostClassifier,weight_by_entropy,0.075,goodall_3,euclidean,f1_weighted,0.874471,0.930455,0.902463
8,load_balance_scale,AdaBoostClassifier,weight_by_entropy,0.075,goodall_3,euclidean,precision_weighted,0.949751,0.963997,0.956874
9,load_balance_scale,AdaBoostClassifier,weight_by_entropy,0.075,goodall_3,euclidean,recall_weighted,0.838376,0.918409,0.878392


In [4]:
unweighted = df_pivoted['none'].values
unweighted = unweighted[:, 0]

pagerank = df_pivoted['weight_by_pagerank']
pagerank_np = pagerank.values

Wyliczenia testu friedmana dla wersji niezmodyfikowanej (unweighted) i poszczególnych wersji ważenia przez pagerank

In [5]:
fm, p = friedmanchisquare(unweighted, pagerank_np[:, 0], pagerank_np[:, 1], pagerank_np[:, 2], pagerank_np[:, 3])

print("Friedman for pagerank weighting:")
print(fm)
print('{:.20f}'.format(p))

Friedman for pagerank weighting:
62.30245746691977
0.00000000000095146065


Otrzymana p-value jest dużo mniejsze niż zadany próg istotności, a więc odrzucamy hipotezę zerową że między pomiarami nie ma różnicy. W związky tym przeprowadzamy jeden z testów post hoc w tym wypadku test nemenyi.

In [6]:
if p < P_VALUE_THRESHOLD:
    none_and_pagerank = pagerank.copy()
    none_and_pagerank.insert(0, 'none', df_pivoted['none'])
    post_p = sp.posthoc_nemenyi_friedman(none_and_pagerank.values)
    print("Post hoc test p-value:")
    print(post_p)

ValueError: cannot insert none, already exists

Otrzymana wartości wskazują iż między wersją nieważoną (indeks 0 w dataframe), a pozostałymi nadal istnieje statystycznie wiążąca różnica. Odrzucamy hipotezę zerową mówiącą, iż pomiary nie są różne.

Sprawdzamy jakie jest rankowanie pomiędzy pomiarami.

Pozycja 0 rząd 2 kolumna o wartości 329 oznacza że metoda 0 była lepsza od metody 2 w 329 obserwacjach.

Pozycja 2 rząd 0 kolumna o wartości 231 oznacza że metoda 2 była lepsza od metody 0 w 231 obserwacjach.

Na tej podstawie wnioskuję, że skoro test dowiódł że wyniki metod 0 i 2 są różne, a metoda 0 wygrywa w większej liczbie przypadków to metoda 0 jest metodą skuteczniejszą.

In [7]:
def _print_ranks(df):
    cols = df.shape[1]
    vs = np.zeros((cols, cols))
    np.fill_diagonal(vs, -1)
    df = df.values
    for i in range(cols):
        for j in range(cols):
            if i != j:
                normal_better = np.where(df[:, i] > df[:, j],
                                         True, False)
                s = (normal_better == True).sum()
                vs[i, j] = s
    return pd.DataFrame(vs)

print("Ranks comparison:")
print(_print_ranks(none_and_pagerank))

Ranks comparison:
       0      1      2      3
0   -1.0  185.0  152.0  222.0
1  270.0   -1.0  286.0  151.0
2  177.0  263.0   -1.0  212.0
3  326.0  178.0  235.0   -1.0
