**Ejemplo de test de wilcoxon (test de suma de rango), no pareado y no paramétrico**

In [1]:
from scipy.stats import ranksums
import numpy as np

#valor de la métrica de interés obtenida en cada una de las 10 ejecuciones del algoritmoA en el dataset X:
performance_A=[4.567,7.567,5.678,5.567,8.4545,6.666,7.786,2.345,8.764,9.567]
#valor de la métrica de interés obtenida en cada una de las 10 ejecuciones del algoritmoB en el dataset X:
performance_B=[2.345,1.445,2.345,5.345,3.456,6.567,4.344,6.456,3.443,5.345]

#veo que A tiene mayor media que B
print(np.mean(performance_A),np.mean(performance_B))

#para rechazar que esta diferencia sea por hazar (unos pocos valores inusualmente altos que aumentan la media), hago un test estadístico.
#Como los arrays tienen menos de 30 valores, no puedo suponer que siguen una distribución normal, así que el test tiene que ser no paramétrico
#Como el valor de performance_A[i] no se calcula sobre los mismos datos que performance_B[i], el test es no pareado.
#--> test de wilcoxon, también conocido como test de suma de rango.
#la llamada a ranksums devuelve 2 valores. me interesa el segundo, el p-value. Si p-value<0.05, entonces las medias sí son
#estadísticamente diferentes, y por lo tanto el algoritmo A será estadísticamente mejor que B en la métrica comparada.
_, p = ranksums(performance_A, performance_B)
print(p)



6.69615 4.1091
0.01016520189195626


**Lo mismo, pero preparado para comparar varias métricas para 2 algoritmos.**

In [2]:
from scipy.stats import ranksums
import numpy as np
import pandas as pd

#simulo una matriz de 10 valores para 4 métricas
num_metricas=4
performances_A=np.random.random_sample((num_metricas,10))
performances_B=np.random.random_sample((num_metricas,10))
print("Valores Simulados para el Algoritmo A:\n", performances_A,"\n")
print("Valores Simulados para el Algoritmo B:\n", performances_B,"\n")

#para ir recogiendo los resultados que quiero mostrar
results=list()
signif_indices=[]


#hago el test para cada métrica, comparando los algoritmos A y B
for j in range(num_metricas):
    results.append("Métrica "+str(j))
    results.append("{:.3f}".format(np.mean((performances_A[j]))))
    results.append("{:.3f}".format(np.mean(performances_B[j])))
    
    _, p = ranksums(performances_A[j], performances_B[j])
    if p>=0.05:
        mark = ''
    else:
        mark = '*'
        signif_indices.append(j)
    p ="{:.3f}".format(p)+mark
    results.append(p)

#formatear la salida
table = np.asmatrix(results)
table=table.reshape(num_metricas,4)
table_df=pd.DataFrame(table,columns=["Métrica","Algoritmo A","Algoritmo B","p-valor"])
display(table_df)
print(table_df.to_latex(index=False)) 
    
    
    
    


Valores Simulados para el Algoritmo A:
 [[0.7107378  0.44564102 0.74434326 0.48617433 0.51787065 0.83399063
  0.63952623 0.00629671 0.17417714 0.72782077]
 [0.13150088 0.27713343 0.09685334 0.31779279 0.63292582 0.66109588
  0.11632136 0.9225047  0.99414182 0.45876033]
 [0.93389189 0.57806319 0.63592193 0.31293112 0.27246002 0.90287217
  0.85277096 0.84750892 0.60570152 0.01601203]
 [0.46630717 0.21580542 0.48694281 0.52252237 0.26267187 0.24584593
  0.67251175 0.54594609 0.89343854 0.27820296]] 

Valores Simulados para el Algoritmo B:
 [[0.47986672 0.23658105 0.35745629 0.83962349 0.88570861 0.33584883
  0.59171137 0.37647184 0.02424475 0.78009457]
 [0.10312859 0.90221268 0.66827262 0.01983892 0.92625475 0.23693069
  0.48332212 0.48942517 0.25255302 0.30127539]
 [0.80549213 0.88314493 0.26465374 0.42475428 0.90939711 0.36169416
  0.61642191 0.15410999 0.19403207 0.08739682]
 [0.84914999 0.20074205 0.51982411 0.91551342 0.20716471 0.1607589
  0.4975807  0.03110203 0.19693632 0.98955277

Unnamed: 0,Métrica,Algoritmo A,Algoritmo B,p-valor
0,Métrica 0,0.529,0.491,0.762
1,Métrica 1,0.461,0.438,0.88
2,Métrica 2,0.596,0.47,0.364
3,Métrica 3,0.459,0.457,0.496


\begin{tabular}{llll}
\toprule
  Métrica & Algoritmo A & Algoritmo B & p-valor \\
\midrule
Métrica 0 &       0.529 &       0.491 &   0.762 \\
Métrica 1 &       0.461 &       0.438 &   0.880 \\
Métrica 2 &       0.596 &       0.470 &   0.364 \\
Métrica 3 &       0.459 &       0.457 &   0.496 \\
\bottomrule
\end{tabular}

