# Porovnání kvality algoritmů
Mějme data, která říkají, jak dlouho běžely různé konfigurace algoritmů. Naším úkolem bude určit, která konfigurace algoritmu byla nejefektivnější (nejrychlejší)

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from IPython.display import display

Prvně načteme potřebná data (uměle vygenerovaná)

In [None]:
df = pd.read_csv("runs.csv.gz")
df

Zkusíme si vykreslit všechny histogramy do grafu a zkusíme opticky určit, který algoritmus je lepší.

In [None]:
plt.figure(figsize=(8,8)) ###


Evidentně se nejedná o normální rozložení, takže nemůžeme pracovat s průměry. Navíc každé rozložení je jiné a budeme muset provést statistický test. Prvně si vytvoříme seznam `confs`, který nám bude říkat unikátní konfigurace.

In [None]:
confs ###

Dále určíme medián časů pro všechny konfigurace.

In [None]:
df_meds ###

Dále chceme porovnat, zda jsou rozdíly signifikantní.

Wikipedie:
 > In statistics, the Mann–Whitney U test is a __nonparametric test__ of the null hypothesis that, for randomly selected values $X$ and $Y$ from two populations, the probability of $X$ being greater than $Y$ is equal to the probability of $Y$ being greater than $X$.

Dokumentace [zdroj](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.mannwhitneyu.html)
> The Mann-Whitney U test is a nonparametric test of the null hypothesis that the distribution underlying sample x is the same as the distribution underlying sample y. It is often used as a test of of difference in location between distributions.
> - `mannwhitneyu` is for independent samples. For related / paired samples, consider `scipy.stats.wilcoxon`.
> - The Mann-Whitney U test is a non-parametric version of the t-test for independent samples. When the the means of samples from the populations are normally distributed, consider `scipy.stats.ttest_ind`.



 Jinými slovy:
 - Jedná se o nepárový test (tzn. není to o změně jednoho parametru a vše ostatní zůstává stejné)
 - nulová hypotéza je to, že X a Y jsou přibližně stejné ($ P(X>Y) == P(X < Y ) $ )
 - tuto hypotézu zamítáme, pokud je pvalue menší než naše stanovená hodnota (0.05)
 - pokud je pvalue < 0.05, říkáme, že je velký rozdíl mezi $X$ a $Y$

In [None]:
# Načteme potřebnou funkci
from scipy.stats import mannwhitneyu ###
# a vytvoříme df2 s multiindexem (bude se nám hodit pro rychlejší indexování)
df2 ###

Nyní si spočítáme porovnání dvou konfigurací (`confC` a `confE`). Porovnáme mediány (nemůžeme průměry) a spočítáme výsledek MW U-testu.

Výsledek nám říká, že množiny `confC` a `confE` jsou podobné. Přestože je medián hodnot lepší pro `confE`, __nemůžeme říct, že by tato konfigurace byla lepší__.

Jak udělat přehledně všechny konfigurace? Vytvoříme si dataframe pro _p-values_ a druhý pro výsledek, zda je medián menší či větší než druhý. To uděláme pro všechny konfigurace.

In [None]:
allr, allc = [], [] ###
df_pvals = pd.DataFrame(allr) ###
display(df_pvals) ###
df_comps = pd.DataFrame(allc) ###
display(df_comps) ###

Tím nám vznikly dvě tabulky, kde kladná hodnota je tehdy, pokud konfigurace řádku je rychlejší než sloupec. Nyní nám stačí určit všechny konfigurace, kde platí __nulová hypotéza__ jako `NaN`.

In [None]:
df_comps ###

# Závěr
Konfigurace můžeme seřadit jako:
$B <  \{A, D\} < \{C, E\}$