# Projekt MSP1 / 2024
Cílem tohoto projektu je se seznámit s programovými nástroji využívaných ve statistice a osvojit si základní procedury. Projekt není primárně zaměřen na efektivitu využívání programového vybavení (i když úplně nevhodné konstrukce mohou mít vliv na hodnocení), ale nejvíce nás zajímají vaše statistické závěry a způsob vyhodnocení. Dbejte také na to, že každý graf musí splňovat nějaké podmínky - přehlednost, čitelnost, popisky.

V projektu budete analyzovat časy běhu šesti různých konfigurací algoritmů. Ke každé konfiguraci vzniklo celkem 200 nezávislých běhů, jejichž logy máte k dispozici v souboru [logfiles.zip](logfiles.zip).

Pokud nemáte rozchozené prostředí pro pro spouštění Jupyter notebooku, můžete využití službu [Google Colab](https://colab.google/). Jakákoliv spolupráce, sdílení řešení a podobně je zakázána!

S případnými dotazy se obracejte na Vojtěcha Mrázka (mrazek@fit.vutbr.cz).

__Odevzdání:__ tento soubor (není potřeba aby obsahoval výstupy skriptů) do neděle 27. 10. 2024 v IS VUT. Kontrola bude probíhat na Pythonu 3.12.3 (standardní instalace Ubuntu); neočekává se však to, že byste používali nějaké speciality a nekompatibilní knihovny. V případě nesouladu verzí a podobných problémů budete mít možnost reklamace a prokázání správnosti funkce. Bez vyplnění vašich komentářů a závěrů do označených buněk nebude projekt hodnocen!

__Upozornění:__ nepřidávejte do notebooku další buňky, odpovídejte tam, kam se ptáme (textové komentáře do Markdown buněk)

__Tip:__ před odevzdáním resetujte celý notebook a zkuste jej spustit od začátku. Zamezíte tak chybám krokování a editací, kdy výsledek z buňky na konci použijete na začátku.

__OTÁZKA K DOPLNĚNÍ:__

Michal Novák (xnovak3g)

## Načtení potřebných knihoven
Načtěte knihovny, které jsou nutné pro zpracování souborů a práci se statistickými funkcemi.

In [149]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import scipy.stats as stats
import seaborn as sns
import json
from zipfile import ZipFile

## Načtení dat do DataFrame
Ze souboru `logfiles.zip` umístěném ve stejném adresáři načtěte data a vytvořte Pandas DataFrame.

Výsledky jsou uložené ve formátu JSON - pro zpracování použijte knihovnu `json`.
Můžete využít následující kostru - je vhodné pracovat přímo se ZIP souborem. Jedinou nevýhodou může být to, že vám bude vracet _byte_ objekt, který musíte přes funkci `decode` zpracovat.

Upravte také pomocí funkce `.astype()` datové typy patřičných sloupců.

```py
data = []
with ZipFile("logfiles.zip") as zf:
    for filename in zf.namelist():
        # TODO test názvu souboru
        with zf.open(filename, "r") as f:
            pass # vytvořte slovník

df = pd.DataFrame(data)
df
```

In [None]:
# init empty list
data = []

# open zip file
with ZipFile("logfiles.zip") as zf:
    # browse all files
    for filename in zf.namelist():
        # read only json files
        if filename.endswith('.json'):
            with zf.open(filename, "r") as f:
                # read file contents, parse json to dict and save to list
                data.append(json.loads(f.read().decode()))

# convert list to dataframe
df = pd.DataFrame(data)
# set types
df = df.astype({'run': int, 'runtime': float})
df

## Analýza a čištění dat
Vhodným způsobem pro všechny konfigurace analyzujte časy běhů a pokud tam jsou, identifikujte hodnoty, které jsou chybné. Vyberte vhodný graf, který zobrazí samostatně jednotlivé konfigurace.

In [None]:
# use interquartile range to find 'outliers'
# compute values for each configuration
runtimes = df[['configuration','runtime']].groupby('configuration')
q1 = runtimes.quantile(0.25)
q3 = runtimes.quantile(0.75)
irq = q3 - q1

lower_bound = q1 - 1.5 * irq
upper_bound = q3 + 1.5 * irq

# add computed lower and upper bounds to dataframe (create copy of original dataframe)
df = df.join(lower_bound, on='configuration', rsuffix='_lower')
df = df.join(upper_bound, on='configuration', rsuffix='_upper')

# print out outliers
display(df[(df['runtime'] < df['runtime_lower']) | (df['runtime'] > df['runtime_upper'])])

# plot
df[["runtime","configuration"]].plot.box("configuration", xlabel='Configuration', ylabel="Runtime")
plt.title("Runtimes for each configuration")
plt.show()

__OTÁZKA K DOPLNĚNÍ:__

_Objevily se nějaké chybné hodnoty? Proč tam jsou s ohledem na to, že se jedná o běhy algoritmů? Proč jste zvolili tento typ grafu?_

Chybné hodnoty se objevily. Většinou se jedná o běhy, které skončily statusem "SEGFAULT" nebo "TIME LIMIT", ale vyskytly se i některé se statusem "SUCCESS".
- TIME LIMIT - zde se mohlo například jednat o zacyklení algoritmu v "nekonečné smyčce", nebo čekání na událost, která nenastala
- SEGFAULT - chybný přístup do paměti (mimo hranice vyhrazené paměti), pravděpodobně neošetřený vstup
- SUCCESS - pravděpodobně chyba v algoritmu, která se projevuje specifickým vstupem - zkracuje nebo prolužuje dobu běhu

Zvolený graf je tzv. boxplot (krabicový graf). V boxplotu můžeme vizualizovat data pomocí kvartilů. Zároveň tak můžeme pozorovat i chybné hodnoty (odlehlé prvky), které leží pod prvním kvartilem (vespod), nebo nad třetím kvartilem (nahoře).  


Vyčistěte dataframe `df` tak, aby tam tyto hodnoty nebyly a ukažte znovu analýzu toho, že čištění dat bylo úspěšné. Odtud dále pracujte s vyčištěným datasetem.

In [None]:
# filter dataframe (remove outliers)
df = df[(df['runtime'] >= df['runtime_lower']) & (df['runtime'] <= df['runtime_upper'])]
# remove added columns
df.drop(['runtime_lower', 'runtime_upper'], axis=1)

## Deskriptivní popis hodnot
Vypište pro jednotlivé konfigurace základní deskriptivní parametry.  

__TIP__ pokud výsledky uložíte jako Pandas DataFrame, zobrazí se v tabulce.

In [None]:
# describe data 
df.groupby('configuration')['runtime'].describe()

__OTÁZKA K DOPLNĚNÍ:__

_Okomentujte, co všechno můžeme z parametrů vyčíst._

Z tabulky lze pořadě vyčíst: 
- count: počet nechybných běhů pro každou konfiguraci
- mean: průměrnou hodnotu běhů pro danou konfiguraci
- std: směrodatnou odchylku běhů pro danou konfiguraci
- min, max: minimální a maximální hodnota běhů pro danou konfiguraci
- 25%: první kvartil
- 50%: medián (druhý kvartil)
- 75%: třetí kvartil

## Vizualizace
Vizualizujte časy běhů algoritmů tak, aby byl v jednom grafu zřejmý i rozptyl hodnot, avšak bylo možné porovnání. Zvolte vhodný graf, který pak níže komentujte.

In [None]:
fig,axes = plt.subplots()

sns.violinplot(data=df.groupby('configuration')['runtime'].apply(list).to_dict(), ax=axes)

axes.set_title('Runtimes for each configuration')
axes.yaxis.grid(True)
axes.set_xlabel('Configuration')
axes.set_ylabel('Runtime')
plt.show()

__OTÁZKA K DOPLNĚNÍ:__

_Okomentujte  výsledky z tabulky._

## Určení efektivity konfigurací algoritmů
Nás ale zajímá, jaká konfigurace je nejrychlejší. Z výše vykresleného grafu můžeme vyloučit některé konfigurace. Existuje tam však minimálně jedna dvojice, u které nedokážeme jednoznačně určit, která je lepší - pokud nebudeme porovnávat pouze extrémní hodnoty, které mohou být dané náhodou, ale celkově. Proto proveďte vhodný test významnosti - v následující části diskutujte zejména rozložení dat (i s odkazem na předchozí buňky, variabilitu vs polohu a podobně). Je nutné každý logický krok a výběry statistických funkcí komentovat. 

Vužijte vhodnou funkci z knihovny `scipy.stats` a funkci poté __implementujte sami__ na základě základních matematických funkcí knihovny `numpy` případně i funkcí pro výpočet vybraného rozložení v [scipy.stats](https://docs.scipy.org/doc/scipy/reference/stats.html). Při vlastní implementaci není nutné se primárně soustředit na efektivitu výpočtu (není potřeba využít všechny funkce numpy, můžete použít normální cykly a podobně - v hodnocení však bude zahrnuta přehlednost a neměly by se objevit jasné chyby, jako je zvýšení třídy složitosti a podobně).

__OTÁZKA K DOPLNĚNÍ:__

_Jaká data budete zkoumat? Jaké mají rozložení a parametry (např. varianci) a jaký test použijete? Jaká je nulová hypotéza? Jak se liší variabilita a poloha vybraných konfigurací?_

Zkoumat se budou běhy jednotlivých konfigurací algoritmů. Jejich rozložení je nejprve nutno zjistit. Podle prvotního odhadu by se mohlo jednat o normální rozdělení, což lze vyzkoumat pomocí p-hodnot Shapiro–Wilk testu a dále ověřit vizuálně pomocí histogramu. Pro porovnání 2 konfigurací s normálním rozložením je vhodný dvouvýběrový Studentův t-test. Prvně ale musíme určit, zda jsou dat závislá, či nezávislá. V zadání je napsáno "budete analyzovat časy běhu šesti různých konfigurací algoritmů", z čehož je vyvodit, že data jsou nezívislá, jelikož se neprovádělo měření nad jedním algoritmem, ale nad více algoritmy. Data tedy musí být analyzována nepárovým t-testem.




Hypotézy budou stanoveny následovně:
- $H_0$: Obě porovnávané konfigurace mají stejný průměr
- $H_1$: Obě porovnávané konfigurace mají různý průměr

In [None]:
# extract data for each configuration
data_dict = df.groupby('configuration')['runtime'].apply(np.array).to_dict()

# create subplots
fig, axes = plt.subplots(nrows=2, ncols=3, figsize=(12, 8)) 
axes_lin = axes.reshape(-1)

# check if data have normal distribution
for index, (config, data) in enumerate(data_dict.items()):
    # Shapiro–Wilk test
    stat, p_value = stats.shapiro(data)
    print(f'{config}: p-hodnota = {p_value}')
    
    # histogram with Gaussian curve
    sns.histplot(data, kde=True, stat="density", bins=30, color='blue', ax=axes_lin[index])
    axes_lin[index].set_xlabel('Hodnoty')
    axes_lin[index].set_ylabel('Hustota')
    axes_lin[index].set_title(config)

# show plot
fig.suptitle(f'Histogramy s Gaussovou křivkou')
fig.tight_layout()
plt.show()

# compare all configurations
results = []
for index, (config1, data1) in enumerate(data_dict.items()):
    for config2, data2 in list(data_dict.items()):
        if config1 == config2:
            continue
        t_stat, _ = stats.ttest_ind(data1, data2, equal_var=False)
        results.append({'A': config1, 'B': config2, 't_stat': t_stat})

# compare results and order algorithms by results
rdf = pd.DataFrame(results)
# count number of positive 't_stat' values (== how many configurations are better than current)
find_order = lambda x: f"{len(list(filter(lambda y: y >= 0, x))) + 1}. fastest" 
tmp_data = rdf.groupby('A')['t_stat'].apply(find_order).sort_values()
# show as dataframe
pd.DataFrame({'Configuration': tmp_data.keys(), 'Order': tmp_data.values})



__OTÁZKA K DOPLNĚNÍ:__

_Jaký je závěr statistického testu?_

Nejrychlejší konfigurce je konfigurace s označením 'config1'.






### Vlastní implementace
Implementujte stejný test pomocí knihovních funkcí a ukažte, že je výsledek stejný.

In [None]:
# TODO vlastni implementace zvoleneho testu

def independent_t_test(x1: np.ndarray, x2: np.ndarray) -> float:
    
    # 1/(N-1) * SUM((x_i-x_mean)^2)
    def std_squared(x: np.ndarray, mean: float) -> None:
        # sum 'insides'
        tmp = [(xi - mean)**2 for xi in x]
        
        # sum
        tmp_sum = sum(tmp)
        
        # divide by (count-1)
        return tmp_sum/(len(x)-1)
    
    
    x1_mean = x1.mean()
    x2_mean = x2.mean()
    
    std_1_squared = std_squared(x1, x1_mean)
    std_2_squared = std_squared(x2, x2_mean)
    
    d = (x1_mean-x2_mean)/(((std_1_squared/len(x1))+(std_2_squared/len(x2)))**(1/2))
    return d
    
    
independent_t_test(np.array(data_dict['config1']), np.array(data_dict['config2']))


In [None]:
# run independent t-test for every configuration pair
rdf['custom_t_stat'] = rdf.apply(lambda row: independent_t_test(data_dict[row['A']], data_dict[row['B']]), axis=1)

# compare custom t-test result with scipy t-test result
rdf['comparation'] = rdf.apply(lambda row: abs(row['custom_t_stat'] - row['t_stat']) < 1e-9, axis=1)
rdf