In [1]:
%pylab --no-import-all notebook
import sys 
sys.path.append("../modules")

Populating the interactive namespace from numpy and matplotlib


In [23]:
import pandas as pd
from copy import copy
import warnings
warnings.filterwarnings('ignore')

In [3]:
import os 
path = os.getcwd()
path = path.replace(path.split('/')[-1],'')

In [4]:
valid_path = path + "Tabulky a výsledky/"

In [5]:
FS = pd.read_hdf(valid_path + '/Feature Selection/' +'FeatureSelection.h5', 'First_dataset')
FS2 = pd.read_hdf(valid_path + '/Feature Selection/' +'FeatureSelection.h5', 'Second_dataset')

In [53]:
first = pd.read_hdf(valid_path + 'Results.h5','First_dataset')
second = pd.read_hdf(valid_path + 'Results.h5','Second_dataset')

### V tomto jupyteru jsou moje poznámky k výběru příznaků z dat (Feature Selection) 

Na počátku jsem si prošel metody výběru příznaků, které jsou uvedeny na stránkách SciKit-learnu (https://scikit-learn.org/stable/modules/feature_selection.html#univariate-feature-selection)

Tyto metody jsem si vzal jako takový seznam věcí, co bych mohl vyzkoušet. 

# Jako první jsem se zaměřil na univariate ("jednorozměrné") výběry. 
Zde jsou na výběr metody jako třeba: SelectKBest, SelectPercentile atd.
Já ale tyto metody nepoužil jako takové, protože se liší jen v tom, jakým způsobem vyberou těch několik nejlepších příznaků. Proto mě spíše, než samotné metody, zajímaly způsoby, jakými jsou hodnoceny příznaky. 

Těchto způsobů je na výběr hned několik: **chi2, mutual_info_classif, f_clasif**

>**chi2** - v našem případě použít nejde, jelikož funguje jen s nezápornýmy čísly

## **mutual_info_classif**  
- resp. mutual information = vzájemná informace
- vzájemná informace mezi dvěma náhodnými veličinami nebo náhodnými vektory je míra "množství informace", získané o jedné proměnné skrze znalost (pozorování) druhé. [1]

- Vzájemnou informaci můžeme definovat, buď pomocí entropie náhodné veličiny $I(X,Y) = H(X)-H(X|Y)$, kde <br>
     \begin{equation}
     H(X) = -\sum_{x \in \mathbb{X}} p_X(x) \log p_X(x)\   \text{a}  \\
     H(X|Y) = -\sum_{y \in \mathbb{Y}} p_Y(y) \sum_{x \in \mathbb{X}} p_X(x|Y = y) \log p_X(x|Y = y). 
     \end{equation}
     nebo jako informační divergenci 
     \begin{equation}
     I(X,Y) = \sum_{y \in \mathbb{Y}}\sum_{x \in \mathbb{x}} p_{X,Y}(x,y) \log \frac{p_{X,Y}(x,y)}{p_X(x) \cdot p_Y(y)}. \text{[2]}
     \label{divergence}
     \end{equation} <br>
    
- Když X a Y jsou nezávislé, pak je vzájemná informace rovna 0. Čím větší je závislost mezi X a Y, tím je jejich vzájemná informace vyšší. 
- Vzájemná informace měří, na rozdíl od korelace, všechny _vztahy_ mezi veličinami nejenom lineární závislost. 
- Pokud za X dosadím libovolný příznak a za Y dosadím labely, pak výpočtem získáme vzájemnou informaci ("_velikost_" vztahu) mezi příznakem X a jednotlivými labely (režimy udržení) 

## **f_classif**
- jedná se o výpočet (ANOVA) F-hodnot mezi jedotlivými příznaky a labely  (stejně rozměrné vektory $X$ a $Y$ s počtem prvků $n$)<br><br>
\begin{equation}
F(X,Y) = \frac{s^2_B(X,Y)}{s^2_W(X,Y)} \ \text{, kde}
\end{equation}

\begin{equation}
s^2_W(X,Y) = \frac{1}{2n-2} \Big(  \sum_{j=1}^{n} (X_{j} - \overline{X})^2 + \sum_{j=1}^{n} (Y_{j} - \overline{Y})^2 \Big)
\end{equation}

\begin{equation}
s^2_B(X,Y) = \frac {n \cdot \big( \overline{X} - \mu \big)^2 + n \cdot \big( \overline{Y} - \mu \big)^2}{1}   
\end{equation}

\begin{equation}
\mu =\frac{\sum_{j=1}^{n} X_{j} + \sum_{j=1}^{n} Y_j}{2n}
\end{equation}

- Velká F-hodnota i-tého příznaku znamená, že tento příznak má lepší "diskriminační schopnosti". Proto je hodnotíme příznaky podle jejich F-hodnot. [3] 

- Správný postup pro výběr nejlepších příznaků:
    - určení optimálního počtu příznaků ($k$)
    - po určení počtu je třeba vytvořit $k$ skupin (podmnožin) a do nich přidáváme příznaky podle velikosti jejich F-hodnoty
        - do všech skupin dáme ten "nejlepší" příznak, pak do k-1 skupin přidáme druhý nejlepší atd. 
        
        - resp. při označení $X_1, X_2 \ \text{až} \ X_k$, kde index určuje jejich pořadí od nejlepšího k nejhoršímu. vypadají pak skupiny následovně
            - 1.skup ~ $\{X_1\}$ <br>
            - 2.skup ~ $\{X_1, X_2\}$ <br>
            - 3.skup ~ $\{X_1,X_2,X_3\}$ <br>
            - atd.
             

## FS s použitím Mutual information
- nejdříve jsem si pomocí funkce mutal_info_classif vypočítal vzájemnou informaci příznaků a labelů
- poté jsem si seřadil příznaky podle velikosti inforamce
- rozdělil jsem si příznaky do skupin "definovaných" výše
    - rozhodl jsem se použít maximálně polovinu všech příznaků tzn. $k$ = 15 
- hromadný přehled všech hodnot bude na konci sekce

### Nejdříve první dataset
- z příznaků jsem vytvořil 15 skupin, které jsem pak chtěl použít pro trénování a testování modelů (ADA,GB)
- protože chci vyzkoušet i jiné metody a tady by mě čekalo minimálně 30*10 "běhů" pro každou konfiguraci parametrů (hloubka stromů, počet stormů, ...), tak použiju jen __tři skupiny příznaků__ - sk5, sk10, sk15.  

In [7]:
mi1 = pd.read_hdf(valid_path + '/Feature Selection/' +'FeatureSelection.h5', 'First_dataset_MI')

In [8]:
mi1[[("Důležitost podle metody", "mutual_info"),
     ("Skupiny příznaků","sk 5"),
     ("Skupiny příznaků","sk 10"),
     ("Skupiny příznaků","sk 15")]].head(15)

Unnamed: 0_level_0,Důležitost podle metody,Skupiny příznaků,Skupiny příznaků,Skupiny příznaků
Unnamed: 0_level_1,mutual_info,sk 5,sk 10,sk 15
MVar 16,0.5,1,1,1
MVar 15,0.496,1,1,1
MVar 14,0.487,1,1,1
MVar 13,0.476,1,1,1
MVar 12,0.466,1,1,1
EMM 10,0.457,0,1,1
MVar 11,0.454,0,1,1
EMM 12,0.454,0,1,1
EMM 8,0.451,0,1,1
EMM 14,0.449,0,1,1


#### Výsledky 

- Nejlepší výsledky každé skupiny
    - každou skupinu jsem zkoušel i z různými hyperparametry modelů a z té jsem vybral ten nejlepší výsledek pro každou skupinu
    - stejně to dělám i u ostatních tabulek níže (u MI a ANOVA)

In [9]:
pd.read_hdf(valid_path + 'Results.h5','MI_first')

Unnamed: 0_level_0,Metrika,Accuracy,F míra,F míra,F míra,F míra,F míra
Unnamed: 0_level_1,Režim,Unnamed: 2_level_1,H-mód,L-mód,ELM,průměrná,std
skupina,model,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
sk 5,Ada,0.829,0.866,0.748,0.803,0.806,"[0.039, 0.045, 0.055, 0.029, 0.035]"
sk 5,GB,0.83,0.866,0.754,0.803,0.808,"[0.037, 0.044, 0.048, 0.03, 0.033]"
sk 10,Ada,0.866,0.894,0.874,0.802,0.856,"[0.027, 0.04, 0.036, 0.023, 0.021]"
sk 10,GB,0.869,0.895,0.887,0.805,0.862,"[0.03, 0.041, 0.027, 0.037, 0.023]"
sk 15,Ada,0.867,0.895,0.878,0.802,0.858,"[0.027, 0.04, 0.036, 0.024, 0.021]"
sk 15,GB,0.869,0.895,0.887,0.806,0.863,"[0.031, 0.042, 0.027, 0.039, 0.025]"


Na prvním datasetu bych jako nejlepší výběr označil skupinu příznaků sk10, protože má stejné skóre jako skupina sk15, ale obsahuje o 5 příznaků méně. <br>

Průměrná F-míra skupiny sk10 s použitím AdaBoost je v rámci chyby stejná jako při použití všech příznaků, ale GradientBoost má při použití všech příznaků vyšší hodnotu průměrné F-míry ( $0.893 \ \pm \ 0.024$ ). 
    - Výsledky predikce se všemi příznaky jsou v tabulkách níže


### Nyní druhý "obecnější dataset"
- opět jsem z vybral tři skupiny

In [10]:
mi2 = pd.read_hdf(valid_path + '/Feature Selection/' +'FeatureSelection.h5', 'Second_dataset_MI')

In [11]:
mi2[[("Důležitost podle metody", "mutual_info"),
     ("Skupiny příznaků","sk 5"),
     ("Skupiny příznaků","sk 10"),
     ("Skupiny příznaků","sk 15")]].head(15)

Unnamed: 0_level_0,Důležitost podle metody,Skupiny příznaků,Skupiny příznaků,Skupiny příznaků
Unnamed: 0_level_1,mutual_info,sk 5,sk 10,sk 15
MVar 16,0.365,1,1,1
MVar 15,0.362,1,1,1
MVar 14,0.359,1,1,1
EMM 12,0.359,1,1,1
MM 6,0.358,1,1,1
MM 8,0.357,0,1,1
EMM 10,0.356,0,1,1
EMM 14,0.356,0,1,1
H-alpha,0.356,0,1,1
EMM 8,0.355,0,1,1


#### Výsledky

In [12]:
pd.read_hdf(valid_path + 'Results.h5','MI_second')

Unnamed: 0_level_0,Metrika,Accuracy,F míra,F míra,F míra,F míra,F míra
Unnamed: 0_level_1,Režim,Unnamed: 2_level_1,H-mód,L-mód,ELM,průměrná,std
skupina,model,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
sk 5,Ada,0.798,0.804,0.794,0.68,0.759,"[0.122, 0.155, 0.159, 0.175, 0.114]"
sk 5,GB,0.801,0.8,0.808,0.688,0.765,"[0.121, 0.157, 0.145, 0.15, 0.101]"
sk 10,Ada,0.804,0.809,0.803,0.689,0.767,"[0.12, 0.152, 0.153, 0.155, 0.105]"
sk 10,GB,0.802,0.803,0.811,0.686,0.767,"[0.122, 0.153, 0.143, 0.156, 0.101]"
sk 15,Ada,0.806,0.807,0.807,0.695,0.769,"[0.119, 0.157, 0.148, 0.148, 0.105]"
sk 15,GB,0.8,0.801,0.81,0.685,0.765,"[0.124, 0.155, 0.145, 0.156, 0.104]"


Na druhém datasetu jsou opět skupiny sk10 a sk15 přibližně stejně kvalitní. Obě tyto skupiny jsou potom srovnatelné v rámci chyby s výsledkem bez výběru příznaků.
    - Výsledky predikce se všemi příznaky jsou v tabulkách níže

## FS s použitím ANOVA
- stejně jako u MI jsem si nejdříve ohodnotil jednotlivé příznaky, nyní ale pomocí f_classif
- opět jsem si seřadil příznaky podle hodnoty, rozdělil je do 15 skupin a otestoval tři z nich

### První dataset

In [13]:
f1 = pd.read_hdf(valid_path + '/Feature Selection/' + 'FeatureSelection.h5','First_dataset_ANOVA')

In [14]:
f1[[("Důležitost podle metody", "f_classif"),
    ("Skupiny příznaků","sk 5"),
    ("Skupiny příznaků","sk 10"),
    ("Skupiny příznaků","sk 15")]].head(15)

Unnamed: 0_level_0,Důležitost podle metody,Skupiny příznaků,Skupiny příznaků,Skupiny příznaků
Unnamed: 0_level_1,f_classif,sk 5,sk 10,sk 15
EMM 16,16914,1,1,1
MM 16,16476,1,1,1
EMM 14,15742,1,1,1
MM 14,15512,1,1,1
EMM 12,14294,1,1,1
MM 12,14194,0,1,1
EMM 10,12646,0,1,1
MM 10,12607,0,1,1
MVar 16,11537,0,1,1
EMM 8,10899,0,1,1


#### Výsledky

In [15]:
pd.read_hdf(valid_path + 'Results.h5','ANOVA_first')

Unnamed: 0_level_0,Metrika,Accuracy,F míra,F míra,F míra,F míra,F míra
Unnamed: 0_level_1,Režim,Unnamed: 2_level_1,H-mód,L-mód,ELM,průměrná,std
skupina,model,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
sk 5,Ada,0.752,0.882,0.683,0.518,0.694,"[0.066, 0.046, 0.075, 0.084, 0.059]"
sk 5,GB,0.862,0.893,0.873,0.792,0.853,"[0.032, 0.041, 0.033, 0.044, 0.026]"
sk 10,Ada,0.87,0.897,0.876,0.807,0.86,"[0.025, 0.038, 0.036, 0.027, 0.02]"
sk 10,GB,0.868,0.894,0.886,0.804,0.862,"[0.03, 0.04, 0.028, 0.043, 0.025]"
sk 15,Ada,0.87,0.897,0.879,0.808,0.861,"[0.027, 0.039, 0.036, 0.025, 0.021]"
sk 15,GB,0.87,0.896,0.887,0.807,0.863,"[0.031, 0.04, 0.029, 0.04, 0.026]"


Stejně jako u vzájemné informace (MI), tak i tady u ANOVA jsou opět skupiny sk10 a sk15 stejně dobré a zase jsou srovnatelné v rámci chyby s výsledkem bez výběru příznaků.


### Druhý dataset

In [16]:
f2 = pd.read_hdf(valid_path + '/Feature Selection/' + 'FeatureSelection.h5','Second_dataset_ANOVA')

In [17]:
f2[[("Důležitost podle metody", "f_classif"),
    ("Skupiny příznaků","sk 5"),
    ("Skupiny příznaků","sk 10"),
    ("Skupiny příznaků","sk 15")]].head(15)

Unnamed: 0_level_0,Důležitost podle metody,Skupiny příznaků,Skupiny příznaků,Skupiny příznaků
Unnamed: 0_level_1,f_classif,sk 5,sk 10,sk 15
EMM 16,10053,1,1,1
EMM 14,9669,1,1,1
MM 16,9621,1,1,1
MM 14,9379,1,1,1
EMM 12,9099,1,1,1
MM 12,8929,0,1,1
EMM 10,8347,0,1,1
MM 10,8259,0,1,1
EMM 8,7448,0,1,1
MM 8,7406,0,1,1


#### Výsledky

In [18]:
pd.read_hdf(valid_path + 'Results.h5','ANOVA_second')

Unnamed: 0_level_0,Metrika,Accuracy,F míra,F míra,F míra,F míra,F míra
Unnamed: 0_level_1,Režim,Unnamed: 2_level_1,H-mód,L-mód,ELM,průměrná,std
skupina,model,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
sk 5,Ada,0.633,0.796,0.598,0.296,0.563,"[0.146, 0.154, 0.142, 0.204, 0.125]"
sk 5,GB,0.783,0.79,0.793,0.63,0.738,"[0.126, 0.171, 0.145, 0.207, 0.105]"
sk 10,Ada,0.705,0.805,0.677,0.422,0.635,"[0.145, 0.157, 0.153, 0.241, 0.118]"
sk 10,GB,0.791,0.796,0.805,0.64,0.747,"[0.122, 0.164, 0.139, 0.203, 0.101]"
sk 15,Ada,0.803,0.802,0.806,0.695,0.768,"[0.121, 0.162, 0.15, 0.138, 0.107]"
sk 15,GB,0.8,0.799,0.807,0.69,0.765,"[0.121, 0.155, 0.148, 0.147, 0.102]"


Tato poslední tabulka jako jediná neukazuje, že skupina sk10 dosahuje stejného (resp. lepšího) skóre jako skupina sk15. 

## Vyhodnocení MI a ANOVA

- Tyto dva způsovy ohodnocení příznaků a jejich následný výběr (skupiny příznků) sice nepřispěly ke zlepšení F míry modelu, ale zjistil jsem, že při použití 10 vybraných příznaků (viz tabulky), jsem schopen získat přibližně stejnou přesnost jako při použití všech 29 příznaků a to za mnohem kratší čas. 
    - tohle platí pro oba dva modely
- Pro AdaBoost model je lepší vybírat příznaky podle vzájemné informace, protože už při 5 příznacích dodahuje F míry srovnatelné se skupinami s více příznaky.
- Oproti tomu pro GradientBoost se jako přijatelnější výběr ukázal ten podle ANOVA. Důvod je stejný jako pro MI a Adu. 

# SelectFromModel 
Po použití jednorozměrných výběrů jsem se přesunul v seznamu dále. Jako další bylo rekurentní hledání. Rekurentní hlednání, ale není nic moc zajímavého a neliší se od toho co jsem dělal dříve. Je to prostě jen vyzkoušení všech možných kombinací ( celkem $2^{29}$) s tím, že si pak vyberu tu kombinaci, se kterou měl model největší přesnost resp. F-míru.

Proto jsem rekurentní hledání přeskočil a vrhnul se rovnou na SelectFromModel. Tato metoda využívá tzv. feature_importances_ (důležitosti příznaků), které jsou vedlejším produktem některých metod. Tento atribut má třeba lineární SVC, ale taky všechny modely obsahující rozhodovaci stromy. tzv. Tree-based FS. 

Podle článku [4] se důležitost příznaku počítá podle toho, kolikrát je použit k rozdělení (splitu) a jak moc bodů rozdělí
- je normovaná na jedničku, proto se dá říct, že hodnota této důležitosti udává v _procentech_, jak moc je daný příznak používán k rozhodování
- podrobnější popis v budoucnu (potřebuju projít ten článek podrobněji)

Na základě této myšlenky můžu tedy vyhodit ty příznaky, podle kterých se málo rozhoduje a nechat si jen ty podstatné.
Zde už nepoužívám vytváření skupin příznaků jako dříve, a to z časových důvodů (trvalo by to zbytečně moc dlouho). Namísto toho používám výběr podle mediánu. 
- výběr podle mediánu je podobný předchozímu způsobu výběru, protože při použití mediánu, vyberu přesně polovinu příznaků


### Cross Fold 
Při výběru příznaků pomocí feature_importanes_ jsem narazil na malý problém. Uvědomil jsem si, že když budu vybírat příznaky s použitím celého datasetu, tak bych měl možná problém s overfitingem. Ať chci nebo ne, tak pro získání důležitosti příznků, musím natrénovat model na datech a pak ho otestovat na jiných. V tuto chvíli ale přicházím o informaci, kterou bych mohl získat z dat, na kterých testuju. Když zase použiju k tréninku i testovací data tak, by mi mohlo docházet o onomu overfitingu. 

V reálu nebudu mít k dispozici data, která budu chtít predikovat, ale při výběru příznaků, bych měl využít všeho co mám. 

Jako možné řešení problému je Cross Fold validation. Stejný princip, který používám při vyhodnocování kvality modelu si našel další uplatnění.
- rozdělím tedy data do 10 částí (já je rozdělil po signálech, každý můj dataset se skládá z 10 signálů) a střídavě určuji důležitost příznaku (při poměru 9:1). Výsledná důležitost příznaků je brána jako průměrná důležitost přes všech 10 tréninků.


## První dataset

In [19]:
FS.drop(columns=[("Důležitost podle metody", "f_classif"),
                 ("Důležitost podle metody", "mutual_info"),
                 ("Výběr podle střední hodnoty", "AdaBoost"),
                 ("Výběr podle střední hodnoty", "GB"),
                 ("Výběr podle střední hodnoty", "Random Forest")]).head()

Unnamed: 0_level_0,Důležitost podle metody,Důležitost podle metody,Důležitost podle metody,Výběr podle mediánu,Výběr podle mediánu,Výběr podle mediánu
Feature,AdaBoost,GB,Random Forest,AdaBoost,GB,Random Forest
H-alpha,0.046,0.059,0.012,True,True,False
1.d SGF,0.162,0.13,0.019,True,True,False
2.d SGF,0.066,0.1,0.007,True,True,False
MM 4,0.01,0.026,0.015,False,True,False
MM 6,0.015,0.017,0.023,False,False,True


- kompletní tabulka důležitostí příznaků je na konci sekce

### Výsledky
Protože jsem se pokoušel ladit parametry ještě před pokusy o výběr příznaků, tak jsou v tabulkách níže uvedeny i tyto výsledky. Od výsledků, kde byl použit výběr se liší "hodnotou" **all**.

**all** znamená, že jsou v tomto případě použity všechy příznaky (tzn. bez výběru příznaků) 
- H-alpha: Ano
- 1.derivace Sabvitzky-Golay filtru: Ano
- 2.derivace Sabvitzky-Golay filtru: Ano
- Klouzavý průměr (MM) s délkami oken: 4,6,8,10,12,14,16
- Exponenciální klouzavý průměr (EMM) s délkami oken: 4,6,8,10,12,14,16
- Klouzavý rozptyl (MV) s délkami: 5,6,7,8,9,10,11,12,13,14,15,16

Ke zkratce **all** jsem se rozhodl, protože kdybych vypisoval všechny příznaky, tak by tabulka byla dost nepřehledná. <br>
Zde zavedená _konvence_ zkratky **all** je využívána až do konce.

#### Referenční hodnota pro první dataset
výsledky budu porovnávat s nejlepším výsledkem Skrytého Markovova Modelu

In [20]:
fd = pd.read_csv(valid_path + 'Hidden Markov Model/' + 'Cross_Fold_Modif_HMM_Hm.csv')
fd.sort_values(['F míra průměrná'], ascending=False).head(1)

Unnamed: 0,Kombinace rysů,délka úseku,Accuracy,Chyby,F míra stavu 0,F míra stavu 1,F míra stavu 2,F míra průměrná,Precision stavu 0,Precision stavu 1,Precision stavu 2,Recall stavu 0,Recall stavu 1,Recall stavu 2
4118,"(1, 1, 1, 1, 1)","(6, 10, 16, 16)",0.867752,432.2,0.896963,0.85099,0.82581,0.857921,0.922208,0.89455,0.788421,0.874542,0.828148,0.871895


##### AdaBoost
Jako první je AdaBoost. V tabulce jsou uvedeny výsledky pro dané hyperparametry (criterion, number of estimators, learning rate, max depth) a příznaky.
<br>
Tabulka je seřazena podle průměrné F míry.

In [24]:
first.loc[("Ada",)].sort_values([('F míra','průměrná')],ascending=False).head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,Unnamed: 6_level_0,Unnamed: 7_level_0,Unnamed: 8_level_0,Metrika,Accuracy,F míra,F míra,F míra,F míra,F míra
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Režim,Unnamed: 10_level_1,H-mód,L-mód,ELM,průměrná,std
criterion,N_estim,lr,MaxDepth,H-alpha,1.D,2.D,MM,EMM,MVar,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2
default,1000,0.1,1,1,1,1,"[12,14,16]","[4,14,16]","[5,9,13,14,15,16]",0.893,0.915,0.894,0.848,0.886,"[0.025, 0.034, 0.032, 0.03, 0.022]"
default,1000,0.1,1,1,1,1,all,all,all,0.893,0.915,0.894,0.848,0.886,"[0.026, 0.035, 0.033, 0.03, 0.022]"
default,400,0.5,1,1,1,1,"[12,14,16]","[4,14,16]","[5,9,13,14,15,16]",0.892,0.914,0.891,0.848,0.884,"[0.025, 0.034, 0.033, 0.032, 0.023]"
default,400,0.1,1,1,1,1,"[12,14,16]","[4,14,16]","[5,9,13,14,15,16]",0.89,0.914,0.895,0.839,0.883,"[0.028, 0.037, 0.032, 0.031, 0.023]"
default,400,0.1,1,1,1,1,all,all,all,0.891,0.914,0.894,0.84,0.883,"[0.027, 0.037, 0.031, 0.031, 0.022]"


##### Gradient boosting

In [25]:
first.loc[("GB",)].sort_values([('F míra','průměrná')],ascending=False).head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,Unnamed: 6_level_0,Unnamed: 7_level_0,Unnamed: 8_level_0,Metrika,Accuracy,F míra,F míra,F míra,F míra,F míra
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Režim,Unnamed: 10_level_1,H-mód,L-mód,ELM,průměrná,std
criterion,N_estim,lr,MaxDepth,H-alpha,1.D,2.D,MM,EMM,MVar,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2
default,400,0.1,3,1,1,1,"[4,16]","[4,16]","[5,6,11,13,14,15,16]",0.9,0.922,0.895,0.862,0.893,"[0.028, 0.035, 0.027, 0.035, 0.024]"
default,400,0.1,3,1,1,1,all,all,all,0.899,0.921,0.895,0.86,0.892,"[0.028, 0.035, 0.028, 0.039, 0.025]"
default,1000,0.1,3,1,1,1,"[4,16]","[4,16]","[5,6,11,13,14,15,16]",0.898,0.92,0.894,0.859,0.891,"[0.028, 0.037, 0.026, 0.035, 0.024]"
default,1000,0.1,3,1,1,1,all,all,all,0.899,0.921,0.892,0.86,0.891,"[0.028, 0.035, 0.029, 0.038, 0.025]"
default,400,0.1,3,0,0,0,"[6,8,10,12]","[8,10,12,14,16]","[11,12,13,14,15,16]",0.869,0.895,0.887,0.806,0.863,"[0.031, 0.042, 0.027, 0.039, 0.025]"


##### Random Forests
- jelikož pro RF jsem používal větší množství možných hyperparametrů, tak v tabulce níže je pouze 5 nejlepších konfigurací
    - tyto konfigurace jsou po výběru příznaků. 
- u RF se jako u jediného modelu ukázal výběr příznaků, zbytečný, neboť nejlepších výsledků dosahují se všemi příznaky viz druhá tabulka níže

In [26]:
first.loc[(first.index.get_level_values('MM')!="all")\
          &(first.index.get_level_values('Model')=="RF")].sort_values([('F míra','průměrná')],ascending=False).head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,Unnamed: 6_level_0,Unnamed: 7_level_0,Unnamed: 8_level_0,Unnamed: 9_level_0,Metrika,Accuracy,F míra,F míra,F míra,F míra,F míra
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Režim,Unnamed: 11_level_1,H-mód,L-mód,ELM,průměrná,std
Model,criterion,N_estim,lr,MaxDepth,H-alpha,1.D,2.D,MM,EMM,MVar,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
RF,entropy,90,,5,0,0,0,"[6,8,10,12,14]","[6,8,10,12,14,16]","[11,12,13,14,15,16]",0.87,0.898,0.885,0.805,0.863,"[0.03, 0.04, 0.025, 0.031, 0.023]"
RF,entropy,50,,5,0,0,0,"[6,8,10,12,14]","[6,8,10,12,14,16]","[11,12,13,14,15,16]",0.87,0.898,0.886,0.805,0.863,"[0.03, 0.039, 0.025, 0.031, 0.023]"
RF,entropy,220,,5,0,0,0,"[6,8,10,12,14]","[6,8,10,12,14,16]","[11,12,13,14,15,16]",0.87,0.899,0.886,0.805,0.863,"[0.031, 0.039, 0.025, 0.031, 0.023]"
RF,entropy,210,,5,0,0,0,"[6,8,10,12,14]","[6,8,10,12,14,16]","[11,12,13,14,15,16]",0.87,0.898,0.886,0.805,0.863,"[0.03, 0.039, 0.025, 0.032, 0.023]"
RF,entropy,10,,5,0,0,0,"[6,8,10,12,14]","[6,8,10,12,14,16]","[11,12,13,14,15,16]",0.87,0.898,0.885,0.805,0.863,"[0.031, 0.04, 0.026, 0.031, 0.023]"


In [27]:
first.loc[("RF",)].sort_values([('F míra','průměrná')],ascending=False).head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,Unnamed: 6_level_0,Unnamed: 7_level_0,Unnamed: 8_level_0,Metrika,Accuracy,F míra,F míra,F míra,F míra,F míra
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Režim,Unnamed: 10_level_1,H-mód,L-mód,ELM,průměrná,std
criterion,N_estim,lr,MaxDepth,H-alpha,1.D,2.D,MM,EMM,MVar,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2
entropy,10,,5,1,1,1,all,all,all,0.882,0.909,0.889,0.826,0.875,"[0.028, 0.037, 0.024, 0.029, 0.022]"
entropy,30,,5,1,1,1,all,all,all,0.882,0.91,0.888,0.825,0.874,"[0.029, 0.037, 0.024, 0.029, 0.022]"
entropy,105,,5,1,1,1,all,all,all,0.88,0.908,0.889,0.821,0.873,"[0.027, 0.035, 0.023, 0.025, 0.02]"
entropy,45,,5,1,1,1,all,all,all,0.88,0.908,0.888,0.822,0.873,"[0.03, 0.038, 0.023, 0.029, 0.022]"
entropy,40,,5,1,1,1,all,all,all,0.88,0.908,0.889,0.821,0.873,"[0.029, 0.037, 0.023, 0.027, 0.022]"


### Vyhodnocení
- všechny nově použité metody (RF, AdaBoost, GradientBoosting) překonaly v průměrné F-míře původní HMM
    - i nejhorší RF je v rámci chyby stejně kvalitní jako HMM (nechci říkat přesný protože neporovnávám podle přesnosti ale podle F-míry)
- jako nejlepší z nic se ukázal GB s průměrnou F-mírou $0.893 \pm 0.024$
- u všech metod se s použitím vybraných příznaků nezměnila kvalita modelu (stejné hodnoty u většiny metrik v rámci chyby), ale zkrátil se čas potřebný k predikci.
    - do času predikce počítám čas potřebný k výpočtu všech potřebných příznaků + čas predikce jako takové 

## Druhý dataset

In [28]:
FS2.drop(columns=[("Důležitost podle metody", "f_classif"),
                  ("Důležitost podle metody", "mutual_info"),
                  ("Výběr podle střední hodnoty", "AdaBoost"),
                  ("Výběr podle střední hodnoty", "GB"),
                  ("Výběr podle střední hodnoty", "Random Forest")]).head()

Unnamed: 0_level_0,Důležitost podle metody,Důležitost podle metody,Důležitost podle metody,Výběr podle mediánu,Výběr podle mediánu,Výběr podle mediánu
Feature,AdaBoost,GB,Random Forest,AdaBoost,GB,Random Forest
H-alpha,0.052,0.056,0.009,True,True,False
1.d SGF,0.161,0.135,0.015,True,True,False
2.d SGF,0.074,0.102,0.005,True,True,False
MM 4,0.035,0.022,0.016,True,True,False
MM 6,0.03,0.025,0.021,True,True,False


#### Referenční hodnota pro druhý dataset

In [29]:
sd = pd.read_csv(valid_path + 'Hidden Markov Model/' + 'Cross_Fold_Modif_HMM_Obecne.csv')
sd.sort_values(['F míra průměrná'], ascending=False).head(1)

Unnamed: 0,Kombinace rysů,délka úseku,Accuracy,Chyby,F míra stavu 0,F míra stavu 1,F míra stavu 2,F míra průměrná,Precision stavu 0,Precision stavu 1,Precision stavu 2,Recall stavu 0,Recall stavu 1,Recall stavu 2
2206,"(1, 0, 0, 1, 1)","(4, 8, 16, 16)",0.81153,606.3,0.793359,0.763951,0.683584,0.746965,0.857688,0.797517,0.639613,0.748688,0.778536,0.770808


#### AdaBoost

In [30]:
second.loc[("Ada",)].sort_values([('F míra','průměrná')],ascending=False).head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,Unnamed: 6_level_0,Unnamed: 7_level_0,Unnamed: 8_level_0,Metrika,Accuracy,F míra,F míra,F míra,F míra,F míra
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Režim,Unnamed: 10_level_1,H-mód,L-mód,ELM,průměrná,std
criterion,N_estim,lr,MaxDepth,H-alpha,1.D,2.D,MM,EMM,MVar,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2
default,1000,0.1,1,1,1,1,"[4,6,8,12,14,16]","[4,16]","[7,10,15,16]",0.827,0.826,0.82,0.716,0.787,"[0.115, 0.155, 0.135, 0.189, 0.107]"
default,1000,0.1,1,1,1,1,all,all,all,0.827,0.826,0.818,0.715,0.786,"[0.113, 0.155, 0.133, 0.189, 0.105]"
default,400,0.5,1,1,1,1,"[4,6,8,12,14,16]","[4,16]","[7,10,15,16]",0.821,0.823,0.814,0.714,0.784,"[0.116, 0.151, 0.137, 0.172, 0.104]"
default,400,0.1,1,1,1,1,"[4,6,8,12,14,16]","[4,16]","[7,10,15,16]",0.824,0.824,0.819,0.705,0.783,"[0.119, 0.16, 0.138, 0.211, 0.113]"
default,400,0.1,1,1,1,1,all,all,all,0.826,0.825,0.818,0.707,0.783,"[0.111, 0.153, 0.131, 0.203, 0.106]"


#### Gradient Boosting

In [31]:
second.loc[("GB",)].sort_values([('F míra','průměrná')],ascending=False).head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,Unnamed: 6_level_0,Unnamed: 7_level_0,Unnamed: 8_level_0,Metrika,Accuracy,F míra,F míra,F míra,F míra,F míra
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Režim,Unnamed: 10_level_1,H-mód,L-mód,ELM,průměrná,std
criterion,N_estim,lr,MaxDepth,H-alpha,1.D,2.D,MM,EMM,MVar,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2
default,400,0.1,3,1,1,1,"[4,16]","[4,6,16]","[5,6,11,14,15,16]",0.833,0.837,0.816,0.725,0.793,"[0.114, 0.14, 0.139, 0.208, 0.108]"
default,400,0.1,3,1,1,1,all,all,all,0.832,0.837,0.817,0.722,0.792,"[0.115, 0.139, 0.139, 0.204, 0.107]"
default,1000,0.1,3,1,1,1,"[4,16]","[4,6,16]","[5,6,11,14,15,16]",0.831,0.835,0.816,0.72,0.79,"[0.114, 0.138, 0.138, 0.214, 0.108]"
default,1000,0.1,3,1,1,1,all,all,all,0.829,0.834,0.813,0.715,0.788,"[0.115, 0.139, 0.139, 0.207, 0.107]"
default,400,0.1,3,1,0,0,"[6,8]","[8,10,12,14]","[14,15,16]",0.802,0.803,0.811,0.686,0.767,"[0.122, 0.153, 0.143, 0.156, 0.101]"


#### Random Forest
- i u druhého datasetu se "prokázalo", že RF dosahuje lepších výsledků se všemi přiznaky 

In [32]:
second.loc[(second.index.get_level_values('MM')!="all")\
          &(second.index.get_level_values('Model')=="RF")].sort_values([('F míra','průměrná')],ascending=False).head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,Unnamed: 6_level_0,Unnamed: 7_level_0,Unnamed: 8_level_0,Unnamed: 9_level_0,Metrika,Accuracy,F míra,F míra,F míra,F míra,F míra
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Režim,Unnamed: 11_level_1,H-mód,L-mód,ELM,průměrná,std
Model,criterion,N_estim,lr,MaxDepth,H-alpha,1.D,2.D,MM,EMM,MVar,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
RF,entropy,240,,3,0,0,0,"[8,10]","[6,8,10,12,14,16]","[11,12,13,14,15,16]",0.804,0.81,0.799,0.673,0.761,"[0.104, 0.144, 0.12, 0.159, 0.086]"
RF,entropy,200,,3,0,0,0,"[8,10]","[6,8,10,12,14,16]","[11,12,13,14,15,16]",0.803,0.81,0.799,0.675,0.761,"[0.104, 0.144, 0.12, 0.154, 0.085]"
RF,entropy,200,,5,0,0,0,"[6,8,10,12,14]","[6,8,10,12,14,16]","[11,12,13,14,15,16]",0.803,0.81,0.799,0.675,0.761,"[0.104, 0.144, 0.12, 0.154, 0.085]"
RF,entropy,120,,3,0,0,0,"[8,10]","[6,8,10,12,14,16]","[11,12,13,14,15,16]",0.803,0.811,0.798,0.672,0.761,"[0.105, 0.144, 0.12, 0.158, 0.086]"
RF,entropy,120,,5,0,0,0,"[6,8,10,12,14]","[6,8,10,12,14,16]","[11,12,13,14,15,16]",0.803,0.811,0.798,0.672,0.761,"[0.105, 0.144, 0.12, 0.158, 0.086]"


In [33]:
second.loc[("RF",)].sort_values([('F míra','průměrná')],ascending=False).head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,Unnamed: 6_level_0,Unnamed: 7_level_0,Unnamed: 8_level_0,Metrika,Accuracy,F míra,F míra,F míra,F míra,F míra
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Režim,Unnamed: 10_level_1,H-mód,L-mód,ELM,průměrná,std
criterion,N_estim,lr,MaxDepth,H-alpha,1.D,2.D,MM,EMM,MVar,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2
entropy,15,,5,1,1,1,all,all,all,0.818,0.827,0.807,0.694,0.776,"[0.113, 0.142, 0.135, 0.175, 0.098]"
entropy,40,,5,1,1,1,all,all,all,0.817,0.826,0.808,0.69,0.775,"[0.112, 0.142, 0.135, 0.176, 0.097]"
entropy,110,,5,1,1,1,all,all,all,0.817,0.826,0.808,0.692,0.775,"[0.113, 0.143, 0.135, 0.172, 0.098]"
entropy,45,,5,1,1,1,all,all,all,0.816,0.826,0.807,0.691,0.774,"[0.114, 0.142, 0.135, 0.17, 0.098]"
entropy,55,,5,1,1,1,all,all,all,0.816,0.826,0.806,0.689,0.774,"[0.112, 0.142, 0.135, 0.173, 0.097]"


**all** znamená, že jsou v tomto případě použity všechy příznaky (tzn. bez výběru příznaků) 
- H-alpha: Ano
- 1.derivace Sabvitzky-Golay filtru: Ano
- 2.derivace Sabvitzky-Golay filtru: Ano
- Klouzavý průměr (MM) s délkami oken: 4,6,8,10,12,14,16
- Exponenciální klouzavý průměr (EMM) s délkami oken: 4,6,8,10,12,14,16
- Klouzavý rozptyl (MV) s délkami: 5,6,7,8,9,10,11,12,13,14,15,16

### Vyhodnocení
- Stejně jako u prvního datasetu všechny metody překonaly původní HMM. 
- Výběrem příznaků pomocí důležitosti jsem snížil počet příznaků na polovinu, ale F-míra u Ady a GB je totožná se hodnotou dosaženou se všemi pří.
- jako nejlepší z nich se ukázal GB s průměrnou F-mírou $0.793 \pm 0.108$


## Kompletní tabulka hodnocení příznaků pro všechny metody

### První dataset

In [34]:
FS.drop(columns=[("Výběr podle střední hodnoty", "AdaBoost"),
                 ("Výběr podle střední hodnoty", "GB"),
                 ("Výběr podle střední hodnoty", "Random Forest"),
                 ("Výběr podle mediánu", "AdaBoost"),
                 ("Výběr podle mediánu", "GB"),\
                 ("Výběr podle mediánu", "Random Forest")])

Unnamed: 0_level_0,Důležitost podle metody,Důležitost podle metody,Důležitost podle metody,Důležitost podle metody,Důležitost podle metody
Feature,f_classif,mutual_info,AdaBoost,GB,Random Forest
H-alpha,5298,0.418,0.046,0.059,0.012
1.d SGF,74,0.315,0.162,0.13,0.019
2.d SGF,250,0.228,0.066,0.1,0.007
MM 4,7465,0.437,0.01,0.026,0.015
MM 6,9142,0.446,0.015,0.017,0.023
MM 8,10879,0.448,0.011,0.017,0.036
MM 10,12607,0.448,0.005,0.016,0.04
MM 12,14194,0.444,0.024,0.018,0.037
MM 14,15512,0.432,0.059,0.017,0.022
MM 16,16476,0.418,0.083,0.051,0.015


### Druhý dataset

In [35]:
FS2.drop(columns=[("Výběr podle střední hodnoty", "AdaBoost"),
                 ("Výběr podle střední hodnoty", "GB"),
                 ("Výběr podle střední hodnoty", "Random Forest"),
                 ("Výběr podle mediánu", "AdaBoost"),
                 ("Výběr podle mediánu", "GB"),\
                 ("Výběr podle mediánu", "Random Forest")])

Unnamed: 0_level_0,Důležitost podle metody,Důležitost podle metody,Důležitost podle metody,Důležitost podle metody,Důležitost podle metody
Feature,f_classif,mutual_info,AdaBoost,GB,Random Forest
H-alpha,3906,0.356,0.052,0.056,0.009
1.d SGF,73,0.225,0.161,0.135,0.015
2.d SGF,247,0.163,0.074,0.102,0.005
MM 4,5388,0.35,0.035,0.022,0.016
MM 6,6426,0.358,0.03,0.025,0.021
MM 8,7406,0.357,0.029,0.02,0.036
MM 10,8259,0.349,0.009,0.017,0.032
MM 12,8929,0.341,0.03,0.016,0.024
MM 14,9379,0.339,0.041,0.019,0.014
MM 16,9621,0.328,0.075,0.059,0.013


# Nakonec kompletní tabulka výsledků všech konfigurací 
srovnaná podle průměrné F-míry

## První dataset

In [56]:
first.sort_values([('F míra','průměrná')],ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,Unnamed: 6_level_0,Unnamed: 7_level_0,Unnamed: 8_level_0,Unnamed: 9_level_0,Metrika,Accuracy,F míra,F míra,F míra,F míra,F míra
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Režim,Unnamed: 11_level_1,H-mód,L-mód,ELM,průměrná,std
Model,criterion,N_estim,lr,MaxDepth,H-alpha,1.D,2.D,MM,EMM,MVar,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
GB,default,400,0.1,3,1,1,1,"[4,16]","[4,16]","[5,6,11,13,14,15,16]",0.900,0.922,0.895,0.862,0.893,"[0.028, 0.035, 0.027, 0.035, 0.024]"
GB,default,400,0.1,3,1,1,1,all,all,all,0.899,0.921,0.895,0.860,0.892,"[0.028, 0.035, 0.028, 0.039, 0.025]"
GB,default,1000,0.1,3,1,1,1,all,all,all,0.899,0.921,0.892,0.860,0.891,"[0.028, 0.035, 0.029, 0.038, 0.025]"
GB,default,1000,0.1,3,1,1,1,"[4,16]","[4,16]","[5,6,11,13,14,15,16]",0.898,0.920,0.894,0.859,0.891,"[0.028, 0.037, 0.026, 0.035, 0.024]"
Ada,default,1000,0.1,1,1,1,1,"[12,14,16]","[4,14,16]","[5,9,13,14,15,16]",0.893,0.915,0.894,0.848,0.886,"[0.025, 0.034, 0.032, 0.03, 0.022]"
Ada,default,1000,0.1,1,1,1,1,all,all,all,0.893,0.915,0.894,0.848,0.886,"[0.026, 0.035, 0.033, 0.03, 0.022]"
Ada,default,400,0.5,1,1,1,1,"[12,14,16]","[4,14,16]","[5,9,13,14,15,16]",0.892,0.914,0.891,0.848,0.884,"[0.025, 0.034, 0.033, 0.032, 0.023]"
Ada,default,400,0.1,1,1,1,1,"[12,14,16]","[4,14,16]","[5,9,13,14,15,16]",0.890,0.914,0.895,0.839,0.883,"[0.028, 0.037, 0.032, 0.031, 0.023]"
Ada,default,400,0.1,1,1,1,1,all,all,all,0.891,0.914,0.894,0.840,0.883,"[0.027, 0.037, 0.031, 0.031, 0.022]"
Ada,default,400,0.5,1,1,1,1,all,all,all,0.888,0.914,0.883,0.842,0.880,"[0.028, 0.034, 0.033, 0.034, 0.025]"


## Druhý dataset

In [57]:
second.sort_values([('F míra','průměrná')],ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,Unnamed: 6_level_0,Unnamed: 7_level_0,Unnamed: 8_level_0,Unnamed: 9_level_0,Metrika,Accuracy,F míra,F míra,F míra,F míra,F míra
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Režim,Unnamed: 11_level_1,H-mód,L-mód,ELM,průměrná,std
Model,criterion,N_estim,lr,MaxDepth,H-alpha,1.D,2.D,MM,EMM,MVar,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
GB,default,400,0.1,3,1,1,1,"[4,16]","[4,6,16]","[5,6,11,14,15,16]",0.833,0.837,0.816,0.725,0.793,"[0.114, 0.14, 0.139, 0.208, 0.108]"
GB,default,400,0.1,3,1,1,1,all,all,all,0.832,0.837,0.817,0.722,0.792,"[0.115, 0.139, 0.139, 0.204, 0.107]"
GB,default,1000,0.1,3,1,1,1,"[4,16]","[4,6,16]","[5,6,11,14,15,16]",0.831,0.835,0.816,0.720,0.790,"[0.114, 0.138, 0.138, 0.214, 0.108]"
GB,default,1000,0.1,3,1,1,1,all,all,all,0.829,0.834,0.813,0.715,0.788,"[0.115, 0.139, 0.139, 0.207, 0.107]"
Ada,default,1000,0.1,1,1,1,1,"[4,6,8,12,14,16]","[4,16]","[7,10,15,16]",0.827,0.826,0.820,0.716,0.787,"[0.115, 0.155, 0.135, 0.189, 0.107]"
Ada,default,1000,0.1,1,1,1,1,all,all,all,0.827,0.826,0.818,0.715,0.786,"[0.113, 0.155, 0.133, 0.189, 0.105]"
Ada,default,400,0.5,1,1,1,1,"[4,6,8,12,14,16]","[4,16]","[7,10,15,16]",0.821,0.823,0.814,0.714,0.784,"[0.116, 0.151, 0.137, 0.172, 0.104]"
Ada,default,400,0.1,1,1,1,1,all,all,all,0.826,0.825,0.818,0.707,0.783,"[0.111, 0.153, 0.131, 0.203, 0.106]"
Ada,default,400,0.1,1,1,1,1,"[4,6,8,12,14,16]","[4,16]","[7,10,15,16]",0.824,0.824,0.819,0.705,0.783,"[0.119, 0.16, 0.138, 0.211, 0.113]"
Ada,default,400,0.5,1,1,1,1,all,all,all,0.821,0.821,0.814,0.715,0.783,"[0.117, 0.156, 0.137, 0.173, 0.107]"


# Refs:
[1] C. KRIER, D. FRANCOIS, etc.: _Feature scoring by mutual information for classification of mass spectra_ <br>
[2] I. Vajda: _Teorie Informace_<br>
[3] H. Ding, etc.: _Identification of bacteriophage virion proteins with the ANOVA feature selection and analysis_ <br>
[4] G. Louppe, etc.: _Understanding variable importances in forests of randomized trees_<br>