In [None]:
#Potrebné knižnice:
# as (alias) - sa využíva pre ľahší prístup ku knižniciam 
#Pandas je knižnica pre dátovú analýzu a manipuláciu s datasetmy a dátami
import pandas as pd

#Numpy je knižnica pre multidimenzionálne polia, matice a matematické funkcie
import numpy as np

#Seaborn je knižnica podobná matplotlib, pomáha vykreslovať informácie vo forme štatistických grafov
import seaborn as sns

#Matplotlib je knižnica pre knižnica pre vykreslovanie grafov, je rozšírením knižnice numpy
import matplotlib.pyplot as plt

#Sklearn je knižnica pre strojové učenie a prediktívnu analýzu  
import sklearn

#Keras je knižnica pre vytváranie neurónových sietí
import keras

In [None]:
#Pre ľahší prístup k funkciám knižníc si importujeme moduly ktoré potrebujeme:
 
#Sequential - sekvenčný model, definovaný ako lineárna postupnosť vrstiev  
from keras.models import Sequential

#Dense = označenie pravidelnej hlboko spojenej vrstvy pre neurónové siete, najčastejšie využívaná vrstva v kerase
from keras.layers import Dense

#to_categorical = funkcia, ktorá konvertuje vektor integerov na binárnu triedu
from keras.utils import to_categorical

#scipy - knižnica pre vedecké a technické výpočty, lineárnu algebru a pod.
#normaltest = test, ktorý overuje nulovú hypotézu a či sa dáta líšia od normálovej distribúcie
from scipy.stats import normaltest

#f1_score = priemer presnosti a senzitivity, najlepšia hodnota je 1 a najhoršia 0
#precision_score = presnosť s akou klasifikátor označuje správne/nesprávne výsledky, najlepšia hodnota je 1 a najhoršia 0
#recall_score = schopnosť klasifikátora nájsť všetky pozitívne vzorky
#accuracy_score = klasifikačné skóre presnosti
#classification_report = dokáže vypísať report s hlavnými klasifikačnými metrikami
#confusion_matrix = dokáže vypočítať a znázorniť maticu vyhodnotenia presnosti klasifikácie
from sklearn.metrics import f1_score,precision_score,recall_score,accuracy_score,classification_report,confusion_matrix

#train_test_split = funkcia, ktorá dokáže rozdeliť dáta na náhodné testovacie a trénovacie podmnožiny
from sklearn.model_selection import train_test_split

#StandardScaler - štandardizuje dáta odstránením priemeru a zmení ich podľa odchýlky dát 
from sklearn.preprocessing import StandardScaler

#RandomForestClassifier - klasifikátor, ktorý podmnožiny dát rozdelí do niekoľkých rozhodovacích stromov a využije
#spriemerovanie pre vylepšenie presnosti predikcie
from sklearn.ensemble import RandomForestClassifier

#LogisticRegression - klasifikátor, implementuje regularizovanú logistickú regresiu
#používame ho na modelovanie pravdepodobnosti pre existenciu triedy alebo udalosti, čo je v našom prípade smrť 
from sklearn.linear_model import LogisticRegression

In [None]:
#nastavenie štýlu grafov knižnice matplotlib
plt.style.use('default')

In [None]:
#načítanie datasetu z csv súboru do premennej data
data = pd.read_csv("heart_failure_clinical_records_dataset.csv" , sep=",")

In [None]:
#zobrazenie prvých 5 riadkov dát z datasetu pre skontroľovanie dát
data.head()

In [None]:
#zobrazenie počtu duplikátov v datasete
print("Počet duplikátov: ", data.duplicated().sum())

In [None]:
#informácie o datasete
data.info()
#v datasete máme 13 stĺpcov s 299 záznamami, datatypy sú číselné buď float alebo int
#jednotlivé stĺpce a ich reprezentácia sú:
#age - vek - celočíselná premenná - hodnoty 40 až 95 - min až max vek pacientov v datasete
#anaemia - chudoktvnosť - kategorická premenná  - hodnota 1/0 - chudokrvný/nechudokrvný
#creatinine_phosphokinase - kreatínkináza - celočíselná premenná - hodnota 23 až 7861 - výška enzýmu CPK v krvi
#diabetes - cukrovka - - kategorická premenná  - hodnota 1/0 - má/nemá cukrovku
#ejection_fraction - Ejekčná frakcia - celočíselná premenná - hodnota 14 až 80 - hodnota % krvi, ktorú vytlačí ľavá srdcová komora
#high_blood_pressure - vysoký krvný tlak - kategorická premenná  - hodnota 1/0 - má/nemá vysoký krvný tlak
#platelets - krvné doštičky - číselná premenná - hodnota 25100 až 850000 - množstvo krvných doštičiek v krvi
#serum_creatinine - kreatinín - číselná premenná - hodnota 0,5 až 9,4 - váška kreatinínu v krvi
#serum_sodium - sodík - celočíselná premenná - hodnota 113 až 148 - výška sodíku v krvi
#sex - pohlavie - - kategorická premenná  - hodnota 1/0 - Muž/Žena
#smoking - fajčenie - kategorická premenná  - hodnota 1/0 - fajčiar/nefajčiar                
#time - čas - celočíselná premenná - hodnota 4 až 285 - reprezentácia postupnosti času v dňoch
#DEATH_EVENT - úmrtie - kategorická premenná  - hodnota 1/0 - žije/zomrel

In [None]:
#popis dát v datasete
data.describe()
#count - počet záznamov v danom stĺpci
#mean - priemerná hodnota v danom stĺpci
#std - smerodajná odchýlka v danom stĺpci
#min - minimálna hodnota v danom stĺpci
#25% - Q1 - prvý/dolný kvartil
#50% - Q2 - druhý kvartil/medián
#75% - Q3 - tretí/horný kvartil
#max - maximálna hodnota v danom stĺpci 

In [None]:
#vykreslenie párovej korelačnej analýzy dát z databázy
#korelácia rovnakých stĺpcov je vždy = 1
#čím je korelačné číslo menšie, tým je väčšia korelácia
corrMatrix = data.corr()
#nastavíme výšku a šírku grafu
plt.subplots(figsize=(20,20))
#pomocou knižnice seaborn vytvoríme heatmap, ktorý pre číselné hodnoty vytvorí graf s farebným vyzobrazením
sns.heatmap(corrMatrix, annot=True)
plt.show()

In [None]:
# Z korelácií vidíme, že smrť malo najviac za príčinu:
# 1. time - čas
# 2. ejection_fraciton - ejekčná frakcia
# 3. serum_sodium
# Lineárnu koreláciu so smrťou má:
# 1. age - vek
# 2. serum_creatinine - kreatinín
# Usudzujeme teda, že hlavné atribúty sú time, ejection_fraction, age, serum_creatinine a serum_sodium

In [None]:
#Zmena kategorických dát na kategórie
# z typov int a float dáme jednotlivým kategorickým triedam typ category
data['anaemia'] = data['anaemia'].astype('category')
data['diabetes'] = data['diabetes'].astype('category')
data['high_blood_pressure'] = data['high_blood_pressure'].astype('category')
data['smoking'] = data['smoking'].astype('category')
data['sex'] = data['sex'].astype('category')
data['DEATH_EVENT'] = data['DEATH_EVENT'].astype('category')
#všetky nekategorické jednotky si dáme do samostatnej premennej
nekategoricke = ['creatinine_phosphokinase', 'platelets', 'ejection_fraction', 'serum_sodium',
        'serum_creatinine', 'time', 'age']

In [None]:
#mode - modus/najčastejšia hodnota
#vypíšeme si najčastejšie sa vyskytujúcu hodnotu z nekategorických premenných
data[nekategoricke].mode()

In [None]:
#Z popisu vyšie, vieme zistiť:
# Väčšina pacientov má 60 rokov,
# Bola kardiovaskulárnym pacientom 187 až 250 dní,
# Mali 1 mg/dL kreatinínu v krvi,
# Mali 136mEg/L sodíku v krvi,
# Ľavá strana srdca vytláčala 35% krvi,
# Mali 263358 kiloplatelets/mL,
# Mali 582 mcg/L enzýmu CPK v krvi.

In [None]:
#Exploračná analýza
#Rozdelenie pohlaví
#pomocou value_counts() si necháme spočítať rozdielne hodnoty čiže: počet 0 a 1 v triede sex
#pomocou plot() vykreslíme graf typu: koláčový, s nadpisom Pohlavie s významom hodnôt
data['sex'].value_counts().plot(kind = 'pie', title='Pohlavie \n 0: Žena | 1: Muž ')

In [None]:
#percentuálny podieľ zobrazený na grafe si vieme ukázať aj pomocou číselného zápisu
#percentuálny podieľ vypočítame ako spočítanie jednotlivých hodnôt 0 a 1 a následne ich vydelením celkového počtu
#(count/sum)*100
(data['sex'].value_counts()/sum(data['sex'].value_counts()))*100

In [None]:
#Z rozdelenia pohlaví vidíme, že väčšinové zastúpenie v tomto datasete majú muži

In [None]:
#Rozdelenie úmrtí
#pomocou value_counts() si necháme spočítať rozdielne hodnoty čiže: počet 0 a 1 v triede DEATH_EVENT
#pomocou plot() vykreslíme graf typu: koláčový, s nadpisom Úmrtia s významom hodnôt
data['DEATH_EVENT'].value_counts().plot(kind='pie', title='Úmrtia \n (0: Prežili | 1: Zomreli )')

In [None]:
#percentuálny podieľ zobrazený na grafe si vieme ukázať aj pomocou číselného zápisu
#percentuálny podieľ vypočítame ako spočítanie jednotlivých hodnôt 0 a 1 a následne ich vydelením celkového počtu
#(count/sum)*100
(data['DEATH_EVENT'].value_counts()/sum(data['DEATH_EVENT'].value_counts()))*100

In [None]:
#Z rozdelenia úmrtí môžeme dedukovať, že u väčšiny pacientov nenastala smrť

In [None]:
#Rozdelenie fajčiarov
#pomocou value_counts() si necháme spočítať rozdielne hodnoty čiže: počet 0 a 1 v triede smoking
#pomocou plot() vykreslíme graf typu: koláčový, s nadpisom Fajčenie s významom hodnôt
data['smoking'].value_counts().plot(kind = 'pie', title = 'Fajčenie \n (0: Nefajčiar | 1: Fajčiar )')

In [None]:
#percentuálny podieľ zobrazený na grafe si vieme ukázať aj pomocou číselného zápisu
#percentuálny podieľ vypočítame ako spočítanie jednotlivých hodnôt 0 a 1 a následne ich vydelením celkového počtu
#(count/sum)*100
(data['smoking'].value_counts()/sum(data['smoking'].value_counts()))*100

In [None]:
#Z rozdelenia fajčiarov usudzujeme, že väčšina pacientov nefajčila

In [None]:
#Rozdelenie pacientov s cukrovkou
#pomocou value_counts() si necháme spočítať rozdielne hodnoty čiže: počet 0 a 1 v triede diabetes
#pomocou plot() vykreslíme graf typu: koláčový, s nadpisom Cukrovka s významom hodnôt
data['diabetes'].value_counts().plot(kind= 'pie', title = 'Cukrovka \n (0: Nemá cukrovku | 1: Má cukrovku )')

In [None]:
#percentuálny podieľ zobrazený na grafe si vieme ukázať aj pomocou číselného zápisu
#percentuálny podieľ vypočítame ako spočítanie jednotlivých hodnôt 0 a 1 a následne ich vydelením celkového počtu
#(count/sum)*100
(data['diabetes'].value_counts()/sum(data['diabetes'].value_counts()))*100

In [None]:
#Z grafu vyššie vieme povedať, že väčšina z pacientov netrpí cukrovkou

In [None]:
#Rozdelenie pacientov s vysokým krvným tlakom
#pomocou value_counts() si necháme spočítať rozdielne hodnoty čiže: počet 0 a 1 v triede high_blood_pressure
#pomocou plot() vykreslíme graf typu: koláčový, s nadpisom Vysoký krvný tlak s významom hodnôt
data['high_blood_pressure'].value_counts().plot(kind = 'pie', title= 'Vysoký krvný tlak - VKT \n (0: Má VKT | 1: Nemá VKT )')

In [None]:
#percentuálny podieľ zobrazený na grafe si vieme ukázať aj pomocou číselného zápisu
#percentuálny podieľ vypočítame ako spočítanie jednotlivých hodnôt 0 a 1 a následne ich vydelením celkového počtu
#(count/sum)*100
(data['high_blood_pressure'].value_counts()/sum(data['high_blood_pressure'].value_counts()))*100

In [None]:
#Podľa grafu rozdelenia vidíme, že väčšina pacientov nemá problém s vysokým krvným tlakom

In [None]:
#pomocou knižnice pandas vytvoríme krížovú tabuľku pre hodnoty dvoch tried a zobrazíme ju ako stĺpový graf
#v tomto prípade sa jedná o triedy pohlavie a úmrtie
#na X-ovej osy máme zobrazené pohlavia, 0- žena, 1-muž
#na Y-ovej osy je zobrazené či nastalo/nenastalo úmrtie pre jednotlivé pohlavia
#rot označuje otočenie označenia hodnôt v X-ovej časti grafu
pd.crosstab(data['sex'], data['DEATH_EVENT']).plot(kind = 'bar', rot = 0)

In [None]:
#Z grafu vyššie vieme povedať, že z celého datasetu majú väčšiu úmrtnosť muži

In [None]:
#pomocou knižnice pandas vytvoríme krížovú tabuľku pre hodnoty dvoch tried a zobrazíme ju ako stĺpový graf
#v tomto prípade sa jedná o triedy chudokrvnosť a úmrtie
#na X-ovej osy máme zobrazenú chudokrvnosť, 0- nechudokrvný, 1- chudokrvný
#na Y-ovej osy je zobrazené či nastalo/nenastalo úmrtie
#rot označuje otočenie označenia hodnôt v X-ovej časti grafu
pd.crosstab(data['anaemia'], data['DEATH_EVENT']).plot(kind = 'bar', rot = 0)

In [None]:
#Z grafu vieme vyčítať, že zomrelo viacej ľudí, ktorý netrpeli chudokrvnosťou

In [None]:
#pomocou knižnice pandas vytvoríme krížovú tabuľku pre hodnoty dvoch tried a zobrazíme ju ako stĺpový graf
#v tomto prípade sa jedná o triedy cukrovka a úmrtie
#na X-ovej osy máme zobrazenú cukrovku, 0- nemá cukrovku, 1- má cukrovku
#na Y-ovej osy je zobrazené či nastalo/nenastalo úmrtie
#rot označuje otočenie označenia hodnôt v X-ovej časti grafu
pd.crosstab(data['diabetes'], data['DEATH_EVENT']).plot(kind = 'bar', rot = 0)

In [None]:
#Z grafu vieme vyčítať, že zomrelo viacej ľudí, ktorý nemali cukrovku 

In [None]:
#pomocou knižnice pandas vytvoríme krížovú tabuľku pre hodnoty dvoch tried a zobrazíme ju ako stĺpový graf
#v tomto prípade sa jedná o triedy vysoký krvný tlak a úmrtie
#na X-ovej osy máme zobrazené chudokrvnosť, 0- nemá vysoký krvný tlak, 1- má vysoký krvný tlak
#na Y-ovej osy je zobrazené či nastalo/nenastalo úmrtie
#rot označuje otočenie označenia hodnôt v X-ovej časti grafu
pd.crosstab(data['high_blood_pressure'], data['DEATH_EVENT']).plot(kind = 'bar', rot = 0)

In [None]:
#Z grafu vieme vyčítať, že zomrelo viacej ľudí, ktorý netrpeli vysokým krvným tlakom

In [None]:
#pomocou knižnice pandas vytvoríme krížovú tabuľku pre hodnoty dvoch tried a zobrazíme ju ako stĺpový graf
#v tomto prípade sa jedná o triedy fajčenie a úmrtie
#na X-ovej osy máme zobrazené fajčenie, 0- nejačiar, 1- fajčiar
#na Y-ovej osy je zobrazené či nastalo/nenastalo úmrtie
#rot označuje otočenie označenia hodnôt v X-ovej časti grafu
pd.crosstab(data['smoking'], data['DEATH_EVENT']).plot(kind = 'bar', rot = 0)

In [None]:
#Z grafu vieme vyčítať, že zomrelo viacej ľudí, ktorý nefajčili

In [None]:
#premenná death obsahuje všetky údaje z databázy, kde je hodnota smrť 1 a teda pacient zomrel
death = data[data['DEATH_EVENT'] == 1]
#následne vymažeme triedu/stĺpec DEATH_EVENT
death.drop(columns=['DEATH_EVENT'], inplace=True)

In [None]:
#Test normálového rozloženia, overenie hypotézy normálového rozdelenia dát
#Nulová hypotéza: dáta X sú z normálového rozloženia
#chceme zistiť, ktoré z premenných sú z alebo sa približujú normálovému rozdeleniu
#definujeme si funkciu normaltest, ktorá z datasetu death. kde všetci pacienti zomreli
def NormalTest(cols=nekategoricke, data=death):
    #pripravíme si premennú do ktorej vložíme triedy, ktoré majú normálové rozloženie
    norma_attr = []
    #prechádzame jednotlivými triedami/stĺpcami
    for u in cols:
        #p je chí kvadrát hypotézy, ktorý použijeme na potvrdenie alebo vyvrátenie hypotézy, k2 je z-skóre kurtosis testu
        k2, p = normaltest(data[u])  
        #ak je p menšie než 0.001 (šanca 1:1000), čo označuje veľmi silný dôkaz proti nulovej hypotéze 
        if p < 0.001:
            #ak sa podmienka potvrdí a teda máme silný dôkaz pre zamietnutie hypotézy
            print(f'Pre {u}: Môžeme nulovú hypotézu zamietnuť. pvalue={p}')
        else:
            #ak sa podmienka nepotvrdí, znamená to, že nulovú hypotézu potvrdujeme a následne zapisujeme dáta do premennej
            print(f'Pre {u}: Nemôžeme zamietnuť nulovú hypotézu. pvalue={p}')
            norma_attr.append(u)
    #Vypíšeme, ktoré triedy/stĺpce sú z normálového rozloženia        
    print(f'\nTriedy z normálového rozloženia: {norma_attr}.')
    #ako návratový typ odosielame triedy/stĺpce, ktoré sú z normálového rozloženia
    return norma_attr

In [None]:
#do premennej normal_cols necháme zapísať výsledky normálového testu distribúcie
normal_cols = NormalTest()

In [None]:
#Pre výsledné atribúty nekategorických dát: krvné doštičky, ejekčná frakcia a vek budeme skúmať ktoré zapríčiňujú smrť

In [None]:
#ako hlavné premenné pre príčinu smrti si zvolíme triedy v premennej col, čiže:
#čas, ejekčná frakcia, kreatinín, vek a sodík
col = ['time','ejection_fraction','serum_creatinine','age','serum_sodium', 'platelets']
#predictor označuje dáta za ktorých pomoci sa budeme snažiť odhadovať či nastane alebo nenastane smrť
predictor = data[col]
#ako premennú, ktorú označujeme za cieľovú a teda chceme vedieť či nastane alebo nenastane smrť zvolíme DEATH_EVENT
target = data["DEATH_EVENT"]
#premenné do ktorých rozdelíme celý náš dataset
#delíme ich pomocou train_test_split, ktorý rozdelí dáta podľa požadovanej veľkosti na trénovacie a testovacie,
#v našom prípade 3:7, čiže 30% bude v testovacej množine a 70% v trénovacej
#random_state zaručí, že dáta nebudú pri viacerých spusteniach rovnako rozdelené
X_train, X_test, y_train, y_test = train_test_split(predictor, target, test_size = 0.3, random_state = 42)
#vypíšeme si ako sú tvarované premenné, čísla reprezentujú (záznamy, triedy) resp. (riadky, stĺpce)
print(X_train.shape)
print(X_test.shape)

In [None]:
#StandardScaler má za úlohu odstrániť stredové hodnoty a dáta zoškálovať podľa rozptylu
#štandardizuje sa pomocou xscaled=(x-u)/s kde u je priemerná hodnota alebo 0, s je štandartná odchýlka
#dáta potrebujeme mať štandardizované okolo normálovej distribúcie, pre využitie v strojovom učení musíme odstrániť všetky
#hodnoty, ktoré by boli mimo normálového rozloženia
#takéto hodnoty by mohli nepriaznivo ovplyvniť učenie a algoritmus by mohol zle predikovať a vyhodnocovať dáta 
sc = StandardScaler()
#fit_transform používame na trénovacie množiny aby sme škálovali trénovacie dáta a naučili sa škláovacie parametre pre dáta
#tieto naučené parametre sa následne využijú na škálovanie testovacích dát
#metóda fit vypočíta priemernú hodnotu a rozptyl dát. transform následne prepočítava dáta podľa priemeru a rozptylu
X_train = sc.fit_transform(X_train)
#využijeme už zapamätané parametre priemeru a rozptylu na prepočítanie dát(transformáciu)
X_test = sc.transform(X_test)

In [None]:
#Logistic Regression
#logistická regresia odhaduje pravdepodobnosť javu na základne známych skutočností, ktoré môžu ovplyvniť nýskyt daného javu
#v našom prípade je jav, ktorý chceme predvídať smrť, presnejšie život/smrť pacienta, tento stav sa modeluje pomocou náhodnej
#veličiny, ktorá nadobúda hodnoty 0 alebo 1 podľa toho či stav nenastal alebo nastal
#Logistická regresia predpokladá, že za podmienok určenými vektorom x, bude náhodná veličina Y(x) = 1 s pravdepodobnosťou
#ktorej závyslosť na x vyjadríme logistickou funkciou P[Y(x)=1]=(exp(beta'x)/1+exp(beta'x))
#pre dosiahnutie vždy iného poradia dát použijeme random_state, ktorý dáta využité pre klasifikátor 
#zamieša do iného poradia pri každom spustení
classifier = LogisticRegression(random_state = 42)
#trénovanie množiny pomocou trénovacích dát
classifier.fit(X_train, y_train)
#pomocou funkcie predict povieme klasifikátoru aby predpovedal pravdepodobnosť úmrtia na testovacích dátach
y_pred = classifier.predict(X_test)
#confucion matrix alebo matica zámen je kontingenčná matica obsahujúce stĺpce so skutočnou hodnotou prepovedaného javu
#v riadkoch je predpoveď kalsifikátoru
cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot=True)
#zoberieme si presnosť s akou vyhodnocoval klasifikátor a zmeníme ju na percentá a zaokrúhľujeme presnosťou na 2 desatinné miesta
acc_logisticregression = round(accuracy_score(y_pred, y_test) * 100, 2)
#vypíšeme si presnosť modelu po predikcií testovacích dát
print ("Presnosť modelu Logistic Regression: ", acc_logisticregression) 
#classification_report ukazuje hlavné metriky po klasifikácií
#precision je schopnosť klasifikátora neoznačiť pozitívne vzorky ako negatívne, využíva vzťah tp/(tp+fp) 
#recall je schopnosť klasifikátora nájsť všetky pozitívne vzorky, využíva vzťah tp/(tp+fn)
#f1-score udáva priemer hodnôt precision a recall
#support - počet výskytov každej z tried v y_pred
print(classification_report(y_test, y_pred))

In [None]:
#Vysvetlenie confusion matrix:
#Hodnoty y-ovej osy sú aktuálne hodnoty, 0 označuje negatívnu hodnotu (život), 1 pozitívnu hodnotu (smrť)
#Hodnoty x-ovej osy sú predikované hodnoty, 0 označuje negatívnu hodnotu (život), 1 pozitívnu hodnotu (smrť)
#Označenie jednotlivých hodnôt: 
#ľavá horná hodnota = true negative - tn - správne predikovaná negatívna hodnota
#ľavá dolná hodnota = false negative - fn - nesprávne predikovaná negatívna hodnota
#pravá horná hodnota = false positive - fp - nesprávne predikovaná správna hodnota
#pravá dolná hodnota = true positive - tp - správne predikovaná správna hodnota

In [None]:
#RandomForest
#Klasifikátor náhodného lesa je kombinovaná metóda pre klasifikáciu a regresiu, vytvára viacej rozhodovacích stromov,
#následne vráti modus (najčastejšiu hodnotu) pre jednotlivé stromy pri klasifikácií a priemernú hodnotu pri predickcií(regresií) 
model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=1)
#trénovanie množiny pomocou trénovacích dát
model.fit(X_train, y_train)
#pomocou funkcie predict povieme klasifikátoru aby predpovedal pravdepodobnosť úmrtia na testovacích dátach
y_pred = model.predict(X_test)
#confucion matrix alebo matica zámen je kontingenčná matica obsahujúce stĺpce so skutočnou hodnotou prepovedaného javu
#v riadkoch je predpoveď kalsifikátoru
cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot=True)
#zoberieme si presnosť s akou vyhodnocoval klasifikátor a zmeníme ju na percentá a zaokrúhľujeme presnosťou na 2 desatinné miesta
acc_randomforest = round(accuracy_score(y_pred, y_test) * 100, 2)
#vypíšeme si presnosť modelu po predikcií testovacích dát
print("Presnosť modelu Random Forest : ",acc_randomforest)
#classification_report ukazuje hlavné metriky po klasifikácií
#precision je schopnosť klasifikátora neoznačiť pozitívne vzorky ako negatívne, využíva vzťah tp/(tp+fp) 
#recall je schopnosť klasifikátora nájsť všetky pozitívne vzorky, využíva vzťah tp/(tp+fn)
#f1-score udáva priemer hodnôt precision a recall
#support - počet výskytov každej z tried v y_pred
print(classification_report(y_test, y_pred))

In [None]:
#Vysvetlenie confusion matrix:
#Hodnoty y-ovej osy sú aktuálne hodnoty, 0 označuje negatívnu hodnotu (život), 1 pozitívnu hodnotu (smrť)
#Hodnoty x-ovej osy sú predikované hodnoty, 0 označuje negatívnu hodnotu (život), 1 pozitívnu hodnotu (smrť)
#Označenie jednotlivých hodnôt: 
#ľavá horná hodnota = true negative - tn - správne predikovaná negatívna hodnota
#ľavá dolná hodnota = false negative - fn - nesprávne predikovaná negatívna hodnota
#pravá horná hodnota = false positive - fp - nesprávne predikovaná správna hodnota
#pravá dolná hodnota = true positive - tp - správne predikovaná správna hodnota

In [None]:
#Keras
# !!! POKIAĽ KERAS VYPISUJE CHYBU PROSÍM REŠTARTUJTE KERNEL A ZNOVU ZBEHNITE CELÝ KÓD !!!
#vytvorenie sekvenčného modelu pre predikciu
#Sequential je sekvenčný model, ktorý vytvorí lineárny zásobník vrstiev. 
#Výsledok jednej vrstvy posiela ako input nasledujúcej vrstve
modelKe = Sequential()

y_train = to_categorical(y_train)
y_test = to_categorical(y_test)

#do sekvenčného modelu pridávame 4 Dense vrstvy
#Dense - vykonáva operáciu outuput = activation(dot(input, kernel)+bias), jedná sa o model plne zapojeného layeru/vrstvy
#prvé číslo alebo units je počet neurónov ktoré sa v danej vrstve používa
#input_dim = dimenzia vstupu, inak povedané počet vstupných tried, čo je v našom prípade 6
#relu = jedná sa o Rectified linear unit activation function: max(x,0), ktorá vracia tensor, reprezentujúci vstupný tensor 
#transformovaná aktivačnou relu funkciou, ktorý je rovnakého tvaru a dtypu ako je vstupný tensor.
#softmax = využíva sa na konci kategorických pravdepodobností. Táto metóda konvertuje vstup na vektor 
#kategorických pravdepodobností, výsledné hodnoty sú buď 0 alebo 1, čiže kategorické premenné
#model má 1 vstupný layer, 1 výstupný layer a 2 hiddne layere
modelKe.add(Dense(500, activation = 'relu', input_dim=6))
modelKe.add(Dense(200, activation = 'relu'))
modelKe.add(Dense(50, activation = 'relu'))
#posledné číslo outputu je 2, pretože očakávame na výstupe 1 z 2 možností čiže život/smrť
modelKe.add(Dense(2, activation = 'softmax'))
#metóda compile konfiguruje proces učenia modelu
#adam = optimalizačná metóda stochastického gradientového zostupu, založená na adaptívnom odhade momentov 1. a 2. rádu
#categorical_crossentropy = vypočíta stratu pomocou krížovej entropie medzi poskytnutými dátami a predikciami
#využíva sa vtedy ak používame viacej než 2 triedy v predikcií
#accuracy = metrika vypočítavajúca ako často sa predikcia = poskytnutým dátam, navracia binárnu presnosť modelu
modelKe.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

#začneme s trénovaním modelu na trénovacích množinách a 100 iteráciách
visualize = modelKe.fit(X_train, y_train, epochs=100)

In [None]:
#Podlľa accuracy v iteráciách vieme povedať s akou presnosťou sekvenčný model predikoval
#zo začiatku model postupuje s nízkou presnosťou, postupne sa toto číslo dostáva až k presnosti 90+% 
#čo znamená veľmi veľkú presnosť

In [None]:
plt.plot(visualize.history['accuracy'])
plt.title('Presnosť modelu v závyslosti od epoch')
plt.ylabel('accuracy')
plt.xlabel('epoch')
plt.legend(['train'], loc='upper left')
plt.show()

In [None]:
plt.plot(visualize.history['loss'])
plt.title('Chybovosť modelu  závislosti od epoch')
plt.ylabel('loss')
plt.xlabel('epoch')
plt.legend(['train'], loc='upper left')
plt.show()

In [None]:
#Modelu Keras povieme aby pomocou funkcie predict, predvídal smrť z množiny trénovacích dát
pred_train = modelKe.predict(X_train)
#pomocou funkcie evaluate do premennej score uložíme hodnoty straty a metriky, verbosity hovorí, či chceme progressbar priebehu  
score = modelKe.evaluate(X_train, y_train, verbose = 0)
#vypíšeme si výsledné presnosti a chybovosti pre tento test a zobrazíme ich v percentách
print("Presnosť pri trénovacích dátach: {}% \nChybovosť pri trénovacích dátach: {}".format(score[1]*100, (1 - score[1])*100))

In [None]:
#Modelu Keras povieme aby pomocou funkcie predict, predvídal smrť z množiny testovacích dát 
pred_test = modelKe.predict(X_test)
#pomocou funkcie evaluate do premennej score uložíme hodnoty straty a metriky, verbosity hovorí, či chceme progressbar priebehu  
score2 = modelKe.evaluate(X_test, y_test, verbose = 0)
#vypíšeme si výsledné presnosti a chybovosti pre tento test a zobrazíme ich v percentách
print("Presnosť pri testovacích dátach: {}% \nChybovosť pri testovacích dátach: {}".format(score2[1]*100, (1 - score2[1])*100))