#Predikce infarktu myokardu s využitím neuronových sítí

Cílem úlohy je na základě několika málo atributů určit, jestli člověk prodělal infarkt myokardu. Data set je převzatý a upravený z repozitáře [Kaggle](https://www.kaggle.com/fedesoriano/stroke-prediction-dataset?select=healthcare-dataset-stroke-data.csv).

Použité atributy:
* pohlaví - 0: muž, 1: žena, 2: nespecifikováno
* věk
* hypertenze -  zvýšený krevní tlak 0: ne, 1: ano
* nemoc_srdce - 0: neléčí se s žádnou srdeční nemocí, 1: trpí srdeční nemocí
* manzelstvi - 0: nikdy nebyl(a) ženatý/vdaná, 1: byl(a) nebo je ženatý/vdaná
* zamestnani - 0: dite, 1: nikdy nepracoval(a), 2: ve verejnem sektoru, 3: v soukromem sektoru, 4: OSVC
* bydliste - 0: venkov, 1: mesto
* cukr - množství cukru v krvi
* bmi - body mass index, 0 pokud není známo
* koureni - 0: neznamé, 1: nikdy nekouřil(a), 2: přestal(a) kouřit, 3: kouří
* infarkt - 0: nikdy neprodělal(a) infarkt, 1: prodělal(a) infarkt

In [1]:
import pandas as pd

data = pd.read_csv('https://raw.githubusercontent.com/mlcollege/ai-academy/main/07-klasifikace/data/infarkt.csv', index_col='id')
data.head()

Unnamed: 0_level_0,pohlavi,vek,hypertenze,nemoc_srdce,manzelstvi,zamestnani,bydliste,cukr,bmi,koureni,infarkt
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
9046,0,67.0,0,1,1,3,1,228.69,36.6,2,1
51676,1,61.0,0,0,1,4,0,202.21,0.0,1,1
31112,0,80.0,0,1,1,3,0,105.92,32.5,1,1
60182,1,49.0,0,0,1,3,1,171.23,34.4,3,1
1665,1,79.0,1,0,1,4,0,174.12,24.0,1,1


## Příprava dat

Nejprve si rozdělíme data na trénovací a testovací část.


In [2]:
from sklearn.model_selection import train_test_split

vstupni_atributy = ['pohlavi', 'vek',	'hypertenze', 'nemoc_srdce', 'manzelstvi', 
                    'zamestnani', 'bydliste', 'cukr', 'bmi', 'koureni']
vystupni_atribut = 'infarkt'

X_train, X_test, y_train, y_test = train_test_split(data[vstupni_atributy], data[vystupni_atribut], test_size=0.3, random_state=4)
print('Velikost trenovaci casti: {}'.format(len(X_train)))
print('Velikost testovaci casti: {}'.format(len(X_test)))

Velikost trenovaci casti: 3577
Velikost testovaci casti: 1533


Pro použití v neuronových sítích je vhodné vstupní data předzpracovat. Experimentujte s různými způsoby předzpracování. 

In [3]:
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

column_trans = ColumnTransformer(
    [('ohe', OneHotEncoder(categories='auto'),['pohlavi', 'zamestnani', 'koureni']),
     ('std', StandardScaler(), ['vek', 'cukr', 'bmi'])
    ], remainder='passthrough')

column_trans.fit(X_train)

X_train_trans = column_trans.transform(X_train)
X_test_trans = column_trans.transform(X_test)

#Vytvoření a natrénování modelu

Použijeme stejnou architekturu jako v případě regese. Jediný rozdíl bude v použití Sigmoidy jako aktivační funkce poslední vrstvy. Zkuste experimentovat i s jinými architekturami neuronové sítě.

In [4]:
%tensorflow_version 2.x
from tensorflow.python.keras.models import Sequential
from tensorflow.python.keras.layers import Dense, Activation

model = Sequential()

model.add(Dense(50, input_shape=(10, )))
model.add(Activation('tanh'))
model.add(Dense(50))
model.add(Activation('tanh'))
model.add(Dense(1))
model.add(Activation('sigmoid'))

Dále je potřeba model zkompilovat. Pro kompilaci musíme zadat několik důležitých parametrů:
* **loss** - chybová funkce, kterou budeme minimalizovat. Pro binární klasifikaci použijeme *binary_crossentropy*.
* **optimizer** - algoritmů pro hledání minima chybové funkce existuje celá řada. Všechny vycházejí z podobných principů a liší se hlavně ve způsobech, jakými minimalizují šanci uvíznutí v nějakém špatném lokálním extrému. Jedním z nejčastěji používaných optimalizátorů je [Adam](https://keras.io/api/optimizers/adam/).
* **metrics** - během trénování umožňuje algoritmus průběžné vypisování aktuální kvality modelu. Pokud o to stojíme, je třeba specifikovat konkrétní metriku. V našem případě jsme zvolili _accuracy_.

In [5]:
model.compile(loss='binary_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

Samotné trénování se provádí metodou fit a je třeba opět specifikovat několik parametrů:

* trénovací data - X_train_std a y_train
* **batch_size** - počet trénovacích příkladů, které jsou zpracovávány současně.
* **epochs** - počet epoch (průchodů celými trénovacími daty).
* **verbose** - úroveň množství výpisů během trénování
* **validation_data** - data, použitá pro validaci

In [6]:
model.fit(X_train, y_train,
          batch_size = 64, epochs = 100, verbose=1,
          validation_data=(X_test, y_test))

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

<tensorflow.python.keras.callbacks.History at 0x7f34b5878c90>

Výstupní hodnoty je před evaluací třeba převést z pravděpodobností na hodnoty 0 a 1.

In [7]:
from numpy import int32
y_pred = model.predict(X_test)
y_pred = (y_pred >= 0.5).astype(int32)

Pro vyhodnocení modelu je vhodné se dívat na precision, recall a f1-score. Accuracy bude díky nevyváženosti data setu vysoká.

In [8]:
from sklearn import metrics
from sklearn.metrics import accuracy_score

print ("Celkova spravnost klasifikace pro testovaci data: {:.2f}".format(accuracy_score(y_test, y_pred)))
print ()
print(metrics.classification_report(y_test, y_pred))

Celkova spravnost klasifikace pro testovaci data: 0.96

              precision    recall  f1-score   support

           0       0.96      1.00      0.98      1465
           1       0.71      0.07      0.13        68

    accuracy                           0.96      1533
   macro avg       0.84      0.54      0.56      1533
weighted avg       0.95      0.96      0.94      1533

