# Predikcija održavanja sinusnog ritma posle godinu dana
- Pronaći atribute značajne za predikciju uspešnosti održavanja sinusnog srčanog ritma godinu dana nakon obavljene elektrokonverzije u odnosu na kliničku sliku pacijenta, druge indikacije i dodeljenu terapiju
- Konstruisati bajesovsku mrežu koja uključuje relevantne atribute i vrši predikciju uspešnosti održavanja sinusnog ritma godinu dana nakon elektrokonverzije
- Testirati druge metode istraživanja podataka (neke od: SVM, neuronske mreže, stabla odlučivanja, logistička regresija) i uporediti sa uspešnosti predikcije korišćenjem bajesovske mreže

In [113]:
import re

import numpy as np
import pandas as pd

In [114]:
# kolonu H zadrzavamo jer je koristimo pri konverziji kolone J
data = pd.read_excel('././elektrokonverzija.xlsx', usecols='A,C:E,H,I:AH,AJ:BB,BE:BI,CE:CT,CW', nrows=147)

  warn(msg)


In [115]:
def preimenuj(kol):
    index = min([a for a in [99999, kol.find('  '), kol.find('0 - '), kol.find('1 - ')] if a > -1])
    if index < 99999:
        return kol[0:index].strip()
    return kol
data.columns = data.columns.map(preimenuj)
data.columns

Index(['Broj', 'godine starosti', 'stariji od 65', 'Pol',
       'Datum elektrokonverzije', 'indikacija: perzistentna',
       'ukupno trajanje AF (kada je prvi put dijagnostikovana) u mesecima',
       'trajanje ove epizode AF u mesecima',
       'frekvenca komora na prijemnom EKG-u', 'Blok grane', 'dimenzija LPK',
       'EDD LK', 'ESD LK', 'EF LK', 'MR', 'TR', 'HTA', 'DM', 'HLP', 'HOBP',
       'pušenje', 'Hereditet za KVB', 'ishemijska bolest srca', 'HF',
       'NYHA klasa (ukoliko ima HF)', 'Prethodni TIA/CVI', 'HBI', 'CHADS-Vasc',
       'poremećaj f-je štitaste žlezde', 'dosadašnje elektrokonverzije',
       'SCD (Structural heart disease)', 'Beta blokatori', 'ACE inhibitori',
       'ARB', 'Furosemid (ne - 0)', 'Drugi diuretik', 'Spironolakton',
       'Ca antagonisti', 'Amiodaron', 'Propafen', 'Flekainid', 'Sotalol',
       'Digoksin', 'ASA', 'OAKT', 'vrednost INR 2-3', 'Plavix', 'Statin',
       'Implantiran CIED',
       'Vreme u mesecima od ugradnje aparata do elektrokonve

In [116]:
print('Ukupno pacijenata:', data.shape[0])

relevant_data = data[data['Elektrokonverzija'] < 3]
print('Pacijenata sa uspesnom el. konv. (relevantni podaci):', relevant_data.shape)
print('Pacijenata sa odrzanim ritmom posle god. (pozitivan ishod):', relevant_data[relevant_data['Održavanje sinusnog ritma nakon godinu dana'] == 1].shape)

# relevant_data_2 = relevant_data[pd.isna(relevant_data['Broj dana do javljanja AF'])]
# print('Pacijenata sa uspesnom el. konv. i posle mesec dana', relevant_data_2.shape[0])

Ukupno pacijenata: 147
Pacijenata sa uspesnom el. konv. (relevantni podaci): (130, 72)
Pacijenata sa odrzanim ritmom posle god. (pozitivan ishod): (50, 72)


In [117]:
# pd.set_option("display.max_rows", None, "display.max_columns", None)
# relevant_data

In [118]:
kolone_sa_mesanim_podacima = relevant_data.columns[np.where(relevant_data.dtypes == 'O')]
# Sve 3 kolone podrazumevaju broj meseci


In [119]:
from datetime import datetime
import re

def izdvoj_mesece_iz_niske(x, datum):
    od_search = re.search('[oO]d[a-z ]*(\d{4})', x.lower()) # na jednom mestu piše "0d2010" sa nulom
    if od_search:
        godina = od_search.group(1)
        return (datum - datetime(int(godina), 1, 1)).days // 30

    god_search = re.search('(\d+)\s*god', x.lower())
    if god_search: return int(god_search.group(1)) * 12

    mesec_search = re.search('(\d+)\s*mesec', x.lower())
    if mesec_search: return int(mesec_search.group(1))

    dan_search = re.search('(\d+)\s*dan', x.lower())
    if dan_search: return int(dan_search.group(1)) // 30

    return -1

# print(izdvoj_mesece_iz_niske('od2002', datetime(2014, 1, 21)))
# print(izdvoj_mesece_iz_niske('od 2004', datetime(2014, 1, 21)))
# print(izdvoj_mesece_iz_niske('5god', datetime(2014, 1, 21)))
# print(izdvoj_mesece_iz_niske('1 godina', datetime(2014, 1, 21)))

In [120]:
pd.options.mode.chained_assignment = None # dobijamo upozorenja zbog relevant_data = data[...]
for index, row in relevant_data.iterrows():
    for col in kolone_sa_mesanim_podacima:
        val = relevant_data.loc[index, col]
        new_val = val
        datum = row['Datum elektrokonverzije']
        if isinstance(val, int):
            continue
        elif isinstance(val, datetime):
            new_val = (datum - val).days // 30
        elif isinstance(val, str):
            new_val = izdvoj_mesece_iz_niske(val, datum)
        else:
            new_val = -1
            # print(val, new_val)
        relevant_data.loc[index, col] = new_val


In [121]:
# Kolone sa NaN
print('\n'.join(relevant_data.columns[np.where(relevant_data.isna().any())]))

# ESD LK                                                        TODO (1 red)
# NYHA klasa (ukoliko ima HF)                                   Popuniti nulama jer nema HF
# vrednost INR 2-3                                              Izbacujemo zbog korelacije sa podatkom OAKT=2 (19 redova)
# Implantiran CIED                                              Popuniti nulama (2 reda)
# NEPOSREDNE KOMPLIKACIJE U VEZI SA ELEKTROKONVERZIJOM          Popuniti nulama (1 red)
# Održavanje sinusnog ritma nakon godinu dana                   Popuniti nulama

relevant_data.drop(columns=['vrednost INR 2-3'], inplace=True)
relevant_data.fillna(0, inplace=True)
# relevant_data

ESD LK
NYHA klasa (ukoliko ima HF)
vrednost INR 2-3
Implantiran CIED
NEPOSREDNE KOMPLIKACIJE U VEZI SA ELEKTROKONVERZIJOM
Održavanje sinusnog ritma nakon godinu dana


In [122]:
relevant_data.to_csv('elektrokonverzija_obradjeno.csv')