In [1]:
import pandas as pd
import numpy as np
import psycopg2
import sqlalchemy
from sqlalchemy import create_engine
import getpass

In [2]:
%load_ext sql

In [3]:
password = getpass.getpass()  # pwd=internship

 ··········


In [4]:
connection_string = f'postgresql://internship:{password}@mdhidaea.iptime.org:21212/aiadmin'
%sql $connection_string

* 테이블 정리
    * public.sofa_8 
        * stay_id 와 hr 를 기준으로 8시간씩 묶어서 feature의 값을 avg로 나타낸 테이블
    * public.new_sofa_8
        * sofa_8 테이블과 같은 기준으로 만들어졌으며 heart rate와 temperature가 추가된 테이블
    * public.realage 
        * icu.icustays 테이블을 기준으로 나이 계산한 테이블
    * public.event_table
        * 발병 환자 테이블
        * infection_time: 감염 시각
        * is_infection: 감염되었는지 여부 -- 감염 시각이 starttime과 endtime 사이에 있는 경우에만 기입. 아닌 경우 null
        * infection_hour: (심박수 최초 기록 시각 기준) 감염된 시간 -- 감염 시각이 starttime과 endtime 사이에 있는 경우에만 기입. 아닌 경우 null
    * public.nonevent_table
        * 정상 환자 테이블
        * 데이터가 32시간 미만으로 기록된 경우 삭제
    * public.infection
        * suspicion_of_infection을 활용해 감염 시점을 담은 테이블

---
# 최종 전처리 과정 #
---

> 패혈증 발병 기록이 없는 환자 중 32시간을 넘는 기록을 가지는 데이터 추출 함수

In [None]:
# 발병 안 한 환자의 데이터 중 32시간 만큼의 데이터를 추출하는 함수
def nonevent_table():  
    nonevent = %sql select * from public.nonevent_table
    nonevent = pd.DataFrame(nonevent)
    nonevent.columns=['stay_id', 'compiled_hr', 'start_time', 'endttime', 'pao2ratio_novent', 'pao2ratio_vent', 'rate_dobutamine', 'rate_dopamine', 'rate_epinephrine', 'rate_nonepinephrine', 'meabp_min', 'heartrate_max', 'temperature_max', 'gcs_min', 'bilirubin_max', 'creatineine_max', 'paltelet_min', 'respiration', 'coagulation', 'liver', 'cns', 'renal', 'respiration_24hours', 'coagulation_24hours', 'liver_24hours', 'cns_24hours', 'renal_24hours', 'sofa_24hours']
    nonevent = nonevent.drop(['pao2ratio_novent', 'rate_dobutamine'], axis=1)

    final_event = pd.DataFrame(columns=['stay_id', 'compiled_hr', 'start_time', 'endttime', 'pao2ratio_novent', 'pao2ratio_vent', 'rate_dobutamine', 'rate_dopamine', 'rate_epinephrine', 'rate_nonepinephrine', 'meabp_min', 'heartrate_max', 'temperature_max', 'gcs_min', 'bilirubin_max', 'creatineine_max', 'paltelet_min', 'respiration', 'coagulation', 'liver', 'cns', 'renal', 'respiration_24hours', 'coagulation_24hours', 'liver_24hours', 'cns_24hours', 'renal_24hours', 'sofa_24hours'])
    nonevent_stayid = set(nonevent['stay_id'])
    print(len(nonevent_stayid))
    #   동일 stay_id별로 뽑아서 정렬 후 감염시간 기준 앞에서 3개 가져오기 & reset 
    for nonevent_id in nonevent_stayid:
        cnt = 0
        cond = nonevent['stay_id'] == nonevent_id
        temp = nonevent[cond]
        temp = temp.sort_values(by=['compiled_hr'], axis=0)  # 동일 stay_id별로 뽑아서 정렬 
        if len(temp) >= 4:
            temp = temp.iloc[:4]
            final_event = pd.concat([final_event, temp])   # final_event에 저장
        else: 
            continue

    #     print(temp)
    #     break

    print('LEN OF FINAL_EVENT TABLE:', len(final_event))
    print('# OF TOTAL STAY_ID :', len(set(final_event['stay_id'])))
    
    return final_event
    


> 패혈증 발병 환자 중 발병 시간 기준으로 32시간을 이상 데이터를 가진 데이터 추출 함수

In [None]:
# 발병 환자 데이터 중 발병 시간 기준으로 앞의 발병 시간 포함 32시간 데이터 추출하는 함수
def event_table():
    # event 중 32시간 이상 추적 가능한 환자 번호 추출
    stayid_32 = %sql select stay_id from public.event_table where infection_hour >= 32
    stayid_32 = pd.DataFrame(stayid_32)
    stayid_32 = set(stayid_32[0])
    print('# OF STAY_ID WHO HAVE INFECTION_HOUR > 32 IN EVENT TABLE :', len(stayid_32))
    
    # 발병 환자의 경우
    event = %sql select * from public.event_table
    event = pd.DataFrame(event)
    event.columns=['subject_id', 'stay_id', 'compiled_hr', 'start_time', 'endttime', 'pao2ratio_novent', 'pao2ratio_vent', 'rate_dobutamine', 'rate_dopamine', 'rate_epinephrine', 'rate_nonepinephrine', 'meabp_min', 'heartrate_max', 'temperature_max', 'gcs_min', 'bilirubin_max', 'creatineine_max', 'paltelet_min', 'respiration', 'coagulation', 'liver', 'cns', 'renal', 'respiration_24hours', 'coagulation_24hours', 'liver_24hours', 'cns_24hours', 'renal_24hours', 'sofa_24hours', 'infection_time', 'is_infection', ' infection_hour']
    event = event.drop(['pao2ratio_novent', 'rate_dobutamine'], axis=1)

    # 32시간 째가 발병 시간이 되도록 자르기
    #   1. 32h 이상 추적기록 있는 환자만 가져오기
    cond = event['stay_id'].isin(stayid_32)
    event = event[cond]

    final_nonevent = pd.DataFrame(columns=['subject_id', 'stay_id', 'compiled_hr', 'start_time', 'endttime', 'pao2ratio_novent', 'pao2ratio_vent', 'rate_dobutamine', 'rate_dopamine', 'rate_epinephrine', 'rate_nonepinephrine', 'meabp_min', 'heartrate_max', 'temperature_max', 'gcs_min', 'bilirubin_max', 'creatineine_max', 'paltelet_min', 'respiration', 'coagulation', 'liver', 'cns', 'renal', 'respiration_24hours', 'coagulation_24hours', 'liver_24hours', 'cns_24hours', 'renal_24hours', 'sofa_24hours', 'infection_time', 'is_infection', ' infection_hour'])
    event_stayid = set(event['stay_id'])
    #   2. 동일 stay_id별로 뽑아서 정렬 후 감염시간 기준 앞에서 3개 가져오기 & reset 
    for event_id in event_stayid:
        cnt = 0
    #     2-1. 동일 stay_id별로 뽑아서 정렬 
        cond = event['stay_id'] == event_id
        temp = event[cond]
        temp = temp.sort_values(by=['compiled_hr'], axis=0)

    #     2-2. 감염시간 기준 앞에서 3개 가져오기
        idx = temp.index[temp['is_infection'] == 1].tolist()  #  is_infection=1인 row 찾기
        hr = temp.loc[idx[0]]['compiled_hr']  # 해당 hr 확인
        c1 = temp['compiled_hr'] >= hr-3
        c2 = temp['compiled_hr'] <= hr
        temp = temp[c1 & c2]

    #   3. final_event에 저장
        final_nonevent = pd.concat([final_nonevent, temp])
    print(len(final_event))
    print(len(set(final_event['stay_id'])))
    
    return final_nonevent

> 모든 환자 데이터의 결측치를 interpolation을 통해 처리하는 함수

In [None]:
# 모든 환자 데이터의 결측치를 처리하기 위한 함수
# 각 환자들의 데이터를 불러서 hr 기준으로 정렬 후 interpolation
# interpolation() 전달인자로 들어갈 옵션 생각하기 ex)pad, time...
# 값이 없어 interpolation 이후 채워지지 않은 값에 대해서 제일 최근값(앞/뒤)으로 채우기 -> 아직 안함(주석부분)
def interpolation(): 
    sofa_8 = %sql select * from public.new_sofa_8 
    sofa_8 = pd.DataFrame(sofa_8)
    sofa_8.columns = ['stay_id', 'compiled_hr', 'starttime', 'endttime', 'pao2ratio_novent', 'pao2ratio_vent', 'rate_dobutamine', 'rate_dopamine', 'rate_epinephrine', 'rate_nonepinephrine', 'meabp_min', 'heartrate_max', 'temperature_max', 'gcs_min', 'bilirubin_max', 'creatineine_max', 'paltelet_min', 'respiration', 'coagulation', 'liver', 'cns', 'renal', 'respiration_24hours', 'coagulation_24hours', 'liver_24hours', 'cns_24hours', 'renal_24hours', 'sofa_24hours']
    sofa_8 = sofa_8.astype({'respiration': 'float64', 'coagulation':'float64', 'liver':'float64', 'cns':'float64', 'renal':'float64'})
    sofa_8 = sofa_8.drop(['pao2ratio_novent', 'rate_dobutamine'], axis=1)
    print(sofa_8.dtypes)
    
    final = pd.DataFrame(columns=['stay_id', 'compiled_hr', 'endttime', 'pao2ratio_vent', 'rate_dopamine', 'rate_epinephrine', 'rate_nonepinephrine', 'meabp_min', 'heartrate_max', 'temperature_max', 'gcs_min', 'bilirubin_max', 'creatineine_max', 'paltelet_min', 'respiration', 'coagulation', 'liver', 'cns', 'renal', 'respiration_24hours', 'coagulation_24hours', 'liver_24hours', 'cns_24hours', 'renal_24hours', 'sofa_24hours'])
    
    stay_id = set(sofa_8['stay_id'])

    for s_id in stay_id:
        cond = sofa_8['stay_id']==s_id
        temp = sofa_8[cond]
        temp = temp.sort_values(by=['compiled_hr'], axis=0)


        temp=temp.set_index('starttime')

        print('Before interpolation:', temp.isna().sum().sum())
        temp.interpolate(inplace=True)
        print('After interpolation:', temp.isna().sum().sum())

    #     print('Before fillna:', temp.isna().sum().sum())
    #     temp.fillna(method='pad')
    #     print('After fillna:', temp.isna().sum().sum())

        print(temp)
        final = pd.concat([final, temp])
    
    return final