# 배경
- Sepsis와 항생제
    - 맨 처음 항생제 처방 시점
    - 항생체 첫 처방 후 다른 약으로 변경(내가 항생제를 잘 처방하는게 맞나? 바꿔야 하나?)
    - 타임 윈도우를 좀더 세밀하게 나누어서
        - intime
        - outtime
        - antibiotic_time_poe
        - suspected_of_infection_poe



# 문제 종류
- binary classification: 항생제를 처방받았는가
- [TBD] multi-label classification: 어떤 항생제를 처방받았는가

- 유지, 끊기, 바꾸기를 예측
- sepsis3_cohort의 주요 피처들을 좀더 세밀한 타임 윈도우로 추출해야함
     - antibiotic_time_poe: 첫 처방인지 마지막 처방인지
     - vent 등 스코어나 체온 등을 세밀하게 뽑을 수 있는지 

# 실험
- 코호트

<img src="images/pnp_fig1.png">

- 피처 전처리/엔지니어링
    - [TBD]
- 모델
    - LR
    - RF
    - GB
    - (R)NN

# 교차검증
- 5-folds CV

# 평가
- AUROC
- variable importance: 어떤 변수가 다음 처방에 영향을 미쳤을까?


# 예측값의 활용
- 처방 실수의 예방

In [4]:
%matplotlib inline

import matplotlib.pyplot as plt
import seaborn as sns; sns.set(rc={'figure.figsize':(15,15)})
import numpy as np
import pandas as pd
from sqlalchemy import create_engine
engine = create_engine('postgresql://postgres:mimic@127.0.0.1:5555/mimic')

In [50]:
sql = """
select a.subject_id, s.* 
from sepsis3_cohort s 
    left join icustays a 
    on s.hadm_id=a.hadm_id and s.icustay_id=a.icustay_id
where s.excluded = 0
"""
label = pd.read_sql(sql, engine)
label.head().T

Unnamed: 0,0,1,2,3,4
subject_id,165,266,422,671,2457
hadm_id,170252,186251,117029,126769,135882
icustay_id,247247,293876,299666,246119,298039
intime,2170-10-03 17:17:53,2168-07-10 08:02:23,2173-04-03 11:36:29,2195-12-31 04:45:35,2139-10-29 18:14:01
outtime,2170-10-04 16:24:15,2168-07-11 17:40:38,2173-04-08 14:20:31,2196-01-07 17:35:50,2139-10-30 18:26:57
age,86.4824,77.5623,57.6467,47.7629,79.6978
gender,M,F,M,M,F
ethnicity,BLACK/AFRICAN AMERICAN,BLACK/AFRICAN AMERICAN,WHITE,WHITE,HISPANIC OR LATINO
first_service,MED,NMED,CMED,NSURG,GYN
dbsource,metavision,metavision,metavision,metavision,metavision


In [29]:
label.groupby('excluded').size()

excluded
0    11791
1    49741
dtype: int64

In [30]:
label.subject_id.nunique()

46476

In [31]:
label[label.excluded==0].subject_id.nunique()

11791

In [32]:
label[label.excluded==1].subject_id.nunique()

36839

In [33]:
sql = """
select count(distinct subject_id)
from icustays
"""
pd.read_sql(sql, engine)

Unnamed: 0,count
0,46476


- icu의 총 환자 46476명 중에 sepsis3 조건에 맞는 icustay는 11791 건
    - 해당 조건의 고유 환자수도 11791건으로 icustays:subejct_id = 1:1
    - 즉, 각 환자가 한번만 icu에 입원했고, sepsis 진단을 받았다. 여러번 입원하고 진단받은 사례는 없다.
    - 따라서, 환자 수준의 모델링만 가능, 방문 수준의 모델링은 불가능

<hr>

In [40]:
label[(label.excluded==0) & (label.antibiotic_time_poe.notnull())]['icustay_id'].count()

7588

In [41]:
label[(label.excluded==0) & (label.antibiotic_time_poe.isnull())]['icustay_id'].count()

4203

In [43]:
label[(label.excluded==0) & (label.antibiotic_time_poe.notnull())].subject_id.nunique()

7588

In [44]:
label[(label.excluded==0) & (label.antibiotic_time_poe.isnull())].subject_id.nunique()

4203

- icu의 총 환자 46476명 중에 sepsis3 조건에 맞는 icustay는 11791 건
    - 항생제 처방을 받은 환자수 7588, 건수 7588, 
    - 항생제 처방을 받지 않은 환자수 4203, 건수는 4203

<hr>

In [47]:
sql = """
select i.subject_id, s.*, a.antibiotic_time_poe
from sepsis3 s 
    join sepsis3_cohort a 
        on s.icustay_id=a.icustay_id
    join icustays i
        on s.icustay_id=i.icustay_id
where a.excluded = 0
"""
features = pd.read_sql(sql, engine)

In [48]:
features.head().T

Unnamed: 0,0,1,2,3,4
subject_id,61691,41710,56369,74282,67800
icustay_id,200021,200028,200033,200061,200075
hadm_id,109307,181955,198650,121149,132255
excluded,0,0,0,0,0
intime,2114-12-26 19:45:12,2133-10-29 17:13:50,2198-08-07 17:56:17,2134-01-23 16:38:46,2159-09-23 00:13:20
outtime,2114-12-27 22:46:28,2133-11-01 14:55:14,2198-08-21 14:59:18,2134-01-25 16:59:14,2159-09-25 01:55:17
dbsource,metavision,metavision,metavision,metavision,metavision
suspected_infection_time_poe,NaT,NaT,2198-08-08 01:00:00,2134-01-24 00:30:00,2159-09-23 03:33:00
suspected_infection_time_poe_days,,,-0.294248,-0.327245,-0.138657
specimen_poe,,,MRSA SCREEN,URINE,MRSA SCREEN


# TBD

- 위의 피처 전처리를 어떻게 할것인가
- 추가로 붙일 피처가 있을까
- sepsis 인데 항생제 처방을 안 받는게 어떤 의미인가

# Reference 

[1] Sepsis-3 in MIMIC-III, https://github.com/alistairewj/sepsis3-mimic