# 목표
## 중복 이벤트 삭제 함수 만들기

### 1. 삽관 및 발관 중복 이벤트 삭제하기

* time_col1(intubation), time_col2(extubation) 데이터 프레임 각각 할당

* 개별 데이터 프레임 sort_values 진행

* time_diff를 계산하는 함수를 제작, 개별 데이터 프레임에 lambda 함수를 활용하여 적용

* 적용 뒤엔 각각의 데이터 프레임에 time_diff, dup 컬럼이 만들어졌으므로, 이를 원본 df 데이터에 loc 함수를 이용하여 할당

In [1]:
import time
import pandas as pd

subjectlist = pd.read_csv('../Data/subjectlist1_edit.csv', parse_dates=['admittime','intubationtime','dischtime', 'deathtime','extubationtime','reintubation_eventtime'], index_col="Unnamed: 0")

In [2]:
def time_duplicate_event_new(df_original, time_col1, time_col2, time_delta_minute):

    df = df_original.copy()
    
    # 시간 열을 datetime 형식으로 변환
    df[time_col1] = pd.to_datetime(df[time_col1])
    df[time_col2] = pd.to_datetime(df[time_col2])

    # notnull로 NaN 값이 없는 dataframe을 제작
    col1_df = df[df[time_col1].notnull()]
    col2_df = df[df[time_col2].notnull()]

    col1_sorted_df = col1_df.sort_values(by=["subject_id", "hadm_id", time_col1])
    col2_sorted_df = col2_df.sort_values(by=["subject_id", "hadm_id", time_col2])
    
    # 시간 차이를 기반으로 중복을 표시하는 함수
    def mark_duplicates(group, time_column):
        # 이전 행과의 시간 차이 계산
        group["time_diff"] = group[time_column].diff()

        result_list = ["duplicated" if td <= pd.Timedelta(minutes=time_delta_minute) else "not_duplicated" for td in group["time_diff"]]
        
        group["dup"] = result_list
        
        # 임계값과 시간 차이를 비교하여 중복 표시
        return group

    
    filter_int = col1_sorted_df.groupby(["subject_id", "hadm_id"], group_keys=False).apply(lambda x: mark_duplicates(x, time_col1))
    filter_ext = col2_sorted_df.groupby(["subject_id", "hadm_id"], group_keys=False).apply(lambda x: mark_duplicates(x, time_col2))

    col1_idx_list = filter_int.index.to_list()
    col2_idx_list = filter_ext.index.to_list()

    for idx in range(1, len(col1_idx_list)):
        # print("현재 인덱스:", idx)
        # print("filter_int 인덱스:", col1_idx_list[idx])
        if filter_int["dup"][col1_idx_list[idx]] == "duplicated":
            df.loc[col1_idx_list[idx-1], "int_dup"] = "duplicated"
            df.loc[col1_idx_list[idx], "int_dup"] = "duplicated"
            df.loc[col1_idx_list[idx], "int_timediff"] = filter_int.loc[col1_idx_list[idx], "time_diff"]
            
    for idx in range(1, len(col2_idx_list)):
        if filter_ext["dup"][col2_idx_list[idx]] == "duplicated":
            df.loc[col2_idx_list[idx-1], "ext_dup"] = "duplicated"
            df.loc[col2_idx_list[idx], "ext_dup"] = "duplicated"
            df.loc[col2_idx_list[idx], "ext_timediff"] = filter_ext.loc[col2_idx_list[idx], "time_diff"]

    return df

In [3]:
minutes = [40, 50, 60, 70, 80, 90]

for minute in minutes:
    filter_df = time_duplicate_event_new(subjectlist, "intubationtime", "extubationtime", minute)
    total_int_row = len(filter_df[filter_df['intubationtime'].notnull()])
    total_ext_row = len(filter_df[filter_df['extubationtime'].notnull()])
    portion_dup_int = round((filter_df["int_dup"].value_counts(normalize=True).loc['duplicated']*100), 2)
    portion_dup_ext = round((filter_df["ext_dup"].value_counts(normalize=True).loc['duplicated']*100), 2)
    
    print(f"time_delta가 {minute}분 일때")
    print(f"{'-'*70}")
    print(f'intubation 중복 행 개수 : 전체 intubation 행 개수 {total_int_row}행 중에서, {filter_df["int_dup"].value_counts().loc["duplicated"]}개')
    print(f'intubation 중복 행 비율 : {portion_dup_int} %')
    print(f'extubation 중복 행 개수 : 전체 extubation 행 개수 {total_ext_row}행 중에서, {filter_df["ext_dup"].value_counts().loc["duplicated"]}개')
    print(f'extubation 중복 행 비율 : {portion_dup_ext} %')
    print("")

time_delta가 40분 일때
----------------------------------------------------------------------
intubation 중복 행 개수 : 전체 intubation 행 개수 7860행 중에서, 34개
intubation 중복 행 비율 : 0.38 %
extubation 중복 행 개수 : 전체 extubation 행 개수 8759행 중에서, 16개
extubation 중복 행 비율 : 0.18 %

time_delta가 50분 일때
----------------------------------------------------------------------
intubation 중복 행 개수 : 전체 intubation 행 개수 7860행 중에서, 52개
intubation 중복 행 비율 : 0.58 %
extubation 중복 행 개수 : 전체 extubation 행 개수 8759행 중에서, 20개
extubation 중복 행 비율 : 0.22 %

time_delta가 60분 일때
----------------------------------------------------------------------
intubation 중복 행 개수 : 전체 intubation 행 개수 7860행 중에서, 64개
intubation 중복 행 비율 : 0.71 %
extubation 중복 행 개수 : 전체 extubation 행 개수 8759행 중에서, 24개
extubation 중복 행 비율 : 0.27 %

time_delta가 70분 일때
----------------------------------------------------------------------
intubation 중복 행 개수 : 전체 intubation 행 개수 7860행 중에서, 72개
intubation 중복 행 비율 : 0.8 %
extubation 중복 행 개수 : 전체 extubation 행 개수 8759행 중에서, 24개
ex