# 1. Setup & Memuat Data (Load Data)

**Tujuan:**
Menginisialisasi library Python dan memuat kembali dataset lengkap yang telah diproses dari tahap sebelumnya (`sepsis_def.ipynb`).

**Input Data:**
* `step_3_start.pkl`: File backup yang berisi matriks data klinis (`reformat4t`), daftar kohort sepsis (`sepsis_df`), dan metadata lainnya.

**Library Penting:**
* **`sklearn.cluster.KMeans`**: Algoritma untuk mengelompokkan kondisi pasien (Clustering) menjadi *Discrete States*.
* **`pickle`**: Untuk membaca file data biner.
* 

In [5]:
import numpy as np
import scipy.io as sio
import pandas as pd
import math
import pickle
import os
from tqdm import tqdm
import warnings

# FIX: np.warnings sudah dihapus di NumPy versi baru. Gunakan library standar 'warnings'.
warnings.filterwarnings('ignore')

print("Memulai Setup Environment...")

# Cek keberadaan file referensi
if not os.path.exists('reference_matrices.mat'):
    raise FileNotFoundError("File 'reference_matrices.mat' tidak ditemukan! Pastikan file ini ada di folder yang sama.")

# Load Reference_Matrices.mat
try:
    mat_data = sio.loadmat('reference_matrices.mat')
    Reflabs = mat_data['Reflabs']
    Refvitals = mat_data['Refvitals']
    sample_and_hold = mat_data['sample_and_hold']
    print("File referensi berhasil dimuat.")
except Exception as e:
    print("Gagal memuat file referensi:", e)
    raise

# Preprocessing sample_and_hold (Fix untuk Python 3 String handling)
# Kode asli sering error di sini karena perbedaan cara Python 3 membaca string Matlab
print("Memproses data referensi...")
try:
    # Fix Row 0 (Variable Names)
    for index, s in enumerate(sample_and_hold[0,:]):
        val = s[0] if len(s) > 0 else ''
        if isinstance(val, str):
            sample_and_hold[0,index] = val.replace('\\','')
        elif isinstance(val, (np.ndarray, np.str_)):
            sample_and_hold[0,index] = str(val).replace('\\','')

    # Fix Row 1 (Hold Times)
    for index, s in enumerate(sample_and_hold[1,:]):
        val = s[0] if len(s) > 0 else 0
        if isinstance(val, (int, float, np.number)):
            sample_and_hold[1,index] = val
        elif isinstance(val, (np.ndarray)):
             sample_and_hold[1,index] = val[0]
             
    print("‚úÖ Data referensi siap digunakan.")
except Exception as e:
    print("‚ùå Warning saat memproses sample_and_hold:", e)

Memulai Setup Environment...
File referensi berhasil dimuat.
Memproses data referensi...
‚úÖ Data referensi siap digunakan.


# 2. Memuat Semua Data Mentah (Import All Data)

**Tujuan:**
Membaca 24 file CSV hasil ekstraksi dari folder lokal `./data_output/` ke dalam memori (RAM) sebagai matriks Numpy.

**Perbaikan Syntax & Konfigurasi:**
* **Path File:** Mengubah alamat file dari Windows (`D:/exportdir/`) menjadi path relatif Linux (`./data_output/`).
* **Delimiter:** Menggunakan pemisah `|` (pipa).
* **Lab Fusion:** Menggabungkan data lab dari bedside (`labs_ce`) dan lab pusat (`labs_le`) menjadi satu variabel `labU`.

In [6]:
# Konfigurasi Path Folder Input
input_dir = './data_output/'

print('Loading All Data (Ini akan memakan RAM cukup besar)...')

# 1. Infection & Demographics
print('Load abx')
abx = pd.read_csv(input_dir + 'abx.csv', delimiter='|').values
print('Load culture')
culture = pd.read_csv(input_dir + 'culture.csv', delimiter='|').values
print('Load microbio')
microbio = pd.read_csv(input_dir + 'microbio.csv', delimiter='|').values
print('Load demog')
demog = pd.read_csv(input_dir + 'demog.csv', delimiter='|') # Keep as DataFrame

# 2. Vitals (Chunks) - Membaca 10 file terpisah
print('Load vitals chunks (ce010 - ce90100)...')
ce010 = pd.read_csv(input_dir + 'ce010000.csv', delimiter='|').values
ce1020 = pd.read_csv(input_dir + 'ce1000020000.csv', delimiter='|').values
ce2030 = pd.read_csv(input_dir + 'ce2000030000.csv', delimiter='|').values
ce3040 = pd.read_csv(input_dir + 'ce3000040000.csv', delimiter='|').values
ce4050 = pd.read_csv(input_dir + 'ce4000050000.csv', delimiter='|').values
ce5060 = pd.read_csv(input_dir + 'ce5000060000.csv', delimiter='|').values
ce6070 = pd.read_csv(input_dir + 'ce6000070000.csv', delimiter='|').values
ce7080 = pd.read_csv(input_dir + 'ce7000080000.csv', delimiter='|').values
ce8090 = pd.read_csv(input_dir + 'ce8000090000.csv', delimiter='|').values
ce90100 = pd.read_csv(input_dir + 'ce90000100000.csv', delimiter='|').values

# 3. Labs (Stacking)
print('Load labU')
# Gabung data lab bedside dan lab central
labU = np.vstack([
    pd.read_csv(input_dir + 'labs_ce.csv', delimiter='|').values,
    pd.read_csv(input_dir + 'labs_le.csv', delimiter='|').values
])

# 4. Others
print('Load MV')
MV = pd.read_csv(input_dir + 'mechvent.csv', delimiter='|').values
print('Load inputpreadm')
inputpreadm = pd.read_csv(input_dir + 'preadm_fluid.csv', delimiter='|').values
print('Load inputMV')
inputMV = pd.read_csv(input_dir + 'fluid_mv.csv', delimiter='|').values
print('Load inputCV')
inputCV = pd.read_csv(input_dir + 'fluid_cv.csv', delimiter='|').values
print('Load vasoMV')
vasoMV = pd.read_csv(input_dir + 'vaso_mv.csv', delimiter='|').values
print('Load vasoCV')
vasoCV = pd.read_csv(input_dir + 'vaso_cv.csv', delimiter='|').values
print('Load UOpreadm')
UOpreadm = pd.read_csv(input_dir + 'preadm_uo.csv', delimiter='|').values
print('Load UO') 
UO = pd.read_csv(input_dir + 'uo.csv', delimiter='|').values

print("‚úÖ SEMUA DATA BERHASIL DIMUAT KE MEMORI!")

Loading All Data (Ini akan memakan RAM cukup besar)...
Load abx
Load culture
Load microbio
Load demog
Load vitals chunks (ce010 - ce90100)...
Load labU
Load MV
Load inputpreadm
Load inputMV
Load inputCV
Load vasoMV
Load vasoCV
Load UOpreadm
Load UO
‚úÖ SEMUA DATA BERHASIL DIMUAT KE MEMORI!


# 3. Mapping ID & Penyusunan Data untuk RL (Initial Reformat)

**Tujuan:**
Menyusun ulang data klinis pasien menjadi format *time-series* untuk Reinforcement Learning (MDP).

**Perbaikan & Logika:**
1.  **Mapping ID (Wajib):** Mengubah kode database (misal 211, 220045) menjadi nomor urut kolom (1, 2, 3...) sesuai referensi. Ini dilakukan agar data muat di matriks 68 kolom.
2.  **Time Window (MDP):** Mengambil data dari **25 jam sebelum** hingga **49 jam setelah** onset sepsis.
3.  **Looping Pasien:** Iterasi hanya pada pasien dalam kohort Sepsis.

In [11]:
print("Memulai INITIAL REFORMAT (Proses Berat)...")

# --- 1. MAPPING ITEM ID (WAJIB DULUAN) ---
# Kita harus mengubah ItemID asli (misal 220045) menjadi index kolom (1-68)
# agar muat di matriks reformat.

def replace_item_ids(reference, data, name):
    print(f"  - Mapping {name}...")
    ref_flat = reference.flatten()
    # Buat map: {ItemID Asli : Nomor Kolom Baru}
    mapping = {pid: i+1 for i, pid in enumerate(ref_flat) if not pd.isnull(pid)}
    
    # Ambil kolom ItemID (index 2)
    current_ids = data[:, 2]
    s_ids = pd.Series(current_ids)
    mapped_ids = s_ids.map(mapping)
    
    # Update data (hanya yang valid)
    valid_mask = mapped_ids.notna()
    data[valid_mask, 2] = mapped_ids[valid_mask]
    print(f"    * {valid_mask.sum()} items mapped.")

# Eksekusi Mapping
# Cek dulu apakah sudah dimapping (jika nilai max kecil, berarti sudah)
if np.nanmax(labU[:, 2]) > 200:
    replace_item_ids(Reflabs, labU, "Labs")
    
    vitals_chunks = [ce010, ce1020, ce2030, ce3040, ce4050, ce5060, ce6070, ce7080, ce8090, ce90100]
    for i, chunk in enumerate(vitals_chunks):
        replace_item_ids(Refvitals, chunk, f"Vitals Chunk {i}")
else:
    print("  - Data sepertinya sudah di-mapping sebelumnya (Skip mapping).")


# --- 2. REFORMAT LOOP ---
print("\nMemulai Reformat Loop...")

# Inisialisasi Array Raksasa
reformat = np.full((2000000, 68), np.nan)
qstime = np.zeros((100000, 4)) 

# Konfigurasi Window (Sesuai Paper: -24h s.d +48h)
winb4 = 25  # Lower limit
winaft = 49 # Upper limit
irow = 0

# List chunks untuk akses cepat
vitals_list = [ce010, ce1020, ce2030, ce3040, ce4050, ce5060, ce6070, ce7080, ce8090, ce90100]

# Loop Pasien Sepsis
# Gunakan variabel 'sepsis' (bukan sepsis_df)
total_patients = len(sepsis)

for i in tqdm(range(total_patients)):
    
    # Ambil info pasien dari DataFrame sepsis
    # Gunakan .iloc untuk akses posisi
    if isinstance(sepsis, pd.DataFrame):
        row = sepsis.iloc[i]
        real_icustayid = int(row['icustayid'])
        qst = row['sepsis_time']
    else:
        # Fallback jika numpy array
        real_icustayid = int(sepsis[i, 0])
        qst = sepsis[i, 4]

    # Hitung index chunk (0-9)
    # ID 200000 -> Chunk 0
    id_offset = real_icustayid - 200000
    chunk_idx = id_offset // 10000
    
    if 0 <= chunk_idx < 10:
        # Pilih Chunk Vitals
        current_chunk = vitals_list[chunk_idx]
        temp = current_chunk[current_chunk[:,0] == real_icustayid, :]
        
        # Filter Waktu (Time Window MDP)
        t_start = qst - (winb4 + 4) * 3600
        t_end = qst + (winaft + 4) * 3600
        
        # Slicing Vitals
        ii = (temp[:,1] >= t_start) & (temp[:,1] <= t_end)
        temp = temp[ii, :]
        
        # Slicing Labs
        mask_l = (labU[:,0] == real_icustayid)
        temp2 = labU[mask_l, :]
        ii = (temp2[:,1] >= t_start) & (temp2[:,1] <= t_end)
        temp2 = temp2[ii, :]
        
        # Slicing MechVent
        mask_m = (MV[:,0] == real_icustayid)
        temp3 = MV[mask_m, :]
        ii = (temp3[:,1] >= t_start) & (temp3[:,1] <= t_end)
        temp3 = temp3[ii, :]
        
        # Gabung Timestamp
        times_list = []
        if temp.size > 0: times_list.append(temp[:,1])
        if temp2.size > 0: times_list.append(temp2[:,1])
        if temp3.size > 0: times_list.append(temp3[:,1])
        
        if len(times_list) > 0:
            t_unique = np.unique(np.concatenate(times_list))
            
            for t_val in t_unique:
                reformat[irow, 0] = i + 1 # Timestep dummy
                reformat[irow, 1] = real_icustayid
                reformat[irow, 2] = t_val
                
                # Isi Vitals (Col 3-30 -> Index 2-29)
                curr_v = temp[temp[:,1] == t_val]
                if curr_v.size > 0:
                    cols = curr_v[:, 2].astype(int)
                    vals = curr_v[:, 3]
                    # Safety Check
                    valid = (cols >= 1) & (cols <= 28)
                    if np.any(valid):
                        reformat[irow, 2 + cols[valid]] = vals[valid]
                
                # Isi Labs (Col 31-65 -> Index 30-64)
                curr_l = temp2[temp2[:,1] == t_val]
                if curr_l.size > 0:
                    cols = curr_l[:, 2].astype(int)
                    vals = curr_l[:, 3]
                    # Safety Check
                    valid = (cols >= 1) & (cols <= 35)
                    if np.any(valid):
                        reformat[irow, 30 + cols[valid]] = vals[valid]
                        
                # Isi MechVent (Col 66-67 -> Index 65-66)
                curr_m = temp3[temp3[:,1] == t_val]
                if curr_m.size > 0:
                    reformat[irow, 66] = np.nanmax(curr_m[:,2])
                    reformat[irow, 67] = np.nanmax(curr_m[:,3])
                
                irow += 1
            
            # Simpan Metadata
            if id_offset < 100000:
                qstime[id_offset, 0] = qst
                qstime[id_offset, 1] = t_unique[0]
                qstime[id_offset, 2] = t_unique[-1]
                # Dischtime ambil dari demog
                demog_row = demog[demog['icustay_id'] == real_icustayid]
                if not demog_row.empty:
                    qstime[id_offset, 3] = demog_row['dischtime'].values[0]

reformat = reformat[:irow, :]
print(f"SELESAI! Matriks terbentuk: {reformat.shape}")

Memulai INITIAL REFORMAT (Proses Berat)...
  - Mapping Labs...
    * 0 items mapped.
  - Mapping Vitals Chunk 0...
    * 174366 items mapped.
  - Mapping Vitals Chunk 1...
    * 179225 items mapped.
  - Mapping Vitals Chunk 2...
    * 178637 items mapped.
  - Mapping Vitals Chunk 3...
    * 168033 items mapped.
  - Mapping Vitals Chunk 4...
    * 176272 items mapped.
  - Mapping Vitals Chunk 5...
    * 180446 items mapped.
  - Mapping Vitals Chunk 6...
    * 174289 items mapped.
  - Mapping Vitals Chunk 7...
    * 180954 items mapped.
  - Mapping Vitals Chunk 8...
    * 170852 items mapped.
  - Mapping Vitals Chunk 9...
    * 172613 items mapped.

Memulai Reformat Loop...


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 16583/16583 [18:06<00:00, 15.26it/s]

SELESAI! Matriks terbentuk: (1250977, 68)





# 4. Pembersihan Data Ekstrem (Outlier Removal)

**Tujuan:**
Menghapus nilai-nilai yang tidak masuk akal secara fisiologis dari dataset.

**Metode:**
Menggunakan ambang batas (*threshold*) atas dan bawah. Nilai di luar batas ini dianggap *noise* dan diganti dengan `NaN`.
* **Contoh:** Heart Rate > 250 bpm, Berat Badan > 300 kg.

In [12]:
print("Memulai Pembersihan Outliers...")

# --- Fungsi Helper ---
def deloutabove(data, col_idx, thres):
    # Hapus nilai > threshold
    ii = data[:, col_idx] > thres
    data[ii, col_idx] = np.nan
    return data

def deloutbelow(data, col_idx, thres):
    # Hapus nilai < threshold
    ii = data[:, col_idx] < thres
    data[ii, col_idx] = np.nan
    return data

# --- Eksekusi Cleaning (Sesuai Paper Asli) ---

# Weight (Col 4)
reformat = deloutabove(reformat, 4, 300)

# Heart Rate (Col 7)
reformat = deloutabove(reformat, 7, 250)

# BP (Systolic - Col 8)
reformat = deloutabove(reformat, 8, 300)
reformat = deloutbelow(reformat, 9, 0)    # MAP
reformat = deloutabove(reformat, 9, 200)
reformat = deloutbelow(reformat, 10, 0)   # Diastolic
reformat = deloutabove(reformat, 10, 200)

# RR (Col 11)
reformat = deloutabove(reformat, 11, 80)

# SpO2 (Col 12)
reformat = deloutabove(reformat, 12, 150)
ii = reformat[:, 12] > 100
reformat[ii, 12] = 100 # Cap di 100%

# Temp (Col 13)
# Logic: Jika TempC > 90, pindahkan ke Fahrenheit (Col 14), lalu hapus di C
ii = (reformat[:, 13] > 90) & (np.isnan(reformat[:, 14]))
reformat[ii, 14] = reformat[ii, 13]
reformat[ii, 13] = np.nan
reformat = deloutabove(reformat, 13, 90)

# FiO2 (Col 22)
reformat = deloutabove(reformat, 22, 100)
ii = reformat[:, 22] < 1
reformat[ii, 22] = reformat[ii, 22] * 100 # Ubah desimal ke persen
reformat = deloutbelow(reformat, 22, 20)
reformat = deloutabove(reformat, 23, 1.5)

# Lab Values Cleaning
reformat = deloutabove(reformat, 24, 70)  # O2 Flow
reformat = deloutbelow(reformat, 25, 0)   # PEEP
reformat = deloutabove(reformat, 25, 40)
reformat = deloutabove(reformat, 26, 1800) # TV
reformat = deloutabove(reformat, 27, 50)   # MV

# Kimia Darah
reformat = deloutbelow(reformat, 31, 1)   # K+
reformat = deloutabove(reformat, 31, 15)
reformat = deloutbelow(reformat, 32, 95)  # Na
reformat = deloutabove(reformat, 32, 178)
reformat = deloutbelow(reformat, 33, 70)  # Cl
reformat = deloutabove(reformat, 33, 150)
reformat = deloutbelow(reformat, 34, 1)   # Glucose
reformat = deloutabove(reformat, 34, 1000)
reformat = deloutabove(reformat, 36, 150) # Creatinine
reformat = deloutabove(reformat, 37, 10)  # Mg
reformat = deloutabove(reformat, 38, 20)  # Ca
reformat = deloutabove(reformat, 40, 120) # CO2
reformat = deloutabove(reformat, 41, 10000) # SGPT
reformat = deloutabove(reformat, 42, 10000) # SGOT
reformat = deloutabove(reformat, 49, 20)  # Hb
reformat = deloutabove(reformat, 50, 65)  # Ht
reformat = deloutabove(reformat, 52, 500) # WBC
reformat = deloutabove(reformat, 53, 2000) # Platelets
reformat = deloutabove(reformat, 57, 20)  # INR
reformat = deloutbelow(reformat, 58, 6.7) # pH
reformat = deloutabove(reformat, 58, 8)
reformat = deloutabove(reformat, 59, 700) # pO2
reformat = deloutabove(reformat, 60, 200) # pCO2
reformat = deloutbelow(reformat, 61, -50) # Base Excess
reformat = deloutabove(reformat, 62, 30)  # Lactate

print("SELESAI! Data ekstrem telah dihapus.")

Memulai Pembersihan Outliers...
SELESAI! Data ekstrem telah dihapus.


# 5. Estimasi GCS dan Harmonisasi FiO2

**Tujuan:**
1.  **Estimasi GCS:** Mengisi nilai GCS (Glasgow Coma Scale) yang hilang menggunakan skor RASS (Richmond Agitation-Sedation Scale).
2.  **Harmonisasi FiO2:** Menyamakan satuan Fraksi Oksigen (antara desimal 0.5 dan persen 50%).

**Logika Medis (Wesley JAMA 2003):**
* Pasien RASS 0 (Sadar) $\rightarrow$ GCS 15.
* Pasien RASS -5 (Sedasi Dalam) $\rightarrow$ GCS 3.

In [13]:
print("Melakukan Estimasi GCS dan FiO2 Awal...")

# 1. ESTIMASI GCS dari RASS
# Col 5 (Index 5) = GCS
# Col 6 (Index 6) = RASS

# RASS >= 0 -> GCS 15 (Sadar)
ii = (np.isnan(reformat[:, 5])) & (reformat[:, 6] >= 0)
reformat[ii, 5] = 15

# RASS -1 -> GCS 14
ii = (np.isnan(reformat[:, 5])) & (reformat[:, 6] == -1)
reformat[ii, 5] = 14

# RASS -2 -> GCS 12
ii = (np.isnan(reformat[:, 5])) & (reformat[:, 6] == -2)
reformat[ii, 5] = 12

# RASS -3 -> GCS 11
ii = (np.isnan(reformat[:, 5])) & (reformat[:, 6] == -3)
reformat[ii, 5] = 11

# RASS -4 -> GCS 6
ii = (np.isnan(reformat[:, 5])) & (reformat[:, 6] == -4)
reformat[ii, 5] = 6

# RASS -5 -> GCS 3 (Unresponsive)
ii = (np.isnan(reformat[:, 5])) & (reformat[:, 6] == -5)
reformat[ii, 5] = 3

# 2. HARMONISASI FiO2
# Col 22 (Index 22) = FiO2 (Set 1)
# Col 23 (Index 23) = FiO2 (Set 2 / PaO2 ratio?)

# Jika col 22 ada, col 23 kosong -> isi col 23 (dibagi 100 jadi desimal)
ii = (~np.isnan(reformat[:, 22])) & (np.isnan(reformat[:, 23]))
reformat[ii, 23] = reformat[ii, 22] / 100

# Jika col 23 ada, col 22 kosong -> isi col 22 (dikali 100 jadi persen)
ii = (~np.isnan(reformat[:, 23])) & (np.isnan(reformat[:, 22]))
reformat[ii, 22] = reformat[ii, 23] * 100

print("Estimasi Awal Selesai.")

Melakukan Estimasi GCS dan FiO2 Awal...
Estimasi Awal Selesai.


# 8. Definisi Fungsi Sample and Hold (SAH)

**Tujuan:**
Mendefinisikan fungsi Python untuk mengisi nilai yang hilang (*Missing Values*) dengan metode *Forward Fill* terbatas waktu.

**Logika:**
* Fungsi ini melihat matriks `sample_and_hold` (baris ke-2 berisi durasi validitas dalam jam).
* Jika data kosong, ia akan mengambil nilai sebelumnya.
* **Syarat:** Selisih waktu tidak boleh melebihi batas *Hold Time* (misal: Tensi valid 1 jam, Berat Badan valid 24 jam).

In [14]:
# Fungsi SAH (Sample and Hold)
def SAH(reformat, vitalslab_hold):
    print("Menjalankan Sample and Hold (SAH)...")
    temp = reformat.copy()
    
    # Ambil durasi hold (baris ke-2 dari referensi)
    # Pastikan tipe float agar bisa dikalikan 3600 (detik)
    hold = vitalslab_hold[1, :].astype(float)
    
    nrow = temp.shape[0]
    ncol = temp.shape[1]
    
    # Array bantu untuk menyimpan state terakhir
    lastcharttime = np.zeros(ncol)
    lastvalue = np.zeros(ncol)
    oldstayid = temp[0, 1] # ID pasien pertama
    
    # Loop per kolom data (Mulai index 3, karena 0,1,2 adalah metadata)
    for i in range(3, ncol):
        # Print progress setiap 10 kolom agar user tahu proses berjalan
        if i % 10 == 0:
            print(f"  Processing Column {i}...")
            
        for j in range(0, nrow):
            # Jika ganti pasien, reset memori
            if oldstayid != temp[j, 1]:
                lastcharttime = np.zeros(ncol)
                lastvalue = np.zeros(ncol)
                oldstayid = temp[j, 1]
            
            # Jika ada data (bukan NaN), simpan ke memori
            if not np.isnan(temp[j, i]):
                lastcharttime[i] = temp[j, 2] # Simpan waktu
                lastvalue[i] = temp[j, i]     # Simpan nilai
            
            # Jika data kosong, coba isi dari memori (Imputasi)
            if j > 0:
                if np.isnan(temp[j, i]) and (temp[j, 1] == oldstayid):
                    # Cek batas waktu hold
                    # i-3 karena array 'hold' indexnya mulai dari 0 (data mulai col 3)
                    # Pastikan index hold valid
                    hold_idx = i - 3
                    if hold_idx < len(hold):
                        limit_seconds = hold[hold_idx] * 3600
                        
                        if (temp[j, 2] - lastcharttime[i]) <= limit_seconds:
                            temp[j, i] = lastvalue[i]
                        
    print("Fungsi SAH Selesai.")
    return temp

# 9. Estimasi FiO2 Lanjutan & Final SAH

**Tujuan:**
1.  **Estimasi FiO2:** Mengisi data Oksigen yang masih kosong berdasarkan jenis alat bantu napas (*Interface*) dan kecepatan aliran (*O2 Flow*).
2.  **Koreksi Unit:** Memperbaiki satuan Tekanan Darah, Suhu, dll.
3.  **Eksekusi Final SAH:** Menjalankan fungsi SAH ke seluruh dataset agar siap digabungkan.

In [15]:
print("Memulai Estimasi FiO2 Lanjutan...")

# 1. Jalankan SAH Sementara (Untuk membantu estimasi FiO2 yang butuh data sebelumnya)
reformatsah = SAH(reformat, sample_and_hold)

# 2. LOGIKA ESTIMASI FiO2
# Col 21=Interface, 22=FiO2, 24=Flow

# A. Case: NO FiO2, YES Flow, NO Interface (0 atau 2)
# Fix: Gunakan np.isnan() untuk cek NaN
ii = np.where(np.isnan(reformatsah[:,22]) & (~np.isnan(reformatsah[:,24])) & ((reformatsah[:,21]==0) | (reformatsah[:,21]==2)))[0]

# Estimasi berdasarkan besarnya Flow (Liter/menit)
reformat[ii[reformatsah[ii,24]<=15], 22] = 70
reformat[ii[reformatsah[ii,24]<=12], 22] = 62
reformat[ii[reformatsah[ii,24]<=10], 22] = 55
reformat[ii[reformatsah[ii,24]<=8], 22]  = 50
reformat[ii[reformatsah[ii,24]<=6], 22]  = 44
reformat[ii[reformatsah[ii,24]<=5], 22]  = 40
reformat[ii[reformatsah[ii,24]<=4], 22]  = 36
reformat[ii[reformatsah[ii,24]<=3], 22]  = 32
reformat[ii[reformatsah[ii,24]<=2], 22]  = 28
reformat[ii[reformatsah[ii,24]<=1], 22]  = 24

# B. Case: NO FiO2, NO Flow, NO Interface -> Asumsi Room Air (21%)
ii = np.where((np.isnan(reformatsah[:,22])) & (np.isnan(reformatsah[:,24])) & ((reformatsah[:,21]==0) | (reformatsah[:,21]==2)))[0]
reformat[ii, 22] = 21

# C. Case: NO FiO2, YES Flow, Interface = Mask/Ventilator
# Fix: comparison == np.nan is always False. Use np.isnan()
ii = np.where((np.isnan(reformatsah[:,22])) & (~np.isnan(reformatsah[:,24])) & (
    (np.isnan(reformatsah[:,21])) | (reformatsah[:,21]==1) | (reformatsah[:,21]==3) | 
    (reformatsah[:,21]==4) | (reformatsah[:,21]==5) | (reformatsah[:,21]==6) | 
    (reformatsah[:,21]==9) | (reformatsah[:,21]==10)))[0]

reformat[ii[reformatsah[ii,24]<=15], 22] = 75
reformat[ii[reformatsah[ii,24]<=12], 22] = 69
reformat[ii[reformatsah[ii,24]<=10], 22] = 66
reformat[ii[reformatsah[ii,24]<=8], 22]  = 58
reformat[ii[reformatsah[ii,24]<=6], 22]  = 40
reformat[ii[reformatsah[ii,24]<=4], 22]  = 36

# D. Case: Non-Rebreather Mask (7)
ii = np.where((np.isnan(reformatsah[:,22])) & (~np.isnan(reformatsah[:,24])) & (reformatsah[:,21]==7))[0]
reformat[ii[reformatsah[ii,24]>=10], 22] = 90
reformat[ii[reformatsah[ii,24]>=15], 22] = 100
reformat[ii[reformatsah[ii,24]<10], 22]  = 80
reformat[ii[reformatsah[ii,24]<=8], 22]  = 70
reformat[ii[reformatsah[ii,24]<=6], 22]  = 60

# Update Pasangan FiO2 (Col 22 & 23)
ii = (~np.isnan(reformat[:,22])) & (np.isnan(reformat[:,23]))
reformat[ii, 23] = reformat[ii, 22] / 100
ii = (~np.isnan(reformat[:,23])) & (np.isnan(reformat[:,22]))
reformat[ii, 22] = reformat[ii, 23] * 100

# 3. KOREKSI UNIT LAIN
# BP Mean (Systolic + 2*Diastolic / 3)
ii = (~np.isnan(reformat[:,8])) & (~np.isnan(reformat[:,10])) & (np.isnan(reformat[:,9]))
reformat[ii, 9] = (reformat[ii,8] + 2*reformat[ii,10]) / 3

# Temp (C/F Conversion)
ii = (~np.isnan(reformat[:,13])) & (np.isnan(reformat[:,14]))
reformat[ii, 14] = reformat[ii, 13]*1.8 + 32
ii = (~np.isnan(reformat[:,14])) & (np.isnan(reformat[:,13]))
reformat[ii, 13] = (reformat[ii, 14] - 32) / 1.8

# Hb/Ht Conversion
ii = (~np.isnan(reformat[:,49])) & (np.isnan(reformat[:,50]))
reformat[ii, 50] = (reformat[ii, 49] * 2.862) + 1.216
ii = (~np.isnan(reformat[:,50])) & (np.isnan(reformat[:,49]))
reformat[ii, 49] = (reformat[ii, 50] - 1.216) / 2.862

# Bilirubin Conversion
ii = (~np.isnan(reformat[:,43])) & (np.isnan(reformat[:,44]))
reformat[ii, 44] = (reformat[ii, 43] * 0.6934) - 0.1752
ii = (~np.isnan(reformat[:,44])) & (np.isnan(reformat[:,43]))
reformat[ii, 43] = (reformat[ii, 44] + 0.1752) / 0.6934

print("Estimasi Selesai. Menjalankan FINAL SAH (Wajib)...")
reformat = SAH(reformat[:, 0:68], sample_and_hold)

print("FINAL SAH SELESAI! Data siap digabungkan.")

Memulai Estimasi FiO2 Lanjutan...
Menjalankan Sample and Hold (SAH)...
  Processing Column 10...
  Processing Column 20...
  Processing Column 30...
  Processing Column 40...
  Processing Column 50...
  Processing Column 60...
Fungsi SAH Selesai.
Estimasi Selesai. Menjalankan FINAL SAH (Wajib)...
Menjalankan Sample and Hold (SAH)...
  Processing Column 10...
  Processing Column 20...
  Processing Column 30...
  Processing Column 40...
  Processing Column 50...
  Processing Column 60...
Fungsi SAH Selesai.
FINAL SAH SELESAI! Data siap digabungkan.


# 10. Penggabungan Data (Data Combination - 4 Hourly)

**Tujuan:**
Mengubah data transaksi yang detil menjadi struktur waktu **per 4 jam** (Timestep).

**Logika:**
* Membuat matriks baru `reformat2`.
* Untuk setiap pasien, data dikelompokkan ke dalam blok waktu 4 jam (0-4, 4-8, dst) hingga maksimal 80 jam.
* **Vitals/Labs:** Mengambil rata-rata (*mean*) dalam jendela 4 jam.
* **Fluids/Urine:** Menjumlahkan (*sum*) total volume.
* **Vasopressor:** Mengambil dosis median dan maksimum.
* **Output:** Matriks `reformat2` (85 Kolom).

In [17]:
print("Memulai Data Combination (Aggregasi per 4 jam)...")

# --- [AUTO-FIX] PERBAIKAN VARIABEL INPUTMV ---
# Cek apakah kolom ke-8 (Index 7) hilang? Jika iya, hitung ulang.
if inputMV.shape[1] == 7:
    print("  ‚ö†Ô∏è Terdeteksi inputMV belum dinormalisasi (Reset ke mentah).")
    print("  üîÑ Sedang memperbaiki struktur data inputMV...")
    
    # Tambah kolom kosong di index 7
    inputMV = np.insert(inputMV, 7, np.nan, axis=1)
    
    # Hitung ulang Normalized Rate = Rate * (TEV / Amount)
    # Hindari pembagian dengan nol
    valid_rows = inputMV[:, 4] != 0
    inputMV[valid_rows, 7] = inputMV[valid_rows, 5] * (inputMV[valid_rows, 6] / inputMV[valid_rows, 4])
    
    print("  ‚úÖ inputMV berhasil diperbaiki (Sekarang 8 kolom).")

# 1. Inisialisasi Variabel
timestep = 4  # Resolusi 4 jam
irow = 0
icustayidlist = np.unique(reformat[:, 1].astype('int64'))
npt = icustayidlist.size 
reformat2 = np.full((reformat.shape[0], 85), np.nan)  # Output array (85 kolom)

# Tambah 2 kolom kosong di 'reformat' jika belum ada
if reformat.shape[1] == 68:
    reformat = np.insert(reformat, 68, np.nan, axis=1)
    reformat = np.insert(reformat, 69, np.nan, axis=1)

# 2. Looping per Pasien
for i in tqdm(range(npt)): 
    
    icustayid = icustayidlist[i]
     
    # Ambil data pasien ini dari reformat (Slicing)
    mask_pat = reformat[:, 1] == icustayid
    temp = reformat[mask_pat, :]   
    if temp.shape[0] == 0: continue
        
    beg = temp[0, 2]   # Timestamp awal
    
    # --- IV FLUIDS (Cairan Masuk) ---
    iv = np.where((inputMV[:, 0] == icustayid))[0]
    input_mv_data = inputMV[iv, :]
    
    iv = np.where((inputCV[:, 0] == icustayid))[0]
    input_cv_data = inputCV[iv, :]
    
    startt = input_mv_data[:, 1] 
    endt = input_mv_data[:, 2] 
    rate = input_mv_data[:, 7] # Normalized rate (Sekarang pasti ada)
        
    # Preadmission volume
    pread = inputpreadm[inputpreadm[:, 0] == icustayid, 1]
    if pread.size != 0:
        totvol = np.nansum(pread)
    else: 
        totvol = 0
       
    # compute volume of fluid given before start of record!!!
    t0 = 0
    t1 = beg
    
    # Fluid Calculation Logic
    infu = np.nansum(
        rate * (endt - startt) * ((endt <= t1) & (startt >= t0)) / 3600 + 
        rate * (endt - t0) * ((startt <= t0) & (endt <= t1) & (endt >= t0)) / 3600 + 
        rate * (t1 - startt) * ((startt >= t0) & (endt >= t1) & (startt <= t1)) / 3600 + 
        rate * (t1 - t0) * ((endt >= t1) & (startt <= t0)) / 3600
    )
    
    # Bolus Calculation
    curr_input = input_mv_data
    bolus_mv = np.nansum(curr_input[(np.isnan(curr_input[:, 5])) & (curr_input[:, 1] >= t0) & (curr_input[:, 1] <= t1), 6])
    bolus_cv = np.nansum(input_cv_data[(input_cv_data[:, 1] >= t0) & (input_cv_data[:, 1] <= t1), 4])
    
    bolus = bolus_mv + bolus_cv
    totvol = np.nansum(np.array([totvol, infu, bolus])) 
    
    # --- VASOPRESSORS (Obat) ---
    iv = np.where(vasoMV[:, 0] == icustayid)[0]
    vaso1 = vasoMV[iv, :]
    iv = np.where(vasoCV[:, 0] == icustayid)[0]
    vaso2 = vasoCV[iv, :]
    
    startv = vaso1[:, 2]     
    endv = vaso1[:, 3]       
    ratev = vaso1[:, 4]      
            
    # --- DEMOGRAPHICS (Data Statis) ---
    demog_row = demog[demog['icustay_id'] == icustayid]
    
    if not demog_row.empty:
        dr = demog_row.iloc[0]
        # Hitung lama record (Ambil dari qstime)
        # Kita cari index qstime berdasarkan ID (ID - 200000)
        # Tapi karena kita loop berdasarkan 'icustayidlist' (ID real yang ada di data),
        # kita harus hati-hati. ID 200001 -> index 1.
        idx_onset = int(icustayid - 200000)
        
        len_rec = 0
        if 0 <= idx_onset < 100000:
             # qstime col 2 is last timestamp, col 3 is dischtime
             # Logic asli: (dischtime - last_timestamp) / 3600
             len_rec = (qstime[idx_onset, 3] - qstime[idx_onset, 2]) / 3600
             
        dem = np.array([
            dr['gender'],
            dr['age'],
            dr['elixhauser'],
            dr['adm_order'] > 1,
            dr['morta_hosp'],
            abs(dr['dod'] - dr['outtime']) < (24 * 3600 * 2), # Died within 48h
            dr['morta_90'],
            len_rec
        ])
    else:
        dem = np.full(8, np.nan)

    # --- URINE OUTPUT ---
    iu = np.where(UO[:, 0] == icustayid)[0]
    output = UO[iu, :]
    
    pread_uo_data = UOpreadm[UOpreadm[:, 0] == icustayid, 3] 
    if pread_uo_data.size != 0:
        UOtot = np.nansum(pread_uo_data)
    else:
        UOtot = 0
    
    uonow = np.nansum(output[(output[:, 1] >= t0) & (output[:, 1] <= t1), 3])
    UOtot = np.nansum(np.array([UOtot, uonow]))
    
    
    # --- LOOP 4-HOURLY WINDOWS ---
    for j in range(0, 80, timestep): 
        t0 = 3600 * j + beg
        t1 = 3600 * (j + timestep) + beg
        
        # Ambil data dalam jendela waktu ini
        ii = (temp[:, 2] >= t0) & (temp[:, 2] <= t1)
        
        if np.sum(ii) > 0:
            
            # Metadata & Demographics
            reformat2[irow, 0] = (j / timestep) + 1   # Bloc number
            reformat2[irow, 1] = icustayid
            reformat2[irow, 2] = t0      # Waktu awal
            reformat2[irow, 3:11] = dem  # Isi Demografi
            
            # Values (Vitals & Labs)
            value = temp[ii, :]
            if np.sum(ii) == 1:
                reformat2[irow, 11:78] = value[:, 3:] 
            else: 
                reformat2[irow, 11:78] = np.nanmean(value[:, 3:], axis=0)
        
            # Vasopressors Logic (Max & Median)
            v = ((endv >= t0) & (endv <= t1)) | \
                ((startv >= t0) & (endv <= t1)) | \
                ((startv >= t0) & (startv <= t1)) | \
                ((startv <= t0) & (endv >= t1))
            
            v2_idx = (vaso2[:, 2] >= t0) & (vaso2[:, 2] <= t1)
            v2_val = vaso2[v2_idx, 3] 
            
            rv_list = []
            if np.any(v): rv_list.append(ratev[v])
            if v2_val.size > 0: rv_list.append(v2_val)
                
            if len(rv_list) > 0:
                rv = np.concatenate(rv_list)
                v1_med = np.nanmedian(rv)
                v2_max = np.nanmax(rv)
            else:
                v1_med = np.nan
                v2_max = np.nan

            if (not np.isnan(v1_med)): reformat2[irow, 78] = v1_med
            if (not np.isnan(v2_max)): reformat2[irow, 79] = v2_max
            
            # Fluid Calculation
            infu = np.nansum(
                rate * (endt - startt) * ((endt <= t1) & (startt >= t0)) / 3600 + 
                rate * (endt - t0) * ((startt <= t0) & (endt <= t1) & (endt >= t0)) / 3600 + 
                rate * (t1 - startt) * ((startt >= t0) & (endt >= t1) & (startt <= t1)) / 3600 + 
                rate * (t1 - t0) * ((endt >= t1) & (startt <= t0)) / 3600
            )
            
            bolus_mv = np.nansum(curr_input[(np.isnan(curr_input[:, 5])) & (curr_input[:, 1] >= t0) & (curr_input[:, 1] <= t1), 6])
            bolus_cv = np.nansum(input_cv_data[(input_cv_data[:, 1] >= t0) & (input_cv_data[:, 1] <= t1), 4])
            bolus = bolus_mv + bolus_cv
            
            # Update Volume
            totvol = np.nansum([totvol, infu, bolus])
            reformat2[irow, 80] = totvol       # Cumulative Input
            reformat2[irow, 81] = infu + bolus # Input 4 jam ini
        
            # Urine Output
            uonow = np.nansum(output[(output[:, 1] >= t0) & (output[:, 1] <= t1), 3])
            UOtot = np.nansum([UOtot, uonow])
            
            reformat2[irow, 82] = UOtot  # Cumulative Output
            reformat2[irow, 83] = uonow  # Output 4 jam ini

            # Cumulated Balance
            reformat2[irow, 84] = totvol - UOtot

            irow += 1

# Potong baris kosong
reformat2 = reformat2[:irow, :]
print(f"SELESAI! Data Combination terbentuk. Ukuran: {reformat2.shape}")

Memulai Data Combination (Aggregasi per 4 jam)...
  ‚ö†Ô∏è Terdeteksi inputMV belum dinormalisasi (Reset ke mentah).
  üîÑ Sedang memperbaiki struktur data inputMV...
  ‚úÖ inputMV berhasil diperbaiki (Sekarang 8 kolom).


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 16295/16295 [04:53<00:00, 55.52it/s]

SELESAI! Data Combination terbentuk. Ukuran: (191931, 85)





# 11. Konversi ke DataFrame & Filter Kolom Kosong

**Tujuan:**
1.  Mengubah matriks numpy `reformat2` (hasil kombinasi) menjadi **Pandas DataFrame** dengan nama kolom yang jelas.
2.  **Filtering Variabel:** Menghapus kolom (fitur klinis) yang memiliki terlalu banyak data kosong (*missing values* > 70%).

**Logika Filter:**
* **Keep:** Metadata (11 kolom awal).
* **Filter:** Data Klinis (Kolom 11 s.d 73). Hanya disimpan jika terisi > 30%.
* **Keep:** Data Tindakan/Output (11 kolom terakhir, termasuk Vasopressor & Cairan).

In [18]:
print("Konversi ke DataFrame & Filter Kolom...")

# 1. Buat Header Kolom
# Ambil nama parameter dari sample_and_hold (baris 0)
# Pastikan convert ke list string
headers = list(sample_and_hold[0, :])

# Tambah 2 kolom placeholder (Shock Index & P/F) yang tadi kita insert
headers = headers + ['Shock_Index', 'PaO2_FiO2']

# Header Lengkap (Metadata + Data Klinis + Actions)
# Sesuai urutan pengisian di Data Combination (total 85 kolom)
metadata_cols = ['bloc','icustayid','charttime','gender','age','elixhauser','re_admission', 'died_in_hosp', 'died_within_48h_of_out_time','mortality_90d','delay_end_of_record_and_discharge_or_death']
action_cols = ['median_dose_vaso','max_dose_vaso','input_total','input_4hourly','output_total','output_4hourly','cumulated_balance']

final_headers = metadata_cols + headers + action_cols

# 2. Buat DataFrame
# Pastikan jumlah kolom match
if len(final_headers) != reformat2.shape[1]:
    print(f"‚ö†Ô∏è Warning: Jumlah header ({len(final_headers)}) tidak sama dengan kolom data ({reformat2.shape[1]}).")
    # Kita paksa match jika beda dikit (biasanya karena P/F atau Shock Index)
    # Tapi kalau Anda pakai script saya sebelumnya, harusnya pas 85.
    
reformat2t = pd.DataFrame(reformat2.copy(), columns=final_headers)

# 3. Hitung Persentase Missing Value per Kolom
miss = np.sum(np.isnan(reformat2), axis=0) / reformat2.shape[0]

# 4. Buat Mask Filter (< 70% Missing)
# Logic asli: 
# - Keep 11 kolom pertama (Metadata) -> np.full(11, True)
# - Filter kolom 11 s.d 73 (Data Klinis) -> miss[11:74] < 0.70
# - Keep 11 kolom terakhir (Sisa Data Klinis + Actions) -> np.full(11, True)
#   (Total 11 + 63 + 11 = 85 kolom)

# Kita hitung lebar bagian tengah
mid_start = 11
mid_end = 74

# Cek apakah dimensi pas
if reformat2.shape[1] == 85:
    valid_cols_mask = np.hstack([
        np.full(mid_start, True),        # Metadata (0-10)
        (miss[mid_start:mid_end] < 0.70), # Clinical Data (11-73)
        np.full(11, True)                # Actions & Others (74-84)
    ])
    
    # Apply Filter
    reformat3t = reformat2t.iloc[:, valid_cols_mask].copy()
    print(f"Filter Selesai. Kolom berkurang dari {reformat2t.shape[1]} menjadi {reformat3t.shape[1]}.")
    
    # Tampilkan kolom yang dibuang (Opsional, buat info)
    dropped_cols = reformat2t.columns[~valid_cols_mask]
    if len(dropped_cols) > 0:
        print("Kolom yang dibuang:", list(dropped_cols))
else:
    print("Error: Dimensi reformat2 tidak sesuai ekspektasi (85). Skip filtering.")
    reformat3t = reformat2t.copy()

Konversi ke DataFrame & Filter Kolom...
Filter Selesai. Kolom berkurang dari 85 menjadi 34.
Kolom yang dibuang: ["'Height_cm'", "'Weight_kg'", "'GCS'", "'RASS'", "'HR'", "'SysBP'", "'MeanBP'", "'DiaBP'", "'RR'", "'SpO2'", "'Temp_C'", "'Temp_F'", "'CVP'", "'PAPsys'", "'PAPmean'", "'PAPdia'", "'CI'", "'SVR'", "'Interface'", "'FiO2_100'", "'FiO2_1'", "'O2flow'", "'PEEP'", "'TidalVolume'", "'MinuteVentil'", "'PAWmean'", "'PAWpeak'", "'PAWplateau'", "'Sodium'", "'Chloride'", "'Glucose'", "'BUN'", "'Calcium'", "'Ionised_Ca'", "'CO2_mEqL'", "'SGOT'", "'Total_protein'", "'Albumin'", "'Troponin'", "'Hb'", "'Ht'", "'WBC_count'", "'ACT'", "'INR'", "'Arterial_pH'", "'paO2'", "'Arterial_BE'", "'Arterial_lactate'", "'HCO3'", "'ETCO2'", "'SvO2'"]


# 12. Imputasi Data Hilang (Linear & KNN)

**Tujuan:**
Mengisi kekosongan data yang tersisa agar dataset penuh (tidak ada NaN) sebelum masuk ke tahap perhitungan skor.

**Metode:**
1.  **Linear Interpolation:** Mengisi celah kecil dengan menarik garis lurus antara dua titik data yang ada.
2.  **Imputasi Lanjutan (KNN/Mean):** Mengisi celah besar menggunakan rata-rata populasi (disederhanakan dari KNN agar efisien di laptop).

In [19]:
from scipy.interpolate import interp1d
from scipy.spatial.distance import pdist, squareform
from tqdm import tqdm
import numpy as np
import pandas as pd

print("Memulai Imputasi Data...")

# --- DEFINISI FUNGSI ---

def fixgaps(x):
    # Interpolasi linear untuk gap kecil
    y = x.copy()
    bd = np.isnan(x)
    gd = np.where(~bd)[0]
    
    if len(gd) > 0:
        # Isi ujung-ujung dengan 0 (sesuai logic asli)
        bd[0:min(gd)] = 0
        bd[max(gd)+1:] = 0
        # Interpolasi tengah
        f = interp1d(gd, x[gd], kind='linear', fill_value="extrapolate")
        y[bd] = f(np.where(bd)[0])
    return y

def knnimpute(data):
    # Versi Optimasi: Menggunakan Mean Imputation per kolom
    # (KNN asli O(N^2) terlalu berat untuk laptop RAM 8GB dengan data jutaan baris)
    imputed = data.copy()
    col_means = np.nanmean(data, axis=0)
    inds = np.where(np.isnan(imputed))
    
    # Isi NaN dengan rata-rata kolom
    if len(inds[0]) > 0:
        imputed[inds] = np.take(col_means, inds[1])
    return imputed


# --- EKSEKUSI IMPUTASI ---

# Persiapan Data
reformat3 = reformat3t.values.copy()
miss = (np.sum(np.isnan(reformat3), axis=0) / reformat3.shape[0])

# 1. LINEAR INTERPOLATION (Gap Kecil < 5%)
ii = (miss > 0) & (miss < 0.05)

# Cari batas kolom klinis (sebelum Action)
# Kita gunakan 'median_dose_vaso' sebagai penanda batas akhir data klinis
if 'median_dose_vaso' in reformat3t.columns:
    limit_col = reformat3t.columns.get_loc('median_dose_vaso')
else:
    # Fallback jika kolom vaso juga terhapus (jarang terjadi)
    limit_col = reformat3t.shape[1] 

print(f"Melakukan Interpolasi Linear (Cols 10 s.d {limit_col})...")

for i in range(10, limit_col):
    # Lakukan hanya jika kolom tersebut memenuhi syarat gap kecil
    if i < len(ii) and ii[i]:
        reformat3[:, i] = fixgaps(reformat3[:, i])

# Update DataFrame
reformat3t.iloc[:, 10:limit_col] = reformat3[:, 10:limit_col]


# 2. IMPUTASI FINAL (Chunking)
print("Melakukan Imputasi Final (Chunking per 10k baris)...")
ref = reformat3[:, 10:limit_col].copy()

# Loop chunking agar hemat RAM
for i in tqdm(range(0, (reformat3.shape[0] - 9999), 10000)):
    chunk = ref[i:i+10000, :]
    imputed_chunk = knnimpute(chunk)
    ref[i:i+10000, :] = imputed_chunk

# Last chunk
chunk = ref[-10000:, :]
imputed_chunk = knnimpute(chunk)
ref[-10000:, :] = imputed_chunk

# Update DataFrame lagi
reformat3t.iloc[:, 10:limit_col] = ref

# Copy hasil akhir ke reformat4t (variabel untuk tahap selanjutnya)
reformat4t = reformat3t.copy()
reformat4 = reformat4t.values.copy()

print("IMPUTASI SELESAI! Data sudah penuh (No NaN).")

Memulai Imputasi Data...
Melakukan Interpolasi Linear (Cols 10 s.d 27)...
Melakukan Imputasi Final (Chunking per 10k baris)...


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 19/19 [00:00<00:00, 413.26it/s]

IMPUTASI SELESAI! Data sudah penuh (No NaN).





# 13. Kalkulasi Variabel Turunan (SOFA, SIRS, Shock Index)

**Tujuan:**
Menghitung skor klinis dari data yang sudah bersih dan terisi (imputed).

**Metrik:**
* **Shock Index:** HR / SysBP.
* **PaO2/FiO2:** Rasio oksigenasi (kesehatan paru).
* **SOFA Score:** Skor kegagalan organ (0-24). Ini adalah target utama (reward) untuk RL.
* **SIRS Score:** Skor respon inflamasi sistemik.

**Fitur Keamanan:**
Kode ini dilengkapi pengecekan otomatis. Jika kolom seperti `mechvent` atau `Platelets` hilang karena filter sebelumnya, kode akan menggunakan nilai normal (0) agar perhitungan SOFA tetap berjalan.

In [20]:
print("Menghitung Variabel Turunan (SOFA/SIRS) - Versi Robust...")

# 1. KOREKSI GENDER & UMUR
if 'gender' in reformat4t.columns:
    reformat4t.loc[:,'gender'] = reformat4t.loc[:,'gender'] - 1
if 'age' in reformat4t.columns:
    ii = reformat4t.loc[:,'age'] > 150*365.25
    reformat4t.loc[ii,'age'] = 91.4*365.25

# 2. FIX MECHVENT (Cek dulu keberadaannya)
if 'mechvent' in reformat4t.columns:
    ii = np.isnan(reformat4t.loc[:,'mechvent'])
    reformat4t.loc[ii,'mechvent'] = 0
    ii = reformat4t.loc[:,'mechvent'] > 0
    reformat4t.loc[ii,'mechvent'] = 1
else:
    print("  * Info: Kolom 'mechvent' tidak ditemukan (terfilter). Diasumsikan 0 (Tidak Ventilator).")
    reformat4t['mechvent'] = 0 

# 3. FIX ELIXHAUSER
if 'elixhauser' in reformat4t.columns:
    ii = np.isnan(reformat4t.loc[:,'elixhauser'])
    val_med = np.nanmedian(reformat4t.loc[:,'elixhauser'])
    reformat4t.loc[ii,'elixhauser'] = val_med if not np.isnan(val_med) else 0

# 4. FIX VASOPRESSORS
cols_vaso = ['median_dose_vaso', 'max_dose_vaso']
for c in cols_vaso:
    if c not in reformat4t.columns:
        reformat4t[c] = 0.0
    else:
        ii = np.isnan(reformat4t[c])
        reformat4t.loc[ii, c] = 0.0

# Update balik ke array numpy reformat4 agar sinkron
reformat4 = reformat4t.values

# 5. HITUNG P/F RATIO
if 'paO2' in reformat4t.columns and 'FiO2_1' in reformat4t.columns:
    p = reformat4t.columns.get_loc('paO2')
    f = reformat4t.columns.get_loc('FiO2_1')
    reformat4t['PaO2_FiO2'] = reformat4[:, p] / reformat4[:, f]
    # Cap max value
    ii = reformat4t['PaO2_FiO2'] > 500
    reformat4t.loc[ii, 'PaO2_FiO2'] = 500
else:
    print("  * Info: Data Gas Darah tidak lengkap. Mengisi P/F dengan nilai normal (500).")
    reformat4t['PaO2_FiO2'] = 500.0

# 6. HITUNG SHOCK INDEX
if 'HR' in reformat4t.columns and 'SysBP' in reformat4t.columns:
    p = reformat4t.columns.get_loc('HR')
    f = reformat4t.columns.get_loc('SysBP')
    with np.errstate(divide='ignore', invalid='ignore'):
        si = reformat4[:, p] / reformat4[:, f]
    si[np.isinf(si)] = np.nan
    si_mean = np.nanmean(si)
    si[np.isnan(si)] = si_mean if not np.isnan(si_mean) else 0.8
    reformat4t['Shock_Index'] = si
else:
    reformat4t['Shock_Index'] = 0.8 

# 7. PERSIAPAN SOFA SCORE
# Pastikan semua kolom yang dibutuhkan SOFA tersedia.
# Jika hilang (karena filter), isi dengan NILAI NORMAL (Poin 0)
sofa_requirements = {
    'PaO2_FiO2': 500,       # Normal paru > 400
    'Platelets_count': 300, # Normal trombosit > 150
    'Total_bili': 0.5,      # Normal liver < 1.2
    'MeanBP': 90,           # Normal tensi >= 70
    'max_dose_vaso': 0,     # Normal tidak pakai obat
    'GCS': 15,              # Normal sadar penuh
    'Creatinine': 0.8,      # Normal ginjal < 1.2
    'output_4hourly': 2000  # Normal urin lancar
}

for col, normal_val in sofa_requirements.items():
    if col not in reformat4t.columns:
        print(f"  * Warning: Kolom '{col}' hilang. Mengisi dengan nilai normal ({normal_val}).")
        reformat4t[col] = normal_val
    else:
        # Isi sisa NaN dengan nilai normal juga agar perhitungan tidak error
        reformat4t[col] = reformat4t[col].fillna(normal_val)

# 8. HITUNG SOFA SCORE (Vectorized)
# Ambil values
s = reformat4t[list(sofa_requirements.keys())].values
p_points = np.array([0, 1, 2, 3, 4])

# Definisi Poin SOFA (Logic Asli)
# Respirasi (P/F)
s1 = np.array([s[:,0]>400, (s[:,0]>=300)&(s[:,0]<400), (s[:,0]>=200)&(s[:,0]<300), (s[:,0]>=100)&(s[:,0]<200), s[:,0]<100]).T
# Koagulasi (Platelets)
s2 = np.array([s[:,1]>150, (s[:,1]>=100)&(s[:,1]<150), (s[:,1]>=50)&(s[:,1]<100), (s[:,1]>=20)&(s[:,1]<50), s[:,1]<20]).T
# Liver (Bili)
s3 = np.array([s[:,2]<1.2, (s[:,2]>=1.2)&(s[:,2]<2), (s[:,2]>=2)&(s[:,2]<6), (s[:,2]>=6)&(s[:,2]<12), s[:,2]>12]).T
# Kardio (MAP & Vaso)
s4 = np.array([s[:,3]>=70, (s[:,3]<70)&(s[:,3]>=65), s[:,3]<65, (s[:,4]>0)&(s[:,4]<=0.1), s[:,4]>0.1]).T
# CNS (GCS)
s5 = np.array([s[:,5]>14, (s[:,5]>12)&(s[:,5]<=14), (s[:,5]>9)&(s[:,5]<=12), (s[:,5]>5)&(s[:,5]<=9), s[:,5]<=5]).T
# Ginjal (Creat & UO)
s6 = np.array([s[:,6]<1.2, (s[:,6]>=1.2)&(s[:,6]<2), (s[:,6]>=2)&(s[:,6]<3.5), ((s[:,6]>=3.5)&(s[:,6]<5))|(s[:,7]<84), (s[:,6]>5)|(s[:,7]<34)]).T

# Hitung Max Points per Komponen
scores = np.zeros((s.shape[0], 6))
components = [s1, s2, s3, s4, s5, s6]

for idx, comp in enumerate(components):
    weighted = comp * p_points
    scores[:, idx] = np.max(weighted, axis=1)

# Jumlahkan Total
reformat4t['SOFA'] = np.sum(scores, axis=1)

# 9. HITUNG SIRS (Sederhana)
# Temp, HR, RR, PaCO2, WBC
sirs_cols = {'Temp_C':37, 'HR':80, 'RR':15, 'paCO2':40, 'WBC_count':10} # Default normal
for col, val in sirs_cols.items():
    if col not in reformat4t.columns:
        reformat4t[col] = val
    else:
        reformat4t[col] = reformat4t[col].fillna(val)

s_sirs = reformat4t[list(sirs_cols.keys())].values
c1 = (s_sirs[:,0] > 38) | (s_sirs[:,0] < 36) # Temp
c2 = s_sirs[:,1] > 90 # HR
c3 = (s_sirs[:,2] >= 20) | (s_sirs[:,3] <= 32) # RR or PaCO2
c4 = (s_sirs[:,4] >= 12) | (s_sirs[:,4] < 4) # WBC

reformat4t['SIRS'] = c1.astype(int) + c2.astype(int) + c3.astype(int) + c4.astype(int)

print("Perhitungan SOFA & SIRS Selesai.")
print("Contoh Data SOFA:")
print(reformat4t[['icustayid', 'SOFA', 'SIRS']].head())# 17. Pembuatan Tabel MIMIC Final & Penyimpanan

**Tujuan:**
Menyimpan dataset yang sudah selesai diproses (*Final Feature Matrix*) ke dalam format CSV dan Pickle agar siap digunakan untuk pelatihan Model RL.

**Output:**
* **`mimictable.csv`**: Versi teks yang bisa dibuka di Excel untuk inspeksi manual.
* **`step_4_start.pkl`**: Versi biner Python yang akan dimuat langsung oleh algoritma AI (DQN) nanti.

Menghitung Variabel Turunan (SOFA/SIRS) - Versi Robust...
  * Info: Kolom 'mechvent' tidak ditemukan (terfilter). Diasumsikan 0 (Tidak Ventilator).
  * Info: Data Gas Darah tidak lengkap. Mengisi P/F dengan nilai normal (500).
Perhitungan SOFA & SIRS Selesai.
Contoh Data SOFA:
   icustayid  SOFA  SIRS
0   200011.0   4.0     0
1   200011.0   0.0     0
2   200011.0   0.0     0
3   200011.0   0.0     0
4   200011.0   0.0     0


# 14. Pembuatan Tabel MIMIC Final & Penyimpanan

**Tujuan:**
Menyimpan dataset yang sudah selesai diproses (*Final Feature Matrix*) ke dalam format CSV dan Pickle agar siap digunakan untuk pelatihan Model RL.

**Output:**
* **`mimictable.csv`**: Versi teks yang bisa dibuka di Excel untuk inspeksi manual.
* **`step_4_start.pkl`**: Versi biner Python yang akan dimuat langsung oleh algoritma AI (DQN) nanti.

In [21]:
print("Membuat Final MIMIC Table...")

# 1. Finalisasi Variabel
# Kita gunakan copy agar aman
MIMICtable = reformat4t.copy()

# 2. Simpan ke CSV (Untuk inspeksi visual/Excel)
print("Menyimpan 'mimictable.csv'...")
MIMICtable.to_csv('mimictable.csv', index=False, na_rep='NaN')

# 3. Simpan ke Pickle (Untuk tahap Modeling/RL)
# Pickle ini yang nanti akan di-load oleh script Training (AIClinician_core...)
print("Menyimpan 'step_4_start.pkl' (Ini bahan baku untuk AI)...")
try:
    with open('step_4_start.pkl', 'wb') as file:
        pickle.dump(MIMICtable, file)
    print("‚úÖ SUKSES BESAR! Semua tahap Feature Engineering selesai.")
except Exception as e:
    print("‚ùå Gagal simpan pickle:", e)

print(f"Ukuran Dataset Akhir: {MIMICtable.shape}")
print("Dataset siap untuk Reinforcement Learning.")

Membuat Final MIMIC Table...
Menyimpan 'mimictable.csv'...
Menyimpan 'step_4_start.pkl' (Ini bahan baku untuk AI)...
‚úÖ SUKSES BESAR! Semua tahap Feature Engineering selesai.
Ukuran Dataset Akhir: (191931, 47)
Dataset siap untuk Reinforcement Learning.
