# 1. 구글 드라이브 마운팅

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


# 2. 파일 구조 출력

In [3]:
import os
import pandas as pd

# 데이터 경로 (압축 풀린 mimic 데이터셋 경로 지정)
hosp_path = "/content/drive/MyDrive/DILAB/mimiciv_3.1/files/hosp"
icu_path = "/content/drive/MyDrive/DILAB/mimiciv_3.1/files/icu"
note_path = "/content/drive/MyDrive/DILAB/mimic-iv-note_2.2/files/note"

# hosp 폴더 내 csv 파일 리스트
hosp_files = [f for f in os.listdir(hosp_path) if f.endswith(".csv")]
print("📂 HOSP 폴더 CSV 파일들:")
for f in hosp_files:
    print(" -", f)

# ICU 폴더 내 csv 파일 리스트
icu_files = [f for f in os.listdir(icu_path) if f.endswith(".csv")]
print("\n📂 ICU 폴더 CSV 파일들:")
for f in icu_files:
    print(" -", f)

# note 폴더 내 csv 파일 리스트
note_files = [f for f in os.listdir(note_path) if f.endswith(".csv")]
print("\n📂 NOTE 폴더 CSV 파일들:")
for f in icu_files:
    print(" -", f)




📂 HOSP 폴더 CSV 파일들:
 - prescriptions.csv
 - d_hcpcs.csv
 - services.csv
 - poe_detail.csv
 - emar.csv
 - provider.csv
 - hcpcsevents.csv
 - procedures_icd.csv
 - pharmacy.csv
 - patients.csv
 - poe.csv
 - d_icd_diagnoses.csv
 - emar_detail.csv
 - admissions.csv
 - drgcodes.csv
 - diagnoses_icd.csv
 - d_labitems.csv
 - labevents.csv
 - omr.csv
 - transfers.csv
 - microbiologyevents.csv
 - d_icd_procedures.csv

📂 ICU 폴더 CSV 파일들:
 - chartevents.csv
 - procedureevents.csv
 - ingredientevents.csv
 - caregiver.csv
 - inputevents.csv
 - d_items.csv
 - datetimeevents.csv
 - outputevents.csv
 - icustays.csv

📂 NOTE 폴더 CSV 파일들:
 - chartevents.csv
 - procedureevents.csv
 - ingredientevents.csv
 - caregiver.csv
 - inputevents.csv
 - d_items.csv
 - datetimeevents.csv
 - outputevents.csv
 - icustays.csv


# 3. 테이블 로드 & 해당 테이블 컬럼 확인

In [15]:
# 특정 폴더 안 csv 파일을 읽고 샘플 출력하는 함수

def preview_file(folder: str, filename: str, n: int = 10):
    """
    특정 폴더(HOSP/ICU/NOTE)에서 '전체를 로드하지 않고' n행만 미리보기.
    """
    # 데이터 경로
    hosp_path = "/content/drive/MyDrive/DILAB/mimiciv_3.1/files/hosp"
    icu_path  = "/content/drive/MyDrive/DILAB/mimiciv_3.1/files/icu"
    note_path = "/content/drive/MyDrive/DILAB/mimic-iv-note_2.2/files/note"

    folder_map = {"HOSP": hosp_path, "ICU": icu_path, "NOTE": note_path}
    if folder not in folder_map:
        print("❌ folder는 'HOSP'/'ICU'/'NOTE' 중 하나여야 합니다.")
        return

    # .csv 또는 .csv.gz 자동 처리
    base = os.path.join(folder_map[folder], filename)
    file_path = base if os.path.exists(base) else (base + ".gz" if os.path.exists(base + ".gz") else None)
    if not file_path:
        print(f"❌ 파일이 존재하지 않습니다: {base}(.gz)")
        return

    try:
        # 컬럼 이름만 먼저(0행) → 메모리 거의 안 듦
        try:
            cols = pd.read_csv(file_path, nrows=0, engine="pyarrow", compression="infer").columns.tolist()
            # n행만 미리보기 (pyarrow 백엔드 사용 → 메모리 절약)
            df = pd.read_csv(file_path, nrows=n, engine="pyarrow", compression="infer",
                             dtype_backend="pyarrow")
        except Exception:
            # pyarrow 미설치/미지원 시 C 엔진으로 폴백
            cols = pd.read_csv(file_path, nrows=0, compression="infer").columns.tolist()
            df = pd.read_csv(file_path, nrows=n, compression="infer")

        print(f"\n✅ {os.path.basename(file_path)} ({folder})")
        print("미리보기 행/열:", df.shape)  # 전체가 아닌 '미리보기' 크기임
        print("컬럼 목록:", cols)
        display(df)  # Colab/Jupyter 표 출력
    except Exception as e:
        print(f"❌ 파일 읽기 실패: {e}")


# HOSP 폴더의 특정 csv 파일 확인
# preview_file("HOSP", "patients.csv", n=2)
# preview_file("HOSP", "admissions.csv", n=2)

# preview_file("HOSP", "transfers.csv", n=2)
# preview_file("HOSP", "services.csv", n=2)
# preview_file("HOSP", "omr.csv", n=2)
# preview_file("HOSP", "provider.csv", n=2)

# preview_file("HOSP", "labevents.csv", n=2)
# preview_file("HOSP", "microbiologyevents.csv", n=2)
# preview_file("HOSP", "diagnoses_icd.csv", n=2)
# preview_file("HOSP", "procedures_icd.csv", n=2)
# preview_file("HOSP", "drgcodes.csv", n=2)

# preview_file("HOSP", "hcpcsevents.csv", n=2)
# preview_file("HOSP", "poe.csv", n=2)
# preview_file("HOSP", "prescriptions.csv", n=2)
# preview_file("HOSP", "pharmacy.csv", n=2)
# preview_file("HOSP", "emar.csv", n=2)


# preview_file("ICU", "icustays.csv", n=2)
# preview_file("ICU", "d_items.csv", n=2)
# preview_file("ICU", "chartevents.csv", n=2)
# preview_file("ICU", "datetimeevents.csv", n=2)
# preview_file("ICU", "inputevents.csv", n=2)
# preview_file("ICU", "ingredientevents.csv", n=2)
# preview_file("ICU", "outputevents.csv", n=2)
# preview_file("ICU", "procedureevents.csv", n=2)
# preview_file("ICU", "caregiver.csv", n=2)

preview_file("NOTE", "discharge.csv", n=2)
preview_file("NOTE", "discharge_detail.csv", n=2)
preview_file("NOTE", "radiology.csv", n=2)
preview_file("NOTE", "radiology_detail.csv", n=2)





✅ discharge.csv (NOTE)
미리보기 행/열: (2, 8)
컬럼 목록: ['note_id', 'subject_id', 'hadm_id', 'note_type', 'note_seq', 'charttime', 'storetime', 'text']


Unnamed: 0,note_id,subject_id,hadm_id,note_type,note_seq,charttime,storetime,text
0,10000032-DS-21,10000032,22595853,DS,21,2180-05-07 00:00:00,2180-05-09 15:26:00,\nName: ___ Unit No: _...
1,10000032-DS-22,10000032,22841357,DS,22,2180-06-27 00:00:00,2180-07-01 10:15:00,\nName: ___ Unit No: _...



✅ discharge_detail.csv (NOTE)
미리보기 행/열: (2, 5)
컬럼 목록: ['note_id', 'subject_id', 'field_name', 'field_value', 'field_ordinal']


Unnamed: 0,note_id,subject_id,field_name,field_value,field_ordinal
0,10000032-DS-21,10000032,author,___,1
1,10000032-DS-22,10000032,author,___,1



✅ radiology.csv (NOTE)
미리보기 행/열: (2, 8)
컬럼 목록: ['note_id', 'subject_id', 'hadm_id', 'note_type', 'note_seq', 'charttime', 'storetime', 'text']


Unnamed: 0,note_id,subject_id,hadm_id,note_type,note_seq,charttime,storetime,text
0,10000032-RR-14,10000032,22595853,RR,14,2180-05-06 21:19:00,2180-05-06 23:32:00,EXAMINATION: CHEST (PA AND LAT)\n\nINDICATION...
1,10000032-RR-15,10000032,22595853,RR,15,2180-05-06 23:00:00,2180-05-06 23:26:00,EXAMINATION: LIVER OR GALLBLADDER US (SINGLE ...



✅ radiology_detail.csv (NOTE)
미리보기 행/열: (2, 5)
컬럼 목록: ['note_id', 'subject_id', 'field_name', 'field_value', 'field_ordinal']


Unnamed: 0,note_id,subject_id,field_name,field_value,field_ordinal
0,10000032-RR-14,10000032,exam_code,C11,1
1,10000032-RR-14,10000032,exam_name,CHEST (PA & LAT),1
