### 환자의 진단과 처방을 한 테이블을 만들기 위한 노트북입니다. 

#### NOTEEVENTS.csv 

- 용량이 커서 읽기 힘듭니다. 따라서 top 5 category의 Report만 추출하여 사용하고자 합니다.

​

- 이 설명은 환자의 의료 노트를 기록하는 데 사용되는 데이터 테이블에 대한 정보를 제공합니다. 주요 열과 해당 설명은 다음과 같습니다:

- SUBJECT_ID, HADM_ID: 환자를 식별하는 고유한 식별자입니다. SUBJECT_ID는 개별 환자를, HADM_ID는 환자의 입원 기록을 식별합니다.

- CHARTDATE, CHARTTIME, STORETIME: 노트가 기록된 날짜와 시간을 기록합니다. CHARTDATE는 노트가 기록된 날짜를 항상 기록하며, CHARTTIME은 노트가 기록된 날짜와 시간을 기록합니다. STORETIME은 노트가 시스템에 저장된 날짜와 시간을 기록합니다.

    - CATEGORY, DESCRIPTION: 노트의 유형을 정의합니다. 
    - 'Discharge summary': 퇴원 요약    
    - 'Echo': 심장 초음파 보고서
    - 'ECG': 심전도 보고서
    - 'Nursing': 간호사에 의한 노트
    - 'Physician': 의사에 의한 노트
    - 'Rehab Services': 재활 서비스 노트
    - 'Case Management': 케이스 매니지먼트 노트
    - 'Respiratory': 호흡기 치료사에 의한 노트
    - 'Nutrition': 영양사에 의한 노트
    - 'General': 일반적인 노트
    - 'Social Work': 사회복지사에 의한 노트
    - 'Pharmacy': 약사에 의한 노트
    - 'Consult': 진료 상담 노트
    - 'Radiology': 방사선학 보고서
    - 'Nursing/other': 간호사 또는 다른 노트 종류       
       
 
- CGID: 노트를 입력한 의료진을 식별하는 식별자입니다.
 
- ISERROR: ISERROR 열에 '1'이 있으면 의사가 이 노트를 오류로 식별했음을 나타냅니다.
 
- TEXT: 노트 텍스트를 포함합니다.
 
- 이 정보를 통해 환자의 의료 노트를 이해하고 분석하는 데 도움이 됩니다.

In [3]:
import pandas as pd
import os

In [4]:
BASE_DIR = 'data/'

note_event  = pd.read_csv(BASE_DIR + 'NOTEEVENTS.csv')

  note_event  = pd.read_csv(BASE_DIR + 'NOTEEVENTS.csv')


In [5]:
# error가 있는 행은 모두 삭제
note_event.drop(note_event[note_event['ISERROR'] == 1].index, inplace=True)

In [14]:
# texts = note_event['TEXT'][0:10000]
# with open('note_text.txt', 'w', encoding='utf-8') as file:
#     for text in texts:
#         file.write(str(text) + '\n')

In [15]:
print('CGID', note_event['CGID'].nunique())
print('SUBJECT_ID', note_event['SUBJECT_ID'].nunique())
print('HADM_ID', note_event['HADM_ID'].nunique())
print('CATEGORY', note_event['CATEGORY'].nunique())
print('DESCRIPTION', note_event['DESCRIPTION'].nunique())

CGID 1911
SUBJECT_ID 46146
HADM_ID 58361
CATEGORY 15
DESCRIPTION 3840


In [22]:
note_event_report = note_event[note_event['DESCRIPTION'] == 'Report'][['SUBJECT_ID', 'HADM_ID', 'CATEGORY', 'TEXT']]
note_event_report

Unnamed: 0,SUBJECT_ID,HADM_ID,CATEGORY,TEXT
0,22532,167853.0,Discharge summary,Admission Date: [**2151-7-16**] Dischar...
1,13702,107527.0,Discharge summary,Admission Date: [**2118-6-2**] Discharg...
2,13702,167118.0,Discharge summary,Admission Date: [**2119-5-4**] D...
3,13702,196489.0,Discharge summary,Admission Date: [**2124-7-21**] ...
4,26880,135453.0,Discharge summary,Admission Date: [**2162-3-3**] D...
...,...,...,...,...
2083175,31097,115637.0,Nursing/other,NPN\n\n\n#1 Infant remains in RA with O2 sats...
2083176,31097,115637.0,Nursing/other,"Neonatology\nDOL #5, CGA 36 weeks.\n\nCVR: Con..."
2083177,31097,115637.0,Nursing/other,Family Meeting Note\nFamily meeting held with ...
2083178,31097,115637.0,Nursing/other,NPN 1800\n\n\n#1 Resp: [**Known lastname 2243*...


In [23]:
note_event_report['CATEGORY'].value_counts()

CATEGORY
Nursing/other        822497
ECG                  209051
Discharge summary     55177
Echo                  45794
Name: count, dtype: int64

In [21]:
note_event['CATEGORY'].value_counts()

CATEGORY
Nursing/other        822497
Radiology            522279
Nursing              223182
ECG                  209051
Physician            141281
Discharge summary     59652
Echo                  45794
Respiratory           31701
Nutrition              9400
General                8236
Rehab Services         5408
Social Work            2661
Case Management         953
Pharmacy                101
Consult                  98
Name: count, dtype: int64

In [17]:
top5_cat = ['Nursing/other', 'Radiology', 'Nursing', 'ECG', 'Physician']
note_event_report = note_event_report[note_event_report['CATEGORY'].isin(top5_cat)]
note_event_report

Unnamed: 0,SUBJECT_ID,HADM_ID,CATEGORY,TEXT
52120,13289,119078.0,ECG,Sinus tachycardia\nShort PR interval\nPossible...
100164,88360,130127.0,ECG,Sinus rhythm with A-V conduction delay. Infer...
100165,88360,130127.0,ECG,Sinus rhythm with A-V conduction delay. Infero...
100166,14209,117857.0,ECG,Sinus rhythm. Normal ECG. Compared to the prev...
100167,14209,117857.0,ECG,Sinus tachycardia. Low limb lead voltage. Comp...
...,...,...,...,...
2083175,31097,115637.0,Nursing/other,NPN\n\n\n#1 Infant remains in RA with O2 sats...
2083176,31097,115637.0,Nursing/other,"Neonatology\nDOL #5, CGA 36 weeks.\n\nCVR: Con..."
2083177,31097,115637.0,Nursing/other,Family Meeting Note\nFamily meeting held with ...
2083178,31097,115637.0,Nursing/other,NPN 1800\n\n\n#1 Resp: [**Known lastname 2243*...


In [24]:
for category in top5_cat:
    safe_category = category.replace('/', '_')  # 파일 이름에 슬래시가 포함되지 않도록 함
    texts = note_event_report[note_event_report['CATEGORY'] == category]['TEXT']
    with open(f'text/{safe_category}_text.txt', 'w', encoding='utf-8') as file:
        for text in texts:
            file.write(str(text) + '\n')

os.makedirs('text', exist_ok=True)

for category in top5_cat:
    safe_category = category.replace('/', '_')
    texts = note_event[note_event['CATEGORY'] == category]
    texts.to_csv(f'text/{safe_category}_text.csv', index=False)