In [2]:
# Import modules
import pandas as pd
import numpy as np
import os
from pathlib import Path

In [3]:
# Set and check data path
data_path = r"/content/drive/MyDrive/Projektek/Semmelweis PoC/202401_Semmelweis - GenAI anamnézis - PoC (425)/10_Kapott_anyagok/kapott_anyagok_ 2024_02_06"
os.listdir(data_path)

['zarok_ai_utolso_szoveg_verzio_20240204.xlsx',
 '.ipynb_checkpoints',
 'patient']

In [4]:
# Select input file from data path
filename = 'zarok_ai_utolso_szoveg_verzio_20240204.xlsx'

# Set file path
file_path = os.path.join(data_path, filename)
print(file_path)

# fname_base = Path(file_path).stem
# print(fname_base)

/content/drive/MyDrive/Projektek/Semmelweis PoC/202401_Semmelweis - GenAI anamnézis - PoC (425)/10_Kapott_anyagok/kapott_anyagok_ 2024_02_06/zarok_ai_utolso_szoveg_verzio_20240204.xlsx


In [5]:
# Read raw file into pandas dataframe
df_raw = pd.read_excel(file_path, dtype={'NPI':'object', 'CASE_NO':'object'}).convert_dtypes()

# Correct column types and names
df_raw['ADMIT_DATE'] = df_raw['ADMIT_DATE'].dt.date

df_raw = df_raw.rename(columns={
    'Ananmézis': 'Anamnézis',
    # 'Jelen panaszok': 'Jelenlegi panaszok',
    # 'Dekurzus': 'Dekurzus',
    # 'Epikrízis': 'Epikrízis',
    # 'Egyéb vizsgálatok': 'Egyéb vizsgálatok',
    # 'Műtéti leírás': 'Műtéti leírás',
    # 'Státusz': 'Státusz',
    # 'Javaslat': 'Javaslat',
    'Therápia': 'Terápia'
})

df_raw.info()
df_raw

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3469 entries, 0 to 3468
Data columns (total 18 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   NPI                3469 non-null   string
 1   CASE_NO            3469 non-null   Int64 
 2   ADMIT_DATE         3469 non-null   object
 3   CASE_TYPE          3469 non-null   string
 4   DEPT               3469 non-null   string
 5   DESCR              3469 non-null   string
 6   TX_TYPE            3469 non-null   string
 7   VER_NO             3469 non-null   Int64 
 8   SEQ_NO             3469 non-null   Int64 
 9   Anamnézis          791 non-null    string
 10  Jelen panaszok     529 non-null    string
 11  Dekurzus           184 non-null    string
 12  Epikrízis          1089 non-null   string
 13  Egyéb vizsgálatok  100 non-null    string
 14  Műtéti leírás      14 non-null     string
 15  Státusz            611 non-null    string
 16  Javaslat           47 non-null     string


Unnamed: 0,NPI,CASE_NO,ADMIT_DATE,CASE_TYPE,DEPT,DESCR,TX_TYPE,VER_NO,SEQ_NO,Anamnézis,Jelen panaszok,Dekurzus,Epikrízis,Egyéb vizsgálatok,Műtéti leírás,Státusz,Javaslat,Terápia
0,008359041,13727918,2014-01-31,I,NE,Általános Neurológia és stroke,ANM,1,0,Orvosi dok. nincs nála. 1980ban jobb o-i hydr...,,,,,,,,
1,008359041,13727918,2014-01-31,I,NE,Általános Neurológia és stroke,CPL,2,0,,"A bal karját nem tudta emelni, nem érezte- ez ...",,,,,,,
2,008359041,13727918,2014-01-31,I,NE,Általános Neurológia és stroke,dec,6,0,,,"01.31 felv. jobb acm ter. gyorsan enyhülő, csa...",,,,,,
3,008359041,13727918,2014-01-31,I,NE,Általános Neurológia és stroke,STA,1,0,,,,,,,"Vérnyomás: jobb kar: 155/80 Hgmm, Pulzus: 82/...",,
4,008359041,14456076,2014-08-02,I,B20,Intenzív,ANM,6,0,1980-ban jobb o-i hydronephrosis miatt nephrec...,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3464,128082786,31642742,2024-01-17,O,G1P,Gyermekpszichiátriai Ambulancia,DEC,1,0,,,A gyermekpszichológiai konzílium eredménye ala...,,,,,,
3465,128082786,31642742,2024-01-17,O,G1P,Gyermekpszichiátriai Ambulancia,STA,1,0,,,,,,,"Tudata éber, integrált, minden tekintetben ori...",,
3466,128082786,31710528,2024-01-30,O,G1P,Gyermekpszichiátriai Ambulancia,ANM,1,0,"A 15 éves, 9. osztályos serdülő édesanyjával é...",,,,,,,,
3467,128082786,31710528,2024-01-30,O,G1P,Gyermekpszichiátriai Ambulancia,EPD,3,0,,,,A 15 éves serdülő édesanyja kíséretében érkezi...,,,,,


In [15]:
# Unpivot (melt) raw dataframe and drop empty rows
df_melt = df_raw.melt(
      id_vars=['NPI', 'CASE_NO', 'ADMIT_DATE', 'CASE_TYPE', 'DEPT', 'DESCR', 'TX_TYPE', 'VER_NO', 'SEQ_NO'],
      value_vars=['Anamnézis', 'Jelen panaszok', 'Dekurzus', 'Epikrízis', 'Egyéb vizsgálatok', 'Műtéti leírás', 'Státusz', 'Javaslat', 'Terápia'],
      var_name='TYPE',
      value_name='VALUE'
      ).dropna(subset='VALUE')

# Add specific sorting column
df_melt.insert(
    df_melt.columns.get_loc('TYPE'),
    'TYPE_ORDER',
    df_melt['TYPE'].replace(
        {
            'Anamnézis': 1,
            'Jelen panaszok': 2,
            'Dekurzus': 3,
            'Epikrízis': 4,
            'Egyéb vizsgálatok': 5,
            'Műtéti leírás': 6,
            'Státusz': 7,
            'Javaslat': 8,
            'Terápia': 9
    }
  ).convert_dtypes()
)

# Replace multiple whitespace characters in VALUE column
df_melt['VALUE'] = df_melt['VALUE'].str.replace(r' +', ' ', regex=True)
df_melt['VALUE'] = df_melt['VALUE'].str.replace(r'[\n\t\r\f]+', '\n', regex=True)

# Strip VALUE (and interpret empty string '' as NA)
df_melt['VALUE'] = df_melt['VALUE'].str.strip().replace('', pd.NA)

#
df_melt['TX_TYPE'] = df_melt['TX_TYPE'].str.upper()

# Add TYPE to TEXT
df_melt['TEXT'] = df_melt['TYPE'].str.upper() + ':\n' + df_melt['VALUE'].str.replace('\n', '\n\t')

# TEXT2
df_melt['TEXT2'] = df_melt['TYPE'].str.upper() + ' (' + df_melt['ADMIT_DATE'].astype(str) + '):\n' + df_melt['VALUE'].str.replace('\n', '\n\t')

# Drop NA, convert dtypes, and sort melt dataframe
df_melt = df_melt.dropna().convert_dtypes().sort_values(['NPI', 'ADMIT_DATE', 'CASE_NO', 'TYPE_ORDER'], ignore_index=True)
df_melt

Unnamed: 0,NPI,CASE_NO,ADMIT_DATE,CASE_TYPE,DEPT,DESCR,TX_TYPE,VER_NO,SEQ_NO,TYPE_ORDER,TYPE,VALUE,TEXT,TEXT2
0,008359041,25054122,2010-03-30,O,SRN4,Neurológiai szakr.,ANM,1,0,1,Anamnézis,"Jo-i hydronephrosis miatt veseeltáv., ulcusbet...",ANAMNÉZIS: Jo-i hydronephrosis miatt veseeltáv...,ANAMNÉZIS (2010-03-30): Jo-i hydronephrosis mi...
1,008359041,25369254,2010-04-21,O,KEUH,UH /hasi/,ANM,1,0,1,Anamnézis,Rad.lelet KOPONYA CT VIZSGÁLAT A vizsgálat sor...,ANAMNÉZIS: Rad.lelet 	KOPONYA CT VIZSGÁLAT 	A ...,ANAMNÉZIS (2010-04-21): Rad.lelet 	KOPONYA CT ...
2,008359041,25476751,2010-04-21,O,BETJ,Betöltéshez járó osztály,ANM,1,0,1,Anamnézis,Rad.lelet KOPONYA CT VIZSGÁLAT A vizsgálat sor...,ANAMNÉZIS: Rad.lelet 	KOPONYA CT VIZSGÁLAT 	A ...,ANAMNÉZIS (2010-04-21): Rad.lelet 	KOPONYA CT ...
3,008359041,25066396,2010-04-23,O,SRN4,Neurológiai szakr.,ANM,1,0,1,Anamnézis,"Kontroll vizsgálat: 10.04.21 Radiológia: , 2 ...",ANAMNÉZIS: Kontroll vizsgálat: 10.04.21 Radi...,ANAMNÉZIS (2010-04-23): Kontroll vizsgálat: ...
4,008359041,25481334,2010-05-14,O,SRRO,Ált.reumatol.szakr.,ANM,1,0,1,Anamnézis,Rad.lelet 2 ir. lumbalis gerinc felvétel: ----...,ANAMNÉZIS: Rad.lelet 	2 ir. lumbalis gerinc fe...,ANAMNÉZIS (2010-05-14): Rad.lelet 	2 ir. lumba...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3368,128082786,31642742,2024-01-17,O,G1P,Gyermekpszichiátriai Ambulancia,DEC,1,0,3,Dekurzus,A gyermekpszichológiai konzílium eredménye ala...,DEKURZUS: A gyermekpszichológiai konzílium ere...,DEKURZUS (2024-01-17): A gyermekpszichológiai ...
3369,128082786,31642742,2024-01-17,O,G1P,Gyermekpszichiátriai Ambulancia,STA,1,0,7,Státusz,"Tudata éber, integrált, minden tekintetben ori...","STÁTUSZ: Tudata éber, integrált, minden tekint...","STÁTUSZ (2024-01-17): Tudata éber, integrált, ..."
3370,128082786,31710528,2024-01-30,O,G1P,Gyermekpszichiátriai Ambulancia,ANM,1,0,1,Anamnézis,"A 15 éves, 9. osztályos serdülő édesanyjával é...","ANAMNÉZIS: A 15 éves, 9. osztályos serdülő éde...","ANAMNÉZIS (2024-01-30): A 15 éves, 9. osztályo..."
3371,128082786,31710528,2024-01-30,O,G1P,Gyermekpszichiátriai Ambulancia,EPD,3,0,4,Epikrízis,A 15 éves serdülő édesanyja kíséretében érkezi...,EPIKRÍZIS: A 15 éves serdülő édesanyja kíséret...,EPIKRÍZIS (2024-01-30): A 15 éves serdülő édes...


In [16]:
# Merge text
df_merged = df_melt.groupby(['NPI','ADMIT_DATE','CASE_NO','CASE_TYPE','DEPT','DESCR'])[['TEXT']].agg("\n\n".join).reset_index(level=-1)
df_merged

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,DESCR,TEXT
NPI,ADMIT_DATE,CASE_NO,CASE_TYPE,DEPT,Unnamed: 5_level_1,Unnamed: 6_level_1
008359041,2010-03-30,25054122,O,SRN4,Neurológiai szakr.,ANAMNÉZIS: Jo-i hydronephrosis miatt veseeltáv...
008359041,2010-04-21,25369254,O,KEUH,UH /hasi/,ANAMNÉZIS: Rad.lelet 	KOPONYA CT VIZSGÁLAT 	A ...
008359041,2010-04-21,25476751,O,BETJ,Betöltéshez járó osztály,ANAMNÉZIS: Rad.lelet 	KOPONYA CT VIZSGÁLAT 	A ...
008359041,2010-04-23,25066396,O,SRN4,Neurológiai szakr.,ANAMNÉZIS: Kontroll vizsgálat: 10.04.21 Radi...
008359041,2010-05-14,25481334,O,SRRO,Ált.reumatol.szakr.,ANAMNÉZIS: Rad.lelet 	2 ir. lumbalis gerinc fe...
...,...,...,...,...,...,...
128082786,2023-01-19,29978989,O,FGA,Általános F.O.G. osztály,ANAMNÉZIS: 2023.01.19. Augusztus vége óta nem ...
128082786,2023-02-10,29921771,O,FGT,Otoneurológia,ANAMNÉZIS: 2022. augusztusban orrdugulásos pan...
128082786,2024-01-09,31593207,I,G14,Belgyógyászat-Gastroenterológiai O.,ANAMNÉZIS: Negatív perinatalis anamnezis. III/...
128082786,2024-01-17,31642742,O,G1P,Gyermekpszichiátriai Ambulancia,ANAMNÉZIS: Anamnéziséből kiemelendő: A 15 éves...


In [17]:
df_anm_all = df_melt[df_melt['TX_TYPE'] == 'ANM'].groupby(['NPI'])[['VALUE']].agg("\n\n".join)
df_anm_all

Unnamed: 0_level_0,VALUE
NPI,Unnamed: 1_level_1
8359041,"Jo-i hydronephrosis miatt veseeltáv., ulcusbet..."
11547185,"EF 50% , RDA prox hosszú, meszes 40%-os sten, ..."
13763925,"A beteg anamnézisében hypertonia, parox. PF, C..."
14317617,"Kórelőzméynéből kiemelhető: hypertonia, 2tDM, ..."
17366126,11 éve tonsilectomia kb. 1968-ban j.o. váll fi...
19116202,2009.10.26-án reggeli órákban tipusos tüneteke...
19131629,12 cm-nél szövettanilag igazolt tumor a végbél...
21009268,Előző betegségek: 2002 óta ismert DCM Inzulin...
21508668,Szívtranszplantáció céljából került felvételre...
22231615,A beteg elmondása és korábbi dokumentációja al...


In [18]:
df_epd_all = df_melt[df_melt['TX_TYPE'] == 'EPD'].groupby(['NPI'])[['VALUE']].agg("\n\n".join)
df_epd_all

Unnamed: 0_level_0,VALUE
NPI,Unnamed: 1_level_1
8359041,Dg.: Pneumonia (atípusos). Insuff cordis. (NYH...
11547185,"A beteget CABG III (LIMA-LAD, VSG-OM, -IVP) mű..."
13763925,A beteg kontrollvizsgálaton megjelent. NYHA II...
14317617,"Varratszedés megtörtént, seb pp.gyógyult, béké..."
17366126,Diagnózisok: Ischaemiás szívbetegség  St.p.inf...
19116202,Múlthét csütörtök óta belégzési nehezítettségg...
19131629,"A beteget neo-adjuvans kezelés után, szövettan..."
21009268,"szivelégtelenség gondozást kezdtünk SG vgolt, ..."
21508668,Fent részletezett anamnézisű beteg szívtranszp...
22231615,Fenti anamnézisű beteg 2015.04.03-án ortotopik...


In [19]:
# Write each patient document (per case number) to txt files
ext = 'txt'
dir = 'patient'
full_subdir = 'src/full'

for i in df_merged.index:
  # Get metadata
  npi = i[0]
  admit_date = i[1]
  case_no = i[2]
  case_type = i[3]
  dept = i[4]

  # Set patient folder as NPI
  patient_dir = f'{(i[0])}'
  output_dir = os.path.join(data_path, dir, patient_dir, full_subdir)

  # Make output directory if does not exist
  if not os.path.exists(output_dir):
      os.makedirs(output_dir)

  # Set output filename as NPI+ADMIT_DATE+CASE_NO+CASE_TYPE+DEPT
  fname = f'{npi}_{admit_date}_{case_no}_{case_type}_{dept}.{ext}'
  output_file = os.path.join(output_dir, fname)

  # Get content for output file
  department = df_merged.loc[i, 'DESCR']
  text = df_merged.loc[i, 'TEXT']

  # Create header
  header = f'ZÁRÓJELENTÉS\nPáciens: {npi} | Rögzítési dátum: {admit_date} | Dokumentum: {case_no} | Osztály: {department} ({dept})\n\n'

  # Write output file
  print(f'\rWriting case {case_no} for patient {npi}\t\t', end='')
  with open(output_file, 'w') as f:
    f.write(header)
    f.write(text)


# Write merged medical history for each patient
merged_subdir = 'src/merged'
for i in df_anm_all.index:
  # Get data
  npi = i
  text = df_anm_all.loc[i, 'VALUE']

  # Set patient folder as NPI
  patient_dir = f'{npi}'
  output_dir = os.path.join(data_path, dir, patient_dir, merged_subdir)

  # Make output directory if does not exist
  if not os.path.exists(output_dir):
      os.makedirs(output_dir)

  # Set output filename
  fname = f'{npi}_ANM_MERGED.{ext}'
  output_file = os.path.join(output_dir, fname)

  # Write output file
  print(f'\rWriting merged medical history (anamnesis) for patient {npi}\t\t', end='')
  with open(output_file, 'w') as f:
    f.write(text)


# Write merged epicrisis for each patient
merged_subdir = 'src/merged'
for i in df_epd_all.index:
  # Get data
  npi = i
  text = df_epd_all.loc[i, 'VALUE']

  # Set patient folder as NPI
  patient_dir = f'{npi}'
  output_dir = os.path.join(data_path, dir, patient_dir, merged_subdir)

  # Make output directory if does not exist
  if not os.path.exists(output_dir):
      os.makedirs(output_dir)

  # Set output filename
  fname = f'{npi}_EPD_MERGED.{ext}'
  output_file = os.path.join(output_dir, fname)

  # Write output file
  print(f'\rWriting merged epicrisis for patient {npi}\t\t', end='')
  with open(output_file, 'w') as f:
    f.write(text)

print('\rAll files complete')

All files complete


In [20]:
df_merged.reset_index().groupby("NPI")[['CASE_NO']].count()

Unnamed: 0_level_0,CASE_NO
NPI,Unnamed: 1_level_1
8359041,50
11547185,37
13763925,42
14317617,50
17366126,103
19116202,40
19131629,20
21009268,52
21508668,48
22231615,73


# Filtering for anamnesis and epicrisis only

In [21]:
df_melt['FINAL_TEXT'] = df_melt.apply(lambda row: row['TEXT'] if row['TX_TYPE'] == 'ANM' else row['TEXT2'], axis=1)
df_melt

Unnamed: 0,NPI,CASE_NO,ADMIT_DATE,CASE_TYPE,DEPT,DESCR,TX_TYPE,VER_NO,SEQ_NO,TYPE_ORDER,TYPE,VALUE,TEXT,TEXT2,FINAL_TEXT
0,008359041,25054122,2010-03-30,O,SRN4,Neurológiai szakr.,ANM,1,0,1,Anamnézis,"Jo-i hydronephrosis miatt veseeltáv., ulcusbet...",ANAMNÉZIS: Jo-i hydronephrosis miatt veseeltáv...,ANAMNÉZIS (2010-03-30): Jo-i hydronephrosis mi...,ANAMNÉZIS:\nJo-i hydronephrosis miatt veseeltá...
1,008359041,25369254,2010-04-21,O,KEUH,UH /hasi/,ANM,1,0,1,Anamnézis,Rad.lelet KOPONYA CT VIZSGÁLAT A vizsgálat sor...,ANAMNÉZIS: Rad.lelet 	KOPONYA CT VIZSGÁLAT 	A ...,ANAMNÉZIS (2010-04-21): Rad.lelet 	KOPONYA CT ...,ANAMNÉZIS:\nRad.lelet\n\tKOPONYA CT VIZSGÁLAT\...
2,008359041,25476751,2010-04-21,O,BETJ,Betöltéshez járó osztály,ANM,1,0,1,Anamnézis,Rad.lelet KOPONYA CT VIZSGÁLAT A vizsgálat sor...,ANAMNÉZIS: Rad.lelet 	KOPONYA CT VIZSGÁLAT 	A ...,ANAMNÉZIS (2010-04-21): Rad.lelet 	KOPONYA CT ...,ANAMNÉZIS:\nRad.lelet\n\tKOPONYA CT VIZSGÁLAT\...
3,008359041,25066396,2010-04-23,O,SRN4,Neurológiai szakr.,ANM,1,0,1,Anamnézis,"Kontroll vizsgálat: 10.04.21 Radiológia: , 2 ...",ANAMNÉZIS: Kontroll vizsgálat: 10.04.21 Radi...,ANAMNÉZIS (2010-04-23): Kontroll vizsgálat: ...,ANAMNÉZIS:\nKontroll vizsgálat: \n\t10.04.21 R...
4,008359041,25481334,2010-05-14,O,SRRO,Ált.reumatol.szakr.,ANM,1,0,1,Anamnézis,Rad.lelet 2 ir. lumbalis gerinc felvétel: ----...,ANAMNÉZIS: Rad.lelet 	2 ir. lumbalis gerinc fe...,ANAMNÉZIS (2010-05-14): Rad.lelet 	2 ir. lumba...,ANAMNÉZIS:\nRad.lelet\n\t2 ir. lumbalis gerinc...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3368,128082786,31642742,2024-01-17,O,G1P,Gyermekpszichiátriai Ambulancia,DEC,1,0,3,Dekurzus,A gyermekpszichológiai konzílium eredménye ala...,DEKURZUS: A gyermekpszichológiai konzílium ere...,DEKURZUS (2024-01-17): A gyermekpszichológiai ...,DEKURZUS (2024-01-17):\nA gyermekpszichológiai...
3369,128082786,31642742,2024-01-17,O,G1P,Gyermekpszichiátriai Ambulancia,STA,1,0,7,Státusz,"Tudata éber, integrált, minden tekintetben ori...","STÁTUSZ: Tudata éber, integrált, minden tekint...","STÁTUSZ (2024-01-17): Tudata éber, integrált, ...","STÁTUSZ (2024-01-17):\nTudata éber, integrált,..."
3370,128082786,31710528,2024-01-30,O,G1P,Gyermekpszichiátriai Ambulancia,ANM,1,0,1,Anamnézis,"A 15 éves, 9. osztályos serdülő édesanyjával é...","ANAMNÉZIS: A 15 éves, 9. osztályos serdülő éde...","ANAMNÉZIS (2024-01-30): A 15 éves, 9. osztályo...","ANAMNÉZIS:\nA 15 éves, 9. osztályos serdülő éd..."
3371,128082786,31710528,2024-01-30,O,G1P,Gyermekpszichiátriai Ambulancia,EPD,3,0,4,Epikrízis,A 15 éves serdülő édesanyja kíséretében érkezi...,EPIKRÍZIS: A 15 éves serdülő édesanyja kíséret...,EPIKRÍZIS (2024-01-30): A 15 éves serdülő édes...,EPIKRÍZIS (2024-01-30):\nA 15 éves serdülő éde...


In [22]:
df_melt[df_melt['NPI'] == "013763925"]

Unnamed: 0,NPI,CASE_NO,ADMIT_DATE,CASE_TYPE,DEPT,DESCR,TX_TYPE,VER_NO,SEQ_NO,TYPE_ORDER,TYPE,VALUE,TEXT,TEXT2,FINAL_TEXT
162,013763925,10281581,2011-08-02,O,KAE,CVC Kardiológai Ambulancia - PM,EPD,2,0,4,Epikrízis,A beteg kontrollvizsgálaton megjelent. NYHA II...,EPIKRÍZIS: A beteg kontrollvizsgálaton megjele...,EPIKRÍZIS (2011-08-02): A beteg kontrollvizsgá...,EPIKRÍZIS (2011-08-02):\nA beteg kontrollvizsg...
163,013763925,10688155,2011-11-17,O,KAE,CVC Kardiológai Ambulancia - PM,EPD,4,0,4,Epikrízis,A beteg kontrollvizsgálaton megjelent. NYHA II...,EPIKRÍZIS: A beteg kontrollvizsgálaton megjele...,EPIKRÍZIS (2011-11-17): A beteg kontrollvizsgá...,EPIKRÍZIS (2011-11-17):\nA beteg kontrollvizsg...
164,013763925,11103317,2012-03-07,O,KAE,CVC Kardiológai Ambulancia - PM,EPD,3,0,4,Epikrízis,A beteg kontrollvizsgálaton megjelent. NYHA II...,EPIKRÍZIS: A beteg kontrollvizsgálaton megjele...,EPIKRÍZIS (2012-03-07): A beteg kontrollvizsgá...,EPIKRÍZIS (2012-03-07):\nA beteg kontrollvizsg...
165,013763925,12786757,2013-05-23,O,KAEE,CVC 2. Kardiológiai-EKG Ambulancia,EPD,4,0,4,Epikrízis,A beteg kontrollon megjelent. NYHA I-II. Panas...,EPIKRÍZIS: A beteg kontrollon megjelent. NYHA ...,EPIKRÍZIS (2013-05-23): A beteg kontrollon meg...,EPIKRÍZIS (2013-05-23):\nA beteg kontrollon me...
166,013763925,12936705,2013-07-01,O,KAEE,CVC 2. Kardiológiai-EKG Ambulancia,EPD,1,0,4,Epikrízis,"Inspra receptrtel ellátva. Tisztelettel,",EPIKRÍZIS: Inspra receptrtel ellátva. Tiszte...,EPIKRÍZIS (2013-07-01): Inspra receptrtel ellá...,EPIKRÍZIS (2013-07-01):\nInspra receptrtel ell...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
233,013763925,16046089,2015-09-21,O,B1N,Nephrológiai Szakambulancia,EPD,1,0,4,Epikrízis,A betegnél mai napon 12 h-s CVVHD kezelést fol...,EPIKRÍZIS: A betegnél mai napon 12 h-s CVVHD k...,EPIKRÍZIS (2015-09-21): A betegnél mai napon 1...,EPIKRÍZIS (2015-09-21):\nA betegnél mai napon ...
234,013763925,16052715,2015-09-22,O,B1N,Nephrológiai Szakambulancia,DEC,2,0,3,Dekurzus,NEPHROLOGIA -- DIALÍZIS S: a beteg a Tx ITO-n ...,DEKURZUS: NEPHROLOGIA -- DIALÍZIS 	S: a beteg ...,DEKURZUS (2015-09-22): NEPHROLOGIA -- DIALÍZIS...,DEKURZUS (2015-09-22):\nNEPHROLOGIA -- DIALÍZI...
235,013763925,16377070,2015-11-19,I,SVSZ,Szívsebészeti osztály,DEC,19,0,3,Dekurzus,Dekurzus: 2015.12.11. Mai napon a betegnek 1db...,DEKURZUS: Dekurzus: 	2015.12.11. 	Mai napon a ...,DEKURZUS (2015-11-19): Dekurzus: 	2015.12.11. ...,DEKURZUS (2015-11-19):\nDekurzus:\n\t2015.12.1...
236,013763925,16377070,2015-11-19,I,SVSZ,Szívsebészeti osztály,EPD,12,0,4,Epikrízis,Betegünk anamnéziséből kiemelendő konzervatív ...,EPIKRÍZIS: Betegünk anamnéziséből kiemelendő k...,EPIKRÍZIS (2015-11-19): Betegünk anamnéziséből...,EPIKRÍZIS (2015-11-19):\nBetegünk anamnézisébő...


In [23]:
# Merge ANM and EPD text only
df_merged_filtered = df_melt[df_melt['TX_TYPE'].isin(('ANM', 'EPD'))].groupby(['NPI','ADMIT_DATE','CASE_NO','CASE_TYPE','DEPT','DESCR'])[['FINAL_TEXT']].agg("\n\n".join).reset_index(level=-1)
df_merged_filtered

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,DESCR,FINAL_TEXT
NPI,ADMIT_DATE,CASE_NO,CASE_TYPE,DEPT,Unnamed: 5_level_1,Unnamed: 6_level_1
008359041,2010-03-30,25054122,O,SRN4,Neurológiai szakr.,ANAMNÉZIS:\nJo-i hydronephrosis miatt veseeltá...
008359041,2010-04-21,25369254,O,KEUH,UH /hasi/,ANAMNÉZIS:\nRad.lelet\n\tKOPONYA CT VIZSGÁLAT\...
008359041,2010-04-21,25476751,O,BETJ,Betöltéshez járó osztály,ANAMNÉZIS:\nRad.lelet\n\tKOPONYA CT VIZSGÁLAT\...
008359041,2010-04-23,25066396,O,SRN4,Neurológiai szakr.,ANAMNÉZIS:\nKontroll vizsgálat: \n\t10.04.21 R...
008359041,2010-05-14,25481334,O,SRRO,Ált.reumatol.szakr.,ANAMNÉZIS:\nRad.lelet\n\t2 ir. lumbalis gerinc...
...,...,...,...,...,...,...
128082786,2023-01-19,29978989,O,FGA,Általános F.O.G. osztály,ANAMNÉZIS:\n2023.01.19. Augusztus vége óta nem...
128082786,2023-02-10,29921771,O,FGT,Otoneurológia,ANAMNÉZIS:\n2022. augusztusban orrdugulásos pa...
128082786,2024-01-09,31593207,I,G14,Belgyógyászat-Gastroenterológiai O.,ANAMNÉZIS:\nNegatív perinatalis anamnezis. III...
128082786,2024-01-17,31642742,O,G1P,Gyermekpszichiátriai Ambulancia,ANAMNÉZIS:\nAnamnéziséből kiemelendő: A 15 éve...


In [24]:
# Write each patient document (per case number) to txt files
ext = 'txt'
dir = 'patient'
filtered_subdir = 'src/filtered'

for i in df_merged_filtered.index:
  # Get metadata
  npi = i[0]
  admit_date = i[1]
  case_no = i[2]
  case_type = i[3]
  dept = i[4]

  # Set patient folder as NPI
  patient_dir = f'{(i[0])}'
  output_dir = os.path.join(data_path, dir, patient_dir, filtered_subdir)

  # Make output directory if does not exist
  if not os.path.exists(output_dir):
      os.makedirs(output_dir)

  # Set output filename as NPI+ADMIT_DATE+CASE_NO+CASE_TYPE+DEPT
  fname = f'{npi}_{admit_date}_{case_no}_{case_type}_{dept}_filtered.{ext}'
  output_file = os.path.join(output_dir, fname)

  # Get content for output file
  department = df_merged_filtered.loc[i, 'DESCR']
  text = df_merged_filtered.loc[i, 'FINAL_TEXT']

  # Create header
  # header = f'ZÁRÓJELENTÉS\nPáciens: {npi} | Rögzítési dátum: {admit_date} | Dokumentum: {case_no} | Osztály: {department} ({dept})\n\n'

  # Write output file
  print(f'\rWriting case {case_no} for patient {npi}\t\t', end='')
  with open(output_file, 'w') as f:
    # f.write(header)
    f.write(text)

print('\rAll files complete')

All files complete


In [25]:
df_merged_filtered.reset_index().groupby("NPI")[['CASE_NO']].count()

Unnamed: 0_level_0,CASE_NO
NPI,Unnamed: 1_level_1
8359041,50
11547185,31
13763925,39
14317617,50
17366126,82
19116202,24
19131629,20
21009268,51
21508668,45
22231615,62


In [26]:
print(output_file)

/content/drive/MyDrive/Projektek/Semmelweis PoC/202401_Semmelweis - GenAI anamnézis - PoC (425)/10_Kapott_anyagok/kapott_anyagok_ 2024_02_06/patient/128082786/src/filtered/128082786_2024-01-30_31710528_O_G1P_filtered.txt
