In [13]:
import os
import json
from docx import Document
import pandas as pd

In [32]:
# Create the clinical notes data in jsonl format
folder_path = "/scratch/work/zhangl9/genaid/data/clinical_notes_data"
output_path = "clinical_notes.jsonl"


# Helper: extract free text from .docx
def extract_text(docx_path):
    doc = Document(docx_path)
    return "\n".join([para.text.strip() for para in doc.paragraphs if para.text.strip()])

# Guideline IDs
guideline_ids = [["dnd00066", "dnd00067"], ["dnd00011"], ["dnd00011"], ["dnd00011"], ["dnd00102", "dnd00035", "dnd00036"], ["dnd00102", "dnd00035", "dnd00036"], ["dnd00102", "dnd00035", "dnd00036"], ["dnd00102", "dnd00035", "dnd00036"]]
i = 0

# Write JSONL file
with open(output_path, "w", encoding='utf-8') as out_f:
    for filename in sorted(os.listdir(folder_path)):
        if filename.endswith(".docx"):
            note_id = os.path.splitext(filename)[0]
            text = extract_text(os.path.join(folder_path, filename))
            record = {
                "note_id": note_id,
                "text": text,
                "linked_guideline_ids": guideline_ids[i]
            }
            out_f.write(json.dumps(record) + "\n")
            i += 1

print(f"Created: {output_path}")

Created: clinical_notes.jsonl


In [33]:
# Check the clinical notes
with open("clinical_notes.jsonl", "r", encoding='utf-8') as f:
    for line in f:
        record = json.loads(line)
        print(record["note_id"], "\n", record["text"], "\n", record["linked_guideline_ids"], "\n", "-"*50)

note_001 
 Tulosyy: flunssa. 
Esitiedot: Kyseessä perusterve 35-v nainen, ei sään lääkityksiä. Nyt 2 vko ajan flunssaa. Alkanut kurkkukivulla ja kuumeella. Nyt lähinnä tukkoinen, painetta poskionteloiden alueella. Ei korvakipua, ei enää kuumeilua. 
Nykytila: Yt hyvä, sat 98%, hf rauhallinen. Sydämestä ei ausk poikkeavaa, keuhkoista limaiset, karkeat rahinat l.a. basaalisesti. Siistiytyy yskimisen jälkeen. korvat terveet, hieman alipaineiset. Nielu siisti. Kaulalla palp. reakt suurentuneet imusolmukkeet. RHA siisti, sinusscan -/-. Lämpö 36.5. 
Suunnitelma: Vaikutelma edelleen virustaudista. Ei bakteeri-infektioon viittaavaa. Oirehoitona Nasonex, acriseu. Lisäksi kipulääke tarv. Suositeltu seesamiöljyä kostuttamaa. Uusi yhteys jos vointi heikkenee tai ei helpota. SVA 3pvä. 
Diagnoosi: J06.9 - Määrittämätön akuutti ylähengitystieinfektio. 
 ['dnd00066', 'dnd00067'] 
 --------------------------------------------------
note_005 
 Tulosyy: Yskä.
Esitiedot: 32-v yleensä terve nainen. 5-6 vrk 

In [None]:
# Chekc the guideline metadata
#file_path = "/scratch/work/zhangl9/genaid/data/Vältä_viisaasti_metadata/dnd00028.csv"
file_path = "/scratch/work/zhangl9/genaid/data/Käypä_hoito_metadata/hoi05030.csv"
# Load the CSV file
df = pd.read_csv(file_path)

# Print the entire DataFrame
df



Unnamed: 0,page_content,keywords,title
0,# Alaraajojen laskimovajaatoiminta\n---\nMiten...,"['Kirurgia', 'Verisuonikirurgia', 'Radiologia'...",Alaraajojen laskimovajaatoiminta
1,# Alaraajojen laskimovajaatoiminta\n## Keskein...,"['Kirurgia', 'Verisuonikirurgia', 'Radiologia'...",Alaraajojen laskimovajaatoiminta
2,# Alaraajojen laskimovajaatoiminta\n## Tiivist...,"['Kirurgia', 'Verisuonikirurgia', 'Radiologia'...",Alaraajojen laskimovajaatoiminta
3,# Alaraajojen laskimovajaatoiminta\n## Suositu...,"['Kirurgia', 'Verisuonikirurgia', 'Radiologia'...",Alaraajojen laskimovajaatoiminta
4,# Alaraajojen laskimovajaatoiminta\n## Kohdery...,"['Kirurgia', 'Verisuonikirurgia', 'Radiologia'...",Alaraajojen laskimovajaatoiminta
5,# Alaraajojen laskimovajaatoiminta\n## Esiinty...,"['Kirurgia', 'Verisuonikirurgia', 'Radiologia'...",Alaraajojen laskimovajaatoiminta
6,# Alaraajojen laskimovajaatoiminta\n## Patofys...,"['Kirurgia', 'Verisuonikirurgia', 'Radiologia'...",Alaraajojen laskimovajaatoiminta
7,# Alaraajojen laskimovajaatoiminta\n## Diagnos...,"['Kirurgia', 'Verisuonikirurgia', 'Radiologia'...",Alaraajojen laskimovajaatoiminta
8,# Alaraajojen laskimovajaatoiminta\n## Diagnos...,"['Kirurgia', 'Verisuonikirurgia', 'Radiologia'...",Alaraajojen laskimovajaatoiminta
9,# Alaraajojen laskimovajaatoiminta\n## Diagnos...,"['Kirurgia', 'Verisuonikirurgia', 'Radiologia'...",Alaraajojen laskimovajaatoiminta


In [36]:
# Create the guideline data in jsonl format
input_folder = "/scratch/work/zhangl9/genaid/data/Vältä_viisaasti_metadata" # Käypä_hoito_metadata
output_path = "/scratch/work/zhangl9/genaid/TestBed/datasets/Vältä_viisaasti.jsonl"

# Open output file
with open(output_path, "w", encoding='utf-8') as out_f:
    # Loop through all CSV files
    for filename in sorted(os.listdir(input_folder)):
        if filename.endswith(".csv"):
            csv_path = os.path.join(input_folder, filename)
            base_name = os.path.splitext(filename)[0]  # guideline_id

            # Read CSV
            try:
                df = pd.read_csv(csv_path)
            except Exception as e:
                print(f"Error reading {filename}: {e}")
                continue

            if df.empty or "page_content" not in df or "keywords" not in df or "title" not in df:
                print(f"Skipping invalid file: {filename}")
                continue

            # Extract common metadata
            title = df["title"].iloc[0]
            keywords = df["keywords"].iloc[0]

            # Extract chunks
            chunks = []
            for i, row in df.iterrows():
                chunk_id = f"{base_name}_chunk_{i}"
                content = row["page_content"]
                chunks.append({
                    "chunk_id": chunk_id,
                    "content": content
                })

            # Final guideline object
            record = {
                "guideline_id": base_name,
                "title": title,
                "keywords": keywords,
                "chunks": chunks
            }

            # Write one JSON object per line
            out_f.write(json.dumps(record, ensure_ascii=False) + "\n")

print(f"Created: {output_path}")


Created: /scratch/work/zhangl9/genaid/TestBed/datasets/Vältä_viisaasti.jsonl
