<a href="https://colab.research.google.com/github/ekrombouts/GenCareAI/blob/olympia/notebooks/100_note_generation/100_GenerateAnonymousCareNotes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# GenCare AI: Synthetic Healthcare Data Generation

**Author:** Eva Rombouts  
**Date:** 2024-05-12  
**Updated:** 2024-09-30  
**Version:** 2.0  

### Description
This notebook generates synthetic healthcare data for NLP experiments.
It utilizes OpenAI’s models to create a synthetic dataset with progress notes of nursing home clients for use in machine learning and data analysis.

These notes are “anonymous,” meaning they are not based on specific client profiles or scenarios, unlike the notes generated in later steps.

While these synthetic notes are useful for learning and experimenting with techniques in healthcare analytics, the models trained on them are unlikely to generalize to real-world data. Instead, they serve as practice material for testing various algorithms, natural language processing (NLP) tasks, and developing prototypes without the ethical and privacy concerns associated with real health data.

An example of the resulting [dataset](https://huggingface.co/datasets/ekrombouts/dutch_nursing_home_notes) can be found on HuggingFace.   


In [None]:
!pip install GenCareAI
from GenCareAI.GenCareAIUtils import GenCareAISetup

setup = GenCareAISetup()

if setup.environment == 'Colab':
        !pip install -q langchain langchain_openai datasets
        
verbose = True

In [None]:
import pandas as pd

from langchain.prompts import PromptTemplate
from langchain.output_parsers import PydanticOutputParser
from langchain_openai import ChatOpenAI
from pydantic import BaseModel, Field
from typing import List
from datasets import Dataset, DatasetDict
import re
import os
import pickle

In [None]:
# Constants / variables
seed = 6
model = 'gpt-3.5-turbo-0125' # evidently better than gpt-4o-mini
temp = 1.3

num_notes = 50 #Number of notes generated per completion
num_completions = 100 #Number of completions per query

fn_csv = setup.get_file_path('data/gcai_notes.csv')
fn_results = setup.get_file_path('data/gcai_results.pkl')

if verbose:
    print(fn_csv)

In [None]:
# Define a Pydantic model for the note structure
class Note(BaseModel):
    note: List[str] = Field(description="rapportage tekst")

# Initialize the output parser using the Pydantic model
output_parser = PydanticOutputParser(pydantic_object=Note)
# Get format instructions for the LLM to output data compatible with the parser
format_instructions = output_parser.get_format_instructions()

if verbose:
    print(format_instructions)

In [5]:
# Define the prompt template with placeholders for variables
template = """Help me bij het schrijven van fictieve zorgrapportages.
Je spreekt de taal van een niveau 3 zorgmedewerker (Verzorgende IG).
De rapportages gaan over mensen die zijn opgenomen in het verpleeghuis. Deze clienten zijn ernstig beperkt, meestal vanweze een dementie, soms vanwege somatisch onderliggend lijden.

Verzin {num_notes} rapportages over {category}.
Varieer in zinsopbouw, formulering en stijl: gebruik zowel korte als lange zinnen, wissel tussen formeel en informeel taalgebruik, en schrijf vanuit verschillende perspectieven (bijvoorbeeld direct tegen de cliënt of in de derde persoon). Vermijd het noemen van de naam. Zorg ervoor dat sommige rapportages gedetailleerd zijn en andere juist beknopt. Gebruik afwisselende onderwerpen, zoals: {note_topics}.

Voorbeelden:
{examples}
{format_instructions}
"""

In [6]:
# Create a PromptTemplate instance, injecting format instructions as a partial variable
prompt_template = PromptTemplate(
    input_variables=["num_notes", "cat_description", "note_topics", "examples"],
    template=template,
    partial_variables={"format_instructions": format_instructions},
)

# Initialize the language model with specified parameters
llm = ChatOpenAI(api_key=setup.get_openai_key(),model=model, temperature=temp, n=num_completions)


In [None]:
# List of dictionaries containing input data for each category
input_data_list = [
    {
        "cat": "adl",
        "category": "ADL (Algemene Dagelijkse Levensverrichtingen)",
        "examples": """- Dhr. zijn haar gewassen en zijn baard geschoren.
- Inco van mw, was verzadigd vanmorgen en bed was nat.
- Het is niet goed gegaan Mw had een ongelukje met haar kleding en defeaceren Mw was incontinent Mw geholpen met opfrissen en de kleding in de was gedaan
- U bent vanmorgen gedoucht, uw haren zijn gewassen.
""",
        "note_topics": "wassen, aankleden, tanden poetsen, klaarmaken voor de dag, klaarmaken voor de nacht, douchen, gebitsprothese schoonmaken of hulp na incontinentie.",
    },
    {
        "cat": "eten_drinken",
        "category": "eten en drinken",
        "examples": """- Ik kreeg van de dagdienst door dat dhr. zich verslikt in haar drinken. Drinken verdikt aangeboden. Dit ging goed.
- Ochtendzorg verliep goed, dhr was wel zeer vermoeid. Dhr heeft goed gegeten en gedronken. Dhr is na de lunch op bed geholpen om te rusten.
- Nee ik wil niet meer. ik vond niet lekker. Mw heeft ochtend goed gegeten en gedronken. tussen de middageten mw wilde niet. zij heeft paar hapjes vla gegeten en een glas limonade gedronken.
- Mw heeft op bed een paar hapjes pap gegeten.
- De fresubin creme is niet op voorraad. mw ipv de creme fresubin drink aanbieden Fresubin komt vogende week weer binnen.
""",
        "note_topics": "wat de client wel of niet heeft gegeten, welke hulp nodig is bij eten (volledige hulp, aansporing, aangepast bestek of beker), verslikken, bijhouden vocht- en voedingslijst.",
    },
    {
        "cat": "sociaal",
        "category": "sociale interactie en activiteiten",
        "examples": """- Mw. was goed gestemd vanavond en was heel gezellig aanwezig.
- U keek naar de kerkdienst op buurt 4.
- Dhr zit met verschillende medebewoners in de binnentuin.
- Ik eet samen met mijn dochter. We gaan asperges eten.
- Mw. ging haar gangetje. Ging vanmiddag naar een muziek activiteit.
""",
        "note_topics": "georganiseerde activiteiten, het krijgen van bezoek, bladeren door een tijdschriftje, interactie met medebewoners. Hou er rekening mee dat het gaat over rapportages van mensen in een verpleeghuis, met forse beperkingen, dus de sociale interactie en activiteiten zijn beperkt. Meestal betreft het gezelligheid, maar niet altijd.",
    },
    {
        "cat": "huid",
        "category": "huid en wonden",
        "examples": """- ik heb jeuk op mijn rug dhr behandeld met de cetomacrogol creme
- Wat is dat allemaal? Dhr zat aan het verband om zijn arm te plukken. Wondje op arm is klein. Dhr ervaart het verband onprettig. Pleister op het wondje gedaan.
- Dhr zijn liezen zagen er rustig uit. Dhr zijn scrotum ingesmeerd met licht zinkzalf, deze was wel rood. De liezen met beschermende zalf ingesmeerd.
- Mevr. lijkt nu decubitus te ontwikkelen op haar stuit. Mevr. haar hiel verzorgd, dit zag er oke uit, klein beetje geel beslag. Dit schoongemaakt, daarna verbonden volgens plan Dit in de gaten houden.
""",
        "note_topics": "oedeem, decubituswonden, ontvellingen, roodheid en jeuk van de huid. Te lange nagels, smetplekken.",
    },
    {
        "cat": "medisch_logistiek",
        "category": "medische zorg en familie communicatie",
        "examples": """- Oren van mevr zijn uitgespoten er kwam uit beide oren veel viezigheid.
- Graag Dhr morgen wegen
- Arts vragen voor brutans 5 mg besteld
- Dochter van dhr. belde. Ze gaf aan dat ze een aanbod hebben gekregen voor verblijf in een ander verpleeghuis.
- Fam wil graag een gesprek over bezoek cardioloog in het verleden. Er is iets voorgeschreven, ws doorgegeven aan vorige arts. graag contact met familie opnemen voor gesprek of telefonisch gesprek In artsenvisite bespreken
""",
        "note_topics": "zorgplan besprekingen, kleine medische klachten, verzoeken van familie, bestellen van medicijnen.",
    },
    {
        "cat": "nachten",
        "category": "nachten en slapen",
        "examples": """- Mw. heeft de gehele nacht geslapen
- Mw heeft vannacht niet zo goed geslapen. Mw was veel wakker en wat onrustig. Lastig om mw af te leiden en te zorgen dat mw weer wilde slapen. Mw heeft een slechte nachtrust gehad.
- De sensor is de gehele nacht niet afgegaan bij mw
- Dhr. ging rond 23:30 uur naar bed. Heeft de hele nacht geslapen.
- Dhr. was klaarwakker en wilde uit bed en rammelde aan het bedhek. Dhr. vertelde dat hij opgehaald zou worden. Mw. heeft hem overtuigt om toch te gaan slapen en dhr. luisterde naar mw.
""",
        "note_topics": "onrust en dwalen in de nacht, lekker slapen, toiletgang in de nacht, bellen, scheef in bed liggen.",
    },
    {
        "cat": "onrust",
        "category": "onrust, probleemgedrag, stemming",
        "examples": """- Ga opzij. Wat ben jij lelijk Mw schopte naar een andere bewoner en wilde een ander bewoner slaan. Mw een prikkelarme omgeving aangeboden.
- dhr eet de planten van tafel dhr werd begeleid door collega om het uit te spugen werd hier geagiteerd door.
- Waar is het toilet Mag ik al eten Naar zorg toe lopen, zwaaien naar de zorg om hulp.  Mw vraagt veel bevestiging van de zorg,
- Meneer is wat onrustig loopt jammerend heen en weer en zegt steeds erg moe te zijn. Heeft een trieste blik in zijn ogen. Meneer aangeboden om naar bed te gaan, heeft hier geen rust voor.
""",
        "note_topics": "agitatie, onrust, apathie, verwardheid. Meestal is de verwardheid subtiel, maar soms wat heftiger.",
    },
    {
        "cat": "symptomen",
        "category": "ziekte en symptomen",
        "examples": """- Er zat iets vocht in beide voeten. Dhr had vandaag geen steunkousen aan Blijven observeren
- Urine opvangen is tot nu toe nog niet gelukt(mw heeft er steeds def bij) Vanmiddag ook geen pijn gezien alleen evt wat frustratie als iets niet soepel loopt.
- Ik heb pijn dhr gaf pijn aan aan zijn linker pink en ringvinger. Er zitten daar een soort bloedblaren al wel langer. Graag even in de gaten houden en rapporteren of dhr meer pijn krijgt.
- Dhr. had om 6u zeer veel last van slijm en een vieze smaak in zijn mond. Dhr geassisteerd met het spoelen van zijn mond.
- Erg pijnlijk bij de ADL. Morgen graag overleg met de arts over de pijnmedicatie
- Dhr is erg benauwd, klinkt vol, heeft een reutelende ademhaling.
""",
        "note_topics": "pijn, benauwdheid, misselijkheid, diarree, rugklachten, palliatieve zorg. Meestal zijn de klachten subtiel, maar soms heftiger.",
    },
    {
        "cat": "mobiliteit",
        "category": "mobiliteit en transfers",
        "examples": """- Vandaag geholpen met de passieve lift. Dit ging goed.
- Veel rondgelopen vandaag. Mw vergeet steeds haar rollator.
- De banden van de rolstoel zijn zacht. Kan de fysio hier naar kijken?
- De transfers gaan steeds moeilijker. Mw hangt erg in de actieve lift. Glijdt weg. Wil graag nog met de actieve lift geholpen worden, maar dit gaat eigenlijk niet meer. @ Ergo, graag je advies
""",
        "note_topics": "loophulpmiddelen, de rolstoel, valgevaar, valincidenten, transfers, tilliften. De meeste rapportages gaan over dagelijkse dingetjes, dus niet alles is een ernstig incident.",
    },
]


if verbose:
    sample = input_data_list[0]
    sample_prompt = template.format(
        num_notes=num_notes,
        category=sample['category'],
        note_topics=sample['note_topics'],
        examples=sample['examples'],
        format_instructions=format_instructions
)
    print(sample_prompt)


In [None]:
# If results have been saved previously, get from pickle file
if os.path.exists(fn_results):
    with open(fn_results, 'rb') as f:
        results = pickle.load(f)
    print(f"Results loaded from: {fn_results}")
else:
    results = []

    # Loop through the input data for each category
    for input_data in input_data_list:
        # Add num_notes to the input data
        input_data_with_num_notes = {**input_data, "num_notes": num_notes}

        # Generate the prompt
        prompt = prompt_template.format(**input_data_with_num_notes)

        if verbose:
            print(f"Generating notes for category: {input_data['category']}")

        # Generate responses
        response = llm.generate([[prompt]])
        
        # Add to the results list
        results.append(response)

    # Save the results object as pickle file
    with open(fn_results, 'wb') as f:
        pickle.dump(results, f)

    print(f"Results saved as: {fn_results}")

# Now results is a list of LLMResult objects

In [None]:
if verbose: print(results[0].generations[0][0].text)

In [None]:
data = []
num_parse_errors = 0

# Loop through the results for each category
for i, response in enumerate(results):
    # Loop through the completions for each category
    for j, generation in enumerate(response.generations):
        # Loop through the individual generations within each completion
        for k, gen_text in enumerate(generation):
            generated_text = gen_text.text  # Extract the generated text

            try:
                # Parse the generated text using the Pydantic parser
                parsed_output = output_parser.parse(generated_text)

                # Loop through the parsed notes and add them to the data list
                for note in parsed_output.note:
                    data.append({
                        'category': input_data_list[i]['cat'],  # Add the category from input data
                        'completion': j + 1,  # Track which completion this belongs to
                        'generation': k + 1,  # Track which generation within the completion
                        'note': note  # Store the parsed note text
                    })

            except Exception as e:
                # print(f"Error parsing the output for category {i+1}, completion {j+1}, generation {k+1}: {e}\nretry")
                # Replace '\n' by ',\n' if it's not the last line
                gen_text = re.sub(r'"\n(?!\s*\])', '",\n', generated_text)
                try:
                    parsed_output = output_parser.parse(gen_text)
                    for note in parsed_output.note:
                        data.append({
                            'category': input_data_list[i]['cat'],
                            'completion': j + 1,
                            'generation': k + 1,
                            'note': note
                        })
                except Exception as e:
                    if verbose: print(f"Error parsing the output for category {i+1}, generation {k+1}")
                    num_parse_errors +=1
                    continue
if verbose: print (f"number of parsing errors: {num_parse_errors}")

In [None]:
# Convert the data list into a Pandas DataFrame
df = pd.DataFrame(data)

if verbose:
    print(df.head())

In [None]:
[df[['category', 'note']].sample(5).values.tolist() for _ in range(1)]

In [None]:
# Sla de DataFrame op als CSV-bestand
df.to_csv(fn_csv, index=False)

# Bevestig dat het bestand succesvol is opgeslagen, als verbose aan staat
if verbose:
    print(f"Data opgeslagen naar: {fn_csv}")

In [None]:
dataset = Dataset.from_pandas(df)
# Path for pushing dataset to HuggingFace Hub
path_hf_sampc_long = "ekrombouts/Olympia_notes"
# Commit message for the push
commit_message = "Synthetic notes, v2.0wip"


# Split the dataset into training and test/validation splits
train_testvalid_split = dataset.train_test_split(test_size=0.2, seed=seed)

# Further split the test set into validation and test sets
test_valid_split = train_testvalid_split['test'].train_test_split(test_size=0.5, seed=seed)

# Create a DatasetDict object to hold the splits
dataset_dict = DatasetDict({
    'train': train_testvalid_split['train'],
    'validation': test_valid_split['train'],
    'test': test_valid_split['test'],
})

# Push the dataset to HuggingFace Hub with the specified path and commit message
dataset_dict.push_to_hub(path_hf_sampc_long,
                         commit_message=commit_message,
                         private=True)