<a href="https://colab.research.google.com/github/ekrombouts/GenCareAI/blob/main/100_GenerateCareReportsColab.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# GenCare AI: Synthetic Healthcare Data Generation

**Author:** Eva Rombouts  
**Date:** 2024-05-12  
**Updated:** 2024-05-12  
**Version:** 1.0

### Description
This script generates synthetic healthcare data for NLP experiments.  
It utilizes OpenAI's models to create realistic, anonymized datasets that mimic real-world client records of nursing care homes for use in machine learning and data analysis.

### Setup
- Ensure [OpenAI API key](https://platform.openai.com/docs/quickstart?context=python) is set in the environment or configuration file.
- Google Drive must be mounted for file operations if running in Colab.

In [1]:
# installation needed for CoLab
!pip install -q openai

In [2]:
import pandas as pd
import os
from openai import OpenAI

In [3]:
from google.colab import userdata
OPENAI_API_KEY =userdata.get('GCI_OPENAI_API_KEY') # Set key in secret keys section in Colab

In [4]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [5]:
# Constants / variables
SEED = 1 # To replicate my dataset, concat 6, 1610, 42 and 1
MODEL = 'gpt-3.5-turbo-0125'
TEMPERATURE = 1.1

NUM_COMPLETIONS = 100 # Number of completions per query

DATA_DIR = '/content/drive/My Drive/Colab Notebooks/GenCareAI/data'
FN_REPORTS = os.path.join(DATA_DIR, 'gcai_reports.csv')

In [6]:
# System role, describes the assistant's behavior in a specific context
SYSTEM_ROLE = '''
Je bent een specialist in het genereren van fictieve data voor natural language processing projecten in de zorg.

Je spreekt de taal van een niveau 3 verzorgende in het verpleeghuis.
'''

In [7]:
# Dictionary of user roles for different topics of the reports
USER_ROLES = {
        'ADL':
        '''
Dit zijn voorbeelden van rapportages over ADL:
- Dhr. zijn haar gewassen en zijn baard geschoren.
- Inco van mw, was verzadigd vanmorgen en bed was nat.
- Het is niet goed gegaan Mw had een ongelukje met haar kleding en defeaceren Mw was incontinent Mw geholpen met opfrissen en de kleding in de was gedaan
- U bent vanmorgen gedoucht, uw haren zijn gewassen.

Andere rapportages kunnen bijvoorbeeld gaan over: wassen, aankleden, tanden poetsen, klaarmaken voor de dag, klaarmaken voor de nacht, douchen, gebitsprothese schoonmaken of hulp na incontinentie.

Verzin 10 van zulke rapportages. Geef alleen de rapportages terug, gescheiden door "\n--- ". Varieer met de zinsopbouw en stijl.
        ''',
        'eten_drinken':
        '''
Dit zijn voorbeelden van rapportages over eten en drinken:
- Ik kreeg van de dagdienst door dat dhr. zich verslikt in haar drinken. Drinken verdikt aangeboden. Dit ging goed.
- Ochtendzorg verliep goed, dhr was wel zeer vermoeid. Dhr heeft goed gegeten en gedronken. Dhr is na de lunch op bed geholpen om te rusten.
- Nee ik wil niet meer. ik vond niet lekker. Mw heeft ochtend goed gegeten en gedronken. tussen de middageten mw wilde niet. zij heeft paar hapjes vla gegeten en een glas limonade gedronken.
- Mw heeft op bed een paar hapjes pap gegeten.
- De fresubin creme is niet op voorraad. mw ipv de creme fresubin drink aanbieden Fresubin komt vogende week weer binnen.

Andere rapportages kunnen bijvoorbeeld gaan over: wat de client wel of niet heeft gegeten, welke hulp nodig is bij eten (volledige hulp, aansporing, aangepast bestek of beker), verslikken, bijhouden vocht- en voedingslijst.

Verzin 10 van zulke rapportages. Geef alleen de rapportages terug, gescheiden door "\n--- ". Varieer met de zinsopbouw en stijl.
        ''',
        'sociaal':
        '''
Dit zijn voorbeelden van rapportages over sociale interactie en activiteiten:
- Mw. was goed gestemd vanavond en was heel gezellig aanwezig.
- U keek naar de kerkdienst op buurt 4.
- Dhr zit met verschillende medebewoners in de binnentuin.
- Ik eet samen met mijn dochter. We gaan asperges eten.
- Mw. ging haar gangetje. Ging vanmiddag naar een muziek activiteit.

Andere rapportages kunnen bijvoorbeeld gaan over: Georganiseerde activiteiten, het krijgen van bezoek, bladeren door een tijdschriftje, interactie met medebewoners.

Hou er rekening mee dat het gaat over rapportages van mensen in een verpleeghuis, met forse beperkingen, dus de sociale interactie en activiteiten zijn beperkt. Meestal betreft het gezelligheid, maar niet altijd.

Verzin 10 van zulke rapportages. Geef alleen de rapportages terug, gescheiden door "\n--- ". Varieer met de zinsopbouw en stijl
        ''',
        'huid':
        '''
Dit zijn voorbeelden van rapportages over huid en wonden:
- ik heb jeuk op mijn rug dhr behandeld met de cetomacrogol creme
- Wat is dat allemaal? Dhr zat aan het verband om zijn arm te plukken. Wondje op arm is klein. Dhr ervaart het verband onprettig. Pleister op het wondje gedaan.
- Dhr zijn liezen zagen er rustig uit. Dhr zijn scrotum ingesmeerd met licht zinkzalf, deze was wel rood. De liezen met beschermende zalf ingesmeerd.
- Mevr. lijkt nu decubitus te ontwikkelen op haar stuit. Mevr. haar hiel verzorgd, dit zag er oke uit, klein beetje geel beslag. Dit schoongemaakt, daarna verbonden volgens plan Dit in de gaten houden.

Andere rapportages kunnen bijvoorbeeld gaan over: oedeem, decubituswonden, ontvellingen, roodheid en jeuk van de huid. Te lange nagels, smetplekken.

Verzin 10 van zulke rapportages. Geef alleen de rapportages terug, gescheiden door "\n--- ". Varieer met de zinsopbouw en stijl.
        ''',
        'medisch_logistiek':
        '''
Dit zijn voorbeelden van rapportages over medische zorg en familie communicatie:

- Oren van mevr zijn uitgespoten er kwam uit beide oren veel viezigheid.
- Graag Dhr morgen wegen
- Arts vragen voor brutans 5 mg besteld
- Dochter van dhr. belde. Ze gaf aan dat ze een aanbod hebben gekregen voor verblijf in een ander verpleeghuis.
- Fam wil graag een gesprek over bezoek cardioloog in het verleden. Er is iets voorgeschreven, ws doorgegeven aan vorige arts. graag contact met familie opnemen voor gesprek of telefonisch gesprek In artsenvisite bespreken

Andere rapportages kunnen bijvoorbeeld gaan over: zorgplan besprekingen, kleine medische klachten, verzoeken van familie, bestellen van medicijnen.

Verzin 10 van zulke rapportages. Geef alleen de rapportages terug, gescheiden door "\n--- ". Varieer met de zinsopbouw en stijl.
        ''',
        'nachten':
        '''
Dit zijn voorbeelden van rapportages over nachten en slapen:

- Mw. heeft de gehele nacht geslapen
- Mw heeft vannacht niet zo goed geslapen. Mw was veel wakker en wat onrustig. Lastig om mw af te leiden en te zorgen dat mw weer wilde slapen. Mw heeft een slechte nachtrust gehad.
- De sensor is de gehele nacht niet afgegaan bij mw
- Dhr. ging rond 23:30 uur naar bed. Heeft de hele nacht geslapen.
- Dhr. was klaarwakker en wilde uit bed en rammelde aan het bedhek. Dhr. vertelde dat hij opgehaald zou worden. Mw. heeft hem overtuigt om toch te gaan slapen en dhr. luisterde naar mw.

Rapportages kunnen bijvoorbeeld gaan over: onrust en dwalen in de nacht, lekker slapen, toiletgang in de nacht, bellen, scheef in bed liggen.

Verzin 10 van zulke rapportages. Geef alleen de rapportages terug, gescheiden door "\n--- ". Varieer met de zinsopbouw en stijl.
        ''',
        'onrust':
        '''
Dit zijn voorbeelden van rapportages over onrust, probleemgedrag, stemming:

- Ga opzij. Wat ben jij lelijk Mw schopte naar een andere bewoner en wilde een ander bewoner slaan. Mw een prikkelarme omgeving aangeboden.
- dhr eet de planten van tafel dhr werd begeleid door collega om het uit te spugen werd hier geagiteerd door.
- Waar is het toilet Mag ik al eten Naar zorg toe lopen, zwaaien naar de zorg om hulp.  Mw vraagt veel bevestiging van de zorg,
- Meneer is wat onrustig loopt jammerend heen en weer en zegt steeds erg moe te zijn. Heeft een trieste blijk in zijn ogen. Meneer aangeboden om naar bed te gaan, heeft hier geen rust voor.

Rapportages kunnen bijvoorbeeld gaan over: agitatie, onrust, apathie, verwardheid.
Meestal is de verwardheid subtiel, maar soms wat heftiger.

Verzin 10 van zulke rapportages. Geef alleen de rapportages terug, gescheiden door "\n--- ". Varieer met de zinsopbouw en stijl.
        ''',
        'symptomen':
        '''
Dit zijn voorbeelden van rapportages over ziekte en symptomen:

- Er zat iets vocht in beide voeten. Dhr had vandaag geen steunkousen aan Blijven observeren
- Urine opvangen is tot nu toe nog niet gelukt(mw heeft er steeds def bij) Vanmiddag ook geen pijn gezien alleen evt wat frustratie als iets niet soepel loopt.
- Ik heb pijn dhr gaf pijn aan aan zijn linker pink en ringvinger. Er zitten daar een soort bloedblaren al wel langer. Graag even in de gaten houden en rapporteren of dhr meer pijn krijgt.
- Dhr. had om 6u zeer veel last van slijm en een vieze smaak in zijn mond. Dhr geassisteerd met het spoelen van zijn mond.
- Erg pijnlijk bij de ADL. Morgen graag overleg met de arts over de pijnmedicatie
- Dhr is erg benauwd, klinkt vol, heeft een reutelende ademhaling.

Rapportages kunnen bijvoorbeeld gaan over: pijn, benauwdheid, misselijkheid, diarree, rugklachten, palliatieve zorg.
Meestal zijn de klachtensubtiel, maar soms heftiger.

Verzin 10 van zulke rapportages. Geef alleen de rapportages terug, gescheiden door "\n--- ". Varieer met de zinsopbouw en stijl.
        ''',
        'mobiliteit':
        '''
Dit zijn voorbeelden van rapportages over mobiliteit en transfers:

- Vandaag geholpen met de passieve lift. Dit ging goed.
- Veel rondgelopen vandaag. Mw vergeet steeds haar rollator.
- De banden van de rolstoel zijn zacht. Kan de fysio hier naar kijken?
- De transfers gaan steeds moeilijker. Mw hangt erg in de actieve lift. Glijdt weg. Wil graag nog met de actieve lift geholpen worden, maar dit gaat eigenlijk niet meer. @ Ergo, graag je advies

Andere rapportages kunnen bijvoorbeeld gaan over: loophulpmiddelen, de rolstoel, valgevaar, valincidenten, transfers, tilliften.
De meeste rapportages gaan over dagelijkse dingetjes, dus niet alles is een ernstig incident.

Verzin 10 van zulke rapportages. Geef alleen de rapportages terug, gescheiden door "\n--- ". Varieer met de zinsopbouw en stijl.
        '''
}


In [8]:
def setup_openai_client():
    """Create an OpenAI client instance."""
    try:
        client = OpenAI(api_key=OPENAI_API_KEY)
        return client
    except Exception as e:
        print(f"Failed to set up OpenAI client: {str(e)}")
        return None

## Data Generation Function
The following function produces AI-generated data.

First, an instance of the OpenAI client is created. This connects to the OpenAI API.

Next, chat.completions.create() generates the text. Here is a link to the playground: https://platform.openai.com/playground?mode=chat

Arguments:
s_role: The system role determines how the 'assistant' behaves. You can provide instructions about its purpose and how it should respond. The system role is defined only once.
u_role: The 'user' prompt to which the 'assistant' responds (or completes). This could potentially start a dialogue, but we do not use it that way.
model: For possible models, see: https://platform.openai.com/docs/models
seed: self-explanatory
n: The number of completions the function returns.

The result is an object with a list of choices. The term choices refers to the different texts generated. The content of the text at index i is accessed like this: result.choices[i].message.content

In [9]:
def generate_healthcare_data(client, system_role, user_role, model, seed=None, temperature=1, n=1):
    """Generate synthetic healthcare data using the OpenAI API."""
    try:
        completion = client.chat.completions.create(
            model=model,
            messages=[
                {"role": "system", "content": system_role},
                {"role": "user", "content": user_role}
            ],
            seed=seed,
            temperature=temperature,
            n=n
        )
        return completion
    except Exception as e:
        print(f"An error occurred during data generation: {str(e)}")
        return None

In [10]:
def parse_and_clean_reports(completions):
    """Parse and clean reports from OpenAI completions."""
    reports = []
    for choice in completions.choices:
        splits = choice.message.content.split('---')
        for split in splits:
            clean_report = split.strip().lstrip('-').strip()
            if clean_report:
                reports.append(clean_report)
    return reports

In [11]:
def save_reports(df, filename):
    """Save the DataFrame to a CSV file."""
    try:
        df.to_csv(filename, index=False)
        print(f"Reports saved successfully to {filename}")
    except Exception as e:
        print(f"Failed to save reports: {str(e)}")
        return df  # Optionally return the DataFrame for further handling

In [12]:
def generate_and_collect_reports():
    """Main function to orchestrate data generation."""
    client = setup_openai_client()
    if not client:
        print("OpenAI client setup failed. Exiting...")
        return

    all_reports = []
    for topic, user_role in USER_ROLES.items():
        print(f"Generating reports for topic: {topic}")
        completion = generate_healthcare_data(client, SYSTEM_ROLE, user_role, MODEL, SEED, TEMPERATURE, NUM_COMPLETIONS)
        if completion:
            reports = parse_and_clean_reports(completion)
            df = pd.DataFrame(reports, columns=['report'])
            df['topic'] = topic
            all_reports.append(df)
        else:
            print(f"Failed to generate reports for topic: {topic}")

    return all_reports

In [13]:
all_reports = generate_and_collect_reports()

Generating reports for topic: ADL
Generating reports for topic: eten_drinken
Generating reports for topic: sociaal
Generating reports for topic: huid
Generating reports for topic: medisch_logistiek
Generating reports for topic: nachten
Generating reports for topic: onrust
Generating reports for topic: symptomen
Generating reports for topic: mobiliteit


In [14]:
df_all_reports = pd.concat(all_reports, ignore_index=True)
saved_df = save_reports(df_all_reports, FN_REPORTS)

Reports saved successfully to /content/drive/My Drive/Colab Notebooks/GenCareAI/data/gcai_reports.csv


In [19]:
# FN_REPORTS_TO_CONCAT = os.path.join(DATA_DIR, 'gcai_reports2.csv')
# FN_REPORTS_CONCATENATED = os.path.join(DATA_DIR, 'gcai_reports_concatenated.csv')

# df_reports_to_concat = pd.read_csv(FN_REPORTS_TO_CONCAT)

# # Combine the DataFrames
# df_reports_concatenated = pd.concat([df_all_reports, df_reports_to_concat])

# # Save the concatenated DataFrame to a CSV file
# df_reports_concatenated.to_csv(FN_REPORTS_CONCATENATED, index=False)