# Careplan generation: Data cleaning

**Author:** Eva Rombouts  
**Date:** 2024-07-21  
**Version:** 0.1

### Description


In [8]:
# Environment setup
import os

def check_environment():
    try:
        import google.colab
        return "Google Colab"
    except ImportError:
        return "Local Environment"

env = check_environment()

if env == "Google Colab":
    print("Running in Google Colab")
    !pip install -q datasets
    from google.colab import drive, userdata
    drive.mount('/content/drive')
    os.chdir('/content/drive/My Drive/Colab Notebooks/GenCareAI/scripts')
    HF_TOKEN = userdata.get('HF_TOKEN')
else:
    print("Running in Local Environment")
    # !pip install -q
    from dotenv import load_dotenv
    load_dotenv()
    HF_TOKEN = os.getenv('HF_TOKEN')

Running in Local Environment


In [9]:
import pandas as pd
from datasets import load_dataset

In [25]:
dataset = load_dataset("ekrombouts/Galaxy_records", token=HF_TOKEN)
df_records = dataset['train'].to_pandas()

df = (
    df_records
    .dropna(subset=['note']) 
    .groupby(['ct_id', 'month'])['note']
    .apply(lambda x: '- ' + '\n- '.join(x))
    .reset_index(name='notes')
)

print(df.head())
print(100*'*')
print(df['notes'][0])

   ct_id  month                                              notes
0      1      1  - Meneer heeft vanochtend hulp gehad bij het a...
1      1      2  - Meneer heeft vanochtend hulp gehad bij het a...
2      1      3  - Er is een lichte verbetering in zijn lichame...
3      1      4  - Meneer vertoonde vanochtend wat tekenen van ...
4      1      5  - Meneer had vanmorgen moeite met opstaan vanw...
****************************************************************************************************
- Meneer heeft vanochtend hulp gehad bij het aankleden en is daarna gaan ontbijten. Hij had wat moeite met het herkennen van zijn kleding, maar kon uiteindelijk zelfstandig eten.
- Tijdens de lunch had meneer wat hulp nodig bij het snijden van zijn eten. Hij was rustig en genoot van zijn maaltijd. Diabetesmanagement werd in de gaten gehouden.
- In de middag heeft meneer deelgenomen aan een puzzelactiviteit en was hier erg geconcentreerd mee bezig. Zijn mobiliteit met de rollator werd regelmat

In [26]:
df.to_csv('../data/df_careplans.csv')