# Data Preparation

## Import libraries

In [58]:
# Import libraries
import pandas as pd

## Load dataset

In [59]:
# Loading nursing home dataset 2022
df = pd.read_excel('datasets/Pflegeheime_2022.xlsx', header=1)
df.head()

Unnamed: 0,Institution,Strasse,Ort,Kanton,Rechtsform,Pflegeleistungs Instrument,Jahr,Anzahl Plätze Langzeitaufenthalt,Anzahl Plätze Kurzzeitaufenthalt,Anzahl Plätze Akut- und Übergangspflege,...,davon Akut- und Übergangspflege (in Franken).1,Pflegetaxen2 (in 1'000 Franken),Pflegetaxen2 (Anteil am Gesamtertrag),Pensionskosten (Anteil an den Gesamtkosten),Pensionskosten pro Beherbergungstag (in Franken),Pensionstaxen (Anteil am Gesamtertrag),Pensionstaxen pro Beherbergungstag (in Franken),Gesamte Erträge (in 1'000 Franken),"Beiträge, Subventionen, Defizitdeckung2 \n(in 1'000 Franken)","Betriebsergebnis, ohne Defizitdeckung \n(in 1'000 Franken)"
0,Pflegezentrum Süssbach AG,Fröhlichstrasse 7,5200 Brugg,AG,Aktiengesellschaft,RAI-RUG KLV (Stufen),2022.0,229,-,-,...,-,12177.3,45.8,40.0,133.4,41.2,138.0,26569.9,-,94.7
1,Pflegewohngruppe Laufenburg,Baslerstrasse 22,5080 Laufenburg,AG,Aktiengesellschaft,RAI-RUG KLV (Stufen),2022.0,20,-,-,...,-,961.6,42.8,37.8,122.9,42.2,136.8,2249.1,-,-7.4
2,Alterswohnheim St. Martin,Marktstrasse 15,5630 Muri,AG,Stiftung (Art. 80 ff. ZGB),BESA Minuten KLV,2022.0,53,-,-,...,-,1156.7,29.3,62.8,146.9,55.3,116.4,3950.0,2.6,-442.2
3,Stiftung Gässliacker - Zentrum für Alter und G...,Gässliackerstrasse 18,5415 Nussbaumen Bei Baden,AG,Stiftung (Art. 80 ff. ZGB),RAI-RUG KLV (Stufen),2022.0,81,-,-,...,-,4200.3,43.9,45.3,150.5,41.7,135.0,9565.1,-,-245.9
4,Altersheim Golatti,Golattenmattgasse 37,5000 Aarau,AG,Verwaltung Gemeinde,BESA Minuten KLV,2022.0,58,-,-,...,-,1919.9,31.8,48.7,156.5,48.0,143.3,6039.3,72.4,-458.8


## Drop irrelevant columns

In [60]:
# Keep relevant columns (Institution, Ort, Kanton, Anzahl Plätze Langzeitaufenthalt, Anzahl Klienten Langzeit, Durchschnittsalter der Klienten bei Eintritt, Pflegefachpersonal)
df = df[['Institution', 'Ort', 'Kanton', 'Anzahl Plätze Langzeitaufenthalt', 'Anzahl Klienten Langzeit', 'Durchschnittsalter der Klienten bei Eintritt', 'Pflegefachpersonal']]
df.head()

Unnamed: 0,Institution,Ort,Kanton,Anzahl Plätze Langzeitaufenthalt,Anzahl Klienten Langzeit,Durchschnittsalter der Klienten bei Eintritt,Pflegefachpersonal
0,Pflegezentrum Süssbach AG,5200 Brugg,AG,229,320,82.2,67.5
1,Pflegewohngruppe Laufenburg,5080 Laufenburg,AG,20,22,65.6,100.0
2,Alterswohnheim St. Martin,5630 Muri,AG,53,51,82.1,45.9
3,Stiftung Gässliacker - Zentrum für Alter und G...,5415 Nussbaumen Bei Baden,AG,81,103,84.5,68.6
4,Altersheim Golatti,5000 Aarau,AG,58,83,83.5,65.2


## Drop rows with missing values

In [61]:
# Check for missing values
df.isnull().sum()

Institution                                     3
Ort                                             5
Kanton                                          5
Anzahl Plätze Langzeitaufenthalt                5
Anzahl Klienten Langzeit                        5
Durchschnittsalter der Klienten bei Eintritt    5
Pflegefachpersonal                              5
dtype: int64

In [62]:
# Show rows with missing values
df[df.isnull().any(axis=1)]

# Missing values are the footer of the dataset. We can drop them.

Unnamed: 0,Institution,Ort,Kanton,Anzahl Plätze Langzeitaufenthalt,Anzahl Klienten Langzeit,Durchschnittsalter der Klienten bei Eintritt,Pflegefachpersonal
1475,1 Ohne Akut- und Übergangspflege. 2 Vgl. Besch...,,,,,,
1476,,,,,,,
1477,,,,,,,
1478,,,,,,,
1479,Bundesamt für Gesundheit (BAG) │www.bag.admin....,,,,,,


In [63]:
# Drop rows with missing values
df = df.dropna()

# Confirm that missing values are removed
df.isnull().sum()

Institution                                     0
Ort                                             0
Kanton                                          0
Anzahl Plätze Langzeitaufenthalt                0
Anzahl Klienten Langzeit                        0
Durchschnittsalter der Klienten bei Eintritt    0
Pflegefachpersonal                              0
dtype: int64

## Drop rows with duplicate values

In [64]:
# Check for duplicates in Institution column
df.duplicated(subset=['Institution']).sum()

# Show rows with duplicates in Institution column
df[df.duplicated(subset=['Institution'], keep=False)]

# Some Institutions have the same name but are in different locations. We will keep them.

Unnamed: 0,Institution,Ort,Kanton,Anzahl Plätze Langzeitaufenthalt,Anzahl Klienten Langzeit,Durchschnittsalter der Klienten bei Eintritt,Pflegefachpersonal
9,Stiftung Lindenhof,4665 Oftringen,AG,88,119,81.6,30.0
16,Alters- und Pflegeheim,4310 Rheinfelden,AG,43,48,87.6,66.0
60,Alters- und Pflegeheim,5303 Würenlingen,AG,69,78,84.5,63.9
224,Stiftung Lindenhof,4900 Langenthal,BE,79,84,87.1,61.2
356,Betagtenpflegeverein Biel-Seeland - Biel/Bienne,2503 Biel/Bienne,BE,10,14,84.4,88.2
357,Betagtenpflegeverein Biel-Seeland - Biel/Bienne,2504 Biel/Bienne,BE,8,11,84.3,96.4
472,Foyer St-Joseph,1634 La Roche,FR,47,74,84.4,80.8
474,Foyer St-Joseph,1642 Sorens,FR,40,69,81.5,59.9
489,Foyer St-Joseph,1638 Morlon,FR,26,39,77.6,57.7
560,Seniorenzentrum Oase,7075 Churwalden,GR,28,49,78.2,64.3


In [65]:
# Check for duplicates in Institution column when Institution and Ort are the same
df.duplicated(subset=['Institution', 'Ort']).sum()

# This confirms that there are no duplicates in the dataset in the case that Institution and Ort are the same.

0

In [66]:
# Check for duplicates
df.duplicated().sum()

# There are no duplicates in the dataset after keeping only the relevant columns.

0

In [67]:
df.head()

Unnamed: 0,Institution,Ort,Kanton,Anzahl Plätze Langzeitaufenthalt,Anzahl Klienten Langzeit,Durchschnittsalter der Klienten bei Eintritt,Pflegefachpersonal
0,Pflegezentrum Süssbach AG,5200 Brugg,AG,229,320,82.2,67.5
1,Pflegewohngruppe Laufenburg,5080 Laufenburg,AG,20,22,65.6,100.0
2,Alterswohnheim St. Martin,5630 Muri,AG,53,51,82.1,45.9
3,Stiftung Gässliacker - Zentrum für Alter und G...,5415 Nussbaumen Bei Baden,AG,81,103,84.5,68.6
4,Altersheim Golatti,5000 Aarau,AG,58,83,83.5,65.2


## Create new excel after preprocessing

In [68]:
# Create new excel file with relevant columns
df.to_excel('datasets/Pflegeheime_2022_preprocessed.xlsx', index=False)