# Introduction to data science
Author: Gérard Lichtert

## Introduction
This notebook is to clean data from a csv, it removes unnecesary columns, computes means and saves the processed data to a new csv file found in the output folder.

It will also make a new dataframe containing averages per day per participant and save it to a csv for the OBSE survey

## Usage
Following the instructions in the README.md file is crucial for installation. Prior to execution make sure to have that the CSV files are correctly structured. By this I mean that sometimes a CSV file can have unexpected quotation marks between columns, making it one big column. The easiest thing you can do, only if there are no column names containing a comma is to use CTRL+F to find all the quotation characters and replacing them by nothing (or an empty space). You might find the replace-all function beneficial for this. 

Currently the notebook works under the assumption that you have no "\<no-response\>" or "\<not-shown\>" in your dataset. If you do, replace them with null or just an empty space.

## Variables you can change
In the following code cells you can change the variables as you need as these will be the columns that need to be removed from the OBSE survey and the other one respectively.

In [210]:
# This is a list of headers we want to delete (exluding the ones with _TZ, _RT and _TZ) from the OBSE survey
# the headers with _TZ, _RT and _TZ will be removed automatically.
HEADERS_TO_DROP_FINAL_SURVEY: list[str] = [
    "Start Date",
    "End Date",
    "Response Type",
    "IP Address",
    "Progress",
    "Duration (in seconds)",
    "Finished",
    "Recorded Date",
    "Response ID",
    "Recipient Last Name",
    "Recipient First Name",
    "External Data Reference",
    "Location Latitude",
    "Location Longitude",
    "Distribution Channel",
    "User Language",
    "Recipient Email",
]

In [211]:
# This is a list of headers we want to delete (exluding the ones with _TZ, _RT and _TZ) from the afvar survey
# the headers with _TZ, _RT and _TZ will be removed automatically.
HEADERS_TO_DROP_SEMA_AND_OBSE = [
    "STUDY_ID",
    "STUDY_NAME",
    "STUDY_VERSION",
    "SURVEY_ID",
    "TRIGGER",
    "EXPORT_TZ",
    "START_END",
    "CREATED_TS",
    "SCHEDULED_TS",
    "STARTED_TS",
    "EXPIRED_TS",
    "TOTAL_RT",
    "RAND_PROB",
    "PARTICIPANT_TZ",
]

In [212]:
HEADERS_TO_DROP_FROM_DEMOGRAPHICS: list[str] = [
    "Start Date",
    "End Date",
    "Response Type",
    "IP Address",
    "Progress",
    "Duration (in seconds)",
    "Finished",
    "Recorded Date",
    "Response ID",
    "Recipient Last Name",
    "Recipient First Name",
    "Recipient Email",
    "External Data Reference",
    "Location Latitude",
    "Location Longitude",
    "Distribution Channel",
    "User Language",
    "Beste participant,\r\n\r\nHartelijk dank voor uw deelname aan dit onderzoek.\r\n\r\n\r\n\r\nHet onderzoek\r\n\r\nhet onderzoek bestaat uit twee delen en peilt naar de relatie met uw werk. Deze enquête vormt het eerste deel van het onderzoek. De enquête bevat tien vragen en neemt ongeveer één minuut in beslag. Deze enquête gaat na of u in aanmerking komt voor het tweede deel van het onderzoek betreffende de relatie met uw werk. We vragen uw e-mailadres om u vervolgens een uitnodiging tot de app SEMA3 te sturen. Via deze app zal u het tweede deel van het onderzoek kunnen vervolledigen. \r\n\r\n\r\n\r\nProcedure\r\n\r\nHet onderzoek zelf of het tweede deel betreft een dagboekonderzoek. Hierbij zal u 20 werkdagen lang om 18h een vragenlijst krijgen, waarin u bevraagd zal worden over uw werkdag. Het invullen van deze vragenlijst zal niet langer duren dan 1 minuut. U heeft de tijd tot 24h om deze vragenlijst in te vullen. Participanten die aan 80% of meer meetmomenten deelnamen krijgen een vergoeding voor hun participatie.\r\n\r\n\r\n\r\nWat gebeurt er met mijn gegevens?\r\n\r\nDe verzamelde gegevens worden alleen gebruikt voor wetenschappelijke doeleinden en worden vertrouwelijk behandeld in overeenstemming met de Europese Algemene Verordening Gegevensbescherming (GDPR). Uw deelname is vrijwillig en u kunt op elk moment beslissen om het onderzoek zonder het geven van een reden te beëindigen. Voor meer informatie over uw rechten en de behandeling van de gegevens kunt u contact opnemen met de verantwoordelijke afdeling aan de VUB (dpo@vub.be).\r\n\r\n\r\n\r\nContact\r\n\r\nAls u vragen en/of opmerkingen hebt over dit onderzoek, kunt u ze hieronder meegeven of contact opnemen met Sam de Pape (Sam.De.Pape@vub.be) of Jules Joukes (Jules.Sabine.P.Joukes@vub.be), of met superviserend professor Joeri Hofmans (Joeri.Hofmans@vub.be).",
    "Door deze enquête in te vullen, ga ik akkoord met mijn deelname aan dit onderzoek en met de verwerking van mijn persoonlijke gegevens in overeenstemming met de Europese Algemene Verordening Gegevensbescherming (GDPR) door de onderzoekers van de VUB.",
    "Gaat u volgende maand minstens één week op vakantie? - Selected Choice",
    "Gaat u volgende maand minstens één week op vakantie? - Andere, namelijk: - Text",
]

In [213]:
KEEP = [
    "PARTICIPANT_ID",
]

In [214]:
OBSE_COLUMNS = KEEP + [
    "UPLOADED_TS",
    "ACTIVITEIT",
    "1",
    "2",
    "3",
    "4",
    "5",
    "6",
    "7",
    "8",
    "9",
    "10",
]

In [215]:
SEMA_FINAL_SURVEY_SCHAAL_1_COLUMNS = [
    "WERKOMSTANDIGHEDEN_1",
    "WERKOMSTANDIGHEDEN_2",
    "WERKOMSTANDIGHEDEN_3",
    "WERKOMSTANDIGHEDEN_4",
    "WERKOMSTANDIGHEDEN_5",
    "WERKMETHODE_1",
    "WERKMETHODE_2",
    "WERKMETHODE_3",
    "WERKMETHODE_4",
    "WERKMETHODE_5",
    "COLLEGA'S_1",
    "COLLEGA'S_2",
    "COLLEGA'S_3",
    "COLLEGA'S_4",
    "COLLEGA'S_5",
    "ERKENNING_1",
    "ERKENNING_2",
    "ERKENNING_3",
    "ERKENNING_4",
    "ERKENNING_5",
    "BAAS_1",
    "BAAS_2",
    "BAAS_3",
    "BAAS_4",
    "BAAS_5",
    "VERANTWOORDELIJKHEID_1",
    "VERANTWOORDELIJKHEID_2",
    "VERANTWOORDELIJKHEID_3",
    "VERANTWOORDELIJKHEID_4",
    "VERANTWOORDELIJKHEID_5",
    "SALARIS_1",
    "SALARIS_2",
    "SALARIS_3",
    "SALARIS_4",
    "SALARIS_5",
    "CAPACITEITEN_1",
    "CAPACITEITEN_2",
    "CAPACITEITEN_3",
    "CAPACITEITEN_4",
    "CAPACITEITEN_5",
    "ARBEIDSVERHOUDING_1",
    "ARBEIDSVERHOUDING_2",
    "ARBEIDSVERHOUDING_3",
    "ARBEIDSVERHOUDING_4",
    "ARBEIDSVERHOUDING_5",
    "PROMOTIE_1",
    "PROMOTIE_2",
    "PROMOTIE_3",
    "PROMOTIE_4",
    "PROMOTIE_5",
    "LEIDING_1",
    "LEIDING_2",
    "LEIDING_3",
    "LEIDING_4",
    "LEIDING_5",
    "SUGGESTIES_1",
    "SUGGESTIES_2",
    "SUGGESTIES_3",
    "SUGGESTIES_4",
    "SUGGESTIES_5",
    "WERKUREN_1",
    "WERKUREN_2",
    "WERKUREN_3",
    "WERKUREN_4",
    "WERKUREN_5",
    "VARIATIE_1",
    "VARIATIE_2",
    "VARIATIE_3",
    "VARIATIE_4",
    "VARIATIE_5",
    "WERKZEKERHEID_1",
    "WERKZEKERHEID_2",
    "WERKZEKERHEID_3",
    "WERKZEKERHEID_4",
    "WERKZEKERHEID_5",
    "TOTAAL_1",
    "TOTAAL_2",
    "TOTAAL_3",
    "TOTAAL_4",
    "TOTAAL_5",
]
SEMA_FINAL_SURVEY_SCHAAL_2_COLUMNS = [
    "IDEAAL",
    "OMSTANDIGHEDEN",
    "TEVREDEN",
    "BELANGRIJKE_DINGEN",
    "NIETS_VERANDEREN",
]

SEMA_FINAL_SURVEY_SCHAAL_3_COLUMNS = [
    "GRONDIG",
    "SLORDIGHEDEN",
    "KWALITEITSEISEN",
    "ANDEREN_PRIJZEN",
    "PERSOONLIJKE_PROBLEMEN_COLLEGA'S",
    "BESPREKEN_COLLEGA'S",
    "SFEER_BEVORDEREN",
    "GOED_VOELEN",
    "FAIR_BEHANDELEN",
    "HELPEN_ZONDER_VRAGEN",
    "CREATIEVE_OPLOSSINGEN",
    "VERSCHILLENDE_INVALSHOEKEN",
    "INNOVATIEVE_STRATEGIEËN",
    "ONVERWACHTE_WERKSITUATIES",
    "BEPERKTE_INFORMATIE",
    "VERANDERENDE_OMSTANDIGHEDEN",
    "WERKDRUK",
    "ONVERWACHT_NIEUWS",
    "TEGENVALLEND_RESULTAAT",
]

## Some libraries and definitions (do not change)


In [216]:
from pathlib import Path
import polars as pl

resources = Path("../resources/in/")
out = Path("../resources/out/")

if not resources.parent.exists():
    resources.parent.mkdir()
if not out.exists():
    out.mkdir()
if not resources.exists():
    resources.mkdir()


def write_csv_and_excel(lf, filename):
    try:
        lf.sink_csv(f"{out.as_posix()}/{filename}.csv")
    except Exception as _:
        lf.collect().write_csv(f"{out.as_posix()}/{filename}.csv", )
    lf.collect().write_excel(f"{out.as_posix()}/{filename}.xlsx")

## reading and cleaning the data

In [217]:
final_survey_lf: pl.LazyFrame = pl.scan_csv(
    f"{resources.as_posix()}/final_survey.csv", separator=";"
)
sema_lf: pl.LazyFrame = pl.scan_csv(
    resources.as_posix() + "/" + "data_uit_SEMA3_OBSE_en_laatste_survey.csv"
)
"""demographics_lf: pl.LazyFrame = pl.scan_csv(
    resources.as_posix() + "/" + "demografische_gegevens_eerste_survey.csv"
)"""
keys: pl.LazyFrame = pl.scan_csv(
    f"{resources.as_posix()}/identificatie_key.csv", separator=";"
)


def remove_headers(
    lf: pl.LazyFrame, headers: list[str], del_timed_headers=True
) -> pl.LazyFrame:
    columns: list[str] = lf.columns
    keep = [col for col in columns if col not in headers]
    if del_timed_headers:
        keep = [
            col
            for col in keep
            if not col.endswith("_TZ")
            and not col.endswith("_RT")
            and not col.endswith("_TZ")
        ]
    return lf.select(keep)

In [218]:
"""demographics_lf = remove_headers(
    demographics_lf, HEADERS_TO_DROP_FROM_DEMOGRAPHICS, False
)"""
final_survey_lf = final_survey_lf.filter(pl.col("Finished") == 1).drop("Progress")
sema_en_obse_lf = remove_headers(sema_lf, HEADERS_TO_DROP_SEMA_AND_OBSE)
obse_lf: pl.LazyFrame = sema_en_obse_lf.filter(pl.col("SURVEY_NAME") == "OBSE")
sema_lf: pl.LazyFrame = sema_en_obse_lf.filter(
    pl.col("SURVEY_NAME") == "werktevredenheid/ SWLS/ PRESTATIE"
).select(
    KEEP
    + SEMA_FINAL_SURVEY_SCHAAL_1_COLUMNS
    + SEMA_FINAL_SURVEY_SCHAAL_2_COLUMNS
    + SEMA_FINAL_SURVEY_SCHAAL_3_COLUMNS
)

In [219]:
write_csv_and_excel(
    obse_lf.select(
        ["PARTICIPANT_ID", "UPLOADED_TS"] + [str(i) for i in range(1, 11)]
    ).sort("UPLOADED_TS"),
    "obse_raw_data",
)

In [220]:
obse_lf: pl.LazyFrame = (
    obse_lf.select(OBSE_COLUMNS)
    .filter(pl.col("ACTIVITEIT") == 1)
    .cast({str(integer): pl.UInt8 for integer in range(1, 11)})
    .filter(pl.col("1").is_not_null())
    .filter(pl.col("2").is_not_null())
    .filter(pl.col("3").is_not_null())
    .filter(pl.col("4").is_not_null())
    .filter(pl.col("5").is_not_null())
    .filter(pl.col("6").is_not_null())
    .filter(pl.col("7").is_not_null())
    .filter(pl.col("8").is_not_null())
    .filter(pl.col("9").is_not_null())
    .filter(pl.col("10").is_not_null())
)

In [221]:
write_csv_and_excel(
    obse_lf.drop("ACTIVITEIT").sort("UPLOADED_TS"), "obse_raw_valid_data"
)

In [222]:
sema_lf = (
    sema_lf.filter(pl.col("WERKOMSTANDIGHEDEN_1").is_not_null())
    .filter(pl.col("WERKOMSTANDIGHEDEN_2").is_not_null())
    .filter(pl.col("WERKOMSTANDIGHEDEN_3").is_not_null())
    .filter(pl.col("WERKOMSTANDIGHEDEN_4").is_not_null())
    .filter(pl.col("WERKOMSTANDIGHEDEN_5").is_not_null())
    .filter(pl.col("WERKMETHODE_1").is_not_null())
    .filter(pl.col("WERKMETHODE_2").is_not_null())
    .filter(pl.col("WERKMETHODE_3").is_not_null())
    .filter(pl.col("WERKMETHODE_4").is_not_null())
    .filter(pl.col("WERKMETHODE_5").is_not_null())
    .filter(pl.col("COLLEGA'S_1").is_not_null())
    .filter(pl.col("COLLEGA'S_2").is_not_null())
    .filter(pl.col("COLLEGA'S_3").is_not_null())
    .filter(pl.col("COLLEGA'S_4").is_not_null())
    .filter(pl.col("COLLEGA'S_5").is_not_null())
    .filter(pl.col("ERKENNING_1").is_not_null())
    .filter(pl.col("ERKENNING_2").is_not_null())
    .filter(pl.col("ERKENNING_3").is_not_null())
    .filter(pl.col("ERKENNING_4").is_not_null())
    .filter(pl.col("ERKENNING_5").is_not_null())
    .filter(pl.col("BAAS_1").is_not_null())
    .filter(pl.col("BAAS_2").is_not_null())
    .filter(pl.col("BAAS_3").is_not_null())
    .filter(pl.col("BAAS_4").is_not_null())
    .filter(pl.col("BAAS_5").is_not_null())
    .filter(pl.col("VERANTWOORDELIJKHEID_1").is_not_null())
    .filter(pl.col("VERANTWOORDELIJKHEID_2").is_not_null())
    .filter(pl.col("VERANTWOORDELIJKHEID_3").is_not_null())
    .filter(pl.col("VERANTWOORDELIJKHEID_4").is_not_null())
    .filter(pl.col("VERANTWOORDELIJKHEID_5").is_not_null())
    .filter(pl.col("SALARIS_1").is_not_null())
    .filter(pl.col("SALARIS_2").is_not_null())
    .filter(pl.col("SALARIS_3").is_not_null())
    .filter(pl.col("SALARIS_4").is_not_null())
    .filter(pl.col("SALARIS_5").is_not_null())
    .filter(pl.col("CAPACITEITEN_1").is_not_null())
    .filter(pl.col("CAPACITEITEN_2").is_not_null())
    .filter(pl.col("CAPACITEITEN_3").is_not_null())
    .filter(pl.col("CAPACITEITEN_4").is_not_null())
    .filter(pl.col("CAPACITEITEN_5").is_not_null())
    .filter(pl.col("ARBEIDSVERHOUDING_1").is_not_null())
    .filter(pl.col("ARBEIDSVERHOUDING_2").is_not_null())
    .filter(pl.col("ARBEIDSVERHOUDING_3").is_not_null())
    .filter(pl.col("ARBEIDSVERHOUDING_4").is_not_null())
    .filter(pl.col("ARBEIDSVERHOUDING_5").is_not_null())
    .filter(pl.col("PROMOTIE_1").is_not_null())
    .filter(pl.col("PROMOTIE_2").is_not_null())
    .filter(pl.col("PROMOTIE_3").is_not_null())
    .filter(pl.col("PROMOTIE_4").is_not_null())
    .filter(pl.col("PROMOTIE_5").is_not_null())
    .filter(pl.col("LEIDING_1").is_not_null())
    .filter(pl.col("LEIDING_2").is_not_null())
    .filter(pl.col("LEIDING_3").is_not_null())
    .filter(pl.col("LEIDING_4").is_not_null())
    .filter(pl.col("LEIDING_5").is_not_null())
    .filter(pl.col("SUGGESTIES_1").is_not_null())
    .filter(pl.col("SUGGESTIES_2").is_not_null())
    .filter(pl.col("SUGGESTIES_3").is_not_null())
    .filter(pl.col("SUGGESTIES_4").is_not_null())
    .filter(pl.col("SUGGESTIES_5").is_not_null())
    .filter(pl.col("WERKUREN_1").is_not_null())
    .filter(pl.col("WERKUREN_2").is_not_null())
    .filter(pl.col("WERKUREN_3").is_not_null())
    .filter(pl.col("WERKUREN_4").is_not_null())
    .filter(pl.col("WERKUREN_5").is_not_null())
    .filter(pl.col("VARIATIE_1").is_not_null())
    .filter(pl.col("VARIATIE_2").is_not_null())
    .filter(pl.col("VARIATIE_3").is_not_null())
    .filter(pl.col("VARIATIE_4").is_not_null())
    .filter(pl.col("VARIATIE_5").is_not_null())
    .filter(pl.col("WERKZEKERHEID_1").is_not_null())
    .filter(pl.col("WERKZEKERHEID_2").is_not_null())
    .filter(pl.col("WERKZEKERHEID_3").is_not_null())
    .filter(pl.col("WERKZEKERHEID_4").is_not_null())
    .filter(pl.col("WERKZEKERHEID_5").is_not_null())
    .filter(pl.col("TOTAAL_1").is_not_null())
    .filter(pl.col("TOTAAL_2").is_not_null())
    .filter(pl.col("TOTAAL_3").is_not_null())
    .filter(pl.col("TOTAAL_4").is_not_null())
    .filter(pl.col("TOTAAL_5").is_not_null())
    # Schaal 2
    .filter(pl.col("IDEAAL").is_not_null())
    .filter(pl.col("OMSTANDIGHEDEN").is_not_null())
    .filter(pl.col("TEVREDEN").is_not_null())
    .filter(pl.col("BELANGRIJKE_DINGEN").is_not_null())
    .filter(pl.col("NIETS_VERANDEREN").is_not_null())
    # Schaal 3
    .filter(pl.col("GRONDIG").is_not_null())
    .filter(pl.col("SLORDIGHEDEN").is_not_null())
    .filter(pl.col("KWALITEITSEISEN").is_not_null())
    .filter(pl.col("ANDEREN_PRIJZEN").is_not_null())
    .filter(pl.col("PERSOONLIJKE_PROBLEMEN_COLLEGA'S").is_not_null())
    .filter(pl.col("BESPREKEN_COLLEGA'S").is_not_null())
    .filter(pl.col("SFEER_BEVORDEREN").is_not_null())
    .filter(pl.col("GOED_VOELEN").is_not_null())
    .filter(pl.col("FAIR_BEHANDELEN").is_not_null())
    .filter(pl.col("HELPEN_ZONDER_VRAGEN").is_not_null())
    .filter(pl.col("CREATIEVE_OPLOSSINGEN").is_not_null())
    .filter(pl.col("VERSCHILLENDE_INVALSHOEKEN").is_not_null())
    .filter(pl.col("INNOVATIEVE_STRATEGIEËN").is_not_null())
    .filter(pl.col("ONVERWACHTE_WERKSITUATIES").is_not_null())
    .filter(pl.col("BEPERKTE_INFORMATIE").is_not_null())
    .filter(pl.col("VERANDERENDE_OMSTANDIGHEDEN").is_not_null())
    .filter(pl.col("WERKDRUK").is_not_null())
    .filter(pl.col("ONVERWACHT_NIEUWS").is_not_null())
    .filter(pl.col("TEGENVALLEND_RESULTAAT").is_not_null())
)

In [223]:
valid_obse_participants: list[str] = (
    obse_lf.group_by("PARTICIPANT_ID")
    .len()
    .filter(pl.col("len") >= 5)
    .select("PARTICIPANT_ID")
    .unique()
    .collect()
    .to_dict(as_series=False)["PARTICIPANT_ID"]
)

In [224]:
final_survey_lf: pl.LazyFrame = (
    final_survey_lf.join(keys, left_on="E-MAILADRESSEN", right_on="Email")
    .rename(
        {
            "E-MAILADRESSEN": "EMAIL",
            "Id": "PARTICIPANT_ID",
        }
    )
    .drop(["EMAIL"])
)

In [225]:
valid_sema_participants: list[str] = (
    sema_lf.select("PARTICIPANT_ID")
    .unique()
    .collect()
    .to_dict(as_series=False)["PARTICIPANT_ID"]
)

valid_final_survey_participants: list[str] = (
    final_survey_lf.select("PARTICIPANT_ID")
    .unique()
    .collect()
    .to_dict(as_series=False)["PARTICIPANT_ID"]
)

valid_participants = set.intersection(
    set(valid_obse_participants),
    set(valid_sema_participants + valid_final_survey_participants),
)
print(f"There are {len(valid_participants)} valid participants")

There are 126 valid participants


In [226]:
demographics_lf: pl.LazyFrame = pl.scan_csv(f"{resources.as_posix()}/demographics.csv").rename({"Wat is uw e-mailadres?": "Email"})

In [246]:
demo_peeps = set(
    demographics_lf.select("Email").unique().collect().to_dict(as_series=False)["Email"]
)
key_mails = set(
    keys.filter(pl.col("Id").is_in(valid_participants))
    .collect().to_dict(as_series=False)["Email"]
)
for p in demo_peeps:
    try:
        key_mails.remove(p)
    except:
        continue
print(len(key_mails))

21


In [228]:

demographics_lf: pl.LazyFrame = (
    demographics_lf.join(keys, left_on="Email", right_on="Email")
    .rename({"Id": "PARTICIPANT_ID"})
    .filter(pl.col("PARTICIPANT_ID").is_in(valid_participants))
).sort("PARTICIPANT_ID")
write_csv_and_excel(demographics_lf, "demographics")

In [229]:
expr = pl.col("1")
for i in range(2, 11):
    expr = expr + pl.col(str(i))
obse_lf = (
    obse_lf.filter(pl.col("PARTICIPANT_ID").is_in(valid_participants))
    .with_columns(expr.alias("DAILY_TOTAL"))
    .sort("UPLOADED_TS")
)

In [230]:
import math
from typing import Literal, Union
import statistics


def maximum_variance(
    dataset: list[Union[int, float]], data_min=None, data_max=None
) -> float | Literal[0]:
    if data_max is None:
        data_max: int | float = max(dataset)
    if data_min is None:
        data_min: int | float = min(dataset)
    data_mean: float = statistics.mean(dataset)
    data_len: int = len(dataset)
    if data_mean == data_min or data_mean == data_max:
        return 0
    if abs(data_min) > abs(data_max):
        tmp: int | float = data_min
        data_min = data_max
        data_max = tmp
    n_max: int = math.floor(
        (data_len * data_mean - data_len * data_min) / (data_max - data_min)
    )
    n_min: int = data_len - (1 + n_max)
    if n_max == 0:
        data_max = 0
    middle: float = data_len * data_mean - n_min * data_min - n_max * data_max
    max_var: float = (
        n_min * (data_min - data_mean) ** 2
        + n_max * (data_max - data_mean) ** 2
        + (data_mean - middle) ** 2
    ) / (data_len - 1)
    return max_var


def relative_variance(dataset: list[Union[int, float]]) -> float | Literal[0]:
    variance: float = statistics.variance(dataset)
    max_variance: float | Literal[0] = maximum_variance(dataset, 10, 70)
    if max_variance == 0:
        return 0
    else:
        return variance / max_variance

In [231]:
print(relative_variance([20 for _ in range(4)] + [21 for _ in range(3)] + [22]))

0.0011665098777046095


In [232]:
obse_participant_mean = obse_lf.group_by("PARTICIPANT_ID").agg(
    [
        pl.col("DAILY_TOTAL").mean().alias("MEAN_OF_DAILY_TOTAL"),
        (pl.col("DAILY_TOTAL").map_elements(relative_variance, return_dtype=pl.Float64).alias("RELATIVE_VARIANCE")),
    ]
)

In [233]:
obse_participant_mean.collect().head(500)

PARTICIPANT_ID,MEAN_OF_DAILY_TOTAL,RELATIVE_VARIANCE
str,f64,f64
"""s534899668""",34.9,0.004698
"""s002119724""",10.0,0.0
"""s050384959""",33.263158,0.009329
"""s902720224""",15.5,0.210153
"""s258623974""",15.1875,0.107731
…,…,…
"""s591296924""",30.333333,0.059819
"""s362909936""",13.727273,0.053778
"""s645814809""",11.153846,0.634074
"""s871679285""",23.307692,0.17034


In [234]:
sema_lf = sema_lf.filter(pl.col("PARTICIPANT_ID").is_in(valid_participants))
final_survey_lf = final_survey_lf.filter(
    pl.col("PARTICIPANT_ID").is_in(valid_participants)
)

In [235]:
schaal1_lf = sema_lf.select(KEEP + SEMA_FINAL_SURVEY_SCHAAL_1_COLUMNS)
schaal2_lf = sema_lf.select(KEEP + SEMA_FINAL_SURVEY_SCHAAL_2_COLUMNS)
schaal3_lf = sema_lf.select(KEEP + SEMA_FINAL_SURVEY_SCHAAL_3_COLUMNS)

In [236]:
# Compute the weighted sum
def compute_weighted_sum(lf):
    cols = []
    for i in SEMA_FINAL_SURVEY_SCHAAL_1_COLUMNS:
        string = i.split("_")[0]
        if string not in cols:
            cols.append(string)
    for i in cols:
        lf = lf.with_columns(
            (
                pl.col(f"{i}_1")
                + pl.col(f"{i}_2") * 2
                + pl.col(f"{i}_3") * 3
                + pl.col(f"{i}_4") * 4
                + pl.col(f"{i}_5") * 5
            ).alias(i)
        )
    return lf, cols

In [237]:
def compute_mean(lf, from_index, mean_name="MEAN"):
    mean_expr = pl.col(lf.columns[from_index])
    for column in lf.columns[from_index + 1 :]:
        mean_expr += pl.col(column)
    return lf.with_columns(mean_expr.alias(mean_name))

In [238]:
schaal1_lf, cols = compute_weighted_sum(schaal1_lf)
schaal1_lf = schaal1_lf.drop(SEMA_FINAL_SURVEY_SCHAAL_1_COLUMNS)

In [239]:
final_survey_schaal1_lf = final_survey_lf.select(KEEP + cols)

In [240]:
for col in cols:
    final_survey_schaal1_lf = final_survey_schaal1_lf.with_columns(
        (6 - pl.col(col)).alias(col)
    )

In [241]:
schaal1_lf = pl.concat([schaal1_lf, final_survey_schaal1_lf])
schaal1_lf = compute_mean(schaal1_lf, 1, "SCALE_1_TOTAL")

In [242]:
schaal2_lf = pl.concat(
    [schaal2_lf, final_survey_lf.select(KEEP + SEMA_FINAL_SURVEY_SCHAAL_2_COLUMNS)]
)
schaal2_lf = compute_mean(schaal2_lf, 1, "SCALE_2_TOTAL").drop(
    SEMA_FINAL_SURVEY_SCHAAL_2_COLUMNS
)

In [243]:
schaal3_lf = pl.concat(
    [schaal3_lf, final_survey_lf.select(KEEP + SEMA_FINAL_SURVEY_SCHAAL_3_COLUMNS)]
)
schaal3_lf = compute_mean(schaal3_lf, 1, "SCALE_3_TOTAL")

In [244]:
results_lf = (
    obse_participant_mean.join(schaal1_lf, on="PARTICIPANT_ID")
    .join(schaal2_lf, on="PARTICIPANT_ID")
    .join(schaal3_lf, on="PARTICIPANT_ID")
)

In [245]:
write_csv_and_excel(results_lf, "results")