In [48]:

import sys
sys.path.append('C:/Users/LUCP12511/Documents/PhD Kato/ISALA/Repos/BIU-master') # Modify this to where you have downloaded the BIU library
#import biu
import numpy as np
import pandas as pd
import matplotlib.pylab as plt
plt.rcParams['svg.fonttype'] = 'none'

import seaborn as sns
import scipy

# install rdmpy with pip install git+https://github.com/thiesgehrmann/rdmpy
#from rdmpy import RDM
#RDM.meta(source="repos/LunaQuestionnaire/clean.ipynb")

# Cleaned questions overview table

|Question Number|Question identifier|Clean question identifier|
|---------------|-------------------|-------------------------|
|   |   | Reproductive.Cycle.Phase|
|Q1.Q52.2.|Heeft dit te maken met één van de onderstaande mogelijkheden? - Selected Choice|Reproductive.PeriMenopause|
|Q1.Q4.|Mijn partner(s) is/zijn...|Lifestyle.Partner.Is|
| |uitgedragen|Reproductive.Pregnancy|
|Q1.Q21.|Rook je? Geef ook op hoeveel sigaretten je per dag rook(te) - Selected Choice|Lifestyle.Drugs.Current_smoker|
|Q1.Q22.|Gebruik je drugs (exclusief alcohol)? Gelieve ook aan te geven welke. Deze informatie wordt pseudoniem verwerkt. Wij hebben het grootste respect voor jou en voor je privacy. - Selected Choice|Lifestyle.Drugs.Current_druguser|
|Q1.Q49.|Heb je ooit actief geprobeerd om zwanger te worden?|Reproductive.Pregnancy.Attempted|
|Q2.Q24.|Geef je op dit moment borstvoeding?|Reproductive.Breastfeeding|
|Q1.Q29_4.|Hoe regelmatig heb je de onderstaande zaken gegeten of gedronken in de afgelopen 3 maanden? - Vlees|Nutrition.EatsMeat|
|Q1.Q29_6.|Hoe regelmatig heb je de onderstaande zaken gegeten of gedronken in de afgelopen 3 maanden? - Vis|Nutrition.EatsFish|
|Q1.Q29_5.|Hoe regelmatig heb je de onderstaande zaken gegeten of gedronken in de afgelopen 3 maanden? - Dierlijke producten (eieren, kaas, gelatine,...)|Nutrition.EatsAnimals|
| | |Nutrition.Vgetarian|
| | |Nutrition.Pescetarian|
| | |Nutrition.Vegan|
|Q1.Q15.|Hoe zou je het gebied waar je nu woont omschrijven?|Environment.Urban|
|Q1.Q15.|Hoe zou je het gebied waar je nu woont omschrijven?|Environment.Coutryside|
|Q1.Q9.|In welk(e) land(en) heb je gewoond tot en met je derde levensjaar? Indien dit enkel België is, mag je het ook opgeven.|Environment.Belgium.First3Years|
|Q1.Q47.|Heb je de afgelopen drie maanden één of meerdere seksuele\npartner(s) gehad? - Selected Choice|Lifestyle.Partner.OneVsSingle|
|Q1.Q47.|Heb je de afgelopen drie maanden één of meerdere seksuele\npartner(s) gehad? - Selected Choice|Lifestyle.Partner.OneVsMany|
|Q2.Q7.|Hoe groot is je aandeel aan het gezinsinkomen?|Environment.Economic.HouseholdContribution|
|Q2.Q4.|Kan je maandelijks rondkomen met de som van totaal beschikbaar gezinsinkomen (alles inbegrepen*)?|Environment.Economic.FinancialDifficulties|
|Q1.Q50.|Hoeveel keer was je al zwanger?|Reproductive.Pregnancy.n|
|Q1.Q1.|Geslacht - Selected Choice|General.Gender|
|Q1.Q2_1.|Enkele algemene vragen over jou: - Leeftijd (jaar)|General.Age|
|Q1.Q2_2.|Enkele algemene vragen over jou: - Lengte (cm)|General.Height|
|Q1.Q2_3.|Enkele algemene vragen over jou: - Gewicht (kg)|General.Weight|
| | |General.BMI



# Functions

In [49]:
def freq(lst, key=lambda x: x):
    """
    Count the number of occurances in a list.
    Input:
        lst: an iterable list
        key: a callable function that is called upon the value, the return value of which is counted
    
    Output: Dictionary with count of each item
    """
    F = {}
    for item in lst:
        if pd.isna(item):
            item = None
        #fi
        F[key(item)] = F.get(key(item), 0) + 1
    #efor
    return F


def qerf(lst, key=lambda x: x):
    """
    Return the frequency of objects in a list, indexed by their frequency, rather than by the item itself.
    parameters:
    -----------
    lst: list[obj]
        List of hashable objects
    key: callable(obj)
        A function which will be called upon the objects in the list
        
    example:
    qerf([1,2,3,3,4,4,4])
     { 1: [1,2],
       2: [3],
       3: [4]
       }
    """
    f = freq(lst, key)
    q = { }
    for (i,c) in f.items():
        q[c] = q.get(c,[]) + [i]
    #efor
    return q

# Load the Isala Flow 1 questionnaire data

In [50]:
#with RDM('../data/processed/merged_questionnaires.pkl', 'r', nouser=True) as ifd:
#    Qraw = pd.read_pickle(ifd)
#ewith
Qraw = pd.read_pickle("../data/processed/merged_questionnaires.rdm_thies_2024-08-09T11-49-27-140516.pkl")
    
#Qraw = pd.read_excel('../data/processed/merged_from_sharepoint_flow1_all_questionnaires.20231031.xlsx')

## Search for questions
Type in words that are part of a question in order to get back the names of matching columns

In [51]:
from ipywidgets import interact, interactive, fixed, interact_manual
## Interactive questionnaire search
def search_questionnaire(query):
    if len(query) < 2:
        return None
    #fi
    return Qraw[[ x for x in Qraw.columns if query.lower() in x.lower() ]].transpose()
#edef

_ = interact(search_questionnaire, query='')

interactive(children=(Text(value='', description='query'), Output()), _dom_classes=('widget-interact',))

## Prepare the cleaned dataframe

In [52]:
QC = Qraw[['Q0.Deelnemersnummer']].rename(columns={'Q0.Deelnemersnummer':'IsalaID'}).copy()

# Clean questions

## General

### Gender

In [54]:
#Sex
def clean_gender(val):
    if pd.isna(val):
        return None
    elif 'Vrouw' in val:
        return 'Vrouw'
    elif 'Anders' in val:
        return 'Other'
    else:
        return None
    #fi
#edef
QC['General.Gender'] = Qraw["Q1.Q1.[Geslacht - Selected Choice]"].apply(clean_gender)

### Age

In [55]:
#Age
def clean_age(x): 
    if pd.isna(x):
        return None
    elif str(x).isnumeric():
        if x <= 200:
            return int(x)
        elif x > 200:
            return int(2020 - x)
        #fi
    else:
        return None
    #fi
#edef
QC['General.Age'] = Qraw["Q1.Q2_1.[Enkele algemene vragen over jou: - Leeftijd (jaar)]"].apply(clean_age)

### Height

In [56]:
#Height
def clean_height(x): 
    if pd.isna(x):
        return None
    elif str(x).isnumeric():
        if x > 3:
            return int(x)
        elif x <= 3:
            return int(x * 100)
        #fi
    else:
        return None
    #fi
#edef
QC['General.Height'] = Qraw["Q1.Q2_2.[Enkele algemene vragen over jou: - Lengte (cm)]"].apply(clean_height)

### Weight

In [57]:
#Weight

def clean_weight(val):
    if pd.isna(val):
        return None
    elif str(val).isnumeric():
        return float(val)
    else:
        return None
    #fi
#edef

QC['General.Weight'] = Qraw['Q1.Q2_3.[Enkele algemene vragen over jou: - Gewicht (kg)]'].apply(clean_weight)

### Education

In [58]:
map_main = {            #dictionnary for question Q1.Q18
'Postuniversitair: doctor': 'PhD',
 'Hogeschool: bachelor': 'College',
 'Universiteit: bachelor/master (kandidaat/licenciaat)': 'University',
 'Secundair onderwijs: KSO': 'Secondary education',
 'Secundair onderwijs: ASO': 'Secondary education',
 'Secundair onderwijs: BSO': 'Secondary education',
 'Secundair onderwijs: TSO': 'Secondary education',
 'Lagere school': 'Primary education',
 'Geen': 'No',
 '': None  
}

map_other = {  #If still studying: refers to highest completed degree
 'Hogeschool master': 'College',
 'Hogeschool - postgraduaat': 'College',
 'Master beeldende kunsten aan een hogeschool': 'College',
 'Hogeschool postgraduaat na bachelor': 'College',
 'professionele bachelor dans': 'College',
 'Hogeschool: master': 'College',
 'Dit is niet relevant ': None,
 'Hogeschool: bachelor -&gt; maar ik studeer nog verder voor een master': 'College',
 'International Baccalaureate (pre-universitair diploma, ongeveer gelijk aan ASO) ': 'Seconday education',
 '4de jaar kso': 'Primary education',
 'Hogeschool: lange type': 'College',
 'Specialisatiejaar hogeschool': 'College',
 'Hbo 5 verpleegkunde': 'College',
 'graduaat HBO5': 'College',
 'Graduaat (volwassenonderwijs)': 'College',
 'Bezig met universitaire opleiding, dus voorlopig alleen diploma van ASO secundair onderwijs': 'Seconday education',
 'Hoger beroepsonderwijs': 'College',
 'zorgkundige': 'Seconday education',
 'Hb05 verpleging ': 'College',
 'Hogeschool: Master': 'College',
 'Hbo-opleiding ': 'College',
 'Bachelor na bachelor': 'College',
 'HBO5': 'College',
 'deeltijds onderwijs': 'Secondary education',
 'MBO4': 'Seconday education',
 'bachelor na bachelor': 'College',
 'Hbo5': 'College',
 'Banaba': 'College',
 'Banaba Onco': 'College',
 'Manama': 'University',
 'Nog studerend: TSO middelbaar': 'Primary education',
 'Hbo': 'College',
 'Laatstejaars bachelor': 'Seconday education',
 'Hoger onderwijs kort type': 'College',
 'Technisch administratief': 'College', 
 'Hoger middelbaar kantoor/handel': "Secondary education",
 'Student op Universiteit Antwerpen (2de Bachelor momenteel) ': "Secondary education",
 'hogeschool: master': 'College',
 'HBO5 hoger beroepsonderwijs verpleegkunde ': 'College',
 'Gebrevetteerd verpleegkundige A2': 'College',
 'Hbo propedeuse ': "Secondary education",
 'MBO (middelbaar beroepsonderwijs = nederland niveau)': "Secondary education",
 'Momenteel bezig met Biomedische wetenschappen aan de universiteit Antwerpen, 2e bachelor': "Secondary education",
 'laatste jaar master momenteel': "University",
 'Hogeschool: bachelor - momenteel studeer ik voor mijn master (afstudeerjaar 2021)': 'College',
 'postgraduaat na master': "University",
 'Vwo diploma Nederland, bezig met hogeschool belgie': "Seconday education",
 'A2 verpleging': 'College',
 'Master na master': "University",
 'Graduaat': 'College',
 'Hbo5 verpleegkunde': 'College',
 'Hogeschool: lange type (master)': 'College',
 'verdergezet secundair ': "Secondary education",
 'Deeltijds kunstonderwijs': None,
 '4 jaar handel gestopt op 16 jaar': 'Primary education',
 'Mavo': 'Secondary education',
 'Volwassenenonderwijs ': 'College',
 'BanaBa en een postgraduaat opleiding UGent': 'College',
 'volwassenonderwijs syntra ': 'College',
 'HBOV verpleegkunde': 'College',
 'hogeschool beroepsopleiding': 'College',
 'Nog steeds student in een masteropleiding ': 'University',
 'Hogeschool: graduaat': 'College',
 'Master na Master ': 'University',
 '2 masters (universiteit)': 'University',
 'Hoger beroeps onderwijs; gegradueerde ': 'College',
 'Secundair na secundair (Se-n-Se)': 'Secunday education',
 'Bezig met bachelor opleiding vroedkunde': 'Secondary education',
 'BanaBa': 'College',
 'zit in mijn 1ste jaar bachelor aan de hogeschool ': 'Secondary education',
 'bezig ad hbo5 opleiding': 'Secondary education',
 'getuigschrift 6e middelbaar BSO': 'Secundary education',
 'Se-n-Se': 'Secundary education',
 'Ga nog naar school': None,
 'graduaat ': 'College',
 'Hogeschool ': 'College',
 'HBO verpleegkunde': 'College',
 'Havo': 'College',
 '2 de graad secundair tso': 'Primary education',
 'leercontract': None,
 'Secundair onderwijs door volwassenenonderwijs + certificaat webdesigner': 'Secundary education',
 'VWO': 'Secondary education',
 'BSO + 7e specialisatie=A2': 'Secondary education',
 'Diploma SLO opleiding ': 'College',
 'Ma na Ma': 'University',
 '7de jaar zorgkundige ': 'Secondary education',
 'Hbo5 ': 'College',
 'Mbo': 'Secondary education',
 'Volwassenonderwijs lerarendiploma ': 'College',
 'Graduaat ': 'College',
 'Hoger beroeps onderswijs': 'College',
 'Avondschool': None,
 'master na master': 'University',
 'Specialisatie 7e jaar na 6 jaar TSO': 'Secondary education',
 'Getuigschrift ': None,
 'Volwassenonderwijs ': None,
 'Hoger onderwijs van het korte type voor sociale promotie (hoktsp) Hoger onderwijs voor ': 'College',
 'HBO master': 'College',
 'Hoger beroeps onderwijs a2 verpleegkundige ': 'Seconday education',
 'Hoger onderwijs: Graduaat': 'College',
 'Hogeschoolcertificaat': 'College',
 'A2 verpleging ': 'Secondary education',
 'Hogeschool: bachelor & bachelor-na-bachelor': 'College',
 'MBO 4 Nederlands onderwijs': 'Secondary education',
 'HBO5 + SLO': 'College',
 'Volwassenonderwijs bedrijfsbeheer ': None,
 'MBO niv. 4': 'Secondary education',
 'Slo opleiding ': 'College',
 'graduaat': 'College',
 'Avondonderwijs': None,
 'postgraduaat': 'College',
 'Secundair diploma Amerika': 'Secondary education',
 'professionele master': 'College',
 'ManaMa': 'University',
 'Nederlandse opleiding MBO 4 juridisch medewerker ': 'College',
 'Master + banaba + postgraduaat': 'College',
 'Master-na-master (business school)': 'University',
 'Middelbare school kader Vmbo (Nederland)': 'Secondary education',
 'HBO graduaat verzekeringen + PCP statuut behaald via Febelfin (Overheid)': 'College',
 'Mbo 3': 'Secondary education',
 'Middelbaar beroeps onderwijs': 'Secondary education',
 'mbo': 'Secundary education',
 'Graduaat (HBO5)': 'College',
 'Hoger secundair, HBO5 verpleegkunde': 'College',
 'attest BUSO': 'Secondary education',
 'SNIT EN NAAD': 'Secondary education',
 'Bachelor,  korte type ': 'College',
 'Post-Graduaat': 'College',
 'GPB: lerarenopleiding ': 'College'
}

def c(row):
    main = row['Q1.Q18.[Wat is het hoogste diploma dat je behaalde? - Selected Choice]']
    other = row['Q1.Q18_9_TEXT.[Wat is het hoogste diploma dat je behaalde? - Andere - Tekst]']

    return map_main.get(main, map_other.get(other, None))

#edef

QC['General.Highest.Education'] = Qraw.apply(c, axis=1)

## Health

### BMI

In [60]:
#BMI

QC['Health.BMI'] = QC['General.Weight']/((QC['General.Height']/100)**2)

### General health

In [61]:
freq(Qraw['Q1.Q34.[Hoe beoordeel je je algemene\ngezondheidstoestand?]'])

{None: 1325,
 'Goed': 2811,
 'Redelijk': 638,
 'Zeer goed': 1171,
 'Slecht': 60,
 'Zeer slecht': 1,
 '': 1}

In [62]:
#Binary variable
def clean_generalhealth(val):
    if pd.isna(val) or val == '':
        return None
    else :
        return val in ['Goed', 'Zeer goed']
    #fi
#edef


QC['Health.General.Q1.Good'] = Qraw['Q1.Q34.[Hoe beoordeel je je algemene\ngezondheidstoestand?]'].apply(clean_generalhealth)


In [63]:
#Dummy variables

##Zeer goed
def clean_generalhealth_zeergoed(val):
    if pd.isna(val) or val == '':
        return None
    else :
        return val == 'Zeer goed'
    #fi
#edef
QC['Health.General.Q1.VeryGood'] = Qraw['Q1.Q34.[Hoe beoordeel je je algemene\ngezondheidstoestand?]'].apply(clean_generalhealth_zeergoed)

##Goed
def clean_generalhealth_goed(val):
    if pd.isna(val) or val == '':
        return None
    else :
        return val == 'Goed'
    #fi
#edef
QC['Health.General.Q1.Good'] = Qraw['Q1.Q34.[Hoe beoordeel je je algemene\ngezondheidstoestand?]'].apply(clean_generalhealth_goed)

##Redelijk
def clean_generalhealth_redelijk(val):
    if pd.isna(val) or val == '':
        return None
    else :
        return val == 'Redelijk'
    #fi
#edef
QC['Health.General.Q1.Acceptable'] = Qraw['Q1.Q34.[Hoe beoordeel je je algemene\ngezondheidstoestand?]'].apply(clean_generalhealth_redelijk)

##Slecht/zeer slecht
def clean_generalhealth_slecht(val):
    if pd.isna(val) or val == '':
        return None
    else :
        return val == 'Slecht' or val == 'Zeer slecht'
    #fi
#edef
QC['Health.General.Q1.Bad'] = Qraw['Q1.Q34.[Hoe beoordeel je je algemene\ngezondheidstoestand?]'].apply(clean_generalhealth_slecht)


### Excessive sweating


In [64]:
def clean_sweating(val):
    if pd.isna(val) or val == '':
        return None
    else :
        return val == 'Ja'
    #fi
#edef

QC['Health.Sweating.Excessive'] = Qraw['Q1.Q68.[Heb jij last van overmatig zweten?]'].apply(clean_sweating)

### Medication

In [80]:
possible_meds = {
    "Birthcontrol pill" : ["Anticonceptie", "Anticonceptiepil"],
    "ibuprofen" : ['ibbuprofen', "Ibuprofen", "Neurofen"],
    "HRT" : ['Oestradiol gel', 'Oestrogel', 'oestrogel', 'Progebel', 'Progynova']
}

def flatten(lst, dropna=False):
    return [ v for l in lst for v in l if not (dropna & pd.isna(v)) ]
#edef

rel_cols = [ c for c in Qraw.columns if ('Q1.Q42' in c) and ('Naam' in c) ]

sorted(list(freq([ v.strip() for v in flatten(Qraw[rel_cols].values, True) if v != '']).items()), key=lambda x:x[0])

def _clean_meds(row, values):
    row_values = set([ v.strip() for v in row[rel_cols] if not pd.isna(v) ])

    return len(row_values & values) > 0
#edef

for med in possible_meds:
    QC["Health.medication.%s" % med] = Qraw[rel_cols].apply(lambda row:_clean_meds(row, set(possible_meds["HRT"])), axis = 1)
#efor

## Sexual

### Intercourse 3 months

In [76]:
# Penis
QC['Sexual.Penetration.Penis.3months'] = Qraw['Q1.Q47.2_4.[Welke seksuele handelingen heb je ontvangen in de afgelopen drie maanden? (meerdere antwoorden mogelijk) - Selected Choice - Vaginale penetratie met penis]'].apply(
    lambda x: None if pd.isna(x) else x not in [''])
# Fingers
QC['Sexual.Penetration.Fingers.3months'] = Qraw['Q1.Q47.2_3.[Welke seksuele handelingen heb je ontvangen in de afgelopen drie maanden? (meerdere antwoorden mogelijk) - Selected Choice - Vaginale penetratie met vingers]'].apply(
    lambda x: None if pd.isna(x) else x not in [''])
# Toy
QC['Sexual.Penetration.Toy.3months'] = Qraw['Q1.Q47.2_5.[Welke seksuele handelingen heb je ontvangen in de afgelopen drie maanden? (meerdere antwoorden mogelijk) - Selected Choice - Vaginale penetratie met speeltjes]'].apply(
    lambda x: None if pd.isna(x) else x not in [''])
# Other
QC['Sexual.Penetration.Other.3months'] = Qraw['Q1.Q47.2_6.[Welke seksuele handelingen heb je ontvangen in de afgelopen drie maanden? (meerdere antwoorden mogelijk) - Selected Choice - Vaginale penetratie met andere:]'].apply(
    lambda x: None if pd.isna(x) else x not in [''])

# Penetration general
QC['Sexual.Penetration.3months'] = QC.apply(
    lambda x: None if any(pd.isna(x[['Sexual.Penetration.Penis.3months','Sexual.Penetration.Fingers.3months', 'Sexual.Penetration.Toy.3months', 'Sexual.Penetration.Other.3months']])) else not(x['Sexual.Penetration.Penis.3months'] or x['Sexual.Penetration.Fingers.3months'] or x['Sexual.Penetration.Toy.3months'] or x['Sexual.Penetration.Other.3months']), axis=1)


### Intercourse 24h

In [78]:
# Penis
QC['Sexual.Penetration.Penis.24h'] = Qraw['Q2.Q23_4.[Heb je de afgelopen 24 uur de volgende seksuele handelingen ontvangen of bij jezelf uitgevoerd (masturbatie)? (Meerdere antwoorden mogelijk) - Selected Choice - Vaginale penetratie met penis]'].apply(
    lambda x: None if pd.isna(x) else x not in [''])
# Fingers
QC['Sexual.Penetration.Fingers.24h'] = Qraw['Q2.Q23_3.[Heb je de afgelopen 24 uur de volgende seksuele handelingen ontvangen of bij jezelf uitgevoerd (masturbatie)? (Meerdere antwoorden mogelijk) - Selected Choice - Vaginale penetratie met vingers]'].apply(
    lambda x: None if pd.isna(x) else x not in [''])
# Toy
QC['Sexual.Penetration.Toy.24h'] = Qraw['Q2.Q23_5.[Heb je de afgelopen 24 uur de volgende seksuele handelingen ontvangen of bij jezelf uitgevoerd (masturbatie)? (Meerdere antwoorden mogelijk) - Selected Choice - Vaginale penetratie met speeltjes]'].apply(
    lambda x: None if pd.isna(x) else x not in [''])
# Other had one real answer, rest were none or swab so left it out

# Penetration general
QC['Sexual.Penetration.24h'] = QC.apply(
    lambda x: None if any(pd.isna(x[['Sexual.Penetration.Penis.24h','Sexual.Penetration.Fingers.24h', 'Sexual.Penetration.Toy.24h']])) else not(x['Sexual.Penetration.Penis.24h'] or x['Sexual.Penetration.Fingers.24h'] or x['Sexual.Penetration.Toy.24h']), axis=1)


## Reproductive

### Menstrual cycle

In [93]:
def determine_phases(row):
    """
    returns
     string
    """
    cycle_disrupted = row['Q1.Q52.3.[Hoeveel dagen zijn er gemiddeld tussen de eerste dag van je menstruatie\nen de eerste dag van je volgende? Je hoeft enkel het aantal dagen in te vullen indien je geen hormonale anticonceptie gebruikt die je cyclus kan beïnvloeden. - Selected Choice]'] == "Ik gebruik hormonale anticonceptie of een andere hormonale behandeling die mijn menstruele cyclus kan beïnvloeden"
    cycle_days     = row['Q1.Q52.3_4_TEXT.[Hoeveel dagen zijn er gemiddeld tussen de eerste dag van je menstruatie\nen de eerste dag van je volgende? Je hoeft enkel het aantal dagen in te vullen indien je geen hormonale anticonceptie gebruikt die je cyclus kan beïnvloeden. - Ik gebruik geen hormonale anticonceptie of een andere hormonale behandeling die mijn menstruele cyclus kan beïnvloeden - Tekst]']
    current_day    = row['A.day_of_cycle']
    
    if cycle_disrupted:
        return 'not_applicable'
    #fi
    
    if isinstance(cycle_days, str):
        return "unknown"
    #fi
    
    if pd.isna(cycle_days):
        cycle_days = 28
    #fi
    if pd.isna(current_day):
        return 'unknown'
    #fi
    
    if (cycle_days < 21) or (cycle_days > 35):
        return 'unknown'
    #fi
    
    if cycle_days <= 24:
        ovulation = cycle_days - 12
    elif cycle_days <= 31:
        ovulation = cycle_days - 14
    else:
        ovulation = cycle_days - 16
    #fi
    
    if current_day <= (ovulation-6):
        return 'Follicular'
    elif current_day <= (ovulation+2):
        return 'Ovulation'
    else:
        return 'Luteal'
    #fi
    
    return 'unknown'
#edef

phase = Qraw.apply(determine_phases, axis=1)



col_values = ['Luteal', 'Ovulation', 'Follicular']
for cv in col_values:
    QC['Reproductive.Cycle.Phase.%s' % cv] = phase.apply(lambda x: True if x == cv else None if x not in col_values else False)
#efor




### Perimenopause

In [94]:
QC['Reproductive.PeriMenopause'] = Qraw['Q1.Q52.2.[Heeft dit te maken met één van de onderstaande mogelijkheden? - Selected Choice]'].apply(lambda x: str(x).lower() in ['c','d'])


### Miscarriages, abortion, pretermbirth

In [95]:
_rel = Qraw[[c for c in Qraw if 'uitgedragen' in c]]

for rtype, rvalues in {'Miscarriage': ['Nee afgebroken, miskraam met medicatie', 'Nee afgebroken, spontane miskraam', 'Nee afgebroken, curettage miskraam'],
                      'PretermBirth': ['Nee, vroeggeboorte'],
                      'Abortion': ['Nee afgebroken, abortus']}.items():
    QC['Reproductive.Pregnancy.%s' % rtype] = _rel.applymap(lambda x: x in rvalues).any(axis=1)
#efor

  QC['Reproductive.Pregnancy.%s' % rtype] = _rel.applymap(lambda x: x in rvalues).any(axis=1)
  QC['Reproductive.Pregnancy.%s' % rtype] = _rel.applymap(lambda x: x in rvalues).any(axis=1)
  QC['Reproductive.Pregnancy.%s' % rtype] = _rel.applymap(lambda x: x in rvalues).any(axis=1)


### Pregnancy attempted

In [96]:
QC['Reproductive.Pregnancy.Attempted'] = Qraw['Q1.Q49.[Heb je ooit actief geprobeerd om zwanger te worden?]'].apply(
    lambda x: None if pd.isna(x) else x == 'Ja')

### Breastfeeding

In [97]:

QC['Reproductive.Breastfeeding'] = Qraw['Q2.Q24.[Geef je op dit moment borstvoeding?]'].apply(
    lambda x: None if pd.isna(x) else x == 'Ja')

### Number of biological children

In [99]:

def clean_nchildbio(val):
    if pd.isna(val):
        return None
    elif val == '':
        return 0
    elif str(val).isnumeric():
        return int(val)
    else:
        return None
    #fi
#edef

QC['Reproductive.Children.n.biological'] = Qraw["Q1.Q6_1_TEXT.[Heb je kinderen? (Meerdere antwoorden mogelijk) - Biologische kinderen: hoeveel? - Tekst]"].apply(clean_nchildbio)

### Number of pregnancies

In [100]:
def clean_npreg(val):
    if pd.isna(val):
        return None
    elif str(val).isnumeric():
        return int(val)
    else:
        return None
    #fi
#edef

QC['Reproductive.Pregnancy.n'] = Qraw["Q1.Q50.[Hoeveel keer was je al zwanger?]"].apply(clean_npreg)

### Early menopause

In [101]:

def clean_earlymenopause(val):
    if pd.isna(val):
        return None
    else:
        return 'menopauze' in val
    #fi
#edef

QC['Reproductive.PeriMenopause.Early'] = Qraw['Q1.Q37_9_TEXT.[Heb je één van onderstaande aandoeningen? (Graag de aandoening\nvermelden) (meerdere antwoorden mogelijk) - Voortplantingsstelsel, vb. endometriose - Tekst]'].apply(clean_earlymenopause)

### Date and time since last menstruation

In [111]:
import datetime

# Date of sample: 'A.Sample date'

def clean_datelastcycle (row):
    if pd.isna(row):
        return None
    elif 'De eerste dag van' in row['Q2.Q28.[Wanneer was de eerste dag van je laatste menstruatie? - Selected Choice]']:
        return date = row["Q2.Q28_7_TEXT.[Wanneer was de eerste dag van je laatste menstruatie? - De eerste dag van mijn laatste menstruatie was (dd/mm/jjjj): - tekst]"]        
    else:
        return None
    #fi
#edef
    
QC['Reproductive.Date.Last.Menstruation'] = Qraw.apply(clean_datelastcycle, axis=1)

SyntaxError: invalid syntax (1044673944.py, line 9)

In [None]:
def c(row):
    main = row['Q1.Q18.[Wat is het hoogste diploma dat je behaalde? - Selected Choice]']
    other = row['Q1.Q18_9_TEXT.[Wat is het hoogste diploma dat je behaalde? - Andere - Tekst]']

    return map_main.get(main, map_other.get(other, None))

#edef

QC['General.Highest.Education'] = Qraw.apply(c, axis=1)

date = datetime.datetime.strptime("07/09/2024", "%d/%m/%Y")
(date - date).days

In [109]:
freq(Qraw['Q2.Q28_7_TEXT.[Wanneer was de eerste dag van je laatste menstruatie? - De eerste dag van mijn laatste menstruatie was (dd/mm/jjjj): - tekst]'])

probeersle = 'De eerste dag van'
tekst = "De eerste dag van mijn laatste menstruatie was (dd/mm/jjjj):"

probeersle in tekst

True

### Hormonal contraception

In [233]:
freq(Qraw['Q1.Q51_2.[Welke middelden heb je in de afgelopen drie maanden gebruikt om niet\nzwanger te worden? Gelieve ook het merk te geven. (Meerdere antwoorden mogelijk) - Selected Choice - Minipil:]'])
freq(Qraw['Q1.Q51.1.[Gebruik je op dit moment een andere methode of merk? - Selected Choice]'])

{None: 1325,
 'Nee, ik gebruik nog steeds dezelfde methode': 3221,
 'Hormoonspiraal (bv. Mirena):': 94,
 'Ik gebruik geen anticonceptie meer': 219,
 '': 917,
 'Anticonceptiepil:': 73,
 'Minipil:': 11,
 'Condoom:': 64,
 'Coitus interruptus (= penis terugtrekken voor zaadlozing)': 10,
 'Anticonceptiering (bv. Nuvaring):': 24,
 'Andere:': 27,
 'Periodieke onthouding (= niet vrijen in vruchtbare periode)': 6,
 'Koperspiraal:': 10,
 'Anticonceptiepleister (bv. Evra):': 2,
 'Prikpil:': 3,
 'Hormonaal implantaat (bv. Implanon):': 1}

## Life style

In [243]:
## rel_cols = [ c for c in Qraw.columns if 'Q1.Q37_9' in c]

NameError: name 'row_values' is not defined

### Partner

In [44]:
col = 'Q1.Q4.[Mijn partner(s) is/zijn...]'
freq(Qraw[col])
col_values = {'Man' : 'Man', 'Vrouw' : 'Woman'}
for cv in col_values:
    QC['Lifestyle.Partner.Is%s' % col_values[cv]] = Qraw[col].apply(lambda x: True if x == cv else None if x not in col_values else False)
    print('Lifestyle.Partner.Is%s' % col_values[cv])
#efor

QC['Lifestyle.Partner.OneVsSingle'] = Qraw['Q1.Q47.[Heb je de afgelopen drie maanden één of meerdere seksuele\npartner(s) gehad? - Selected Choice]'].apply(
    lambda x: None if (pd.isna(x) or x in ['Ja, meerdere vaste partners: hoeveel?', 'Ja, wisselende partners: hoeveel?']) else x == 'Ja, één vaste partner')
QC['Lifestyle.Partner.OneVsMany'] = Qraw['Q1.Q47.[Heb je de afgelopen drie maanden één of meerdere seksuele\npartner(s) gehad? - Selected Choice]'].apply(
    lambda x: None if (pd.isna(x) or x in ['Nee']) else x != 'Ja, één vaste partner')

Lifestyle.Partner.IsMan
Lifestyle.Partner.IsWoman


### Current smoker

In [None]:
QC['Lifestyle.Drugs.Current_smoker'] = Qraw['Q1.Q21.[Rook je? Geef ook op hoeveel sigaretten je per dag rook(te) - Selected Choice]'].apply(
    lambda x: None if pd.isna(x) else x == 'Ja')



### Current druguser

In [None]:
QC['Lifestyle.Drugs.Current_druguser'] = Qraw['Q1.Q22.[Gebruik je drugs (exclusief alcohol)? Gelieve ook aan te geven welke. Deze informatie wordt pseudoniem verwerkt. Wij hebben het grootste respect voor jou en voor je privacy. - Selected Choice]'].apply(
    lambda x: None if pd.isna(x) else x == 'Ja')

### Current alcohol yes/no

In [126]:

def current_alcohol(val):
    if pd.isna(val):
        return None
    else:
        return val != 'Ik drink geen alcohol'
    #fi
#edef

QC['Lifestyle.Drugs.Current_alcohol'] = Qraw['Q1.Q30_4.[Als je alcohol drinkt, wat drink je dan meestal? (meerdere antwoorden mogelijk) - Selected Choice - Ik drink geen alcohol]'].apply(current_alcohol)

### Stress

In [214]:

#Binary variable
def clean_stress(val):
    if pd.isna(val) or val == '':
        return None
    else :
        return val in ['Vaak', 'Meestal', 'Voortdurend']
    #fi
#edef


QC['Lifestyle.Mood.Stress.4weeks'] = Qraw['Q1.Q46_6.[Hoe voelde je je de afgelopen vier weken? - Voelde je je gestresseerd?]'].apply(clean_stress)

#Dummy variables

##Voortdurend
def clean_stress_voortdurend(val):
    if pd.isna(val) or val == '':
        return None
    else :
        return val == 'Voortdurend'
    #fi
#edef
QC['Lifestyle.Mood.Stress.4weeks.Constantly'] = Qraw['Q1.Q46_6.[Hoe voelde je je de afgelopen vier weken? - Voelde je je gestresseerd?]'].apply(clean_stress_voortdurend)

##Meestal
def clean_stress_meestal(val):
    if pd.isna(val) or val == '':
        return None
    else :
        return val == 'Meestal'
    #fi
#edef
QC['Lifestyle.Mood.Stress.4weeks.Usually'] = Qraw['Q1.Q46_6.[Hoe voelde je je de afgelopen vier weken? - Voelde je je gestresseerd?]'].apply(clean_stress_meestal)

##Vaak
def clean_stress_vaak(val):
    if pd.isna(val) or val == '':
        return None
    else :
        return val == 'Vaak'
    #fi
#edef
QC['Lifestyle.Mood.Stress.4weeks.Often'] = Qraw['Q1.Q46_6.[Hoe voelde je je de afgelopen vier weken? - Voelde je je gestresseerd?]'].apply(clean_stress_vaak)

##Soms
def clean_stress_soms(val):
    if pd.isna(val) or val == '':
        return None
    else :
        return val == 'Soms'
    #fi
#edef
QC['Lifestyle.Mood.Stress.4weeks.Sometimes'] = Qraw['Q1.Q46_6.[Hoe voelde je je de afgelopen vier weken? - Voelde je je gestresseerd?]'].apply(clean_stress_soms)

##Zelden
def clean_stress_zelden(val):
    if pd.isna(val) or val == '':
        return None
    else :
        return val == 'Zelden'
    #fi
#edef
QC['Lifestyle.Mood.Stress.4weeks.Rarely'] = Qraw['Q1.Q46_6.[Hoe voelde je je de afgelopen vier weken? - Voelde je je gestresseerd?]'].apply(clean_stress_zelden)

##Nooit
def clean_stress_nooit(val):
    if pd.isna(val) or val == '':
        return None
    else :
        return val == 'Nooit'
    #fi
#edef
QC['Lifestyle.Mood.Stress.4weeks.Never'] = Qraw['Q1.Q46_6.[Hoe voelde je je de afgelopen vier weken? - Voelde je je gestresseerd?]'].apply(clean_stress_nooit)


### Increased stress

In [215]:
freq(Qraw['Q2.Q20.[Voelde je je de afgelopen maand gemiddeld somberder en/of meer gestresseerd dan normaal?]'])

{None: 2753,
 'Hetzelfde': 1965,
 'Ja': 955,
 'Minder dan eerder aangegeven': 283,
 '': 51}

In [217]:
def clean_increasedstress(val):
    if pd.isna(val) or val == '':
        return None
    else :
        return val == 'Ja'
    #fi
#edef


QC['Lifestyle.Mood.Stress.Increased'] = Qraw['Q2.Q20.[Voelde je je de afgelopen maand gemiddeld somberder en/of meer gestresseerd dan normaal?]'].apply(clean_increasedstress)


## Environment

### Diet

In [41]:

QC['Nutrition.EatsMeat'] = Qraw['Q1.Q29_4.[Hoe regelmatig heb je de onderstaande zaken gegeten of gedronken in de afgelopen 3 maanden? - Vlees]'].apply(
    lambda x: None if pd.isna(x) else x not in ['Zelden', 'Nooit'])

QC['Nutrition.EatsFish'] = Qraw['Q1.Q29_6.[Hoe regelmatig heb je de onderstaande zaken gegeten of gedronken in de afgelopen 3 maanden? - Vis]'].apply(
    lambda x: None if pd.isna(x) else x in ['Zelden', 'Nooit'])

QC['Nutrition.EatsAnimals'] = Qraw['Q1.Q29_5.[Hoe regelmatig heb je de onderstaande zaken gegeten of gedronken in de afgelopen 3 maanden? - Dierlijke producten (eieren, kaas, gelatine,...)]'].apply(
    lambda x: None if pd.isna(x) else x in ['Zelden', 'Nooit'])

QC['Nutrition.Vegetarian'] = QC.apply(
    lambda x: None if any(pd.isna(x[['Nutrition.EatsMeat','Nutrition.EatsFish']])) else not(x['Nutrition.EatsFish'] or x['Nutrition.EatsMeat']), axis=1)

QC['Nutrition.Pescetarian'] = QC.apply(
    lambda x: None if any(pd.isna(x[['Nutrition.EatsMeat','Nutrition.EatsFish']])) else x['Nutrition.EatsFish'] and not(x['Nutrition.EatsMeat']), axis=1)

QC['Nutrition.Vegan'] = QC.apply(
    lambda x: None if any(pd.isna(x[['Nutrition.EatsMeat','Nutrition.EatsFish', 'Nutrition.EatsAnimals']])) else not(x['Nutrition.EatsFish'] or x['Nutrition.EatsMeat'] or x['Nutrition.EatsAnimals']), axis=1)


### Living environment

In [42]:

QC['Environment.Urban'] = Qraw['Q1.Q15.[Hoe zou je het gebied waar je nu woont omschrijven?]'].apply(
    lambda x: None if pd.isna(x) else x in ['Stadskern', 'Dorpskern', 'Residentiële woonwijk', 'Drukke baan', 'Industriezone'])

QC['Environment.Coutryside'] = Qraw['Q1.Q15.[Hoe zou je het gebied waar je nu woont omschrijven?]'].apply(
    lambda x: None if pd.isna(x) else x in ['Groene zone/ recreatiegebied/...', 'Landelijk gebied'])

### Belgium first three years of life

In [43]:
def is_belgium(v):
    if pd.isna(v):
        return None
    #fi
    v = v.lower()
    if 'belg' in v:
        return True
    elif v in ['be', 'antwerpen', 'neen', '0', 'geen', 'b', 'beglie' ]:
        return True
    else:
        return False
    #fi
#edef

QC['Environment.Belgium.First3Years'] = Qraw['Q1.Q9.[In welk(e) land(en) heb je gewoond tot en met je derde levensjaar? Indien dit enkel België is, mag je het ook opgeven.]'].apply(
    lambda x: is_belgium(x))

### Economic

In [45]:
QC['Environment.Economic.HouseholdContribution'] = Qraw['Q2.Q7.[Hoe groot is je aandeel aan het gezinsinkomen?]'].apply(
    lambda x: None if pd.isna(x) else {'Ik heb het grootste aandeel ': 3/4,
 'Ik draag als enige bij ': 4/4,
 'We dragen evenveel bij  ': 2/4,
 'Ik draag het minste bij  ': 1/4,
 'Ik draag niet bij  ': 0/4}.get(x, None))

QC['Environment.Economic.FinancialDifficulties'] = Qraw['Q2.Q4.[Kan je maandelijks rondkomen met de som van totaal beschikbaar gezinsinkomen (alles inbegrepen*)? \n\n\n\n* De leefomstandigheden van een huishouden hangen natuurlijk in belangrijke mate af van het inkomen. Het gaat hier over het totale beschikbare inkomen van de verschillende leden van het huishouden samen. Meerdere leden kunnen dus bijdragen. Het totale beschikbare inkomen van een huishouden bestaat uit, (1) netto-lonen, wedden en nettobedrijfsinkomens voor zelfstandigen, (2) sociale uitkeringen en kinderbijslagen, (3) bijkomende inkomens zoals huuropbrengsten, intresten e.a. De som van al deze inkomens voor alle personen uit je huishouden is het totale beschikbare inkomen van je huishouden.]'].apply(
    lambda x: None if pd.isna(x) else (x in ['Eerder moeilijk', 'Moeilijk', 'Zeer moeilijk']))

# Export cleaned questionnaire

In [114]:
with RDM('../data/cleaned/IsalaFlow1.CleanedQuestionnaires.xlsx', 'w', nouser=True) as ofd:
    QC.to_excel(ofd)
#ewith

with RDM('../data/cleaned/IsalaFlow1.CleanedQuestionnaires.xlsx', 'w', nouser=True) as ofd:
    QC.to_pickle(ofd)
#ewith

NameError: name 'RDM' is not defined

In [81]:
QC

Unnamed: 0_level_0,IsalaID,General.Gender,General.Age,General.Height,General.Weight,General.Highest.Education,Health.BMI,Health.General.Q1.Good,Health.General.Q1.VeryGood,Health.General.Q1.Acceptable,...,Sexual.Penetration.Toy.3months,Sexual.Penetration.Other.3months,Sexual.Penetration.3months,Sexual.Penetration.Penis.24h,Sexual.Penetration.Fingers.24h,Sexual.Penetration.Toy.24h,Sexual.Penetration.24h,Health.medication.Birthcontrol pill,Health.medication.ibuprofen,Health.medication.HRT
idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
ISALA00006,ISALA00006,,,,,,,,,,...,,,,,,,,False,False,False
ISALA00038,ISALA00038,,,,,,,,,,...,,,,,,,,False,False,False
ISALA00039,ISALA00039,Vrouw,32.0,178.0,64.0,PhD,20.199470,True,False,False,...,False,False,False,False,False,False,True,False,False,False
ISALA00040,ISALA00040,Vrouw,24.0,168.0,60.0,College,21.258503,True,False,False,...,False,False,False,False,False,False,True,False,False,False
ISALA00041,ISALA00041,,,,,,,,,,...,,,,,,,,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
ISALA06046,ISALA06046,Vrouw,32.0,173.0,74.0,University,24.725183,True,False,False,...,False,False,False,,,,,False,False,False
ISALA06047,ISALA06047,Vrouw,57.0,184.0,57.0,University,16.836011,False,True,False,...,False,False,True,,,,,False,False,False
ISALA06048,ISALA06048,,,,,,,,,,...,,,,,,,,False,False,False
ISALA06049,ISALA06049,Vrouw,23.0,171.0,64.0,University,21.887076,True,False,False,...,True,False,False,False,False,False,True,False,False,False


In [47]:
list(Qraw)

['Q0.Status',
 'Q0.Deelnemersnummer',
 'Q0.Leeftijd',
 'Q0.Woonde in België voor de eerste 3 levensjaren',
 'Q0.Zwanger',
 'Q0.Anticonceptiemethode',
 'Q0.Postcode',
 'Q1.StartDate.[Start Date]',
 'Q1.EndDate.[End Date]',
 'Q1.Status.[Response Type]',
 'Q1.Progress',
 'Q1.Duration (in seconds)',
 'Q1.Finished',
 'Q1.RecordedDate.[Recorded Date]',
 'Q1.ResponseId.[Response ID]',
 'Q1.ExternalReference.[External Data Reference]',
 "Q1.IC4.[Ik heb het informatie- en toestemmingsformulier\ngelezen. Ik begrijp de voordelen en het belang van deze studie, maar ook de eventuele\nrisico's. Ik begrijp dat ik binnen het onderzoek een uitgebreide vragenlijst\nkrijg om te bepalen welke factoren een effect zouden kunnen hebben op het\nmicrobioom. Ik neem vrijwillig deel aan deze studie. Vandaag ([CurrentDate-d%2Fm%2FY])]",
 'Q1.IC5.[Je kan alleen deelnemen aan Isala als je akkoord gaat met het toestemmingsformulier. Indien je hierover vragen hebt, kan je contact met ons opnemen via isala@uantwerpen.