In [2]:

import sys
sys.path.append('C:/Users/LUCP12511/Documents/PhD Kato/ISALA/Repos/BIU-master') # Modify this to where you have downloaded the BIU library
#import biu
import numpy as np
import pandas as pd
import matplotlib.pylab as plt
plt.rcParams['svg.fonttype'] = 'none'

import seaborn as sns
import scipy

# install rdmpy with pip install git+https://github.com/thiesgehrmann/rdmpy
#from rdmpy import RDM
#RDM.meta(source="repos/LunaQuestionnaire/clean.ipynb")

# Functions

In [3]:
def freq(lst, key=lambda x: x):
    """
    Count the number of occurances in a list.
    Input:
        lst: an iterable list
        key: a callable function that is called upon the value, the return value of which is counted
    
    Output: Dictionary with count of each item
    """
    F = {}
    for item in lst:
        if pd.isna(item):
            item = None
        #fi
        F[key(item)] = F.get(key(item), 0) + 1
    #efor
    return F


def qerf(lst, key=lambda x: x):
    """
    Return the frequency of objects in a list, indexed by their frequency, rather than by the item itself.
    parameters:
    -----------
    lst: list[obj]
        List of hashable objects
    key: callable(obj)
        A function which will be called upon the objects in the list
        
    example:
    qerf([1,2,3,3,4,4,4])
     { 1: [1,2],
       2: [3],
       3: [4]
       }
    """
    f = freq(lst, key)
    q = { }
    for (i,c) in f.items():
        q[c] = q.get(c,[]) + [i]
    #efor
    return q

# Load the Isala Flow 1 questionnaire data

In [4]:
#with RDM('../data/processed/merged_questionnaires.pkl', 'r', nouser=True) as ifd:
#    Qraw = pd.read_pickle(ifd)
#ewith
Qraw = pd.read_pickle("../data/processed/merged_questionnaires.rdm_thies_2024-08-09T11-49-27-140516.pkl")
    
#Qraw = pd.read_excel('../data/processed/merged_from_sharepoint_flow1_all_questionnaires.20231031.xlsx')

## Search for questions
Type in words that are part of a question in order to get back the names of matching columns

In [363]:
from ipywidgets import interact, interactive, fixed, interact_manual
## Interactive questionnaire search
def search_questionnaire(query):
    if len(query) < 2:
        return None
    #fi
    return Qraw[[ x for x in Qraw.columns if query.lower() in x.lower() ]].transpose()
#edef

_ = interact(search_questionnaire, query='')

interactive(children=(Text(value='', description='query'), Output()), _dom_classes=('widget-interact',))

## Prepare the cleaned dataframe

In [15]:
QC = Qraw[['Q0.Deelnemersnummer']].rename(columns={'Q0.Deelnemersnummer':'IsalaID'}).copy()

# Clean questions

## General

### Gender

In [16]:
#Sex
def clean_gender(val):
    if pd.isna(val):
        return None
    elif 'Vrouw' in val:
        return 'Vrouw'
    elif 'Anders' in val:
        return 'Other'
    else:
        return None
    #fi
#edef
QC['General.Gender'] = Qraw["Q1.Q1.[Geslacht - Selected Choice]"].apply(clean_gender)

### Age

In [17]:
#Age
def clean_age(x): 
    if pd.isna(x):
        return None
    elif str(x).isnumeric():
        if x <= 200:
            return int(x)
        elif x > 200:
            return int(2020 - x)
        #fi
    else:
        return None
    #fi
#edef
QC['General.Age'] = Qraw["Q1.Q2_1.[Enkele algemene vragen over jou: - Leeftijd (jaar)]"].apply(clean_age)

### Height

In [18]:
#Height
def clean_height(x): 
    if pd.isna(x):
        return None
    elif str(x).isnumeric():
        if x > 3:
            return int(x)
        elif x <= 3:
            return int(x * 100)
        #fi
    else:
        return None
    #fi
#edef
QC['General.Height'] = Qraw["Q1.Q2_2.[Enkele algemene vragen over jou: - Lengte (cm)]"].apply(clean_height)

### Weight

In [19]:
#Weight

def clean_weight(val):
    if pd.isna(val):
        return None
    elif str(val).isnumeric():
        return float(val)
    else:
        return None
    #fi
#edef

QC['General.Weight'] = Qraw['Q1.Q2_3.[Enkele algemene vragen over jou: - Gewicht (kg)]'].apply(clean_weight)

### Education

In [20]:
map_main = {            #dictionnary for question Q1.Q18
'Postuniversitair: doctor': 'PhD',
 'Hogeschool: bachelor': 'College',
 'Universiteit: bachelor/master (kandidaat/licenciaat)': 'University',
 'Secundair onderwijs: KSO': 'Secondary education',
 'Secundair onderwijs: ASO': 'Secondary education',
 'Secundair onderwijs: BSO': 'Secondary education',
 'Secundair onderwijs: TSO': 'Secondary education',
 'Lagere school': 'Primary education',
 'Geen': 'No',
 '': None  
}

map_other = {  #If still studying: refers to highest completed degree
 'Hogeschool master': 'College',
 'Hogeschool - postgraduaat': 'College',
 'Master beeldende kunsten aan een hogeschool': 'College',
 'Hogeschool postgraduaat na bachelor': 'College',
 'professionele bachelor dans': 'College',
 'Hogeschool: master': 'College',
 'Dit is niet relevant ': None,
 'Hogeschool: bachelor -&gt; maar ik studeer nog verder voor een master': 'College',
 'International Baccalaureate (pre-universitair diploma, ongeveer gelijk aan ASO) ': 'Seconday education',
 '4de jaar kso': 'Primary education',
 'Hogeschool: lange type': 'College',
 'Specialisatiejaar hogeschool': 'College',
 'Hbo 5 verpleegkunde': 'College',
 'graduaat HBO5': 'College',
 'Graduaat (volwassenonderwijs)': 'College',
 'Bezig met universitaire opleiding, dus voorlopig alleen diploma van ASO secundair onderwijs': 'Seconday education',
 'Hoger beroepsonderwijs': 'College',
 'zorgkundige': 'Seconday education',
 'Hb05 verpleging ': 'College',
 'Hogeschool: Master': 'College',
 'Hbo-opleiding ': 'College',
 'Bachelor na bachelor': 'College',
 'HBO5': 'College',
 'deeltijds onderwijs': 'Secondary education',
 'MBO4': 'Seconday education',
 'bachelor na bachelor': 'College',
 'Hbo5': 'College',
 'Banaba': 'College',
 'Banaba Onco': 'College',
 'Manama': 'University',
 'Nog studerend: TSO middelbaar': 'Primary education',
 'Hbo': 'College',
 'Laatstejaars bachelor': 'Seconday education',
 'Hoger onderwijs kort type': 'College',
 'Technisch administratief': 'College', 
 'Hoger middelbaar kantoor/handel': "Secondary education",
 'Student op Universiteit Antwerpen (2de Bachelor momenteel) ': "Secondary education",
 'hogeschool: master': 'College',
 'HBO5 hoger beroepsonderwijs verpleegkunde ': 'College',
 'Gebrevetteerd verpleegkundige A2': 'College',
 'Hbo propedeuse ': "Secondary education",
 'MBO (middelbaar beroepsonderwijs = nederland niveau)': "Secondary education",
 'Momenteel bezig met Biomedische wetenschappen aan de universiteit Antwerpen, 2e bachelor': "Secondary education",
 'laatste jaar master momenteel': "University",
 'Hogeschool: bachelor - momenteel studeer ik voor mijn master (afstudeerjaar 2021)': 'College',
 'postgraduaat na master': "University",
 'Vwo diploma Nederland, bezig met hogeschool belgie': "Seconday education",
 'A2 verpleging': 'College',
 'Master na master': "University",
 'Graduaat': 'College',
 'Hbo5 verpleegkunde': 'College',
 'Hogeschool: lange type (master)': 'College',
 'verdergezet secundair ': "Secondary education",
 'Deeltijds kunstonderwijs': None,
 '4 jaar handel gestopt op 16 jaar': 'Primary education',
 'Mavo': 'Secondary education',
 'Volwassenenonderwijs ': 'College',
 'BanaBa en een postgraduaat opleiding UGent': 'College',
 'volwassenonderwijs syntra ': 'College',
 'HBOV verpleegkunde': 'College',
 'hogeschool beroepsopleiding': 'College',
 'Nog steeds student in een masteropleiding ': 'University',
 'Hogeschool: graduaat': 'College',
 'Master na Master ': 'University',
 '2 masters (universiteit)': 'University',
 'Hoger beroeps onderwijs; gegradueerde ': 'College',
 'Secundair na secundair (Se-n-Se)': 'Secunday education',
 'Bezig met bachelor opleiding vroedkunde': 'Secondary education',
 'BanaBa': 'College',
 'zit in mijn 1ste jaar bachelor aan de hogeschool ': 'Secondary education',
 'bezig ad hbo5 opleiding': 'Secondary education',
 'getuigschrift 6e middelbaar BSO': 'Secundary education',
 'Se-n-Se': 'Secundary education',
 'Ga nog naar school': None,
 'graduaat ': 'College',
 'Hogeschool ': 'College',
 'HBO verpleegkunde': 'College',
 'Havo': 'College',
 '2 de graad secundair tso': 'Primary education',
 'leercontract': None,
 'Secundair onderwijs door volwassenenonderwijs + certificaat webdesigner': 'Secundary education',
 'VWO': 'Secondary education',
 'BSO + 7e specialisatie=A2': 'Secondary education',
 'Diploma SLO opleiding ': 'College',
 'Ma na Ma': 'University',
 '7de jaar zorgkundige ': 'Secondary education',
 'Hbo5 ': 'College',
 'Mbo': 'Secondary education',
 'Volwassenonderwijs lerarendiploma ': 'College',
 'Graduaat ': 'College',
 'Hoger beroeps onderswijs': 'College',
 'Avondschool': None,
 'master na master': 'University',
 'Specialisatie 7e jaar na 6 jaar TSO': 'Secondary education',
 'Getuigschrift ': None,
 'Volwassenonderwijs ': None,
 'Hoger onderwijs van het korte type voor sociale promotie (hoktsp) Hoger onderwijs voor ': 'College',
 'HBO master': 'College',
 'Hoger beroeps onderwijs a2 verpleegkundige ': 'Seconday education',
 'Hoger onderwijs: Graduaat': 'College',
 'Hogeschoolcertificaat': 'College',
 'A2 verpleging ': 'Secondary education',
 'Hogeschool: bachelor & bachelor-na-bachelor': 'College',
 'MBO 4 Nederlands onderwijs': 'Secondary education',
 'HBO5 + SLO': 'College',
 'Volwassenonderwijs bedrijfsbeheer ': None,
 'MBO niv. 4': 'Secondary education',
 'Slo opleiding ': 'College',
 'graduaat': 'College',
 'Avondonderwijs': None,
 'postgraduaat': 'College',
 'Secundair diploma Amerika': 'Secondary education',
 'professionele master': 'College',
 'ManaMa': 'University',
 'Nederlandse opleiding MBO 4 juridisch medewerker ': 'College',
 'Master + banaba + postgraduaat': 'College',
 'Master-na-master (business school)': 'University',
 'Middelbare school kader Vmbo (Nederland)': 'Secondary education',
 'HBO graduaat verzekeringen + PCP statuut behaald via Febelfin (Overheid)': 'College',
 'Mbo 3': 'Secondary education',
 'Middelbaar beroeps onderwijs': 'Secondary education',
 'mbo': 'Secundary education',
 'Graduaat (HBO5)': 'College',
 'Hoger secundair, HBO5 verpleegkunde': 'College',
 'attest BUSO': 'Secondary education',
 'SNIT EN NAAD': 'Secondary education',
 'Bachelor,  korte type ': 'College',
 'Post-Graduaat': 'College',
 'GPB: lerarenopleiding ': 'College'
}

def c(row):
    main = row['Q1.Q18.[Wat is het hoogste diploma dat je behaalde? - Selected Choice]']
    other = row['Q1.Q18_9_TEXT.[Wat is het hoogste diploma dat je behaalde? - Andere - Tekst]']

    return map_main.get(main, map_other.get(other, None))

#edef

QC['General.Highest.Education'] = Qraw.apply(c, axis=1)

In [45]:
for l in set(QC['General.Highest.Education']):
    if l not in ['PhD', 'Secondary education', 'College', 'University']:
        continue
    #fi
    QC['General.Highest.Education.%s' % l.replace(' ','')] = QC['General.Highest.Education'].apply(lambda x: None if pd.isna(x) else x == l)
    print('General.Highest.Education.%s' % l.replace(' ',''))
#efor

General.Highest.Education.University
General.Highest.Education.College
General.Highest.Education.Secondaryeducation
General.Highest.Education.PhD


## Health

### BMI

In [21]:
#BMI

QC['Health.BMI'] = QC['General.Weight']/((QC['General.Height']/100)**2)

### General health

In [22]:
#Binary variable
def clean_generalhealth(val):
    if pd.isna(val) or val == '':
        return None
    else :
        return val in ['Goed', 'Zeer goed']
    #fi
#edef


QC['Health.General.Q1.Good'] = Qraw['Q1.Q34.[Hoe beoordeel je je algemene\ngezondheidstoestand?]'].apply(clean_generalhealth)


In [48]:
#Dummy variables

##Zeer goed
def clean_generalhealth_zeergoed(val):
    if pd.isna(val) or val == '':
        return None
    else :
        return val == 'Zeer goed'
    #fi
#edef
QC['Health.General.Q1.VeryGood'] = Qraw['Q1.Q34.[Hoe beoordeel je je algemene\ngezondheidstoestand?]'].apply(clean_generalhealth_zeergoed)

##Goed
def clean_generalhealth_goed(val):
    if pd.isna(val) or val == '':
        return None
    else :
        return val == 'Goed'
    #fi
#edef
QC['Health.General.Q1.Good'] = Qraw['Q1.Q34.[Hoe beoordeel je je algemene\ngezondheidstoestand?]'].apply(clean_generalhealth_goed)

##Redelijk
def clean_generalhealth_redelijk(val):
    if pd.isna(val) or val == '':
        return None
    else :
        return val == 'Redelijk'
    #fi
#edef
QC['Health.General.Q1.Acceptable'] = Qraw['Q1.Q34.[Hoe beoordeel je je algemene\ngezondheidstoestand?]'].apply(clean_generalhealth_redelijk)

##Slecht/zeer slecht
def clean_generalhealth_slecht(val):
    if pd.isna(val) or val == '':
        return None
    else :
        return val == 'Slecht' or val == 'Zeer slecht'
    #fi
#edef
QC['Health.General.Q1.Bad'] = Qraw['Q1.Q34.[Hoe beoordeel je je algemene\ngezondheidstoestand?]'].apply(clean_generalhealth_slecht)


### Excessive sweating


In [49]:
def clean_sweating(val):
    if pd.isna(val) or val == '':
        return None
    else :
        return val == 'Ja'
    #fi
#edef

QC['Health.Sweating.Excessive'] = Qraw['Q1.Q68.[Heb jij last van overmatig zweten?]'].apply(clean_sweating)

### Medication

In [50]:
possible_meds = {
    "Birthcontrol pill" : ["Anticonceptie", "Anticonceptiepil"],
    "ibuprofen" : ['ibbuprofen', "Ibuprofen", "Neurofen"],
    "Menopause.HRT" : ['Oestradiol gel', 'Hormonen menopauze', 'Oestrogel', 'oestrogel', 'Progebel', 'Progynova', 'Femoston', 'femoston', 'femeston', 'Aaceefemine', 'Aecefemine', 'Gynoflor', 'Angeliq', 'Heria', 'Livial' ],
    "Menopause.Other" : ['Gynoflor', 'donnafyta premens', 'Donnafyta Premens']
}

def flatten(lst, dropna=False):
    return [ v for l in lst for v in l if not (dropna & pd.isna(v)) ]
#edef

rel_cols = [ c for c in Qraw.columns if ('Q1.Q42' in c) and ('Naam' in c) ]

sorted(list(freq([ v.strip() for v in flatten(Qraw[rel_cols].values, True) if v != '']).items()), key=lambda x:x[0])

def _clean_meds(row, values):
    row_values = set([ v.strip() for v in row[rel_cols] if not pd.isna(v) ])

    return len(row_values & values) > 0
#edef

## Menopause.HRT
for med in possible_meds:
    QC["Health.Medication.%s" % med] = Qraw[rel_cols].apply(lambda row:_clean_meds(row, set(possible_meds["Menopause.HRT"])), axis = 1)
#efor

## Menopause.Other
for med in possible_meds:
    QC["Health.Medication.%s" % med] = Qraw[rel_cols].apply(lambda row:_clean_meds(row, set(possible_meds["Menopause.Other"])), axis = 1)
#efor

## Sexual

### Intercourse 3 months

In [51]:
# Penis
QC['Sexual.Penetration.Penis.3months'] = Qraw['Q1.Q47.2_4.[Welke seksuele handelingen heb je ontvangen in de afgelopen drie maanden? (meerdere antwoorden mogelijk) - Selected Choice - Vaginale penetratie met penis]'].apply(
    lambda x: None if pd.isna(x) else x not in [''])
# Fingers
QC['Sexual.Penetration.Fingers.3months'] = Qraw['Q1.Q47.2_3.[Welke seksuele handelingen heb je ontvangen in de afgelopen drie maanden? (meerdere antwoorden mogelijk) - Selected Choice - Vaginale penetratie met vingers]'].apply(
    lambda x: None if pd.isna(x) else x not in [''])
# Toy
QC['Sexual.Penetration.Toy.3months'] = Qraw['Q1.Q47.2_5.[Welke seksuele handelingen heb je ontvangen in de afgelopen drie maanden? (meerdere antwoorden mogelijk) - Selected Choice - Vaginale penetratie met speeltjes]'].apply(
    lambda x: None if pd.isna(x) else x not in [''])
# Other
QC['Sexual.Penetration.Other.3months'] = Qraw['Q1.Q47.2_6.[Welke seksuele handelingen heb je ontvangen in de afgelopen drie maanden? (meerdere antwoorden mogelijk) - Selected Choice - Vaginale penetratie met andere:]'].apply(
    lambda x: None if pd.isna(x) else x not in [''])

# Penetration general
QC['Sexual.Penetration.3months'] = QC.apply(
    lambda x: None if any(pd.isna(x[['Sexual.Penetration.Penis.3months','Sexual.Penetration.Fingers.3months', 'Sexual.Penetration.Toy.3months', 'Sexual.Penetration.Other.3months']])) else not(x['Sexual.Penetration.Penis.3months'] or x['Sexual.Penetration.Fingers.3months'] or x['Sexual.Penetration.Toy.3months'] or x['Sexual.Penetration.Other.3months']), axis=1)


### Intercourse 24h

In [52]:
# Penis
QC['Sexual.Penetration.Penis.24h'] = Qraw['Q2.Q23_4.[Heb je de afgelopen 24 uur de volgende seksuele handelingen ontvangen of bij jezelf uitgevoerd (masturbatie)? (Meerdere antwoorden mogelijk) - Selected Choice - Vaginale penetratie met penis]'].apply(
    lambda x: None if pd.isna(x) else x not in [''])
# Fingers
QC['Sexual.Penetration.Fingers.24h'] = Qraw['Q2.Q23_3.[Heb je de afgelopen 24 uur de volgende seksuele handelingen ontvangen of bij jezelf uitgevoerd (masturbatie)? (Meerdere antwoorden mogelijk) - Selected Choice - Vaginale penetratie met vingers]'].apply(
    lambda x: None if pd.isna(x) else x not in [''])
# Toy
QC['Sexual.Penetration.Toy.24h'] = Qraw['Q2.Q23_5.[Heb je de afgelopen 24 uur de volgende seksuele handelingen ontvangen of bij jezelf uitgevoerd (masturbatie)? (Meerdere antwoorden mogelijk) - Selected Choice - Vaginale penetratie met speeltjes]'].apply(
    lambda x: None if pd.isna(x) else x not in [''])
# Other had one real answer, rest were none or swab so left it out

# Penetration general
QC['Sexual.Penetration.24h'] = QC.apply(
    lambda x: None if any(pd.isna(x[['Sexual.Penetration.Penis.24h','Sexual.Penetration.Fingers.24h', 'Sexual.Penetration.Toy.24h']])) else not(x['Sexual.Penetration.Penis.24h'] or x['Sexual.Penetration.Fingers.24h'] or x['Sexual.Penetration.Toy.24h']), axis=1)


## Reproductive

### Menstrual cycle

In [53]:
def determine_phases(row):
    """
    returns
     string
    """
    cycle_disrupted = row['Q1.Q52.3.[Hoeveel dagen zijn er gemiddeld tussen de eerste dag van je menstruatie\nen de eerste dag van je volgende? Je hoeft enkel het aantal dagen in te vullen indien je geen hormonale anticonceptie gebruikt die je cyclus kan beïnvloeden. - Selected Choice]'] == "Ik gebruik hormonale anticonceptie of een andere hormonale behandeling die mijn menstruele cyclus kan beïnvloeden"
    cycle_days     = row['Q1.Q52.3_4_TEXT.[Hoeveel dagen zijn er gemiddeld tussen de eerste dag van je menstruatie\nen de eerste dag van je volgende? Je hoeft enkel het aantal dagen in te vullen indien je geen hormonale anticonceptie gebruikt die je cyclus kan beïnvloeden. - Ik gebruik geen hormonale anticonceptie of een andere hormonale behandeling die mijn menstruele cyclus kan beïnvloeden - Tekst]']
    current_day    = row['A.day_of_cycle']
    
    if cycle_disrupted:
        return 'not_applicable'
    #fi
    
    if isinstance(cycle_days, str):
        return "unknown"
    #fi
    
    if pd.isna(cycle_days):
        cycle_days = 28
    #fi
    if pd.isna(current_day):
        return 'unknown'
    #fi
    
    if (cycle_days < 21) or (cycle_days > 35):
        return 'unknown'
    #fi
    
    if cycle_days <= 24:
        ovulation = cycle_days - 12
    elif cycle_days <= 31:
        ovulation = cycle_days - 14
    else:
        ovulation = cycle_days - 16
    #fi
    
    if current_day <= (ovulation-6):
        return 'Follicular'
    elif current_day <= (ovulation+2):
        return 'Ovulation'
    else:
        return 'Luteal'
    #fi
    
    return 'unknown'
#edef

phase = Qraw.apply(determine_phases, axis=1)



col_values = ['Luteal', 'Ovulation', 'Follicular']
for cv in col_values:
    QC['Reproductive.Cycle.Phase.%s' % cv] = phase.apply(lambda x: True if x == cv else None if x not in col_values else False)
#efor


### Menopause

In [54]:

#QC['Reproductive.PeriMenopause'] = Qraw['Q1.Q52.2.[Heeft dit te maken met één van de onderstaande mogelijkheden? - Selected Choice]'].apply(lambda x: str(x).lower() in ['c','d'])

## Menopause

freq(Qraw['Q1.Q52.2.[Heeft dit te maken met één van de onderstaande mogelijkheden? - Selected Choice]'])

def clean_menopause (val):
    if pd.isna(val):
        return None
    else :
        return 'Ik ben in mijn menopauze' in val
    #fi

QC['Reproductive.Menopause'] = Qraw['Q1.Q52.2.[Heeft dit te maken met één van de onderstaande mogelijkheden? - Selected Choice]'].apply(clean_menopause)

freq(QC['Reproductive.Menopause'])
freq(Qraw['Q1.Q52.2.[Heeft dit te maken met één van de onderstaande mogelijkheden? - Selected Choice]'])

{None: 1325,
 'Ik heb geen/nooit maandelijkse bloedingen': 131,
 '': 2692,
 'Andere': 773,
 'Ik neem mijn hormonale anticonceptie door': 568,
 'Ik heb geen maandelijkse bloedingen na mijn bevalling': 54,
 'Ik ben in mijn overgangsperiode (periode net voor menopauze)': 48,
 'Ik ben in mijn menopauze': 171,
 'Ik weet het niet': 245}

In [55]:
## Perimenopause

freq(Qraw['Q1.Q52.2.[Heeft dit te maken met één van de onderstaande mogelijkheden? - Selected Choice]'])

def clean_perimenopause (val):
    if pd.isna(val):
        return None
    else :
        return 'Ik ben in mijn overgangsperiode (periode net voor menopauze)' in val
    #fi

QC['Reproductive.Perimenopause'] = Qraw['Q1.Q52.2.[Heeft dit te maken met één van de onderstaande mogelijkheden? - Selected Choice]'].apply(clean_perimenopause)


In [56]:
## Peripostmenopause

def clean_peripostmenopause (val):
    if pd.isna(val):
        return None
    else :
        return 'menopauze' in val
    #fi

QC['Reproductive.Peripostmenopause'] = Qraw['Q1.Q52.2.[Heeft dit te maken met één van de onderstaande mogelijkheden? - Selected Choice]'].apply(clean_peripostmenopause)
freq(QC['Reproductive.Peripostmenopause'])

{None: 1325, False: 4463, True: 219}

### Miscarriages, abortion, pretermbirth

In [57]:
_rel = Qraw[[c for c in Qraw if 'uitgedragen' in c]]

for rtype, rvalues in {'Miscarriage': ['Nee afgebroken, miskraam met medicatie', 'Nee afgebroken, spontane miskraam', 'Nee afgebroken, curettage miskraam'],
                      'PretermBirth': ['Nee, vroeggeboorte'],
                      'Abortion': ['Nee afgebroken, abortus']}.items():
    QC['Reproductive.Pregnancy.%s' % rtype] = _rel.applymap(lambda x: x in rvalues).any(axis=1)
#efor

  QC['Reproductive.Pregnancy.%s' % rtype] = _rel.applymap(lambda x: x in rvalues).any(axis=1)
  QC['Reproductive.Pregnancy.%s' % rtype] = _rel.applymap(lambda x: x in rvalues).any(axis=1)
  QC['Reproductive.Pregnancy.%s' % rtype] = _rel.applymap(lambda x: x in rvalues).any(axis=1)


### Pregnancy attempted

In [58]:
QC['Reproductive.Pregnancy.Attempted'] = Qraw['Q1.Q49.[Heb je ooit actief geprobeerd om zwanger te worden?]'].apply(
    lambda x: None if pd.isna(x) else x == 'Ja')

### Breastfeeding

In [59]:

QC['Reproductive.Breastfeeding'] = Qraw['Q2.Q24.[Geef je op dit moment borstvoeding?]'].apply(
    lambda x: None if pd.isna(x) else x == 'Ja')

### Number of biological children

In [60]:

def clean_nchildbio(val):
    if pd.isna(val):
        return None
    elif val == '':
        return 0
    elif str(val).isnumeric():
        return int(val)
    else:
        return None
    #fi
#edef

QC['Reproductive.Children.n.biological'] = Qraw["Q1.Q6_1_TEXT.[Heb je kinderen? (Meerdere antwoorden mogelijk) - Biologische kinderen: hoeveel? - Tekst]"].apply(clean_nchildbio)

### Number of pregnancies

In [61]:
def clean_npreg(val):
    if pd.isna(val):
        return None
    elif str(val).isnumeric():
        return int(val)
    else:
        return None
    #fi
#edef

QC['Reproductive.Pregnancy.n'] = Qraw["Q1.Q50.[Hoeveel keer was je al zwanger?]"].apply(clean_npreg)

### Early menopause

In [62]:

def clean_earlymenopause(val):
    if pd.isna(val):
        return None
    else:
        return 'menopauze' in val
    #fi
#edef

QC['Reproductive.PeriMenopause.Early'] = Qraw['Q1.Q37_9_TEXT.[Heb je één van onderstaande aandoeningen? (Graag de aandoening\nvermelden) (meerdere antwoorden mogelijk) - Voortplantingsstelsel, vb. endometriose - Tekst]'].apply(clean_earlymenopause)

### Date and time since last menstruation

In [63]:
from datetime import datetime

# Date of sample: 'A.Sample date'

def clean_datelastcycle (row):
    if pd.isna(row['Q2.Q28_7_TEXT.[Wanneer was de eerste dag van je laatste menstruatie? - De eerste dag van mijn laatste menstruatie was (dd/mm/jjjj): - tekst]']):
        return None
    elif ' ' in row['Q2.Q28_7_TEXT.[Wanneer was de eerste dag van je laatste menstruatie? - De eerste dag van mijn laatste menstruatie was (dd/mm/jjjj): - tekst]']:
        return None
    elif '.' in row['Q2.Q28_7_TEXT.[Wanneer was de eerste dag van je laatste menstruatie? - De eerste dag van mijn laatste menstruatie was (dd/mm/jjjj): - tekst]']:
        return None
    elif '/' in row['Q2.Q28_7_TEXT.[Wanneer was de eerste dag van je laatste menstruatie? - De eerste dag van mijn laatste menstruatie was (dd/mm/jjjj): - tekst]']:
        #t = datetime.timestamp(datetime.strptime(row['Q2.Q28_7_TEXT.[Wanneer was de eerste dag van je laatste menstruatie? - De eerste dag van mijn laatste menstruatie was (dd/mm/jjjj): - tekst]'], "%d/%m/%Y"))
        return datetime.strptime(row['Q2.Q28_7_TEXT.[Wanneer was de eerste dag van je laatste menstruatie? - De eerste dag van mijn laatste menstruatie was (dd/mm/jjjj): - tekst]'], "%d/%m/%Y")
    else:
        return None
    #fi
#edef

QC['Reproductive.Date.Last.Menstruation'] = Qraw.apply(clean_datelastcycle, axis = 1)

QC['Reproductive.Days.Since.Menstruation'] = pd.to_datetime(Qraw['A.Arrival date'])-pd.to_datetime(QC['Reproductive.Date.Last.Menstruation'])


### Hormonal contraception

In [64]:
## 3 months

# contraceptive pill
QC['Reproductive.Contraception.Hormonal.Combinationpill.3months'] = Qraw['Q1.Q51_1.[Welke middelden heb je in de afgelopen drie maanden gebruikt om niet\nzwanger te worden? Gelieve ook het merk te geven. (Meerdere antwoorden mogelijk) - Selected Choice - Anticonceptiepil:]'].apply(
    lambda x: None if pd.isna(x) else x not in [''])
# Progestogen-only pill
QC['Reproductive.Contraception.Hormonal.Progestagonpill.3months'] = Qraw['Q1.Q51_2.[Welke middelden heb je in de afgelopen drie maanden gebruikt om niet\nzwanger te worden? Gelieve ook het merk te geven. (Meerdere antwoorden mogelijk) - Selected Choice - Minipil:]'].apply(
    lambda x: None if pd.isna(x) else x not in [''])
# Injection
QC['Reproductive.Contraception.Hormonal.Injection.3months'] = Qraw['Q1.Q51_3.[Welke middelden heb je in de afgelopen drie maanden gebruikt om niet\nzwanger te worden? Gelieve ook het merk te geven. (Meerdere antwoorden mogelijk) - Selected Choice - Prikpil:]'].apply(
    lambda x: None if pd.isna(x) else x not in [''])
# Patch
QC['Reproductive.Contraception.Hormonal.Patch.3months'] = Qraw['Q1.Q51_4.[Welke middelden heb je in de afgelopen drie maanden gebruikt om niet\nzwanger te worden? Gelieve ook het merk te geven. (Meerdere antwoorden mogelijk) - Selected Choice - Anticonceptiepleister (bv. Evra):]'].apply(
    lambda x: None if pd.isna(x) else x not in [''])
# Ring
QC['Reproductive.Contraception.Hormonal.Ring.3months'] = Qraw['Q1.Q51_5.[Welke middelden heb je in de afgelopen drie maanden gebruikt om niet\nzwanger te worden? Gelieve ook het merk te geven. (Meerdere antwoorden mogelijk) - Selected Choice - Anticonceptiering (bv. Nuvaring):]'].apply(
    lambda x: None if pd.isna(x) else x not in [''])
# Implant
QC['Reproductive.Contraception.Hormonal.Implant.3months'] = Qraw['Q1.Q51_6.[Welke middelden heb je in de afgelopen drie maanden gebruikt om niet\nzwanger te worden? Gelieve ook het merk te geven. (Meerdere antwoorden mogelijk) - Selected Choice - Hormonaal implantaat (bv. Implanon):]'].apply(
    lambda x: None if pd.isna(x) else x not in [''])
# IUD
QC['Reproductive.Contraception.Hormonal.IUD.3months'] = Qraw['Q1.Q51_7.[Welke middelden heb je in de afgelopen drie maanden gebruikt om niet\nzwanger te worden? Gelieve ook het merk te geven. (Meerdere antwoorden mogelijk) - Selected Choice - Hormoonspiraal (bv. Mirena):]'].apply(
    lambda x: None if pd.isna(x) else x not in [''])

# Birthcontrol general
QC['Reproductive.Contraception.Hormonal.3months'] = QC.apply(
    lambda x: None if any(pd.isna(x[['Reproductive.Contraception.Hormonal.Combinationpill.3months','Reproductive.Contraception.Hormonal.Progestagonpill.3months', 'Reproductive.Contraception.Hormonal.Injection.3months', 'Reproductive.Contraception.Hormonal.Patch.3months', 'Reproductive.Contraception.Hormonal.Ring.3months', 'Reproductive.Contraception.Hormonal.Implant.3months', 'Reproductive.Contraception.Hormonal.IUD.3months']])) 
    else not(x['Reproductive.Contraception.Hormonal.Combinationpill.3months'] or x['Reproductive.Contraception.Hormonal.Progestagonpill.3months'] or x['Reproductive.Contraception.Hormonal.Injection.3months'] or x['Reproductive.Contraception.Hormonal.Patch.3months'] or x['Reproductive.Contraception.Hormonal.Ring.3months'] or x['Reproductive.Contraception.Hormonal.Implant.3months'] or x['Reproductive.Contraception.Hormonal.IUD.3months']), axis=1)


In [65]:
## 1 month

# contraceptive pill
QC['Reproductive.Contraception.Hormonal.Combinationpill.1month'] = Qraw['Q2.Q25_1.[Welke middelden heb je in de afgelopen maand gebruikt om niet\nzwanger te worden? Gelieve ook het merk te geven. (Meerdere antwoorden mogelijk) - Selected Choice - Anticonceptiepil:]'].apply(
    lambda x: None if pd.isna(x) else x not in [''])
# Progestogen-only pill
QC['Reproductive.Contraception.Hormonal.Progestagonpill.1month'] = Qraw['Q2.Q25_2.[Welke middelden heb je in de afgelopen maand gebruikt om niet\nzwanger te worden? Gelieve ook het merk te geven. (Meerdere antwoorden mogelijk) - Selected Choice - Minipil:]'].apply(
    lambda x: None if pd.isna(x) else x not in [''])
# Injection
QC['Reproductive.Contraception.Hormonal.Injection.1month'] = Qraw['Q2.Q25_3.[Welke middelden heb je in de afgelopen maand gebruikt om niet\nzwanger te worden? Gelieve ook het merk te geven. (Meerdere antwoorden mogelijk) - Selected Choice - Prikpil:]'].apply(
    lambda x: None if pd.isna(x) else x not in [''])
# Patch
QC['Reproductive.Contraception.Hormonal.Patch.1month'] = Qraw['Q2.Q25_4.[Welke middelden heb je in de afgelopen maand gebruikt om niet\nzwanger te worden? Gelieve ook het merk te geven. (Meerdere antwoorden mogelijk) - Selected Choice - Anticonceptiepleister (bv. Evra):]'].apply(
    lambda x: None if pd.isna(x) else x not in [''])
# Ring
QC['Reproductive.Contraception.Hormonal.Ring.1month'] = Qraw['Q2.Q25_5.[Welke middelden heb je in de afgelopen maand gebruikt om niet\nzwanger te worden? Gelieve ook het merk te geven. (Meerdere antwoorden mogelijk) - Selected Choice - Anticonceptiering (bv. Nuvaring):]'].apply(
    lambda x: None if pd.isna(x) else x not in [''])
# Implant
QC['Reproductive.Contraception.Hormonal.Implant.1month'] = Qraw['Q2.Q25_6.[Welke middelden heb je in de afgelopen maand gebruikt om niet\nzwanger te worden? Gelieve ook het merk te geven. (Meerdere antwoorden mogelijk) - Selected Choice - Hormonaal implantaat (bv. Implanon):]'].apply(
    lambda x: None if pd.isna(x) else x not in [''])
# IUD
QC['Reproductive.Contraception.Hormonal.IUD.1month'] = Qraw['Q2.Q25_7.[Welke middelden heb je in de afgelopen maand gebruikt om niet\nzwanger te worden? Gelieve ook het merk te geven. (Meerdere antwoorden mogelijk) - Selected Choice - Hormoonspiraal (bv. Mirena):]'].apply(
    lambda x: None if pd.isna(x) else x not in [''])

# Birthcontrol general
QC['Reproductive.Contraception.Hormonal.1month'] = QC.apply(
    lambda x: None if any(pd.isna(x[['Reproductive.Contraception.Hormonal.Combinationpill.1month','Reproductive.Contraception.Hormonal.Progestagonpill.1month', 'Reproductive.Contraception.Hormonal.Injection.1month', 'Reproductive.Contraception.Hormonal.Patch.1month', 'Reproductive.Contraception.Hormonal.Ring.1month', 'Reproductive.Contraception.Hormonal.Implant.1month', 'Reproductive.Contraception.Hormonal.IUD.1month']])) 
    else not(x['Reproductive.Contraception.Hormonal.Combinationpill.1month'] or x['Reproductive.Contraception.Hormonal.Progestagonpill.1month'] or x['Reproductive.Contraception.Hormonal.Injection.1month'] or x['Reproductive.Contraception.Hormonal.Patch.1month'] or x['Reproductive.Contraception.Hormonal.Ring.1month'] or x['Reproductive.Contraception.Hormonal.Implant.1month'] or x['Reproductive.Contraception.Hormonal.IUD.1month']), axis=1)


### Hysterectomy

In [66]:

_rel = Qraw[[c for c in Qraw if 'Heb je één van onderstaande aandoeningen?' in c]]

for rtype, rvalues in {'hysterectomy': ['endometriose ,hysterectomie', 'Adenomyose (sinds mijn hysterectomy niet meer)', 'ik had adenomyose, maar mijn baarmoeder is in december 2018 verwijderd. De rest zit er nog.', 'Baarmoeder verwijderd', 'Baarmoeder eruit gehaald', 'hysterectomie', 'baarmoeder eruit hpv', 'Baarmoeder verzakking en weggenomen'],
                      }.items():
    QC['Reproductive.Hysterectomy'] = _rel.applymap(lambda x: x in rvalues).any(axis=1)
#efor


  QC['Reproductive.Hysterectomy'] = _rel.applymap(lambda x: x in rvalues).any(axis=1)


## Vaginal

### Symptoms

In [67]:
## Symptoms


other_col = 'Q1.Q53_9_TEXT.[Heb je de laatste maand last gehad van één of meerdere klachten aan je vulva of vagina (meerdere antwoorden mogelijk)? Indien ja, geef ook aan hoe ernstig. - Andere: - Tekst]'

other_responses = {
    'Q1.Q53_1.[Heb je de laatste maand last gehad van één of meerdere klachten aan je vulva of vagina (meerdere antwoorden mogelijk)? Indien ja, geef ook aan hoe ernstig. - Roodheid]' : ['Uitslag', 'Irritatie door inlegkruisje', 'irritatie '],
    'Q1.Q53_2.[Heb je de laatste maand last gehad van één of meerdere klachten aan je vulva of vagina (meerdere antwoorden mogelijk)? Indien ja, geef ook aan hoe ernstig. - Zwelling]' : ['Was een zwelling van te ruwe seks'],
    'Q1.Q53_3.[Heb je de laatste maand last gehad van één of meerdere klachten aan je vulva of vagina (meerdere antwoorden mogelijk)? Indien ja, geef ook aan hoe ernstig. - Pijn (algemeen)]' : ['overgevoeligheid (op een niet-aangename manier)','Pijn door voorliggende zenuwen', 'Maandstondenpijn', 'Pijn na fietstochten van langer dan een uur', 'Fietspijn', 'Pijn door droogte na bevalling en lang persen voor de keizersnede', 'Soms ten gevolge van lange rit op koersfiets', 'pijn na het fietsen', 'Gevoeligheid ', 'Zeurende pijn in vagina door niersteen', 'Pijnlijke steken (soms wanneer ik lig) tussen vulva en blaas. Alsof plasbuis of schede daartussen beurs aanvoelt.'],
    'Q1.Q53_4.[Heb je de laatste maand last gehad van één of meerdere klachten aan je vulva of vagina (meerdere antwoorden mogelijk)? Indien ja, geef ook aan hoe ernstig. - Jeuk]' : [],
    'Q1.Q53_5.[Heb je de laatste maand last gehad van één of meerdere klachten aan je vulva of vagina (meerdere antwoorden mogelijk)? Indien ja, geef ook aan hoe ernstig. - Branderig gevoel]' : ['soms branderig gevoel na seksueel contact', 'pikkend gevoel bij aanraking', 'branderig gevoel na seksueel contact ', 'Branderig gevoel na seksueel contact', 'Droog en branderig tijdens/na sexueel contact', 'Branderig gevoel na seks'],
    'Q1.Q53_6.[Heb je de laatste maand last gehad van één of meerdere klachten aan je vulva of vagina (meerdere antwoorden mogelijk)? Indien ja, geef ook aan hoe ernstig. - Toename in vaginale afscheiding (anders dan de normale maandelijkse afscheiding)]' : [],
    'Q1.Q53_7.[Heb je de laatste maand last gehad van één of meerdere klachten aan je vulva of vagina (meerdere antwoorden mogelijk)? Indien ja, geef ook aan hoe ernstig. - Verandering in de vaginale afscheiding (andere kleur, onaangename geur)]' : ['verandering in tekstuur van de vaginale afscheiding', 'Meer silijmerig dan anders'],
    'Q1.Q53_8.[Heb je de laatste maand last gehad van één of meerdere klachten aan je vulva of vagina (meerdere antwoorden mogelijk)? Indien ja, geef ook aan hoe ernstig. - Pijn tijdens seksueel contact]' : ['pijn na seksueel contact (branderig gevoel)','Pijn na seks','Pijn tijdens manuele seks of met speeltjes','pijn bij seks enkel in eerste dagen na menstruatie','Pijn bij klaarkomen','Pijn na seksueel contact','Pijn na seksueel contact + bloedverlies ','Tijden eisprong pijn binnenin bij diepe penetratie','Bij seksuele betrekkingen heb ik wel pijn tijdens of na het vrijen, alsook van jeuk of branderig gevoel']
}

_names_map = {
    'Q1.Q53_1.[Heb je de laatste maand last gehad van één of meerdere klachten aan je vulva of vagina (meerdere antwoorden mogelijk)? Indien ja, geef ook aan hoe ernstig. - Roodheid]' : "Vaginal.Symptom.Redness",
    'Q1.Q53_2.[Heb je de laatste maand last gehad van één of meerdere klachten aan je vulva of vagina (meerdere antwoorden mogelijk)? Indien ja, geef ook aan hoe ernstig. - Zwelling]' : 'Vaginal.Symptom.Swelling',
    'Q1.Q53_3.[Heb je de laatste maand last gehad van één of meerdere klachten aan je vulva of vagina (meerdere antwoorden mogelijk)? Indien ja, geef ook aan hoe ernstig. - Pijn (algemeen)]' : 'Vaginal.Symptom.Pain',
    'Q1.Q53_4.[Heb je de laatste maand last gehad van één of meerdere klachten aan je vulva of vagina (meerdere antwoorden mogelijk)? Indien ja, geef ook aan hoe ernstig. - Jeuk]' : 'Vaginal.Symptom.Itch',
    'Q1.Q53_5.[Heb je de laatste maand last gehad van één of meerdere klachten aan je vulva of vagina (meerdere antwoorden mogelijk)? Indien ja, geef ook aan hoe ernstig. - Branderig gevoel]' : 'Vaginal.Symptom.Burning',
    'Q1.Q53_6.[Heb je de laatste maand last gehad van één of meerdere klachten aan je vulva of vagina (meerdere antwoorden mogelijk)? Indien ja, geef ook aan hoe ernstig. - Toename in vaginale afscheiding (anders dan de normale maandelijkse afscheiding)]' : 'Vaginal.Symptom.Discharge.More',
    'Q1.Q53_7.[Heb je de laatste maand last gehad van één of meerdere klachten aan je vulva of vagina (meerdere antwoorden mogelijk)? Indien ja, geef ook aan hoe ernstig. - Verandering in de vaginale afscheiding (andere kleur, onaangename geur)]' : 'Vaginal.Symptom.Discharge.Change',
    'Q1.Q53_8.[Heb je de laatste maand last gehad van één of meerdere klachten aan je vulva of vagina (meerdere antwoorden mogelijk)? Indien ja, geef ook aan hoe ernstig. - Pijn tijdens seksueel contact]' : 'Vaginal.Symptom.Painsex'
}

def _symptom_clean(row, current_col):
    if row[current_col] in ['Matige klachten', 'Milde klachten', 'Ernstige klachten']:
        return True
    else:
        return row[other_col] in other_responses[current_col]
    #fi
#edef

for current_col in _names_map:
    QC[_names_map[current_col]] = Qraw[[current_col, other_col]].apply(lambda row: _symptom_clean(row, current_col), axis=1)
#efror    



### Number of symptoms

#### n

In [80]:
n = 0
n < 9

True

In [86]:
def _clean_symptom_n(row):
    n = 0
    if n in [0,1,2,3,4,5,6,7,8]:
        if row['Vaginal.Symptom.Redness'] == True:
            n = n+1
        else:
             n = n
        #fi
        if row['Vaginal.Symptom.Swelling'] == True:
            n =  n+1
        else:
            n = n
        #fi
        if row['Vaginal.Symptom.Pain'] == True:
            n =  n+1
        else:
            n = n
        #fi
        if row['Vaginal.Symptom.Itch'] == True:
            n =  n+1
        else:
            n = n
        #fi
        if row['Vaginal.Symptom.Burning'] == True:
            n =  n+1
        else:
            n = n
        #fi
        if row['Vaginal.Symptom.Discharge.More'] == True:
            n =  n+1
        else:
            n = n
        #fi
        if row['Vaginal.Symptom.Discharge.Change'] == True:
            n =  n+1
        else:
            n = n
        #fi
        if row['Vaginal.Symptom.Painsex'] == True:
            n =  n+1
        else:
            n = n
        #fi
    return n
    #fi
#edef

QC['Vaginal.Symptom.n'] = QC.apply(_clean_symptom_n, axis = 1)

freq(QC['Vaginal.Symptom.n'])

{0: 2885, 6: 152, 1: 955, 3: 509, 2: 762, 4: 366, 8: 76, 5: 211, 7: 91}

#### n >= 1

In [92]:
## number of symptoms >= 1

def _clean_symptom_n1(val):
    if val['Vaginal.Symptom.n'] >= 1:
        return True
    else:
        return False
    #fi
#edef

QC['Vaginal.Symptom.n1'] = QC.apply(_clean_symptom_n1, axis = 1)
freq(QC['Vaginal.Symptom.n1'])

{False: 2885, True: 3122}

#### n >= 3

In [93]:
## number of symptoms >= 1

def _clean_symptom_n3(val):
    if val['Vaginal.Symptom.n'] >= 3:
        return True
    else:
        return False
    #fi
#edef

QC['Vaginal.Symptom.n3'] = QC.apply(_clean_symptom_n3, axis = 1)
freq(QC['Vaginal.Symptom.n3'])

{False: 4602, True: 1405}

## Life style

### Partner

In [94]:
col = 'Q1.Q4.[Mijn partner(s) is/zijn...]'
freq(Qraw[col])
col_values = {'Man' : 'Man', 'Vrouw' : 'Woman'}
for cv in col_values:
    QC['Lifestyle.Partner.Is%s' % col_values[cv]] = Qraw[col].apply(lambda x: True if x == cv else None if x not in col_values else False)
    print('Lifestyle.Partner.Is%s' % col_values[cv])
#efor

QC['Lifestyle.Partner.OneVsSingle'] = Qraw['Q1.Q47.[Heb je de afgelopen drie maanden één of meerdere seksuele\npartner(s) gehad? - Selected Choice]'].apply(
    lambda x: None if (pd.isna(x) or x in ['Ja, meerdere vaste partners: hoeveel?', 'Ja, wisselende partners: hoeveel?']) else x == 'Ja, één vaste partner')
QC['Lifestyle.Partner.OneVsMany'] = Qraw['Q1.Q47.[Heb je de afgelopen drie maanden één of meerdere seksuele\npartner(s) gehad? - Selected Choice]'].apply(
    lambda x: None if (pd.isna(x) or x in ['Nee']) else x != 'Ja, één vaste partner')

Lifestyle.Partner.IsMan
Lifestyle.Partner.IsWoman


### Current smoker

In [95]:
QC['Lifestyle.Drugs.Current_smoker'] = Qraw['Q1.Q21.[Rook je? Geef ook op hoeveel sigaretten je per dag rook(te) - Selected Choice]'].apply(
    lambda x: None if pd.isna(x) else x == 'Ja')



### Current druguser

In [96]:
QC['Lifestyle.Drugs.Current_druguser'] = Qraw['Q1.Q22.[Gebruik je drugs (exclusief alcohol)? Gelieve ook aan te geven welke. Deze informatie wordt pseudoniem verwerkt. Wij hebben het grootste respect voor jou en voor je privacy. - Selected Choice]'].apply(
    lambda x: None if pd.isna(x) else x == 'Ja')

### Current alcohol yes/no

In [97]:

def current_alcohol(val):
    if pd.isna(val):
        return None
    else:
        return val != 'Ik drink geen alcohol'
    #fi
#edef

QC['Lifestyle.Drugs.Current_alcohol'] = Qraw['Q1.Q30_4.[Als je alcohol drinkt, wat drink je dan meestal? (meerdere antwoorden mogelijk) - Selected Choice - Ik drink geen alcohol]'].apply(current_alcohol)

### Stress

In [98]:

#Binary variable
def clean_stress(val):
    if pd.isna(val) or val == '':
        return None
    else :
        return val in ['Vaak', 'Meestal', 'Voortdurend']
    #fi
#edef


QC['Lifestyle.Mood.Stress.4weeks'] = Qraw['Q1.Q46_6.[Hoe voelde je je de afgelopen vier weken? - Voelde je je gestresseerd?]'].apply(clean_stress)

#Dummy variables

##Voortdurend
def clean_stress_voortdurend(val):
    if pd.isna(val) or val == '':
        return None
    else :
        return val == 'Voortdurend'
    #fi
#edef
QC['Lifestyle.Mood.Stress.4weeks.Constantly'] = Qraw['Q1.Q46_6.[Hoe voelde je je de afgelopen vier weken? - Voelde je je gestresseerd?]'].apply(clean_stress_voortdurend)

##Meestal
def clean_stress_meestal(val):
    if pd.isna(val) or val == '':
        return None
    else :
        return val == 'Meestal'
    #fi
#edef
QC['Lifestyle.Mood.Stress.4weeks.Usually'] = Qraw['Q1.Q46_6.[Hoe voelde je je de afgelopen vier weken? - Voelde je je gestresseerd?]'].apply(clean_stress_meestal)

##Vaak
def clean_stress_vaak(val):
    if pd.isna(val) or val == '':
        return None
    else :
        return val == 'Vaak'
    #fi
#edef
QC['Lifestyle.Mood.Stress.4weeks.Often'] = Qraw['Q1.Q46_6.[Hoe voelde je je de afgelopen vier weken? - Voelde je je gestresseerd?]'].apply(clean_stress_vaak)

##Soms
def clean_stress_soms(val):
    if pd.isna(val) or val == '':
        return None
    else :
        return val == 'Soms'
    #fi
#edef
QC['Lifestyle.Mood.Stress.4weeks.Sometimes'] = Qraw['Q1.Q46_6.[Hoe voelde je je de afgelopen vier weken? - Voelde je je gestresseerd?]'].apply(clean_stress_soms)

##Zelden
def clean_stress_zelden(val):
    if pd.isna(val) or val == '':
        return None
    else :
        return val == 'Zelden'
    #fi
#edef
QC['Lifestyle.Mood.Stress.4weeks.Rarely'] = Qraw['Q1.Q46_6.[Hoe voelde je je de afgelopen vier weken? - Voelde je je gestresseerd?]'].apply(clean_stress_zelden)

##Nooit
def clean_stress_nooit(val):
    if pd.isna(val) or val == '':
        return None
    else :
        return val == 'Nooit'
    #fi
#edef
QC['Lifestyle.Mood.Stress.4weeks.Never'] = Qraw['Q1.Q46_6.[Hoe voelde je je de afgelopen vier weken? - Voelde je je gestresseerd?]'].apply(clean_stress_nooit)


### Increased stress

In [99]:
freq(Qraw['Q2.Q20.[Voelde je je de afgelopen maand gemiddeld somberder en/of meer gestresseerd dan normaal?]'])

{None: 2753,
 'Hetzelfde': 1965,
 'Ja': 955,
 'Minder dan eerder aangegeven': 283,
 '': 51}

In [100]:
def clean_increasedstress(val):
    if pd.isna(val) or val == '':
        return None
    else :
        return val == 'Ja'
    #fi
#edef


QC['Lifestyle.Mood.Stress.Increased'] = Qraw['Q2.Q20.[Voelde je je de afgelopen maand gemiddeld somberder en/of meer gestresseerd dan normaal?]'].apply(clean_increasedstress)


## Environment

### Diet

In [101]:

QC['Nutrition.EatsMeat'] = Qraw['Q1.Q29_4.[Hoe regelmatig heb je de onderstaande zaken gegeten of gedronken in de afgelopen 3 maanden? - Vlees]'].apply(
    lambda x: None if pd.isna(x) else x not in ['Zelden', 'Nooit'])

QC['Nutrition.EatsFish'] = Qraw['Q1.Q29_6.[Hoe regelmatig heb je de onderstaande zaken gegeten of gedronken in de afgelopen 3 maanden? - Vis]'].apply(
    lambda x: None if pd.isna(x) else x in ['Zelden', 'Nooit'])

QC['Nutrition.EatsAnimals'] = Qraw['Q1.Q29_5.[Hoe regelmatig heb je de onderstaande zaken gegeten of gedronken in de afgelopen 3 maanden? - Dierlijke producten (eieren, kaas, gelatine,...)]'].apply(
    lambda x: None if pd.isna(x) else x in ['Zelden', 'Nooit'])

QC['Nutrition.Vegetarian'] = QC.apply(
    lambda x: None if any(pd.isna(x[['Nutrition.EatsMeat','Nutrition.EatsFish']])) else not(x['Nutrition.EatsFish'] or x['Nutrition.EatsMeat']), axis=1)

QC['Nutrition.Pescetarian'] = QC.apply(
    lambda x: None if any(pd.isna(x[['Nutrition.EatsMeat','Nutrition.EatsFish']])) else x['Nutrition.EatsFish'] and not(x['Nutrition.EatsMeat']), axis=1)

QC['Nutrition.Vegan'] = QC.apply(
    lambda x: None if any(pd.isna(x[['Nutrition.EatsMeat','Nutrition.EatsFish', 'Nutrition.EatsAnimals']])) else not(x['Nutrition.EatsFish'] or x['Nutrition.EatsMeat'] or x['Nutrition.EatsAnimals']), axis=1)


### Living environment

In [102]:

QC['Environment.Urban'] = Qraw['Q1.Q15.[Hoe zou je het gebied waar je nu woont omschrijven?]'].apply(
    lambda x: None if pd.isna(x) else x in ['Stadskern', 'Dorpskern', 'Residentiële woonwijk', 'Drukke baan', 'Industriezone'])

QC['Environment.Coutryside'] = Qraw['Q1.Q15.[Hoe zou je het gebied waar je nu woont omschrijven?]'].apply(
    lambda x: None if pd.isna(x) else x in ['Groene zone/ recreatiegebied/...', 'Landelijk gebied'])

### Belgium first three years of life

In [103]:
def is_belgium(v):
    if pd.isna(v):
        return None
    #fi
    v = v.lower()
    if 'belg' in v:
        return True
    elif v in ['be', 'antwerpen', 'neen', '0', 'geen', 'b', 'beglie' ]:
        return True
    else:
        return False
    #fi
#edef

QC['Environment.Belgium.First3Years'] = Qraw['Q1.Q9.[In welk(e) land(en) heb je gewoond tot en met je derde levensjaar? Indien dit enkel België is, mag je het ook opgeven.]'].apply(
    lambda x: is_belgium(x))

### Economic

In [104]:
QC['Environment.Economic.HouseholdContribution'] = Qraw['Q2.Q7.[Hoe groot is je aandeel aan het gezinsinkomen?]'].apply(
    lambda x: None if pd.isna(x) else {'Ik heb het grootste aandeel ': 3/4,
 'Ik draag als enige bij ': 4/4,
 'We dragen evenveel bij  ': 2/4,
 'Ik draag het minste bij  ': 1/4,
 'Ik draag niet bij  ': 0/4}.get(x, None))

QC['Environment.Economic.FinancialDifficulties'] = Qraw['Q2.Q4.[Kan je maandelijks rondkomen met de som van totaal beschikbaar gezinsinkomen (alles inbegrepen*)? \n\n\n\n* De leefomstandigheden van een huishouden hangen natuurlijk in belangrijke mate af van het inkomen. Het gaat hier over het totale beschikbare inkomen van de verschillende leden van het huishouden samen. Meerdere leden kunnen dus bijdragen. Het totale beschikbare inkomen van een huishouden bestaat uit, (1) netto-lonen, wedden en nettobedrijfsinkomens voor zelfstandigen, (2) sociale uitkeringen en kinderbijslagen, (3) bijkomende inkomens zoals huuropbrengsten, intresten e.a. De som van al deze inkomens voor alle personen uit je huishouden is het totale beschikbare inkomen van je huishouden.]'].apply(
    lambda x: None if pd.isna(x) else (x in ['Eerder moeilijk', 'Moeilijk', 'Zeer moeilijk']))

# Export cleaned questionnaire

In [105]:

#with RDM('../data/cleaned/IsalaFlow1.CleanedQuestionnaires.xlsx', 'w', nouser=True) as ofd:
   # QC.to_excel(ofd)
#ewith
QC.to_excel('../data/cleaned/IsalaFlow1.CleanedQuestionnaires.Kato.240923.xlsx')

#with RDM('../data/cleaned/IsalaFlow1.CleanedQuestionnaires.xlsx', 'w', nouser=True) as ofd:
    #QC.to_pickle(ofd)
#ewith
#QC.to_pickle('../data/cleaned/IsalaFlow1.CleanedQuestionnaires.xlsx')

In [109]:
QC.sample()

Unnamed: 0_level_0,IsalaID,General.Gender,General.Age,General.Height,General.Weight,General.Highest.Education,Health.BMI,Health.General.Q1.Good,Health.General.Q1.VeryGood,Health.General.Q1.Acceptable,...,Nutrition.EatsFish,Nutrition.EatsAnimals,Nutrition.Vegetarian,Nutrition.Pescetarian,Nutrition.Vegan,Environment.Urban,Environment.Coutryside,Environment.Belgium.First3Years,Environment.Economic.HouseholdContribution,Environment.Economic.FinancialDifficulties
idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
ISALA00200,ISALA00200,Vrouw,21.0,164.0,65.0,Secondary education,24.167162,True,False,False,...,False,False,False,False,False,True,False,True,,


In [207]:

list(Qraw)
Qraw.sample(n=10)

Unnamed: 0_level_0,Q0.Status,Q0.Deelnemersnummer,Q0.Leeftijd,Q0.Woonde in België voor de eerste 3 levensjaren,Q0.Zwanger,Q0.Anticonceptiemethode,Q0.Postcode,Q1.StartDate.[Start Date],Q1.EndDate.[End Date],Q1.Status.[Response Type],...,A.Isala ID,A.Arrival date,A.Sample date,A.Start menstrual cycle,A.Intercourse,A.day_of_cycle,Q1,Q2,A,A.Reproductive.Date.Last.Menstruation
idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
ISALA02629,active,ISALA02629,38.0,ja,2,Geen,2970,2020-04-23 05:31:30,2020-04-23 05:52:25,IP Address,...,,,,,,,True,False,False,NaT
ISALA01109,active,ISALA01109,30.0,nee,0,Spiraaltje,2000,2020-04-23 09:30:07,2020-04-23 09:51:02,IP Address,...,ISALA01109,2020-07-17 00:00:00,2020-07-15 00:00:00,2020-06-27 00:00:00,No,18.0,True,True,True,NaT
ISALA03194,active,ISALA03194,35.0,ja,2,Geen,8560,,,,...,,,,,,,False,False,False,NaT
ISALA04444,active,ISALA04444,28.0,ja,0,Geen,8550,,,,...,,,,,,,False,False,False,NaT
ISALA04137,active,ISALA04137,24.0,ja,0,Pleister,2800,2020-04-23 10:23:32,2020-04-29 04:13:09,IP Address,...,ISALA04137,2020-07-24 00:00:00,2020-07-16 00:00:00,2020-06-20 00:00:00,Blank,26.0,True,True,True,2020-06-26
ISALA03411,active,ISALA03411,36.0,ja,2,sterelisatie,8800,2020-04-23 06:15:13,2020-04-23 06:48:37,IP Address,...,ISALA03411,2020-08-25 00:00:00,2020-08-23 00:00:00,2020-08-04 00:00:00,No,19.0,True,True,True,2020-08-04
ISALA05409,active,ISALA05409,33.0,ja,5,Niks,8700,2020-04-29 03:42:22,2020-04-29 04:19:26,IP Address,...,,,,,,,True,False,False,NaT
ISALA05698,active,ISALA05698,46.0,ja,2,Geen,2950,2020-04-23 10:03:46,2020-04-23 10:36:14,IP Address,...,ISALA05698,2020-07-29 00:00:00,2020-07-27 00:00:00,NVT,No,,True,True,True,NaT
ISALA02661,active,ISALA02661,19.0,ja,0,spiraal,2100,2020-04-26 12:18:27,2020-04-29 11:09:47,IP Address,...,ISALA02661,2020-08-05 00:00:00,2020-08-02 00:00:00,2020-07-15 00:00:00,No,18.0,True,True,True,NaT
ISALA01480,active,ISALA01480,22.0,ja,0,Hormoonspiraal,2830,2020-04-23 04:05:52,2020-04-23 06:05:47,IP Address,...,ISALA01480,2020-07-16 00:00:00,2020-07-15 00:00:00,2020-07-04 00:00:00,No,11.0,True,True,True,2020-07-04
