In [1]:
import pandas as pd
import numpy as np
import re
import datetime

In [2]:
# Importing the dataset
df = pd.read_excel('./question_v1.xlsx', sheet_name='Copy')
data = df.copy()

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 97 entries, 0 to 96
Columns: 318 entries, Foldername to EDUCATION
dtypes: float64(41), object(277)
memory usage: 241.1+ KB


Handling date de naissance

In [3]:
# Date de naissance column : VINCQ32DDN [TO HANDLE]
# Covert '1947-07-01 00:00:00' to 'Age: 73'
def date_naissance_col(x):
    """
    Convert '1947-07-01 00:00:00' to 'Age: 73'
    """
    if pd.isnull(x):
        return np.nan
    elif isinstance(x, str):
        try:
            # Try to parse the date
            date_of_birth = datetime.datetime.strptime(x, '%Y-%m-%d %H:%M:%S')
            # Calculate and return the age
            return datetime.datetime.now().year - date_of_birth.year
        except ValueError:
            # If the date parsing fails, return the original value
            return x
    return x

data['VINCQ32DDN'] = data['VINCQ32DDN'].apply(date_naissance_col)


Custom Encoding #0 : Oui & Non

In [4]:
def custom_encoding_0(x):
    """
    Encode 'Oui' and 'Non' to 1 and 0
    """
    if x in ['Non', 'NON (2)', 'Non (0)', 'NON ( 0 points)']:
        return 0
    elif x in ['Oui', 'OUI (1)', 'Oui (1) (Spécifier)', 'OUI (4 points)' ]:
        return 1
    elif x == 'PARFOIS ( 2 points)':
        return 0.5
    elif x == 'NaN':
        return np.nan
    elif x == 'Ne sait pas':
        return np.nan
    else:
        return x
    
data = data.applymap(custom_encoding_0)

HADS001

In [5]:
# Encoding 'Jamais' -> `0`, 'Souvent' -> `1`, 'De temps en temps' -> `2`, 'La plupart du temps' -> `3`
def custom_encoding_1(x):
    if x == 'Jamais':
        return 0
    elif x == 'Souvent':
        return 1
    elif x == 'De temps en temps':
        return 2
    elif x == 'La plupart du temps':
        return 3
    elif pd.isnull(x):
        return np.nan
    else:
        return x
    
data['HADS001'] = data['HADS001'].apply(custom_encoding_1)


HADS002

In [6]:
# Encoding 'Pas autant' -> `0`, 'Un peu seulement' -> `1`, 'Presque plus' -> `2`, 'Oui, tout autant' -> `3`
def custom_encoding_2(x):
    if x == 'Pas autant':
        return 0
    elif x == 'Un peu seulement':
        return 1
    elif x == 'Presque plus':
        return 2
    elif x == 'Oui, tout autant':
        return 3
    elif pd.isnull(x):
        return np.nan
    else:
        return x
    
data['HADS002'] = data['HADS002'].apply(custom_encoding_2)

In [8]:
# Encoding 'Pas du tout' -> `0`, 'Un peu, mais cela ne m’inquiète pas' -> `1`, 'Oui, mais ce n’est pas trop grave' -> `2`, 'Oui, très nettement' -> `3`
def custom_encoding_3(x):
    if x == 'Pas du tout':
        return 0
    elif x == 'Un peu, mais cela ne m’inquiète pas':
        return 1
    elif x == 'Oui, mais ce n’est pas trop grave':
        return 2
    elif x == 'Oui, très nettement':
        return 3
    elif pd.isnull(x):
        return np.nan
    else:
        return x
    
data['HADS003'] = data['HADS003'].apply(custom_encoding_3)


In [10]:
# Encoding 'Vraiment moins qu’avant' -> `0`, 'Plus du tout' -> `1`, 'Plus autant qu’avant' -> `2`, 'Autant que par le passé' -> `3`
def custom_encoding_4(x):
    if x == 'Vraiment moins qu’avant':
        return 0
    elif x == 'Plus du tout':
        return 1
    elif x == 'Plus autant qu’avant':
        return 2
    elif x == 'Autant que par le passé':
        return 3
    elif pd.isnull(x):
        return np.nan
    else:
        return x
    
data['HADS004'] = data['HADS004'].apply(custom_encoding_4)


In [11]:
# Encoding 'Très occasionnellement' -> `0`, 'Occasionnellement' -> `1`, 'Assez souvent' -> `2`, 'Très souvent' -> `3`
def custom_encoding_5(x):
    if x == 'Très occasionnellement':
        return 0
    elif x == 'Occasionnellement':
        return 1
    elif x == 'Assez souvent':
        return 2
    elif x == 'Très souvent':
        return 3
    elif pd.isnull(x):
        return np.nan
    else:
        return x
    
data['HADS005'] = data['HADS005'].apply(custom_encoding_5)

In [12]:
# Encoding 'Rarement' -> `0`, 'Assez souvent' -> `1`, 'La plupart du temps' -> `2`
def custom_encoding_6(x):
    if x == 'Rarement':
        return 0
    elif x == 'Assez souvent':
        return 1
    elif x == 'La plupart du temps':
        return 2
    elif pd.isnull(x):
        return np.nan
    else:
        return x
    
data['HADS006'] = data['HADS006'].apply(custom_encoding_6)

In [13]:
# Encoding 'Jamais' -> `0`, 'Rarement' -> `1`, 'Oui, en général' -> `2`, 'Oui, quoi qu’il arrive' -> `3`
def custom_encoding_7(x):
    if x == 'Jamais':
        return 0
    elif x == 'Rarement':
        return 1
    elif x == 'Oui, en général':
        return 2
    elif x == 'Oui, quoi qu’il arrive':
        return 3
    elif pd.isnull(x):
        return np.nan
    else:
        return x
    
data['HADS007'] = data['HADS007'].apply(custom_encoding_7)


In [14]:
# Encoding 'Jamais' -> `0`, 'Parfois' -> `1`, 'Très souvent' -> `2`, 'Presque toujours' -> `3`
def custom_encoding_8(x):
    if x == 'Jamais':
        return 0
    elif x == 'Parfois':
        return 1
    elif x == 'Très souvent':
        return 2
    elif x == 'Presque toujours':
        return 3
    elif pd.isnull(x):
        return np.nan
    else:
        return x
    
data['HADS008'] = data['HADS008'].apply(custom_encoding_8)

In [15]:
# Encoding 'Jamais' -> `0`, 'Parfois' -> `1`, 'Assez souvent' -> `2`, 'Très souvent' -> `3`
def custom_encoding_9(x):
    if x == 'Jamais':
        return 0
    elif x == 'Parfois':
        return 1
    elif x == 'Assez souvent':
        return 2
    elif x == 'Très souvent':
        return 3
    elif pd.isnull(x):
        return np.nan
    else:
        return x
    
data['HADS009'] = data['HADS009'].apply(custom_encoding_9)


In [16]:
# Encoding 'Plus du tout' -> `0`, 'Je n’y accorde pas autant d’attention que je devrais' -> `1`, 'Il se peut que je n’y fasse plus autant attention' -> `2`, 'J’y prête autant d’attention que par le passé' -> `3`
def custom_encoding_10(x):
    if x == 'Plus du tout':
        return 0
    elif x == 'Je n’y accorde pas autant d’attention que je devrais':
        return 1
    elif x == 'Il se peut que je n’y fasse plus autant attention':
        return 2
    elif x == 'J’y prête autant d’attention que par le passé':
        return 3
    elif pd.isnull(x):
        return np.nan
    else:
        return x
    
data['HADS010'] = data['HADS010'].apply(custom_encoding_10)

In [17]:
# Encoding 'Pas du tout' -> `0`, 'Pas tellement' -> `1`, 'Un peu' -> `2`, 'Oui, c’est tout à fait le cas' -> `3`
def custom_encoding_11(x):
    if x == 'Pas du tout':
        return 0
    elif x == 'Pas tellement':
        return 1
    elif x == 'Un peu':
        return 2
    elif x == 'Oui, c’est tout à fait le cas':
        return 3
    elif pd.isnull(x):
        return np.nan
    else:
        return x
    
data['HADS011'] = data['HADS011'].apply(custom_encoding_11)

In [18]:
# Encoding 'Presque jamais' -> `0`, 'Bien moins qu’avant' -> `1`, 'Un peu moins qu’avant' -> `2`, 'Autant qu’avant' -> `3`
def custom_encoding_12(x):
    if x == 'Presque jamais':
        return 0
    elif x == 'Bien moins qu’avant':
        return 1
    elif x == 'Un peu moins qu’avant':
        return 2
    elif x == 'Autant qu’avant':
        return 3
    elif pd.isnull(x):
        return np.nan
    else:
        return x
    
data['HADS012'] = data['HADS012'].apply(custom_encoding_12)

In [19]:
# Encoding 'Jamais' -> `0`, 'Pas très souvent' -> `1`, 'Assez souvent' -> `2`, 'Vraiment très souvent' -> `3`
def custom_encoding_13(x):
    if x == 'Jamais':
        return 0
    elif x == 'Pas très souvent':
        return 1
    elif x == 'Assez souvent':
        return 2
    elif x == 'Vraiment très souvent':
        return 3
    elif pd.isnull(x):
        return np.nan
    else:
        return x
    
data['HADS013'] = data['HADS013'].apply(custom_encoding_13)

In [20]:
# Encoding 'Très rarement' -> `0`, 'Rarement' -> `1`, 'Parfois' -> `2`, 'Souvent' -> `3`
def custom_encoding_14(x):
    if x == 'Très rarement':
        return 0
    elif x == 'Rarement':
        return 1
    elif x == 'Parfois':
        return 2
    elif x == 'Souvent':
        return 3
    elif pd.isnull(x):
        return np.nan
    else:
        return x
    
data['HADS014'] = data['HADS014'].apply(custom_encoding_14)

In [21]:
# Encoding 'Pas du tout' -> `0`, 'Un peu' -> `1`, 'Assez' -> `2`, 'Beaucoup' -> `3` to all data
def custom_encoding_15(x):
    if x == 'Pas du tout':
        return 0
    elif x == 'Un peu':
        return 1
    elif x == 'Assez':
        return 2
    elif x == 'Beaucoup':
        return 3
    elif pd.isnull(x):
        return np.nan
    else:
        return x

data = data.applymap(custom_encoding_15)


In [22]:
# Encode '0' -> `0` , ['1 à 2 fois', 'Plus de 1'] -> `1` , 'Plus de 2 fois' -> `2` to FRAGIRE02 and FRAGIRE 15 columns
def custom_encoding_16(x):
    if x == 0 :
        return 0
    elif x in ["1 à 2 fois", "Plus de 1"]:
        return 1
    elif x == 'Plus de 2 fois':
        return 2
    elif pd.isnull(x):
        return np.nan
    else:
        return x
    
data['FRAGIRE02'] = data['FRAGIRE02'].apply(custom_encoding_16)
data['FRAGIRE15'] = data['FRAGIRE15'].apply(custom_encoding_16)

In [23]:
# Encode by extracting the number in parenthesis from the string
def extract_number(value):
    """
    Return only the numeric part of the string
    """
    if pd.isnull(value):
        return np.nan
    elif isinstance(value, str):
        match = re.search(r'\((\d+)\)', value)
        if match:
            return int(match.group(1))
    return value

# Apply to all columns
data = data.applymap(extract_number)


In [30]:
# Medication columns
medication = data.iloc[:, 142:172]
medication_cols = medication.columns.to_list()


In [29]:
from sklearn.preprocessing import OneHotEncoder
def one_hot_encoding(df, cols):
    """
    OneHot Encoding of some columns with sklearn
    :param df: DataFrame
    :param cols: list of columns to encode
    :return: DataFrame
    """
    # convert values to string
    for col in cols:
        df[col] = df[col].astype(str)

    enc = OneHotEncoder(handle_unknown='ignore')
    enc_df = pd.DataFrame(enc.fit_transform(df[cols]).toarray())
    enc_df.columns = enc.get_feature_names_out(cols)
    df = df.drop(cols, axis=1)
    df = df.join(enc_df)
    return df

# Encode the medication names
data = one_hot_encoding(data, medication_cols)
# One-Hot encoding of `RETRAITE - DOMAINE - EDUCATION` columns
data = one_hot_encoding(data, ['RETRAITE', 'DOMAINE', 'EDUCATION'])

In [34]:
# Encode `CORRECT (1 points)` -> `1`, `INCORRECT (0 points)` -> `0`
def custom_encoding_17(x):
    if x == 'CORRECTE (1 point)':
        return 1
    elif x == 'INCORRECTE (0 point)':
        return 0
    elif pd.isnull(x):
        return np.nan
    else:
        return x
    
data = data.applymap(custom_encoding_17)

In [43]:
# Encode `Maintenu pendant 10 s (1 point)` and `Maintenu pendant 10 s` -> `1`, `Tenu pendant 3 à 9,99 s` -> `0.5`,  `Non tenté` and `Tenu pendant un temps inférieur à 3 s` and `Non maintenu pendant 10 s` -> `0`
def custom_encoding_18(x):
    if x in ['Maintenu pendant 10 s (1 point)', 'Maintenu pendant 10 s']:
        return 1
    elif x == 'Tenu pendant 3 à 9,99 s':
        return 0.5
    elif x in ['Non tenté', 'Tenu pendant un temps inférieur à 3 s', 'Non maintenu pendant 10 s']:
        return 0
    elif pd.isnull(x):
        return np.nan
    else:
        return x
    
data = data.applymap(custom_encoding_18)


In [46]:
# Encode `Le participant s'est tenu debout sans utiliser les bras → Aller au test du levé de chaise répétée` -> `1`, `Le participant a utilisé les bras pour se tenir debout → Fin du test` -> `0`
def custom_encoding_19(x):
    if x == 'Le participant s\'est tenu debout sans utiliser les bras → Aller au test du levé de chaise répétée':
        return 1
    elif x == 'Le participant a utilisé les bras pour se tenir debout → Fin du test':
        return 0
    elif pd.isnull(x):
        return np.nan
    else:
        return x
    
data['SPPB8'] = data['SPPB8'].apply(custom_encoding_19)



In [50]:
# Encde `Aucune` -> `0`, `1-3 verres` -> `1`, `4-10 verres` -> `2`, `11+ verres` -> `3`
def custom_encoding_20(x):
    if x == 'Aucune':
        return 0
    elif x == '1-3 verres':
        return 1
    elif x == '4-10 verres':
        return 2
    elif x == '11+ verres':
        return 3
    elif pd.isnull(x):
        return np.nan
    else:
        return x
    
data['FROPCOM0016'] = data['FROPCOM0016'].apply(custom_encoding_20)

In [53]:
# Encode `Aucune ou principalement sédentaire` -> `0`, `Activité physique régulière (au moins 2-4 heures par semaine)` -> `1`.
def custom_encoding_21(x):
    if x == 'Aucune ou principalement sédentaire':
        return 0
    elif x == 'Activité physique régulière (au moins 2-4 heures par semaine)':
        return 1
    elif pd.isnull(x):
        return np.nan
    else:
        return x
    
data['EXAMCLIN02'] = data['EXAMCLIN02'].apply(custom_encoding_21)

In [58]:
# Encode `Je n'ai pas réalisé de visite d'évaluation`, `Je n'ai pas réalisé de visite d'évaluation / Je ne sais pas` -> `0`
def custom_encoding_22(x):
    if x in ['Je n\'ai pas réalisé de visite d\'évaluation', 'Je n\'ai pas réalisé de visite d\'évaluation / Je ne sais pas']:
        return 0
    elif pd.isnull(x):
        return np.nan
    else:
        return x

data = data.applymap(custom_encoding_22)


In [64]:
# Encode `0` -> `0`, `1 fois` -> `1`, `2 fois` -> `2`, `3 fois ou plus` -> `3`
def custom_encoding_23(x):
    if x == 0:
        return 0
    elif x == '1 fois':
        return 1
    elif x == '2 fois':
        return 2
    elif x == '3 fois ou plus':
        return 3
    elif pd.isnull(x):
        return np.nan
    else:
        return x
    
data['FROPCOM0001'] = data['FROPCOM0001'].apply(custom_encoding_23)


In [67]:
# Encode `REUSSITE` -> `1`, `ECHEC` -> `0`
def custom_encoding_24(x):
    if x == 'REUSSITE':
        return 1
    elif x == 'ECHEC':
        return 0
    elif pd.isnull(x):
        return np.nan
    else:
        return x
    
data = data.applymap(custom_encoding_24)

In [71]:
# Encode 3/60' -> 1, '6/60' -> 2, '6/18' -> 3
def custom_encoding_25(x):
    if x == '3/60':
        return 1
    elif x == '6/60':
        return 2
    elif x == '6/18':
        return 3
    elif pd.isnull(x):
        return np.nan
    else:
        return x
    
data = data.applymap(custom_encoding_25)


In [None]:
# save the encoded data
data.to_excel('./encoded_data.xlsx', index=False)