In [1]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

In [2]:
PATH = './MNT.xlsx'
df = pd.read_excel(PATH)
df.shape

(106, 75)

In [3]:
# remove useless columns
df.drop(columns=[col for col in df.columns if any([word in col for word in [
        "Score", "Commentaires", "Horodateur", "Unnamed"]])], inplace=True)
df.columns

Index(['1.sexe', '2.wilaya', '2.Quel âge avez-vous ?                ',
       '3.Quel est votre niveau d'étude \t\t\t\t',
       '4.Quelles est votre activité  professionnelle                                 ',
       '5.Fumez-vous actuellement des produits à base de tabac tels que cigarettes, cigares ?',
       '6.si oui Fumez-vous quotidiennement ?',
       '7.A quel âge avez-vous commencé à fumer?',
       '8. Pourquoi avez-vous débuté à fumer?                                        ',
       '9. souhaitez-vous arrêter de fumer?',
       '9.avez-vous consommé une boisson alcoolisée?                                                                ',
       '10.à quelle fréquence avez-vous bu au moins une boisson alcoolisée ?"                                                                ',
       '14.Habituellement, combien de jours par semaine consommez-vous des fruits ?',
       '15.Habituellement, combien de jours par semaine consommez-vous des légumes ?',
       ' 16.Quelle sorte

In [4]:
# updating column names

new_columns = {
    "1.sexe" : "sexe",
    "2.wilaya" : "wilaya",
    "2.Quel âge avez-vous ?                ": "age",
    "3.Quel est votre niveau d'étude \t\t\t\t":"niveau_etude",
    "4.Quelles est votre activité  professionnelle                                 ": "activite",
    "5.Fumez-vous actuellement des produits à base de tabac tels que cigarettes, cigares ?" : "fumeur",
    "6.si oui Fumez-vous quotidiennement ?":"fumeur_quotidien",
    "7.A quel âge avez-vous commencé à fumer?":"age_debut_fumeur",
    "8. Pourquoi avez-vous débuté à fumer?                                        ":"raison_debut_fumeur",
    "9. souhaitez-vous arrêter de fumer?": "souhaite_arreter_fumer",
    "9.avez-vous consommé une boisson alcoolisée?                                                                ":"consommation_alcol",
    '10.à quelle fréquence avez-vous bu au moins une boisson alcoolisée ?"                                                                ': "frequence_consommation_alcol",
    "14.Habituellement, combien de jours par semaine consommez-vous des fruits ?":"frequence_consommation_fruit",
    "15.Habituellement, combien de jours par semaine consommez-vous des légumes ?":"frequence_consommation_legume",
    "15.Habituellement, combien de jours par semaine consommez-vous des légumes ?":"frequence_consommation_legume",
    " 16.Quelle sorte de matière grasse (huile, beurre…)utilisez-vous le plus souvent pour la préparation des repas à la maison ?":"matiere_grasse",
    "17.Habituellement, combien de jours par semaine effectuez-vous des activités physiques?":"activite_physique",
    "18.vous inscrivez dans une salle de sport?":"inscription_sport",
    "19.Est-ce que votre travail implique des activités physiques d'intensité modérée, comme une marche rapide ?":"activite_physique_travail",
    "20.Est-ce que vous effectuez des trajets d’au moins 10 minutes à pied ou à vélo ?":"activite_physique_trajet1",
    "21.Habituellement, combien de jours par semaine effectuez-vous des trajets d’au moins 30 minutes à pied ou à vélo ?":"activite_physique_trajet2",
    "22.Est-ce que vous pratiquez des sports, du fitness ou des activités de loisirs pendant au moins dix minutes d'affilée ?":"sport",
    "23.Combien de temps avez-vous passé en position assise ou couchée lors d'une journée habituelle ?":"temps_position_assise",
    "24.avez vous d'autres maladies chroniques dans la famille? diabète, la tension, ":"maladie_chronique_famille_bool",
    "25.si oui c'est quoi la maladies?":"maladie_chronique_famille",
}

df.rename(columns=new_columns, inplace=True)
df.columns


Index(['sexe', 'wilaya', 'age', 'niveau_etude', 'activite', 'fumeur',
       'fumeur_quotidien', 'age_debut_fumeur', 'raison_debut_fumeur',
       'souhaite_arreter_fumer', 'consommation_alcol',
       'frequence_consommation_alcol', 'frequence_consommation_fruit',
       'frequence_consommation_legume', 'matiere_grasse', 'activite_physique',
       'inscription_sport', 'activite_physique_travail',
       'activite_physique_trajet1', 'activite_physique_trajet2', 'sport',
       'temps_position_assise', 'maladie_chronique_famille_bool',
       'maladie_chronique_famille'],
      dtype='object')

In [5]:
# transformin wilaya names to french

arabic_to_french = {
    'ولاية الجزائر': 'Alger',
    'ولاية قسنطينة': 'Constantine',
    'ولاية تيزي وزو': 'Tizi Ouzou',
    'ولاية البليدة': 'Blida',
    'ولاية جيجل': 'Jijel',
    'ولاية معسكر': 'Mascara',
    'ولاية سكيكدة': 'Skikda',
    'ولاية أم البواقي': 'Oum El Bouaghi',
    'ولاية باتنة': 'Batna',
    'ولاية الشلف': 'Chlef',
    'ولاية تيارت': 'Tiaret',
    'ولاية تلمسان': 'Tlemcen',
    'ولاية بجاية': 'Bejaia',
    'ولاية سطيف': 'Setif',
    'ولاية سيدي بلعباس': 'Sidi Bel Abbes',
    'ولاية البويرة': 'Bouira',
    'ولاية ورقلة': 'Ouargla',
    'ولاية وهران': 'Oran'
}

df['wilaya'] = df['wilaya'].map(arabic_to_french)
df.value_counts("wilaya")

wilaya
Alger             36
Constantine        8
Tizi Ouzou         6
Blida              6
Jijel              4
Chlef              2
Mascara            2
Batna              2
Skikda             2
Oum El Bouaghi     2
Sidi Bel Abbes     1
Tiaret             1
Oran               1
Setif              1
Ouargla            1
Bouira             1
Bejaia             1
Tlemcen            1
Name: count, dtype: int64

In [6]:
# transforming age values to numeric

df['age'] = df['age'].astype('str').str.replace('ans', '')
df['age'] = pd.to_numeric(df['age'], errors='coerce')
df['age'].value_counts()

age
19.0    20
21.0    14
18.0    10
20.0    10
26.0     5
23.0     5
37.0     4
27.0     4
33.0     3
35.0     3
22.0     3
25.0     3
30.0     3
32.0     3
38.0     2
28.0     2
29.0     2
24.0     2
31.0     1
48.0     1
34.0     1
64.0     1
56.0     1
44.0     1
45.0     1
Name: count, dtype: int64

In [7]:
df["niveau_etude"].value_counts()

niveau_etude
universitaire       101
école secondaire      3
lycée                 2
Name: count, dtype: int64

In [8]:
df['age_debut_fumeur'] = df['age_debut_fumeur'].astype('str').str.replace('ans', '')
df['age_debut_fumeur'] = pd.to_numeric(df['age_debut_fumeur'], errors='coerce')
df['age_debut_fumeur'].value_counts()

age_debut_fumeur
20.0    1
25.0    1
23.0    1
15.0    1
24.0    1
12.0    1
16.0    1
19.0    1
Name: count, dtype: int64

In [9]:
df['souhaite_arreter_fumer']=df['souhaite_arreter_fumer'].astype('str').str.lower()
df.loc[~df['souhaite_arreter_fumer'].isin(
    ["oui", "non"]), 'souhaite_arreter_fumer'] = np.nan

df['souhaite_arreter_fumer'].value_counts()

souhaite_arreter_fumer
oui    8
non    4
Name: count, dtype: int64

In [10]:
df.columns

Index(['sexe', 'wilaya', 'age', 'niveau_etude', 'activite', 'fumeur',
       'fumeur_quotidien', 'age_debut_fumeur', 'raison_debut_fumeur',
       'souhaite_arreter_fumer', 'consommation_alcol',
       'frequence_consommation_alcol', 'frequence_consommation_fruit',
       'frequence_consommation_legume', 'matiere_grasse', 'activite_physique',
       'inscription_sport', 'activite_physique_travail',
       'activite_physique_trajet1', 'activite_physique_trajet2', 'sport',
       'temps_position_assise', 'maladie_chronique_famille_bool',
       'maladie_chronique_famille'],
      dtype='object')

In [11]:
df["inscription_sport"] =df["inscription_sport"].apply(lambda x: "non" if x.lower() == "non" else   "oui" if x.strip() else np.nan)
df["inscription_sport"].value_counts()


inscription_sport
non    88
oui    18
Name: count, dtype: int64

In [12]:
df["sport"]=df["sport"].str.lower()
df["sport"].value_counts()

sport
non    62
oui    44
Name: count, dtype: int64

In [13]:
df["maladie_chronique_famille_bool"] = df["maladie_chronique_famille_bool"].apply(lambda x: "non" if x.lower() == "non" else  "oui" if x.strip() else np.nan)
df["maladie_chronique_famille_bool"].value_counts()

maladie_chronique_famille_bool
oui    74
non    32
Name: count, dtype: int64

In [14]:
import re

def clean_temps_position_assise(value):
    if value is np.nan :
        return np.nan
    value = str(value).lower().replace(
        "heures", "").replace("heure", "").replace("h", "").replace("ساعات", "").replace("plus de", "").replace("par jour","").replace("assise","").replace("et plus","")
    
    sep =  ["+", "à","-","min","ou"," _ "]
    for i,s in enumerate(sep):
        if s in value:
            values = [ ''.join(re.findall(r'\d', x)) for x in value.split(sep[i]) if x.strip() ]
            return int( sum([ int(x) for x in values if x.isnumeric() ])/2 )

    if "la plupart du temps" in value or "toute la journée" in value or "la plupart de mon temps" in value:
        return 15

    if "%" in value : 
        return round(float(value.split("%")[0])/100*24)
    
    return int(value)
    


df["temps_position_assise"] = df["temps_position_assise"].apply(clean_temps_position_assise)
df["temps_position_assise"].value_counts()

temps_position_assise
8         14
10         5
2          3
8          3
0.0        3
6          3
10.0       3
6          3
15.0       3
2          3
9          2
16         2
20         2
7          2
14         2
10         2
5.0        2
5          1
15         1
 2         1
17         1
8.5        1
4.5        1
15         1
10.5       1
 12        1
24         1
28.0       1
12         1
7          1
16.5       1
24         1
9.0        1
22         1
6.5        1
  2        1
3          1
5          1
8          1
4          1
4          1
5 _ 6      1
2          1
7.5        1
1          1
Name: count, dtype: int64

In [108]:
def clean_maladies(value):
    if value is np.nan :
        return "None"
    value = str(value).lower()
    if "hta" in value or "tension" in value or "hypertension" in value:
        return "Hypertension"
    elif "diabete" in value.replace("è","e") :
        return "Diabetes"
    elif "asma" in value or "asthme" in value or "asthmatique" in value or "les trois" in value:
        return "Asthma"
    elif "aucune" in value or "non" in value or value.strip() == "" or value.strip() == "nan" or value == np.nan:
        return "None"
    else:
        return "Others"


df["maladie_chronique_famille"] = df["maladie_chronique_famille"].apply(clean_maladies)  
df["maladie_chronique_famille"].value_counts() 

maladie_chronique_famille
None            35
Diabetes        34
Hypertension    26
Asthma           6
Others           5
Name: count, dtype: int64

In [109]:
df["matiere_grasse"].value_counts()

matiere_grasse
Huile végétale                 87
Margarine                       7
Beurre ou beurre allégé         5
autre                           5
Zit ziton                       1
Margarine et huile végétale     1
Name: count, dtype: int64

In [110]:
def clean_huile(value):
    if value is np.nan or "beurre" in value.lower() or "margarine" in value.lower() :
        return "Beurre"
    else :
        return value
    
df["matiere_grasse"] = df["matiere_grasse"].apply(clean_huile)

In [111]:
def categorize_age(value):

    if value is np.nan or value < 20:
        return "<20 ans"
    elif value < 30:
        return "20-29 ans"
    elif value < 40:
        return "30-39 ans"
    else:
        return "plus de 40 ans"


In [112]:
def categorize_frequence(value):
    if value in [0,1] or value is np.nan :
        return "Rarely"
    elif value in [2,3] :
        return "Occasionally"
    else :
        return "Frequently"
    
df["frequence_consommation_fruit"] = df["frequence_consommation_fruit"].apply(categorize_frequence)
df["frequence_consommation_legume"] = df["frequence_consommation_legume"].apply(categorize_frequence)
df["activite_physique"] = df["activite_physique"].apply(
    categorize_frequence)
df["age"] = df["age"].apply(categorize_age)

In [113]:

df.columns

Index(['sexe', 'wilaya', 'age', 'niveau_etude', 'activite', 'fumeur',
       'fumeur_quotidien', 'age_debut_fumeur', 'raison_debut_fumeur',
       'souhaite_arreter_fumer', 'consommation_alcol',
       'frequence_consommation_alcol', 'frequence_consommation_fruit',
       'frequence_consommation_legume', 'matiere_grasse', 'activite_physique',
       'inscription_sport', 'activite_physique_travail',
       'activite_physique_trajet1', 'activite_physique_trajet2', 'sport',
       'temps_position_assise', 'maladie_chronique_famille_bool',
       'maladie_chronique_famille'],
      dtype='object')

In [114]:

def generated_group_csv(groupe_col,sexe):
    desired_order = [groupe_col, 'Diabete',
                     'Asthme', 'HTA', 'Autres', 'Aucune']

    df_sexe = df[df["sexe"]==sexe]
    print(df["matiere_grasse"].value_counts())
    grouped_data = df_sexe.groupby(
        [groupe_col, 'maladie_chronique_famille']).size().reset_index(name='count')
    pivot_table = grouped_data.pivot_table(index=groupe_col,
                                       columns='maladie_chronique_famille', values='count', aggfunc='sum', fill_value=0)
    
    df_rearranged = pivot_table[desired_order]
    pivot_table.to_csv(f"group_{groupe_col}_{sexe}.csv")

In [115]:
for col in ["activite_physique", "frequence_consommation_legume", "frequence_consommation_fruit", "matiere_grasse", "fumeur", "activite","age"]:
    generated_group_csv(col,"homme")
    generated_group_csv(col, "femme")

matiere_grasse
Huile végétale    87
Beurre            13
autre              5
Zit ziton          1
Name: count, dtype: int64


KeyError: "None of [Index(['activite_physique', 'Diabete', 'Asthme', 'HTA', 'Autres', 'Aucune'], dtype='object', name='maladie_chronique_famille')] are in the [columns]"

In [None]:
df.to_excel("cleaned.xlsx" ,index=False)